seed-training / trainer_state.json

Upload folder using huggingface_hub

492601b verified 4 months ago

192 kB

	{
	"best_global_step": 5400,
	"best_metric": 1.2261559963226318,
	"best_model_checkpoint": "./results-3/checkpoint-5400",
	"epoch": 8.0,
	"eval_steps": 150,
	"global_step": 6184,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"entropy": 1.4760531455278396,
	"epoch": 0.0129366106080207,
	"grad_norm": 1.3410229682922363,
	"learning_rate": 9.67741935483871e-06,
	"loss": 3.8342,
	"mean_token_accuracy": 0.40634620636701585,
	"num_tokens": 77854.0,
	"step": 10
	},
	{
	"entropy": 1.4689971387386322,
	"epoch": 0.0258732212160414,
	"grad_norm": 1.4104728698730469,
	"learning_rate": 2.0430107526881722e-05,
	"loss": 4.4137,
	"mean_token_accuracy": 0.3765578977763653,
	"num_tokens": 111064.0,
	"step": 20
	},
	{
	"entropy": 1.893897533416748,
	"epoch": 0.03880983182406209,
	"grad_norm": 0.8629273772239685,
	"learning_rate": 3.118279569892473e-05,
	"loss": 3.8151,
	"mean_token_accuracy": 0.38278606086969375,
	"num_tokens": 134712.0,
	"step": 30
	},
	{
	"entropy": 4.312886017560959,
	"epoch": 0.0517464424320828,
	"grad_norm": 0.0,
	"learning_rate": 4.1935483870967746e-05,
	"loss": 3.7735,
	"mean_token_accuracy": 0.19467806722968817,
	"num_tokens": 142734.0,
	"step": 40
	},
	{
	"entropy": 8.096190857887269,
	"epoch": 0.0646830530401035,
	"grad_norm": 0.0,
	"learning_rate": 5.268817204301075e-05,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 143374.0,
	"step": 50
	},
	{
	"entropy": 2.519210198521614,
	"epoch": 0.07761966364812418,
	"grad_norm": 0.46956390142440796,
	"learning_rate": 6.344086021505376e-05,
	"loss": 2.7759,
	"mean_token_accuracy": 0.4458329685032368,
	"num_tokens": 218138.0,
	"step": 60
	},
	{
	"entropy": 2.7062919318675993,
	"epoch": 0.09055627425614489,
	"grad_norm": 0.36261770129203796,
	"learning_rate": 7.419354838709677e-05,
	"loss": 2.5766,
	"mean_token_accuracy": 0.4825271964073181,
	"num_tokens": 250316.0,
	"step": 70
	},
	{
	"entropy": 2.5266534447669984,
	"epoch": 0.1034928848641656,
	"grad_norm": 0.39197003841400146,
	"learning_rate": 8.494623655913979e-05,
	"loss": 2.5861,
	"mean_token_accuracy": 0.47026830837130545,
	"num_tokens": 272857.0,
	"step": 80
	},
	{
	"entropy": 4.64949648976326,
	"epoch": 0.11642949547218628,
	"grad_norm": 0.0,
	"learning_rate": 9.56989247311828e-05,
	"loss": 2.5449,
	"mean_token_accuracy": 0.20907760383561252,
	"num_tokens": 279057.0,
	"step": 90
	},
	{
	"entropy": 6.761381912231445,
	"epoch": 0.129366106080207,
	"grad_norm": 0.0,
	"learning_rate": 0.0001064516129032258,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 279697.0,
	"step": 100
	},
	{
	"entropy": 2.331750747561455,
	"epoch": 0.1423027166882277,
	"grad_norm": 0.4349558353424072,
	"learning_rate": 0.00011720430107526883,
	"loss": 2.4607,
	"mean_token_accuracy": 0.4927462741732597,
	"num_tokens": 358859.0,
	"step": 110
	},
	{
	"entropy": 1.976218768954277,
	"epoch": 0.15523932729624837,
	"grad_norm": 0.24631856381893158,
	"learning_rate": 0.00012795698924731184,
	"loss": 2.038,
	"mean_token_accuracy": 0.564648849517107,
	"num_tokens": 391721.0,
	"step": 120
	},
	{
	"entropy": 2.3566002756357194,
	"epoch": 0.16817593790426907,
	"grad_norm": 0.33470404148101807,
	"learning_rate": 0.00013870967741935487,
	"loss": 2.3135,
	"mean_token_accuracy": 0.5072783440351486,
	"num_tokens": 415274.0,
	"step": 130
	},
	{
	"entropy": 3.8850305318832397,
	"epoch": 0.18111254851228978,
	"grad_norm": 0.0,
	"learning_rate": 0.00014946236559139787,
	"loss": 2.4748,
	"mean_token_accuracy": 0.29179108552634714,
	"num_tokens": 423127.0,
	"step": 140
	},
	{
	"entropy": 6.345981705188751,
	"epoch": 0.19404915912031048,
	"grad_norm": 0.0,
	"learning_rate": 0.00016021505376344087,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 423767.0,
	"step": 150
	},
	{
	"epoch": 0.19404915912031048,
	"eval_entropy": 3.4076465337082396,
	"eval_loss": 2.088292360305786,
	"eval_mean_token_accuracy": 0.3316028483731802,
	"eval_num_tokens": 423767.0,
	"eval_runtime": 243.9108,
	"eval_samples_per_second": 22.533,
	"eval_steps_per_second": 1.41,
	"step": 150
	},
	{
	"entropy": 2.2055542409420013,
	"epoch": 0.2069857697283312,
	"grad_norm": 0.31700077652931213,
	"learning_rate": 0.0001709677419354839,
	"loss": 2.4005,
	"mean_token_accuracy": 0.5007682546973229,
	"num_tokens": 500625.0,
	"step": 160
	},
	{
	"entropy": 1.8786041021347046,
	"epoch": 0.21992238033635186,
	"grad_norm": 0.24800752103328705,
	"learning_rate": 0.0001817204301075269,
	"loss": 1.8474,
	"mean_token_accuracy": 0.5935635283589363,
	"num_tokens": 534396.0,
	"step": 170
	},
	{
	"entropy": 2.263536959886551,
	"epoch": 0.23285899094437257,
	"grad_norm": 0.3183101415634155,
	"learning_rate": 0.00019247311827956992,
	"loss": 2.2154,
	"mean_token_accuracy": 0.518243944644928,
	"num_tokens": 558685.0,
	"step": 180
	},
	{
	"entropy": 4.052780479192734,
	"epoch": 0.24579560155239327,
	"grad_norm": 0.0,
	"learning_rate": 0.00019999987654768255,
	"loss": 2.3652,
	"mean_token_accuracy": 0.32749315425753595,
	"num_tokens": 566987.0,
	"step": 190
	},
	{
	"entropy": 4.421183264255523,
	"epoch": 0.258732212160414,
	"grad_norm": 0.0,
	"learning_rate": 0.0001999976818482961,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 567627.0,
	"step": 200
	},
	{
	"entropy": 2.0365082800388334,
	"epoch": 0.2716688227684347,
	"grad_norm": 0.2679975628852844,
	"learning_rate": 0.00019999274383338027,
	"loss": 2.1862,
	"mean_token_accuracy": 0.5347613260149956,
	"num_tokens": 644352.0,
	"step": 210
	},
	{
	"entropy": 1.8313011974096298,
	"epoch": 0.2846054333764554,
	"grad_norm": 0.2597528398036957,
	"learning_rate": 0.00019998506263840354,
	"loss": 1.8579,
	"mean_token_accuracy": 0.5869012281298638,
	"num_tokens": 676791.0,
	"step": 220
	},
	{
	"entropy": 2.229961010813713,
	"epoch": 0.2975420439844761,
	"grad_norm": 0.39198312163352966,
	"learning_rate": 0.00019997463847409023,
	"loss": 2.2158,
	"mean_token_accuracy": 0.5119729146361351,
	"num_tokens": 699604.0,
	"step": 230
	},
	{
	"entropy": 3.5435027480125427,
	"epoch": 0.31047865459249674,
	"grad_norm": 0.0,
	"learning_rate": 0.00019996147162641464,
	"loss": 2.2309,
	"mean_token_accuracy": 0.31516757532954215,
	"num_tokens": 706414.0,
	"step": 240
	},
	{
	"entropy": 3.784550839662552,
	"epoch": 0.32341526520051744,
	"grad_norm": 0.0,
	"learning_rate": 0.00019994556245659338,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 707054.0,
	"step": 250
	},
	{
	"entropy": 2.086453899741173,
	"epoch": 0.33635187580853815,
	"grad_norm": 0.2695913314819336,
	"learning_rate": 0.00019992691140107525,
	"loss": 2.2688,
	"mean_token_accuracy": 0.5183561690151691,
	"num_tokens": 787476.0,
	"step": 260
	},
	{
	"entropy": 1.80660640001297,
	"epoch": 0.34928848641655885,
	"grad_norm": 0.2775532603263855,
	"learning_rate": 0.0001999055189715294,
	"loss": 1.855,
	"mean_token_accuracy": 0.5896616145968437,
	"num_tokens": 820945.0,
	"step": 270
	},
	{
	"entropy": 2.265737462043762,
	"epoch": 0.36222509702457956,
	"grad_norm": 0.35880544781684875,
	"learning_rate": 0.0001998813857548313,
	"loss": 2.1884,
	"mean_token_accuracy": 0.5160560064017773,
	"num_tokens": 844570.0,
	"step": 280
	},
	{
	"entropy": 3.490731942653656,
	"epoch": 0.37516170763260026,
	"grad_norm": 0.0,
	"learning_rate": 0.0001998545124130466,
	"loss": 2.196,
	"mean_token_accuracy": 0.3669252373278141,
	"num_tokens": 852461.0,
	"step": 290
	},
	{
	"entropy": 3.8365337908267976,
	"epoch": 0.38809831824062097,
	"grad_norm": 0.0,
	"learning_rate": 0.00019982489968341292,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 853101.0,
	"step": 300
	},
	{
	"epoch": 0.38809831824062097,
	"eval_entropy": 2.108367764672568,
	"eval_loss": 1.785624623298645,
	"eval_mean_token_accuracy": 0.3863564946277197,
	"eval_num_tokens": 853101.0,
	"eval_runtime": 244.4512,
	"eval_samples_per_second": 22.483,
	"eval_steps_per_second": 1.407,
	"step": 300
	},
	{
	"entropy": 2.0010604202747344,
	"epoch": 0.40103492884864167,
	"grad_norm": 0.26067453622817993,
	"learning_rate": 0.00019979254837831976,
	"loss": 2.1888,
	"mean_token_accuracy": 0.527290866523981,
	"num_tokens": 932233.0,
	"step": 310
	},
	{
	"entropy": 1.8096002161502838,
	"epoch": 0.4139715394566624,
	"grad_norm": 0.3278159201145172,
	"learning_rate": 0.00019975745938528597,
	"loss": 1.8032,
	"mean_token_accuracy": 0.5965773060917854,
	"num_tokens": 965240.0,
	"step": 320
	},
	{
	"entropy": 2.239218121767044,
	"epoch": 0.4269081500646831,
	"grad_norm": 0.3497501611709595,
	"learning_rate": 0.00019971963366693574,
	"loss": 2.1853,
	"mean_token_accuracy": 0.5204933404922485,
	"num_tokens": 988836.0,
	"step": 330
	},
	{
	"entropy": 3.591762775182724,
	"epoch": 0.4398447606727037,
	"grad_norm": 0.0,
	"learning_rate": 0.0001996790722609719,
	"loss": 2.0384,
	"mean_token_accuracy": 0.3091650754213333,
	"num_tokens": 995598.0,
	"step": 340
	},
	{
	"entropy": 1.7911852180957795,
	"epoch": 0.45278137128072443,
	"grad_norm": 0.0,
	"learning_rate": 0.00019963577628014757,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 996238.0,
	"step": 350
	},
	{
	"entropy": 1.9936166375875473,
	"epoch": 0.46571798188874514,
	"grad_norm": 0.2826139032840729,
	"learning_rate": 0.00019958974691223572,
	"loss": 2.1339,
	"mean_token_accuracy": 0.5367397539317608,
	"num_tokens": 1068779.0,
	"step": 360
	},
	{
	"entropy": 1.7499752998352052,
	"epoch": 0.47865459249676584,
	"grad_norm": 0.25705066323280334,
	"learning_rate": 0.00019954098541999634,
	"loss": 1.7626,
	"mean_token_accuracy": 0.6045101627707481,
	"num_tokens": 1101822.0,
	"step": 370
	},
	{
	"entropy": 2.2398334205150605,
	"epoch": 0.49159120310478654,
	"grad_norm": 0.35060882568359375,
	"learning_rate": 0.00019948949314114208,
	"loss": 2.1407,
	"mean_token_accuracy": 0.5221379362046719,
	"num_tokens": 1125242.0,
	"step": 380
	},
	{
	"entropy": 3.20022537112236,
	"epoch": 0.5045278137128072,
	"grad_norm": 0.0,
	"learning_rate": 0.00019943527148830138,
	"loss": 2.1867,
	"mean_token_accuracy": 0.3573383778333664,
	"num_tokens": 1132694.0,
	"step": 390
	},
	{
	"entropy": 3.233865666389465,
	"epoch": 0.517464424320828,
	"grad_norm": 0.0,
	"learning_rate": 0.00019937832194897968,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 1133334.0,
	"step": 400
	},
	{
	"entropy": 1.883677563071251,
	"epoch": 0.5304010349288486,
	"grad_norm": 0.253384530544281,
	"learning_rate": 0.00019931864608551886,
	"loss": 2.065,
	"mean_token_accuracy": 0.5480175256729126,
	"num_tokens": 1208651.0,
	"step": 410
	},
	{
	"entropy": 1.8230630427598953,
	"epoch": 0.5433376455368694,
	"grad_norm": 0.27244824171066284,
	"learning_rate": 0.000199256245535054,
	"loss": 1.7993,
	"mean_token_accuracy": 0.5971413522958755,
	"num_tokens": 1241633.0,
	"step": 420
	},
	{
	"entropy": 2.1840337038040163,
	"epoch": 0.55627425614489,
	"grad_norm": 0.33489564061164856,
	"learning_rate": 0.00019919112200946878,
	"loss": 2.1355,
	"mean_token_accuracy": 0.523309488594532,
	"num_tokens": 1265245.0,
	"step": 430
	},
	{
	"entropy": 3.2613951563835144,
	"epoch": 0.5692108667529108,
	"grad_norm": 0.0,
	"learning_rate": 0.0001991232772953485,
	"loss": 2.0666,
	"mean_token_accuracy": 0.36050624772906303,
	"num_tokens": 1272655.0,
	"step": 440
	},
	{
	"entropy": 2.055793708562851,
	"epoch": 0.5821474773609314,
	"grad_norm": 0.0,
	"learning_rate": 0.0001990527132539308,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 1273295.0,
	"step": 450
	},
	{
	"epoch": 0.5821474773609314,
	"eval_entropy": 1.5776830232420633,
	"eval_loss": 1.6587693691253662,
	"eval_mean_token_accuracy": 0.40149001534595047,
	"eval_num_tokens": 1273295.0,
	"eval_runtime": 245.22,
	"eval_samples_per_second": 22.413,
	"eval_steps_per_second": 1.403,
	"step": 450
	},
	{
	"entropy": 1.9504007667303085,
	"epoch": 0.5950840879689522,
	"grad_norm": 0.2335178405046463,
	"learning_rate": 0.00019897943182105486,
	"loss": 2.1289,
	"mean_token_accuracy": 0.5388719126582145,
	"num_tokens": 1353662.0,
	"step": 460
	},
	{
	"entropy": 1.812851694226265,
	"epoch": 0.6080206985769728,
	"grad_norm": 0.27590492367744446,
	"learning_rate": 0.00019890343500710827,
	"loss": 1.79,
	"mean_token_accuracy": 0.5952848941087723,
	"num_tokens": 1386745.0,
	"step": 470
	},
	{
	"entropy": 2.1694509744644166,
	"epoch": 0.6209573091849935,
	"grad_norm": 0.36973315477371216,
	"learning_rate": 0.0001988247248969717,
	"loss": 2.1425,
	"mean_token_accuracy": 0.5235736042261123,
	"num_tokens": 1410114.0,
	"step": 480
	},
	{
	"entropy": 3.2446247756481172,
	"epoch": 0.6338939197930142,
	"grad_norm": 0.0,
	"learning_rate": 0.00019874330364996192,
	"loss": 2.0907,
	"mean_token_accuracy": 0.3589281477034092,
	"num_tokens": 1417385.0,
	"step": 490
	},
	{
	"entropy": 2.887257432937622,
	"epoch": 0.6468305304010349,
	"grad_norm": 0.0,
	"learning_rate": 0.00019865917349977242,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 1418025.0,
	"step": 500
	},
	{
	"entropy": 2.0031155347824097,
	"epoch": 0.6597671410090556,
	"grad_norm": 0.2290731519460678,
	"learning_rate": 0.00019857233675441217,
	"loss": 2.1288,
	"mean_token_accuracy": 0.5355072975158691,
	"num_tokens": 1498284.0,
	"step": 510
	},
	{
	"entropy": 1.7464266479015351,
	"epoch": 0.6727037516170763,
	"grad_norm": 0.27917975187301636,
	"learning_rate": 0.0001984827957961423,
	"loss": 1.7213,
	"mean_token_accuracy": 0.6062818467617035,
	"num_tokens": 1531645.0,
	"step": 520
	},
	{
	"entropy": 2.099287986755371,
	"epoch": 0.685640362225097,
	"grad_norm": 0.34847304224967957,
	"learning_rate": 0.00019839055308141078,
	"loss": 2.0957,
	"mean_token_accuracy": 0.5292750775814057,
	"num_tokens": 1555744.0,
	"step": 530
	},
	{
	"entropy": 2.987301951646805,
	"epoch": 0.6985769728331177,
	"grad_norm": 0.0,
	"learning_rate": 0.00019829561114078503,
	"loss": 2.035,
	"mean_token_accuracy": 0.35071768537163733,
	"num_tokens": 1563621.0,
	"step": 540
	},
	{
	"entropy": 1.7990713268518448,
	"epoch": 0.7115135834411385,
	"grad_norm": 0.0,
	"learning_rate": 0.00019819797257888237,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 1564261.0,
	"step": 550
	},
	{
	"entropy": 1.9829886645078658,
	"epoch": 0.7244501940491591,
	"grad_norm": 0.23086819052696228,
	"learning_rate": 0.00019809764007429874,
	"loss": 2.0682,
	"mean_token_accuracy": 0.546464990824461,
	"num_tokens": 1645469.0,
	"step": 560
	},
	{
	"entropy": 1.742349737882614,
	"epoch": 0.7373868046571799,
	"grad_norm": 0.2855489253997803,
	"learning_rate": 0.00019799461637953517,
	"loss": 1.7437,
	"mean_token_accuracy": 0.6023638218641281,
	"num_tokens": 1678187.0,
	"step": 570
	},
	{
	"entropy": 2.0789969861507416,
	"epoch": 0.7503234152652005,
	"grad_norm": 0.3439568877220154,
	"learning_rate": 0.00019788890432092211,
	"loss": 2.0849,
	"mean_token_accuracy": 0.5323359861969947,
	"num_tokens": 1701620.0,
	"step": 580
	},
	{
	"entropy": 3.068958950042725,
	"epoch": 0.7632600258732212,
	"grad_norm": 0.0,
	"learning_rate": 0.0001977805067985422,
	"loss": 2.0752,
	"mean_token_accuracy": 0.34963107854127884,
	"num_tokens": 1709495.0,
	"step": 590
	},
	{
	"entropy": 1.8244159191846847,
	"epoch": 0.7761966364812419,
	"grad_norm": 0.0,
	"learning_rate": 0.00019766942678615035,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 1710135.0,
	"step": 600
	},
	{
	"epoch": 0.7761966364812419,
	"eval_entropy": 1.7642724643959555,
	"eval_loss": 1.5706199407577515,
	"eval_mean_token_accuracy": 0.41619762856253356,
	"eval_num_tokens": 1710135.0,
	"eval_runtime": 241.9763,
	"eval_samples_per_second": 22.713,
	"eval_steps_per_second": 1.422,
	"step": 600
	},
	{
	"entropy": 2.0163265824317933,
	"epoch": 0.7891332470892626,
	"grad_norm": 0.21755698323249817,
	"learning_rate": 0.00019755566733109251,
	"loss": 2.083,
	"mean_token_accuracy": 0.5411292694509029,
	"num_tokens": 1791443.0,
	"step": 610
	},
	{
	"entropy": 1.7245848059654236,
	"epoch": 0.8020698576972833,
	"grad_norm": 0.288361519575119,
	"learning_rate": 0.0001974392315542218,
	"loss": 1.735,
	"mean_token_accuracy": 0.6052085891366005,
	"num_tokens": 1824564.0,
	"step": 620
	},
	{
	"entropy": 2.11205150783062,
	"epoch": 0.815006468305304,
	"grad_norm": 0.3383215069770813,
	"learning_rate": 0.000197320122649813,
	"loss": 2.1082,
	"mean_token_accuracy": 0.5229554586112499,
	"num_tokens": 1847974.0,
	"step": 630
	},
	{
	"entropy": 3.1667094111442564,
	"epoch": 0.8279430789133247,
	"grad_norm": 0.0,
	"learning_rate": 0.000197198343885475,
	"loss": 2.0386,
	"mean_token_accuracy": 0.3788307599723339,
	"num_tokens": 1855343.0,
	"step": 640
	},
	{
	"entropy": 4.338292050361633,
	"epoch": 0.8408796895213454,
	"grad_norm": 0.0,
	"learning_rate": 0.00019707389860206087,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 1855983.0,
	"step": 650
	},
	{
	"entropy": 2.0194253027439117,
	"epoch": 0.8538163001293662,
	"grad_norm": 0.2260085493326187,
	"learning_rate": 0.00019694679021357666,
	"loss": 2.0757,
	"mean_token_accuracy": 0.5414572946727276,
	"num_tokens": 1933686.0,
	"step": 660
	},
	{
	"entropy": 1.7457041829824447,
	"epoch": 0.8667529107373868,
	"grad_norm": 0.2763752341270447,
	"learning_rate": 0.00019681702220708725,
	"loss": 1.7265,
	"mean_token_accuracy": 0.6072784595191478,
	"num_tokens": 1967008.0,
	"step": 670
	},
	{
	"entropy": 2.0987232238054276,
	"epoch": 0.8796895213454075,
	"grad_norm": 0.3309071958065033,
	"learning_rate": 0.00019668459814262116,
	"loss": 2.0841,
	"mean_token_accuracy": 0.5245410539209843,
	"num_tokens": 1990659.0,
	"step": 680
	},
	{
	"entropy": 3.1821718513965607,
	"epoch": 0.8926261319534282,
	"grad_norm": 0.0,
	"learning_rate": 0.00019654952165307245,
	"loss": 2.229,
	"mean_token_accuracy": 0.3981798455119133,
	"num_tokens": 1999251.0,
	"step": 690
	},
	{
	"entropy": 1.533292955160141,
	"epoch": 0.9055627425614489,
	"grad_norm": 0.0,
	"learning_rate": 0.00019641179644410136,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 1999891.0,
	"step": 700
	},
	{
	"entropy": 1.9957170754671096,
	"epoch": 0.9184993531694696,
	"grad_norm": 0.24394062161445618,
	"learning_rate": 0.00019627142629403258,
	"loss": 2.0975,
	"mean_token_accuracy": 0.5407429985702038,
	"num_tokens": 2079895.0,
	"step": 710
	},
	{
	"entropy": 1.7518584847450256,
	"epoch": 0.9314359637774903,
	"grad_norm": 0.307822048664093,
	"learning_rate": 0.00019612841505375138,
	"loss": 1.7164,
	"mean_token_accuracy": 0.610467329621315,
	"num_tokens": 2113509.0,
	"step": 720
	},
	{
	"entropy": 2.1020208179950712,
	"epoch": 0.944372574385511,
	"grad_norm": 0.35130032896995544,
	"learning_rate": 0.0001959827666465984,
	"loss": 2.1253,
	"mean_token_accuracy": 0.5220636121928692,
	"num_tokens": 2137129.0,
	"step": 730
	},
	{
	"entropy": 2.8922512531280518,
	"epoch": 0.9573091849935317,
	"grad_norm": 0.0,
	"learning_rate": 0.00019583448506826155,
	"loss": 1.9805,
	"mean_token_accuracy": 0.3766542553901672,
	"num_tokens": 2144488.0,
	"step": 740
	},
	{
	"entropy": 2.719996190071106,
	"epoch": 0.9702457956015524,
	"grad_norm": 0.0,
	"learning_rate": 0.00019568357438666675,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 2145128.0,
	"step": 750
	},
	{
	"epoch": 0.9702457956015524,
	"eval_entropy": 2.1529439126336296,
	"eval_loss": 1.5584267377853394,
	"eval_mean_token_accuracy": 0.41127229698522144,
	"eval_num_tokens": 2145128.0,
	"eval_runtime": 239.9653,
	"eval_samples_per_second": 22.903,
	"eval_steps_per_second": 1.434,
	"step": 750
	},
	{
	"entropy": 1.9202934563159944,
	"epoch": 0.9831824062095731,
	"grad_norm": 0.28597503900527954,
	"learning_rate": 0.00019553003874186607,
	"loss": 1.9302,
	"mean_token_accuracy": 0.5697067268192768,
	"num_tokens": 2197523.0,
	"step": 760
	},
	{
	"entropy": 2.492697748541832,
	"epoch": 0.9961190168175937,
	"grad_norm": 0.0,
	"learning_rate": 0.00019537388234592442,
	"loss": 1.81,
	"mean_token_accuracy": 0.39367630481719973,
	"num_tokens": 2210056.0,
	"step": 770
	},
	{
	"entropy": 2.2332220911979674,
	"epoch": 1.0090556274256144,
	"grad_norm": 0.24866575002670288,
	"learning_rate": 0.00019521510948280373,
	"loss": 1.5005,
	"mean_token_accuracy": 0.36937303096055984,
	"num_tokens": 2275252.0,
	"step": 780
	},
	{
	"entropy": 1.6707671225070952,
	"epoch": 1.0219922380336353,
	"grad_norm": 0.26215294003486633,
	"learning_rate": 0.0001950537245082456,
	"loss": 1.6341,
	"mean_token_accuracy": 0.6254087015986443,
	"num_tokens": 2311716.0,
	"step": 790
	},
	{
	"entropy": 1.8872807383537293,
	"epoch": 1.034928848641656,
	"grad_norm": 0.36441880464553833,
	"learning_rate": 0.0001948897318496517,
	"loss": 1.8977,
	"mean_token_accuracy": 0.5622286461293697,
	"num_tokens": 2338280.0,
	"step": 800
	},
	{
	"entropy": 2.630810996890068,
	"epoch": 1.0478654592496766,
	"grad_norm": 0.9684458374977112,
	"learning_rate": 0.0001947231360059624,
	"loss": 2.4046,
	"mean_token_accuracy": 0.48553739935159684,
	"num_tokens": 2351659.0,
	"step": 810
	},
	{
	"entropy": 2.581965911388397,
	"epoch": 1.0608020698576972,
	"grad_norm": 0.0,
	"learning_rate": 0.0001945539415475333,
	"loss": 0.1693,
	"mean_token_accuracy": 0.06434160768985749,
	"num_tokens": 2352447.0,
	"step": 820
	},
	{
	"entropy": 2.1218140482902528,
	"epoch": 1.073738680465718,
	"grad_norm": 0.28001680970191956,
	"learning_rate": 0.00019438215311600989,
	"loss": 1.5396,
	"mean_token_accuracy": 0.3639061972498894,
	"num_tokens": 2421672.0,
	"step": 830
	},
	{
	"entropy": 1.6590570658445358,
	"epoch": 1.0866752910737387,
	"grad_norm": 0.27536195516586304,
	"learning_rate": 0.0001942077754242001,
	"loss": 1.5986,
	"mean_token_accuracy": 0.6285051852464676,
	"num_tokens": 2458016.0,
	"step": 840
	},
	{
	"entropy": 1.8610892415046691,
	"epoch": 1.0996119016817594,
	"grad_norm": 0.3670406937599182,
	"learning_rate": 0.00019403081325594516,
	"loss": 1.8678,
	"mean_token_accuracy": 0.5674182385206222,
	"num_tokens": 2484503.0,
	"step": 850
	},
	{
	"entropy": 2.5339868366718292,
	"epoch": 1.11254851228978,
	"grad_norm": 0.911289393901825,
	"learning_rate": 0.0001938512714659882,
	"loss": 2.3594,
	"mean_token_accuracy": 0.49951401725411415,
	"num_tokens": 2498485.0,
	"step": 860
	},
	{
	"entropy": 1.802379448711872,
	"epoch": 1.1254851228978007,
	"grad_norm": 0.0,
	"learning_rate": 0.00019366915497984126,
	"loss": 0.1255,
	"mean_token_accuracy": 0.04691708832979202,
	"num_tokens": 2499204.0,
	"step": 870
	},
	{
	"entropy": 1.716230283677578,
	"epoch": 1.1384217335058215,
	"grad_norm": 0.29532766342163086,
	"learning_rate": 0.00019348446879364998,
	"loss": 1.5067,
	"mean_token_accuracy": 0.3694909021258354,
	"num_tokens": 2567621.0,
	"step": 880
	},
	{
	"entropy": 1.6236608117818832,
	"epoch": 1.1513583441138422,
	"grad_norm": 0.29713669419288635,
	"learning_rate": 0.00019329721797405665,
	"loss": 1.5861,
	"mean_token_accuracy": 0.6327742949128151,
	"num_tokens": 2603962.0,
	"step": 890
	},
	{
	"entropy": 1.8917641669511795,
	"epoch": 1.1642949547218628,
	"grad_norm": 0.3658815324306488,
	"learning_rate": 0.00019310740765806112,
	"loss": 1.9243,
	"mean_token_accuracy": 0.5606695532798767,
	"num_tokens": 2630252.0,
	"step": 900
	},
	{
	"epoch": 1.1642949547218628,
	"eval_entropy": 1.9112664786882179,
	"eval_loss": 1.4807052612304688,
	"eval_mean_token_accuracy": 0.42875484818982523,
	"eval_num_tokens": 2630252.0,
	"eval_runtime": 244.6093,
	"eval_samples_per_second": 22.468,
	"eval_steps_per_second": 1.406,
	"step": 900
	},
	{
	"entropy": 2.6821564227342605,
	"epoch": 1.1772315653298835,
	"grad_norm": 1.0140999555587769,
	"learning_rate": 0.00019291504305288005,
	"loss": 2.4338,
	"mean_token_accuracy": 0.482094044983387,
	"num_tokens": 2643300.0,
	"step": 910
	},
	{
	"entropy": 2.024871030449867,
	"epoch": 1.1901681759379044,
	"grad_norm": 0.0,
	"learning_rate": 0.00019272012943580383,
	"loss": 0.088,
	"mean_token_accuracy": 0.05487980842590332,
	"num_tokens": 2644037.0,
	"step": 920
	},
	{
	"entropy": 1.9695144146680832,
	"epoch": 1.203104786545925,
	"grad_norm": 0.290670245885849,
	"learning_rate": 0.00019252267215405188,
	"loss": 1.523,
	"mean_token_accuracy": 0.36803208142518995,
	"num_tokens": 2711455.0,
	"step": 930
	},
	{
	"entropy": 1.634880828857422,
	"epoch": 1.2160413971539457,
	"grad_norm": 0.2892841100692749,
	"learning_rate": 0.00019232267662462618,
	"loss": 1.5725,
	"mean_token_accuracy": 0.6363927751779557,
	"num_tokens": 2747178.0,
	"step": 940
	},
	{
	"entropy": 1.8903283953666687,
	"epoch": 1.2289780077619663,
	"grad_norm": 0.3681142330169678,
	"learning_rate": 0.00019212014833416222,
	"loss": 1.9128,
	"mean_token_accuracy": 0.5572593852877616,
	"num_tokens": 2773302.0,
	"step": 950
	},
	{
	"entropy": 2.5646925628185273,
	"epoch": 1.2419146183699872,
	"grad_norm": 2.999826669692993,
	"learning_rate": 0.00019191509283877892,
	"loss": 2.3972,
	"mean_token_accuracy": 0.49176110327243805,
	"num_tokens": 2787000.0,
	"step": 960
	},
	{
	"entropy": 2.151153501868248,
	"epoch": 1.2548512289780078,
	"grad_norm": 0.0,
	"learning_rate": 0.00019170751576392587,
	"loss": 0.1193,
	"mean_token_accuracy": 0.044841271638870236,
	"num_tokens": 2787722.0,
	"step": 970
	},
	{
	"entropy": 1.8522070705890656,
	"epoch": 1.2677878395860285,
	"grad_norm": 0.2727435827255249,
	"learning_rate": 0.00019149742280422924,
	"loss": 1.5171,
	"mean_token_accuracy": 0.36686722859740256,
	"num_tokens": 2854084.0,
	"step": 980
	},
	{
	"entropy": 1.5743449032306671,
	"epoch": 1.2807244501940491,
	"grad_norm": 0.2871781289577484,
	"learning_rate": 0.00019128481972333544,
	"loss": 1.5921,
	"mean_token_accuracy": 0.6345128893852234,
	"num_tokens": 2890579.0,
	"step": 990
	},
	{
	"entropy": 1.969143381714821,
	"epoch": 1.2936610608020698,
	"grad_norm": 0.4106636643409729,
	"learning_rate": 0.00019106971235375298,
	"loss": 1.9566,
	"mean_token_accuracy": 0.5519939877092839,
	"num_tokens": 2917103.0,
	"step": 1000
	},
	{
	"entropy": 2.637175753712654,
	"epoch": 1.3065976714100906,
	"grad_norm": 0.956899881362915,
	"learning_rate": 0.0001908521065966926,
	"loss": 2.4367,
	"mean_token_accuracy": 0.47931770235300064,
	"num_tokens": 2930324.0,
	"step": 1010
	},
	{
	"entropy": 1.2107470080256462,
	"epoch": 1.3195342820181113,
	"grad_norm": 0.0,
	"learning_rate": 0.00019063200842190514,
	"loss": 0.1138,
	"mean_token_accuracy": 0.07033292502164841,
	"num_tokens": 2931098.0,
	"step": 1020
	},
	{
	"entropy": 1.5640547186136247,
	"epoch": 1.332470892626132,
	"grad_norm": 0.2837156057357788,
	"learning_rate": 0.00019040942386751804,
	"loss": 1.5281,
	"mean_token_accuracy": 0.368409526348114,
	"num_tokens": 2998986.0,
	"step": 1030
	},
	{
	"entropy": 1.6472883015871047,
	"epoch": 1.3454075032341526,
	"grad_norm": 0.31581056118011475,
	"learning_rate": 0.00019018435903986943,
	"loss": 1.6144,
	"mean_token_accuracy": 0.62486432492733,
	"num_tokens": 3035300.0,
	"step": 1040
	},
	{
	"entropy": 1.8509329915046693,
	"epoch": 1.3583441138421732,
	"grad_norm": 0.39050692319869995,
	"learning_rate": 0.00018995682011334087,
	"loss": 1.8415,
	"mean_token_accuracy": 0.5710361421108245,
	"num_tokens": 3062133.0,
	"step": 1050
	},
	{
	"epoch": 1.3583441138421732,
	"eval_entropy": 1.7658769363580749,
	"eval_loss": 1.464791178703308,
	"eval_mean_token_accuracy": 0.429339470125215,
	"eval_num_tokens": 3062133.0,
	"eval_runtime": 243.4077,
	"eval_samples_per_second": 22.579,
	"eval_steps_per_second": 1.413,
	"step": 1050
	},
	{
	"entropy": 2.4731887727975845,
	"epoch": 1.371280724450194,
	"grad_norm": 0.9063658714294434,
	"learning_rate": 0.00018972681333018776,
	"loss": 2.3412,
	"mean_token_accuracy": 0.4919880717992783,
	"num_tokens": 3076137.0,
	"step": 1060
	},
	{
	"entropy": 1.815966796875,
	"epoch": 1.3842173350582148,
	"grad_norm": 0.0,
	"learning_rate": 0.00018949434500036816,
	"loss": 0.2748,
	"mean_token_accuracy": 0.094140625,
	"num_tokens": 3077033.0,
	"step": 1070
	},
	{
	"entropy": 1.7788158431649208,
	"epoch": 1.3971539456662354,
	"grad_norm": 0.28700482845306396,
	"learning_rate": 0.0001892594215013697,
	"loss": 1.491,
	"mean_token_accuracy": 0.3707178644835949,
	"num_tokens": 3139012.0,
	"step": 1080
	},
	{
	"entropy": 1.5893326640129088,
	"epoch": 1.4100905562742563,
	"grad_norm": 0.3248252868652344,
	"learning_rate": 0.00018902204927803462,
	"loss": 1.5707,
	"mean_token_accuracy": 0.6353108420968056,
	"num_tokens": 3175132.0,
	"step": 1090
	},
	{
	"entropy": 1.8777880787849426,
	"epoch": 1.4230271668822767,
	"grad_norm": 0.4096948206424713,
	"learning_rate": 0.00018878223484238295,
	"loss": 1.9016,
	"mean_token_accuracy": 0.5628921225667,
	"num_tokens": 3201175.0,
	"step": 1100
	},
	{
	"entropy": 2.5787813514471054,
	"epoch": 1.4359637774902976,
	"grad_norm": 0.9349520206451416,
	"learning_rate": 0.00018853998477343385,
	"loss": 2.4275,
	"mean_token_accuracy": 0.4918954521417618,
	"num_tokens": 3213218.0,
	"step": 1110
	},
	{
	"entropy": 1.5953246742486953,
	"epoch": 1.4489003880983182,
	"grad_norm": 0.0,
	"learning_rate": 0.00018829530571702515,
	"loss": 0.0759,
	"mean_token_accuracy": 0.03794117569923401,
	"num_tokens": 3213902.0,
	"step": 1120
	},
	{
	"entropy": 1.7004274040460587,
	"epoch": 1.4618369987063389,
	"grad_norm": 0.28281426429748535,
	"learning_rate": 0.000188048204385631,
	"loss": 1.4741,
	"mean_token_accuracy": 0.37432471886277197,
	"num_tokens": 3278399.0,
	"step": 1130
	},
	{
	"entropy": 1.54911307990551,
	"epoch": 1.4747736093143597,
	"grad_norm": 0.3112603425979614,
	"learning_rate": 0.00018779868755817777,
	"loss": 1.529,
	"mean_token_accuracy": 0.6405477434396744,
	"num_tokens": 3314005.0,
	"step": 1140
	},
	{
	"entropy": 1.8169409155845642,
	"epoch": 1.4877102199223804,
	"grad_norm": 0.4136084020137787,
	"learning_rate": 0.00018754676207985798,
	"loss": 1.8563,
	"mean_token_accuracy": 0.5684241697192192,
	"num_tokens": 3339761.0,
	"step": 1150
	},
	{
	"entropy": 2.6468518733978272,
	"epoch": 1.500646830530401,
	"grad_norm": 0.9774990081787109,
	"learning_rate": 0.00018729243486194258,
	"loss": 2.4068,
	"mean_token_accuracy": 0.49020475447177886,
	"num_tokens": 3352396.0,
	"step": 1160
	},
	{
	"entropy": 1.844868466258049,
	"epoch": 1.5135834411384217,
	"grad_norm": 0.0,
	"learning_rate": 0.0001870357128815915,
	"loss": 0.1083,
	"mean_token_accuracy": 0.03311403542757034,
	"num_tokens": 3353089.0,
	"step": 1170
	},
	{
	"entropy": 1.77299522459507,
	"epoch": 1.5265200517464423,
	"grad_norm": 0.29017725586891174,
	"learning_rate": 0.00018677660318166178,
	"loss": 1.5134,
	"mean_token_accuracy": 0.37067501023411753,
	"num_tokens": 3417806.0,
	"step": 1180
	},
	{
	"entropy": 1.605825701355934,
	"epoch": 1.5394566623544632,
	"grad_norm": 0.3007327616214752,
	"learning_rate": 0.000186515112870515,
	"loss": 1.5754,
	"mean_token_accuracy": 0.6359535038471222,
	"num_tokens": 3453968.0,
	"step": 1190
	},
	{
	"entropy": 1.8059845566749573,
	"epoch": 1.5523932729624839,
	"grad_norm": 0.4170464277267456,
	"learning_rate": 0.0001862512491218217,
	"loss": 1.8209,
	"mean_token_accuracy": 0.5729366824030876,
	"num_tokens": 3480122.0,
	"step": 1200
	},
	{
	"epoch": 1.5523932729624839,
	"eval_entropy": 1.846903031302053,
	"eval_loss": 1.4494483470916748,
	"eval_mean_token_accuracy": 0.4338979678618353,
	"eval_num_tokens": 3480122.0,
	"eval_runtime": 245.7587,
	"eval_samples_per_second": 22.363,
	"eval_steps_per_second": 1.4,
	"step": 1200
	},
	{
	"entropy": 2.4776687741279604,
	"epoch": 1.5653298835705045,
	"grad_norm": 1.236024022102356,
	"learning_rate": 0.00018598501917436487,
	"loss": 2.2694,
	"mean_token_accuracy": 0.5161234959959984,
	"num_tokens": 3492043.0,
	"step": 1210
	},
	{
	"entropy": 2.871905821561813,
	"epoch": 1.5782664941785254,
	"grad_norm": 0.0,
	"learning_rate": 0.00018571643033184136,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 3492683.0,
	"step": 1220
	},
	{
	"entropy": 2.30782949924469,
	"epoch": 1.5912031047865458,
	"grad_norm": 0.3269418179988861,
	"learning_rate": 0.00018544548996266138,
	"loss": 1.4917,
	"mean_token_accuracy": 0.3702575147151947,
	"num_tokens": 3561621.0,
	"step": 1230
	},
	{
	"entropy": 1.5860986828804016,
	"epoch": 1.6041397153945667,
	"grad_norm": 0.33811113238334656,
	"learning_rate": 0.00018517220549974642,
	"loss": 1.5659,
	"mean_token_accuracy": 0.6364668473601341,
	"num_tokens": 3597551.0,
	"step": 1240
	},
	{
	"entropy": 1.8561100304126739,
	"epoch": 1.6170763260025873,
	"grad_norm": 0.4206816554069519,
	"learning_rate": 0.00018489658444032544,
	"loss": 1.8636,
	"mean_token_accuracy": 0.5685464948415756,
	"num_tokens": 3623516.0,
	"step": 1250
	},
	{
	"entropy": 2.475165989995003,
	"epoch": 1.630012936610608,
	"grad_norm": 0.9206745624542236,
	"learning_rate": 0.00018461863434572905,
	"loss": 2.3686,
	"mean_token_accuracy": 0.49352553114295006,
	"num_tokens": 3636662.0,
	"step": 1260
	},
	{
	"entropy": 1.5844505287706852,
	"epoch": 1.6429495472186288,
	"grad_norm": 0.0,
	"learning_rate": 0.0001843383628411821,
	"loss": 0.1782,
	"mean_token_accuracy": 0.08751860111951829,
	"num_tokens": 3637501.0,
	"step": 1270
	},
	{
	"entropy": 1.5500032015144825,
	"epoch": 1.6558861578266493,
	"grad_norm": 0.2985474169254303,
	"learning_rate": 0.00018405577761559453,
	"loss": 1.5005,
	"mean_token_accuracy": 0.3704367861151695,
	"num_tokens": 3705898.0,
	"step": 1280
	},
	{
	"entropy": 1.5747513711452483,
	"epoch": 1.6688227684346701,
	"grad_norm": 0.3510088622570038,
	"learning_rate": 0.0001837708864213505,
	"loss": 1.5586,
	"mean_token_accuracy": 0.6378742828965187,
	"num_tokens": 3742275.0,
	"step": 1290
	},
	{
	"entropy": 1.7819489419460297,
	"epoch": 1.6817593790426908,
	"grad_norm": 0.42687690258026123,
	"learning_rate": 0.00018348369707409546,
	"loss": 1.8096,
	"mean_token_accuracy": 0.5733471587300301,
	"num_tokens": 3768563.0,
	"step": 1300
	},
	{
	"entropy": 2.4534367620944977,
	"epoch": 1.6946959896507114,
	"grad_norm": 0.9902492165565491,
	"learning_rate": 0.00018319421745252208,
	"loss": 2.3035,
	"mean_token_accuracy": 0.49916471540927887,
	"num_tokens": 3782396.0,
	"step": 1310
	},
	{
	"entropy": 1.977598437666893,
	"epoch": 1.7076326002587323,
	"grad_norm": 0.0,
	"learning_rate": 0.00018290245549815385,
	"loss": 0.1527,
	"mean_token_accuracy": 0.0657636746764183,
	"num_tokens": 3783196.0,
	"step": 1320
	},
	{
	"entropy": 2.1555118948221206,
	"epoch": 1.720569210866753,
	"grad_norm": 0.3243282437324524,
	"learning_rate": 0.0001826084192151273,
	"loss": 1.5106,
	"mean_token_accuracy": 0.36851018443703654,
	"num_tokens": 3846769.0,
	"step": 1330
	},
	{
	"entropy": 1.5848265200853349,
	"epoch": 1.7335058214747736,
	"grad_norm": 0.32707569003105164,
	"learning_rate": 0.00018231211666997247,
	"loss": 1.5277,
	"mean_token_accuracy": 0.642450013756752,
	"num_tokens": 3882748.0,
	"step": 1340
	},
	{
	"entropy": 1.8691698461771011,
	"epoch": 1.7464424320827943,
	"grad_norm": 0.43988320231437683,
	"learning_rate": 0.00018201355599139154,
	"loss": 1.9016,
	"mean_token_accuracy": 0.56101154088974,
	"num_tokens": 3908934.0,
	"step": 1350
	},
	{
	"epoch": 1.7464424320827943,
	"eval_entropy": 1.7982253941685655,
	"eval_loss": 1.4296140670776367,
	"eval_mean_token_accuracy": 0.43251860254379204,
	"eval_num_tokens": 3908934.0,
	"eval_runtime": 245.0387,
	"eval_samples_per_second": 22.429,
	"eval_steps_per_second": 1.404,
	"step": 1350
	},
	{
	"entropy": 2.471151527762413,
	"epoch": 1.759379042690815,
	"grad_norm": 0.9302666187286377,
	"learning_rate": 0.0001817127453700358,
	"loss": 2.3247,
	"mean_token_accuracy": 0.5023237220942974,
	"num_tokens": 3922255.0,
	"step": 1360
	},
	{
	"entropy": 1.8378637909889222,
	"epoch": 1.7723156532988358,
	"grad_norm": 0.0,
	"learning_rate": 0.00018140969305828106,
	"loss": 0.0576,
	"mean_token_accuracy": 0.0373076930642128,
	"num_tokens": 3922926.0,
	"step": 1370
	},
	{
	"entropy": 1.7470036551356316,
	"epoch": 1.7852522639068564,
	"grad_norm": 0.3011367619037628,
	"learning_rate": 0.00018110440737000122,
	"loss": 1.4591,
	"mean_token_accuracy": 0.3771127283573151,
	"num_tokens": 3990074.0,
	"step": 1380
	},
	{
	"entropy": 1.5329654335975647,
	"epoch": 1.798188874514877,
	"grad_norm": 0.31504422426223755,
	"learning_rate": 0.00018079689668034005,
	"loss": 1.4973,
	"mean_token_accuracy": 0.6467197388410568,
	"num_tokens": 4026755.0,
	"step": 1390
	},
	{
	"entropy": 1.7885783523321153,
	"epoch": 1.811125485122898,
	"grad_norm": 0.42766207456588745,
	"learning_rate": 0.00018048716942548168,
	"loss": 1.8211,
	"mean_token_accuracy": 0.5723803475499153,
	"num_tokens": 4053589.0,
	"step": 1400
	},
	{
	"entropy": 2.405156469345093,
	"epoch": 1.8240620957309184,
	"grad_norm": 0.953956663608551,
	"learning_rate": 0.00018017523410241893,
	"loss": 2.2967,
	"mean_token_accuracy": 0.5070258714258671,
	"num_tokens": 4068297.0,
	"step": 1410
	},
	{
	"entropy": 1.202190825343132,
	"epoch": 1.8369987063389392,
	"grad_norm": 0.0,
	"learning_rate": 0.00017986109926872032,
	"loss": 0.2475,
	"mean_token_accuracy": 0.09388883709907532,
	"num_tokens": 4069205.0,
	"step": 1420
	},
	{
	"entropy": 1.8208864331245422,
	"epoch": 1.84993531694696,
	"grad_norm": 0.30337706208229065,
	"learning_rate": 0.00017954477354229536,
	"loss": 1.4609,
	"mean_token_accuracy": 0.3746915958821774,
	"num_tokens": 4135636.0,
	"step": 1430
	},
	{
	"entropy": 1.547205138206482,
	"epoch": 1.8628719275549805,
	"grad_norm": 0.3231499493122101,
	"learning_rate": 0.00017922626560115798,
	"loss": 1.5262,
	"mean_token_accuracy": 0.6422269076108933,
	"num_tokens": 4171871.0,
	"step": 1440
	},
	{
	"entropy": 1.8343932330608368,
	"epoch": 1.8758085381630014,
	"grad_norm": 0.45170995593070984,
	"learning_rate": 0.0001789055841831885,
	"loss": 1.8589,
	"mean_token_accuracy": 0.5682013630867004,
	"num_tokens": 4198004.0,
	"step": 1450
	},
	{
	"entropy": 2.4178356170654296,
	"epoch": 1.8887451487710218,
	"grad_norm": 1.1836594343185425,
	"learning_rate": 0.00017858273808589402,
	"loss": 2.219,
	"mean_token_accuracy": 0.5180532835423947,
	"num_tokens": 4210568.0,
	"step": 1460
	},
	{
	"entropy": 1.6111401319503784,
	"epoch": 1.9016817593790427,
	"grad_norm": 0.0,
	"learning_rate": 0.00017825773616616703,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 4211208.0,
	"step": 1470
	},
	{
	"entropy": 1.7321304202079773,
	"epoch": 1.9146183699870634,
	"grad_norm": 0.30086463689804077,
	"learning_rate": 0.0001779305873400423,
	"loss": 1.4654,
	"mean_token_accuracy": 0.3772578649222851,
	"num_tokens": 4279659.0,
	"step": 1480
	},
	{
	"entropy": 1.5423625767230988,
	"epoch": 1.927554980595084,
	"grad_norm": 0.33361881971359253,
	"learning_rate": 0.00017760130058245242,
	"loss": 1.4942,
	"mean_token_accuracy": 0.6453819587826729,
	"num_tokens": 4315273.0,
	"step": 1490
	},
	{
	"entropy": 1.8349818885326385,
	"epoch": 1.9404915912031049,
	"grad_norm": 0.4649695158004761,
	"learning_rate": 0.0001772698849269816,
	"loss": 1.8167,
	"mean_token_accuracy": 0.5768257766962052,
	"num_tokens": 4341460.0,
	"step": 1500
	},
	{
	"epoch": 1.9404915912031049,
	"eval_entropy": 1.7394565719851227,
	"eval_loss": 1.4138603210449219,
	"eval_mean_token_accuracy": 0.43571045708864237,
	"eval_num_tokens": 4341460.0,
	"eval_runtime": 245.3477,
	"eval_samples_per_second": 22.401,
	"eval_steps_per_second": 1.402,
	"step": 1500
	},
	{
	"entropy": 2.375590392947197,
	"epoch": 1.9534282018111255,
	"grad_norm": 0.9830443263053894,
	"learning_rate": 0.00017693634946561775,
	"loss": 2.2734,
	"mean_token_accuracy": 0.5091598987579345,
	"num_tokens": 4355559.0,
	"step": 1510
	},
	{
	"entropy": 2.5652388006448748,
	"epoch": 1.9663648124191462,
	"grad_norm": 0.0,
	"learning_rate": 0.00017660070334850304,
	"loss": 0.1559,
	"mean_token_accuracy": 0.07029985040426254,
	"num_tokens": 4356373.0,
	"step": 1520
	},
	{
	"entropy": 2.071737268567085,
	"epoch": 1.9793014230271668,
	"grad_norm": 0.33517006039619446,
	"learning_rate": 0.00017626295578368305,
	"loss": 1.2406,
	"mean_token_accuracy": 0.418473818898201,
	"num_tokens": 4398312.0,
	"step": 1530
	},
	{
	"entropy": 2.0724180698394776,
	"epoch": 1.9922380336351875,
	"grad_norm": 0.8757649660110474,
	"learning_rate": 0.00017592311603685393,
	"loss": 2.0395,
	"mean_token_accuracy": 0.5450932942330837,
	"num_tokens": 4419963.0,
	"step": 1540
	},
	{
	"entropy": 2.4648678690195083,
	"epoch": 2.0051746442432083,
	"grad_norm": 0.29208359122276306,
	"learning_rate": 0.00017558119343110838,
	"loss": 1.0811,
	"mean_token_accuracy": 0.2497500881552696,
	"num_tokens": 4466509.0,
	"step": 1550
	},
	{
	"entropy": 1.4679036349058152,
	"epoch": 2.0181112548512288,
	"grad_norm": 0.31473416090011597,
	"learning_rate": 0.00017523719734667973,
	"loss": 1.4439,
	"mean_token_accuracy": 0.6536323636770248,
	"num_tokens": 4506293.0,
	"step": 1560
	},
	{
	"entropy": 1.5847829729318619,
	"epoch": 2.0310478654592496,
	"grad_norm": 0.4749562740325928,
	"learning_rate": 0.0001748911372206848,
	"loss": 1.5723,
	"mean_token_accuracy": 0.6196332320570945,
	"num_tokens": 4535291.0,
	"step": 1570
	},
	{
	"entropy": 2.08716399371624,
	"epoch": 2.0439844760672705,
	"grad_norm": 0.6515533924102783,
	"learning_rate": 0.00017454302254686486,
	"loss": 2.0148,
	"mean_token_accuracy": 0.5413075156509877,
	"num_tokens": 4553239.0,
	"step": 1580
	},
	{
	"entropy": 2.5849849820137023,
	"epoch": 2.056921086675291,
	"grad_norm": 0.0,
	"learning_rate": 0.00017419286287532516,
	"loss": 0.7934,
	"mean_token_accuracy": 0.19277514591813089,
	"num_tokens": 4555288.0,
	"step": 1590
	},
	{
	"entropy": 2.378413477540016,
	"epoch": 2.069857697283312,
	"grad_norm": 0.28206267952919006,
	"learning_rate": 0.00017384066781227307,
	"loss": 0.9347,
	"mean_token_accuracy": 0.1983368217945099,
	"num_tokens": 4604552.0,
	"step": 1600
	},
	{
	"entropy": 1.5316940248012543,
	"epoch": 2.0827943078913327,
	"grad_norm": 0.33060652017593384,
	"learning_rate": 0.0001734864470197544,
	"loss": 1.5009,
	"mean_token_accuracy": 0.6414364308118821,
	"num_tokens": 4644766.0,
	"step": 1610
	},
	{
	"entropy": 1.6213007301092148,
	"epoch": 2.095730918499353,
	"grad_norm": 0.5015760064125061,
	"learning_rate": 0.00017313021021538844,
	"loss": 1.6038,
	"mean_token_accuracy": 0.6168796703219414,
	"num_tokens": 4673702.0,
	"step": 1620
	},
	{
	"entropy": 2.1126689702272414,
	"epoch": 2.108667529107374,
	"grad_norm": 0.7331583499908447,
	"learning_rate": 0.0001727719671721013,
	"loss": 2.0398,
	"mean_token_accuracy": 0.533772025257349,
	"num_tokens": 4691426.0,
	"step": 1630
	},
	{
	"entropy": 2.546648120880127,
	"epoch": 2.1216041397153944,
	"grad_norm": 0.0,
	"learning_rate": 0.0001724117277178579,
	"loss": 0.5647,
	"mean_token_accuracy": 0.1764907084405422,
	"num_tokens": 4693073.0,
	"step": 1640
	},
	{
	"entropy": 2.3147504776716232,
	"epoch": 2.1345407503234153,
	"grad_norm": 0.3223225474357605,
	"learning_rate": 0.0001720495017353922,
	"loss": 0.8825,
	"mean_token_accuracy": 0.2041303940117359,
	"num_tokens": 4745475.0,
	"step": 1650
	},
	{
	"epoch": 2.1345407503234153,
	"eval_entropy": 1.9804211553446083,
	"eval_loss": 1.4297912120819092,
	"eval_mean_token_accuracy": 0.43714187025677326,
	"eval_num_tokens": 4745475.0,
	"eval_runtime": 240.4238,
	"eval_samples_per_second": 22.86,
	"eval_steps_per_second": 1.431,
	"step": 1650
	},
	{
	"entropy": 1.5305457144975663,
	"epoch": 2.147477360931436,
	"grad_norm": 0.35115179419517517,
	"learning_rate": 0.00017168529916193614,
	"loss": 1.521,
	"mean_token_accuracy": 0.6396576210856437,
	"num_tokens": 4786054.0,
	"step": 1660
	},
	{
	"entropy": 1.5795167148113252,
	"epoch": 2.1604139715394566,
	"grad_norm": 0.50258469581604,
	"learning_rate": 0.00017131912998894717,
	"loss": 1.5679,
	"mean_token_accuracy": 0.6227076068520546,
	"num_tokens": 4815157.0,
	"step": 1670
	},
	{
	"entropy": 2.0948879569768906,
	"epoch": 2.1733505821474774,
	"grad_norm": 0.7732148766517639,
	"learning_rate": 0.0001709510042618339,
	"loss": 2.0484,
	"mean_token_accuracy": 0.539436261355877,
	"num_tokens": 4833514.0,
	"step": 1680
	},
	{
	"entropy": 2.419444125890732,
	"epoch": 2.186287192755498,
	"grad_norm": 0.0,
	"learning_rate": 0.00017058093207968067,
	"loss": 0.6193,
	"mean_token_accuracy": 0.19686403200030328,
	"num_tokens": 4835320.0,
	"step": 1690
	},
	{
	"entropy": 2.0893223583698273,
	"epoch": 2.1992238033635187,
	"grad_norm": 0.3104536831378937,
	"learning_rate": 0.0001702089235949705,
	"loss": 0.8909,
	"mean_token_accuracy": 0.20202562659978868,
	"num_tokens": 4887586.0,
	"step": 1700
	},
	{
	"entropy": 1.493579125404358,
	"epoch": 2.2121604139715396,
	"grad_norm": 0.35835903882980347,
	"learning_rate": 0.0001698349890133065,
	"loss": 1.5107,
	"mean_token_accuracy": 0.6415591448545456,
	"num_tokens": 4928021.0,
	"step": 1710
	},
	{
	"entropy": 1.599936455488205,
	"epoch": 2.22509702457956,
	"grad_norm": 0.5604035258293152,
	"learning_rate": 0.0001694591385931319,
	"loss": 1.5589,
	"mean_token_accuracy": 0.6183684885501861,
	"num_tokens": 4956628.0,
	"step": 1720
	},
	{
	"entropy": 2.0975252121686934,
	"epoch": 2.238033635187581,
	"grad_norm": 0.7757624983787537,
	"learning_rate": 0.00016908138264544874,
	"loss": 2.0586,
	"mean_token_accuracy": 0.537506015598774,
	"num_tokens": 4973976.0,
	"step": 1730
	},
	{
	"entropy": 2.402835935354233,
	"epoch": 2.2509702457956013,
	"grad_norm": 0.0,
	"learning_rate": 0.00016870173153353478,
	"loss": 0.7325,
	"mean_token_accuracy": 0.21586424633860588,
	"num_tokens": 4975943.0,
	"step": 1740
	},
	{
	"entropy": 1.8081632763147355,
	"epoch": 2.263906856403622,
	"grad_norm": 0.29493167996406555,
	"learning_rate": 0.0001683201956726593,
	"loss": 0.8952,
	"mean_token_accuracy": 0.20223823115229606,
	"num_tokens": 5031202.0,
	"step": 1750
	},
	{
	"entropy": 1.5031701743602752,
	"epoch": 2.276843467011643,
	"grad_norm": 0.3834936320781708,
	"learning_rate": 0.0001679367855297976,
	"loss": 1.5076,
	"mean_token_accuracy": 0.643890731036663,
	"num_tokens": 5071593.0,
	"step": 1760
	},
	{
	"entropy": 1.6009941071271896,
	"epoch": 2.2897800776196635,
	"grad_norm": 0.5210739374160767,
	"learning_rate": 0.0001675515116233434,
	"loss": 1.5777,
	"mean_token_accuracy": 0.6210601255297661,
	"num_tokens": 5100741.0,
	"step": 1770
	},
	{
	"entropy": 2.032317912578583,
	"epoch": 2.3027166882276844,
	"grad_norm": 0.6077569723129272,
	"learning_rate": 0.0001671643845228207,
	"loss": 1.9718,
	"mean_token_accuracy": 0.5442127160727978,
	"num_tokens": 5120288.0,
	"step": 1780
	},
	{
	"entropy": 1.8405873313546182,
	"epoch": 2.315653298835705,
	"grad_norm": 0.0,
	"learning_rate": 0.00016677541484859352,
	"loss": 0.9106,
	"mean_token_accuracy": 0.22827735766768456,
	"num_tokens": 5122772.0,
	"step": 1790
	},
	{
	"entropy": 1.2277291655540465,
	"epoch": 2.3285899094437257,
	"grad_norm": 0.2893352806568146,
	"learning_rate": 0.0001663846132715747,
	"loss": 0.9194,
	"mean_token_accuracy": 0.1989746630191803,
	"num_tokens": 5178960.0,
	"step": 1800
	},
	{
	"epoch": 2.3285899094437257,
	"eval_entropy": 1.3877028687748798,
	"eval_loss": 1.4073032140731812,
	"eval_mean_token_accuracy": 0.44012743035374685,
	"eval_num_tokens": 5178960.0,
	"eval_runtime": 243.8297,
	"eval_samples_per_second": 22.54,
	"eval_steps_per_second": 1.411,
	"step": 1800
	},
	{
	"entropy": 1.5012196868658065,
	"epoch": 2.3415265200517466,
	"grad_norm": 0.3776693344116211,
	"learning_rate": 0.00016599199051293314,
	"loss": 1.4982,
	"mean_token_accuracy": 0.644976706802845,
	"num_tokens": 5220342.0,
	"step": 1810
	},
	{
	"entropy": 1.6106306850910186,
	"epoch": 2.354463130659767,
	"grad_norm": 0.5475464463233948,
	"learning_rate": 0.0001655975573437996,
	"loss": 1.5526,
	"mean_token_accuracy": 0.6244173154234887,
	"num_tokens": 5249776.0,
	"step": 1820
	},
	{
	"entropy": 2.004978260397911,
	"epoch": 2.367399741267788,
	"grad_norm": 0.6898283958435059,
	"learning_rate": 0.0001652013245849714,
	"loss": 1.9472,
	"mean_token_accuracy": 0.557063739746809,
	"num_tokens": 5268417.0,
	"step": 1830
	},
	{
	"entropy": 2.327620804309845,
	"epoch": 2.3803363518758087,
	"grad_norm": 0.0,
	"learning_rate": 0.00016480330310661523,
	"loss": 0.7845,
	"mean_token_accuracy": 0.20984074249863624,
	"num_tokens": 5270607.0,
	"step": 1840
	},
	{
	"entropy": 2.509730467200279,
	"epoch": 2.393272962483829,
	"grad_norm": 0.30109038949012756,
	"learning_rate": 0.00016440350382796929,
	"loss": 0.9268,
	"mean_token_accuracy": 0.19716072604060172,
	"num_tokens": 5325120.0,
	"step": 1850
	},
	{
	"entropy": 1.480056384205818,
	"epoch": 2.40620957309185,
	"grad_norm": 0.36303573846817017,
	"learning_rate": 0.00016400193771704354,
	"loss": 1.4947,
	"mean_token_accuracy": 0.6465561181306839,
	"num_tokens": 5366273.0,
	"step": 1860
	},
	{
	"entropy": 1.5890043556690217,
	"epoch": 2.4191461836998704,
	"grad_norm": 0.5530393123626709,
	"learning_rate": 0.00016359861579031884,
	"loss": 1.5522,
	"mean_token_accuracy": 0.6297082543373108,
	"num_tokens": 5395726.0,
	"step": 1870
	},
	{
	"entropy": 2.038092666864395,
	"epoch": 2.4320827943078913,
	"grad_norm": 1.0535674095153809,
	"learning_rate": 0.00016319354911244468,
	"loss": 1.9806,
	"mean_token_accuracy": 0.5464614436030388,
	"num_tokens": 5414798.0,
	"step": 1880
	},
	{
	"entropy": 2.923152169585228,
	"epoch": 2.445019404915912,
	"grad_norm": 0.0,
	"learning_rate": 0.00016278674879593582,
	"loss": 0.7968,
	"mean_token_accuracy": 0.2314663991332054,
	"num_tokens": 5417197.0,
	"step": 1890
	},
	{
	"entropy": 2.655092605948448,
	"epoch": 2.4579560155239326,
	"grad_norm": 0.3218407928943634,
	"learning_rate": 0.00016237822600086716,
	"loss": 0.9259,
	"mean_token_accuracy": 0.19839748442173005,
	"num_tokens": 5470736.0,
	"step": 1900
	},
	{
	"entropy": 1.4376092582941056,
	"epoch": 2.4708926261319535,
	"grad_norm": 0.3781118094921112,
	"learning_rate": 0.00016196799193456785,
	"loss": 1.4415,
	"mean_token_accuracy": 0.6578261837363243,
	"num_tokens": 5511266.0,
	"step": 1910
	},
	{
	"entropy": 1.5665327340364457,
	"epoch": 2.4838292367399744,
	"grad_norm": 0.5386565327644348,
	"learning_rate": 0.00016155605785131357,
	"loss": 1.5497,
	"mean_token_accuracy": 0.6252920791506767,
	"num_tokens": 5541123.0,
	"step": 1920
	},
	{
	"entropy": 1.9834172219038009,
	"epoch": 2.496765847347995,
	"grad_norm": 0.6560537815093994,
	"learning_rate": 0.00016114243505201795,
	"loss": 1.9184,
	"mean_token_accuracy": 0.555550941824913,
	"num_tokens": 5561101.0,
	"step": 1930
	},
	{
	"entropy": 2.323999685049057,
	"epoch": 2.5097024579560157,
	"grad_norm": 0.0,
	"learning_rate": 0.0001607271348839226,
	"loss": 0.9326,
	"mean_token_accuracy": 0.2633499436080456,
	"num_tokens": 5564120.0,
	"step": 1940
	},
	{
	"entropy": 1.5099886417388917,
	"epoch": 2.522639068564036,
	"grad_norm": 0.39876788854599,
	"learning_rate": 0.00016031016874028557,
	"loss": 0.9269,
	"mean_token_accuracy": 0.20084442123770713,
	"num_tokens": 5613256.0,
	"step": 1950
	},
	{
	"epoch": 2.522639068564036,
	"eval_entropy": 1.3481496193034703,
	"eval_loss": 1.3939740657806396,
	"eval_mean_token_accuracy": 0.44758816895096804,
	"eval_num_tokens": 5613256.0,
	"eval_runtime": 246.9294,
	"eval_samples_per_second": 22.257,
	"eval_steps_per_second": 1.393,
	"step": 1950
	},
	{
	"entropy": 1.4310665398836135,
	"epoch": 2.535575679172057,
	"grad_norm": 0.39710840582847595,
	"learning_rate": 0.00015989154806006904,
	"loss": 1.4336,
	"mean_token_accuracy": 0.6602939382195473,
	"num_tokens": 5653638.0,
	"step": 1960
	},
	{
	"entropy": 1.5728681892156602,
	"epoch": 2.548512289780078,
	"grad_norm": 0.5568864941596985,
	"learning_rate": 0.00015947128432762536,
	"loss": 1.5237,
	"mean_token_accuracy": 0.627597238123417,
	"num_tokens": 5683333.0,
	"step": 1970
	},
	{
	"entropy": 1.9994044303894043,
	"epoch": 2.5614489003880982,
	"grad_norm": 0.6420727968215942,
	"learning_rate": 0.00015904938907238206,
	"loss": 1.9615,
	"mean_token_accuracy": 0.5487420856952667,
	"num_tokens": 5702066.0,
	"step": 1980
	},
	{
	"entropy": 2.452130767703056,
	"epoch": 2.574385510996119,
	"grad_norm": 0.0,
	"learning_rate": 0.00015862587386852541,
	"loss": 0.7703,
	"mean_token_accuracy": 0.2316281594336033,
	"num_tokens": 5704289.0,
	"step": 1990
	},
	{
	"entropy": 2.385006046295166,
	"epoch": 2.5873221216041395,
	"grad_norm": 0.3110261857509613,
	"learning_rate": 0.0001582007503346832,
	"loss": 0.9186,
	"mean_token_accuracy": 0.19861687943339348,
	"num_tokens": 5760847.0,
	"step": 2000
	},
	{
	"entropy": 1.4642044007778168,
	"epoch": 2.6002587322121604,
	"grad_norm": 0.38485661149024963,
	"learning_rate": 0.0001577740301336057,
	"loss": 1.4756,
	"mean_token_accuracy": 0.6492435604333877,
	"num_tokens": 5802455.0,
	"step": 2010
	},
	{
	"entropy": 1.5432655066251755,
	"epoch": 2.6131953428201813,
	"grad_norm": 0.6033521294593811,
	"learning_rate": 0.00015734572497184577,
	"loss": 1.5119,
	"mean_token_accuracy": 0.6332074150443077,
	"num_tokens": 5831848.0,
	"step": 2020
	},
	{
	"entropy": 2.0233444392681124,
	"epoch": 2.6261319534282017,
	"grad_norm": 0.7502851486206055,
	"learning_rate": 0.00015691584659943786,
	"loss": 1.9476,
	"mean_token_accuracy": 0.5473973207175732,
	"num_tokens": 5850975.0,
	"step": 2030
	},
	{
	"entropy": 2.2630896627902986,
	"epoch": 2.6390685640362226,
	"grad_norm": 0.0,
	"learning_rate": 0.0001564844068095755,
	"loss": 0.8525,
	"mean_token_accuracy": 0.23688365146517754,
	"num_tokens": 5853548.0,
	"step": 2040
	},
	{
	"entropy": 1.6931863486766816,
	"epoch": 2.652005174644243,
	"grad_norm": 0.3148477077484131,
	"learning_rate": 0.0001560514174382878,
	"loss": 0.8972,
	"mean_token_accuracy": 0.20218148753046988,
	"num_tokens": 5907614.0,
	"step": 2050
	},
	{
	"entropy": 1.4166515529155732,
	"epoch": 2.664941785252264,
	"grad_norm": 0.38905423879623413,
	"learning_rate": 0.0001556168903641148,
	"loss": 1.4368,
	"mean_token_accuracy": 0.6563202187418937,
	"num_tokens": 5947663.0,
	"step": 2060
	},
	{
	"entropy": 1.5506242126226426,
	"epoch": 2.6778783958602848,
	"grad_norm": 0.5905367136001587,
	"learning_rate": 0.00015518083750778157,
	"loss": 1.5309,
	"mean_token_accuracy": 0.6258940026164055,
	"num_tokens": 5976765.0,
	"step": 2070
	},
	{
	"entropy": 1.9377893030643463,
	"epoch": 2.690815006468305,
	"grad_norm": 0.6645969152450562,
	"learning_rate": 0.00015474327083187105,
	"loss": 1.9022,
	"mean_token_accuracy": 0.5610988035798072,
	"num_tokens": 5996303.0,
	"step": 2080
	},
	{
	"entropy": 2.6364343762397766,
	"epoch": 2.703751617076326,
	"grad_norm": 0.0,
	"learning_rate": 0.00015430420234049624,
	"loss": 1.038,
	"mean_token_accuracy": 0.2556902192533016,
	"num_tokens": 5999434.0,
	"step": 2090
	},
	{
	"entropy": 2.8424737572669985,
	"epoch": 2.7166882276843465,
	"grad_norm": 0.3264569938182831,
	"learning_rate": 0.00015386364407897035,
	"loss": 0.9078,
	"mean_token_accuracy": 0.20131859928369522,
	"num_tokens": 6051774.0,
	"step": 2100
	},
	{
	"epoch": 2.7166882276843465,
	"eval_entropy": 2.204050070671148,
	"eval_loss": 1.3715640306472778,
	"eval_mean_token_accuracy": 0.4440248931736447,
	"eval_num_tokens": 6051774.0,
	"eval_runtime": 244.556,
	"eval_samples_per_second": 22.473,
	"eval_steps_per_second": 1.407,
	"step": 2100
	},
	{
	"entropy": 1.4316389322280885,
	"epoch": 2.7296248382923674,
	"grad_norm": 0.3802427053451538,
	"learning_rate": 0.00015342160813347676,
	"loss": 1.4553,
	"mean_token_accuracy": 0.6519668206572533,
	"num_tokens": 6091750.0,
	"step": 2110
	},
	{
	"entropy": 1.5787472486495973,
	"epoch": 2.742561448900388,
	"grad_norm": 0.5799654126167297,
	"learning_rate": 0.00015297810663073743,
	"loss": 1.5507,
	"mean_token_accuracy": 0.6268433704972267,
	"num_tokens": 6120790.0,
	"step": 2120
	},
	{
	"entropy": 1.9796525478363036,
	"epoch": 2.7554980595084086,
	"grad_norm": 0.7903239727020264,
	"learning_rate": 0.00015253315173767993,
	"loss": 1.9383,
	"mean_token_accuracy": 0.5536467991769314,
	"num_tokens": 6139010.0,
	"step": 2130
	},
	{
	"entropy": 2.6805751383304597,
	"epoch": 2.7684346701164295,
	"grad_norm": 0.0,
	"learning_rate": 0.00015208675566110387,
	"loss": 0.7659,
	"mean_token_accuracy": 0.21504319161176683,
	"num_tokens": 6141159.0,
	"step": 2140
	},
	{
	"entropy": 2.1302292913198473,
	"epoch": 2.78137128072445,
	"grad_norm": 0.3743366003036499,
	"learning_rate": 0.0001516389306473461,
	"loss": 0.8888,
	"mean_token_accuracy": 0.20484731644392012,
	"num_tokens": 6191053.0,
	"step": 2150
	},
	{
	"entropy": 1.4483990609645843,
	"epoch": 2.794307891332471,
	"grad_norm": 0.3969733417034149,
	"learning_rate": 0.00015118968898194458,
	"loss": 1.443,
	"mean_token_accuracy": 0.6526175752282143,
	"num_tokens": 6230521.0,
	"step": 2160
	},
	{
	"entropy": 1.582485669851303,
	"epoch": 2.8072445019404917,
	"grad_norm": 0.6144042611122131,
	"learning_rate": 0.00015073904298930132,
	"loss": 1.5429,
	"mean_token_accuracy": 0.6261137276887894,
	"num_tokens": 6259286.0,
	"step": 2170
	},
	{
	"entropy": 1.970637395977974,
	"epoch": 2.8201811125485126,
	"grad_norm": 0.7516705393791199,
	"learning_rate": 0.00015028700503234447,
	"loss": 1.9348,
	"mean_token_accuracy": 0.5558973327279091,
	"num_tokens": 6277729.0,
	"step": 2180
	},
	{
	"entropy": 2.001736190915108,
	"epoch": 2.833117723156533,
	"grad_norm": 0.0,
	"learning_rate": 0.00014983358751218892,
	"loss": 0.736,
	"mean_token_accuracy": 0.19615912958979606,
	"num_tokens": 6279643.0,
	"step": 2190
	},
	{
	"entropy": 1.9369044452905655,
	"epoch": 2.8460543337645534,
	"grad_norm": 0.32840585708618164,
	"learning_rate": 0.00014937880286779629,
	"loss": 0.9147,
	"mean_token_accuracy": 0.19959167763590813,
	"num_tokens": 6336300.0,
	"step": 2200
	},
	{
	"entropy": 1.4088002383708953,
	"epoch": 2.8589909443725743,
	"grad_norm": 0.4119824767112732,
	"learning_rate": 0.00014892266357563358,
	"loss": 1.4187,
	"mean_token_accuracy": 0.6627781435847282,
	"num_tokens": 6375995.0,
	"step": 2210
	},
	{
	"entropy": 1.6024494558572768,
	"epoch": 2.871927554980595,
	"grad_norm": 0.5892689228057861,
	"learning_rate": 0.0001484651821493309,
	"loss": 1.5693,
	"mean_token_accuracy": 0.6204348549246788,
	"num_tokens": 6404526.0,
	"step": 2220
	},
	{
	"entropy": 2.072836604714394,
	"epoch": 2.884864165588616,
	"grad_norm": 0.7402485013008118,
	"learning_rate": 0.0001480063711393382,
	"loss": 2.0136,
	"mean_token_accuracy": 0.5476931251585484,
	"num_tokens": 6421889.0,
	"step": 2230
	},
	{
	"entropy": 1.5923803925514222,
	"epoch": 2.8978007761966365,
	"grad_norm": 0.0,
	"learning_rate": 0.00014754624313258102,
	"loss": 0.6735,
	"mean_token_accuracy": 0.20976952239871025,
	"num_tokens": 6423681.0,
	"step": 2240
	},
	{
	"entropy": 1.2221377216279508,
	"epoch": 2.9107373868046573,
	"grad_norm": 0.3352583050727844,
	"learning_rate": 0.00014708481075211498,
	"loss": 0.9037,
	"mean_token_accuracy": 0.20100481137633325,
	"num_tokens": 6474539.0,
	"step": 2250
	},
	{
	"epoch": 2.9107373868046573,
	"eval_entropy": 1.358256766096104,
	"eval_loss": 1.3591663837432861,
	"eval_mean_token_accuracy": 0.45166019766136656,
	"eval_num_tokens": 6474539.0,
	"eval_runtime": 241.3389,
	"eval_samples_per_second": 22.773,
	"eval_steps_per_second": 1.425,
	"step": 2250
	},
	{
	"entropy": 1.3933149039745332,
	"epoch": 2.9236739974126777,
	"grad_norm": 0.4007508456707001,
	"learning_rate": 0.00014662208665677966,
	"loss": 1.4101,
	"mean_token_accuracy": 0.6611413463950158,
	"num_tokens": 6514494.0,
	"step": 2260
	},
	{
	"entropy": 1.5439734548330306,
	"epoch": 2.9366106080206986,
	"grad_norm": 0.5625568628311157,
	"learning_rate": 0.0001461580835408513,
	"loss": 1.4993,
	"mean_token_accuracy": 0.6339735224843025,
	"num_tokens": 6543746.0,
	"step": 2270
	},
	{
	"entropy": 1.982978528738022,
	"epoch": 2.9495472186287195,
	"grad_norm": 0.7641308307647705,
	"learning_rate": 0.00014569281413369462,
	"loss": 1.9328,
	"mean_token_accuracy": 0.5539643183350563,
	"num_tokens": 6562759.0,
	"step": 2280
	},
	{
	"entropy": 1.5298347800970078,
	"epoch": 2.96248382923674,
	"grad_norm": 0.0,
	"learning_rate": 0.00014522629119941333,
	"loss": 0.766,
	"mean_token_accuracy": 0.21878809183835984,
	"num_tokens": 6564974.0,
	"step": 2290
	},
	{
	"entropy": 1.4145286485552788,
	"epoch": 2.975420439844761,
	"grad_norm": 0.4561901092529297,
	"learning_rate": 0.00014475852753650023,
	"loss": 0.7577,
	"mean_token_accuracy": 0.22906568124890328,
	"num_tokens": 6598409.0,
	"step": 2300
	},
	{
	"entropy": 1.5782025367021562,
	"epoch": 2.988357050452781,
	"grad_norm": 0.5903820991516113,
	"learning_rate": 0.000144289535977486,
	"loss": 1.554,
	"mean_token_accuracy": 0.6246525257825851,
	"num_tokens": 6627531.0,
	"step": 2310
	},
	{
	"entropy": 1.9433803856372833,
	"epoch": 3.001293661060802,
	"grad_norm": 0.13881655037403107,
	"learning_rate": 0.00014381932938858718,
	"loss": 0.9444,
	"mean_token_accuracy": 0.22419775873422623,
	"num_tokens": 6660338.0,
	"step": 2320
	},
	{
	"entropy": 1.621496966481209,
	"epoch": 3.014230271668823,
	"grad_norm": 0.42520761489868164,
	"learning_rate": 0.0001433479206693532,
	"loss": 1.6127,
	"mean_token_accuracy": 0.6233608849346638,
	"num_tokens": 6713107.0,
	"step": 2330
	},
	{
	"entropy": 1.338898405432701,
	"epoch": 3.0271668822768434,
	"grad_norm": 0.6367995738983154,
	"learning_rate": 0.0001428753227523124,
	"loss": 1.3191,
	"mean_token_accuracy": 0.67000552713871,
	"num_tokens": 6744799.0,
	"step": 2340
	},
	{
	"entropy": 1.590729820728302,
	"epoch": 3.0401034928848643,
	"grad_norm": 0.6899548172950745,
	"learning_rate": 0.0001424015486026174,
	"loss": 1.5648,
	"mean_token_accuracy": 0.618783813714981,
	"num_tokens": 6766726.0,
	"step": 2350
	},
	{
	"entropy": 1.977810901403427,
	"epoch": 3.0530401034928847,
	"grad_norm": 0.0,
	"learning_rate": 0.00014192661121768932,
	"loss": 1.3483,
	"mean_token_accuracy": 0.3756748877465725,
	"num_tokens": 6772184.0,
	"step": 2360
	},
	{
	"entropy": 1.1425089821219445,
	"epoch": 3.0659767141009056,
	"grad_norm": 0.1791164129972458,
	"learning_rate": 0.0001414505236268613,
	"loss": 0.2221,
	"mean_token_accuracy": 0.05023420602083206,
	"num_tokens": 6801985.0,
	"step": 2370
	},
	{
	"entropy": 1.534485575556755,
	"epoch": 3.0789133247089264,
	"grad_norm": 0.4513719975948334,
	"learning_rate": 0.00014097329889102084,
	"loss": 1.6302,
	"mean_token_accuracy": 0.6191562682390213,
	"num_tokens": 6853863.0,
	"step": 2380
	},
	{
	"entropy": 1.3535702049732208,
	"epoch": 3.091849935316947,
	"grad_norm": 0.6277197599411011,
	"learning_rate": 0.00014049495010225174,
	"loss": 1.2826,
	"mean_token_accuracy": 0.6846122413873672,
	"num_tokens": 6885860.0,
	"step": 2390
	},
	{
	"entropy": 1.611542597413063,
	"epoch": 3.1047865459249677,
	"grad_norm": 0.6629586219787598,
	"learning_rate": 0.00014001549038347488,
	"loss": 1.5841,
	"mean_token_accuracy": 0.6110770747065544,
	"num_tokens": 6907549.0,
	"step": 2400
	},
	{
	"epoch": 3.1047865459249677,
	"eval_entropy": 1.4435141939063405,
	"eval_loss": 1.3480572700500488,
	"eval_mean_token_accuracy": 0.45482284610354623,
	"eval_num_tokens": 6907549.0,
	"eval_runtime": 243.0256,
	"eval_samples_per_second": 22.615,
	"eval_steps_per_second": 1.415,
	"step": 2400
	},
	{
	"entropy": 2.002578613162041,
	"epoch": 3.117723156532988,
	"grad_norm": 0.0,
	"learning_rate": 0.00013953493288808804,
	"loss": 1.2204,
	"mean_token_accuracy": 0.3793766848742962,
	"num_tokens": 6912238.0,
	"step": 2410
	},
	{
	"entropy": 1.580290713906288,
	"epoch": 3.130659767141009,
	"grad_norm": 0.17965653538703918,
	"learning_rate": 0.00013905329079960522,
	"loss": 0.2405,
	"mean_token_accuracy": 0.04845013022422791,
	"num_tokens": 6941537.0,
	"step": 2420
	},
	{
	"entropy": 1.4815610826015473,
	"epoch": 3.14359637774903,
	"grad_norm": 0.46858540177345276,
	"learning_rate": 0.00013857057733129494,
	"loss": 1.5548,
	"mean_token_accuracy": 0.6307360790669918,
	"num_tokens": 6994352.0,
	"step": 2430
	},
	{
	"entropy": 1.3407190799713136,
	"epoch": 3.1565329883570503,
	"grad_norm": 0.6128517389297485,
	"learning_rate": 0.00013808680572581776,
	"loss": 1.2793,
	"mean_token_accuracy": 0.6835518077015876,
	"num_tokens": 7026544.0,
	"step": 2440
	},
	{
	"entropy": 1.6429592788219451,
	"epoch": 3.169469598965071,
	"grad_norm": 0.7309837937355042,
	"learning_rate": 0.0001376019892548629,
	"loss": 1.6028,
	"mean_token_accuracy": 0.6109883636236191,
	"num_tokens": 7049229.0,
	"step": 2450
	},
	{
	"entropy": 2.1930068999528887,
	"epoch": 3.1824062095730916,
	"grad_norm": 0.0,
	"learning_rate": 0.00013711614121878423,
	"loss": 1.3452,
	"mean_token_accuracy": 0.4032416954636574,
	"num_tokens": 7055638.0,
	"step": 2460
	},
	{
	"entropy": 2.582664442062378,
	"epoch": 3.1953428201811125,
	"grad_norm": 0.17951107025146484,
	"learning_rate": 0.00013662927494623528,
	"loss": 0.238,
	"mean_token_accuracy": 0.0486849807202816,
	"num_tokens": 7079933.0,
	"step": 2470
	},
	{
	"entropy": 1.4514012217521668,
	"epoch": 3.2082794307891334,
	"grad_norm": 0.48690128326416016,
	"learning_rate": 0.00013614140379380384,
	"loss": 1.5635,
	"mean_token_accuracy": 0.6299719527363777,
	"num_tokens": 7130984.0,
	"step": 2480
	},
	{
	"entropy": 1.3963081300258637,
	"epoch": 3.221216041397154,
	"grad_norm": 0.5850987434387207,
	"learning_rate": 0.00013565254114564522,
	"loss": 1.3093,
	"mean_token_accuracy": 0.6751079827547073,
	"num_tokens": 7162961.0,
	"step": 2490
	},
	{
	"entropy": 1.6287110567092895,
	"epoch": 3.2341526520051747,
	"grad_norm": 0.7363412976264954,
	"learning_rate": 0.00013516270041311523,
	"loss": 1.6109,
	"mean_token_accuracy": 0.6086324542760849,
	"num_tokens": 7185148.0,
	"step": 2500
	},
	{
	"entropy": 2.588909697532654,
	"epoch": 3.2470892626131955,
	"grad_norm": 0.0,
	"learning_rate": 0.0001346718950344023,
	"loss": 1.3295,
	"mean_token_accuracy": 0.36438525542616845,
	"num_tokens": 7190578.0,
	"step": 2510
	},
	{
	"entropy": 2.170939177274704,
	"epoch": 3.260025873221216,
	"grad_norm": 0.16089969873428345,
	"learning_rate": 0.00013418013847415875,
	"loss": 0.2333,
	"mean_token_accuracy": 0.04912624955177307,
	"num_tokens": 7223083.0,
	"step": 2520
	},
	{
	"entropy": 1.5124918982386588,
	"epoch": 3.272962483829237,
	"grad_norm": 0.48449796438217163,
	"learning_rate": 0.00013368744422313135,
	"loss": 1.5844,
	"mean_token_accuracy": 0.6292549699544907,
	"num_tokens": 7278262.0,
	"step": 2530
	},
	{
	"entropy": 1.3001452058553695,
	"epoch": 3.2858990944372573,
	"grad_norm": 0.6388899087905884,
	"learning_rate": 0.00013319382579779143,
	"loss": 1.2473,
	"mean_token_accuracy": 0.686492520570755,
	"num_tokens": 7310633.0,
	"step": 2540
	},
	{
	"entropy": 1.588513082265854,
	"epoch": 3.298835705045278,
	"grad_norm": 0.7601234316825867,
	"learning_rate": 0.00013269929673996372,
	"loss": 1.5813,
	"mean_token_accuracy": 0.6151460394263267,
	"num_tokens": 7333877.0,
	"step": 2550
	},
	{
	"epoch": 3.298835705045278,
	"eval_entropy": 1.50408104668523,
	"eval_loss": 1.3354183435440063,
	"eval_mean_token_accuracy": 0.4569617995862351,
	"eval_num_tokens": 7333877.0,
	"eval_runtime": 242.7951,
	"eval_samples_per_second": 22.636,
	"eval_steps_per_second": 1.417,
	"step": 2550
	},
	{
	"entropy": 1.8434918358922006,
	"epoch": 3.311772315653299,
	"grad_norm": 0.0,
	"learning_rate": 0.00013220387061645518,
	"loss": 1.2378,
	"mean_token_accuracy": 0.3966076374053955,
	"num_tokens": 7340126.0,
	"step": 2560
	},
	{
	"entropy": 2.0701662808656693,
	"epoch": 3.3247089262613194,
	"grad_norm": 0.1653972566127777,
	"learning_rate": 0.00013170756101868274,
	"loss": 0.2363,
	"mean_token_accuracy": 0.04905220568180084,
	"num_tokens": 7368440.0,
	"step": 2570
	},
	{
	"entropy": 1.521276581287384,
	"epoch": 3.3376455368693403,
	"grad_norm": 0.5110422372817993,
	"learning_rate": 0.00013121038156230021,
	"loss": 1.6069,
	"mean_token_accuracy": 0.6247900031507015,
	"num_tokens": 7422449.0,
	"step": 2580
	},
	{
	"entropy": 1.3473992764949798,
	"epoch": 3.350582147477361,
	"grad_norm": 0.5985650420188904,
	"learning_rate": 0.00013071234588682507,
	"loss": 1.2818,
	"mean_token_accuracy": 0.6814156129956246,
	"num_tokens": 7455078.0,
	"step": 2590
	},
	{
	"entropy": 1.5794302642345428,
	"epoch": 3.3635187580853816,
	"grad_norm": 0.7455780506134033,
	"learning_rate": 0.00013021346765526405,
	"loss": 1.5565,
	"mean_token_accuracy": 0.6210769057273865,
	"num_tokens": 7478151.0,
	"step": 2600
	},
	{
	"entropy": 2.400119936466217,
	"epoch": 3.3764553686934025,
	"grad_norm": 0.0,
	"learning_rate": 0.00012971376055373842,
	"loss": 1.3398,
	"mean_token_accuracy": 0.3794242724776268,
	"num_tokens": 7483907.0,
	"step": 2610
	},
	{
	"entropy": 2.360330358147621,
	"epoch": 3.389391979301423,
	"grad_norm": 0.16837802529335022,
	"learning_rate": 0.0001292132382911085,
	"loss": 0.231,
	"mean_token_accuracy": 0.04970394000411034,
	"num_tokens": 7511728.0,
	"step": 2620
	},
	{
	"entropy": 1.5115429222583772,
	"epoch": 3.4023285899094438,
	"grad_norm": 0.5140193700790405,
	"learning_rate": 0.00012871191459859754,
	"loss": 1.5844,
	"mean_token_accuracy": 0.626202804595232,
	"num_tokens": 7564367.0,
	"step": 2630
	},
	{
	"entropy": 1.33871136456728,
	"epoch": 3.4152652005174646,
	"grad_norm": 0.5856406092643738,
	"learning_rate": 0.00012820980322941506,
	"loss": 1.2772,
	"mean_token_accuracy": 0.6828064471483231,
	"num_tokens": 7596458.0,
	"step": 2640
	},
	{
	"entropy": 1.5606994718313216,
	"epoch": 3.428201811125485,
	"grad_norm": 0.7913902401924133,
	"learning_rate": 0.00012770691795837956,
	"loss": 1.5388,
	"mean_token_accuracy": 0.6267461031675339,
	"num_tokens": 7618937.0,
	"step": 2650
	},
	{
	"entropy": 2.3131509482860566,
	"epoch": 3.441138421733506,
	"grad_norm": 0.0,
	"learning_rate": 0.00012720327258154059,
	"loss": 1.3789,
	"mean_token_accuracy": 0.39152705743908883,
	"num_tokens": 7624946.0,
	"step": 2660
	},
	{
	"entropy": 2.270913216471672,
	"epoch": 3.4540750323415264,
	"grad_norm": 0.1674034297466278,
	"learning_rate": 0.00012669888091580033,
	"loss": 0.2283,
	"mean_token_accuracy": 0.05011768788099289,
	"num_tokens": 7655621.0,
	"step": 2670
	},
	{
	"entropy": 1.5039668411016465,
	"epoch": 3.4670116429495472,
	"grad_norm": 0.5039061307907104,
	"learning_rate": 0.00012619375679853435,
	"loss": 1.5889,
	"mean_token_accuracy": 0.6255090057849884,
	"num_tokens": 7706496.0,
	"step": 2680
	},
	{
	"entropy": 1.299958510696888,
	"epoch": 3.479948253557568,
	"grad_norm": 0.6249063611030579,
	"learning_rate": 0.0001256879140872123,
	"loss": 1.2262,
	"mean_token_accuracy": 0.6930169105529785,
	"num_tokens": 7738457.0,
	"step": 2690
	},
	{
	"entropy": 1.5891169756650925,
	"epoch": 3.4928848641655885,
	"grad_norm": 0.7654421925544739,
	"learning_rate": 0.00012518136665901755,
	"loss": 1.5485,
	"mean_token_accuracy": 0.6236635655164718,
	"num_tokens": 7760759.0,
	"step": 2700
	},
	{
	"epoch": 3.4928848641655885,
	"eval_entropy": 1.7460197186054185,
	"eval_loss": 1.3263978958129883,
	"eval_mean_token_accuracy": 0.45740372557626213,
	"eval_num_tokens": 7760759.0,
	"eval_runtime": 244.9238,
	"eval_samples_per_second": 22.44,
	"eval_steps_per_second": 1.405,
	"step": 2700
	},
	{
	"entropy": 2.4236282050609588,
	"epoch": 3.5058214747736094,
	"grad_norm": 0.0,
	"learning_rate": 0.00012467412841046644,
	"loss": 1.3685,
	"mean_token_accuracy": 0.38023146614432335,
	"num_tokens": 7766609.0,
	"step": 2710
	},
	{
	"entropy": 2.481502190232277,
	"epoch": 3.51875808538163,
	"grad_norm": 0.18167299032211304,
	"learning_rate": 0.00012416621325702723,
	"loss": 0.2353,
	"mean_token_accuracy": 0.049381527304649356,
	"num_tokens": 7796963.0,
	"step": 2720
	},
	{
	"entropy": 1.526540043950081,
	"epoch": 3.5316946959896507,
	"grad_norm": 0.5063906908035278,
	"learning_rate": 0.00012365763513273826,
	"loss": 1.6301,
	"mean_token_accuracy": 0.6226166233420372,
	"num_tokens": 7851436.0,
	"step": 2730
	},
	{
	"entropy": 1.3451905250549316,
	"epoch": 3.5446313065976716,
	"grad_norm": 0.591876208782196,
	"learning_rate": 0.0001231484079898255,
	"loss": 1.2804,
	"mean_token_accuracy": 0.6807183653116227,
	"num_tokens": 7883623.0,
	"step": 2740
	},
	{
	"entropy": 1.6224838614463806,
	"epoch": 3.557567917205692,
	"grad_norm": 0.8054526448249817,
	"learning_rate": 0.00012263854579832022,
	"loss": 1.5855,
	"mean_token_accuracy": 0.6138912171125412,
	"num_tokens": 7906065.0,
	"step": 2750
	},
	{
	"entropy": 2.2193833112716677,
	"epoch": 3.570504527813713,
	"grad_norm": 0.0,
	"learning_rate": 0.00012212806254567526,
	"loss": 1.3055,
	"mean_token_accuracy": 0.388429357111454,
	"num_tokens": 7911950.0,
	"step": 2760
	},
	{
	"entropy": 1.9380589336156846,
	"epoch": 3.5834411384217333,
	"grad_norm": 0.15811856091022491,
	"learning_rate": 0.00012161697223638162,
	"loss": 0.2486,
	"mean_token_accuracy": 0.048336771130561826,
	"num_tokens": 7944772.0,
	"step": 2770
	},
	{
	"entropy": 1.5291394203901292,
	"epoch": 3.596377749029754,
	"grad_norm": 0.5478163361549377,
	"learning_rate": 0.00012110528889158421,
	"loss": 1.6201,
	"mean_token_accuracy": 0.6210859633982182,
	"num_tokens": 7998744.0,
	"step": 2780
	},
	{
	"entropy": 1.3308267042040824,
	"epoch": 3.609314359637775,
	"grad_norm": 0.6494978070259094,
	"learning_rate": 0.00012059302654869707,
	"loss": 1.2747,
	"mean_token_accuracy": 0.6828291460871696,
	"num_tokens": 8030628.0,
	"step": 2790
	},
	{
	"entropy": 1.6048484414815902,
	"epoch": 3.6222509702457955,
	"grad_norm": 0.8232805132865906,
	"learning_rate": 0.00012008019926101837,
	"loss": 1.5858,
	"mean_token_accuracy": 0.614265987277031,
	"num_tokens": 8052959.0,
	"step": 2800
	},
	{
	"entropy": 2.457938811182976,
	"epoch": 3.6351875808538163,
	"grad_norm": 0.0,
	"learning_rate": 0.00011956682109734485,
	"loss": 1.3734,
	"mean_token_accuracy": 0.37425210550427435,
	"num_tokens": 8058605.0,
	"step": 2810
	},
	{
	"entropy": 2.780105286836624,
	"epoch": 3.6481241914618368,
	"grad_norm": 0.15952081978321075,
	"learning_rate": 0.0001190529061415859,
	"loss": 0.2238,
	"mean_token_accuracy": 0.0499541737139225,
	"num_tokens": 8088439.0,
	"step": 2820
	},
	{
	"entropy": 1.4993865296244622,
	"epoch": 3.6610608020698576,
	"grad_norm": 0.4854850769042969,
	"learning_rate": 0.0001185384684923772,
	"loss": 1.5841,
	"mean_token_accuracy": 0.6286533363163471,
	"num_tokens": 8140599.0,
	"step": 2830
	},
	{
	"entropy": 1.3472731560468674,
	"epoch": 3.6739974126778785,
	"grad_norm": 0.6306962966918945,
	"learning_rate": 0.00011802352226269375,
	"loss": 1.292,
	"mean_token_accuracy": 0.6775945991277694,
	"num_tokens": 8172688.0,
	"step": 2840
	},
	{
	"entropy": 1.5441134572029114,
	"epoch": 3.6869340232858994,
	"grad_norm": 0.8373256325721741,
	"learning_rate": 0.00011750808157946291,
	"loss": 1.5236,
	"mean_token_accuracy": 0.6226452678442002,
	"num_tokens": 8195667.0,
	"step": 2850
	},
	{
	"epoch": 3.6869340232858994,
	"eval_entropy": 2.019692697324032,
	"eval_loss": 1.3088935613632202,
	"eval_mean_token_accuracy": 0.45852816875937374,
	"eval_num_tokens": 8195667.0,
	"eval_runtime": 247.8075,
	"eval_samples_per_second": 22.179,
	"eval_steps_per_second": 1.388,
	"step": 2850
	},
	{
	"entropy": 2.331311251223087,
	"epoch": 3.69987063389392,
	"grad_norm": 0.0,
	"learning_rate": 0.00011699216058317686,
	"loss": 1.4345,
	"mean_token_accuracy": 0.42385049238801004,
	"num_tokens": 8202061.0,
	"step": 2860
	},
	{
	"entropy": 1.3996504232287408,
	"epoch": 3.71280724450194,
	"grad_norm": 0.16637884080410004,
	"learning_rate": 0.00011647577342750447,
	"loss": 0.232,
	"mean_token_accuracy": 0.05035848617553711,
	"num_tokens": 8229320.0,
	"step": 2870
	},
	{
	"entropy": 1.5440905675292016,
	"epoch": 3.725743855109961,
	"grad_norm": 0.5046349763870239,
	"learning_rate": 0.00011595893427890316,
	"loss": 1.6135,
	"mean_token_accuracy": 0.6227852456271649,
	"num_tokens": 8282159.0,
	"step": 2880
	},
	{
	"entropy": 1.313097244501114,
	"epoch": 3.738680465717982,
	"grad_norm": 0.6280332803726196,
	"learning_rate": 0.00011544165731623029,
	"loss": 1.283,
	"mean_token_accuracy": 0.6847794458270073,
	"num_tokens": 8314583.0,
	"step": 2890
	},
	{
	"entropy": 1.5734279870986938,
	"epoch": 3.751617076326003,
	"grad_norm": 0.8147013187408447,
	"learning_rate": 0.00011492395673035401,
	"loss": 1.5372,
	"mean_token_accuracy": 0.6240187495946884,
	"num_tokens": 8337156.0,
	"step": 2900
	},
	{
	"entropy": 1.903187246620655,
	"epoch": 3.7645536869340233,
	"grad_norm": 0.0,
	"learning_rate": 0.00011440584672376418,
	"loss": 1.3835,
	"mean_token_accuracy": 0.3674991957843304,
	"num_tokens": 8343309.0,
	"step": 2910
	},
	{
	"entropy": 1.1613501474261283,
	"epoch": 3.777490297542044,
	"grad_norm": 0.16990479826927185,
	"learning_rate": 0.00011388734151018252,
	"loss": 0.2192,
	"mean_token_accuracy": 0.050329743325710295,
	"num_tokens": 8374198.0,
	"step": 2920
	},
	{
	"entropy": 1.5224060222506524,
	"epoch": 3.7904269081500646,
	"grad_norm": 0.5338153839111328,
	"learning_rate": 0.00011336845531417286,
	"loss": 1.6167,
	"mean_token_accuracy": 0.6217537559568882,
	"num_tokens": 8426906.0,
	"step": 2930
	},
	{
	"entropy": 1.3422169074416161,
	"epoch": 3.8033635187580854,
	"grad_norm": 0.6484615802764893,
	"learning_rate": 0.00011284920237075076,
	"loss": 1.2771,
	"mean_token_accuracy": 0.6828199326992035,
	"num_tokens": 8458929.0,
	"step": 2940
	},
	{
	"entropy": 1.5778010010719299,
	"epoch": 3.8163001293661063,
	"grad_norm": 0.8282558917999268,
	"learning_rate": 0.00011232959692499308,
	"loss": 1.5224,
	"mean_token_accuracy": 0.6264667376875878,
	"num_tokens": 8481613.0,
	"step": 2950
	},
	{
	"entropy": 2.231258991360664,
	"epoch": 3.8292367399741267,
	"grad_norm": 0.0,
	"learning_rate": 0.00011180965323164719,
	"loss": 1.3715,
	"mean_token_accuracy": 0.4014947086572647,
	"num_tokens": 8487887.0,
	"step": 2960
	},
	{
	"entropy": 2.2951877444982527,
	"epoch": 3.8421733505821476,
	"grad_norm": 0.16264809668064117,
	"learning_rate": 0.00011128938555473976,
	"loss": 0.242,
	"mean_token_accuracy": 0.04751046672463417,
	"num_tokens": 8522204.0,
	"step": 2970
	},
	{
	"entropy": 1.505036623775959,
	"epoch": 3.855109961190168,
	"grad_norm": 0.5537543892860413,
	"learning_rate": 0.00011076880816718569,
	"loss": 1.5994,
	"mean_token_accuracy": 0.6235061697661877,
	"num_tokens": 8576399.0,
	"step": 2980
	},
	{
	"entropy": 1.306050930917263,
	"epoch": 3.868046571798189,
	"grad_norm": 0.6618802547454834,
	"learning_rate": 0.00011024793535039634,
	"loss": 1.2665,
	"mean_token_accuracy": 0.6823444902896881,
	"num_tokens": 8607791.0,
	"step": 2990
	},
	{
	"entropy": 1.5978755921125412,
	"epoch": 3.8809831824062098,
	"grad_norm": 0.756771445274353,
	"learning_rate": 0.00010972678139388784,
	"loss": 1.5231,
	"mean_token_accuracy": 0.6199123159050941,
	"num_tokens": 8629942.0,
	"step": 3000
	},
	{
	"epoch": 3.8809831824062098,
	"eval_entropy": 1.7341382033949675,
	"eval_loss": 1.2953605651855469,
	"eval_mean_token_accuracy": 0.4613482361269552,
	"eval_num_tokens": 8629942.0,
	"eval_runtime": 243.363,
	"eval_samples_per_second": 22.584,
	"eval_steps_per_second": 1.414,
	"step": 3000
	},
	{
	"entropy": 1.9563438802957536,
	"epoch": 3.89391979301423,
	"grad_norm": 0.0,
	"learning_rate": 0.00010920536059488904,
	"loss": 1.2245,
	"mean_token_accuracy": 0.35897522792220116,
	"num_tokens": 8635069.0,
	"step": 3010
	},
	{
	"entropy": 0.9117880932986736,
	"epoch": 3.906856403622251,
	"grad_norm": 0.16995865106582642,
	"learning_rate": 0.00010868368725794928,
	"loss": 0.2219,
	"mean_token_accuracy": 0.050884007662534717,
	"num_tokens": 8661156.0,
	"step": 3020
	},
	{
	"entropy": 1.5383384585380555,
	"epoch": 3.9197930142302715,
	"grad_norm": 0.5345892310142517,
	"learning_rate": 0.000108161775694546,
	"loss": 1.6123,
	"mean_token_accuracy": 0.6229903392493725,
	"num_tokens": 8713506.0,
	"step": 3030
	},
	{
	"entropy": 1.2795201033353805,
	"epoch": 3.9327296248382924,
	"grad_norm": 0.682775616645813,
	"learning_rate": 0.00010763964022269213,
	"loss": 1.2389,
	"mean_token_accuracy": 0.6921025589108467,
	"num_tokens": 8745762.0,
	"step": 3040
	},
	{
	"entropy": 1.585690438747406,
	"epoch": 3.9456662354463132,
	"grad_norm": 0.7901929616928101,
	"learning_rate": 0.00010711729516654311,
	"loss": 1.5575,
	"mean_token_accuracy": 0.6214944392442703,
	"num_tokens": 8768560.0,
	"step": 3050
	},
	{
	"entropy": 2.0845181226730345,
	"epoch": 3.9586028460543337,
	"grad_norm": 0.0,
	"learning_rate": 0.00010659475485600423,
	"loss": 1.4895,
	"mean_token_accuracy": 0.39826231375336646,
	"num_tokens": 8775063.0,
	"step": 3060
	},
	{
	"entropy": 2.2135625928640366,
	"epoch": 3.9715394566623545,
	"grad_norm": 0.212826207280159,
	"learning_rate": 0.00010607203362633728,
	"loss": 0.2226,
	"mean_token_accuracy": 0.051099646091461184,
	"num_tokens": 8793192.0,
	"step": 3070
	},
	{
	"entropy": 1.4032258987426758,
	"epoch": 3.984476067270375,
	"grad_norm": 0.6924927830696106,
	"learning_rate": 0.00010554914581776738,
	"loss": 1.4474,
	"mean_token_accuracy": 0.6517833903431892,
	"num_tokens": 8831113.0,
	"step": 3080
	},
	{
	"entropy": 2.1208325177431107,
	"epoch": 3.997412677878396,
	"grad_norm": 0.0,
	"learning_rate": 0.00010502610577508949,
	"loss": 1.1819,
	"mean_token_accuracy": 0.38025794699788096,
	"num_tokens": 8840822.0,
	"step": 3090
	},
	{
	"entropy": 1.8567550331354141,
	"epoch": 4.010349288486417,
	"grad_norm": 0.5068947076797485,
	"learning_rate": 0.00010450292784727496,
	"loss": 1.3687,
	"mean_token_accuracy": 0.48387093394994735,
	"num_tokens": 8907582.0,
	"step": 3100
	},
	{
	"entropy": 1.1507928803563119,
	"epoch": 4.023285899094438,
	"grad_norm": 0.6847311854362488,
	"learning_rate": 0.00010397962638707783,
	"loss": 1.129,
	"mean_token_accuracy": 0.7149621859192848,
	"num_tokens": 8942268.0,
	"step": 3110
	},
	{
	"entropy": 1.3405901521444321,
	"epoch": 4.0362225097024576,
	"grad_norm": 0.8465374112129211,
	"learning_rate": 0.00010345621575064117,
	"loss": 1.3204,
	"mean_token_accuracy": 0.6661748513579369,
	"num_tokens": 8967621.0,
	"step": 3120
	},
	{
	"entropy": 1.9997529834508896,
	"epoch": 4.049159120310478,
	"grad_norm": 1.2902584075927734,
	"learning_rate": 0.00010293271029710307,
	"loss": 1.7005,
	"mean_token_accuracy": 0.5859146490693092,
	"num_tokens": 8978783.0,
	"step": 3130
	},
	{
	"entropy": 2.575493034720421,
	"epoch": 4.062095730918499,
	"grad_norm": 0.0,
	"learning_rate": 0.00010240912438820289,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 8979423.0,
	"step": 3140
	},
	{
	"entropy": 1.8354697600007057,
	"epoch": 4.07503234152652,
	"grad_norm": 0.6097379326820374,
	"learning_rate": 0.00010188547238788713,
	"loss": 1.3617,
	"mean_token_accuracy": 0.4855068750679493,
	"num_tokens": 9049300.0,
	"step": 3150
	},
	{
	"epoch": 4.07503234152652,
	"eval_entropy": 1.8855025125450866,
	"eval_loss": 1.301902413368225,
	"eval_mean_token_accuracy": 0.46030220640606656,
	"eval_num_tokens": 9049300.0,
	"eval_runtime": 243.8279,
	"eval_samples_per_second": 22.54,
	"eval_steps_per_second": 1.411,
	"step": 3150
	},
	{
	"entropy": 1.140310089290142,
	"epoch": 4.087968952134541,
	"grad_norm": 0.6553735136985779,
	"learning_rate": 0.00010136176866191548,
	"loss": 1.109,
	"mean_token_accuracy": 0.7216179341077804,
	"num_tokens": 9083874.0,
	"step": 3160
	},
	{
	"entropy": 1.3620821744203568,
	"epoch": 4.100905562742561,
	"grad_norm": 0.9848551154136658,
	"learning_rate": 0.00010083802757746668,
	"loss": 1.2997,
	"mean_token_accuracy": 0.6707961618900299,
	"num_tokens": 9108826.0,
	"step": 3170
	},
	{
	"entropy": 2.078350791335106,
	"epoch": 4.113842173350582,
	"grad_norm": 0.9935686588287354,
	"learning_rate": 0.0001003142635027442,
	"loss": 1.6088,
	"mean_token_accuracy": 0.5507442288100719,
	"num_tokens": 9118696.0,
	"step": 3180
	},
	{
	"entropy": 1.528096930682659,
	"epoch": 4.126778783958603,
	"grad_norm": 0.0,
	"learning_rate": 9.979049080658242e-05,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 9119336.0,
	"step": 3190
	},
	{
	"entropy": 1.4985127076506615,
	"epoch": 4.139715394566624,
	"grad_norm": 0.6286259889602661,
	"learning_rate": 9.926672385805207e-05,
	"loss": 1.4428,
	"mean_token_accuracy": 0.46830192804336546,
	"num_tokens": 9198456.0,
	"step": 3200
	},
	{
	"entropy": 1.1341844990849494,
	"epoch": 4.1526520051746445,
	"grad_norm": 0.6682960391044617,
	"learning_rate": 9.874297702606636e-05,
	"loss": 1.1144,
	"mean_token_accuracy": 0.7213881194591523,
	"num_tokens": 9234104.0,
	"step": 3210
	},
	{
	"entropy": 1.3693108260631561,
	"epoch": 4.165588615782665,
	"grad_norm": 0.8303619027137756,
	"learning_rate": 9.821926467898653e-05,
	"loss": 1.3216,
	"mean_token_accuracy": 0.6689239561557769,
	"num_tokens": 9259921.0,
	"step": 3220
	},
	{
	"entropy": 1.9042235404253005,
	"epoch": 4.178525226390685,
	"grad_norm": 1.645528793334961,
	"learning_rate": 9.769560118422773e-05,
	"loss": 1.7769,
	"mean_token_accuracy": 0.5957130216062069,
	"num_tokens": 9272479.0,
	"step": 3230
	},
	{
	"entropy": 0.9734129890799522,
	"epoch": 4.191461836998706,
	"grad_norm": 0.0,
	"learning_rate": 9.717200090786501e-05,
	"loss": 0.0492,
	"mean_token_accuracy": 0.03619047701358795,
	"num_tokens": 9273156.0,
	"step": 3240
	},
	{
	"entropy": 1.5239285960793496,
	"epoch": 4.204398447606727,
	"grad_norm": 0.6020880937576294,
	"learning_rate": 9.664847821423907e-05,
	"loss": 1.4046,
	"mean_token_accuracy": 0.47501309886574744,
	"num_tokens": 9347748.0,
	"step": 3250
	},
	{
	"entropy": 1.103029479086399,
	"epoch": 4.217335058214748,
	"grad_norm": 0.6547256708145142,
	"learning_rate": 9.612504746556215e-05,
	"loss": 1.0853,
	"mean_token_accuracy": 0.722417363524437,
	"num_tokens": 9382776.0,
	"step": 3260
	},
	{
	"entropy": 1.371236687898636,
	"epoch": 4.230271668822769,
	"grad_norm": 0.910345733165741,
	"learning_rate": 9.560172302152414e-05,
	"loss": 1.3338,
	"mean_token_accuracy": 0.6663747102022171,
	"num_tokens": 9408048.0,
	"step": 3270
	},
	{
	"entropy": 1.8871563643217086,
	"epoch": 4.243208279430789,
	"grad_norm": 1.3442589044570923,
	"learning_rate": 9.507851923889868e-05,
	"loss": 1.6856,
	"mean_token_accuracy": 0.5958636343479157,
	"num_tokens": 9419207.0,
	"step": 3280
	},
	{
	"entropy": 2.1561751127243043,
	"epoch": 4.25614489003881,
	"grad_norm": 0.0,
	"learning_rate": 9.455545047114901e-05,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 9419847.0,
	"step": 3290
	},
	{
	"entropy": 1.766649141907692,
	"epoch": 4.269081500646831,
	"grad_norm": 0.6345491409301758,
	"learning_rate": 9.40325310680346e-05,
	"loss": 1.3764,
	"mean_token_accuracy": 0.48196633756160734,
	"num_tokens": 9491348.0,
	"step": 3300
	},
	{
	"epoch": 4.269081500646831,
	"eval_entropy": 1.759770261860171,
	"eval_loss": 1.3021514415740967,
	"eval_mean_token_accuracy": 0.4654658474894457,
	"eval_num_tokens": 9491348.0,
	"eval_runtime": 243.8603,
	"eval_samples_per_second": 22.537,
	"eval_steps_per_second": 1.411,
	"step": 3300
	},
	{
	"entropy": 1.0932901889085769,
	"epoch": 4.282018111254851,
	"grad_norm": 0.6778357028961182,
	"learning_rate": 9.350977537521717e-05,
	"loss": 1.0699,
	"mean_token_accuracy": 0.7278983518481255,
	"num_tokens": 9526419.0,
	"step": 3310
	},
	{
	"entropy": 1.3789748430252076,
	"epoch": 4.294954721862872,
	"grad_norm": 0.8899635672569275,
	"learning_rate": 9.298719773386724e-05,
	"loss": 1.3351,
	"mean_token_accuracy": 0.6661961570382118,
	"num_tokens": 9551892.0,
	"step": 3320
	},
	{
	"entropy": 1.957590714097023,
	"epoch": 4.307891332470892,
	"grad_norm": 1.470860481262207,
	"learning_rate": 9.246481248027077e-05,
	"loss": 1.7173,
	"mean_token_accuracy": 0.5974891498684883,
	"num_tokens": 9563515.0,
	"step": 3330
	},
	{
	"entropy": 2.714459627866745,
	"epoch": 4.320827943078913,
	"grad_norm": 0.0,
	"learning_rate": 9.194263394543575e-05,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 9564155.0,
	"step": 3340
	},
	{
	"entropy": 1.8973265826702117,
	"epoch": 4.333764553686934,
	"grad_norm": 0.6255518198013306,
	"learning_rate": 9.14206764546991e-05,
	"loss": 1.4331,
	"mean_token_accuracy": 0.47237296029925346,
	"num_tokens": 9638156.0,
	"step": 3350
	},
	{
	"entropy": 1.113997830450535,
	"epoch": 4.346701164294955,
	"grad_norm": 0.6197985410690308,
	"learning_rate": 9.089895432733364e-05,
	"loss": 1.1138,
	"mean_token_accuracy": 0.7213677644729615,
	"num_tokens": 9674105.0,
	"step": 3360
	},
	{
	"entropy": 1.355890506505966,
	"epoch": 4.359637774902976,
	"grad_norm": 0.8531930446624756,
	"learning_rate": 9.037748187615538e-05,
	"loss": 1.3064,
	"mean_token_accuracy": 0.6726941719651223,
	"num_tokens": 9700126.0,
	"step": 3370
	},
	{
	"entropy": 1.9791965007781982,
	"epoch": 4.372574385510996,
	"grad_norm": 1.7110706567764282,
	"learning_rate": 8.985627340713061e-05,
	"loss": 1.6769,
	"mean_token_accuracy": 0.5642684459686279,
	"num_tokens": 9711816.0,
	"step": 3380
	},
	{
	"entropy": 3.160873770713806,
	"epoch": 4.385510996119017,
	"grad_norm": 0.0,
	"learning_rate": 8.933534321898367e-05,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 9712456.0,
	"step": 3390
	},
	{
	"entropy": 2.013157232105732,
	"epoch": 4.3984476067270375,
	"grad_norm": 0.6276950240135193,
	"learning_rate": 8.881470560280465e-05,
	"loss": 1.4395,
	"mean_token_accuracy": 0.4699708536267281,
	"num_tokens": 9789047.0,
	"step": 3400
	},
	{
	"entropy": 1.0582531332969665,
	"epoch": 4.411384217335058,
	"grad_norm": 0.6762167811393738,
	"learning_rate": 8.829437484165718e-05,
	"loss": 1.0539,
	"mean_token_accuracy": 0.7299133688211441,
	"num_tokens": 9824536.0,
	"step": 3410
	},
	{
	"entropy": 1.3210778176784514,
	"epoch": 4.424320827943079,
	"grad_norm": 0.8756985664367676,
	"learning_rate": 8.777436521018676e-05,
	"loss": 1.2846,
	"mean_token_accuracy": 0.6797921255230903,
	"num_tokens": 9850555.0,
	"step": 3420
	},
	{
	"entropy": 1.8927232474088669,
	"epoch": 4.437257438551099,
	"grad_norm": 1.5375664234161377,
	"learning_rate": 8.725469097422912e-05,
	"loss": 1.7705,
	"mean_token_accuracy": 0.5886133186519146,
	"num_tokens": 9863603.0,
	"step": 3430
	},
	{
	"entropy": 2.54144030213356,
	"epoch": 4.45019404915912,
	"grad_norm": 0.0,
	"learning_rate": 8.673536639041864e-05,
	"loss": 0.0476,
	"mean_token_accuracy": 0.04354838728904724,
	"num_tokens": 9864278.0,
	"step": 3440
	},
	{
	"entropy": 1.6926740244030953,
	"epoch": 4.463130659767141,
	"grad_norm": 0.639385461807251,
	"learning_rate": 8.621640570579764e-05,
	"loss": 1.2832,
	"mean_token_accuracy": 0.502137529104948,
	"num_tokens": 9929876.0,
	"step": 3450
	},
	{
	"epoch": 4.463130659767141,
	"eval_entropy": 1.6399936731471572,
	"eval_loss": 1.2823114395141602,
	"eval_mean_token_accuracy": 0.4697489900471166,
	"eval_num_tokens": 9929876.0,
	"eval_runtime": 242.6114,
	"eval_samples_per_second": 22.654,
	"eval_steps_per_second": 1.418,
	"step": 3450
	},
	{
	"entropy": 1.0890112176537514,
	"epoch": 4.476067270375162,
	"grad_norm": 0.6899943351745605,
	"learning_rate": 8.56978231574252e-05,
	"loss": 1.0627,
	"mean_token_accuracy": 0.7313546255230904,
	"num_tokens": 9964211.0,
	"step": 3460
	},
	{
	"entropy": 1.3737705022096633,
	"epoch": 4.489003880983183,
	"grad_norm": 0.9175981879234314,
	"learning_rate": 8.517963297198672e-05,
	"loss": 1.3508,
	"mean_token_accuracy": 0.6623948410153389,
	"num_tokens": 9989036.0,
	"step": 3470
	},
	{
	"entropy": 1.8537749290466308,
	"epoch": 4.501940491591203,
	"grad_norm": 1.1406779289245605,
	"learning_rate": 8.466184936540351e-05,
	"loss": 1.6469,
	"mean_token_accuracy": 0.590015722811222,
	"num_tokens": 9999994.0,
	"step": 3480
	},
	{
	"entropy": 1.9705951809883118,
	"epoch": 4.514877102199224,
	"grad_norm": 0.0,
	"learning_rate": 8.414448654244297e-05,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 10000634.0,
	"step": 3490
	},
	{
	"entropy": 1.7736740306019783,
	"epoch": 4.527813712807244,
	"grad_norm": 0.5741596817970276,
	"learning_rate": 8.362755869632883e-05,
	"loss": 1.418,
	"mean_token_accuracy": 0.4736007325351238,
	"num_tokens": 10069782.0,
	"step": 3500
	},
	{
	"entropy": 1.1099611327052117,
	"epoch": 4.540750323415265,
	"grad_norm": 0.6997600793838501,
	"learning_rate": 8.311108000835167e-05,
	"loss": 1.1002,
	"mean_token_accuracy": 0.7222409531474113,
	"num_tokens": 10105051.0,
	"step": 3510
	},
	{
	"entropy": 1.3370502710342407,
	"epoch": 4.553686934023286,
	"grad_norm": 0.9216951131820679,
	"learning_rate": 8.259506464747999e-05,
	"loss": 1.2856,
	"mean_token_accuracy": 0.6742190420627594,
	"num_tokens": 10129844.0,
	"step": 3520
	},
	{
	"entropy": 2.0127808332443236,
	"epoch": 4.566623544631307,
	"grad_norm": 1.644737958908081,
	"learning_rate": 8.207952676997153e-05,
	"loss": 1.7374,
	"mean_token_accuracy": 0.5706604786217213,
	"num_tokens": 10140891.0,
	"step": 3530
	},
	{
	"entropy": 2.3392362356185914,
	"epoch": 4.579560155239327,
	"grad_norm": 0.0,
	"learning_rate": 8.156448051898476e-05,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 10141531.0,
	"step": 3540
	},
	{
	"entropy": 1.7776501581072808,
	"epoch": 4.592496765847348,
	"grad_norm": 0.6358464956283569,
	"learning_rate": 8.1049940024191e-05,
	"loss": 1.4156,
	"mean_token_accuracy": 0.47597954645752905,
	"num_tokens": 10208071.0,
	"step": 3550
	},
	{
	"entropy": 1.103192213177681,
	"epoch": 4.605433376455369,
	"grad_norm": 0.6968359351158142,
	"learning_rate": 8.053591940138686e-05,
	"loss": 1.096,
	"mean_token_accuracy": 0.7267577677965165,
	"num_tokens": 10242851.0,
	"step": 3560
	},
	{
	"entropy": 1.3612541019916535,
	"epoch": 4.61836998706339,
	"grad_norm": 0.9655300974845886,
	"learning_rate": 8.002243275210669e-05,
	"loss": 1.3057,
	"mean_token_accuracy": 0.672816789150238,
	"num_tokens": 10268178.0,
	"step": 3570
	},
	{
	"entropy": 1.932911714911461,
	"epoch": 4.63130659767141,
	"grad_norm": 1.2096027135849,
	"learning_rate": 7.950949416323612e-05,
	"loss": 1.7086,
	"mean_token_accuracy": 0.612860233336687,
	"num_tokens": 10279495.0,
	"step": 3580
	},
	{
	"entropy": 1.9618256837129593,
	"epoch": 4.6442432082794305,
	"grad_norm": 0.0,
	"learning_rate": 7.899711770662532e-05,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 10280135.0,
	"step": 3590
	},
	{
	"entropy": 1.6968649536371232,
	"epoch": 4.657179818887451,
	"grad_norm": 0.6373590230941772,
	"learning_rate": 7.848531743870297e-05,
	"loss": 1.3993,
	"mean_token_accuracy": 0.4759638875722885,
	"num_tokens": 10346462.0,
	"step": 3600
	},
	{
	"epoch": 4.657179818887451,
	"eval_entropy": 1.577659371980401,
	"eval_loss": 1.273931622505188,
	"eval_mean_token_accuracy": 0.4723818853150967,
	"eval_num_tokens": 10346462.0,
	"eval_runtime": 245.6574,
	"eval_samples_per_second": 22.373,
	"eval_steps_per_second": 1.4,
	"step": 3600
	},
	{
	"entropy": 1.093438169360161,
	"epoch": 4.670116429495472,
	"grad_norm": 0.7240473628044128,
	"learning_rate": 7.797410740009084e-05,
	"loss": 1.0745,
	"mean_token_accuracy": 0.7309321075677871,
	"num_tokens": 10381489.0,
	"step": 3610
	},
	{
	"entropy": 1.37732635140419,
	"epoch": 4.683053040103493,
	"grad_norm": 0.9580934047698975,
	"learning_rate": 7.746350161521845e-05,
	"loss": 1.336,
	"mean_token_accuracy": 0.6637881115078926,
	"num_tokens": 10406795.0,
	"step": 3620
	},
	{
	"entropy": 1.9799594402313232,
	"epoch": 4.695989650711514,
	"grad_norm": 1.5260565280914307,
	"learning_rate": 7.695351409193823e-05,
	"loss": 1.7859,
	"mean_token_accuracy": 0.5888419583439827,
	"num_tokens": 10418685.0,
	"step": 3630
	},
	{
	"entropy": 1.8445574283599853,
	"epoch": 4.708926261319534,
	"grad_norm": 0.0,
	"learning_rate": 7.644415882114145e-05,
	"loss": 0.0354,
	"mean_token_accuracy": 0.04375,
	"num_tokens": 10419355.0,
	"step": 3640
	},
	{
	"entropy": 1.724594485759735,
	"epoch": 4.721862871927555,
	"grad_norm": 0.5997304320335388,
	"learning_rate": 7.593544977637436e-05,
	"loss": 1.4375,
	"mean_token_accuracy": 0.4693992160260677,
	"num_tokens": 10485312.0,
	"step": 3650
	},
	{
	"entropy": 1.079079033434391,
	"epoch": 4.734799482535576,
	"grad_norm": 0.6873499155044556,
	"learning_rate": 7.54274009134546e-05,
	"loss": 1.0708,
	"mean_token_accuracy": 0.7280381500720978,
	"num_tokens": 10520582.0,
	"step": 3660
	},
	{
	"entropy": 1.315394550561905,
	"epoch": 4.747736093143597,
	"grad_norm": 0.8612226843833923,
	"learning_rate": 7.492002617008866e-05,
	"loss": 1.2891,
	"mean_token_accuracy": 0.6757827803492547,
	"num_tokens": 10545966.0,
	"step": 3670
	},
	{
	"entropy": 1.840933558344841,
	"epoch": 4.760672703751617,
	"grad_norm": 0.7735125422477722,
	"learning_rate": 7.441333946548939e-05,
	"loss": 1.575,
	"mean_token_accuracy": 0.5655414000153541,
	"num_tokens": 10557080.0,
	"step": 3680
	},
	{
	"entropy": 1.232702499628067,
	"epoch": 4.773609314359637,
	"grad_norm": 0.0,
	"learning_rate": 7.390735469999398e-05,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 10557720.0,
	"step": 3690
	},
	{
	"entropy": 1.5656249672174454,
	"epoch": 4.786545924967658,
	"grad_norm": 0.6145333051681519,
	"learning_rate": 7.340208575468291e-05,
	"loss": 1.4603,
	"mean_token_accuracy": 0.46657404825091364,
	"num_tokens": 10627563.0,
	"step": 3700
	},
	{
	"entropy": 1.0934513494372369,
	"epoch": 4.799482535575679,
	"grad_norm": 0.7226387858390808,
	"learning_rate": 7.289754649099897e-05,
	"loss": 1.0786,
	"mean_token_accuracy": 0.7299003899097443,
	"num_tokens": 10662880.0,
	"step": 3710
	},
	{
	"entropy": 1.3585843235254287,
	"epoch": 4.8124191461837,
	"grad_norm": 0.8521022796630859,
	"learning_rate": 7.239375075036697e-05,
	"loss": 1.3144,
	"mean_token_accuracy": 0.6705298006534577,
	"num_tokens": 10688600.0,
	"step": 3720
	},
	{
	"entropy": 1.8722685337066651,
	"epoch": 4.825355756791721,
	"grad_norm": 1.371882677078247,
	"learning_rate": 7.189071235381406e-05,
	"loss": 1.7141,
	"mean_token_accuracy": 0.604588358104229,
	"num_tokens": 10700334.0,
	"step": 3730
	},
	{
	"entropy": 1.860415416955948,
	"epoch": 4.838292367399741,
	"grad_norm": 0.0,
	"learning_rate": 7.138844510159069e-05,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 10700974.0,
	"step": 3740
	},
	{
	"entropy": 1.68975418061018,
	"epoch": 4.851228978007762,
	"grad_norm": 0.6484793424606323,
	"learning_rate": 7.088696277279175e-05,
	"loss": 1.3382,
	"mean_token_accuracy": 0.4887751266360283,
	"num_tokens": 10771692.0,
	"step": 3750
	},
	{
	"epoch": 4.851228978007762,
	"eval_entropy": 1.7122522977202437,
	"eval_loss": 1.2648330926895142,
	"eval_mean_token_accuracy": 0.47577540377198263,
	"eval_num_tokens": 10771692.0,
	"eval_runtime": 244.9784,
	"eval_samples_per_second": 22.435,
	"eval_steps_per_second": 1.404,
	"step": 3750
	},
	{
	"entropy": 1.1040325671434403,
	"epoch": 4.864165588615783,
	"grad_norm": 0.7224993705749512,
	"learning_rate": 7.038627912497873e-05,
	"loss": 1.0872,
	"mean_token_accuracy": 0.7262751698493958,
	"num_tokens": 10806575.0,
	"step": 3760
	},
	{
	"entropy": 1.3863080263137817,
	"epoch": 4.8771021992238035,
	"grad_norm": 0.9205716252326965,
	"learning_rate": 6.988640789380241e-05,
	"loss": 1.3415,
	"mean_token_accuracy": 0.6670658677816391,
	"num_tokens": 10831607.0,
	"step": 3770
	},
	{
	"entropy": 1.986344888806343,
	"epoch": 4.890038809831824,
	"grad_norm": 1.2501696348190308,
	"learning_rate": 6.938736279262567e-05,
	"loss": 1.5931,
	"mean_token_accuracy": 0.5594463273882866,
	"num_tokens": 10842477.0,
	"step": 3780
	},
	{
	"entropy": 2.6916876256465914,
	"epoch": 4.902975420439844,
	"grad_norm": 0.0,
	"learning_rate": 6.888915751214774e-05,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 10843117.0,
	"step": 3790
	},
	{
	"entropy": 1.8490806862711906,
	"epoch": 4.915912031047865,
	"grad_norm": 0.6139810085296631,
	"learning_rate": 6.83918057200283e-05,
	"loss": 1.3791,
	"mean_token_accuracy": 0.4822954162955284,
	"num_tokens": 10917288.0,
	"step": 3800
	},
	{
	"entropy": 1.063162423670292,
	"epoch": 4.928848641655886,
	"grad_norm": 0.7340760231018066,
	"learning_rate": 6.789532106051246e-05,
	"loss": 1.0523,
	"mean_token_accuracy": 0.7331129983067513,
	"num_tokens": 10952906.0,
	"step": 3810
	},
	{
	"entropy": 1.348393714427948,
	"epoch": 4.941785252263907,
	"grad_norm": 0.979292094707489,
	"learning_rate": 6.739971715405684e-05,
	"loss": 1.3057,
	"mean_token_accuracy": 0.6723238781094552,
	"num_tokens": 10978606.0,
	"step": 3820
	},
	{
	"entropy": 1.887803316116333,
	"epoch": 4.954721862871928,
	"grad_norm": 1.4358190298080444,
	"learning_rate": 6.690500759695557e-05,
	"loss": 1.6779,
	"mean_token_accuracy": 0.6134289026260376,
	"num_tokens": 10990333.0,
	"step": 3830
	},
	{
	"entropy": 2.7988963067531585,
	"epoch": 4.967658473479949,
	"grad_norm": 0.0,
	"learning_rate": 6.641120596096729e-05,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 10990973.0,
	"step": 3840
	},
	{
	"entropy": 1.5671290338039399,
	"epoch": 4.980595084087969,
	"grad_norm": 0.697485625743866,
	"learning_rate": 6.591832579294303e-05,
	"loss": 1.0782,
	"mean_token_accuracy": 0.5383081540465355,
	"num_tokens": 11034414.0,
	"step": 3850
	},
	{
	"entropy": 1.7319936901330948,
	"epoch": 4.99353169469599,
	"grad_norm": 0.0,
	"learning_rate": 6.542638061445447e-05,
	"loss": 1.3846,
	"mean_token_accuracy": 0.5769012212753296,
	"num_tokens": 11050864.0,
	"step": 3860
	},
	{
	"entropy": 2.4691727608442307,
	"epoch": 5.00646830530401,
	"grad_norm": 0.49155521392822266,
	"learning_rate": 6.493538392142287e-05,
	"loss": 1.0145,
	"mean_token_accuracy": 0.26990386173129083,
	"num_tokens": 11109874.0,
	"step": 3870
	},
	{
	"entropy": 1.075531531870365,
	"epoch": 5.019404915912031,
	"grad_norm": 0.7045453190803528,
	"learning_rate": 6.444534918374906e-05,
	"loss": 1.0364,
	"mean_token_accuracy": 0.7393457636237144,
	"num_tokens": 11148394.0,
	"step": 3880
	},
	{
	"entropy": 1.1883759826421738,
	"epoch": 5.032341526520052,
	"grad_norm": 0.9995729327201843,
	"learning_rate": 6.395628984494378e-05,
	"loss": 1.2028,
	"mean_token_accuracy": 0.6972079753875733,
	"num_tokens": 11176092.0,
	"step": 3890
	},
	{
	"entropy": 1.7173998385667801,
	"epoch": 5.045278137128072,
	"grad_norm": 1.125909686088562,
	"learning_rate": 6.346821932175873e-05,
	"loss": 1.5967,
	"mean_token_accuracy": 0.6245104640722274,
	"num_tokens": 11192285.0,
	"step": 3900
	},
	{
	"epoch": 5.045278137128072,
	"eval_entropy": 1.9103823839578518,
	"eval_loss": 1.2630141973495483,
	"eval_mean_token_accuracy": 0.4754580475043419,
	"eval_num_tokens": 11192285.0,
	"eval_runtime": 244.3056,
	"eval_samples_per_second": 22.496,
	"eval_steps_per_second": 1.408,
	"step": 3900
	},
	{
	"entropy": 2.6084256947040556,
	"epoch": 5.058214747736093,
	"grad_norm": 0.0,
	"learning_rate": 6.298115100381882e-05,
	"loss": 0.3442,
	"mean_token_accuracy": 0.16731906533241273,
	"num_tokens": 11193644.0,
	"step": 3910
	},
	{
	"entropy": 2.282520645856857,
	"epoch": 5.071151358344114,
	"grad_norm": 0.5869239568710327,
	"learning_rate": 6.249509825325467e-05,
	"loss": 0.9511,
	"mean_token_accuracy": 0.28290636241436007,
	"num_tokens": 11249840.0,
	"step": 3920
	},
	{
	"entropy": 1.016249306499958,
	"epoch": 5.084087968952135,
	"grad_norm": 0.7197193503379822,
	"learning_rate": 6.201007440433588e-05,
	"loss": 1.007,
	"mean_token_accuracy": 0.7442266702651977,
	"num_tokens": 11287639.0,
	"step": 3930
	},
	{
	"entropy": 1.2221685394644737,
	"epoch": 5.097024579560156,
	"grad_norm": 0.9447595477104187,
	"learning_rate": 6.152609276310549e-05,
	"loss": 1.187,
	"mean_token_accuracy": 0.7011413544416427,
	"num_tokens": 11315215.0,
	"step": 3940
	},
	{
	"entropy": 1.6715268433094024,
	"epoch": 5.109961190168176,
	"grad_norm": 1.0949913263320923,
	"learning_rate": 6.104316660701485e-05,
	"loss": 1.5623,
	"mean_token_accuracy": 0.6256066203117371,
	"num_tokens": 11332567.0,
	"step": 3950
	},
	{
	"entropy": 2.496020531654358,
	"epoch": 5.1228978007761965,
	"grad_norm": 0.0,
	"learning_rate": 6.056130918455929e-05,
	"loss": 0.4602,
	"mean_token_accuracy": 0.21488995999097824,
	"num_tokens": 11334364.0,
	"step": 3960
	},
	{
	"entropy": 2.2577121645212173,
	"epoch": 5.135834411384217,
	"grad_norm": 0.6211187243461609,
	"learning_rate": 6.0080533714914766e-05,
	"loss": 1.0081,
	"mean_token_accuracy": 0.2705229982733727,
	"num_tokens": 11391718.0,
	"step": 3970
	},
	{
	"entropy": 1.0153650417923927,
	"epoch": 5.148771021992238,
	"grad_norm": 0.649202287197113,
	"learning_rate": 5.9600853387575163e-05,
	"loss": 1.0426,
	"mean_token_accuracy": 0.7383781686425209,
	"num_tokens": 11430710.0,
	"step": 3980
	},
	{
	"entropy": 1.1217432379722596,
	"epoch": 5.161707632600259,
	"grad_norm": 0.9362276792526245,
	"learning_rate": 5.912228136199038e-05,
	"loss": 1.0765,
	"mean_token_accuracy": 0.7234507903456688,
	"num_tokens": 11459154.0,
	"step": 3990
	},
	{
	"entropy": 1.6653785824775695,
	"epoch": 5.174644243208279,
	"grad_norm": 1.2307344675064087,
	"learning_rate": 5.864483076720555e-05,
	"loss": 1.5669,
	"mean_token_accuracy": 0.6285063222050666,
	"num_tokens": 11476268.0,
	"step": 4000
	},
	{
	"entropy": 2.082801552116871,
	"epoch": 5.1875808538163,
	"grad_norm": 0.0,
	"learning_rate": 5.81685147015006e-05,
	"loss": 0.3513,
	"mean_token_accuracy": 0.1956300586462021,
	"num_tokens": 11477779.0,
	"step": 4010
	},
	{
	"entropy": 2.0466490238904953,
	"epoch": 5.200517464424321,
	"grad_norm": 0.5699072480201721,
	"learning_rate": 5.769334623203095e-05,
	"loss": 0.9736,
	"mean_token_accuracy": 0.27822155207395555,
	"num_tokens": 11531993.0,
	"step": 4020
	},
	{
	"entropy": 1.0089649006724357,
	"epoch": 5.213454075032342,
	"grad_norm": 0.6833609938621521,
	"learning_rate": 5.7219338394469356e-05,
	"loss": 1.0355,
	"mean_token_accuracy": 0.7415396451950074,
	"num_tokens": 11570430.0,
	"step": 4030
	},
	{
	"entropy": 1.1602358788251876,
	"epoch": 5.226390685640363,
	"grad_norm": 0.933566153049469,
	"learning_rate": 5.674650419264782e-05,
	"loss": 1.1016,
	"mean_token_accuracy": 0.7183712035417557,
	"num_tokens": 11598642.0,
	"step": 4040
	},
	{
	"entropy": 1.6275397926568984,
	"epoch": 5.239327296248383,
	"grad_norm": 1.2435181140899658,
	"learning_rate": 5.6274856598201066e-05,
	"loss": 1.5472,
	"mean_token_accuracy": 0.6266872644424438,
	"num_tokens": 11615900.0,
	"step": 4050
	},
	{
	"epoch": 5.239327296248383,
	"eval_entropy": 1.7370388171700544,
	"eval_loss": 1.2589974403381348,
	"eval_mean_token_accuracy": 0.4773535789965197,
	"eval_num_tokens": 11615900.0,
	"eval_runtime": 242.7915,
	"eval_samples_per_second": 22.637,
	"eval_steps_per_second": 1.417,
	"step": 4050
	},
	{
	"entropy": 2.3815665364265444,
	"epoch": 5.252263906856403,
	"grad_norm": 0.0,
	"learning_rate": 5.580440855021083e-05,
	"loss": 0.4649,
	"mean_token_accuracy": 0.19248609468340874,
	"num_tokens": 11617642.0,
	"step": 4060
	},
	{
	"entropy": 2.2312158316373827,
	"epoch": 5.265200517464424,
	"grad_norm": 0.5702583193778992,
	"learning_rate": 5.533517295485062e-05,
	"loss": 0.9829,
	"mean_token_accuracy": 0.27761168628931043,
	"num_tokens": 11675101.0,
	"step": 4070
	},
	{
	"entropy": 1.0108808249235153,
	"epoch": 5.278137128072445,
	"grad_norm": 0.752931535243988,
	"learning_rate": 5.486716268503182e-05,
	"loss": 1.0438,
	"mean_token_accuracy": 0.7365775972604751,
	"num_tokens": 11713657.0,
	"step": 4080
	},
	{
	"entropy": 1.2421717032790185,
	"epoch": 5.291073738680466,
	"grad_norm": 0.9655210375785828,
	"learning_rate": 5.440039058005047e-05,
	"loss": 1.1822,
	"mean_token_accuracy": 0.7000416114926338,
	"num_tokens": 11741666.0,
	"step": 4090
	},
	{
	"entropy": 1.6973173677921296,
	"epoch": 5.304010349288486,
	"grad_norm": 1.5103716850280762,
	"learning_rate": 5.393486944523505e-05,
	"loss": 1.5623,
	"mean_token_accuracy": 0.6223144173622132,
	"num_tokens": 11758203.0,
	"step": 4100
	},
	{
	"entropy": 2.1967957854270934,
	"epoch": 5.316946959896507,
	"grad_norm": 0.0,
	"learning_rate": 5.347061205159519e-05,
	"loss": 0.2983,
	"mean_token_accuracy": 0.15621012300252915,
	"num_tokens": 11759461.0,
	"step": 4110
	},
	{
	"entropy": 1.981054452061653,
	"epoch": 5.329883570504528,
	"grad_norm": 0.6421746611595154,
	"learning_rate": 5.3007631135471334e-05,
	"loss": 0.9895,
	"mean_token_accuracy": 0.2755612075328827,
	"num_tokens": 11813613.0,
	"step": 4120
	},
	{
	"entropy": 0.9758897602558136,
	"epoch": 5.342820181112549,
	"grad_norm": 0.7207741141319275,
	"learning_rate": 5.2545939398185284e-05,
	"loss": 1.0031,
	"mean_token_accuracy": 0.7456466734409333,
	"num_tokens": 11852165.0,
	"step": 4130
	},
	{
	"entropy": 1.195047491788864,
	"epoch": 5.3557567917205695,
	"grad_norm": 0.9851743578910828,
	"learning_rate": 5.208554950569178e-05,
	"loss": 1.1364,
	"mean_token_accuracy": 0.7128469496965408,
	"num_tokens": 11880541.0,
	"step": 4140
	},
	{
	"entropy": 1.6736773550510406,
	"epoch": 5.36869340232859,
	"grad_norm": 1.2857285737991333,
	"learning_rate": 5.1626474088231004e-05,
	"loss": 1.6022,
	"mean_token_accuracy": 0.6264947578310966,
	"num_tokens": 11897978.0,
	"step": 4150
	},
	{
	"entropy": 2.3716455429792402,
	"epoch": 5.38163001293661,
	"grad_norm": 0.0,
	"learning_rate": 5.116872573998217e-05,
	"loss": 0.3852,
	"mean_token_accuracy": 0.18944832757115365,
	"num_tokens": 11899460.0,
	"step": 4160
	},
	{
	"entropy": 2.3163172632455824,
	"epoch": 5.394566623544631,
	"grad_norm": 0.60521000623703,
	"learning_rate": 5.071231701871787e-05,
	"loss": 0.9779,
	"mean_token_accuracy": 0.27711123302578927,
	"num_tokens": 11956251.0,
	"step": 4170
	},
	{
	"entropy": 1.026511162519455,
	"epoch": 5.407503234152652,
	"grad_norm": 0.7545950412750244,
	"learning_rate": 5.025726044545968e-05,
	"loss": 1.0516,
	"mean_token_accuracy": 0.7328214541077613,
	"num_tokens": 11995157.0,
	"step": 4180
	},
	{
	"entropy": 1.1451522946357726,
	"epoch": 5.420439844760673,
	"grad_norm": 0.9537347555160522,
	"learning_rate": 4.980356850413472e-05,
	"loss": 1.1319,
	"mean_token_accuracy": 0.7138208642601966,
	"num_tokens": 12023430.0,
	"step": 4190
	},
	{
	"entropy": 1.7249857246875764,
	"epoch": 5.433376455368693,
	"grad_norm": 1.279359221458435,
	"learning_rate": 4.935125364123292e-05,
	"loss": 1.6072,
	"mean_token_accuracy": 0.6237147711217403,
	"num_tokens": 12040024.0,
	"step": 4200
	},
	{
	"epoch": 5.433376455368693,
	"eval_entropy": 1.8443097567488982,
	"eval_loss": 1.2536410093307495,
	"eval_mean_token_accuracy": 0.4748884228079818,
	"eval_num_tokens": 12040024.0,
	"eval_runtime": 241.7185,
	"eval_samples_per_second": 22.737,
	"eval_steps_per_second": 1.423,
	"step": 4200
	},
	{
	"entropy": 2.7387112855911253,
	"epoch": 5.446313065976714,
	"grad_norm": 0.0,
	"learning_rate": 4.89003282654658e-05,
	"loss": 0.389,
	"mean_token_accuracy": 0.1823613777756691,
	"num_tokens": 12041467.0,
	"step": 4210
	},
	{
	"entropy": 2.44253671169281,
	"epoch": 5.459249676584735,
	"grad_norm": 0.5715515613555908,
	"learning_rate": 4.845080474742608e-05,
	"loss": 0.9938,
	"mean_token_accuracy": 0.2730660729110241,
	"num_tokens": 12103775.0,
	"step": 4220
	},
	{
	"entropy": 1.003270110487938,
	"epoch": 5.472186287192756,
	"grad_norm": 0.7785800099372864,
	"learning_rate": 4.800269541924799e-05,
	"loss": 1.0184,
	"mean_token_accuracy": 0.7413052409887314,
	"num_tokens": 12143014.0,
	"step": 4230
	},
	{
	"entropy": 1.1527703180909157,
	"epoch": 5.485122897800776,
	"grad_norm": 0.9831658005714417,
	"learning_rate": 4.7556012574269395e-05,
	"loss": 1.1284,
	"mean_token_accuracy": 0.7102037504315376,
	"num_tokens": 12171448.0,
	"step": 4240
	},
	{
	"entropy": 1.7090917527675629,
	"epoch": 5.498059508408797,
	"grad_norm": 1.4465516805648804,
	"learning_rate": 4.7110768466694224e-05,
	"loss": 1.6112,
	"mean_token_accuracy": 0.6218582183122635,
	"num_tokens": 12188400.0,
	"step": 4250
	},
	{
	"entropy": 2.560487928986549,
	"epoch": 5.510996119016817,
	"grad_norm": 0.0,
	"learning_rate": 4.666697531125627e-05,
	"loss": 0.3879,
	"mean_token_accuracy": 0.16174983084201813,
	"num_tokens": 12189804.0,
	"step": 4260
	},
	{
	"entropy": 2.277393540740013,
	"epoch": 5.523932729624838,
	"grad_norm": 0.5197897553443909,
	"learning_rate": 4.622464528288443e-05,
	"loss": 1.027,
	"mean_token_accuracy": 0.2683463282883167,
	"num_tokens": 12249572.0,
	"step": 4270
	},
	{
	"entropy": 1.0234995201230048,
	"epoch": 5.536869340232859,
	"grad_norm": 0.7546108961105347,
	"learning_rate": 4.578379051636832e-05,
	"loss": 1.0282,
	"mean_token_accuracy": 0.7406062006950378,
	"num_tokens": 12288484.0,
	"step": 4280
	},
	{
	"entropy": 1.1632590115070343,
	"epoch": 5.54980595084088,
	"grad_norm": 1.0032302141189575,
	"learning_rate": 4.534442310602559e-05,
	"loss": 1.1404,
	"mean_token_accuracy": 0.7092833399772644,
	"num_tokens": 12316357.0,
	"step": 4290
	},
	{
	"entropy": 1.6969922810792923,
	"epoch": 5.5627425614489,
	"grad_norm": 1.356163740158081,
	"learning_rate": 4.490655510537004e-05,
	"loss": 1.5895,
	"mean_token_accuracy": 0.6228079289197922,
	"num_tokens": 12332741.0,
	"step": 4300
	},
	{
	"entropy": 2.227242410182953,
	"epoch": 5.575679172056921,
	"grad_norm": 0.0,
	"learning_rate": 4.447019852678101e-05,
	"loss": 0.3691,
	"mean_token_accuracy": 0.18163795471191407,
	"num_tokens": 12334119.0,
	"step": 4310
	},
	{
	"entropy": 2.0241008371114733,
	"epoch": 5.588615782664942,
	"grad_norm": 0.5737898945808411,
	"learning_rate": 4.40353653411738e-05,
	"loss": 0.956,
	"mean_token_accuracy": 0.2796335697174072,
	"num_tokens": 12386755.0,
	"step": 4320
	},
	{
	"entropy": 1.009289626777172,
	"epoch": 5.6015523932729625,
	"grad_norm": 0.7294387221336365,
	"learning_rate": 4.360206747767122e-05,
	"loss": 1.032,
	"mean_token_accuracy": 0.7417484134435653,
	"num_tokens": 12424985.0,
	"step": 4330
	},
	{
	"entropy": 1.1622566372156142,
	"epoch": 5.614489003880983,
	"grad_norm": 1.0234155654907227,
	"learning_rate": 4.3170316823276424e-05,
	"loss": 1.1576,
	"mean_token_accuracy": 0.7061204954981803,
	"num_tokens": 12452639.0,
	"step": 4340
	},
	{
	"entropy": 1.6782744824886322,
	"epoch": 5.627425614489004,
	"grad_norm": 1.4249658584594727,
	"learning_rate": 4.274012522254674e-05,
	"loss": 1.5881,
	"mean_token_accuracy": 0.6237360410392284,
	"num_tokens": 12469230.0,
	"step": 4350
	},
	{
	"epoch": 5.627425614489004,
	"eval_entropy": 1.6210007650214573,
	"eval_loss": 1.241470217704773,
	"eval_mean_token_accuracy": 0.47642275673705475,
	"eval_num_tokens": 12469230.0,
	"eval_runtime": 246.3378,
	"eval_samples_per_second": 22.311,
	"eval_steps_per_second": 1.396,
	"step": 4350
	},
	{
	"entropy": 1.9652087688446045,
	"epoch": 5.640362225097024,
	"grad_norm": 0.0,
	"learning_rate": 4.231150447726874e-05,
	"loss": 0.3533,
	"mean_token_accuracy": 0.19179367125034333,
	"num_tokens": 12470690.0,
	"step": 4360
	},
	{
	"entropy": 1.9280417621135713,
	"epoch": 5.653298835705045,
	"grad_norm": 0.5711302757263184,
	"learning_rate": 4.1884466346134466e-05,
	"loss": 0.9704,
	"mean_token_accuracy": 0.27944710552692414,
	"num_tokens": 12525117.0,
	"step": 4370
	},
	{
	"entropy": 1.0357938587665558,
	"epoch": 5.666235446313066,
	"grad_norm": 0.6963515877723694,
	"learning_rate": 4.145902254441888e-05,
	"loss": 1.0365,
	"mean_token_accuracy": 0.7398686364293099,
	"num_tokens": 12563021.0,
	"step": 4380
	},
	{
	"entropy": 1.1490644261240959,
	"epoch": 5.679172056921087,
	"grad_norm": 0.9824443459510803,
	"learning_rate": 4.1035184743658376e-05,
	"loss": 1.1307,
	"mean_token_accuracy": 0.7091254457831383,
	"num_tokens": 12591024.0,
	"step": 4390
	},
	{
	"entropy": 1.68570619225502,
	"epoch": 5.692108667529108,
	"grad_norm": 1.2685192823410034,
	"learning_rate": 4.0612964571330805e-05,
	"loss": 1.5877,
	"mean_token_accuracy": 0.6187320709228515,
	"num_tokens": 12607889.0,
	"step": 4400
	},
	{
	"entropy": 1.995962232351303,
	"epoch": 5.705045278137128,
	"grad_norm": 0.0,
	"learning_rate": 4.019237361053615e-05,
	"loss": 0.4375,
	"mean_token_accuracy": 0.1990293502807617,
	"num_tokens": 12609477.0,
	"step": 4410
	},
	{
	"entropy": 2.0628999888896944,
	"epoch": 5.717981888745149,
	"grad_norm": 0.582778811454773,
	"learning_rate": 3.977342339967902e-05,
	"loss": 0.9965,
	"mean_token_accuracy": 0.2732643634080887,
	"num_tokens": 12668390.0,
	"step": 4420
	},
	{
	"entropy": 1.0030916407704353,
	"epoch": 5.730918499353169,
	"grad_norm": 0.7195892930030823,
	"learning_rate": 3.935612543215216e-05,
	"loss": 1.0055,
	"mean_token_accuracy": 0.7438824102282524,
	"num_tokens": 12707626.0,
	"step": 4430
	},
	{
	"entropy": 1.1245022103190423,
	"epoch": 5.74385510996119,
	"grad_norm": 0.9609954357147217,
	"learning_rate": 3.8940491156020744e-05,
	"loss": 1.0932,
	"mean_token_accuracy": 0.7223910227417946,
	"num_tokens": 12736376.0,
	"step": 4440
	},
	{
	"entropy": 1.653869342803955,
	"epoch": 5.756791720569211,
	"grad_norm": 1.3840677738189697,
	"learning_rate": 3.852653197370885e-05,
	"loss": 1.5745,
	"mean_token_accuracy": 0.6224342837929726,
	"num_tokens": 12753560.0,
	"step": 4450
	},
	{
	"entropy": 2.0997736901044846,
	"epoch": 5.769728331177232,
	"grad_norm": 0.0,
	"learning_rate": 3.811425924168628e-05,
	"loss": 0.4083,
	"mean_token_accuracy": 0.17910270839929582,
	"num_tokens": 12755081.0,
	"step": 4460
	},
	{
	"entropy": 2.0056353509426117,
	"epoch": 5.782664941785252,
	"grad_norm": 0.5901302099227905,
	"learning_rate": 3.770368427015699e-05,
	"loss": 0.9965,
	"mean_token_accuracy": 0.2755757987499237,
	"num_tokens": 12818062.0,
	"step": 4470
	},
	{
	"entropy": 0.9973522603511811,
	"epoch": 5.795601552393273,
	"grad_norm": 0.7053154110908508,
	"learning_rate": 3.729481832274916e-05,
	"loss": 1.0101,
	"mean_token_accuracy": 0.7445162117481232,
	"num_tokens": 12856675.0,
	"step": 4480
	},
	{
	"entropy": 1.158506852388382,
	"epoch": 5.808538163001294,
	"grad_norm": 1.0795212984085083,
	"learning_rate": 3.688767261620578e-05,
	"loss": 1.1325,
	"mean_token_accuracy": 0.7126885786652565,
	"num_tokens": 12884620.0,
	"step": 4490
	},
	{
	"entropy": 1.6880556523799897,
	"epoch": 5.821474773609315,
	"grad_norm": 1.5192304849624634,
	"learning_rate": 3.64822583200772e-05,
	"loss": 1.5872,
	"mean_token_accuracy": 0.6223025761544705,
	"num_tokens": 12901293.0,
	"step": 4500
	},
	{
	"epoch": 5.821474773609315,
	"eval_entropy": 1.5741082594491715,
	"eval_loss": 1.2425955533981323,
	"eval_mean_token_accuracy": 0.4777476576178573,
	"eval_num_tokens": 12901293.0,
	"eval_runtime": 245.8608,
	"eval_samples_per_second": 22.354,
	"eval_steps_per_second": 1.399,
	"step": 4500
	},
	{
	"entropy": 1.8717746943235398,
	"epoch": 5.834411384217335,
	"grad_norm": 0.0,
	"learning_rate": 3.607858655641457e-05,
	"loss": 0.3819,
	"mean_token_accuracy": 0.20605695247650146,
	"num_tokens": 12902761.0,
	"step": 4510
	},
	{
	"entropy": 1.97312273979187,
	"epoch": 5.8473479948253555,
	"grad_norm": 0.5747093558311462,
	"learning_rate": 3.56766683994648e-05,
	"loss": 0.9997,
	"mean_token_accuracy": 0.27485966980457305,
	"num_tokens": 12956936.0,
	"step": 4520
	},
	{
	"entropy": 1.026018126308918,
	"epoch": 5.860284605433376,
	"grad_norm": 0.7504481077194214,
	"learning_rate": 3.527651487536669e-05,
	"loss": 1.044,
	"mean_token_accuracy": 0.7389606684446335,
	"num_tokens": 12995952.0,
	"step": 4530
	},
	{
	"entropy": 1.1011481299996375,
	"epoch": 5.873221216041397,
	"grad_norm": 0.9883886575698853,
	"learning_rate": 3.487813696184852e-05,
	"loss": 1.0814,
	"mean_token_accuracy": 0.722546960413456,
	"num_tokens": 13024545.0,
	"step": 4540
	},
	{
	"entropy": 1.6190055787563324,
	"epoch": 5.886157826649418,
	"grad_norm": 1.3633733987808228,
	"learning_rate": 3.448154558792677e-05,
	"loss": 1.5299,
	"mean_token_accuracy": 0.6360443904995918,
	"num_tokens": 13041707.0,
	"step": 4550
	},
	{
	"entropy": 1.919902539253235,
	"epoch": 5.899094437257439,
	"grad_norm": 0.0,
	"learning_rate": 3.408675163360643e-05,
	"loss": 0.3972,
	"mean_token_accuracy": 0.18492977023124696,
	"num_tokens": 13043179.0,
	"step": 4560
	},
	{
	"entropy": 1.9439027100801467,
	"epoch": 5.912031047865459,
	"grad_norm": 0.5576460957527161,
	"learning_rate": 3.369376592958243e-05,
	"loss": 1.0312,
	"mean_token_accuracy": 0.2685145862400532,
	"num_tokens": 13106663.0,
	"step": 4570
	},
	{
	"entropy": 1.0852982923388481,
	"epoch": 5.92496765847348,
	"grad_norm": 0.7461971044540405,
	"learning_rate": 3.3302599256942524e-05,
	"loss": 1.0907,
	"mean_token_accuracy": 0.7287055298686027,
	"num_tokens": 13146036.0,
	"step": 4580
	},
	{
	"entropy": 1.1466092258691787,
	"epoch": 5.937904269081501,
	"grad_norm": 0.9710547924041748,
	"learning_rate": 3.2913262346871564e-05,
	"loss": 1.118,
	"mean_token_accuracy": 0.7170251324772835,
	"num_tokens": 13175061.0,
	"step": 4590
	},
	{
	"entropy": 1.5422434598207473,
	"epoch": 5.950840879689522,
	"grad_norm": 1.2156635522842407,
	"learning_rate": 3.252576588035703e-05,
	"loss": 1.4615,
	"mean_token_accuracy": 0.6465979412198066,
	"num_tokens": 13192904.0,
	"step": 4600
	},
	{
	"entropy": 1.8891061872243882,
	"epoch": 5.963777490297542,
	"grad_norm": 0.0,
	"learning_rate": 3.21401204878962e-05,
	"loss": 0.4084,
	"mean_token_accuracy": 0.20470450967550277,
	"num_tokens": 13194636.0,
	"step": 4610
	},
	{
	"entropy": 1.679259254038334,
	"epoch": 5.976714100905562,
	"grad_norm": 0.7184410095214844,
	"learning_rate": 3.175633674920415e-05,
	"loss": 0.7382,
	"mean_token_accuracy": 0.3269588887691498,
	"num_tokens": 13232029.0,
	"step": 4620
	},
	{
	"entropy": 1.1688358381390571,
	"epoch": 5.989650711513583,
	"grad_norm": 0.9711093306541443,
	"learning_rate": 3.1374425192923874e-05,
	"loss": 1.1566,
	"mean_token_accuracy": 0.7072150468826294,
	"num_tokens": 13259115.0,
	"step": 4630
	},
	{
	"entropy": 1.995809930562973,
	"epoch": 6.002587322121604,
	"grad_norm": 0.3214434087276459,
	"learning_rate": 3.099439629633738e-05,
	"loss": 0.9081,
	"mean_token_accuracy": 0.2743851698935032,
	"num_tokens": 13302193.0,
	"step": 4640
	},
	{
	"entropy": 1.2387345060706139,
	"epoch": 6.015523932729625,
	"grad_norm": 0.7096182107925415,
	"learning_rate": 3.061626048507794e-05,
	"loss": 1.2251,
	"mean_token_accuracy": 0.7026221588253975,
	"num_tokens": 13349206.0,
	"step": 4650
	},
	{
	"epoch": 6.015523932729625,
	"eval_entropy": 1.4673164599510127,
	"eval_loss": 1.236427664756775,
	"eval_mean_token_accuracy": 0.4835313937171947,
	"eval_num_tokens": 13349206.0,
	"eval_runtime": 245.226,
	"eval_samples_per_second": 22.412,
	"eval_steps_per_second": 1.403,
	"step": 4650
	},
	{
	"entropy": 1.0112595960497857,
	"epoch": 6.028460543337646,
	"grad_norm": 0.9612884521484375,
	"learning_rate": 3.0240028132844577e-05,
	"loss": 0.9916,
	"mean_token_accuracy": 0.7466120198369026,
	"num_tokens": 13380735.0,
	"step": 4660
	},
	{
	"entropy": 1.321917925775051,
	"epoch": 6.041397153945666,
	"grad_norm": 0.9298290014266968,
	"learning_rate": 2.9865709561117093e-05,
	"loss": 1.277,
	"mean_token_accuracy": 0.6769641906023025,
	"num_tokens": 13402259.0,
	"step": 4670
	},
	{
	"entropy": 1.9312127828598022,
	"epoch": 6.054333764553687,
	"grad_norm": 0.0,
	"learning_rate": 2.949331503887296e-05,
	"loss": 0.9373,
	"mean_token_accuracy": 0.38414124920964243,
	"num_tokens": 13406702.0,
	"step": 4680
	},
	{
	"entropy": 1.8519232898950577,
	"epoch": 6.067270375161708,
	"grad_norm": 0.3253900706768036,
	"learning_rate": 2.9122854782305853e-05,
	"loss": 0.4393,
	"mean_token_accuracy": 0.10099697411060334,
	"num_tokens": 13448471.0,
	"step": 4690
	},
	{
	"entropy": 1.2315872982144356,
	"epoch": 6.0802069857697285,
	"grad_norm": 0.7172207832336426,
	"learning_rate": 2.8754338954545078e-05,
	"loss": 1.2677,
	"mean_token_accuracy": 0.6917841538786889,
	"num_tokens": 13494707.0,
	"step": 4700
	},
	{
	"entropy": 1.078819990158081,
	"epoch": 6.093143596377749,
	"grad_norm": 0.9585686326026917,
	"learning_rate": 2.8387777665376947e-05,
	"loss": 1.0795,
	"mean_token_accuracy": 0.7268196657299996,
	"num_tokens": 13525272.0,
	"step": 4710
	},
	{
	"entropy": 1.439416041970253,
	"epoch": 6.106080206985769,
	"grad_norm": 0.967811107635498,
	"learning_rate": 2.8023180970967333e-05,
	"loss": 1.3684,
	"mean_token_accuracy": 0.6664265364408493,
	"num_tokens": 13545790.0,
	"step": 4720
	},
	{
	"entropy": 1.8261877298355103,
	"epoch": 6.11901681759379,
	"grad_norm": 0.0,
	"learning_rate": 2.766055887358584e-05,
	"loss": 0.8898,
	"mean_token_accuracy": 0.34252284914255143,
	"num_tokens": 13549613.0,
	"step": 4730
	},
	{
	"entropy": 1.8926386773586272,
	"epoch": 6.131953428201811,
	"grad_norm": 0.33156275749206543,
	"learning_rate": 2.72999213213314e-05,
	"loss": 0.438,
	"mean_token_accuracy": 0.10151686370372773,
	"num_tokens": 13586113.0,
	"step": 4740
	},
	{
	"entropy": 1.2399160832166671,
	"epoch": 6.144890038809832,
	"grad_norm": 0.7470856308937073,
	"learning_rate": 2.6941278207859333e-05,
	"loss": 1.2593,
	"mean_token_accuracy": 0.6944727435708046,
	"num_tokens": 13632230.0,
	"step": 4750
	},
	{
	"entropy": 1.008384570479393,
	"epoch": 6.157826649417853,
	"grad_norm": 0.992726743221283,
	"learning_rate": 2.6584639372109942e-05,
	"loss": 0.991,
	"mean_token_accuracy": 0.7462219312787056,
	"num_tokens": 13663326.0,
	"step": 4760
	},
	{
	"entropy": 1.338111485540867,
	"epoch": 6.170763260025873,
	"grad_norm": 1.0804771184921265,
	"learning_rate": 2.623001459803861e-05,
	"loss": 1.3146,
	"mean_token_accuracy": 0.6769130662083626,
	"num_tokens": 13684547.0,
	"step": 4770
	},
	{
	"entropy": 1.9144802495837212,
	"epoch": 6.183699870633894,
	"grad_norm": 0.0,
	"learning_rate": 2.5877413614347358e-05,
	"loss": 0.8822,
	"mean_token_accuracy": 0.3425231367349625,
	"num_tokens": 13688744.0,
	"step": 4780
	},
	{
	"entropy": 1.9466426759958266,
	"epoch": 6.196636481241915,
	"grad_norm": 0.30804237723350525,
	"learning_rate": 2.5526846094217948e-05,
	"loss": 0.4398,
	"mean_token_accuracy": 0.10224909633398056,
	"num_tokens": 13724520.0,
	"step": 4790
	},
	{
	"entropy": 1.2254028126597405,
	"epoch": 6.2095730918499354,
	"grad_norm": 0.7537704706192017,
	"learning_rate": 2.5178321655046577e-05,
	"loss": 1.2608,
	"mean_token_accuracy": 0.6935150980949402,
	"num_tokens": 13771548.0,
	"step": 4800
	},
	{
	"epoch": 6.2095730918499354,
	"eval_entropy": 1.452152093482572,
	"eval_loss": 1.2386506795883179,
	"eval_mean_token_accuracy": 0.4820184623605983,
	"eval_num_tokens": 13771548.0,
	"eval_runtime": 247.597,
	"eval_samples_per_second": 22.197,
	"eval_steps_per_second": 1.389,
	"step": 4800
	},
	{
	"entropy": 1.0173511430621147,
	"epoch": 6.222509702457956,
	"grad_norm": 0.9651890993118286,
	"learning_rate": 2.4831849858179913e-05,
	"loss": 1.0019,
	"mean_token_accuracy": 0.7469066709280014,
	"num_tokens": 13802198.0,
	"step": 4810
	},
	{
	"entropy": 1.3790171161293983,
	"epoch": 6.235446313065976,
	"grad_norm": 1.0010708570480347,
	"learning_rate": 2.448744020865299e-05,
	"loss": 1.3194,
	"mean_token_accuracy": 0.6719131916761398,
	"num_tokens": 13823366.0,
	"step": 4820
	},
	{
	"entropy": 1.8534984111785888,
	"epoch": 6.248382923673997,
	"grad_norm": 0.0,
	"learning_rate": 2.4145102154928156e-05,
	"loss": 0.9022,
	"mean_token_accuracy": 0.36226404309272764,
	"num_tokens": 13827780.0,
	"step": 4830
	},
	{
	"entropy": 1.787733218073845,
	"epoch": 6.261319534282018,
	"grad_norm": 0.35094037652015686,
	"learning_rate": 2.380484508863611e-05,
	"loss": 0.4416,
	"mean_token_accuracy": 0.10181766748428345,
	"num_tokens": 13865780.0,
	"step": 4840
	},
	{
	"entropy": 1.2079532265663147,
	"epoch": 6.274256144890039,
	"grad_norm": 0.7374927997589111,
	"learning_rate": 2.346667834431826e-05,
	"loss": 1.2223,
	"mean_token_accuracy": 0.704416724294424,
	"num_tokens": 13911952.0,
	"step": 4850
	},
	{
	"entropy": 0.9947008207440377,
	"epoch": 6.28719275549806,
	"grad_norm": 0.9054901003837585,
	"learning_rate": 2.3130611199170384e-05,
	"loss": 0.9776,
	"mean_token_accuracy": 0.7504064351320267,
	"num_tokens": 13943487.0,
	"step": 4860
	},
	{
	"entropy": 1.312053567171097,
	"epoch": 6.300129366106081,
	"grad_norm": 1.030329704284668,
	"learning_rate": 2.2796652872788448e-05,
	"loss": 1.2766,
	"mean_token_accuracy": 0.6872908189892769,
	"num_tokens": 13965764.0,
	"step": 4870
	},
	{
	"entropy": 1.73905668258667,
	"epoch": 6.313065976714101,
	"grad_norm": 0.0,
	"learning_rate": 2.246481252691548e-05,
	"loss": 0.9456,
	"mean_token_accuracy": 0.3810268484055996,
	"num_tokens": 13970660.0,
	"step": 4880
	},
	{
	"entropy": 1.7431816905736923,
	"epoch": 6.3260025873221215,
	"grad_norm": 0.3432393968105316,
	"learning_rate": 2.213509926519016e-05,
	"loss": 0.4431,
	"mean_token_accuracy": 0.103342554718256,
	"num_tokens": 14010149.0,
	"step": 4890
	},
	{
	"entropy": 1.2463560298085212,
	"epoch": 6.338939197930142,
	"grad_norm": 0.7458313703536987,
	"learning_rate": 2.1807522132897383e-05,
	"loss": 1.2702,
	"mean_token_accuracy": 0.6920596107840538,
	"num_tokens": 14057120.0,
	"step": 4900
	},
	{
	"entropy": 1.027150359749794,
	"epoch": 6.351875808538163,
	"grad_norm": 0.8767898082733154,
	"learning_rate": 2.148209011671979e-05,
	"loss": 0.9989,
	"mean_token_accuracy": 0.743067529797554,
	"num_tokens": 14088988.0,
	"step": 4910
	},
	{
	"entropy": 1.3012418672442436,
	"epoch": 6.364812419146183,
	"grad_norm": 1.0773974657058716,
	"learning_rate": 2.1158812144491357e-05,
	"loss": 1.247,
	"mean_token_accuracy": 0.6856265813112259,
	"num_tokens": 14111094.0,
	"step": 4920
	},
	{
	"entropy": 1.7512285083532333,
	"epoch": 6.377749029754204,
	"grad_norm": 0.0,
	"learning_rate": 2.0837697084952503e-05,
	"loss": 0.9705,
	"mean_token_accuracy": 0.38980276361107824,
	"num_tokens": 14115970.0,
	"step": 4930
	},
	{
	"entropy": 1.7514180034399032,
	"epoch": 6.390685640362225,
	"grad_norm": 0.3412686288356781,
	"learning_rate": 2.0518753747506748e-05,
	"loss": 0.4438,
	"mean_token_accuracy": 0.10270617604255676,
	"num_tokens": 14151452.0,
	"step": 4940
	},
	{
	"entropy": 1.2002925127744675,
	"epoch": 6.403622250970246,
	"grad_norm": 0.7483528852462769,
	"learning_rate": 2.0201990881979006e-05,
	"loss": 1.2267,
	"mean_token_accuracy": 0.7003540650010109,
	"num_tokens": 14198038.0,
	"step": 4950
	},
	{
	"epoch": 6.403622250970246,
	"eval_entropy": 1.4145794496979824,
	"eval_loss": 1.2361637353897095,
	"eval_mean_token_accuracy": 0.4807747915213884,
	"eval_num_tokens": 14198038.0,
	"eval_runtime": 239.3212,
	"eval_samples_per_second": 22.965,
	"eval_steps_per_second": 1.437,
	"step": 4950
	},
	{
	"entropy": 1.0035071596503258,
	"epoch": 6.416558861578267,
	"grad_norm": 0.9199973940849304,
	"learning_rate": 1.9887417178375633e-05,
	"loss": 0.9911,
	"mean_token_accuracy": 0.7502464011311532,
	"num_tokens": 14229396.0,
	"step": 4960
	},
	{
	"entropy": 1.3634681567549705,
	"epoch": 6.429495472186288,
	"grad_norm": 0.8955945372581482,
	"learning_rate": 1.957504126664593e-05,
	"loss": 1.3055,
	"mean_token_accuracy": 0.677581375837326,
	"num_tokens": 14251059.0,
	"step": 4970
	},
	{
	"entropy": 1.782031211256981,
	"epoch": 6.442432082794308,
	"grad_norm": 0.0,
	"learning_rate": 1.9264871716445454e-05,
	"loss": 1.0013,
	"mean_token_accuracy": 0.41802891343832016,
	"num_tokens": 14255872.0,
	"step": 4980
	},
	{
	"entropy": 1.542439764738083,
	"epoch": 6.455368693402328,
	"grad_norm": 0.34138184785842896,
	"learning_rate": 1.89569170369009e-05,
	"loss": 0.4513,
	"mean_token_accuracy": 0.1006891518831253,
	"num_tokens": 14297788.0,
	"step": 4990
	},
	{
	"entropy": 1.2497848883271216,
	"epoch": 6.468305304010349,
	"grad_norm": 0.7626767158508301,
	"learning_rate": 1.865118567637667e-05,
	"loss": 1.2743,
	"mean_token_accuracy": 0.6893603593111038,
	"num_tokens": 14345367.0,
	"step": 5000
	},
	{
	"entropy": 0.9866194486618042,
	"epoch": 6.48124191461837,
	"grad_norm": 1.0120469331741333,
	"learning_rate": 1.834768602224307e-05,
	"loss": 0.9661,
	"mean_token_accuracy": 0.752055998146534,
	"num_tokens": 14376619.0,
	"step": 5010
	},
	{
	"entropy": 1.2819917246699333,
	"epoch": 6.494178525226391,
	"grad_norm": 0.9832173585891724,
	"learning_rate": 1.8046426400646244e-05,
	"loss": 1.2393,
	"mean_token_accuracy": 0.6865051403641701,
	"num_tokens": 14398410.0,
	"step": 5020
	},
	{
	"entropy": 1.656550607085228,
	"epoch": 6.507115135834411,
	"grad_norm": 0.0,
	"learning_rate": 1.774741507627984e-05,
	"loss": 1.0363,
	"mean_token_accuracy": 0.402515621483326,
	"num_tokens": 14403699.0,
	"step": 5030
	},
	{
	"entropy": 1.4212503910064698,
	"epoch": 6.520051746442432,
	"grad_norm": 0.3207855820655823,
	"learning_rate": 1.7450660252158015e-05,
	"loss": 0.4273,
	"mean_token_accuracy": 0.10288792848587036,
	"num_tokens": 14446058.0,
	"step": 5040
	},
	{
	"entropy": 1.2183921545743943,
	"epoch": 6.532988357050453,
	"grad_norm": 0.7788935899734497,
	"learning_rate": 1.71561700693907e-05,
	"loss": 1.2401,
	"mean_token_accuracy": 0.7000276446342468,
	"num_tokens": 14492725.0,
	"step": 5050
	},
	{
	"entropy": 1.0459384858608245,
	"epoch": 6.545924967658474,
	"grad_norm": 0.9662116765975952,
	"learning_rate": 1.6863952606960132e-05,
	"loss": 1.037,
	"mean_token_accuracy": 0.7341208711266518,
	"num_tokens": 14523347.0,
	"step": 5060
	},
	{
	"entropy": 1.3962342336773872,
	"epoch": 6.5588615782664945,
	"grad_norm": 1.0042107105255127,
	"learning_rate": 1.6574015881499106e-05,
	"loss": 1.3439,
	"mean_token_accuracy": 0.6732321053743362,
	"num_tokens": 14543748.0,
	"step": 5070
	},
	{
	"entropy": 1.4976371228694916,
	"epoch": 6.5717981888745145,
	"grad_norm": 0.0,
	"learning_rate": 1.6286367847071294e-05,
	"loss": 0.8495,
	"mean_token_accuracy": 0.37927755415439607,
	"num_tokens": 14547526.0,
	"step": 5080
	},
	{
	"entropy": 1.378989189863205,
	"epoch": 6.584734799482535,
	"grad_norm": 0.35467758774757385,
	"learning_rate": 1.6001016394952817e-05,
	"loss": 0.436,
	"mean_token_accuracy": 0.10404296517372132,
	"num_tokens": 14587727.0,
	"step": 5090
	},
	{
	"entropy": 1.2019992262125014,
	"epoch": 6.597671410090556,
	"grad_norm": 0.7634411454200745,
	"learning_rate": 1.5717969353415772e-05,
	"loss": 1.2363,
	"mean_token_accuracy": 0.7016454577445984,
	"num_tokens": 14633377.0,
	"step": 5100
	},
	{
	"epoch": 6.597671410090556,
	"eval_entropy": 1.3025533678226693,
	"eval_loss": 1.2344391345977783,
	"eval_mean_token_accuracy": 0.4806629490367202,
	"eval_num_tokens": 14633377.0,
	"eval_runtime": 243.0518,
	"eval_samples_per_second": 22.612,
	"eval_steps_per_second": 1.415,
	"step": 5100
	},
	{
	"entropy": 1.0161924228072166,
	"epoch": 6.610608020698577,
	"grad_norm": 1.0323160886764526,
	"learning_rate": 1.5437234487513687e-05,
	"loss": 0.9938,
	"mean_token_accuracy": 0.747073483467102,
	"num_tokens": 14664256.0,
	"step": 5110
	},
	{
	"entropy": 1.358753038942814,
	"epoch": 6.623544631306598,
	"grad_norm": 1.011472225189209,
	"learning_rate": 1.5158819498868248e-05,
	"loss": 1.3273,
	"mean_token_accuracy": 0.6735880345106124,
	"num_tokens": 14685452.0,
	"step": 5120
	},
	{
	"entropy": 1.5439666867256165,
	"epoch": 6.636481241914618,
	"grad_norm": 0.0,
	"learning_rate": 1.4882732025458124e-05,
	"loss": 0.8744,
	"mean_token_accuracy": 0.35112617164850235,
	"num_tokens": 14689408.0,
	"step": 5130
	},
	{
	"entropy": 1.490699003636837,
	"epoch": 6.649417852522639,
	"grad_norm": 0.33567583560943604,
	"learning_rate": 1.4608979641409448e-05,
	"loss": 0.4429,
	"mean_token_accuracy": 0.10201395228505135,
	"num_tokens": 14730607.0,
	"step": 5140
	},
	{
	"entropy": 1.1885226652026177,
	"epoch": 6.66235446313066,
	"grad_norm": 0.7712506055831909,
	"learning_rate": 1.4337569856787958e-05,
	"loss": 1.2014,
	"mean_token_accuracy": 0.7031497925519943,
	"num_tokens": 14775950.0,
	"step": 5150
	},
	{
	"entropy": 1.013894683122635,
	"epoch": 6.675291073738681,
	"grad_norm": 0.993394672870636,
	"learning_rate": 1.406851011739303e-05,
	"loss": 0.9995,
	"mean_token_accuracy": 0.7462615251541138,
	"num_tokens": 14806798.0,
	"step": 5160
	},
	{
	"entropy": 1.276303158700466,
	"epoch": 6.6882276843467015,
	"grad_norm": 0.9287812113761902,
	"learning_rate": 1.3801807804553401e-05,
	"loss": 1.2193,
	"mean_token_accuracy": 0.701404669880867,
	"num_tokens": 14828450.0,
	"step": 5170
	},
	{
	"entropy": 1.639420548081398,
	"epoch": 6.701164294954722,
	"grad_norm": 0.0,
	"learning_rate": 1.3537470234924642e-05,
	"loss": 0.9149,
	"mean_token_accuracy": 0.36589213013648986,
	"num_tokens": 14832909.0,
	"step": 5180
	},
	{
	"entropy": 1.5444379433989526,
	"epoch": 6.714100905562742,
	"grad_norm": 0.33196088671684265,
	"learning_rate": 1.3275504660288462e-05,
	"loss": 0.4502,
	"mean_token_accuracy": 0.09918043613433838,
	"num_tokens": 14875888.0,
	"step": 5190
	},
	{
	"entropy": 1.1905731126666068,
	"epoch": 6.727037516170763,
	"grad_norm": 0.7245560884475708,
	"learning_rate": 1.3015918267353743e-05,
	"loss": 1.2055,
	"mean_token_accuracy": 0.7072307705879212,
	"num_tokens": 14921555.0,
	"step": 5200
	},
	{
	"entropy": 1.0091575369238854,
	"epoch": 6.739974126778784,
	"grad_norm": 0.9656630158424377,
	"learning_rate": 1.2758718177559403e-05,
	"loss": 1.0059,
	"mean_token_accuracy": 0.7457368150353432,
	"num_tokens": 14952319.0,
	"step": 5210
	},
	{
	"entropy": 1.3768625631928444,
	"epoch": 6.752910737386805,
	"grad_norm": 1.0023345947265625,
	"learning_rate": 1.2503911446879014e-05,
	"loss": 1.3323,
	"mean_token_accuracy": 0.6721446126699447,
	"num_tokens": 14973360.0,
	"step": 5220
	},
	{
	"entropy": 1.706917905807495,
	"epoch": 6.765847347994825,
	"grad_norm": 0.0,
	"learning_rate": 1.2251505065627211e-05,
	"loss": 0.884,
	"mean_token_accuracy": 0.34794071316719055,
	"num_tokens": 14977368.0,
	"step": 5230
	},
	{
	"entropy": 1.6983414202928544,
	"epoch": 6.778783958602846,
	"grad_norm": 0.34029924869537354,
	"learning_rate": 1.2001505958268045e-05,
	"loss": 0.4392,
	"mean_token_accuracy": 0.10167066529393196,
	"num_tokens": 15016518.0,
	"step": 5240
	},
	{
	"entropy": 1.1760634392499925,
	"epoch": 6.791720569210867,
	"grad_norm": 0.7289795875549316,
	"learning_rate": 1.1753920983224753e-05,
	"loss": 1.2004,
	"mean_token_accuracy": 0.7051770240068436,
	"num_tokens": 15062291.0,
	"step": 5250
	},
	{
	"epoch": 6.791720569210867,
	"eval_entropy": 1.3887645453214645,
	"eval_loss": 1.2298688888549805,
	"eval_mean_token_accuracy": 0.48596259925601093,
	"eval_num_tokens": 15062291.0,
	"eval_runtime": 246.7195,
	"eval_samples_per_second": 22.276,
	"eval_steps_per_second": 1.394,
	"step": 5250
	},
	{
	"entropy": 1.019908943772316,
	"epoch": 6.8046571798188875,
	"grad_norm": 1.0139966011047363,
	"learning_rate": 1.1508756932691878e-05,
	"loss": 1.016,
	"mean_token_accuracy": 0.7411870285868645,
	"num_tokens": 15093136.0,
	"step": 5260
	},
	{
	"entropy": 1.3366242468357086,
	"epoch": 6.817593790426908,
	"grad_norm": 1.015224814414978,
	"learning_rate": 1.1266020532448863e-05,
	"loss": 1.3099,
	"mean_token_accuracy": 0.680339677631855,
	"num_tokens": 15113801.0,
	"step": 5270
	},
	{
	"entropy": 1.7231854051351547,
	"epoch": 6.830530401034929,
	"grad_norm": 0.0,
	"learning_rate": 1.1025718441675348e-05,
	"loss": 0.8459,
	"mean_token_accuracy": 0.34885319918394087,
	"num_tokens": 15117501.0,
	"step": 5280
	},
	{
	"entropy": 1.8012044936418534,
	"epoch": 6.843467011642949,
	"grad_norm": 0.3444773256778717,
	"learning_rate": 1.0787857252768807e-05,
	"loss": 0.4338,
	"mean_token_accuracy": 0.10217657834291458,
	"num_tokens": 15154208.0,
	"step": 5290
	},
	{
	"entropy": 1.17054093927145,
	"epoch": 6.85640362225097,
	"grad_norm": 0.7941517233848572,
	"learning_rate": 1.0552443491163422e-05,
	"loss": 1.1874,
	"mean_token_accuracy": 0.7076364248991013,
	"num_tokens": 15199469.0,
	"step": 5300
	},
	{
	"entropy": 1.0057064607739448,
	"epoch": 6.869340232858991,
	"grad_norm": 0.8840006589889526,
	"learning_rate": 1.0319483615151137e-05,
	"loss": 0.981,
	"mean_token_accuracy": 0.7503589361906051,
	"num_tokens": 15230670.0,
	"step": 5310
	},
	{
	"entropy": 1.2563072219491005,
	"epoch": 6.882276843467012,
	"grad_norm": 1.0177907943725586,
	"learning_rate": 1.0088984015704629e-05,
	"loss": 1.2394,
	"mean_token_accuracy": 0.6934975415468216,
	"num_tokens": 15252641.0,
	"step": 5320
	},
	{
	"entropy": 1.8372395306825637,
	"epoch": 6.895213454075033,
	"grad_norm": 0.0,
	"learning_rate": 9.860951016301756e-06,
	"loss": 0.9875,
	"mean_token_accuracy": 0.3743965640664101,
	"num_tokens": 15257407.0,
	"step": 5330
	},
	{
	"entropy": 1.7831202149391174,
	"epoch": 6.908150064683053,
	"grad_norm": 0.3214081823825836,
	"learning_rate": 9.635390872752237e-06,
	"loss": 0.43,
	"mean_token_accuracy": 0.10435229986906051,
	"num_tokens": 15299860.0,
	"step": 5340
	},
	{
	"entropy": 1.2522226199507713,
	"epoch": 6.921086675291074,
	"grad_norm": 0.8021490573883057,
	"learning_rate": 9.412309773025952e-06,
	"loss": 1.2766,
	"mean_token_accuracy": 0.6917116060853005,
	"num_tokens": 15347391.0,
	"step": 5350
	},
	{
	"entropy": 1.0165240302681924,
	"epoch": 6.9340232858990944,
	"grad_norm": 0.9851676225662231,
	"learning_rate": 9.191713837083238e-06,
	"loss": 1.0192,
	"mean_token_accuracy": 0.7415471941232681,
	"num_tokens": 15379391.0,
	"step": 5360
	},
	{
	"entropy": 1.2651836022734642,
	"epoch": 6.946959896507115,
	"grad_norm": 1.12442946434021,
	"learning_rate": 8.973609116706926e-06,
	"loss": 1.2443,
	"mean_token_accuracy": 0.6868803769350051,
	"num_tokens": 15401606.0,
	"step": 5370
	},
	{
	"entropy": 1.7752905175089837,
	"epoch": 6.959896507115136,
	"grad_norm": 0.0,
	"learning_rate": 8.758001595336418e-06,
	"loss": 0.8999,
	"mean_token_accuracy": 0.38887517899274826,
	"num_tokens": 15406538.0,
	"step": 5380
	},
	{
	"entropy": 1.7106927633285522,
	"epoch": 6.972833117723156,
	"grad_norm": 0.5107993483543396,
	"learning_rate": 8.544897187903423e-06,
	"loss": 0.4117,
	"mean_token_accuracy": 0.10680279433727265,
	"num_tokens": 15432463.0,
	"step": 5390
	},
	{
	"entropy": 1.0609442353248597,
	"epoch": 6.985769728331177,
	"grad_norm": 1.095216155052185,
	"learning_rate": 8.33430174066978e-06,
	"loss": 1.0514,
	"mean_token_accuracy": 0.7322214379906654,
	"num_tokens": 15465365.0,
	"step": 5400
	},
	{
	"epoch": 6.985769728331177,
	"eval_entropy": 1.3962991244571155,
	"eval_loss": 1.2261559963226318,
	"eval_mean_token_accuracy": 0.48680107668042183,
	"eval_num_tokens": 15465365.0,
	"eval_runtime": 244.9697,
	"eval_samples_per_second": 22.435,
	"eval_steps_per_second": 1.404,
	"step": 5400
	},
	{
	"entropy": 1.6976288080215454,
	"epoch": 6.998706338939198,
	"grad_norm": 0.0,
	"learning_rate": 8.126221031067027e-06,
	"loss": 0.7689,
	"mean_token_accuracy": 0.2966282024979591,
	"num_tokens": 15471588.0,
	"step": 5410
	},
	{
	"entropy": 1.497927661240101,
	"epoch": 7.011642949547219,
	"grad_norm": 0.7096975445747375,
	"learning_rate": 7.920660767537901e-06,
	"loss": 1.3894,
	"mean_token_accuracy": 0.5761201746761799,
	"num_tokens": 15542066.0,
	"step": 5420
	},
	{
	"entropy": 0.9780161440372467,
	"epoch": 7.02457956015524,
	"grad_norm": 0.9500054717063904,
	"learning_rate": 7.717626589379789e-06,
	"loss": 0.9513,
	"mean_token_accuracy": 0.7568799629807472,
	"num_tokens": 15575551.0,
	"step": 5430
	},
	{
	"entropy": 1.169414332509041,
	"epoch": 7.03751617076326,
	"grad_norm": 1.0309356451034546,
	"learning_rate": 7.517124066589909e-06,
	"loss": 1.1411,
	"mean_token_accuracy": 0.711452366411686,
	"num_tokens": 15599584.0,
	"step": 5440
	},
	{
	"entropy": 1.7210813522338868,
	"epoch": 7.0504527813712805,
	"grad_norm": 0.0,
	"learning_rate": 7.319158699712669e-06,
	"loss": 1.3323,
	"mean_token_accuracy": 0.5859084717929364,
	"num_tokens": 15608747.0,
	"step": 5450
	},
	{
	"entropy": 1.6397013187408447,
	"epoch": 7.063389391979301,
	"grad_norm": 0.0,
	"learning_rate": 7.12373591968859e-06,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 15609387.0,
	"step": 5460
	},
	{
	"entropy": 1.5039527043700218,
	"epoch": 7.076326002587322,
	"grad_norm": 0.772226870059967,
	"learning_rate": 6.930861087705398e-06,
	"loss": 1.3666,
	"mean_token_accuracy": 0.5798796579241753,
	"num_tokens": 15685497.0,
	"step": 5470
	},
	{
	"entropy": 0.9571346640586853,
	"epoch": 7.089262613195343,
	"grad_norm": 0.9899272918701172,
	"learning_rate": 6.7405394950510345e-06,
	"loss": 0.9525,
	"mean_token_accuracy": 0.7557973235845565,
	"num_tokens": 15718968.0,
	"step": 5480
	},
	{
	"entropy": 1.1604458332061767,
	"epoch": 7.102199223803363,
	"grad_norm": 1.072095513343811,
	"learning_rate": 6.552776362968271e-06,
	"loss": 1.1571,
	"mean_token_accuracy": 0.7090446025133132,
	"num_tokens": 15742748.0,
	"step": 5490
	},
	{
	"entropy": 1.7930972754955292,
	"epoch": 7.115135834411384,
	"grad_norm": 0.0,
	"learning_rate": 6.367576842511735e-06,
	"loss": 1.3237,
	"mean_token_accuracy": 0.5362849146127701,
	"num_tokens": 15751803.0,
	"step": 5500
	},
	{
	"entropy": 1.7586050003767013,
	"epoch": 7.128072445019405,
	"grad_norm": 0.0,
	"learning_rate": 6.184946014406412e-06,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 15752443.0,
	"step": 5510
	},
	{
	"entropy": 1.5453996002674102,
	"epoch": 7.141009055627426,
	"grad_norm": 0.7360463738441467,
	"learning_rate": 6.004888888908256e-06,
	"loss": 1.4109,
	"mean_token_accuracy": 0.5700584821403026,
	"num_tokens": 15828985.0,
	"step": 5520
	},
	{
	"entropy": 0.9328926429152489,
	"epoch": 7.153945666235447,
	"grad_norm": 0.9283819794654846,
	"learning_rate": 5.827410405666911e-06,
	"loss": 0.9175,
	"mean_token_accuracy": 0.7673766747117042,
	"num_tokens": 15862356.0,
	"step": 5530
	},
	{
	"entropy": 1.1613366797566413,
	"epoch": 7.166882276843467,
	"grad_norm": 1.0261551141738892,
	"learning_rate": 5.652515433590033e-06,
	"loss": 1.1253,
	"mean_token_accuracy": 0.7124258697032928,
	"num_tokens": 15886367.0,
	"step": 5540
	},
	{
	"entropy": 1.7588330313563347,
	"epoch": 7.179818887451487,
	"grad_norm": 0.00023454829351976514,
	"learning_rate": 5.480208770709771e-06,
	"loss": 1.4039,
	"mean_token_accuracy": 0.5946097061038017,
	"num_tokens": 15896207.0,
	"step": 5550
	},
	{
	"epoch": 7.179818887451487,
	"eval_entropy": 1.393599722794322,
	"eval_loss": 1.2324310541152954,
	"eval_mean_token_accuracy": 0.4852820281372514,
	"eval_num_tokens": 15896207.0,
	"eval_runtime": 245.6246,
	"eval_samples_per_second": 22.376,
	"eval_steps_per_second": 1.401,
	"step": 5550
	},
	{
	"entropy": 1.7070483982563018,
	"epoch": 7.192755498059508,
	"grad_norm": 0.0,
	"learning_rate": 5.310495144051142e-06,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 15896847.0,
	"step": 5560
	},
	{
	"entropy": 1.557031399011612,
	"epoch": 7.205692108667529,
	"grad_norm": 0.7289990186691284,
	"learning_rate": 5.143379209502352e-06,
	"loss": 1.4125,
	"mean_token_accuracy": 0.5720368728041649,
	"num_tokens": 15976815.0,
	"step": 5570
	},
	{
	"entropy": 0.9512620970606804,
	"epoch": 7.21862871927555,
	"grad_norm": 0.9174538254737854,
	"learning_rate": 4.978865551687062e-06,
	"loss": 0.9534,
	"mean_token_accuracy": 0.7580740317702294,
	"num_tokens": 16010900.0,
	"step": 5580
	},
	{
	"entropy": 1.172946660220623,
	"epoch": 7.231565329883571,
	"grad_norm": 1.0972976684570312,
	"learning_rate": 4.8169586838386346e-06,
	"loss": 1.1532,
	"mean_token_accuracy": 0.7079381376504899,
	"num_tokens": 16035361.0,
	"step": 5590
	},
	{
	"entropy": 1.6811116263270378,
	"epoch": 7.244501940491591,
	"grad_norm": 0.0,
	"learning_rate": 4.657663047676264e-06,
	"loss": 1.2139,
	"mean_token_accuracy": 0.5401002943515778,
	"num_tokens": 16044571.0,
	"step": 5600
	},
	{
	"entropy": 1.6898091644048692,
	"epoch": 7.257438551099612,
	"grad_norm": 0.0,
	"learning_rate": 4.500983013283188e-06,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 16045211.0,
	"step": 5610
	},
	{
	"entropy": 1.5436704397201537,
	"epoch": 7.270375161707633,
	"grad_norm": 0.6892314553260803,
	"learning_rate": 4.34692287898677e-06,
	"loss": 1.4148,
	"mean_token_accuracy": 0.5717164523899555,
	"num_tokens": 16122336.0,
	"step": 5620
	},
	{
	"entropy": 0.9374915182590484,
	"epoch": 7.2833117723156535,
	"grad_norm": 0.9667730927467346,
	"learning_rate": 4.195486871240562e-06,
	"loss": 0.9394,
	"mean_token_accuracy": 0.7627643913030624,
	"num_tokens": 16156408.0,
	"step": 5630
	},
	{
	"entropy": 1.1849497631192207,
	"epoch": 7.296248382923674,
	"grad_norm": 1.1908502578735352,
	"learning_rate": 4.046679144508392e-06,
	"loss": 1.142,
	"mean_token_accuracy": 0.7130326569080353,
	"num_tokens": 16180323.0,
	"step": 5640
	},
	{
	"entropy": 1.829011231660843,
	"epoch": 7.309184993531694,
	"grad_norm": 0.0,
	"learning_rate": 3.900503781150366e-06,
	"loss": 1.4914,
	"mean_token_accuracy": 0.5614617101848125,
	"num_tokens": 16189805.0,
	"step": 5650
	},
	{
	"entropy": 1.7375122755765915,
	"epoch": 7.322121604139715,
	"grad_norm": 0.0,
	"learning_rate": 3.7569647913109243e-06,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 16190445.0,
	"step": 5660
	},
	{
	"entropy": 1.5200837269425391,
	"epoch": 7.335058214747736,
	"grad_norm": 0.7430135607719421,
	"learning_rate": 3.6160661128087025e-06,
	"loss": 1.397,
	"mean_token_accuracy": 0.57365105971694,
	"num_tokens": 16268426.0,
	"step": 5670
	},
	{
	"entropy": 0.9276900395751,
	"epoch": 7.347994825355757,
	"grad_norm": 0.9390348792076111,
	"learning_rate": 3.4778116110286473e-06,
	"loss": 0.9249,
	"mean_token_accuracy": 0.7620738327503205,
	"num_tokens": 16302856.0,
	"step": 5680
	},
	{
	"entropy": 1.1663517013192177,
	"epoch": 7.360931435963778,
	"grad_norm": 1.0117005109786987,
	"learning_rate": 3.34220507881593e-06,
	"loss": 1.1293,
	"mean_token_accuracy": 0.7132649436593056,
	"num_tokens": 16327211.0,
	"step": 5690
	},
	{
	"entropy": 1.7131205320358276,
	"epoch": 7.373868046571798,
	"grad_norm": 0.0,
	"learning_rate": 3.209250236371797e-06,
	"loss": 1.3032,
	"mean_token_accuracy": 0.5476110517978668,
	"num_tokens": 16336179.0,
	"step": 5700
	},
	{
	"epoch": 7.373868046571798,
	"eval_entropy": 1.4321047376061595,
	"eval_loss": 1.2324743270874023,
	"eval_mean_token_accuracy": 0.48222382652551626,
	"eval_num_tokens": 16336179.0,
	"eval_runtime": 242.208,
	"eval_samples_per_second": 22.691,
	"eval_steps_per_second": 1.42,
	"step": 5700
	},
	{
	"entropy": 1.744317215681076,
	"epoch": 7.386804657179819,
	"grad_norm": 0.0,
	"learning_rate": 3.0789507311516864e-06,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 16336819.0,
	"step": 5710
	},
	{
	"entropy": 1.5234818816184998,
	"epoch": 7.39974126778784,
	"grad_norm": 0.7303734421730042,
	"learning_rate": 2.9513101377650175e-06,
	"loss": 1.3797,
	"mean_token_accuracy": 0.5752100251615048,
	"num_tokens": 16404914.0,
	"step": 5720
	},
	{
	"entropy": 0.9265442088246345,
	"epoch": 7.4126778783958605,
	"grad_norm": 0.8770347237586975,
	"learning_rate": 2.8263319578771485e-06,
	"loss": 0.9069,
	"mean_token_accuracy": 0.7680046275258064,
	"num_tokens": 16439389.0,
	"step": 5730
	},
	{
	"entropy": 1.1830172911286354,
	"epoch": 7.425614489003881,
	"grad_norm": 1.0386770963668823,
	"learning_rate": 2.704019620113407e-06,
	"loss": 1.1733,
	"mean_token_accuracy": 0.7056162416934967,
	"num_tokens": 16464458.0,
	"step": 5740
	},
	{
	"entropy": 1.7503404572606087,
	"epoch": 7.438551099611901,
	"grad_norm": 1.7682623863220215,
	"learning_rate": 2.584376479964945e-06,
	"loss": 1.4882,
	"mean_token_accuracy": 0.6309158280491829,
	"num_tokens": 16475591.0,
	"step": 5750
	},
	{
	"entropy": 1.7254247039556503,
	"epoch": 7.451487710219922,
	"grad_norm": 0.0,
	"learning_rate": 2.4674058196966663e-06,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 16476231.0,
	"step": 5760
	},
	{
	"entropy": 1.5136717677116394,
	"epoch": 7.464424320827943,
	"grad_norm": 0.7473369240760803,
	"learning_rate": 2.353110848257267e-06,
	"loss": 1.3413,
	"mean_token_accuracy": 0.5824255973100663,
	"num_tokens": 16552018.0,
	"step": 5770
	},
	{
	"entropy": 0.9227760046720505,
	"epoch": 7.477360931435964,
	"grad_norm": 0.982836902141571,
	"learning_rate": 2.241494701191127e-06,
	"loss": 0.9069,
	"mean_token_accuracy": 0.7623407855629921,
	"num_tokens": 16586256.0,
	"step": 5780
	},
	{
	"entropy": 1.1348280161619186,
	"epoch": 7.490297542043985,
	"grad_norm": 1.1100831031799316,
	"learning_rate": 2.1325604405523334e-06,
	"loss": 1.1069,
	"mean_token_accuracy": 0.7201577231287957,
	"num_tokens": 16610709.0,
	"step": 5790
	},
	{
	"entropy": 1.771338665485382,
	"epoch": 7.503234152652006,
	"grad_norm": 0.0,
	"learning_rate": 2.026311054820629e-06,
	"loss": 1.411,
	"mean_token_accuracy": 0.5635204806923866,
	"num_tokens": 16620269.0,
	"step": 5800
	},
	{
	"entropy": 1.7322617769241333,
	"epoch": 7.516170763260026,
	"grad_norm": 0.0,
	"learning_rate": 1.922749458819506e-06,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 16620909.0,
	"step": 5810
	},
	{
	"entropy": 1.4817992717027664,
	"epoch": 7.5291073738680465,
	"grad_norm": 0.756270170211792,
	"learning_rate": 1.8218784936361644e-06,
	"loss": 1.353,
	"mean_token_accuracy": 0.5787275157868862,
	"num_tokens": 16690569.0,
	"step": 5820
	},
	{
	"entropy": 0.9674558937549591,
	"epoch": 7.542043984476067,
	"grad_norm": 0.8812004327774048,
	"learning_rate": 1.7237009265436032e-06,
	"loss": 0.9613,
	"mean_token_accuracy": 0.7560465827584266,
	"num_tokens": 16724649.0,
	"step": 5830
	},
	{
	"entropy": 1.1716067418456078,
	"epoch": 7.554980595084088,
	"grad_norm": 1.0925747156143188,
	"learning_rate": 1.6282194509247063e-06,
	"loss": 1.1436,
	"mean_token_accuracy": 0.7135581076145172,
	"num_tokens": 16749582.0,
	"step": 5840
	},
	{
	"entropy": 1.6912678241729737,
	"epoch": 7.567917205692108,
	"grad_norm": 1.6889742612838745,
	"learning_rate": 1.5354366861983438e-06,
	"loss": 1.5003,
	"mean_token_accuracy": 0.6513200134038926,
	"num_tokens": 16760847.0,
	"step": 5850
	},
	{
	"epoch": 7.567917205692108,
	"eval_entropy": 1.4259126506919084,
	"eval_loss": 1.2301470041275024,
	"eval_mean_token_accuracy": 0.4896806857093822,
	"eval_num_tokens": 16760847.0,
	"eval_runtime": 246.4439,
	"eval_samples_per_second": 22.301,
	"eval_steps_per_second": 1.396,
	"step": 5850
	},
	{
	"entropy": 1.7190734058618546,
	"epoch": 7.580853816300129,
	"grad_norm": 0.0,
	"learning_rate": 1.4453551777475094e-06,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 16761487.0,
	"step": 5860
	},
	{
	"entropy": 1.5320835530757904,
	"epoch": 7.59379042690815,
	"grad_norm": 0.7591171264648438,
	"learning_rate": 1.3579773968495191e-06,
	"loss": 1.3913,
	"mean_token_accuracy": 0.5738878205418587,
	"num_tokens": 16833368.0,
	"step": 5870
	},
	{
	"entropy": 0.9359873235225677,
	"epoch": 7.606727037516171,
	"grad_norm": 0.9182559847831726,
	"learning_rate": 1.2733057406081438e-06,
	"loss": 0.9307,
	"mean_token_accuracy": 0.7633048981428147,
	"num_tokens": 16867272.0,
	"step": 5880
	},
	{
	"entropy": 1.1327362582087517,
	"epoch": 7.619663648124192,
	"grad_norm": 1.0494729280471802,
	"learning_rate": 1.1913425318879511e-06,
	"loss": 1.1095,
	"mean_token_accuracy": 0.7176593467593193,
	"num_tokens": 16892030.0,
	"step": 5890
	},
	{
	"entropy": 1.7231059432029725,
	"epoch": 7.632600258732213,
	"grad_norm": 0.0,
	"learning_rate": 1.1120900192505e-06,
	"loss": 1.3184,
	"mean_token_accuracy": 0.5641655296087265,
	"num_tokens": 16901989.0,
	"step": 5900
	},
	{
	"entropy": 1.7543556302785874,
	"epoch": 7.645536869340233,
	"grad_norm": 0.0,
	"learning_rate": 1.0355503768926466e-06,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 16902629.0,
	"step": 5910
	},
	{
	"entropy": 1.4874625369906425,
	"epoch": 7.6584734799482534,
	"grad_norm": 0.7250481843948364,
	"learning_rate": 9.61725704587002e-07,
	"loss": 1.3483,
	"mean_token_accuracy": 0.5808299452066421,
	"num_tokens": 16975429.0,
	"step": 5920
	},
	{
	"entropy": 0.940713207423687,
	"epoch": 7.671410090556274,
	"grad_norm": 0.9228203296661377,
	"learning_rate": 8.906180276242015e-07,
	"loss": 0.9271,
	"mean_token_accuracy": 0.760072472691536,
	"num_tokens": 17009886.0,
	"step": 5930
	},
	{
	"entropy": 1.1436687961220742,
	"epoch": 7.684346701164295,
	"grad_norm": 1.0997246503829956,
	"learning_rate": 8.22229296757393e-07,
	"loss": 1.1408,
	"mean_token_accuracy": 0.7107081711292267,
	"num_tokens": 17034678.0,
	"step": 5940
	},
	{
	"entropy": 1.73554485142231,
	"epoch": 7.697283311772315,
	"grad_norm": 0.0,
	"learning_rate": 7.565613881487687e-07,
	"loss": 1.365,
	"mean_token_accuracy": 0.5842878207564354,
	"num_tokens": 17044424.0,
	"step": 5950
	},
	{
	"entropy": 1.7472249418497086,
	"epoch": 7.710219922380336,
	"grad_norm": 0.0,
	"learning_rate": 6.936161033180066e-07,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 17045064.0,
	"step": 5960
	},
	{
	"entropy": 1.5308178260922432,
	"epoch": 7.723156532988357,
	"grad_norm": 0.7369622588157654,
	"learning_rate": 6.333951690929318e-07,
	"loss": 1.3944,
	"mean_token_accuracy": 0.571716184169054,
	"num_tokens": 17121301.0,
	"step": 5970
	},
	{
	"entropy": 0.9166033461689949,
	"epoch": 7.736093143596378,
	"grad_norm": 0.8718245625495911,
	"learning_rate": 5.759002375620548e-07,
	"loss": 0.9191,
	"mean_token_accuracy": 0.7659956023097039,
	"num_tokens": 17155878.0,
	"step": 5980
	},
	{
	"entropy": 1.1351210102438927,
	"epoch": 7.749029754204399,
	"grad_norm": 1.1139835119247437,
	"learning_rate": 5.211328860293519e-07,
	"loss": 1.0937,
	"mean_token_accuracy": 0.7179104581475257,
	"num_tokens": 17180817.0,
	"step": 5990
	},
	{
	"entropy": 1.7042000949382783,
	"epoch": 7.7619663648124195,
	"grad_norm": 0.0,
	"learning_rate": 4.6909461697088874e-07,
	"loss": 1.2978,
	"mean_token_accuracy": 0.5402273468673229,
	"num_tokens": 17190238.0,
	"step": 6000
	},
	{
	"epoch": 7.7619663648124195,
	"eval_entropy": 1.4222364893486334,
	"eval_loss": 1.230813980102539,
	"eval_mean_token_accuracy": 0.483534776973863,
	"eval_num_tokens": 17190238.0,
	"eval_runtime": 243.8499,
	"eval_samples_per_second": 22.538,
	"eval_steps_per_second": 1.411,
	"step": 6000
	},
	{
	"entropy": 1.7714763969182967,
	"epoch": 7.7749029754204395,
	"grad_norm": 0.0,
	"learning_rate": 4.197868579936981e-07,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 17190878.0,
	"step": 6010
	},
	{
	"entropy": 1.5036073312163354,
	"epoch": 7.78783958602846,
	"grad_norm": 0.7586703896522522,
	"learning_rate": 3.732109617965218e-07,
	"loss": 1.3917,
	"mean_token_accuracy": 0.5730986759066582,
	"num_tokens": 17262910.0,
	"step": 6020
	},
	{
	"entropy": 0.9327082589268685,
	"epoch": 7.800776196636481,
	"grad_norm": 0.8685732483863831,
	"learning_rate": 3.293682061327963e-07,
	"loss": 0.9333,
	"mean_token_accuracy": 0.7620440036058426,
	"num_tokens": 17296857.0,
	"step": 6030
	},
	{
	"entropy": 1.177341391146183,
	"epoch": 7.813712807244502,
	"grad_norm": 1.1222566366195679,
	"learning_rate": 2.882597937755249e-07,
	"loss": 1.1641,
	"mean_token_accuracy": 0.7064913615584374,
	"num_tokens": 17321218.0,
	"step": 6040
	},
	{
	"entropy": 1.7008673965930938,
	"epoch": 7.826649417852523,
	"grad_norm": 0.0,
	"learning_rate": 2.498868524843045e-07,
	"loss": 1.2135,
	"mean_token_accuracy": 0.5372394770383835,
	"num_tokens": 17329684.0,
	"step": 6050
	},
	{
	"entropy": 1.7468272864818573,
	"epoch": 7.839586028460543,
	"grad_norm": 0.0,
	"learning_rate": 2.1425043497439456e-07,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 17330324.0,
	"step": 6060
	},
	{
	"entropy": 1.5415200561285018,
	"epoch": 7.852522639068564,
	"grad_norm": 0.7708677649497986,
	"learning_rate": 1.8135151888782899e-07,
	"loss": 1.3837,
	"mean_token_accuracy": 0.574844229221344,
	"num_tokens": 17408721.0,
	"step": 6070
	},
	{
	"entropy": 0.9075698807835579,
	"epoch": 7.865459249676585,
	"grad_norm": 0.8989212512969971,
	"learning_rate": 1.5119100676662667e-07,
	"loss": 0.8899,
	"mean_token_accuracy": 0.771544449031353,
	"num_tokens": 17442757.0,
	"step": 6080
	},
	{
	"entropy": 1.1743381530046464,
	"epoch": 7.878395860284606,
	"grad_norm": 1.025661826133728,
	"learning_rate": 1.2376972602795578e-07,
	"loss": 1.1425,
	"mean_token_accuracy": 0.7124027162790298,
	"num_tokens": 17467049.0,
	"step": 6090
	},
	{
	"entropy": 1.7484049052000046,
	"epoch": 7.8913324708926265,
	"grad_norm": 0.0,
	"learning_rate": 9.908842894151837e-08,
	"loss": 1.3114,
	"mean_token_accuracy": 0.5641379207372665,
	"num_tokens": 17475616.0,
	"step": 6100
	},
	{
	"entropy": 1.7715317398309707,
	"epoch": 7.904269081500646,
	"grad_norm": 0.0,
	"learning_rate": 7.714779260886707e-08,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 17476256.0,
	"step": 6110
	},
	{
	"entropy": 1.5000860661268234,
	"epoch": 7.917205692108667,
	"grad_norm": 0.7349119186401367,
	"learning_rate": 5.7948418944842043e-08,
	"loss": 1.3548,
	"mean_token_accuracy": 0.5794984824955464,
	"num_tokens": 17546950.0,
	"step": 6120
	},
	{
	"entropy": 0.9138670772314071,
	"epoch": 7.930142302716688,
	"grad_norm": 0.8542500138282776,
	"learning_rate": 4.149083466105097e-08,
	"loss": 0.9021,
	"mean_token_accuracy": 0.770347698032856,
	"num_tokens": 17581293.0,
	"step": 6130
	},
	{
	"entropy": 1.1947215780615807,
	"epoch": 7.943078913324709,
	"grad_norm": 1.0435749292373657,
	"learning_rate": 2.7775491251413877e-08,
	"loss": 1.1687,
	"mean_token_accuracy": 0.7094842702150345,
	"num_tokens": 17605803.0,
	"step": 6140
	},
	{
	"entropy": 1.6835207402706147,
	"epoch": 7.95601552393273,
	"grad_norm": 0.0,
	"learning_rate": 1.6802764979817474e-08,
	"loss": 1.1704,
	"mean_token_accuracy": 0.5183229476213456,
	"num_tokens": 17613695.0,
	"step": 6150
	},
	{
	"epoch": 7.95601552393273,
	"eval_entropy": 1.4208284545429917,
	"eval_loss": 1.2304351329803467,
	"eval_mean_token_accuracy": 0.4861882030097551,
	"eval_num_tokens": 17613695.0,
	"eval_runtime": 244.9318,
	"eval_samples_per_second": 22.439,
	"eval_steps_per_second": 1.404,
	"step": 6150
	},
	{
	"entropy": 1.7820782691240311,
	"epoch": 7.96895213454075,
	"grad_norm": 0.0,
	"learning_rate": 8.572956869734583e-09,
	"loss": 0.0,
	"mean_token_accuracy": 0.0,
	"num_tokens": 17614335.0,
	"step": 6160
	},
	{
	"entropy": 1.2753556087613105,
	"epoch": 7.981888745148771,
	"grad_norm": 0.9358561635017395,
	"learning_rate": 3.0862926959973617e-09,
	"loss": 1.1173,
	"mean_token_accuracy": 0.6308311700820923,
	"num_tokens": 17667096.0,
	"step": 6170
	},
	{
	"entropy": 1.4832376271486283,
	"epoch": 7.994825355756792,
	"grad_norm": 0.0,
	"learning_rate": 3.429229786133803e-10,
	"loss": 1.055,
	"mean_token_accuracy": 0.5700831845402717,
	"num_tokens": 17681630.0,
	"step": 6180
	}
	],
	"logging_steps": 10,
	"max_steps": 6184,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 8,
	"save_steps": 600,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 3.974075450217726e+18,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}