Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +3 -2784

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1cfe71b327a3694c136a8911cfa25b9e95b8231d2caef4f410faf1c618d7b2e8
 size 60189176

 version https://git-lfs.github.com/spec/v1
+oid sha256:08be5413fd76f7c5ddd4d3fb2f098ea528697a75d5c0f4d1fd8114d552ca9968
 size 60189176

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:743bbd61345e198aa10231b3b325dca94a70e3d4761ed03f61ccfc5a59900649
 size 120498699

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d3149c227ee5659bb5e22737e3468b04ad7b68ab2efb91807f392851f5aeb8a
 size 120498699

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01f9a0f7843a37be87edd23f4e88aa93b38b95cc2c07503eeb1cf2e4632453a2
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8e2011629d8bed3ef560fa11175cac55684c4e12a72634bb24abf767b6c7399
 size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2469d195c1e9e54fadde572de5106954f0c6c1e11599b6eee5707e39dbd875c5
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:d322dfc4f66861b0919370db5617fb4fea8855e34f6a67b848c7dcda9eaf750b
 size 1465

trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.0,
   "eval_steps": 500,
-  "global_step": 831,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5570,2787 +5570,6 @@
       "eval_samples_per_second": 3.177,
       "eval_steps_per_second": 1.059,
       "step": 554
-    },
-    {
-      "entropy": 2.0389976799488068,
-      "epoch": 2.0036199095022624,
-      "grad_norm": 0.8596204519271851,
-      "learning_rate": 0.00040871020525162484,
-      "loss": 0.1341,
-      "mean_token_accuracy": 0.9626202881336212,
-      "num_tokens": 4893236.0,
-      "step": 555
-    },
-    {
-      "entropy": 2.245832860469818,
-      "epoch": 2.007239819004525,
-      "grad_norm": 0.39707237482070923,
-      "learning_rate": 0.00040833722310430114,
-      "loss": 0.0564,
-      "mean_token_accuracy": 0.9868980199098587,
-      "num_tokens": 4901819.0,
-      "step": 556
-    },
-    {
-      "entropy": 2.169717162847519,
-      "epoch": 2.0108597285067873,
-      "grad_norm": 0.46584129333496094,
-      "learning_rate": 0.0004079637575038822,
-      "loss": 0.0792,
-      "mean_token_accuracy": 0.9758767485618591,
-      "num_tokens": 4910892.0,
-      "step": 557
-    },
-    {
-      "entropy": 2.27083820104599,
-      "epoch": 2.0144796380090497,
-      "grad_norm": 0.8394352197647095,
-      "learning_rate": 0.0004075898098688381,
-      "loss": 0.0962,
-      "mean_token_accuracy": 0.9723308384418488,
-      "num_tokens": 4919510.0,
-      "step": 558
-    },
-    {
-      "entropy": 2.1067663431167603,
-      "epoch": 2.018099547511312,
-      "grad_norm": 0.4951268434524536,
-      "learning_rate": 0.0004072153816194696,
-      "loss": 0.1195,
-      "mean_token_accuracy": 0.9703402817249298,
-      "num_tokens": 4928439.0,
-      "step": 559
-    },
-    {
-      "entropy": 2.016420066356659,
-      "epoch": 2.0217194570135746,
-      "grad_norm": 0.5574740171432495,
-      "learning_rate": 0.00040684047417790273,
-      "loss": 0.1037,
-      "mean_token_accuracy": 0.9727325141429901,
-      "num_tokens": 4938061.0,
-      "step": 560
-    },
-    {
-      "entropy": 2.1843727231025696,
-      "epoch": 2.025339366515837,
-      "grad_norm": 0.786014199256897,
-      "learning_rate": 0.00040646508896808394,
-      "loss": 0.155,
-      "mean_token_accuracy": 0.9608975350856781,
-      "num_tokens": 4946619.0,
-      "step": 561
-    },
-    {
-      "entropy": 2.160427451133728,
-      "epoch": 2.0289592760180994,
-      "grad_norm": 0.5267161130905151,
-      "learning_rate": 0.000406089227415774,
-      "loss": 0.0632,
-      "mean_token_accuracy": 0.9791042655706406,
-      "num_tokens": 4955324.0,
-      "step": 562
-    },
-    {
-      "entropy": 2.0923200249671936,
-      "epoch": 2.032579185520362,
-      "grad_norm": 0.8306187987327576,
-      "learning_rate": 0.00040571289094854304,
-      "loss": 0.1976,
-      "mean_token_accuracy": 0.9538775235414505,
-      "num_tokens": 4964321.0,
-      "step": 563
-    },
-    {
-      "entropy": 2.0181354880332947,
-      "epoch": 2.0361990950226243,
-      "grad_norm": 0.6798867583274841,
-      "learning_rate": 0.0004053360809957649,
-      "loss": 0.1797,
-      "mean_token_accuracy": 0.9569422006607056,
-      "num_tokens": 4973937.0,
-      "step": 564
-    },
-    {
-      "entropy": 2.123030036687851,
-      "epoch": 2.0398190045248867,
-      "grad_norm": 0.4481683671474457,
-      "learning_rate": 0.00040495879898861173,
-      "loss": 0.0639,
-      "mean_token_accuracy": 0.9827965050935745,
-      "num_tokens": 4982779.0,
-      "step": 565
-    },
-    {
-      "entropy": 2.0797010362148285,
-      "epoch": 2.043438914027149,
-      "grad_norm": 0.7745859622955322,
-      "learning_rate": 0.00040458104636004877,
-      "loss": 0.1602,
-      "mean_token_accuracy": 0.9600242227315903,
-      "num_tokens": 4991793.0,
-      "step": 566
-    },
-    {
-      "entropy": 2.0320390164852142,
-      "epoch": 2.0470588235294116,
-      "grad_norm": 0.5792120695114136,
-      "learning_rate": 0.0004042028245448286,
-      "loss": 0.0816,
-      "mean_token_accuracy": 0.9757721722126007,
-      "num_tokens": 5000834.0,
-      "step": 567
-    },
-    {
-      "entropy": 2.1047743558883667,
-      "epoch": 2.050678733031674,
-      "grad_norm": 0.5770072937011719,
-      "learning_rate": 0.0004038241349794858,
-      "loss": 0.1367,
-      "mean_token_accuracy": 0.9598450362682343,
-      "num_tokens": 5010155.0,
-      "step": 568
-    },
-    {
-      "entropy": 2.022550255060196,
-      "epoch": 2.0542986425339365,
-      "grad_norm": 0.47085902094841003,
-      "learning_rate": 0.0004034449791023319,
-      "loss": 0.1005,
-      "mean_token_accuracy": 0.970214769244194,
-      "num_tokens": 5020010.0,
-      "step": 569
-    },
-    {
-      "entropy": 2.034317582845688,
-      "epoch": 2.057918552036199,
-      "grad_norm": 0.4816018044948578,
-      "learning_rate": 0.0004030653583534489,
-      "loss": 0.118,
-      "mean_token_accuracy": 0.9635649025440216,
-      "num_tokens": 5029205.0,
-      "step": 570
-    },
-    {
-      "entropy": 2.1142700910568237,
-      "epoch": 2.0615384615384613,
-      "grad_norm": 0.561765730381012,
-      "learning_rate": 0.0004026852741746849,
-      "loss": 0.0628,
-      "mean_token_accuracy": 0.9811093211174011,
-      "num_tokens": 5037830.0,
-      "step": 571
-    },
-    {
-      "entropy": 2.1506906747817993,
-      "epoch": 2.065158371040724,
-      "grad_norm": 0.9037840366363525,
-      "learning_rate": 0.0004023047280096482,
-      "loss": 0.1395,
-      "mean_token_accuracy": 0.9645196944475174,
-      "num_tokens": 5046618.0,
-      "step": 572
-    },
-    {
-      "entropy": 2.1811060309410095,
-      "epoch": 2.0687782805429866,
-      "grad_norm": 0.6224188208580017,
-      "learning_rate": 0.0004019237213037014,
-      "loss": 0.0766,
-      "mean_token_accuracy": 0.9752616137266159,
-      "num_tokens": 5055467.0,
-      "step": 573
-    },
-    {
-      "entropy": 2.0479070246219635,
-      "epoch": 2.072398190045249,
-      "grad_norm": 0.5052458643913269,
-      "learning_rate": 0.00040154225550395665,
-      "loss": 0.091,
-      "mean_token_accuracy": 0.9753529280424118,
-      "num_tokens": 5064518.0,
-      "step": 574
-    },
-    {
-      "entropy": 2.18623149394989,
-      "epoch": 2.0760180995475115,
-      "grad_norm": 0.49587905406951904,
-      "learning_rate": 0.00040116033205926964,
-      "loss": 0.0703,
-      "mean_token_accuracy": 0.979348823428154,
-      "num_tokens": 5072713.0,
-      "step": 575
-    },
-    {
-      "entropy": 2.131018817424774,
-      "epoch": 2.079638009049774,
-      "grad_norm": 0.607468843460083,
-      "learning_rate": 0.0004007779524202343,
-      "loss": 0.0988,
-      "mean_token_accuracy": 0.9756181836128235,
-      "num_tokens": 5081046.0,
-      "step": 576
-    },
-    {
-      "entropy": 2.0251292288303375,
-      "epoch": 2.0832579185520363,
-      "grad_norm": 0.867511510848999,
-      "learning_rate": 0.00040039511803917723,
-      "loss": 0.1672,
-      "mean_token_accuracy": 0.9638413190841675,
-      "num_tokens": 5089859.0,
-      "step": 577
-    },
-    {
-      "entropy": 2.0818732380867004,
-      "epoch": 2.086877828054299,
-      "grad_norm": 0.5915331840515137,
-      "learning_rate": 0.0004000118303701521,
-      "loss": 0.1103,
-      "mean_token_accuracy": 0.9715124219655991,
-      "num_tokens": 5098331.0,
-      "step": 578
-    },
-    {
-      "entropy": 1.9556698501110077,
-      "epoch": 2.090497737556561,
-      "grad_norm": 0.5216535329818726,
-      "learning_rate": 0.0003996280908689345,
-      "loss": 0.1481,
-      "mean_token_accuracy": 0.9601311087608337,
-      "num_tokens": 5107557.0,
-      "step": 579
-    },
-    {
-      "entropy": 2.015773117542267,
-      "epoch": 2.0941176470588236,
-      "grad_norm": 0.7138916254043579,
-      "learning_rate": 0.00039924390099301584,
-      "loss": 0.1173,
-      "mean_token_accuracy": 0.9670253992080688,
-      "num_tokens": 5116677.0,
-      "step": 580
-    },
-    {
-      "entropy": 2.0676984786987305,
-      "epoch": 2.097737556561086,
-      "grad_norm": 0.7776201963424683,
-      "learning_rate": 0.0003988592622015984,
-      "loss": 0.0668,
-      "mean_token_accuracy": 0.9766870141029358,
-      "num_tokens": 5125262.0,
-      "step": 581
-    },
-    {
-      "entropy": 2.0256679952144623,
-      "epoch": 2.1013574660633485,
-      "grad_norm": 0.5481430888175964,
-      "learning_rate": 0.00039847417595558903,
-      "loss": 0.0898,
-      "mean_token_accuracy": 0.9747780114412308,
-      "num_tokens": 5133848.0,
-      "step": 582
-    },
-    {
-      "entropy": 2.049301326274872,
-      "epoch": 2.104977375565611,
-      "grad_norm": 0.6634963154792786,
-      "learning_rate": 0.00039808864371759464,
-      "loss": 0.1012,
-      "mean_token_accuracy": 0.9695883542299271,
-      "num_tokens": 5142266.0,
-      "step": 583
-    },
-    {
-      "entropy": 1.8873322904109955,
-      "epoch": 2.1085972850678734,
-      "grad_norm": 0.6262965798377991,
-      "learning_rate": 0.0003977026669519156,
-      "loss": 0.1064,
-      "mean_token_accuracy": 0.9686857610940933,
-      "num_tokens": 5151297.0,
-      "step": 584
-    },
-    {
-      "entropy": 2.0208800733089447,
-      "epoch": 2.112217194570136,
-      "grad_norm": 0.6475429534912109,
-      "learning_rate": 0.0003973162471245411,
-      "loss": 0.126,
-      "mean_token_accuracy": 0.9671273976564407,
-      "num_tokens": 5159913.0,
-      "step": 585
-    },
-    {
-      "entropy": 2.0354510843753815,
-      "epoch": 2.1158371040723982,
-      "grad_norm": 0.6373077034950256,
-      "learning_rate": 0.0003969293857031426,
-      "loss": 0.1403,
-      "mean_token_accuracy": 0.9615094214677811,
-      "num_tokens": 5168392.0,
-      "step": 586
-    },
-    {
-      "entropy": 2.0489701330661774,
-      "epoch": 2.1194570135746607,
-      "grad_norm": 0.7459731698036194,
-      "learning_rate": 0.0003965420841570693,
-      "loss": 0.0847,
-      "mean_token_accuracy": 0.9742033332586288,
-      "num_tokens": 5176858.0,
-      "step": 587
-    },
-    {
-      "entropy": 2.0531455874443054,
-      "epoch": 2.123076923076923,
-      "grad_norm": 0.8357418179512024,
-      "learning_rate": 0.00039615434395734174,
-      "loss": 0.2558,
-      "mean_token_accuracy": 0.9348864704370499,
-      "num_tokens": 5185101.0,
-      "step": 588
-    },
-    {
-      "entropy": 1.9761857986450195,
-      "epoch": 2.1266968325791855,
-      "grad_norm": 0.4816463887691498,
-      "learning_rate": 0.00039576616657664666,
-      "loss": 0.0934,
-      "mean_token_accuracy": 0.9781179577112198,
-      "num_tokens": 5193987.0,
-      "step": 589
-    },
-    {
-      "entropy": 2.0150316655635834,
-      "epoch": 2.130316742081448,
-      "grad_norm": 0.7039950489997864,
-      "learning_rate": 0.0003953775534893311,
-      "loss": 0.1558,
-      "mean_token_accuracy": 0.9602096229791641,
-      "num_tokens": 5202598.0,
-      "step": 590
-    },
-    {
-      "entropy": 2.0542426705360413,
-      "epoch": 2.1339366515837104,
-      "grad_norm": 0.6318346858024597,
-      "learning_rate": 0.00039498850617139737,
-      "loss": 0.1277,
-      "mean_token_accuracy": 0.9658758789300919,
-      "num_tokens": 5211157.0,
-      "step": 591
-    },
-    {
-      "entropy": 2.0793416798114777,
-      "epoch": 2.137556561085973,
-      "grad_norm": 0.6513328552246094,
-      "learning_rate": 0.0003945990261004964,
-      "loss": 0.3452,
-      "mean_token_accuracy": 0.9376382231712341,
-      "num_tokens": 5220057.0,
-      "step": 592
-    },
-    {
-      "entropy": 1.834738850593567,
-      "epoch": 2.1411764705882352,
-      "grad_norm": 0.709550678730011,
-      "learning_rate": 0.0003942091147559234,
-      "loss": 0.1632,
-      "mean_token_accuracy": 0.9588025957345963,
-      "num_tokens": 5229649.0,
-      "step": 593
-    },
-    {
-      "entropy": 2.115740954875946,
-      "epoch": 2.1447963800904977,
-      "grad_norm": 0.6495632529258728,
-      "learning_rate": 0.00039381877361861127,
-      "loss": 0.0799,
-      "mean_token_accuracy": 0.9793208837509155,
-      "num_tokens": 5238060.0,
-      "step": 594
-    },
-    {
-      "entropy": 1.9325994551181793,
-      "epoch": 2.14841628959276,
-      "grad_norm": 0.3864371180534363,
-      "learning_rate": 0.0003934280041711253,
-      "loss": 0.0392,
-      "mean_token_accuracy": 0.9867032468318939,
-      "num_tokens": 5246715.0,
-      "step": 595
-    },
-    {
-      "entropy": 1.9573578834533691,
-      "epoch": 2.1520361990950225,
-      "grad_norm": 0.8978553414344788,
-      "learning_rate": 0.0003930368078976578,
-      "loss": 0.1043,
-      "mean_token_accuracy": 0.9700421690940857,
-      "num_tokens": 5255677.0,
-      "step": 596
-    },
-    {
-      "entropy": 2.017194092273712,
-      "epoch": 2.155656108597285,
-      "grad_norm": 0.8082290887832642,
-      "learning_rate": 0.0003926451862840221,
-      "loss": 0.193,
-      "mean_token_accuracy": 0.9494165182113647,
-      "num_tokens": 5264229.0,
-      "step": 597
-    },
-    {
-      "entropy": 1.8982190787792206,
-      "epoch": 2.1592760180995474,
-      "grad_norm": 0.7600063681602478,
-      "learning_rate": 0.00039225314081764673,
-      "loss": 0.2152,
-      "mean_token_accuracy": 0.9523166120052338,
-      "num_tokens": 5273397.0,
-      "step": 598
-    },
-    {
-      "entropy": 1.9896901845932007,
-      "epoch": 2.16289592760181,
-      "grad_norm": 0.45877528190612793,
-      "learning_rate": 0.0003918606729875706,
-      "loss": 0.0892,
-      "mean_token_accuracy": 0.9720247238874435,
-      "num_tokens": 5282376.0,
-      "step": 599
-    },
-    {
-      "entropy": 1.8235589861869812,
-      "epoch": 2.1665158371040723,
-      "grad_norm": 0.49329352378845215,
-      "learning_rate": 0.0003914677842844365,
-      "loss": 0.0803,
-      "mean_token_accuracy": 0.9721037000417709,
-      "num_tokens": 5291815.0,
-      "step": 600
-    },
-    {
-      "entropy": 1.9400377571582794,
-      "epoch": 2.1701357466063347,
-      "grad_norm": 0.5306346416473389,
-      "learning_rate": 0.0003910744762004857,
-      "loss": 0.0602,
-      "mean_token_accuracy": 0.9762802571058273,
-      "num_tokens": 5300394.0,
-      "step": 601
-    },
-    {
-      "entropy": 1.7808023691177368,
-      "epoch": 2.173755656108597,
-      "grad_norm": 0.5050559043884277,
-      "learning_rate": 0.00039068075022955255,
-      "loss": 0.0862,
-      "mean_token_accuracy": 0.9724314510822296,
-      "num_tokens": 5309685.0,
-      "step": 602
-    },
-    {
-      "entropy": 1.9939678311347961,
-      "epoch": 2.1773755656108595,
-      "grad_norm": 0.6879346966743469,
-      "learning_rate": 0.0003902866078670584,
-      "loss": 0.0936,
-      "mean_token_accuracy": 0.9765703976154327,
-      "num_tokens": 5318020.0,
-      "step": 603
-    },
-    {
-      "entropy": 1.9384137690067291,
-      "epoch": 2.180995475113122,
-      "grad_norm": 0.6881359219551086,
-      "learning_rate": 0.0003898920506100061,
-      "loss": 0.1303,
-      "mean_token_accuracy": 0.9615567773580551,
-      "num_tokens": 5326895.0,
-      "step": 604
-    },
-    {
-      "entropy": 1.9919665455818176,
-      "epoch": 2.184615384615385,
-      "grad_norm": 0.6181508302688599,
-      "learning_rate": 0.00038949707995697446,
-      "loss": 0.0745,
-      "mean_token_accuracy": 0.9808734804391861,
-      "num_tokens": 5335355.0,
-      "step": 605
-    },
-    {
-      "entropy": 1.9376583397388458,
-      "epoch": 2.1882352941176473,
-      "grad_norm": 0.46525871753692627,
-      "learning_rate": 0.0003891016974081125,
-      "loss": 0.0826,
-      "mean_token_accuracy": 0.9753947854042053,
-      "num_tokens": 5343879.0,
-      "step": 606
-    },
-    {
-      "entropy": 1.8252979516983032,
-      "epoch": 2.1918552036199097,
-      "grad_norm": 0.5332593321800232,
-      "learning_rate": 0.00038870590446513325,
-      "loss": 0.1218,
-      "mean_token_accuracy": 0.9644111543893814,
-      "num_tokens": 5352980.0,
-      "step": 607
-    },
-    {
-      "entropy": 1.8981524407863617,
-      "epoch": 2.195475113122172,
-      "grad_norm": 0.5849556922912598,
-      "learning_rate": 0.0003883097026313089,
-      "loss": 0.0854,
-      "mean_token_accuracy": 0.9766328930854797,
-      "num_tokens": 5361576.0,
-      "step": 608
-    },
-    {
-      "entropy": 1.9466857016086578,
-      "epoch": 2.1990950226244346,
-      "grad_norm": 1.0213185548782349,
-      "learning_rate": 0.00038791309341146453,
-      "loss": 0.1282,
-      "mean_token_accuracy": 0.975858062505722,
-      "num_tokens": 5369947.0,
-      "step": 609
-    },
-    {
-      "entropy": 1.9219308197498322,
-      "epoch": 2.202714932126697,
-      "grad_norm": 0.7259594798088074,
-      "learning_rate": 0.00038751607831197243,
-      "loss": 0.0986,
-      "mean_token_accuracy": 0.9709735363721848,
-      "num_tokens": 5378429.0,
-      "step": 610
-    },
-    {
-      "entropy": 1.934881567955017,
-      "epoch": 2.2063348416289594,
-      "grad_norm": 0.6190217137336731,
-      "learning_rate": 0.0003871186588407467,
-      "loss": 0.1259,
-      "mean_token_accuracy": 0.9606761038303375,
-      "num_tokens": 5386986.0,
-      "step": 611
-    },
-    {
-      "entropy": 1.9234256446361542,
-      "epoch": 2.209954751131222,
-      "grad_norm": 1.1731759309768677,
-      "learning_rate": 0.00038672083650723697,
-      "loss": 0.3705,
-      "mean_token_accuracy": 0.9448409974575043,
-      "num_tokens": 5395623.0,
-      "step": 612
-    },
-    {
-      "entropy": 1.9198957085609436,
-      "epoch": 2.2135746606334843,
-      "grad_norm": 0.38831791281700134,
-      "learning_rate": 0.00038632261282242316,
-      "loss": 0.0405,
-      "mean_token_accuracy": 0.9884084165096283,
-      "num_tokens": 5403964.0,
-      "step": 613
-    },
-    {
-      "entropy": 1.9401849210262299,
-      "epoch": 2.2171945701357467,
-      "grad_norm": 0.6391944885253906,
-      "learning_rate": 0.0003859239892988097,
-      "loss": 0.0803,
-      "mean_token_accuracy": 0.9763080179691315,
-      "num_tokens": 5412601.0,
-      "step": 614
-    },
-    {
-      "entropy": 1.906328171491623,
-      "epoch": 2.220814479638009,
-      "grad_norm": 0.5495765805244446,
-      "learning_rate": 0.00038552496745041935,
-      "loss": 0.0919,
-      "mean_token_accuracy": 0.9796502739191055,
-      "num_tokens": 5421112.0,
-      "step": 615
-    },
-    {
-      "entropy": 1.9130763709545135,
-      "epoch": 2.2244343891402716,
-      "grad_norm": 0.8233397006988525,
-      "learning_rate": 0.0003851255487927883,
-      "loss": 0.1246,
-      "mean_token_accuracy": 0.9621723592281342,
-      "num_tokens": 5429851.0,
-      "step": 616
-    },
-    {
-      "entropy": 1.8408336341381073,
-      "epoch": 2.228054298642534,
-      "grad_norm": 0.8857082724571228,
-      "learning_rate": 0.00038472573484295904,
-      "loss": 0.1061,
-      "mean_token_accuracy": 0.9664444029331207,
-      "num_tokens": 5438983.0,
-      "step": 617
-    },
-    {
-      "entropy": 1.8644142150878906,
-      "epoch": 2.2316742081447964,
-      "grad_norm": 0.6762974262237549,
-      "learning_rate": 0.0003843255271194762,
-      "loss": 0.1532,
-      "mean_token_accuracy": 0.952915757894516,
-      "num_tokens": 5447922.0,
-      "step": 618
-    },
-    {
-      "entropy": 1.7125722169876099,
-      "epoch": 2.235294117647059,
-      "grad_norm": 0.44111478328704834,
-      "learning_rate": 0.00038392492714237975,
-      "loss": 0.0819,
-      "mean_token_accuracy": 0.9738304615020752,
-      "num_tokens": 5457128.0,
-      "step": 619
-    },
-    {
-      "entropy": 1.7900195717811584,
-      "epoch": 2.2389140271493213,
-      "grad_norm": 0.5224407911300659,
-      "learning_rate": 0.0003835239364331993,
-      "loss": 0.1023,
-      "mean_token_accuracy": 0.975239485502243,
-      "num_tokens": 5465760.0,
-      "step": 620
-    },
-    {
-      "entropy": 1.715638667345047,
-      "epoch": 2.2425339366515837,
-      "grad_norm": 0.6327251195907593,
-      "learning_rate": 0.00038312255651494866,
-      "loss": 0.154,
-      "mean_token_accuracy": 0.9579339027404785,
-      "num_tokens": 5475190.0,
-      "step": 621
-    },
-    {
-      "entropy": 1.8499042093753815,
-      "epoch": 2.246153846153846,
-      "grad_norm": 0.6490166187286377,
-      "learning_rate": 0.00038272078891212017,
-      "loss": 0.1248,
-      "mean_token_accuracy": 0.9679877310991287,
-      "num_tokens": 5484011.0,
-      "step": 622
-    },
-    {
-      "entropy": 1.7533331513404846,
-      "epoch": 2.2497737556561086,
-      "grad_norm": 0.6320033073425293,
-      "learning_rate": 0.000382318635150678,
-      "loss": 0.1588,
-      "mean_token_accuracy": 0.9576389044523239,
-      "num_tokens": 5493123.0,
-      "step": 623
-    },
-    {
-      "entropy": 1.8554400503635406,
-      "epoch": 2.253393665158371,
-      "grad_norm": 0.7169481515884399,
-      "learning_rate": 0.0003819160967580536,
-      "loss": 0.1316,
-      "mean_token_accuracy": 0.966967299580574,
-      "num_tokens": 5501923.0,
-      "step": 624
-    },
-    {
-      "entropy": 1.9283805191516876,
-      "epoch": 2.2570135746606335,
-      "grad_norm": 0.599856436252594,
-      "learning_rate": 0.00038151317526313917,
-      "loss": 0.1326,
-      "mean_token_accuracy": 0.961080014705658,
-      "num_tokens": 5510356.0,
-      "step": 625
-    },
-    {
-      "entropy": 1.7921342253684998,
-      "epoch": 2.260633484162896,
-      "grad_norm": 0.7019768357276917,
-      "learning_rate": 0.0003811098721962818,
-      "loss": 0.0976,
-      "mean_token_accuracy": 0.970125287771225,
-      "num_tokens": 5519016.0,
-      "step": 626
-    },
-    {
-      "entropy": 1.7646876573562622,
-      "epoch": 2.2642533936651583,
-      "grad_norm": 0.7311795949935913,
-      "learning_rate": 0.00038070618908927784,
-      "loss": 0.0908,
-      "mean_token_accuracy": 0.9719386845827103,
-      "num_tokens": 5528139.0,
-      "step": 627
-    },
-    {
-      "entropy": 1.8233769237995148,
-      "epoch": 2.2678733031674208,
-      "grad_norm": 0.6742154955863953,
-      "learning_rate": 0.0003803021274753674,
-      "loss": 0.1348,
-      "mean_token_accuracy": 0.9619691967964172,
-      "num_tokens": 5537036.0,
-      "step": 628
-    },
-    {
-      "entropy": 1.7711736857891083,
-      "epoch": 2.271493212669683,
-      "grad_norm": 0.6000869274139404,
-      "learning_rate": 0.00037989768888922775,
-      "loss": 0.1086,
-      "mean_token_accuracy": 0.9672373533248901,
-      "num_tokens": 5545932.0,
-      "step": 629
-    },
-    {
-      "entropy": 1.8396382629871368,
-      "epoch": 2.2751131221719456,
-      "grad_norm": 0.541504979133606,
-      "learning_rate": 0.0003794928748669683,
-      "loss": 0.0775,
-      "mean_token_accuracy": 0.977355495095253,
-      "num_tokens": 5554403.0,
-      "step": 630
-    },
-    {
-      "entropy": 1.890054315328598,
-      "epoch": 2.278733031674208,
-      "grad_norm": 0.5629594326019287,
-      "learning_rate": 0.00037908768694612434,
-      "loss": 0.0711,
-      "mean_token_accuracy": 0.9779117107391357,
-      "num_tokens": 5563156.0,
-      "step": 631
-    },
-    {
-      "entropy": 1.9505741894245148,
-      "epoch": 2.2823529411764705,
-      "grad_norm": 0.6717761754989624,
-      "learning_rate": 0.0003786821266656512,
-      "loss": 0.1077,
-      "mean_token_accuracy": 0.9674138873815536,
-      "num_tokens": 5571618.0,
-      "step": 632
-    },
-    {
-      "entropy": 1.8377742171287537,
-      "epoch": 2.285972850678733,
-      "grad_norm": 0.6176472902297974,
-      "learning_rate": 0.0003782761955659185,
-      "loss": 0.1106,
-      "mean_token_accuracy": 0.9669957906007767,
-      "num_tokens": 5580668.0,
-      "step": 633
-    },
-    {
-      "entropy": 1.8336479365825653,
-      "epoch": 2.2895927601809953,
-      "grad_norm": 0.5120813846588135,
-      "learning_rate": 0.0003778698951887042,
-      "loss": 0.0732,
-      "mean_token_accuracy": 0.9774532318115234,
-      "num_tokens": 5589491.0,
-      "step": 634
-    },
-    {
-      "entropy": 1.9576656222343445,
-      "epoch": 2.2932126696832578,
-      "grad_norm": 0.9347079396247864,
-      "learning_rate": 0.00037746322707718895,
-      "loss": 0.2275,
-      "mean_token_accuracy": 0.9512088149785995,
-      "num_tokens": 5598327.0,
-      "step": 635
-    },
-    {
-      "entropy": 1.9309991896152496,
-      "epoch": 2.29683257918552,
-      "grad_norm": 0.506108283996582,
-      "learning_rate": 0.0003770561927759502,
-      "loss": 0.1046,
-      "mean_token_accuracy": 0.9633967131376266,
-      "num_tokens": 5606948.0,
-      "step": 636
-    },
-    {
-      "entropy": 1.963425725698471,
-      "epoch": 2.3004524886877826,
-      "grad_norm": 0.5499919056892395,
-      "learning_rate": 0.0003766487938309561,
-      "loss": 0.0804,
-      "mean_token_accuracy": 0.9783825874328613,
-      "num_tokens": 5615342.0,
-      "step": 637
-    },
-    {
-      "entropy": 1.8853708505630493,
-      "epoch": 2.304072398190045,
-      "grad_norm": 0.5846657156944275,
-      "learning_rate": 0.00037624103178955946,
-      "loss": 0.0904,
-      "mean_token_accuracy": 0.9774703830480576,
-      "num_tokens": 5624449.0,
-      "step": 638
-    },
-    {
-      "entropy": 1.928403079509735,
-      "epoch": 2.3076923076923075,
-      "grad_norm": 0.5203971266746521,
-      "learning_rate": 0.0003758329082004928,
-      "loss": 0.0917,
-      "mean_token_accuracy": 0.9723261743783951,
-      "num_tokens": 5633273.0,
-      "step": 639
-    },
-    {
-      "entropy": 1.8914157152175903,
-      "epoch": 2.31131221719457,
-      "grad_norm": 0.5215239524841309,
-      "learning_rate": 0.00037542442461386145,
-      "loss": 0.1072,
-      "mean_token_accuracy": 0.9704900681972504,
-      "num_tokens": 5642357.0,
-      "step": 640
-    },
-    {
-      "entropy": 1.9754666090011597,
-      "epoch": 2.3149321266968323,
-      "grad_norm": 0.6710624694824219,
-      "learning_rate": 0.0003750155825811379,
-      "loss": 0.1344,
-      "mean_token_accuracy": 0.9615458548069,
-      "num_tokens": 5651409.0,
-      "step": 641
-    },
-    {
-      "entropy": 1.97001314163208,
-      "epoch": 2.318552036199095,
-      "grad_norm": 0.6511638164520264,
-      "learning_rate": 0.00037460638365515673,
-      "loss": 0.0502,
-      "mean_token_accuracy": 0.9829420000314713,
-      "num_tokens": 5660362.0,
-      "step": 642
-    },
-    {
-      "entropy": 1.9473612904548645,
-      "epoch": 2.3221719457013577,
-      "grad_norm": 0.5315663814544678,
-      "learning_rate": 0.00037419682939010725,
-      "loss": 0.1004,
-      "mean_token_accuracy": 0.9741797298192978,
-      "num_tokens": 5669386.0,
-      "step": 643
-    },
-    {
-      "entropy": 1.9136508405208588,
-      "epoch": 2.32579185520362,
-      "grad_norm": 0.6636398434638977,
-      "learning_rate": 0.00037378692134152887,
-      "loss": 0.0928,
-      "mean_token_accuracy": 0.9753085225820541,
-      "num_tokens": 5678226.0,
-      "step": 644
-    },
-    {
-      "entropy": 2.0870893597602844,
-      "epoch": 2.3294117647058825,
-      "grad_norm": 0.45003074407577515,
-      "learning_rate": 0.00037337666106630464,
-      "loss": 0.0937,
-      "mean_token_accuracy": 0.9742898046970367,
-      "num_tokens": 5687017.0,
-      "step": 645
-    },
-    {
-      "entropy": 2.084017276763916,
-      "epoch": 2.333031674208145,
-      "grad_norm": 0.6305840611457825,
-      "learning_rate": 0.0003729660501226553,
-      "loss": 0.1085,
-      "mean_token_accuracy": 0.9696957617998123,
-      "num_tokens": 5695585.0,
-      "step": 646
-    },
-    {
-      "entropy": 2.0916273295879364,
-      "epoch": 2.3366515837104074,
-      "grad_norm": 0.6674802303314209,
-      "learning_rate": 0.00037255509007013353,
-      "loss": 0.1214,
-      "mean_token_accuracy": 0.9657080322504044,
-      "num_tokens": 5704167.0,
-      "step": 647
-    },
-    {
-      "entropy": 2.0445155799388885,
-      "epoch": 2.34027149321267,
-      "grad_norm": 0.9245135188102722,
-      "learning_rate": 0.0003721437824696181,
-      "loss": 0.124,
-      "mean_token_accuracy": 0.9668982475996017,
-      "num_tokens": 5712896.0,
-      "step": 648
-    },
-    {
-      "entropy": 2.040050685405731,
-      "epoch": 2.3438914027149322,
-      "grad_norm": 0.558266818523407,
-      "learning_rate": 0.00037173212888330756,
-      "loss": 0.103,
-      "mean_token_accuracy": 0.9663692861795425,
-      "num_tokens": 5721568.0,
-      "step": 649
-    },
-    {
-      "entropy": 2.078313887119293,
-      "epoch": 2.3475113122171947,
-      "grad_norm": 0.6157237887382507,
-      "learning_rate": 0.0003713201308747148,
-      "loss": 0.1247,
-      "mean_token_accuracy": 0.9645204842090607,
-      "num_tokens": 5730097.0,
-      "step": 650
-    },
-    {
-      "entropy": 1.9473297894001007,
-      "epoch": 2.351131221719457,
-      "grad_norm": 0.6460309028625488,
-      "learning_rate": 0.0003709077900086607,
-      "loss": 0.193,
-      "mean_token_accuracy": 0.9537071883678436,
-      "num_tokens": 5738953.0,
-      "step": 651
-    },
-    {
-      "entropy": 1.9319245219230652,
-      "epoch": 2.3547511312217195,
-      "grad_norm": 0.826302170753479,
-      "learning_rate": 0.0003704951078512684,
-      "loss": 0.2072,
-      "mean_token_accuracy": 0.9553762674331665,
-      "num_tokens": 5748421.0,
-      "step": 652
-    },
-    {
-      "entropy": 2.000667005777359,
-      "epoch": 2.358371040723982,
-      "grad_norm": 0.508975625038147,
-      "learning_rate": 0.00037008208596995743,
-      "loss": 0.1124,
-      "mean_token_accuracy": 0.9674097448587418,
-      "num_tokens": 5757333.0,
-      "step": 653
-    },
-    {
-      "entropy": 1.9692010879516602,
-      "epoch": 2.3619909502262444,
-      "grad_norm": 0.597391664981842,
-      "learning_rate": 0.00036966872593343747,
-      "loss": 0.0958,
-      "mean_token_accuracy": 0.9727880656719208,
-      "num_tokens": 5766427.0,
-      "step": 654
-    },
-    {
-      "entropy": 1.9356706142425537,
-      "epoch": 2.365610859728507,
-      "grad_norm": 0.6264978051185608,
-      "learning_rate": 0.0003692550293117025,
-      "loss": 0.0925,
-      "mean_token_accuracy": 0.9736592024564743,
-      "num_tokens": 5775578.0,
-      "step": 655
-    },
-    {
-      "entropy": 2.086688846349716,
-      "epoch": 2.3692307692307693,
-      "grad_norm": 0.926537811756134,
-      "learning_rate": 0.00036884099767602523,
-      "loss": 0.1772,
-      "mean_token_accuracy": 0.9588586837053299,
-      "num_tokens": 5783754.0,
-      "step": 656
-    },
-    {
-      "entropy": 1.8272685706615448,
-      "epoch": 2.3728506787330317,
-      "grad_norm": 0.5276276469230652,
-      "learning_rate": 0.0003684266325989504,
-      "loss": 0.106,
-      "mean_token_accuracy": 0.9692760407924652,
-      "num_tokens": 5793159.0,
-      "step": 657
-    },
-    {
-      "entropy": 1.8490014672279358,
-      "epoch": 2.376470588235294,
-      "grad_norm": 0.6970511078834534,
-      "learning_rate": 0.0003680119356542895,
-      "loss": 0.0849,
-      "mean_token_accuracy": 0.9812656790018082,
-      "num_tokens": 5802503.0,
-      "step": 658
-    },
-    {
-      "entropy": 1.8577990531921387,
-      "epoch": 2.3800904977375565,
-      "grad_norm": 0.49535682797431946,
-      "learning_rate": 0.00036759690841711435,
-      "loss": 0.0965,
-      "mean_token_accuracy": 0.9723764955997467,
-      "num_tokens": 5811839.0,
-      "step": 659
-    },
-    {
-      "entropy": 1.785957396030426,
-      "epoch": 2.383710407239819,
-      "grad_norm": 0.7373266220092773,
-      "learning_rate": 0.00036718155246375124,
-      "loss": 0.103,
-      "mean_token_accuracy": 0.9659082442522049,
-      "num_tokens": 5821076.0,
-      "step": 660
-    },
-    {
-      "entropy": 1.8944315016269684,
-      "epoch": 2.3873303167420814,
-      "grad_norm": 0.4784161448478699,
-      "learning_rate": 0.000366765869371775,
-      "loss": 0.0899,
-      "mean_token_accuracy": 0.9731316566467285,
-      "num_tokens": 5830098.0,
-      "step": 661
-    },
-    {
-      "entropy": 1.8901143372058868,
-      "epoch": 2.390950226244344,
-      "grad_norm": 0.5539003610610962,
-      "learning_rate": 0.00036634986072000305,
-      "loss": 0.078,
-      "mean_token_accuracy": 0.9769923985004425,
-      "num_tokens": 5839149.0,
-      "step": 662
-    },
-    {
-      "entropy": 1.8183043003082275,
-      "epoch": 2.3945701357466063,
-      "grad_norm": 0.48431649804115295,
-      "learning_rate": 0.0003659335280884893,
-      "loss": 0.0669,
-      "mean_token_accuracy": 0.978607714176178,
-      "num_tokens": 5848064.0,
-      "step": 663
-    },
-    {
-      "entropy": 1.7216700911521912,
-      "epoch": 2.3981900452488687,
-      "grad_norm": 0.5597919821739197,
-      "learning_rate": 0.00036551687305851803,
-      "loss": 0.1026,
-      "mean_token_accuracy": 0.9733614027500153,
-      "num_tokens": 5857075.0,
-      "step": 664
-    },
-    {
-      "entropy": 1.7788107991218567,
-      "epoch": 2.401809954751131,
-      "grad_norm": 0.6780642867088318,
-      "learning_rate": 0.00036509989721259824,
-      "loss": 0.0895,
-      "mean_token_accuracy": 0.9711848199367523,
-      "num_tokens": 5866029.0,
-      "step": 665
-    },
-    {
-      "entropy": 1.8354471325874329,
-      "epoch": 2.4054298642533936,
-      "grad_norm": 0.6284046769142151,
-      "learning_rate": 0.0003646826021344573,
-      "loss": 0.1153,
-      "mean_token_accuracy": 0.9645407199859619,
-      "num_tokens": 5874523.0,
-      "step": 666
-    },
-    {
-      "entropy": 1.829980492591858,
-      "epoch": 2.409049773755656,
-      "grad_norm": 0.6398605704307556,
-      "learning_rate": 0.00036426498940903506,
-      "loss": 0.0605,
-      "mean_token_accuracy": 0.9823256582021713,
-      "num_tokens": 5883067.0,
-      "step": 667
-    },
-    {
-      "entropy": 1.839373379945755,
-      "epoch": 2.4126696832579184,
-      "grad_norm": 0.6254173517227173,
-      "learning_rate": 0.000363847060622478,
-      "loss": 0.0708,
-      "mean_token_accuracy": 0.978134423494339,
-      "num_tokens": 5891921.0,
-      "step": 668
-    },
-    {
-      "entropy": 1.7790280282497406,
-      "epoch": 2.416289592760181,
-      "grad_norm": 0.5987306833267212,
-      "learning_rate": 0.0003634288173621326,
-      "loss": 0.0888,
-      "mean_token_accuracy": 0.9814571887254715,
-      "num_tokens": 5900603.0,
-      "step": 669
-    },
-    {
-      "entropy": 1.6918425559997559,
-      "epoch": 2.4199095022624433,
-      "grad_norm": 0.784694492816925,
-      "learning_rate": 0.00036301026121654057,
-      "loss": 0.1353,
-      "mean_token_accuracy": 0.9646909832954407,
-      "num_tokens": 5910028.0,
-      "step": 670
-    },
-    {
-      "entropy": 1.726965218782425,
-      "epoch": 2.4235294117647057,
-      "grad_norm": 0.7017857432365417,
-      "learning_rate": 0.00036259139377543104,
-      "loss": 0.1531,
-      "mean_token_accuracy": 0.9617924690246582,
-      "num_tokens": 5919145.0,
-      "step": 671
-    },
-    {
-      "entropy": 1.7354467511177063,
-      "epoch": 2.427149321266968,
-      "grad_norm": 0.49217918515205383,
-      "learning_rate": 0.00036217221662971613,
-      "loss": 0.1217,
-      "mean_token_accuracy": 0.96451136469841,
-      "num_tokens": 5928203.0,
-      "step": 672
-    },
-    {
-      "entropy": 1.827672392129898,
-      "epoch": 2.430769230769231,
-      "grad_norm": 0.5875037312507629,
-      "learning_rate": 0.0003617527313714841,
-      "loss": 0.1151,
-      "mean_token_accuracy": 0.9714375436306,
-      "num_tokens": 5936876.0,
-      "step": 673
-    },
-    {
-      "entropy": 1.787518948316574,
-      "epoch": 2.4343891402714934,
-      "grad_norm": 0.5444310307502747,
-      "learning_rate": 0.0003613329395939933,
-      "loss": 0.1096,
-      "mean_token_accuracy": 0.9701481461524963,
-      "num_tokens": 5946025.0,
-      "step": 674
-    },
-    {
-      "entropy": 1.832441657781601,
-      "epoch": 2.438009049773756,
-      "grad_norm": 0.6885861754417419,
-      "learning_rate": 0.00036091284289166637,
-      "loss": 0.1409,
-      "mean_token_accuracy": 0.9587968736886978,
-      "num_tokens": 5954406.0,
-      "step": 675
-    },
-    {
-      "entropy": 1.7488494515419006,
-      "epoch": 2.4416289592760183,
-      "grad_norm": 0.4765988290309906,
-      "learning_rate": 0.0003604924428600843,
-      "loss": 0.1183,
-      "mean_token_accuracy": 0.9581810384988785,
-      "num_tokens": 5963472.0,
-      "step": 676
-    },
-    {
-      "entropy": 1.885668009519577,
-      "epoch": 2.4452488687782807,
-      "grad_norm": 0.7310354113578796,
-      "learning_rate": 0.00036007174109597983,
-      "loss": 0.1248,
-      "mean_token_accuracy": 0.9588694721460342,
-      "num_tokens": 5971771.0,
-      "step": 677
-    },
-    {
-      "entropy": 1.8329627513885498,
-      "epoch": 2.448868778280543,
-      "grad_norm": 0.37075191736221313,
-      "learning_rate": 0.00035965073919723206,
-      "loss": 0.0694,
-      "mean_token_accuracy": 0.9812011271715164,
-      "num_tokens": 5980536.0,
-      "step": 678
-    },
-    {
-      "entropy": 1.8218618333339691,
-      "epoch": 2.4524886877828056,
-      "grad_norm": 0.5196499228477478,
-      "learning_rate": 0.0003592294387628597,
-      "loss": 0.0833,
-      "mean_token_accuracy": 0.9765996187925339,
-      "num_tokens": 5989462.0,
-      "step": 679
-    },
-    {
-      "entropy": 1.7702144086360931,
-      "epoch": 2.456108597285068,
-      "grad_norm": 0.68550044298172,
-      "learning_rate": 0.0003588078413930155,
-      "loss": 0.1395,
-      "mean_token_accuracy": 0.9701545089483261,
-      "num_tokens": 5998702.0,
-      "step": 680
-    },
-    {
-      "entropy": 1.729397028684616,
-      "epoch": 2.4597285067873305,
-      "grad_norm": 0.6107930541038513,
-      "learning_rate": 0.00035838594868898004,
-      "loss": 0.1009,
-      "mean_token_accuracy": 0.9712544083595276,
-      "num_tokens": 6007594.0,
-      "step": 681
-    },
-    {
-      "entropy": 1.6558150053024292,
-      "epoch": 2.463348416289593,
-      "grad_norm": 0.45058509707450867,
-      "learning_rate": 0.0003579637622531555,
-      "loss": 0.0747,
-      "mean_token_accuracy": 0.9791784882545471,
-      "num_tokens": 6016874.0,
-      "step": 682
-    },
-    {
-      "entropy": 1.7209869921207428,
-      "epoch": 2.4669683257918553,
-      "grad_norm": 0.6103800535202026,
-      "learning_rate": 0.0003575412836890599,
-      "loss": 0.1096,
-      "mean_token_accuracy": 0.9665796160697937,
-      "num_tokens": 6026056.0,
-      "step": 683
-    },
-    {
-      "entropy": 1.790249615907669,
-      "epoch": 2.4705882352941178,
-      "grad_norm": 0.67525315284729,
-      "learning_rate": 0.0003571185146013205,
-      "loss": 0.0811,
-      "mean_token_accuracy": 0.9776998162269592,
-      "num_tokens": 6034624.0,
-      "step": 684
-    },
-    {
-      "entropy": 1.735906183719635,
-      "epoch": 2.47420814479638,
-      "grad_norm": 0.884986162185669,
-      "learning_rate": 0.00035669545659566836,
-      "loss": 0.2324,
-      "mean_token_accuracy": 0.9448857754468918,
-      "num_tokens": 6043557.0,
-      "step": 685
-    },
-    {
-      "entropy": 1.673194944858551,
-      "epoch": 2.4778280542986426,
-      "grad_norm": 0.7441328763961792,
-      "learning_rate": 0.0003562721112789316,
-      "loss": 0.1661,
-      "mean_token_accuracy": 0.9566781520843506,
-      "num_tokens": 6052623.0,
-      "step": 686
-    },
-    {
-      "entropy": 1.736072987318039,
-      "epoch": 2.481447963800905,
-      "grad_norm": 0.5674424767494202,
-      "learning_rate": 0.00035584848025902973,
-      "loss": 0.0751,
-      "mean_token_accuracy": 0.9750215858221054,
-      "num_tokens": 6061347.0,
-      "step": 687
-    },
-    {
-      "entropy": 1.625234305858612,
-      "epoch": 2.4850678733031675,
-      "grad_norm": 0.6596720218658447,
-      "learning_rate": 0.00035542456514496725,
-      "loss": 0.0796,
-      "mean_token_accuracy": 0.9773041009902954,
-      "num_tokens": 6070396.0,
-      "step": 688
-    },
-    {
-      "entropy": 1.6548752784729004,
-      "epoch": 2.48868778280543,
-      "grad_norm": 0.5798892378807068,
-      "learning_rate": 0.00035500036754682794,
-      "loss": 0.1412,
-      "mean_token_accuracy": 0.9653023481369019,
-      "num_tokens": 6079757.0,
-      "step": 689
-    },
-    {
-      "entropy": 1.6213977932929993,
-      "epoch": 2.4923076923076923,
-      "grad_norm": 0.44931474328041077,
-      "learning_rate": 0.00035457588907576823,
-      "loss": 0.0724,
-      "mean_token_accuracy": 0.9800422787666321,
-      "num_tokens": 6088646.0,
-      "step": 690
-    },
-    {
-      "entropy": 1.6762541830539703,
-      "epoch": 2.4959276018099548,
-      "grad_norm": 0.6818104386329651,
-      "learning_rate": 0.0003541511313440114,
-      "loss": 0.1217,
-      "mean_token_accuracy": 0.9675028026103973,
-      "num_tokens": 6097441.0,
-      "step": 691
-    },
-    {
-      "entropy": 1.7241974771022797,
-      "epoch": 2.499547511312217,
-      "grad_norm": 0.4126259982585907,
-      "learning_rate": 0.00035372609596484166,
-      "loss": 0.0615,
-      "mean_token_accuracy": 0.9799284338951111,
-      "num_tokens": 6105578.0,
-      "step": 692
-    },
-    {
-      "entropy": 1.6379709541797638,
-      "epoch": 2.5031674208144796,
-      "grad_norm": 0.47291842103004456,
-      "learning_rate": 0.00035330078455259734,
-      "loss": 0.0858,
-      "mean_token_accuracy": 0.9744312763214111,
-      "num_tokens": 6114404.0,
-      "step": 693
-    },
-    {
-      "entropy": 1.6317658722400665,
-      "epoch": 2.506787330316742,
-      "grad_norm": 0.5747683048248291,
-      "learning_rate": 0.00035287519872266544,
-      "loss": 0.1344,
-      "mean_token_accuracy": 0.9632531553506851,
-      "num_tokens": 6123319.0,
-      "step": 694
-    },
-    {
-      "entropy": 1.6969698369503021,
-      "epoch": 2.5104072398190045,
-      "grad_norm": 0.5810018181800842,
-      "learning_rate": 0.00035244934009147523,
-      "loss": 0.0927,
-      "mean_token_accuracy": 0.9729650169610977,
-      "num_tokens": 6131814.0,
-      "step": 695
-    },
-    {
-      "entropy": 1.631262481212616,
-      "epoch": 2.514027149321267,
-      "grad_norm": 0.44387346506118774,
-      "learning_rate": 0.00035202321027649205,
-      "loss": 0.0657,
-      "mean_token_accuracy": 0.9802225232124329,
-      "num_tokens": 6140967.0,
-      "step": 696
-    },
-    {
-      "entropy": 1.610716551542282,
-      "epoch": 2.5176470588235293,
-      "grad_norm": 0.6546471118927002,
-      "learning_rate": 0.0003515968108962112,
-      "loss": 0.1114,
-      "mean_token_accuracy": 0.9671156108379364,
-      "num_tokens": 6149938.0,
-      "step": 697
-    },
-    {
-      "entropy": 1.598843276500702,
-      "epoch": 2.521266968325792,
-      "grad_norm": 0.541953444480896,
-      "learning_rate": 0.0003511701435701519,
-      "loss": 0.0504,
-      "mean_token_accuracy": 0.98616062104702,
-      "num_tokens": 6158686.0,
-      "step": 698
-    },
-    {
-      "entropy": 1.7793676853179932,
-      "epoch": 2.524886877828054,
-      "grad_norm": 0.6303162574768066,
-      "learning_rate": 0.00035074320991885106,
-      "loss": 0.0797,
-      "mean_token_accuracy": 0.9783169627189636,
-      "num_tokens": 6166835.0,
-      "step": 699
-    },
-    {
-      "entropy": 1.598317414522171,
-      "epoch": 2.5285067873303166,
-      "grad_norm": 0.4783090054988861,
-      "learning_rate": 0.000350316011563857,
-      "loss": 0.0693,
-      "mean_token_accuracy": 0.9740357846021652,
-      "num_tokens": 6175978.0,
-      "step": 700
-    },
-    {
-      "entropy": 1.6361595392227173,
-      "epoch": 2.532126696832579,
-      "grad_norm": 0.46353498101234436,
-      "learning_rate": 0.00034988855012772367,
-      "loss": 0.0543,
-      "mean_token_accuracy": 0.9821173399686813,
-      "num_tokens": 6185071.0,
-      "step": 701
-    },
-    {
-      "entropy": 1.6333596408367157,
-      "epoch": 2.5357466063348415,
-      "grad_norm": 0.4968421459197998,
-      "learning_rate": 0.0003494608272340039,
-      "loss": 0.1588,
-      "mean_token_accuracy": 0.9692430347204208,
-      "num_tokens": 6194279.0,
-      "step": 702
-    },
-    {
-      "entropy": 1.6701206266880035,
-      "epoch": 2.539366515837104,
-      "grad_norm": 0.7050784826278687,
-      "learning_rate": 0.00034903284450724385,
-      "loss": 0.1298,
-      "mean_token_accuracy": 0.9623726159334183,
-      "num_tokens": 6203017.0,
-      "step": 703
-    },
-    {
-      "entropy": 1.6594900786876678,
-      "epoch": 2.5429864253393664,
-      "grad_norm": 0.7955659031867981,
-      "learning_rate": 0.0003486046035729765,
-      "loss": 0.1695,
-      "mean_token_accuracy": 0.9616524875164032,
-      "num_tokens": 6212016.0,
-      "step": 704
-    },
-    {
-      "entropy": 1.7208792865276337,
-      "epoch": 2.546606334841629,
-      "grad_norm": 0.7105070352554321,
-      "learning_rate": 0.00034817610605771546,
-      "loss": 0.1655,
-      "mean_token_accuracy": 0.9637335985898972,
-      "num_tokens": 6220619.0,
-      "step": 705
-    },
-    {
-      "entropy": 1.668517529964447,
-      "epoch": 2.5502262443438912,
-      "grad_norm": 0.3955032527446747,
-      "learning_rate": 0.0003477473535889488,
-      "loss": 0.0502,
-      "mean_token_accuracy": 0.9823585599660873,
-      "num_tokens": 6229785.0,
-      "step": 706
-    },
-    {
-      "entropy": 1.7515103816986084,
-      "epoch": 2.5538461538461537,
-      "grad_norm": 0.6166616082191467,
-      "learning_rate": 0.00034731834779513313,
-      "loss": 0.1113,
-      "mean_token_accuracy": 0.9675650298595428,
-      "num_tokens": 6238724.0,
-      "step": 707
-    },
-    {
-      "entropy": 1.8460631668567657,
-      "epoch": 2.557466063348416,
-      "grad_norm": 0.8243921399116516,
-      "learning_rate": 0.0003468890903056872,
-      "loss": 0.1625,
-      "mean_token_accuracy": 0.9648249596357346,
-      "num_tokens": 6246939.0,
-      "step": 708
-    },
-    {
-      "entropy": 1.784417450428009,
-      "epoch": 2.5610859728506785,
-      "grad_norm": 0.5633116960525513,
-      "learning_rate": 0.00034645958275098557,
-      "loss": 0.1074,
-      "mean_token_accuracy": 0.9705483913421631,
-      "num_tokens": 6255686.0,
-      "step": 709
-    },
-    {
-      "entropy": 1.7208334505558014,
-      "epoch": 2.564705882352941,
-      "grad_norm": 0.8083389401435852,
-      "learning_rate": 0.0003460298267623526,
-      "loss": 0.1184,
-      "mean_token_accuracy": 0.9747882932424545,
-      "num_tokens": 6265047.0,
-      "step": 710
-    },
-    {
-      "entropy": 1.7345463037490845,
-      "epoch": 2.5683257918552034,
-      "grad_norm": 0.6094368100166321,
-      "learning_rate": 0.0003455998239720565,
-      "loss": 0.1689,
-      "mean_token_accuracy": 0.9613602459430695,
-      "num_tokens": 6274460.0,
-      "step": 711
-    },
-    {
-      "entropy": 1.9464713335037231,
-      "epoch": 2.571945701357466,
-      "grad_norm": 0.6025084853172302,
-      "learning_rate": 0.0003451695760133025,
-      "loss": 0.1477,
-      "mean_token_accuracy": 0.9618766456842422,
-      "num_tokens": 6282700.0,
-      "step": 712
-    },
-    {
-      "entropy": 1.8449675738811493,
-      "epoch": 2.5755656108597282,
-      "grad_norm": 0.43869853019714355,
-      "learning_rate": 0.0003447390845202272,
-      "loss": 0.0892,
-      "mean_token_accuracy": 0.974039301276207,
-      "num_tokens": 6291627.0,
-      "step": 713
-    },
-    {
-      "entropy": 1.9028298556804657,
-      "epoch": 2.579185520361991,
-      "grad_norm": 0.5455291271209717,
-      "learning_rate": 0.0003443083511278922,
-      "loss": 0.0939,
-      "mean_token_accuracy": 0.9729337990283966,
-      "num_tokens": 6300198.0,
-      "step": 714
-    },
-    {
-      "entropy": 1.8395194113254547,
-      "epoch": 2.5828054298642535,
-      "grad_norm": 0.48734748363494873,
-      "learning_rate": 0.00034387737747227786,
-      "loss": 0.0791,
-      "mean_token_accuracy": 0.9785804748535156,
-      "num_tokens": 6309362.0,
-      "step": 715
-    },
-    {
-      "entropy": 1.8357026278972626,
-      "epoch": 2.586425339366516,
-      "grad_norm": 0.4359396994113922,
-      "learning_rate": 0.000343446165190277,
-      "loss": 0.0752,
-      "mean_token_accuracy": 0.9807359129190445,
-      "num_tokens": 6318232.0,
-      "step": 716
-    },
-    {
-      "entropy": 1.7531521618366241,
-      "epoch": 2.5900452488687784,
-      "grad_norm": 0.7446436882019043,
-      "learning_rate": 0.0003430147159196887,
-      "loss": 0.1467,
-      "mean_token_accuracy": 0.9661064445972443,
-      "num_tokens": 6327607.0,
-      "step": 717
-    },
-    {
-      "entropy": 1.83816197514534,
-      "epoch": 2.593665158371041,
-      "grad_norm": 0.3669150173664093,
-      "learning_rate": 0.0003425830312992125,
-      "loss": 0.076,
-      "mean_token_accuracy": 0.9777591675519943,
-      "num_tokens": 6336991.0,
-      "step": 718
-    },
-    {
-      "entropy": 1.9396244585514069,
-      "epoch": 2.5972850678733033,
-      "grad_norm": 0.6049129962921143,
-      "learning_rate": 0.00034215111296844147,
-      "loss": 0.1001,
-      "mean_token_accuracy": 0.968943640589714,
-      "num_tokens": 6345381.0,
-      "step": 719
-    },
-    {
-      "entropy": 1.8745197057724,
-      "epoch": 2.6009049773755657,
-      "grad_norm": 0.8561233878135681,
-      "learning_rate": 0.00034171896256785645,
-      "loss": 0.2378,
-      "mean_token_accuracy": 0.9442594349384308,
-      "num_tokens": 6354290.0,
-      "step": 720
-    },
-    {
-      "entropy": 1.8199078440666199,
-      "epoch": 2.604524886877828,
-      "grad_norm": 0.4546636939048767,
-      "learning_rate": 0.00034128658173881993,
-      "loss": 0.0407,
-      "mean_token_accuracy": 0.9873656630516052,
-      "num_tokens": 6362826.0,
-      "step": 721
-    },
-    {
-      "entropy": 1.8066097497940063,
-      "epoch": 2.6081447963800906,
-      "grad_norm": 0.6496687531471252,
-      "learning_rate": 0.0003408539721235691,
-      "loss": 0.1279,
-      "mean_token_accuracy": 0.9674505293369293,
-      "num_tokens": 6371666.0,
-      "step": 722
-    },
-    {
-      "entropy": 1.8027856945991516,
-      "epoch": 2.611764705882353,
-      "grad_norm": 0.6001412272453308,
-      "learning_rate": 0.0003404211353652106,
-      "loss": 0.1144,
-      "mean_token_accuracy": 0.9672902077436447,
-      "num_tokens": 6380469.0,
-      "step": 723
-    },
-    {
-      "entropy": 1.7859437465667725,
-      "epoch": 2.6153846153846154,
-      "grad_norm": 0.4654795229434967,
-      "learning_rate": 0.0003399880731077136,
-      "loss": 0.0655,
-      "mean_token_accuracy": 0.9804074019193649,
-      "num_tokens": 6389485.0,
-      "step": 724
-    },
-    {
-      "entropy": 1.722127079963684,
-      "epoch": 2.619004524886878,
-      "grad_norm": 0.5452624559402466,
-      "learning_rate": 0.0003395547869959037,
-      "loss": 0.0827,
-      "mean_token_accuracy": 0.972189649939537,
-      "num_tokens": 6398523.0,
-      "step": 725
-    },
-    {
-      "entropy": 1.7406074404716492,
-      "epoch": 2.6226244343891403,
-      "grad_norm": 0.5524203181266785,
-      "learning_rate": 0.00033912127867545685,
-      "loss": 0.1279,
-      "mean_token_accuracy": 0.9688322842121124,
-      "num_tokens": 6407560.0,
-      "step": 726
-    },
-    {
-      "entropy": 1.7783840000629425,
-      "epoch": 2.6262443438914027,
-      "grad_norm": 0.6428073644638062,
-      "learning_rate": 0.00033868754979289275,
-      "loss": 0.1392,
-      "mean_token_accuracy": 0.9665655642747879,
-      "num_tokens": 6416230.0,
-      "step": 727
-    },
-    {
-      "entropy": 1.7406431436538696,
-      "epoch": 2.629864253393665,
-      "grad_norm": 0.6197221875190735,
-      "learning_rate": 0.0003382536019955691,
-      "loss": 0.2688,
-      "mean_token_accuracy": 0.9567561745643616,
-      "num_tokens": 6425158.0,
-      "step": 728
-    },
-    {
-      "entropy": 1.7054848670959473,
-      "epoch": 2.6334841628959276,
-      "grad_norm": 0.499615877866745,
-      "learning_rate": 0.0003378194369316749,
-      "loss": 0.0765,
-      "mean_token_accuracy": 0.9788558930158615,
-      "num_tokens": 6434219.0,
-      "step": 729
-    },
-    {
-      "entropy": 1.8623437583446503,
-      "epoch": 2.63710407239819,
-      "grad_norm": 0.428608775138855,
-      "learning_rate": 0.0003373850562502243,
-      "loss": 0.044,
-      "mean_token_accuracy": 0.9862259030342102,
-      "num_tokens": 6442657.0,
-      "step": 730
-    },
-    {
-      "entropy": 1.6827208995819092,
-      "epoch": 2.6407239819004524,
-      "grad_norm": 0.46222713589668274,
-      "learning_rate": 0.00033695046160105076,
-      "loss": 0.0687,
-      "mean_token_accuracy": 0.9762164503335953,
-      "num_tokens": 6451550.0,
-      "step": 731
-    },
-    {
-      "entropy": 1.707773894071579,
-      "epoch": 2.644343891402715,
-      "grad_norm": 0.4701695442199707,
-      "learning_rate": 0.0003365156546347998,
-      "loss": 0.0622,
-      "mean_token_accuracy": 0.9804075062274933,
-      "num_tokens": 6460494.0,
-      "step": 732
-    },
-    {
-      "entropy": 1.7011042833328247,
-      "epoch": 2.6479638009049773,
-      "grad_norm": 0.5986224412918091,
-      "learning_rate": 0.0003360806370029239,
-      "loss": 0.0954,
-      "mean_token_accuracy": 0.9730664491653442,
-      "num_tokens": 6469728.0,
-      "step": 733
-    },
-    {
-      "entropy": 1.810427963733673,
-      "epoch": 2.6515837104072397,
-      "grad_norm": 0.8224559426307678,
-      "learning_rate": 0.0003356454103576754,
-      "loss": 0.1218,
-      "mean_token_accuracy": 0.9742488712072372,
-      "num_tokens": 6478643.0,
-      "step": 734
-    },
-    {
-      "entropy": 1.773183435201645,
-      "epoch": 2.655203619909502,
-      "grad_norm": 0.609344482421875,
-      "learning_rate": 0.0003352099763521006,
-      "loss": 0.0955,
-      "mean_token_accuracy": 0.9747250378131866,
-      "num_tokens": 6487314.0,
-      "step": 735
-    },
-    {
-      "entropy": 1.7761066555976868,
-      "epoch": 2.6588235294117646,
-      "grad_norm": 0.6947258114814758,
-      "learning_rate": 0.0003347743366400333,
-      "loss": 0.1188,
-      "mean_token_accuracy": 0.9693178832530975,
-      "num_tokens": 6496074.0,
-      "step": 736
-    },
-    {
-      "entropy": 1.7725336253643036,
-      "epoch": 2.662443438914027,
-      "grad_norm": 0.6928444504737854,
-      "learning_rate": 0.0003343384928760887,
-      "loss": 0.1589,
-      "mean_token_accuracy": 0.9603369683027267,
-      "num_tokens": 6504997.0,
-      "step": 737
-    },
-    {
-      "entropy": 1.8763961493968964,
-      "epoch": 2.6660633484162894,
-      "grad_norm": 0.6204855442047119,
-      "learning_rate": 0.00033390244671565694,
-      "loss": 0.1115,
-      "mean_token_accuracy": 0.9727036952972412,
-      "num_tokens": 6513639.0,
-      "step": 738
-    },
-    {
-      "entropy": 1.8347080647945404,
-      "epoch": 2.669683257918552,
-      "grad_norm": 0.4470975697040558,
-      "learning_rate": 0.00033346619981489687,
-      "loss": 0.0707,
-      "mean_token_accuracy": 0.9816004037857056,
-      "num_tokens": 6522524.0,
-      "step": 739
-    },
-    {
-      "entropy": 1.8440867066383362,
-      "epoch": 2.6733031674208148,
-      "grad_norm": 0.6848122477531433,
-      "learning_rate": 0.0003330297538307298,
-      "loss": 0.1133,
-      "mean_token_accuracy": 0.966602012515068,
-      "num_tokens": 6531421.0,
-      "step": 740
-    },
-    {
-      "entropy": 1.829009771347046,
-      "epoch": 2.676923076923077,
-      "grad_norm": 0.37875643372535706,
-      "learning_rate": 0.0003325931104208333,
-      "loss": 0.0539,
-      "mean_token_accuracy": 0.9850967526435852,
-      "num_tokens": 6540304.0,
-      "step": 741
-    },
-    {
-      "entropy": 1.8256315886974335,
-      "epoch": 2.6805429864253396,
-      "grad_norm": 0.4970630407333374,
-      "learning_rate": 0.00033215627124363466,
-      "loss": 0.1195,
-      "mean_token_accuracy": 0.9662436544895172,
-      "num_tokens": 6549267.0,
-      "step": 742
-    },
-    {
-      "entropy": 1.823629915714264,
-      "epoch": 2.684162895927602,
-      "grad_norm": 0.659981906414032,
-      "learning_rate": 0.0003317192379583047,
-      "loss": 0.1368,
-      "mean_token_accuracy": 0.9655566364526749,
-      "num_tokens": 6558447.0,
-      "step": 743
-    },
-    {
-      "entropy": 1.8459455370903015,
-      "epoch": 2.6877828054298645,
-      "grad_norm": 0.620197057723999,
-      "learning_rate": 0.0003312820122247515,
-      "loss": 0.1766,
-      "mean_token_accuracy": 0.9569400995969772,
-      "num_tokens": 6567424.0,
-      "step": 744
-    },
-    {
-      "entropy": 1.7685991525650024,
-      "epoch": 2.691402714932127,
-      "grad_norm": 0.34498465061187744,
-      "learning_rate": 0.0003308445957036142,
-      "loss": 0.0615,
-      "mean_token_accuracy": 0.982216015458107,
-      "num_tokens": 6577071.0,
-      "step": 745
-    },
-    {
-      "entropy": 1.8037284910678864,
-      "epoch": 2.6950226244343893,
-      "grad_norm": 0.5550521016120911,
-      "learning_rate": 0.00033040699005625654,
-      "loss": 0.0701,
-      "mean_token_accuracy": 0.9795115292072296,
-      "num_tokens": 6586396.0,
-      "step": 746
-    },
-    {
-      "entropy": 1.813001424074173,
-      "epoch": 2.6986425339366518,
-      "grad_norm": 0.4117080271244049,
-      "learning_rate": 0.0003299691969447603,
-      "loss": 0.0657,
-      "mean_token_accuracy": 0.978747770190239,
-      "num_tokens": 6595189.0,
-      "step": 747
-    },
-    {
-      "entropy": 1.844575196504593,
-      "epoch": 2.702262443438914,
-      "grad_norm": 0.32197874784469604,
-      "learning_rate": 0.00032953121803191976,
-      "loss": 0.0342,
-      "mean_token_accuracy": 0.9904316365718842,
-      "num_tokens": 6604169.0,
-      "step": 748
-    },
-    {
-      "entropy": 1.9490505158901215,
-      "epoch": 2.7058823529411766,
-      "grad_norm": 0.5810762047767639,
-      "learning_rate": 0.00032909305498123465,
-      "loss": 0.1419,
-      "mean_token_accuracy": 0.9646100401878357,
-      "num_tokens": 6612744.0,
-      "step": 749
-    },
-    {
-      "entropy": 1.9927488267421722,
-      "epoch": 2.709502262443439,
-      "grad_norm": 0.7435065507888794,
-      "learning_rate": 0.0003286547094569039,
-      "loss": 0.1368,
-      "mean_token_accuracy": 0.9609140008687973,
-      "num_tokens": 6621000.0,
-      "step": 750
-    },
-    {
-      "entropy": 1.8266884088516235,
-      "epoch": 2.7131221719457015,
-      "grad_norm": 0.6717537045478821,
-      "learning_rate": 0.00032821618312381975,
-      "loss": 0.1449,
-      "mean_token_accuracy": 0.9694183021783829,
-      "num_tokens": 6629893.0,
-      "step": 751
-    },
-    {
-      "entropy": 1.850794643163681,
-      "epoch": 2.716742081447964,
-      "grad_norm": 0.44241195917129517,
-      "learning_rate": 0.00032777747764756117,
-      "loss": 0.0602,
-      "mean_token_accuracy": 0.9823136776685715,
-      "num_tokens": 6638696.0,
-      "step": 752
-    },
-    {
-      "entropy": 1.8408480882644653,
-      "epoch": 2.7203619909502263,
-      "grad_norm": 0.6299809217453003,
-      "learning_rate": 0.00032733859469438736,
-      "loss": 0.1408,
-      "mean_token_accuracy": 0.9629880636930466,
-      "num_tokens": 6647431.0,
-      "step": 753
-    },
-    {
-      "entropy": 1.7875444293022156,
-      "epoch": 2.723981900452489,
-      "grad_norm": 0.48492106795310974,
-      "learning_rate": 0.00032689953593123175,
-      "loss": 0.0806,
-      "mean_token_accuracy": 0.9798424690961838,
-      "num_tokens": 6656443.0,
-      "step": 754
-    },
-    {
-      "entropy": 1.778283566236496,
-      "epoch": 2.727601809954751,
-      "grad_norm": 0.46145930886268616,
-      "learning_rate": 0.0003264603030256955,
-      "loss": 0.0707,
-      "mean_token_accuracy": 0.9741399586200714,
-      "num_tokens": 6665465.0,
-      "step": 755
-    },
-    {
-      "entropy": 1.7340950965881348,
-      "epoch": 2.7312217194570136,
-      "grad_norm": 0.5734900236129761,
-      "learning_rate": 0.00032602089764604126,
-      "loss": 0.1443,
-      "mean_token_accuracy": 0.96195288002491,
-      "num_tokens": 6674797.0,
-      "step": 756
-    },
-    {
-      "entropy": 1.7791962027549744,
-      "epoch": 2.734841628959276,
-      "grad_norm": 0.5199477076530457,
-      "learning_rate": 0.00032558132146118636,
-      "loss": 0.0794,
-      "mean_token_accuracy": 0.975062221288681,
-      "num_tokens": 6683578.0,
-      "step": 757
-    },
-    {
-      "entropy": 1.825905591249466,
-      "epoch": 2.7384615384615385,
-      "grad_norm": 0.5944926738739014,
-      "learning_rate": 0.0003251415761406975,
-      "loss": 0.0909,
-      "mean_token_accuracy": 0.954865038394928,
-      "num_tokens": 6691818.0,
-      "step": 758
-    },
-    {
-      "entropy": 1.804949015378952,
-      "epoch": 2.742081447963801,
-      "grad_norm": 0.7065241932868958,
-      "learning_rate": 0.0003247016633547833,
-      "loss": 0.1511,
-      "mean_token_accuracy": 0.9687065333127975,
-      "num_tokens": 6700619.0,
-      "step": 759
-    },
-    {
-      "entropy": 1.7419202327728271,
-      "epoch": 2.7457013574660634,
-      "grad_norm": 0.49316564202308655,
-      "learning_rate": 0.00032426158477428857,
-      "loss": 0.0867,
-      "mean_token_accuracy": 0.9774050414562225,
-      "num_tokens": 6709635.0,
-      "step": 760
-    },
-    {
-      "entropy": 1.8934829235076904,
-      "epoch": 2.749321266968326,
-      "grad_norm": 0.9417999386787415,
-      "learning_rate": 0.00032382134207068787,
-      "loss": 0.1464,
-      "mean_token_accuracy": 0.9591032713651657,
-      "num_tokens": 6717657.0,
-      "step": 761
-    },
-    {
-      "entropy": 1.7354997992515564,
-      "epoch": 2.7529411764705882,
-      "grad_norm": 0.7240809798240662,
-      "learning_rate": 0.00032338093691607907,
-      "loss": 0.13,
-      "mean_token_accuracy": 0.9705345183610916,
-      "num_tokens": 6726671.0,
-      "step": 762
-    },
-    {
-      "entropy": 1.7620687186717987,
-      "epoch": 2.7565610859728507,
-      "grad_norm": 0.4986638128757477,
-      "learning_rate": 0.0003229403709831772,
-      "loss": 0.0963,
-      "mean_token_accuracy": 0.9756871312856674,
-      "num_tokens": 6735157.0,
-      "step": 763
-    },
-    {
-      "entropy": 1.7719130218029022,
-      "epoch": 2.760180995475113,
-      "grad_norm": 0.6204966902732849,
-      "learning_rate": 0.00032249964594530757,
-      "loss": 0.0578,
-      "mean_token_accuracy": 0.9815829247236252,
-      "num_tokens": 6743855.0,
-      "step": 764
-    },
-    {
-      "entropy": 1.7228702902793884,
-      "epoch": 2.7638009049773755,
-      "grad_norm": 0.5283492207527161,
-      "learning_rate": 0.0003220587634764003,
-      "loss": 0.069,
-      "mean_token_accuracy": 0.9851528853178024,
-      "num_tokens": 6753040.0,
-      "step": 765
-    },
-    {
-      "entropy": 1.7129736840724945,
-      "epoch": 2.767420814479638,
-      "grad_norm": 0.49026060104370117,
-      "learning_rate": 0.0003216177252509831,
-      "loss": 0.0672,
-      "mean_token_accuracy": 0.9857761710882187,
-      "num_tokens": 6762014.0,
-      "step": 766
-    },
-    {
-      "entropy": 1.7600707411766052,
-      "epoch": 2.7710407239819004,
-      "grad_norm": 0.5250128507614136,
-      "learning_rate": 0.00032117653294417523,
-      "loss": 0.1134,
-      "mean_token_accuracy": 0.9638848602771759,
-      "num_tokens": 6771012.0,
-      "step": 767
-    },
-    {
-      "entropy": 1.768298476934433,
-      "epoch": 2.774660633484163,
-      "grad_norm": 0.5671310424804688,
-      "learning_rate": 0.00032073518823168143,
-      "loss": 0.057,
-      "mean_token_accuracy": 0.9840837568044662,
-      "num_tokens": 6779601.0,
-      "step": 768
-    },
-    {
-      "entropy": 1.7464122474193573,
-      "epoch": 2.7782805429864252,
-      "grad_norm": 0.6007266044616699,
-      "learning_rate": 0.0003202936927897852,
-      "loss": 0.081,
-      "mean_token_accuracy": 0.9773043692111969,
-      "num_tokens": 6788518.0,
-      "step": 769
-    },
-    {
-      "entropy": 1.6484523713588715,
-      "epoch": 2.7819004524886877,
-      "grad_norm": 0.5163906812667847,
-      "learning_rate": 0.00031985204829534236,
-      "loss": 0.1215,
-      "mean_token_accuracy": 0.9645300209522247,
-      "num_tokens": 6797924.0,
-      "step": 770
-    },
-    {
-      "entropy": 1.7306124567985535,
-      "epoch": 2.78552036199095,
-      "grad_norm": 0.5778948068618774,
-      "learning_rate": 0.00031941025642577515,
-      "loss": 0.127,
-      "mean_token_accuracy": 0.9713134616613388,
-      "num_tokens": 6806828.0,
-      "step": 771
-    },
-    {
-      "entropy": 1.6599189043045044,
-      "epoch": 2.7891402714932125,
-      "grad_norm": 0.5121646523475647,
-      "learning_rate": 0.0003189683188590653,
-      "loss": 0.1066,
-      "mean_token_accuracy": 0.9707446396350861,
-      "num_tokens": 6816144.0,
-      "step": 772
-    },
-    {
-      "entropy": 1.71377295255661,
-      "epoch": 2.792760180995475,
-      "grad_norm": 0.9535031318664551,
-      "learning_rate": 0.00031852623727374787,
-      "loss": 0.2316,
-      "mean_token_accuracy": 0.9587533473968506,
-      "num_tokens": 6824849.0,
-      "step": 773
-    },
-    {
-      "entropy": 1.7716725766658783,
-      "epoch": 2.7963800904977374,
-      "grad_norm": 0.5735589265823364,
-      "learning_rate": 0.00031808401334890537,
-      "loss": 0.1028,
-      "mean_token_accuracy": 0.9716143608093262,
-      "num_tokens": 6833331.0,
-      "step": 774
-    },
-    {
-      "entropy": 1.7134707272052765,
-      "epoch": 2.8,
-      "grad_norm": 0.7087857127189636,
-      "learning_rate": 0.00031764164876416036,
-      "loss": 0.1201,
-      "mean_token_accuracy": 0.9686445444822311,
-      "num_tokens": 6842254.0,
-      "step": 775
-    },
-    {
-      "entropy": 1.6055873930454254,
-      "epoch": 2.8036199095022623,
-      "grad_norm": 0.4578965902328491,
-      "learning_rate": 0.00031719914519967,
-      "loss": 0.0827,
-      "mean_token_accuracy": 0.972065269947052,
-      "num_tokens": 6851644.0,
-      "step": 776
-    },
-    {
-      "entropy": 1.6444376707077026,
-      "epoch": 2.8072398190045247,
-      "grad_norm": 0.5656917095184326,
-      "learning_rate": 0.0003167565043361194,
-      "loss": 0.1036,
-      "mean_token_accuracy": 0.9723617881536484,
-      "num_tokens": 6860787.0,
-      "step": 777
-    },
-    {
-      "entropy": 1.6980305314064026,
-      "epoch": 2.810859728506787,
-      "grad_norm": 0.7013098001480103,
-      "learning_rate": 0.0003163137278547146,
-      "loss": 0.0838,
-      "mean_token_accuracy": 0.9793482422828674,
-      "num_tokens": 6869378.0,
-      "step": 778
-    },
-    {
-      "entropy": 1.6744478940963745,
-      "epoch": 2.8144796380090495,
-      "grad_norm": 0.6889812350273132,
-      "learning_rate": 0.00031587081743717735,
-      "loss": 0.0964,
-      "mean_token_accuracy": 0.9762091189622879,
-      "num_tokens": 6878050.0,
-      "step": 779
-    },
-    {
-      "entropy": 1.6397214829921722,
-      "epoch": 2.818099547511312,
-      "grad_norm": 0.7166011333465576,
-      "learning_rate": 0.00031542777476573785,
-      "loss": 0.1792,
-      "mean_token_accuracy": 0.9539972990751266,
-      "num_tokens": 6887153.0,
-      "step": 780
-    },
-    {
-      "entropy": 1.6447750926017761,
-      "epoch": 2.8217194570135744,
-      "grad_norm": 0.7113035321235657,
-      "learning_rate": 0.0003149846015231286,
-      "loss": 0.1464,
-      "mean_token_accuracy": 0.96909099817276,
-      "num_tokens": 6895877.0,
-      "step": 781
-    },
-    {
-      "entropy": 1.6827795505523682,
-      "epoch": 2.825339366515837,
-      "grad_norm": 0.6915350556373596,
-      "learning_rate": 0.0003145412993925781,
-      "loss": 0.1335,
-      "mean_token_accuracy": 0.9615183472633362,
-      "num_tokens": 6904553.0,
-      "step": 782
-    },
-    {
-      "entropy": 1.6189779937267303,
-      "epoch": 2.8289592760180997,
-      "grad_norm": 0.467428982257843,
-      "learning_rate": 0.00031409787005780423,
-      "loss": 0.0829,
-      "mean_token_accuracy": 0.9781016558408737,
-      "num_tokens": 6913634.0,
-      "step": 783
-    },
-    {
-      "entropy": 1.6323690116405487,
-      "epoch": 2.832579185520362,
-      "grad_norm": 0.49170154333114624,
-      "learning_rate": 0.00031365431520300813,
-      "loss": 0.0828,
-      "mean_token_accuracy": 0.9719655811786652,
-      "num_tokens": 6922638.0,
-      "step": 784
-    },
-    {
-      "entropy": 1.6121336817741394,
-      "epoch": 2.8361990950226246,
-      "grad_norm": 0.5629302263259888,
-      "learning_rate": 0.00031321063651286777,
-      "loss": 0.0757,
-      "mean_token_accuracy": 0.9791934490203857,
-      "num_tokens": 6931590.0,
-      "step": 785
-    },
-    {
-      "entropy": 1.7345627546310425,
-      "epoch": 2.839819004524887,
-      "grad_norm": 0.5514137148857117,
-      "learning_rate": 0.0003127668356725313,
-      "loss": 0.0819,
-      "mean_token_accuracy": 0.9800210148096085,
-      "num_tokens": 6940137.0,
-      "step": 786
-    },
-    {
-      "entropy": 1.6671563386917114,
-      "epoch": 2.8434389140271494,
-      "grad_norm": 0.5090643167495728,
-      "learning_rate": 0.0003123229143676109,
-      "loss": 0.0794,
-      "mean_token_accuracy": 0.9826332330703735,
-      "num_tokens": 6948616.0,
-      "step": 787
-    },
-    {
-      "entropy": 1.551501840353012,
-      "epoch": 2.847058823529412,
-      "grad_norm": 0.3994922935962677,
-      "learning_rate": 0.0003118788742841761,
-      "loss": 0.0491,
-      "mean_token_accuracy": 0.9865831136703491,
-      "num_tokens": 6957369.0,
-      "step": 788
-    },
-    {
-      "entropy": 1.500845193862915,
-      "epoch": 2.8506787330316743,
-      "grad_norm": 0.6023295521736145,
-      "learning_rate": 0.00031143471710874795,
-      "loss": 0.114,
-      "mean_token_accuracy": 0.9669302552938461,
-      "num_tokens": 6966667.0,
-      "step": 789
-    },
-    {
-      "entropy": 1.5258118510246277,
-      "epoch": 2.8542986425339367,
-      "grad_norm": 0.5326524972915649,
-      "learning_rate": 0.00031099044452829186,
-      "loss": 0.0657,
-      "mean_token_accuracy": 0.9833361059427261,
-      "num_tokens": 6975880.0,
-      "step": 790
-    },
-    {
-      "entropy": 1.5674570798873901,
-      "epoch": 2.857918552036199,
-      "grad_norm": 0.4518730044364929,
-      "learning_rate": 0.00031054605823021186,
-      "loss": 0.0569,
-      "mean_token_accuracy": 0.9832890778779984,
-      "num_tokens": 6984824.0,
-      "step": 791
-    },
-    {
-      "entropy": 1.5301121771335602,
-      "epoch": 2.8615384615384616,
-      "grad_norm": 0.5933698415756226,
-      "learning_rate": 0.00031010155990234364,
-      "loss": 0.1129,
-      "mean_token_accuracy": 0.9684284627437592,
-      "num_tokens": 6994076.0,
-      "step": 792
-    },
-    {
-      "entropy": 1.5711756348609924,
-      "epoch": 2.865158371040724,
-      "grad_norm": 0.6634730696678162,
-      "learning_rate": 0.00030965695123294837,
-      "loss": 0.1204,
-      "mean_token_accuracy": 0.972825437784195,
-      "num_tokens": 7003048.0,
-      "step": 793
-    },
-    {
-      "entropy": 1.6537431180477142,
-      "epoch": 2.8687782805429864,
-      "grad_norm": 0.5688450336456299,
-      "learning_rate": 0.0003092122339107067,
-      "loss": 0.0659,
-      "mean_token_accuracy": 0.9861912727355957,
-      "num_tokens": 7011743.0,
-      "step": 794
-    },
-    {
-      "entropy": 1.731940358877182,
-      "epoch": 2.872398190045249,
-      "grad_norm": 0.9030163288116455,
-      "learning_rate": 0.0003087674096247115,
-      "loss": 0.0829,
-      "mean_token_accuracy": 0.9802074134349823,
-      "num_tokens": 7020003.0,
-      "step": 795
-    },
-    {
-      "entropy": 1.6672345995903015,
-      "epoch": 2.8760180995475113,
-      "grad_norm": 0.5129911303520203,
-      "learning_rate": 0.00030832248006446223,
-      "loss": 0.0823,
-      "mean_token_accuracy": 0.9805259853601456,
-      "num_tokens": 7029275.0,
-      "step": 796
-    },
-    {
-      "entropy": 1.7102139592170715,
-      "epoch": 2.8796380090497737,
-      "grad_norm": 0.6210790872573853,
-      "learning_rate": 0.00030787744691985797,
-      "loss": 0.1248,
-      "mean_token_accuracy": 0.9665560126304626,
-      "num_tokens": 7038068.0,
-      "step": 797
-    },
-    {
-      "entropy": 1.659182459115982,
-      "epoch": 2.883257918552036,
-      "grad_norm": 0.6379976868629456,
-      "learning_rate": 0.0003074323118811913,
-      "loss": 0.1065,
-      "mean_token_accuracy": 0.9647062122821808,
-      "num_tokens": 7047039.0,
-      "step": 798
-    },
-    {
-      "entropy": 1.6344517767429352,
-      "epoch": 2.8868778280542986,
-      "grad_norm": 0.5851842761039734,
-      "learning_rate": 0.00030698707663914186,
-      "loss": 0.1046,
-      "mean_token_accuracy": 0.9666399955749512,
-      "num_tokens": 7056105.0,
-      "step": 799
-    },
-    {
-      "entropy": 1.6803805828094482,
-      "epoch": 2.890497737556561,
-      "grad_norm": 0.5926725268363953,
-      "learning_rate": 0.00030654174288477,
-      "loss": 0.1019,
-      "mean_token_accuracy": 0.9712099581956863,
-      "num_tokens": 7064710.0,
-      "step": 800
-    },
-    {
-      "entropy": 1.7004003822803497,
-      "epoch": 2.8941176470588235,
-      "grad_norm": 0.6103729605674744,
-      "learning_rate": 0.0003060963123095098,
-      "loss": 0.091,
-      "mean_token_accuracy": 0.9780148714780807,
-      "num_tokens": 7073218.0,
-      "step": 801
-    },
-    {
-      "entropy": 1.8133964240550995,
-      "epoch": 2.897737556561086,
-      "grad_norm": 0.872008740901947,
-      "learning_rate": 0.0003056507866051636,
-      "loss": 0.3003,
-      "mean_token_accuracy": 0.9385994374752045,
-      "num_tokens": 7081791.0,
-      "step": 802
-    },
-    {
-      "entropy": 1.7527997195720673,
-      "epoch": 2.9013574660633483,
-      "grad_norm": 0.553669810295105,
-      "learning_rate": 0.0003052051674638945,
-      "loss": 0.0999,
-      "mean_token_accuracy": 0.9695112109184265,
-      "num_tokens": 7090196.0,
-      "step": 803
-    },
-    {
-      "entropy": 1.6374657154083252,
-      "epoch": 2.9049773755656108,
-      "grad_norm": 0.4158615469932556,
-      "learning_rate": 0.00030475945657822107,
-      "loss": 0.0682,
-      "mean_token_accuracy": 0.9802833646535873,
-      "num_tokens": 7099216.0,
-      "step": 804
-    },
-    {
-      "entropy": 1.6056133210659027,
-      "epoch": 2.908597285067873,
-      "grad_norm": 0.47468429803848267,
-      "learning_rate": 0.00030431365564101003,
-      "loss": 0.1188,
-      "mean_token_accuracy": 0.9720293581485748,
-      "num_tokens": 7108787.0,
-      "step": 805
-    },
-    {
-      "entropy": 1.7184821665287018,
-      "epoch": 2.9122171945701356,
-      "grad_norm": 0.6617569923400879,
-      "learning_rate": 0.00030386776634547003,
-      "loss": 0.1121,
-      "mean_token_accuracy": 0.9623472690582275,
-      "num_tokens": 7117158.0,
-      "step": 806
-    },
-    {
-      "entropy": 1.7546651065349579,
-      "epoch": 2.915837104072398,
-      "grad_norm": 0.5058173537254333,
-      "learning_rate": 0.0003034217903851454,
-      "loss": 0.0861,
-      "mean_token_accuracy": 0.9664297550916672,
-      "num_tokens": 7125800.0,
-      "step": 807
-    },
-    {
-      "entropy": 1.6985557675361633,
-      "epoch": 2.9194570135746605,
-      "grad_norm": 0.5197705626487732,
-      "learning_rate": 0.00030297572945390996,
-      "loss": 0.1009,
-      "mean_token_accuracy": 0.9677706956863403,
-      "num_tokens": 7134221.0,
-      "step": 808
-    },
-    {
-      "entropy": 1.6737182438373566,
-      "epoch": 2.9230769230769234,
-      "grad_norm": 0.4528989791870117,
-      "learning_rate": 0.00030252958524595966,
-      "loss": 0.0656,
-      "mean_token_accuracy": 0.9853187948465347,
-      "num_tokens": 7142716.0,
-      "step": 809
-    },
-    {
-      "entropy": 1.687746375799179,
-      "epoch": 2.926696832579186,
-      "grad_norm": 0.8552060723304749,
-      "learning_rate": 0.00030208335945580716,
-      "loss": 0.1584,
-      "mean_token_accuracy": 0.958037719130516,
-      "num_tokens": 7151288.0,
-      "step": 810
-    },
-    {
-      "entropy": 1.6994356215000153,
-      "epoch": 2.930316742081448,
-      "grad_norm": 0.470833957195282,
-      "learning_rate": 0.00030163705377827496,
-      "loss": 0.0537,
-      "mean_token_accuracy": 0.9804185479879379,
-      "num_tokens": 7159738.0,
-      "step": 811
-    },
-    {
-      "entropy": 1.7072536945343018,
-      "epoch": 2.9339366515837106,
-      "grad_norm": 0.5749104022979736,
-      "learning_rate": 0.0003011906699084888,
-      "loss": 0.0502,
-      "mean_token_accuracy": 0.9830235093832016,
-      "num_tokens": 7168101.0,
-      "step": 812
-    },
-    {
-      "entropy": 1.70310440659523,
-      "epoch": 2.937556561085973,
-      "grad_norm": 0.7587386965751648,
-      "learning_rate": 0.0003007442095418715,
-      "loss": 0.1362,
-      "mean_token_accuracy": 0.9594880938529968,
-      "num_tokens": 7176663.0,
-      "step": 813
-    },
-    {
-      "entropy": 1.6307457983493805,
-      "epoch": 2.9411764705882355,
-      "grad_norm": 0.5054190754890442,
-      "learning_rate": 0.00030029767437413665,
-      "loss": 0.0744,
-      "mean_token_accuracy": 0.9738886505365372,
-      "num_tokens": 7185376.0,
-      "step": 814
-    },
-    {
-      "entropy": 1.5872860848903656,
-      "epoch": 2.944796380090498,
-      "grad_norm": 0.5463546514511108,
-      "learning_rate": 0.00029985106610128147,
-      "loss": 0.0916,
-      "mean_token_accuracy": 0.9782509952783585,
-      "num_tokens": 7194304.0,
-      "step": 815
-    },
-    {
-      "entropy": 1.6643644273281097,
-      "epoch": 2.9484162895927604,
-      "grad_norm": 0.5434613823890686,
-      "learning_rate": 0.0002994043864195811,
-      "loss": 0.1007,
-      "mean_token_accuracy": 0.9665197134017944,
-      "num_tokens": 7202895.0,
-      "step": 816
-    },
-    {
-      "entropy": 1.701482743024826,
-      "epoch": 2.952036199095023,
-      "grad_norm": 1.2643967866897583,
-      "learning_rate": 0.00029895763702558206,
-      "loss": 0.1377,
-      "mean_token_accuracy": 0.9696027487516403,
-      "num_tokens": 7211000.0,
-      "step": 817
-    },
-    {
-      "entropy": 1.688760131597519,
-      "epoch": 2.9556561085972852,
-      "grad_norm": 0.5438109636306763,
-      "learning_rate": 0.00029851081961609536,
-      "loss": 0.0637,
-      "mean_token_accuracy": 0.9724639654159546,
-      "num_tokens": 7219274.0,
-      "step": 818
-    },
-    {
-      "entropy": 1.6547857522964478,
-      "epoch": 2.9592760180995477,
-      "grad_norm": 0.4520387649536133,
-      "learning_rate": 0.0002980639358881906,
-      "loss": 0.0376,
-      "mean_token_accuracy": 0.9887004494667053,
-      "num_tokens": 7228000.0,
-      "step": 819
-    },
-    {
-      "entropy": 1.5814381837844849,
-      "epoch": 2.96289592760181,
-      "grad_norm": 0.49122339487075806,
-      "learning_rate": 0.00029761698753918894,
-      "loss": 0.0533,
-      "mean_token_accuracy": 0.983299508690834,
-      "num_tokens": 7236798.0,
-      "step": 820
-    },
-    {
-      "entropy": 1.5796774625778198,
-      "epoch": 2.9665158371040725,
-      "grad_norm": 0.43303897976875305,
-      "learning_rate": 0.00029716997626665726,
-      "loss": 0.0517,
-      "mean_token_accuracy": 0.984140008687973,
-      "num_tokens": 7245570.0,
-      "step": 821
-    },
-    {
-      "entropy": 1.5434466302394867,
-      "epoch": 2.970135746606335,
-      "grad_norm": 0.5712567567825317,
-      "learning_rate": 0.0002967229037684014,
-      "loss": 0.0634,
-      "mean_token_accuracy": 0.9851510971784592,
-      "num_tokens": 7254482.0,
-      "step": 822
-    },
-    {
-      "entropy": 1.5368549823760986,
-      "epoch": 2.9737556561085974,
-      "grad_norm": 0.5042312741279602,
-      "learning_rate": 0.0002962757717424595,
-      "loss": 0.1041,
-      "mean_token_accuracy": 0.9698852747678757,
-      "num_tokens": 7263428.0,
-      "step": 823
-    },
-    {
-      "entropy": 1.5740615129470825,
-      "epoch": 2.97737556561086,
-      "grad_norm": 0.8506835699081421,
-      "learning_rate": 0.0002958285818870963,
-      "loss": 0.0653,
-      "mean_token_accuracy": 0.9827365875244141,
-      "num_tokens": 7272425.0,
-      "step": 824
-    },
-    {
-      "entropy": 1.625010073184967,
-      "epoch": 2.9809954751131222,
-      "grad_norm": 0.6260822415351868,
-      "learning_rate": 0.00029538133590079556,
-      "loss": 0.1112,
-      "mean_token_accuracy": 0.9715189933776855,
-      "num_tokens": 7281312.0,
-      "step": 825
-    },
-    {
-      "entropy": 1.6078990697860718,
-      "epoch": 2.9846153846153847,
-      "grad_norm": 0.4316014349460602,
-      "learning_rate": 0.00029493403548225467,
-      "loss": 0.059,
-      "mean_token_accuracy": 0.9821690768003464,
-      "num_tokens": 7289748.0,
-      "step": 826
-    },
-    {
-      "entropy": 1.6132618486881256,
-      "epoch": 2.988235294117647,
-      "grad_norm": 0.6471059322357178,
-      "learning_rate": 0.0002944866823303776,
-      "loss": 0.0839,
-      "mean_token_accuracy": 0.9747331887483597,
-      "num_tokens": 7298453.0,
-      "step": 827
-    },
-    {
-      "entropy": 1.6038751900196075,
-      "epoch": 2.9918552036199095,
-      "grad_norm": 0.5383681654930115,
-      "learning_rate": 0.0002940392781442686,
-      "loss": 0.0728,
-      "mean_token_accuracy": 0.9774085730314255,
-      "num_tokens": 7307116.0,
-      "step": 828
-    },
-    {
-      "entropy": 1.6446776688098907,
-      "epoch": 2.995475113122172,
-      "grad_norm": 0.5420554280281067,
-      "learning_rate": 0.0002935918246232259,
-      "loss": 0.0799,
-      "mean_token_accuracy": 0.977481946349144,
-      "num_tokens": 7315668.0,
-      "step": 829
-    },
-    {
-      "entropy": 1.5571844279766083,
-      "epoch": 2.9990950226244344,
-      "grad_norm": 0.6471306681632996,
-      "learning_rate": 0.00029314432346673485,
-      "loss": 0.1657,
-      "mean_token_accuracy": 0.9566951394081116,
-      "num_tokens": 7324721.0,
-      "step": 830
-    },
-    {
-      "entropy": 2.0783205032348633,
-      "epoch": 3.0,
-      "grad_norm": 3.195817232131958,
-      "learning_rate": 0.000292696776374462,
-      "loss": 0.0742,
-      "mean_token_accuracy": 0.96875,
-      "num_tokens": 7325175.0,
-      "step": 831
-    },
-    {
-      "epoch": 3.0,
-      "eval_entropy": 1.6213929740394033,
-      "eval_loss": 0.14780744910240173,
-      "eval_mean_token_accuracy": 0.9634173047251817,
-      "eval_num_tokens": 7325175.0,
-      "eval_runtime": 116.0041,
-      "eval_samples_per_second": 3.181,
-      "eval_steps_per_second": 1.06,
-      "step": 831
     }
   ],
   "logging_steps": 1,
@@ -8370,7 +5589,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.948999773397185e+17,
   "train_batch_size": 3,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
   "eval_steps": 500,
+  "global_step": 554,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.177,
       "eval_steps_per_second": 1.059,
       "step": 554
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 6.634384518674615e+17,
   "train_batch_size": 3,
   "trial_name": null,
   "trial_params": null