{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 2.0,
  "eval_steps": 500,
  "global_step": 18206,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "entropy": 1.894879937171936,
      "epoch": 0.00010985691137293675,
      "grad_norm": 1.5214658975601196,
      "learning_rate": 0.0,
      "loss": 1.4908,
      "mean_token_accuracy": 0.6401820083459219,
      "num_tokens": 168636.0,
      "step": 1
    },
    {
      "entropy": 1.9256814221541088,
      "epoch": 0.0002197138227458735,
      "grad_norm": 1.8711611032485962,
      "learning_rate": 3.656307129798904e-08,
      "loss": 1.4614,
      "mean_token_accuracy": 0.6461619188388189,
      "num_tokens": 297186.0,
      "step": 2
    },
    {
      "entropy": 1.936289479335149,
      "epoch": 0.00032957073411881023,
      "grad_norm": 1.2696285247802734,
      "learning_rate": 7.312614259597807e-08,
      "loss": 1.5012,
      "mean_token_accuracy": 0.6218364934126536,
      "num_tokens": 471129.0,
      "step": 3
    },
    {
      "entropy": 1.9193981885910034,
      "epoch": 0.000439427645491747,
      "grad_norm": 1.9576971530914307,
      "learning_rate": 1.096892138939671e-07,
      "loss": 1.4109,
      "mean_token_accuracy": 0.6370265334844589,
      "num_tokens": 632787.0,
      "step": 4
    },
    {
      "entropy": 1.8874422013759613,
      "epoch": 0.0005492845568646837,
      "grad_norm": 1.4753385782241821,
      "learning_rate": 1.4625228519195615e-07,
      "loss": 1.53,
      "mean_token_accuracy": 0.6317170361677805,
      "num_tokens": 814767.0,
      "step": 5
    },
    {
      "entropy": 1.9161963363488514,
      "epoch": 0.0006591414682376205,
      "grad_norm": 1.3654813766479492,
      "learning_rate": 1.8281535648994517e-07,
      "loss": 1.513,
      "mean_token_accuracy": 0.6349450548489889,
      "num_tokens": 955276.0,
      "step": 6
    },
    {
      "entropy": 1.9518279830614726,
      "epoch": 0.0007689983796105573,
      "grad_norm": 2.4183151721954346,
      "learning_rate": 2.193784277879342e-07,
      "loss": 1.4296,
      "mean_token_accuracy": 0.6418899148702621,
      "num_tokens": 1123639.0,
      "step": 7
    },
    {
      "entropy": 1.9186626176039379,
      "epoch": 0.000878855290983494,
      "grad_norm": 2.4768245220184326,
      "learning_rate": 2.5594149908592327e-07,
      "loss": 1.4314,
      "mean_token_accuracy": 0.6455866148074468,
      "num_tokens": 1256300.0,
      "step": 8
    },
    {
      "entropy": 1.8859932323296864,
      "epoch": 0.0009887122023564308,
      "grad_norm": 2.537692070007324,
      "learning_rate": 2.925045703839123e-07,
      "loss": 1.3804,
      "mean_token_accuracy": 0.6570307711760203,
      "num_tokens": 1391902.0,
      "step": 9
    },
    {
      "entropy": 1.9118959108988445,
      "epoch": 0.0010985691137293675,
      "grad_norm": 2.2627501487731934,
      "learning_rate": 3.2906764168190127e-07,
      "loss": 1.4766,
      "mean_token_accuracy": 0.6348355263471603,
      "num_tokens": 1513301.0,
      "step": 10
    },
    {
      "entropy": 1.927810400724411,
      "epoch": 0.0012084260251023042,
      "grad_norm": 2.3921263217926025,
      "learning_rate": 3.6563071297989034e-07,
      "loss": 1.4505,
      "mean_token_accuracy": 0.6397508382797241,
      "num_tokens": 1646836.0,
      "step": 11
    },
    {
      "entropy": 1.9784689545631409,
      "epoch": 0.001318282936475241,
      "grad_norm": 1.7080570459365845,
      "learning_rate": 4.021937842778794e-07,
      "loss": 1.4932,
      "mean_token_accuracy": 0.6328056206305822,
      "num_tokens": 1790819.0,
      "step": 12
    },
    {
      "entropy": 1.832368512948354,
      "epoch": 0.0014281398478481777,
      "grad_norm": 1.9487069845199585,
      "learning_rate": 4.387568555758684e-07,
      "loss": 1.4971,
      "mean_token_accuracy": 0.6369460622469584,
      "num_tokens": 1944997.0,
      "step": 13
    },
    {
      "entropy": 1.9581014811992645,
      "epoch": 0.0015379967592211146,
      "grad_norm": 1.672973871231079,
      "learning_rate": 4.7531992687385747e-07,
      "loss": 1.572,
      "mean_token_accuracy": 0.6146093358596166,
      "num_tokens": 2091666.0,
      "step": 14
    },
    {
      "entropy": 2.0294719139734902,
      "epoch": 0.0016478536705940513,
      "grad_norm": 2.086653709411621,
      "learning_rate": 5.118829981718465e-07,
      "loss": 1.4884,
      "mean_token_accuracy": 0.6278541535139084,
      "num_tokens": 2216390.0,
      "step": 15
    },
    {
      "entropy": 1.934642493724823,
      "epoch": 0.001757710581966988,
      "grad_norm": 1.553402066230774,
      "learning_rate": 5.484460694698355e-07,
      "loss": 1.4823,
      "mean_token_accuracy": 0.634530633687973,
      "num_tokens": 2388588.0,
      "step": 16
    },
    {
      "entropy": 1.977916826804479,
      "epoch": 0.0018675674933399248,
      "grad_norm": 1.5559946298599243,
      "learning_rate": 5.850091407678246e-07,
      "loss": 1.4955,
      "mean_token_accuracy": 0.6247076193491617,
      "num_tokens": 2557798.0,
      "step": 17
    },
    {
      "entropy": 1.8902287880579631,
      "epoch": 0.0019774244047128615,
      "grad_norm": 1.4230289459228516,
      "learning_rate": 6.215722120658136e-07,
      "loss": 1.4787,
      "mean_token_accuracy": 0.6302339931329092,
      "num_tokens": 2738112.0,
      "step": 18
    },
    {
      "entropy": 1.8939658204714458,
      "epoch": 0.0020872813160857985,
      "grad_norm": 1.492349624633789,
      "learning_rate": 6.581352833638025e-07,
      "loss": 1.4823,
      "mean_token_accuracy": 0.6441057572762171,
      "num_tokens": 2898646.0,
      "step": 19
    },
    {
      "entropy": 1.8878755668799083,
      "epoch": 0.002197138227458735,
      "grad_norm": 1.266729712486267,
      "learning_rate": 6.946983546617917e-07,
      "loss": 1.4777,
      "mean_token_accuracy": 0.6475276350975037,
      "num_tokens": 3110857.0,
      "step": 20
    },
    {
      "entropy": 1.8882379333178203,
      "epoch": 0.002306995138831672,
      "grad_norm": 1.5952550172805786,
      "learning_rate": 7.312614259597807e-07,
      "loss": 1.4565,
      "mean_token_accuracy": 0.6390559126933416,
      "num_tokens": 3307447.0,
      "step": 21
    },
    {
      "entropy": 1.9016104241212208,
      "epoch": 0.0024168520502046084,
      "grad_norm": 1.1307969093322754,
      "learning_rate": 7.678244972577697e-07,
      "loss": 1.4924,
      "mean_token_accuracy": 0.6293008426825205,
      "num_tokens": 3485179.0,
      "step": 22
    },
    {
      "entropy": 1.9216719369093578,
      "epoch": 0.0025267089615775454,
      "grad_norm": 1.1407924890518188,
      "learning_rate": 8.043875685557588e-07,
      "loss": 1.6257,
      "mean_token_accuracy": 0.6146015028158823,
      "num_tokens": 3717262.0,
      "step": 23
    },
    {
      "entropy": 1.8951739370822906,
      "epoch": 0.002636565872950482,
      "grad_norm": 1.7030082941055298,
      "learning_rate": 8.409506398537478e-07,
      "loss": 1.5923,
      "mean_token_accuracy": 0.6380182355642319,
      "num_tokens": 3838144.0,
      "step": 24
    },
    {
      "entropy": 1.9046282172203064,
      "epoch": 0.002746422784323419,
      "grad_norm": 1.6221411228179932,
      "learning_rate": 8.775137111517368e-07,
      "loss": 1.3792,
      "mean_token_accuracy": 0.6614825973908106,
      "num_tokens": 3988846.0,
      "step": 25
    },
    {
      "entropy": 1.9025114277998607,
      "epoch": 0.0028562796956963553,
      "grad_norm": 1.7412817478179932,
      "learning_rate": 9.140767824497258e-07,
      "loss": 1.5043,
      "mean_token_accuracy": 0.6499176571766535,
      "num_tokens": 4123835.0,
      "step": 26
    },
    {
      "entropy": 1.9772209624449413,
      "epoch": 0.0029661366070692923,
      "grad_norm": 1.6628296375274658,
      "learning_rate": 9.506398537477149e-07,
      "loss": 1.5479,
      "mean_token_accuracy": 0.6233152449131012,
      "num_tokens": 4264365.0,
      "step": 27
    },
    {
      "entropy": 1.9088290234406788,
      "epoch": 0.003075993518442229,
      "grad_norm": 1.2123667001724243,
      "learning_rate": 9.87202925045704e-07,
      "loss": 1.5121,
      "mean_token_accuracy": 0.6258416324853897,
      "num_tokens": 4480352.0,
      "step": 28
    },
    {
      "entropy": 1.9050040543079376,
      "epoch": 0.0031858504298151657,
      "grad_norm": 2.060734510421753,
      "learning_rate": 1.023765996343693e-06,
      "loss": 1.3907,
      "mean_token_accuracy": 0.6540684401988983,
      "num_tokens": 4613774.0,
      "step": 29
    },
    {
      "entropy": 1.9359141091505687,
      "epoch": 0.0032957073411881027,
      "grad_norm": 0.9076595306396484,
      "learning_rate": 1.060329067641682e-06,
      "loss": 1.6216,
      "mean_token_accuracy": 0.6132212653756142,
      "num_tokens": 4864127.0,
      "step": 30
    },
    {
      "entropy": 1.9393312633037567,
      "epoch": 0.003405564252561039,
      "grad_norm": 1.4876841306686401,
      "learning_rate": 1.096892138939671e-06,
      "loss": 1.5932,
      "mean_token_accuracy": 0.6290038675069809,
      "num_tokens": 5048366.0,
      "step": 31
    },
    {
      "entropy": 1.8906433979670207,
      "epoch": 0.003515421163933976,
      "grad_norm": 1.0335384607315063,
      "learning_rate": 1.13345521023766e-06,
      "loss": 1.6327,
      "mean_token_accuracy": 0.6198825240135193,
      "num_tokens": 5249785.0,
      "step": 32
    },
    {
      "entropy": 1.891570011774699,
      "epoch": 0.0036252780753069126,
      "grad_norm": 1.4123249053955078,
      "learning_rate": 1.1700182815356492e-06,
      "loss": 1.3654,
      "mean_token_accuracy": 0.6579603354136149,
      "num_tokens": 5414378.0,
      "step": 33
    },
    {
      "entropy": 1.9350098570187886,
      "epoch": 0.0037351349866798496,
      "grad_norm": 1.7732880115509033,
      "learning_rate": 1.206581352833638e-06,
      "loss": 1.4123,
      "mean_token_accuracy": 0.6357505569855372,
      "num_tokens": 5576716.0,
      "step": 34
    },
    {
      "entropy": 1.9273627698421478,
      "epoch": 0.003844991898052786,
      "grad_norm": 2.0864319801330566,
      "learning_rate": 1.2431444241316272e-06,
      "loss": 1.4579,
      "mean_token_accuracy": 0.6357160607973734,
      "num_tokens": 5702401.0,
      "step": 35
    },
    {
      "entropy": 1.8696773449579875,
      "epoch": 0.003954848809425723,
      "grad_norm": 1.2789888381958008,
      "learning_rate": 1.2797074954296162e-06,
      "loss": 1.5019,
      "mean_token_accuracy": 0.6273581286271414,
      "num_tokens": 5888777.0,
      "step": 36
    },
    {
      "entropy": 1.8879920840263367,
      "epoch": 0.0040647057207986595,
      "grad_norm": 1.2594259977340698,
      "learning_rate": 1.316270566727605e-06,
      "loss": 1.4994,
      "mean_token_accuracy": 0.6347703188657761,
      "num_tokens": 6086963.0,
      "step": 37
    },
    {
      "entropy": 1.8589064280192058,
      "epoch": 0.004174562632171597,
      "grad_norm": 1.607129693031311,
      "learning_rate": 1.3528336380255944e-06,
      "loss": 1.4691,
      "mean_token_accuracy": 0.6347041179736456,
      "num_tokens": 6240554.0,
      "step": 38
    },
    {
      "entropy": 1.917704850435257,
      "epoch": 0.004284419543544533,
      "grad_norm": 2.4967267513275146,
      "learning_rate": 1.3893967093235833e-06,
      "loss": 1.4689,
      "mean_token_accuracy": 0.634268601735433,
      "num_tokens": 6369609.0,
      "step": 39
    },
    {
      "entropy": 1.921486258506775,
      "epoch": 0.00439427645491747,
      "grad_norm": 1.696545124053955,
      "learning_rate": 1.4259597806215722e-06,
      "loss": 1.4784,
      "mean_token_accuracy": 0.6417160034179688,
      "num_tokens": 6521087.0,
      "step": 40
    },
    {
      "entropy": 1.9418790340423584,
      "epoch": 0.0045041333662904064,
      "grad_norm": 1.5666840076446533,
      "learning_rate": 1.4625228519195614e-06,
      "loss": 1.4172,
      "mean_token_accuracy": 0.6557289958000183,
      "num_tokens": 6688333.0,
      "step": 41
    },
    {
      "entropy": 1.8845481673876445,
      "epoch": 0.004613990277663344,
      "grad_norm": 1.5776560306549072,
      "learning_rate": 1.4990859232175503e-06,
      "loss": 1.4631,
      "mean_token_accuracy": 0.6422620664040247,
      "num_tokens": 6832991.0,
      "step": 42
    },
    {
      "entropy": 1.9316304922103882,
      "epoch": 0.00472384718903628,
      "grad_norm": 2.2713351249694824,
      "learning_rate": 1.5356489945155394e-06,
      "loss": 1.5357,
      "mean_token_accuracy": 0.6292731215556463,
      "num_tokens": 6962510.0,
      "step": 43
    },
    {
      "entropy": 1.8830671906471252,
      "epoch": 0.004833704100409217,
      "grad_norm": 1.8595447540283203,
      "learning_rate": 1.5722120658135283e-06,
      "loss": 1.3832,
      "mean_token_accuracy": 0.6504772454500198,
      "num_tokens": 7113892.0,
      "step": 44
    },
    {
      "entropy": 1.9839610954125722,
      "epoch": 0.004943561011782153,
      "grad_norm": 1.653223991394043,
      "learning_rate": 1.6087751371115177e-06,
      "loss": 1.6831,
      "mean_token_accuracy": 0.6217963248491287,
      "num_tokens": 7242184.0,
      "step": 45
    },
    {
      "entropy": 1.8768392503261566,
      "epoch": 0.005053417923155091,
      "grad_norm": 2.0047905445098877,
      "learning_rate": 1.6453382084095066e-06,
      "loss": 1.3338,
      "mean_token_accuracy": 0.6631583720445633,
      "num_tokens": 7439452.0,
      "step": 46
    },
    {
      "entropy": 1.9426932732264202,
      "epoch": 0.005163274834528027,
      "grad_norm": 1.812389850616455,
      "learning_rate": 1.6819012797074955e-06,
      "loss": 1.5984,
      "mean_token_accuracy": 0.6237726360559464,
      "num_tokens": 7581382.0,
      "step": 47
    },
    {
      "entropy": 1.9155326286951702,
      "epoch": 0.005273131745900964,
      "grad_norm": 1.7920594215393066,
      "learning_rate": 1.7184643510054846e-06,
      "loss": 1.502,
      "mean_token_accuracy": 0.6386721283197403,
      "num_tokens": 7734683.0,
      "step": 48
    },
    {
      "entropy": 1.9195171296596527,
      "epoch": 0.005382988657273901,
      "grad_norm": 2.0478262901306152,
      "learning_rate": 1.7550274223034736e-06,
      "loss": 1.4524,
      "mean_token_accuracy": 0.6335723251104355,
      "num_tokens": 7913144.0,
      "step": 49
    },
    {
      "entropy": 1.9190079867839813,
      "epoch": 0.005492845568646838,
      "grad_norm": 1.5729821920394897,
      "learning_rate": 1.7915904936014627e-06,
      "loss": 1.5228,
      "mean_token_accuracy": 0.6325205812851588,
      "num_tokens": 8053143.0,
      "step": 50
    },
    {
      "entropy": 1.9134818116823833,
      "epoch": 0.005602702480019774,
      "grad_norm": 2.2003588676452637,
      "learning_rate": 1.8281535648994516e-06,
      "loss": 1.4542,
      "mean_token_accuracy": 0.6385191728671392,
      "num_tokens": 8223896.0,
      "step": 51
    },
    {
      "entropy": 1.8575187226136525,
      "epoch": 0.005712559391392711,
      "grad_norm": 2.713563919067383,
      "learning_rate": 1.864716636197441e-06,
      "loss": 1.4948,
      "mean_token_accuracy": 0.6294996092716852,
      "num_tokens": 8382141.0,
      "step": 52
    },
    {
      "entropy": 1.9104352692763011,
      "epoch": 0.005822416302765648,
      "grad_norm": 1.6903510093688965,
      "learning_rate": 1.9012797074954299e-06,
      "loss": 1.4369,
      "mean_token_accuracy": 0.6408693542083105,
      "num_tokens": 8544191.0,
      "step": 53
    },
    {
      "entropy": 1.9804502725601196,
      "epoch": 0.0059322732141385845,
      "grad_norm": 2.0042126178741455,
      "learning_rate": 1.9378427787934186e-06,
      "loss": 1.5279,
      "mean_token_accuracy": 0.6251623729864756,
      "num_tokens": 8703483.0,
      "step": 54
    },
    {
      "entropy": 1.9068463842074077,
      "epoch": 0.006042130125511521,
      "grad_norm": 1.6808873414993286,
      "learning_rate": 1.974405850091408e-06,
      "loss": 1.4428,
      "mean_token_accuracy": 0.6341716150442759,
      "num_tokens": 8874273.0,
      "step": 55
    },
    {
      "entropy": 1.8545368413130443,
      "epoch": 0.006151987036884458,
      "grad_norm": 1.35502290725708,
      "learning_rate": 2.010968921389397e-06,
      "loss": 1.4585,
      "mean_token_accuracy": 0.6444613436857859,
      "num_tokens": 9032964.0,
      "step": 56
    },
    {
      "entropy": 1.9203276832898457,
      "epoch": 0.006261843948257395,
      "grad_norm": 2.1629741191864014,
      "learning_rate": 2.047531992687386e-06,
      "loss": 1.4645,
      "mean_token_accuracy": 0.6436514407396317,
      "num_tokens": 9161160.0,
      "step": 57
    },
    {
      "entropy": 1.9330822229385376,
      "epoch": 0.0063717008596303314,
      "grad_norm": 2.02375864982605,
      "learning_rate": 2.084095063985375e-06,
      "loss": 1.4975,
      "mean_token_accuracy": 0.6350375364224116,
      "num_tokens": 9332649.0,
      "step": 58
    },
    {
      "entropy": 1.8069697419802349,
      "epoch": 0.006481557771003268,
      "grad_norm": 1.4925216436386108,
      "learning_rate": 2.120658135283364e-06,
      "loss": 1.4355,
      "mean_token_accuracy": 0.6453156520922979,
      "num_tokens": 9484300.0,
      "step": 59
    },
    {
      "entropy": 1.9819251795609791,
      "epoch": 0.006591414682376205,
      "grad_norm": 1.2172040939331055,
      "learning_rate": 2.157221206581353e-06,
      "loss": 1.5083,
      "mean_token_accuracy": 0.6365701605876287,
      "num_tokens": 9689189.0,
      "step": 60
    },
    {
      "entropy": 1.8836710751056671,
      "epoch": 0.006701271593749142,
      "grad_norm": 1.4082310199737549,
      "learning_rate": 2.193784277879342e-06,
      "loss": 1.4055,
      "mean_token_accuracy": 0.641944482922554,
      "num_tokens": 9871400.0,
      "step": 61
    },
    {
      "entropy": 1.862162669499715,
      "epoch": 0.006811128505122078,
      "grad_norm": 1.952700138092041,
      "learning_rate": 2.230347349177331e-06,
      "loss": 1.4579,
      "mean_token_accuracy": 0.6387267460425695,
      "num_tokens": 10030629.0,
      "step": 62
    },
    {
      "entropy": 1.86505792538325,
      "epoch": 0.006920985416495015,
      "grad_norm": 2.528541326522827,
      "learning_rate": 2.26691042047532e-06,
      "loss": 1.4184,
      "mean_token_accuracy": 0.6428513675928116,
      "num_tokens": 10174909.0,
      "step": 63
    },
    {
      "entropy": 1.8634338974952698,
      "epoch": 0.007030842327867952,
      "grad_norm": 1.5209519863128662,
      "learning_rate": 2.3034734917733095e-06,
      "loss": 1.6417,
      "mean_token_accuracy": 0.6137880484263102,
      "num_tokens": 10389155.0,
      "step": 64
    },
    {
      "entropy": 2.011722683906555,
      "epoch": 0.007140699239240889,
      "grad_norm": 2.0947635173797607,
      "learning_rate": 2.3400365630712984e-06,
      "loss": 1.6333,
      "mean_token_accuracy": 0.6242827375729879,
      "num_tokens": 10510783.0,
      "step": 65
    },
    {
      "entropy": 1.9394526779651642,
      "epoch": 0.007250556150613825,
      "grad_norm": 2.9054830074310303,
      "learning_rate": 2.3765996343692873e-06,
      "loss": 1.4163,
      "mean_token_accuracy": 0.6395674695571264,
      "num_tokens": 10644860.0,
      "step": 66
    },
    {
      "entropy": 1.8742198546727498,
      "epoch": 0.007360413061986763,
      "grad_norm": 1.4175904989242554,
      "learning_rate": 2.413162705667276e-06,
      "loss": 1.4076,
      "mean_token_accuracy": 0.6420022894938787,
      "num_tokens": 10827216.0,
      "step": 67
    },
    {
      "entropy": 1.8331912557284038,
      "epoch": 0.007470269973359699,
      "grad_norm": 1.3983286619186401,
      "learning_rate": 2.449725776965265e-06,
      "loss": 1.5168,
      "mean_token_accuracy": 0.623612051208814,
      "num_tokens": 11040709.0,
      "step": 68
    },
    {
      "entropy": 2.0345064600308738,
      "epoch": 0.007580126884732636,
      "grad_norm": 1.5471314191818237,
      "learning_rate": 2.4862888482632545e-06,
      "loss": 1.486,
      "mean_token_accuracy": 0.6237680067618688,
      "num_tokens": 11237129.0,
      "step": 69
    },
    {
      "entropy": 1.9124818940957387,
      "epoch": 0.007689983796105572,
      "grad_norm": 2.0542972087860107,
      "learning_rate": 2.5228519195612434e-06,
      "loss": 1.5191,
      "mean_token_accuracy": 0.6362631718317667,
      "num_tokens": 11393268.0,
      "step": 70
    },
    {
      "entropy": 1.9250177542368572,
      "epoch": 0.0077998407074785095,
      "grad_norm": 1.6303218603134155,
      "learning_rate": 2.5594149908592323e-06,
      "loss": 1.566,
      "mean_token_accuracy": 0.6235620379447937,
      "num_tokens": 11577989.0,
      "step": 71
    },
    {
      "entropy": 1.9424512485663097,
      "epoch": 0.007909697618851446,
      "grad_norm": 1.447934627532959,
      "learning_rate": 2.5959780621572212e-06,
      "loss": 1.4839,
      "mean_token_accuracy": 0.630613719423612,
      "num_tokens": 11740054.0,
      "step": 72
    },
    {
      "entropy": 1.8930113911628723,
      "epoch": 0.008019554530224383,
      "grad_norm": 1.1407986879348755,
      "learning_rate": 2.63254113345521e-06,
      "loss": 1.4887,
      "mean_token_accuracy": 0.6346247841914495,
      "num_tokens": 12000084.0,
      "step": 73
    },
    {
      "entropy": 1.9313855667908986,
      "epoch": 0.008129411441597319,
      "grad_norm": 1.1938432455062866,
      "learning_rate": 2.6691042047531995e-06,
      "loss": 1.5619,
      "mean_token_accuracy": 0.6224364936351776,
      "num_tokens": 12206632.0,
      "step": 74
    },
    {
      "entropy": 1.9749772349993389,
      "epoch": 0.008239268352970256,
      "grad_norm": 1.916087031364441,
      "learning_rate": 2.705667276051189e-06,
      "loss": 1.5133,
      "mean_token_accuracy": 0.63983054459095,
      "num_tokens": 12304314.0,
      "step": 75
    },
    {
      "entropy": 1.9599759479363759,
      "epoch": 0.008349125264343194,
      "grad_norm": 1.359966516494751,
      "learning_rate": 2.7422303473491773e-06,
      "loss": 1.5562,
      "mean_token_accuracy": 0.6150669455528259,
      "num_tokens": 12501896.0,
      "step": 76
    },
    {
      "entropy": 1.8981466790040333,
      "epoch": 0.00845898217571613,
      "grad_norm": 1.2441012859344482,
      "learning_rate": 2.7787934186471667e-06,
      "loss": 1.5665,
      "mean_token_accuracy": 0.6264956047137579,
      "num_tokens": 12691020.0,
      "step": 77
    },
    {
      "entropy": 1.9287964701652527,
      "epoch": 0.008568839087089067,
      "grad_norm": 1.3505768775939941,
      "learning_rate": 2.8153564899451556e-06,
      "loss": 1.6804,
      "mean_token_accuracy": 0.6293187389771143,
      "num_tokens": 12892070.0,
      "step": 78
    },
    {
      "entropy": 1.8864564498265584,
      "epoch": 0.008678695998462002,
      "grad_norm": 1.230501413345337,
      "learning_rate": 2.8519195612431445e-06,
      "loss": 1.5448,
      "mean_token_accuracy": 0.6269682745138804,
      "num_tokens": 13066612.0,
      "step": 79
    },
    {
      "entropy": 1.9039170742034912,
      "epoch": 0.00878855290983494,
      "grad_norm": 1.3592942953109741,
      "learning_rate": 2.8884826325411334e-06,
      "loss": 1.4797,
      "mean_token_accuracy": 0.6321501731872559,
      "num_tokens": 13232664.0,
      "step": 80
    },
    {
      "entropy": 1.9469401339689891,
      "epoch": 0.008898409821207877,
      "grad_norm": 2.1602654457092285,
      "learning_rate": 2.9250457038391228e-06,
      "loss": 1.4569,
      "mean_token_accuracy": 0.6350138882795969,
      "num_tokens": 13378630.0,
      "step": 81
    },
    {
      "entropy": 1.8785783151785533,
      "epoch": 0.009008266732580813,
      "grad_norm": 1.3273346424102783,
      "learning_rate": 2.961608775137112e-06,
      "loss": 1.3908,
      "mean_token_accuracy": 0.6404936015605927,
      "num_tokens": 13525919.0,
      "step": 82
    },
    {
      "entropy": 1.9613807598749797,
      "epoch": 0.00911812364395375,
      "grad_norm": 1.595691204071045,
      "learning_rate": 2.9981718464351006e-06,
      "loss": 1.4964,
      "mean_token_accuracy": 0.6223418762286504,
      "num_tokens": 13685579.0,
      "step": 83
    },
    {
      "entropy": 1.9553207556406658,
      "epoch": 0.009227980555326688,
      "grad_norm": 1.1953165531158447,
      "learning_rate": 3.03473491773309e-06,
      "loss": 1.5688,
      "mean_token_accuracy": 0.6186368266741434,
      "num_tokens": 13901601.0,
      "step": 84
    },
    {
      "entropy": 1.8914847175280254,
      "epoch": 0.009337837466699623,
      "grad_norm": 2.109435558319092,
      "learning_rate": 3.071297989031079e-06,
      "loss": 1.4397,
      "mean_token_accuracy": 0.639526754617691,
      "num_tokens": 14060730.0,
      "step": 85
    },
    {
      "entropy": 1.9378711183865864,
      "epoch": 0.00944769437807256,
      "grad_norm": 1.584813117980957,
      "learning_rate": 3.1078610603290678e-06,
      "loss": 1.6438,
      "mean_token_accuracy": 0.6247407471140226,
      "num_tokens": 14220171.0,
      "step": 86
    },
    {
      "entropy": 1.8821549117565155,
      "epoch": 0.009557551289445498,
      "grad_norm": 1.3728727102279663,
      "learning_rate": 3.1444241316270567e-06,
      "loss": 1.4598,
      "mean_token_accuracy": 0.6492441594600677,
      "num_tokens": 14426508.0,
      "step": 87
    },
    {
      "entropy": 1.945362647374471,
      "epoch": 0.009667408200818434,
      "grad_norm": 1.353712797164917,
      "learning_rate": 3.180987202925046e-06,
      "loss": 1.4469,
      "mean_token_accuracy": 0.6372426698605219,
      "num_tokens": 14586179.0,
      "step": 88
    },
    {
      "entropy": 2.001281092564265,
      "epoch": 0.009777265112191371,
      "grad_norm": 1.7841237783432007,
      "learning_rate": 3.2175502742230354e-06,
      "loss": 1.6689,
      "mean_token_accuracy": 0.6123541295528412,
      "num_tokens": 14753587.0,
      "step": 89
    },
    {
      "entropy": 1.8964291512966156,
      "epoch": 0.009887122023564307,
      "grad_norm": 1.8038142919540405,
      "learning_rate": 3.254113345521024e-06,
      "loss": 1.5155,
      "mean_token_accuracy": 0.6321656405925751,
      "num_tokens": 14897850.0,
      "step": 90
    },
    {
      "entropy": 1.9467082222302754,
      "epoch": 0.009996978934937244,
      "grad_norm": 1.504103422164917,
      "learning_rate": 3.290676416819013e-06,
      "loss": 1.472,
      "mean_token_accuracy": 0.638060932358106,
      "num_tokens": 15085294.0,
      "step": 91
    },
    {
      "entropy": 1.895034392674764,
      "epoch": 0.010106835846310181,
      "grad_norm": 1.6101082563400269,
      "learning_rate": 3.327239488117002e-06,
      "loss": 1.4261,
      "mean_token_accuracy": 0.6464575280745825,
      "num_tokens": 15240577.0,
      "step": 92
    },
    {
      "entropy": 1.9196984469890594,
      "epoch": 0.010216692757683117,
      "grad_norm": 2.471315383911133,
      "learning_rate": 3.363802559414991e-06,
      "loss": 1.4078,
      "mean_token_accuracy": 0.6479363540808359,
      "num_tokens": 15390254.0,
      "step": 93
    },
    {
      "entropy": 1.8948115607102711,
      "epoch": 0.010326549669056054,
      "grad_norm": 1.4012452363967896,
      "learning_rate": 3.40036563071298e-06,
      "loss": 1.5964,
      "mean_token_accuracy": 0.6217137028773626,
      "num_tokens": 15591903.0,
      "step": 94
    },
    {
      "entropy": 1.9357371429602306,
      "epoch": 0.010436406580428992,
      "grad_norm": 1.724313735961914,
      "learning_rate": 3.4369287020109693e-06,
      "loss": 1.4818,
      "mean_token_accuracy": 0.6213598748048147,
      "num_tokens": 15757784.0,
      "step": 95
    },
    {
      "entropy": 1.9804232120513916,
      "epoch": 0.010546263491801927,
      "grad_norm": 1.3886477947235107,
      "learning_rate": 3.4734917733089586e-06,
      "loss": 1.5319,
      "mean_token_accuracy": 0.625564381480217,
      "num_tokens": 15919103.0,
      "step": 96
    },
    {
      "entropy": 1.8893166085084279,
      "epoch": 0.010656120403174865,
      "grad_norm": 2.0127227306365967,
      "learning_rate": 3.510054844606947e-06,
      "loss": 1.4025,
      "mean_token_accuracy": 0.652299756805102,
      "num_tokens": 16065462.0,
      "step": 97
    },
    {
      "entropy": 2.0099782148996987,
      "epoch": 0.010765977314547802,
      "grad_norm": 1.174246072769165,
      "learning_rate": 3.5466179159049365e-06,
      "loss": 1.5865,
      "mean_token_accuracy": 0.6206269313891729,
      "num_tokens": 16230912.0,
      "step": 98
    },
    {
      "entropy": 1.9607905944188435,
      "epoch": 0.010875834225920738,
      "grad_norm": 1.2836897373199463,
      "learning_rate": 3.5831809872029254e-06,
      "loss": 1.5893,
      "mean_token_accuracy": 0.6317617396513621,
      "num_tokens": 16401514.0,
      "step": 99
    },
    {
      "entropy": 1.9421872198581696,
      "epoch": 0.010985691137293675,
      "grad_norm": 1.39162015914917,
      "learning_rate": 3.6197440585009143e-06,
      "loss": 1.5033,
      "mean_token_accuracy": 0.6282460689544678,
      "num_tokens": 16572187.0,
      "step": 100
    },
    {
      "entropy": 1.9639080266157787,
      "epoch": 0.011095548048666611,
      "grad_norm": 1.5374300479888916,
      "learning_rate": 3.6563071297989032e-06,
      "loss": 1.5919,
      "mean_token_accuracy": 0.6466963390509287,
      "num_tokens": 16722551.0,
      "step": 101
    },
    {
      "entropy": 1.951703170935313,
      "epoch": 0.011205404960039548,
      "grad_norm": 1.8960427045822144,
      "learning_rate": 3.6928702010968926e-06,
      "loss": 1.5075,
      "mean_token_accuracy": 0.6368091404438019,
      "num_tokens": 16898011.0,
      "step": 102
    },
    {
      "entropy": 1.9429233868916829,
      "epoch": 0.011315261871412486,
      "grad_norm": 1.956182599067688,
      "learning_rate": 3.729433272394882e-06,
      "loss": 1.5054,
      "mean_token_accuracy": 0.6246836185455322,
      "num_tokens": 17058898.0,
      "step": 103
    },
    {
      "entropy": 1.873151530822118,
      "epoch": 0.011425118782785421,
      "grad_norm": 2.225306510925293,
      "learning_rate": 3.7659963436928704e-06,
      "loss": 1.4609,
      "mean_token_accuracy": 0.6369840502738953,
      "num_tokens": 17181314.0,
      "step": 104
    },
    {
      "entropy": 2.0154978732268014,
      "epoch": 0.011534975694158359,
      "grad_norm": 1.3400015830993652,
      "learning_rate": 3.8025594149908597e-06,
      "loss": 1.5389,
      "mean_token_accuracy": 0.6156003673871359,
      "num_tokens": 17384388.0,
      "step": 105
    },
    {
      "entropy": 1.8415813446044922,
      "epoch": 0.011644832605531296,
      "grad_norm": 1.7141013145446777,
      "learning_rate": 3.839122486288849e-06,
      "loss": 1.4315,
      "mean_token_accuracy": 0.642757977048556,
      "num_tokens": 17534920.0,
      "step": 106
    },
    {
      "entropy": 1.8614780008792877,
      "epoch": 0.011754689516904232,
      "grad_norm": 0.8813568949699402,
      "learning_rate": 3.875685557586837e-06,
      "loss": 1.5428,
      "mean_token_accuracy": 0.6348659793535868,
      "num_tokens": 17788973.0,
      "step": 107
    },
    {
      "entropy": 1.9813534617424011,
      "epoch": 0.011864546428277169,
      "grad_norm": 1.8785918951034546,
      "learning_rate": 3.912248628884827e-06,
      "loss": 1.5586,
      "mean_token_accuracy": 0.6213805874188741,
      "num_tokens": 17924037.0,
      "step": 108
    },
    {
      "entropy": 1.981442888577779,
      "epoch": 0.011974403339650106,
      "grad_norm": 1.5279945135116577,
      "learning_rate": 3.948811700182816e-06,
      "loss": 1.5167,
      "mean_token_accuracy": 0.6179635375738144,
      "num_tokens": 18063221.0,
      "step": 109
    },
    {
      "entropy": 1.9768773019313812,
      "epoch": 0.012084260251023042,
      "grad_norm": 0.9247986078262329,
      "learning_rate": 3.985374771480805e-06,
      "loss": 1.5735,
      "mean_token_accuracy": 0.6179714898268381,
      "num_tokens": 18322095.0,
      "step": 110
    },
    {
      "entropy": 1.8607787589232128,
      "epoch": 0.01219411716239598,
      "grad_norm": 1.2437028884887695,
      "learning_rate": 4.021937842778794e-06,
      "loss": 1.4921,
      "mean_token_accuracy": 0.6286398619413376,
      "num_tokens": 18535525.0,
      "step": 111
    },
    {
      "entropy": 1.913169115781784,
      "epoch": 0.012303974073768917,
      "grad_norm": 1.9801437854766846,
      "learning_rate": 4.058500914076783e-06,
      "loss": 1.4637,
      "mean_token_accuracy": 0.6328051636616389,
      "num_tokens": 18696140.0,
      "step": 112
    },
    {
      "entropy": 2.0254646937052407,
      "epoch": 0.012413830985141852,
      "grad_norm": 1.2046679258346558,
      "learning_rate": 4.095063985374772e-06,
      "loss": 1.5517,
      "mean_token_accuracy": 0.6129643271366755,
      "num_tokens": 18877101.0,
      "step": 113
    },
    {
      "entropy": 1.8931627968947093,
      "epoch": 0.01252368789651479,
      "grad_norm": 1.4202874898910522,
      "learning_rate": 4.1316270566727604e-06,
      "loss": 1.5459,
      "mean_token_accuracy": 0.6342976987361908,
      "num_tokens": 19060103.0,
      "step": 114
    },
    {
      "entropy": 1.9346506992975872,
      "epoch": 0.012633544807887725,
      "grad_norm": 1.8455705642700195,
      "learning_rate": 4.16819012797075e-06,
      "loss": 1.4788,
      "mean_token_accuracy": 0.635664368669192,
      "num_tokens": 19193959.0,
      "step": 115
    },
    {
      "entropy": 1.891279657681783,
      "epoch": 0.012743401719260663,
      "grad_norm": 1.2223505973815918,
      "learning_rate": 4.204753199268739e-06,
      "loss": 1.581,
      "mean_token_accuracy": 0.6405478020509084,
      "num_tokens": 19369545.0,
      "step": 116
    },
    {
      "entropy": 1.856790542602539,
      "epoch": 0.0128532586306336,
      "grad_norm": 2.1477673053741455,
      "learning_rate": 4.241316270566728e-06,
      "loss": 1.5261,
      "mean_token_accuracy": 0.6329584916432699,
      "num_tokens": 19520434.0,
      "step": 117
    },
    {
      "entropy": 1.9323392510414124,
      "epoch": 0.012963115542006536,
      "grad_norm": 1.760062336921692,
      "learning_rate": 4.277879341864717e-06,
      "loss": 1.5352,
      "mean_token_accuracy": 0.6246002415815989,
      "num_tokens": 19706187.0,
      "step": 118
    },
    {
      "entropy": 1.792329490184784,
      "epoch": 0.013072972453379473,
      "grad_norm": 1.7655450105667114,
      "learning_rate": 4.314442413162706e-06,
      "loss": 1.5414,
      "mean_token_accuracy": 0.6422147999207178,
      "num_tokens": 19895609.0,
      "step": 119
    },
    {
      "entropy": 1.9673140943050385,
      "epoch": 0.01318282936475241,
      "grad_norm": 1.106261968612671,
      "learning_rate": 4.351005484460696e-06,
      "loss": 1.5714,
      "mean_token_accuracy": 0.6150963505109152,
      "num_tokens": 20129061.0,
      "step": 120
    },
    {
      "entropy": 1.9717350602149963,
      "epoch": 0.013292686276125346,
      "grad_norm": 1.8436874151229858,
      "learning_rate": 4.387568555758684e-06,
      "loss": 1.553,
      "mean_token_accuracy": 0.617359588543574,
      "num_tokens": 20323094.0,
      "step": 121
    },
    {
      "entropy": 1.9026523629824321,
      "epoch": 0.013402543187498284,
      "grad_norm": 1.9257417917251587,
      "learning_rate": 4.4241316270566735e-06,
      "loss": 1.6199,
      "mean_token_accuracy": 0.6336856335401535,
      "num_tokens": 20478148.0,
      "step": 122
    },
    {
      "entropy": 1.9043993254502614,
      "epoch": 0.013512400098871221,
      "grad_norm": 1.8216344118118286,
      "learning_rate": 4.460694698354662e-06,
      "loss": 1.4728,
      "mean_token_accuracy": 0.6363042940696081,
      "num_tokens": 20659428.0,
      "step": 123
    },
    {
      "entropy": 1.923029104868571,
      "epoch": 0.013622257010244157,
      "grad_norm": 1.6235153675079346,
      "learning_rate": 4.497257769652651e-06,
      "loss": 1.4689,
      "mean_token_accuracy": 0.6350155224402746,
      "num_tokens": 20848469.0,
      "step": 124
    },
    {
      "entropy": 1.9097663859526317,
      "epoch": 0.013732113921617094,
      "grad_norm": 2.066504955291748,
      "learning_rate": 4.53382084095064e-06,
      "loss": 1.6551,
      "mean_token_accuracy": 0.6251655717690786,
      "num_tokens": 20990401.0,
      "step": 125
    },
    {
      "entropy": 1.8578063448270161,
      "epoch": 0.01384197083299003,
      "grad_norm": 2.0339179039001465,
      "learning_rate": 4.570383912248629e-06,
      "loss": 1.4402,
      "mean_token_accuracy": 0.6496027906735738,
      "num_tokens": 21126262.0,
      "step": 126
    },
    {
      "entropy": 1.8716703255971272,
      "epoch": 0.013951827744362967,
      "grad_norm": 1.5795789957046509,
      "learning_rate": 4.606946983546619e-06,
      "loss": 1.4847,
      "mean_token_accuracy": 0.6409290333588918,
      "num_tokens": 21277528.0,
      "step": 127
    },
    {
      "entropy": 1.960438460111618,
      "epoch": 0.014061684655735904,
      "grad_norm": 1.5360902547836304,
      "learning_rate": 4.643510054844607e-06,
      "loss": 1.5797,
      "mean_token_accuracy": 0.6345019638538361,
      "num_tokens": 21444158.0,
      "step": 128
    },
    {
      "entropy": 1.940459320942561,
      "epoch": 0.01417154156710884,
      "grad_norm": 1.4799344539642334,
      "learning_rate": 4.680073126142597e-06,
      "loss": 1.6964,
      "mean_token_accuracy": 0.6091892321904501,
      "num_tokens": 21610345.0,
      "step": 129
    },
    {
      "entropy": 1.9162492255369823,
      "epoch": 0.014281398478481777,
      "grad_norm": 1.6671146154403687,
      "learning_rate": 4.716636197440586e-06,
      "loss": 1.6158,
      "mean_token_accuracy": 0.616663247346878,
      "num_tokens": 21774213.0,
      "step": 130
    },
    {
      "entropy": 1.9880765875180562,
      "epoch": 0.014391255389854715,
      "grad_norm": 2.272390604019165,
      "learning_rate": 4.753199268738575e-06,
      "loss": 1.646,
      "mean_token_accuracy": 0.6181524445613226,
      "num_tokens": 21905255.0,
      "step": 131
    },
    {
      "entropy": 1.8855270047982533,
      "epoch": 0.01450111230122765,
      "grad_norm": 1.2006255388259888,
      "learning_rate": 4.7897623400365635e-06,
      "loss": 1.6963,
      "mean_token_accuracy": 0.6048007061084112,
      "num_tokens": 22098818.0,
      "step": 132
    },
    {
      "entropy": 1.9694058795770009,
      "epoch": 0.014610969212600588,
      "grad_norm": 1.6814290285110474,
      "learning_rate": 4.826325411334552e-06,
      "loss": 1.5216,
      "mean_token_accuracy": 0.6235235830148061,
      "num_tokens": 22262213.0,
      "step": 133
    },
    {
      "entropy": 1.8912192583084106,
      "epoch": 0.014720826123973525,
      "grad_norm": 2.5680627822875977,
      "learning_rate": 4.862888482632542e-06,
      "loss": 1.4485,
      "mean_token_accuracy": 0.639568880200386,
      "num_tokens": 22415716.0,
      "step": 134
    },
    {
      "entropy": 1.8896643221378326,
      "epoch": 0.014830683035346461,
      "grad_norm": 2.191824436187744,
      "learning_rate": 4.89945155393053e-06,
      "loss": 1.6072,
      "mean_token_accuracy": 0.6254559010267258,
      "num_tokens": 22554208.0,
      "step": 135
    },
    {
      "entropy": 1.838125040133794,
      "epoch": 0.014940539946719398,
      "grad_norm": 2.2072277069091797,
      "learning_rate": 4.93601462522852e-06,
      "loss": 1.4288,
      "mean_token_accuracy": 0.6442883511384329,
      "num_tokens": 22686348.0,
      "step": 136
    },
    {
      "entropy": 1.9419346153736115,
      "epoch": 0.015050396858092334,
      "grad_norm": 1.4282070398330688,
      "learning_rate": 4.972577696526509e-06,
      "loss": 1.588,
      "mean_token_accuracy": 0.6240701427062353,
      "num_tokens": 22914244.0,
      "step": 137
    },
    {
      "entropy": 1.9297908544540405,
      "epoch": 0.015160253769465271,
      "grad_norm": 1.7204630374908447,
      "learning_rate": 5.009140767824498e-06,
      "loss": 1.53,
      "mean_token_accuracy": 0.6246543924013773,
      "num_tokens": 23064559.0,
      "step": 138
    },
    {
      "entropy": 1.89528426527977,
      "epoch": 0.015270110680838209,
      "grad_norm": 1.2303673028945923,
      "learning_rate": 5.045703839122487e-06,
      "loss": 1.559,
      "mean_token_accuracy": 0.6299286683400472,
      "num_tokens": 23247723.0,
      "step": 139
    },
    {
      "entropy": 1.964120090007782,
      "epoch": 0.015379967592211144,
      "grad_norm": 1.3174797296524048,
      "learning_rate": 5.082266910420476e-06,
      "loss": 1.578,
      "mean_token_accuracy": 0.6308384935061137,
      "num_tokens": 23430389.0,
      "step": 140
    },
    {
      "entropy": 1.9435697793960571,
      "epoch": 0.015489824503584082,
      "grad_norm": 1.4430499076843262,
      "learning_rate": 5.118829981718465e-06,
      "loss": 1.4911,
      "mean_token_accuracy": 0.6396051446596781,
      "num_tokens": 23586104.0,
      "step": 141
    },
    {
      "entropy": 1.9481945832570393,
      "epoch": 0.015599681414957019,
      "grad_norm": 1.983757734298706,
      "learning_rate": 5.155393053016454e-06,
      "loss": 1.5476,
      "mean_token_accuracy": 0.6408113439877828,
      "num_tokens": 23735997.0,
      "step": 142
    },
    {
      "entropy": 1.9852807819843292,
      "epoch": 0.015709538326329955,
      "grad_norm": 1.51121985912323,
      "learning_rate": 5.1919561243144424e-06,
      "loss": 1.7149,
      "mean_token_accuracy": 0.6295592884222666,
      "num_tokens": 23906403.0,
      "step": 143
    },
    {
      "entropy": 1.9033388594786327,
      "epoch": 0.015819395237702892,
      "grad_norm": 1.7496778964996338,
      "learning_rate": 5.228519195612431e-06,
      "loss": 1.5541,
      "mean_token_accuracy": 0.6278304755687714,
      "num_tokens": 24082125.0,
      "step": 144
    },
    {
      "entropy": 1.929619828859965,
      "epoch": 0.01592925214907583,
      "grad_norm": 1.250235676765442,
      "learning_rate": 5.26508226691042e-06,
      "loss": 1.5135,
      "mean_token_accuracy": 0.6288062930107117,
      "num_tokens": 24305628.0,
      "step": 145
    },
    {
      "entropy": 2.0030274192492166,
      "epoch": 0.016039109060448767,
      "grad_norm": 1.5068280696868896,
      "learning_rate": 5.30164533820841e-06,
      "loss": 1.4626,
      "mean_token_accuracy": 0.6244446535905203,
      "num_tokens": 24472766.0,
      "step": 146
    },
    {
      "entropy": 1.9357780913511913,
      "epoch": 0.0161489659718217,
      "grad_norm": 1.569165825843811,
      "learning_rate": 5.338208409506399e-06,
      "loss": 1.4038,
      "mean_token_accuracy": 0.6452462822198868,
      "num_tokens": 24617139.0,
      "step": 147
    },
    {
      "entropy": 1.9441987375418346,
      "epoch": 0.016258822883194638,
      "grad_norm": 1.4736301898956299,
      "learning_rate": 5.374771480804388e-06,
      "loss": 1.5742,
      "mean_token_accuracy": 0.6242514302333196,
      "num_tokens": 24825673.0,
      "step": 148
    },
    {
      "entropy": 1.9694486260414124,
      "epoch": 0.016368679794567575,
      "grad_norm": 1.5289890766143799,
      "learning_rate": 5.411334552102378e-06,
      "loss": 1.4772,
      "mean_token_accuracy": 0.6373162666956583,
      "num_tokens": 24991928.0,
      "step": 149
    },
    {
      "entropy": 1.886027862628301,
      "epoch": 0.016478536705940513,
      "grad_norm": 1.8170188665390015,
      "learning_rate": 5.447897623400366e-06,
      "loss": 1.5112,
      "mean_token_accuracy": 0.6386896967887878,
      "num_tokens": 25126815.0,
      "step": 150
    },
    {
      "entropy": 2.017523467540741,
      "epoch": 0.01658839361731345,
      "grad_norm": 1.759878158569336,
      "learning_rate": 5.484460694698355e-06,
      "loss": 1.7175,
      "mean_token_accuracy": 0.6125520120064417,
      "num_tokens": 25317846.0,
      "step": 151
    },
    {
      "entropy": 1.9565064509709675,
      "epoch": 0.016698250528686388,
      "grad_norm": 1.3674354553222656,
      "learning_rate": 5.5210237659963435e-06,
      "loss": 1.5125,
      "mean_token_accuracy": 0.6129873792330424,
      "num_tokens": 25517208.0,
      "step": 152
    },
    {
      "entropy": 1.8165283501148224,
      "epoch": 0.01680810744005932,
      "grad_norm": 1.8085861206054688,
      "learning_rate": 5.557586837294333e-06,
      "loss": 1.3189,
      "mean_token_accuracy": 0.6418418337901434,
      "num_tokens": 25710724.0,
      "step": 153
    },
    {
      "entropy": 1.9543904463450115,
      "epoch": 0.01691796435143226,
      "grad_norm": 2.4002819061279297,
      "learning_rate": 5.594149908592322e-06,
      "loss": 1.5342,
      "mean_token_accuracy": 0.625735859076182,
      "num_tokens": 25863294.0,
      "step": 154
    },
    {
      "entropy": 1.9318216741085052,
      "epoch": 0.017027821262805196,
      "grad_norm": 1.7552255392074585,
      "learning_rate": 5.630712979890311e-06,
      "loss": 1.4478,
      "mean_token_accuracy": 0.6387412895758947,
      "num_tokens": 25995035.0,
      "step": 155
    },
    {
      "entropy": 1.843320260445277,
      "epoch": 0.017137678174178134,
      "grad_norm": 1.9175851345062256,
      "learning_rate": 5.667276051188301e-06,
      "loss": 1.4263,
      "mean_token_accuracy": 0.6444782565037409,
      "num_tokens": 26181344.0,
      "step": 156
    },
    {
      "entropy": 1.9701976378758748,
      "epoch": 0.01724753508555107,
      "grad_norm": 1.541599988937378,
      "learning_rate": 5.703839122486289e-06,
      "loss": 1.5272,
      "mean_token_accuracy": 0.642794132232666,
      "num_tokens": 26359706.0,
      "step": 157
    },
    {
      "entropy": 1.9773990114529927,
      "epoch": 0.017357391996924005,
      "grad_norm": 2.1367106437683105,
      "learning_rate": 5.740402193784278e-06,
      "loss": 1.5112,
      "mean_token_accuracy": 0.636732429265976,
      "num_tokens": 26479942.0,
      "step": 158
    },
    {
      "entropy": 1.9307551781336467,
      "epoch": 0.017467248908296942,
      "grad_norm": 2.5110087394714355,
      "learning_rate": 5.776965265082267e-06,
      "loss": 1.4965,
      "mean_token_accuracy": 0.628907784819603,
      "num_tokens": 26595408.0,
      "step": 159
    },
    {
      "entropy": 1.8777441680431366,
      "epoch": 0.01757710581966988,
      "grad_norm": 1.30020272731781,
      "learning_rate": 5.813528336380257e-06,
      "loss": 1.5253,
      "mean_token_accuracy": 0.6290498375892639,
      "num_tokens": 26817903.0,
      "step": 160
    },
    {
      "entropy": 1.9326928953329723,
      "epoch": 0.017686962731042817,
      "grad_norm": 1.6048803329467773,
      "learning_rate": 5.8500914076782455e-06,
      "loss": 1.5385,
      "mean_token_accuracy": 0.632832944393158,
      "num_tokens": 26960043.0,
      "step": 161
    },
    {
      "entropy": 2.001479814449946,
      "epoch": 0.017796819642415754,
      "grad_norm": 1.7055351734161377,
      "learning_rate": 5.886654478976234e-06,
      "loss": 1.4679,
      "mean_token_accuracy": 0.6328243414560953,
      "num_tokens": 27105562.0,
      "step": 162
    },
    {
      "entropy": 1.9939979513486226,
      "epoch": 0.017906676553788692,
      "grad_norm": 1.595533847808838,
      "learning_rate": 5.923217550274224e-06,
      "loss": 1.5478,
      "mean_token_accuracy": 0.6230746358633041,
      "num_tokens": 27254524.0,
      "step": 163
    },
    {
      "entropy": 1.9124678770701091,
      "epoch": 0.018016533465161626,
      "grad_norm": 1.401327133178711,
      "learning_rate": 5.959780621572212e-06,
      "loss": 1.6268,
      "mean_token_accuracy": 0.6118254562218984,
      "num_tokens": 27451743.0,
      "step": 164
    },
    {
      "entropy": 1.8883071442445118,
      "epoch": 0.018126390376534563,
      "grad_norm": 1.3325417041778564,
      "learning_rate": 5.996343692870201e-06,
      "loss": 1.5537,
      "mean_token_accuracy": 0.6336751828591028,
      "num_tokens": 27609520.0,
      "step": 165
    },
    {
      "entropy": 1.8839130004247029,
      "epoch": 0.0182362472879075,
      "grad_norm": 1.713529348373413,
      "learning_rate": 6.03290676416819e-06,
      "loss": 1.529,
      "mean_token_accuracy": 0.6286770900090536,
      "num_tokens": 27781402.0,
      "step": 166
    },
    {
      "entropy": 2.000154842933019,
      "epoch": 0.018346104199280438,
      "grad_norm": 1.4660075902938843,
      "learning_rate": 6.06946983546618e-06,
      "loss": 1.6884,
      "mean_token_accuracy": 0.6122722874085108,
      "num_tokens": 27947872.0,
      "step": 167
    },
    {
      "entropy": 1.9248465200265248,
      "epoch": 0.018455961110653375,
      "grad_norm": 1.3339463472366333,
      "learning_rate": 6.106032906764169e-06,
      "loss": 1.4863,
      "mean_token_accuracy": 0.6232618043820063,
      "num_tokens": 28170975.0,
      "step": 168
    },
    {
      "entropy": 1.895066907008489,
      "epoch": 0.01856581802202631,
      "grad_norm": 0.8725059032440186,
      "learning_rate": 6.142595978062158e-06,
      "loss": 1.5651,
      "mean_token_accuracy": 0.6305927385886511,
      "num_tokens": 28384244.0,
      "step": 169
    },
    {
      "entropy": 1.908642550309499,
      "epoch": 0.018675674933399247,
      "grad_norm": 1.8071403503417969,
      "learning_rate": 6.1791590493601475e-06,
      "loss": 1.4144,
      "mean_token_accuracy": 0.6478618135054907,
      "num_tokens": 28540304.0,
      "step": 170
    },
    {
      "entropy": 1.8365615010261536,
      "epoch": 0.018785531844772184,
      "grad_norm": 1.5986486673355103,
      "learning_rate": 6.2157221206581355e-06,
      "loss": 1.4964,
      "mean_token_accuracy": 0.6445286770661672,
      "num_tokens": 28693212.0,
      "step": 171
    },
    {
      "entropy": 1.8890428642431896,
      "epoch": 0.01889538875614512,
      "grad_norm": 1.403101921081543,
      "learning_rate": 6.2522851919561244e-06,
      "loss": 1.4468,
      "mean_token_accuracy": 0.6386788686116537,
      "num_tokens": 28850662.0,
      "step": 172
    },
    {
      "entropy": 1.9007167915503185,
      "epoch": 0.01900524566751806,
      "grad_norm": 1.734114170074463,
      "learning_rate": 6.288848263254113e-06,
      "loss": 1.4575,
      "mean_token_accuracy": 0.6430951108535131,
      "num_tokens": 29008183.0,
      "step": 173
    },
    {
      "entropy": 1.9034869869550068,
      "epoch": 0.019115102578890996,
      "grad_norm": 1.3347978591918945,
      "learning_rate": 6.325411334552103e-06,
      "loss": 1.4581,
      "mean_token_accuracy": 0.636214479804039,
      "num_tokens": 29178708.0,
      "step": 174
    },
    {
      "entropy": 1.9231548706690471,
      "epoch": 0.01922495949026393,
      "grad_norm": 0.9329301714897156,
      "learning_rate": 6.361974405850092e-06,
      "loss": 1.433,
      "mean_token_accuracy": 0.6341615468263626,
      "num_tokens": 29404955.0,
      "step": 175
    },
    {
      "entropy": 1.9202434321244557,
      "epoch": 0.019334816401636867,
      "grad_norm": 1.496565341949463,
      "learning_rate": 6.398537477148081e-06,
      "loss": 1.4469,
      "mean_token_accuracy": 0.6378689457972845,
      "num_tokens": 29591016.0,
      "step": 176
    },
    {
      "entropy": 1.9373224675655365,
      "epoch": 0.019444673313009805,
      "grad_norm": 1.8180593252182007,
      "learning_rate": 6.435100548446071e-06,
      "loss": 1.4546,
      "mean_token_accuracy": 0.6288415739933649,
      "num_tokens": 29730607.0,
      "step": 177
    },
    {
      "entropy": 1.8911834458510082,
      "epoch": 0.019554530224382742,
      "grad_norm": 1.377733588218689,
      "learning_rate": 6.471663619744059e-06,
      "loss": 1.4094,
      "mean_token_accuracy": 0.6404121816158295,
      "num_tokens": 29945024.0,
      "step": 178
    },
    {
      "entropy": 1.9313226739565532,
      "epoch": 0.01966438713575568,
      "grad_norm": 1.3180339336395264,
      "learning_rate": 6.508226691042048e-06,
      "loss": 1.4791,
      "mean_token_accuracy": 0.6364747583866119,
      "num_tokens": 30130011.0,
      "step": 179
    },
    {
      "entropy": 1.8546662032604218,
      "epoch": 0.019774244047128613,
      "grad_norm": 0.9060352444648743,
      "learning_rate": 6.544789762340037e-06,
      "loss": 1.5613,
      "mean_token_accuracy": 0.6342605948448181,
      "num_tokens": 30414308.0,
      "step": 180
    },
    {
      "entropy": 1.9606173137823741,
      "epoch": 0.01988410095850155,
      "grad_norm": 1.4632275104522705,
      "learning_rate": 6.581352833638026e-06,
      "loss": 1.5579,
      "mean_token_accuracy": 0.618272011478742,
      "num_tokens": 30618377.0,
      "step": 181
    },
    {
      "entropy": 1.8522493441899617,
      "epoch": 0.019993957869874488,
      "grad_norm": 1.4936124086380005,
      "learning_rate": 6.617915904936015e-06,
      "loss": 1.4107,
      "mean_token_accuracy": 0.6411967029174169,
      "num_tokens": 30836318.0,
      "step": 182
    },
    {
      "entropy": 2.0339955588181815,
      "epoch": 0.020103814781247425,
      "grad_norm": 1.1835054159164429,
      "learning_rate": 6.654478976234004e-06,
      "loss": 1.5639,
      "mean_token_accuracy": 0.6246629556020101,
      "num_tokens": 31012714.0,
      "step": 183
    },
    {
      "entropy": 1.972231497367223,
      "epoch": 0.020213671692620363,
      "grad_norm": 2.2008109092712402,
      "learning_rate": 6.691042047531994e-06,
      "loss": 1.4934,
      "mean_token_accuracy": 0.6375860174496969,
      "num_tokens": 31125259.0,
      "step": 184
    },
    {
      "entropy": 1.9959478378295898,
      "epoch": 0.0203235286039933,
      "grad_norm": 1.3271251916885376,
      "learning_rate": 6.727605118829982e-06,
      "loss": 1.5039,
      "mean_token_accuracy": 0.6275109102328619,
      "num_tokens": 31303032.0,
      "step": 185
    },
    {
      "entropy": 1.9124859770139058,
      "epoch": 0.020433385515366234,
      "grad_norm": 1.273916244506836,
      "learning_rate": 6.764168190127971e-06,
      "loss": 1.5072,
      "mean_token_accuracy": 0.6474013924598694,
      "num_tokens": 31472688.0,
      "step": 186
    },
    {
      "entropy": 1.94366854429245,
      "epoch": 0.02054324242673917,
      "grad_norm": 1.5350209474563599,
      "learning_rate": 6.80073126142596e-06,
      "loss": 1.5753,
      "mean_token_accuracy": 0.6296733965476354,
      "num_tokens": 31603992.0,
      "step": 187
    },
    {
      "entropy": 1.830802450577418,
      "epoch": 0.02065309933811211,
      "grad_norm": 1.5503315925598145,
      "learning_rate": 6.83729433272395e-06,
      "loss": 1.5068,
      "mean_token_accuracy": 0.6352782646814982,
      "num_tokens": 31754236.0,
      "step": 188
    },
    {
      "entropy": 1.961773047844569,
      "epoch": 0.020762956249485046,
      "grad_norm": 1.3327734470367432,
      "learning_rate": 6.873857404021939e-06,
      "loss": 1.6572,
      "mean_token_accuracy": 0.6188698361317316,
      "num_tokens": 31951147.0,
      "step": 189
    },
    {
      "entropy": 1.9484667479991913,
      "epoch": 0.020872813160857984,
      "grad_norm": 1.9495567083358765,
      "learning_rate": 6.9104204753199275e-06,
      "loss": 1.4939,
      "mean_token_accuracy": 0.6419304311275482,
      "num_tokens": 32069372.0,
      "step": 190
    },
    {
      "entropy": 1.952804942925771,
      "epoch": 0.020982670072230918,
      "grad_norm": 2.0952329635620117,
      "learning_rate": 6.946983546617917e-06,
      "loss": 1.466,
      "mean_token_accuracy": 0.6325685183207194,
      "num_tokens": 32247672.0,
      "step": 191
    },
    {
      "entropy": 1.8967472811539967,
      "epoch": 0.021092526983603855,
      "grad_norm": 1.9613308906555176,
      "learning_rate": 6.983546617915905e-06,
      "loss": 1.4358,
      "mean_token_accuracy": 0.6374901284774145,
      "num_tokens": 32400081.0,
      "step": 192
    },
    {
      "entropy": 1.8581411341826122,
      "epoch": 0.021202383894976792,
      "grad_norm": 1.4401475191116333,
      "learning_rate": 7.020109689213894e-06,
      "loss": 1.4406,
      "mean_token_accuracy": 0.6475908011198044,
      "num_tokens": 32612337.0,
      "step": 193
    },
    {
      "entropy": 1.9438115656375885,
      "epoch": 0.02131224080634973,
      "grad_norm": 1.6511321067810059,
      "learning_rate": 7.056672760511883e-06,
      "loss": 1.569,
      "mean_token_accuracy": 0.6184766987959543,
      "num_tokens": 32757705.0,
      "step": 194
    },
    {
      "entropy": 1.8474779923756917,
      "epoch": 0.021422097717722667,
      "grad_norm": 1.7577476501464844,
      "learning_rate": 7.093235831809873e-06,
      "loss": 1.4082,
      "mean_token_accuracy": 0.6572687774896622,
      "num_tokens": 32909533.0,
      "step": 195
    },
    {
      "entropy": 1.9480952123800914,
      "epoch": 0.021531954629095604,
      "grad_norm": 1.2074416875839233,
      "learning_rate": 7.129798903107862e-06,
      "loss": 1.4497,
      "mean_token_accuracy": 0.6373476584752401,
      "num_tokens": 33091590.0,
      "step": 196
    },
    {
      "entropy": 1.8216406504313152,
      "epoch": 0.02164181154046854,
      "grad_norm": 1.491611361503601,
      "learning_rate": 7.166361974405851e-06,
      "loss": 1.419,
      "mean_token_accuracy": 0.6391265342632929,
      "num_tokens": 33261986.0,
      "step": 197
    },
    {
      "entropy": 1.9061803619066875,
      "epoch": 0.021751668451841476,
      "grad_norm": 1.422453761100769,
      "learning_rate": 7.2029250457038405e-06,
      "loss": 1.5071,
      "mean_token_accuracy": 0.6227595210075378,
      "num_tokens": 33436559.0,
      "step": 198
    },
    {
      "entropy": 1.9401950438817341,
      "epoch": 0.021861525363214413,
      "grad_norm": 1.4699177742004395,
      "learning_rate": 7.239488117001829e-06,
      "loss": 1.5314,
      "mean_token_accuracy": 0.6238148510456085,
      "num_tokens": 33610708.0,
      "step": 199
    },
    {
      "entropy": 1.9451914032300313,
      "epoch": 0.02197138227458735,
      "grad_norm": 1.5435770750045776,
      "learning_rate": 7.2760511882998175e-06,
      "loss": 1.7341,
      "mean_token_accuracy": 0.6216254606842995,
      "num_tokens": 33789223.0,
      "step": 200
    },
    {
      "entropy": 1.9354910055796306,
      "epoch": 0.022081239185960288,
      "grad_norm": 1.6288329362869263,
      "learning_rate": 7.3126142595978065e-06,
      "loss": 1.4906,
      "mean_token_accuracy": 0.6289151956637701,
      "num_tokens": 33926328.0,
      "step": 201
    },
    {
      "entropy": 1.920799712340037,
      "epoch": 0.022191096097333222,
      "grad_norm": 2.159276247024536,
      "learning_rate": 7.349177330895796e-06,
      "loss": 1.4639,
      "mean_token_accuracy": 0.6422193894783655,
      "num_tokens": 34086922.0,
      "step": 202
    },
    {
      "entropy": 1.8773599565029144,
      "epoch": 0.02230095300870616,
      "grad_norm": 1.5784872770309448,
      "learning_rate": 7.385740402193785e-06,
      "loss": 1.4203,
      "mean_token_accuracy": 0.6452515174945196,
      "num_tokens": 34234623.0,
      "step": 203
    },
    {
      "entropy": 1.9058987200260162,
      "epoch": 0.022410809920079097,
      "grad_norm": 1.9286620616912842,
      "learning_rate": 7.422303473491774e-06,
      "loss": 1.4685,
      "mean_token_accuracy": 0.6433494488398234,
      "num_tokens": 34403187.0,
      "step": 204
    },
    {
      "entropy": 1.9196257293224335,
      "epoch": 0.022520666831452034,
      "grad_norm": 1.517842411994934,
      "learning_rate": 7.458866544789764e-06,
      "loss": 1.4634,
      "mean_token_accuracy": 0.6412399162848791,
      "num_tokens": 34547042.0,
      "step": 205
    },
    {
      "entropy": 1.9245548446973164,
      "epoch": 0.02263052374282497,
      "grad_norm": 1.4361844062805176,
      "learning_rate": 7.495429616087752e-06,
      "loss": 1.5076,
      "mean_token_accuracy": 0.6369704306125641,
      "num_tokens": 34719845.0,
      "step": 206
    },
    {
      "entropy": 1.9506233930587769,
      "epoch": 0.02274038065419791,
      "grad_norm": 2.3668041229248047,
      "learning_rate": 7.531992687385741e-06,
      "loss": 1.4556,
      "mean_token_accuracy": 0.6397630920012792,
      "num_tokens": 34826986.0,
      "step": 207
    },
    {
      "entropy": 1.915660818417867,
      "epoch": 0.022850237565570843,
      "grad_norm": 1.7417556047439575,
      "learning_rate": 7.56855575868373e-06,
      "loss": 1.4855,
      "mean_token_accuracy": 0.628084714214007,
      "num_tokens": 34995629.0,
      "step": 208
    },
    {
      "entropy": 1.9720592200756073,
      "epoch": 0.02296009447694378,
      "grad_norm": 1.7598878145217896,
      "learning_rate": 7.6051188299817195e-06,
      "loss": 1.6025,
      "mean_token_accuracy": 0.6329106787840525,
      "num_tokens": 35109490.0,
      "step": 209
    },
    {
      "entropy": 1.9277808268864949,
      "epoch": 0.023069951388316717,
      "grad_norm": 1.1871633529663086,
      "learning_rate": 7.641681901279708e-06,
      "loss": 1.5092,
      "mean_token_accuracy": 0.6277731756369272,
      "num_tokens": 35273576.0,
      "step": 210
    },
    {
      "entropy": 1.9870645701885223,
      "epoch": 0.023179808299689655,
      "grad_norm": 1.901222825050354,
      "learning_rate": 7.678244972577698e-06,
      "loss": 1.6778,
      "mean_token_accuracy": 0.6138087809085846,
      "num_tokens": 35420120.0,
      "step": 211
    },
    {
      "entropy": 1.8992568055788677,
      "epoch": 0.023289665211062592,
      "grad_norm": 1.1016038656234741,
      "learning_rate": 7.714808043875686e-06,
      "loss": 1.4592,
      "mean_token_accuracy": 0.6364717036485672,
      "num_tokens": 35602325.0,
      "step": 212
    },
    {
      "entropy": 1.888885885477066,
      "epoch": 0.02339952212243553,
      "grad_norm": 2.0824167728424072,
      "learning_rate": 7.751371115173674e-06,
      "loss": 1.5275,
      "mean_token_accuracy": 0.6334254344304403,
      "num_tokens": 35733356.0,
      "step": 213
    },
    {
      "entropy": 1.982912798722585,
      "epoch": 0.023509379033808463,
      "grad_norm": 1.8428221940994263,
      "learning_rate": 7.787934186471664e-06,
      "loss": 1.6603,
      "mean_token_accuracy": 0.6229775846004486,
      "num_tokens": 35880300.0,
      "step": 214
    },
    {
      "entropy": 1.9338585535685222,
      "epoch": 0.0236192359451814,
      "grad_norm": 1.234574794769287,
      "learning_rate": 7.824497257769654e-06,
      "loss": 1.5378,
      "mean_token_accuracy": 0.6240969995657603,
      "num_tokens": 36069653.0,
      "step": 215
    },
    {
      "entropy": 1.9078516761461894,
      "epoch": 0.023729092856554338,
      "grad_norm": 1.3974380493164062,
      "learning_rate": 7.861060329067642e-06,
      "loss": 1.4083,
      "mean_token_accuracy": 0.6485424588123957,
      "num_tokens": 36230390.0,
      "step": 216
    },
    {
      "entropy": 1.9500950674215953,
      "epoch": 0.023838949767927275,
      "grad_norm": 1.337957501411438,
      "learning_rate": 7.897623400365632e-06,
      "loss": 1.6635,
      "mean_token_accuracy": 0.6214189380407333,
      "num_tokens": 36418461.0,
      "step": 217
    },
    {
      "entropy": 1.8814655443032582,
      "epoch": 0.023948806679300213,
      "grad_norm": 0.930263876914978,
      "learning_rate": 7.934186471663621e-06,
      "loss": 1.4714,
      "mean_token_accuracy": 0.6292876054843267,
      "num_tokens": 36666565.0,
      "step": 218
    },
    {
      "entropy": 1.9561232924461365,
      "epoch": 0.024058663590673147,
      "grad_norm": 1.3758008480072021,
      "learning_rate": 7.97074954296161e-06,
      "loss": 1.4744,
      "mean_token_accuracy": 0.6297362099091212,
      "num_tokens": 36831778.0,
      "step": 219
    },
    {
      "entropy": 1.9421695868174236,
      "epoch": 0.024168520502046084,
      "grad_norm": 1.9885149002075195,
      "learning_rate": 8.007312614259598e-06,
      "loss": 1.4071,
      "mean_token_accuracy": 0.6410440603892008,
      "num_tokens": 36984298.0,
      "step": 220
    },
    {
      "entropy": 1.9113211333751678,
      "epoch": 0.02427837741341902,
      "grad_norm": 1.6628094911575317,
      "learning_rate": 8.043875685557587e-06,
      "loss": 1.3944,
      "mean_token_accuracy": 0.6423366914192835,
      "num_tokens": 37123033.0,
      "step": 221
    },
    {
      "entropy": 1.8789688448111217,
      "epoch": 0.02438823432479196,
      "grad_norm": 1.8397406339645386,
      "learning_rate": 8.080438756855577e-06,
      "loss": 1.3697,
      "mean_token_accuracy": 0.6559399515390396,
      "num_tokens": 37276948.0,
      "step": 222
    },
    {
      "entropy": 1.9408772091070812,
      "epoch": 0.024498091236164896,
      "grad_norm": 1.2659918069839478,
      "learning_rate": 8.117001828153565e-06,
      "loss": 1.6394,
      "mean_token_accuracy": 0.6148115148146948,
      "num_tokens": 37493584.0,
      "step": 223
    },
    {
      "entropy": 1.9383413990338643,
      "epoch": 0.024607948147537834,
      "grad_norm": 2.0002858638763428,
      "learning_rate": 8.153564899451555e-06,
      "loss": 1.4873,
      "mean_token_accuracy": 0.6363619416952133,
      "num_tokens": 37625713.0,
      "step": 224
    },
    {
      "entropy": 1.8870685597260792,
      "epoch": 0.024717805058910768,
      "grad_norm": 1.661469578742981,
      "learning_rate": 8.190127970749545e-06,
      "loss": 1.5554,
      "mean_token_accuracy": 0.6477372944355011,
      "num_tokens": 37796925.0,
      "step": 225
    },
    {
      "entropy": 1.9707025090853374,
      "epoch": 0.024827661970283705,
      "grad_norm": 1.3756967782974243,
      "learning_rate": 8.226691042047533e-06,
      "loss": 1.6058,
      "mean_token_accuracy": 0.6214409867922465,
      "num_tokens": 37958284.0,
      "step": 226
    },
    {
      "entropy": 1.9486571947733562,
      "epoch": 0.024937518881656642,
      "grad_norm": 1.891913652420044,
      "learning_rate": 8.263254113345521e-06,
      "loss": 1.548,
      "mean_token_accuracy": 0.6239824940760931,
      "num_tokens": 38121912.0,
      "step": 227
    },
    {
      "entropy": 1.9066686630249023,
      "epoch": 0.02504737579302958,
      "grad_norm": 1.301985263824463,
      "learning_rate": 8.29981718464351e-06,
      "loss": 1.4455,
      "mean_token_accuracy": 0.6375877112150192,
      "num_tokens": 38293286.0,
      "step": 228
    },
    {
      "entropy": 1.9013386964797974,
      "epoch": 0.025157232704402517,
      "grad_norm": 1.0296814441680908,
      "learning_rate": 8.3363802559415e-06,
      "loss": 1.5593,
      "mean_token_accuracy": 0.6204620003700256,
      "num_tokens": 38493428.0,
      "step": 229
    },
    {
      "entropy": 1.889691025018692,
      "epoch": 0.02526708961577545,
      "grad_norm": 1.2949299812316895,
      "learning_rate": 8.372943327239488e-06,
      "loss": 1.4609,
      "mean_token_accuracy": 0.6394095073143641,
      "num_tokens": 38689047.0,
      "step": 230
    },
    {
      "entropy": 1.9693353275458019,
      "epoch": 0.02537694652714839,
      "grad_norm": 1.41304349899292,
      "learning_rate": 8.409506398537478e-06,
      "loss": 1.6868,
      "mean_token_accuracy": 0.6182350367307663,
      "num_tokens": 38874286.0,
      "step": 231
    },
    {
      "entropy": 1.9255563914775848,
      "epoch": 0.025486803438521326,
      "grad_norm": 2.2932870388031006,
      "learning_rate": 8.446069469835468e-06,
      "loss": 1.4642,
      "mean_token_accuracy": 0.6350040584802628,
      "num_tokens": 39041995.0,
      "step": 232
    },
    {
      "entropy": 1.8631162444750469,
      "epoch": 0.025596660349894263,
      "grad_norm": 1.4570585489273071,
      "learning_rate": 8.482632541133456e-06,
      "loss": 1.4474,
      "mean_token_accuracy": 0.6374172319968542,
      "num_tokens": 39247147.0,
      "step": 233
    },
    {
      "entropy": 1.9238406717777252,
      "epoch": 0.0257065172612672,
      "grad_norm": 0.969900369644165,
      "learning_rate": 8.519195612431444e-06,
      "loss": 1.5364,
      "mean_token_accuracy": 0.6210780193408331,
      "num_tokens": 39442503.0,
      "step": 234
    },
    {
      "entropy": 1.830154150724411,
      "epoch": 0.025816374172640138,
      "grad_norm": 1.632808804512024,
      "learning_rate": 8.555758683729434e-06,
      "loss": 1.3361,
      "mean_token_accuracy": 0.6548681904872259,
      "num_tokens": 39608656.0,
      "step": 235
    },
    {
      "entropy": 1.8890958329041798,
      "epoch": 0.025926231084013072,
      "grad_norm": 1.6013661623001099,
      "learning_rate": 8.592321755027424e-06,
      "loss": 1.4588,
      "mean_token_accuracy": 0.6372386415799459,
      "num_tokens": 39745398.0,
      "step": 236
    },
    {
      "entropy": 1.9264869689941406,
      "epoch": 0.02603608799538601,
      "grad_norm": 1.3071633577346802,
      "learning_rate": 8.628884826325412e-06,
      "loss": 1.5205,
      "mean_token_accuracy": 0.6315742234388987,
      "num_tokens": 39932055.0,
      "step": 237
    },
    {
      "entropy": 1.8503678143024445,
      "epoch": 0.026145944906758947,
      "grad_norm": 1.1339292526245117,
      "learning_rate": 8.665447897623402e-06,
      "loss": 1.3504,
      "mean_token_accuracy": 0.647294615705808,
      "num_tokens": 40125022.0,
      "step": 238
    },
    {
      "entropy": 1.9106312990188599,
      "epoch": 0.026255801818131884,
      "grad_norm": 1.3184049129486084,
      "learning_rate": 8.702010968921391e-06,
      "loss": 1.5338,
      "mean_token_accuracy": 0.6321128904819489,
      "num_tokens": 40314336.0,
      "step": 239
    },
    {
      "entropy": 1.8953208327293396,
      "epoch": 0.02636565872950482,
      "grad_norm": 1.3068339824676514,
      "learning_rate": 8.73857404021938e-06,
      "loss": 1.5125,
      "mean_token_accuracy": 0.6311918099721273,
      "num_tokens": 40500962.0,
      "step": 240
    },
    {
      "entropy": 1.8495961129665375,
      "epoch": 0.026475515640877755,
      "grad_norm": 1.4714800119400024,
      "learning_rate": 8.775137111517367e-06,
      "loss": 1.4861,
      "mean_token_accuracy": 0.6417611440022787,
      "num_tokens": 40684363.0,
      "step": 241
    },
    {
      "entropy": 1.9483478566010792,
      "epoch": 0.026585372552250693,
      "grad_norm": 1.7499563694000244,
      "learning_rate": 8.811700182815357e-06,
      "loss": 1.513,
      "mean_token_accuracy": 0.6161421338717142,
      "num_tokens": 40854917.0,
      "step": 242
    },
    {
      "entropy": 1.9359776973724365,
      "epoch": 0.02669522946362363,
      "grad_norm": 1.2601664066314697,
      "learning_rate": 8.848263254113347e-06,
      "loss": 1.5529,
      "mean_token_accuracy": 0.614978551864624,
      "num_tokens": 41041982.0,
      "step": 243
    },
    {
      "entropy": 1.9827852447827656,
      "epoch": 0.026805086374996567,
      "grad_norm": 1.3667547702789307,
      "learning_rate": 8.884826325411335e-06,
      "loss": 1.5346,
      "mean_token_accuracy": 0.6175629794597626,
      "num_tokens": 41252018.0,
      "step": 244
    },
    {
      "entropy": 1.9970279932022095,
      "epoch": 0.026914943286369505,
      "grad_norm": 4.996973037719727,
      "learning_rate": 8.921389396709325e-06,
      "loss": 1.4708,
      "mean_token_accuracy": 0.6463018904129664,
      "num_tokens": 41388067.0,
      "step": 245
    },
    {
      "entropy": 1.95156333843867,
      "epoch": 0.027024800197742442,
      "grad_norm": 1.5964291095733643,
      "learning_rate": 8.957952468007315e-06,
      "loss": 1.633,
      "mean_token_accuracy": 0.611007904012998,
      "num_tokens": 41521865.0,
      "step": 246
    },
    {
      "entropy": 1.8909566402435303,
      "epoch": 0.027134657109115376,
      "grad_norm": 1.72969388961792,
      "learning_rate": 8.994515539305303e-06,
      "loss": 1.487,
      "mean_token_accuracy": 0.6293840358654658,
      "num_tokens": 41653324.0,
      "step": 247
    },
    {
      "entropy": 1.8896038234233856,
      "epoch": 0.027244514020488313,
      "grad_norm": 1.3360822200775146,
      "learning_rate": 9.03107861060329e-06,
      "loss": 1.474,
      "mean_token_accuracy": 0.6422435492277145,
      "num_tokens": 41849809.0,
      "step": 248
    },
    {
      "entropy": 1.9821850061416626,
      "epoch": 0.02735437093186125,
      "grad_norm": 1.6421992778778076,
      "learning_rate": 9.06764168190128e-06,
      "loss": 1.451,
      "mean_token_accuracy": 0.6302864154179891,
      "num_tokens": 41996056.0,
      "step": 249
    },
    {
      "entropy": 1.8893661499023438,
      "epoch": 0.027464227843234188,
      "grad_norm": 1.9778544902801514,
      "learning_rate": 9.10420475319927e-06,
      "loss": 1.4556,
      "mean_token_accuracy": 0.6386625617742538,
      "num_tokens": 42136282.0,
      "step": 250
    },
    {
      "entropy": 1.964593380689621,
      "epoch": 0.027574084754607125,
      "grad_norm": 1.21237313747406,
      "learning_rate": 9.140767824497258e-06,
      "loss": 1.5264,
      "mean_token_accuracy": 0.6220163901646932,
      "num_tokens": 42287103.0,
      "step": 251
    },
    {
      "entropy": 1.8926392396291096,
      "epoch": 0.02768394166598006,
      "grad_norm": 1.2302354574203491,
      "learning_rate": 9.177330895795248e-06,
      "loss": 1.4971,
      "mean_token_accuracy": 0.6313800662755966,
      "num_tokens": 42437027.0,
      "step": 252
    },
    {
      "entropy": 1.8762815594673157,
      "epoch": 0.027793798577352997,
      "grad_norm": 1.0389925241470337,
      "learning_rate": 9.213893967093238e-06,
      "loss": 1.5259,
      "mean_token_accuracy": 0.6269082774718603,
      "num_tokens": 42628984.0,
      "step": 253
    },
    {
      "entropy": 1.861397624015808,
      "epoch": 0.027903655488725934,
      "grad_norm": 1.1108849048614502,
      "learning_rate": 9.250457038391226e-06,
      "loss": 1.6276,
      "mean_token_accuracy": 0.6273967996239662,
      "num_tokens": 42804896.0,
      "step": 254
    },
    {
      "entropy": 1.9415236016114552,
      "epoch": 0.02801351240009887,
      "grad_norm": 1.8820470571517944,
      "learning_rate": 9.287020109689214e-06,
      "loss": 1.579,
      "mean_token_accuracy": 0.6264342914024988,
      "num_tokens": 42935360.0,
      "step": 255
    },
    {
      "entropy": 1.9186277190844219,
      "epoch": 0.02812336931147181,
      "grad_norm": 1.1692508459091187,
      "learning_rate": 9.323583180987204e-06,
      "loss": 1.4381,
      "mean_token_accuracy": 0.6264500568310419,
      "num_tokens": 43136428.0,
      "step": 256
    },
    {
      "entropy": 1.9373709559440613,
      "epoch": 0.028233226222844746,
      "grad_norm": 1.8746132850646973,
      "learning_rate": 9.360146252285193e-06,
      "loss": 1.4601,
      "mean_token_accuracy": 0.6457020888725916,
      "num_tokens": 43287978.0,
      "step": 257
    },
    {
      "entropy": 1.9027895232041676,
      "epoch": 0.02834308313421768,
      "grad_norm": 1.2509558200836182,
      "learning_rate": 9.396709323583182e-06,
      "loss": 1.4337,
      "mean_token_accuracy": 0.6443447520335516,
      "num_tokens": 43436841.0,
      "step": 258
    },
    {
      "entropy": 1.863025466601054,
      "epoch": 0.028452940045590618,
      "grad_norm": 1.5175418853759766,
      "learning_rate": 9.433272394881171e-06,
      "loss": 1.3925,
      "mean_token_accuracy": 0.65195099512736,
      "num_tokens": 43575151.0,
      "step": 259
    },
    {
      "entropy": 1.9013051688671112,
      "epoch": 0.028562796956963555,
      "grad_norm": 1.6341294050216675,
      "learning_rate": 9.469835466179161e-06,
      "loss": 1.5872,
      "mean_token_accuracy": 0.6424743135770162,
      "num_tokens": 43716089.0,
      "step": 260
    },
    {
      "entropy": 1.9514261881510417,
      "epoch": 0.028672653868336492,
      "grad_norm": 1.6734215021133423,
      "learning_rate": 9.50639853747715e-06,
      "loss": 1.5115,
      "mean_token_accuracy": 0.6237670431534449,
      "num_tokens": 43853512.0,
      "step": 261
    },
    {
      "entropy": 1.9595048030217488,
      "epoch": 0.02878251077970943,
      "grad_norm": 2.273057460784912,
      "learning_rate": 9.542961608775137e-06,
      "loss": 1.45,
      "mean_token_accuracy": 0.639571433266004,
      "num_tokens": 43964136.0,
      "step": 262
    },
    {
      "entropy": 1.86832395195961,
      "epoch": 0.028892367691082364,
      "grad_norm": 1.6332321166992188,
      "learning_rate": 9.579524680073127e-06,
      "loss": 1.481,
      "mean_token_accuracy": 0.6361501961946487,
      "num_tokens": 44106187.0,
      "step": 263
    },
    {
      "entropy": 1.8855204284191132,
      "epoch": 0.0290022246024553,
      "grad_norm": 1.0685125589370728,
      "learning_rate": 9.616087751371117e-06,
      "loss": 1.4531,
      "mean_token_accuracy": 0.6394118815660477,
      "num_tokens": 44263324.0,
      "step": 264
    },
    {
      "entropy": 1.9358879923820496,
      "epoch": 0.02911208151382824,
      "grad_norm": 1.6074949502944946,
      "learning_rate": 9.652650822669105e-06,
      "loss": 1.4889,
      "mean_token_accuracy": 0.643065462509791,
      "num_tokens": 44383088.0,
      "step": 265
    },
    {
      "entropy": 1.893241822719574,
      "epoch": 0.029221938425201176,
      "grad_norm": 1.4432519674301147,
      "learning_rate": 9.689213893967095e-06,
      "loss": 1.3719,
      "mean_token_accuracy": 0.6543690661589304,
      "num_tokens": 44514573.0,
      "step": 266
    },
    {
      "entropy": 1.9079320927460988,
      "epoch": 0.029331795336574113,
      "grad_norm": 1.385563611984253,
      "learning_rate": 9.725776965265084e-06,
      "loss": 1.4954,
      "mean_token_accuracy": 0.6275987525780996,
      "num_tokens": 44664023.0,
      "step": 267
    },
    {
      "entropy": 1.9555991490681965,
      "epoch": 0.02944165224794705,
      "grad_norm": 1.320134162902832,
      "learning_rate": 9.762340036563072e-06,
      "loss": 1.528,
      "mean_token_accuracy": 0.6275275399287542,
      "num_tokens": 44806322.0,
      "step": 268
    },
    {
      "entropy": 1.9195038080215454,
      "epoch": 0.029551509159319984,
      "grad_norm": 1.5830590724945068,
      "learning_rate": 9.79890310786106e-06,
      "loss": 1.4392,
      "mean_token_accuracy": 0.6394519209861755,
      "num_tokens": 44943371.0,
      "step": 269
    },
    {
      "entropy": 1.9248672624429066,
      "epoch": 0.029661366070692922,
      "grad_norm": 1.2923870086669922,
      "learning_rate": 9.83546617915905e-06,
      "loss": 1.5068,
      "mean_token_accuracy": 0.6360269586245219,
      "num_tokens": 45101406.0,
      "step": 270
    },
    {
      "entropy": 1.9413983821868896,
      "epoch": 0.02977122298206586,
      "grad_norm": 1.126284122467041,
      "learning_rate": 9.87202925045704e-06,
      "loss": 1.5993,
      "mean_token_accuracy": 0.6119322826464971,
      "num_tokens": 45359982.0,
      "step": 271
    },
    {
      "entropy": 1.9256538450717926,
      "epoch": 0.029881079893438797,
      "grad_norm": 1.5768324136734009,
      "learning_rate": 9.908592321755028e-06,
      "loss": 1.5289,
      "mean_token_accuracy": 0.6280013422171274,
      "num_tokens": 45489978.0,
      "step": 272
    },
    {
      "entropy": 1.9650197923183441,
      "epoch": 0.029990936804811734,
      "grad_norm": 2.4262402057647705,
      "learning_rate": 9.945155393053018e-06,
      "loss": 1.4462,
      "mean_token_accuracy": 0.6426471074422201,
      "num_tokens": 45591818.0,
      "step": 273
    },
    {
      "entropy": 1.966247429450353,
      "epoch": 0.030100793716184668,
      "grad_norm": 1.6343317031860352,
      "learning_rate": 9.981718464351006e-06,
      "loss": 1.4539,
      "mean_token_accuracy": 0.6315440734227499,
      "num_tokens": 45786109.0,
      "step": 274
    },
    {
      "entropy": 1.9131847222646077,
      "epoch": 0.030210650627557605,
      "grad_norm": 0.7987267971038818,
      "learning_rate": 1.0018281535648996e-05,
      "loss": 1.5537,
      "mean_token_accuracy": 0.6154775619506836,
      "num_tokens": 46015605.0,
      "step": 275
    },
    {
      "entropy": 1.9687570333480835,
      "epoch": 0.030320507538930543,
      "grad_norm": 1.7003246545791626,
      "learning_rate": 1.0054844606946985e-05,
      "loss": 1.5739,
      "mean_token_accuracy": 0.6201535413662592,
      "num_tokens": 46170159.0,
      "step": 276
    },
    {
      "entropy": 1.9644801914691925,
      "epoch": 0.03043036445030348,
      "grad_norm": 0.9804157614707947,
      "learning_rate": 1.0091407678244974e-05,
      "loss": 1.5158,
      "mean_token_accuracy": 0.6364769091208776,
      "num_tokens": 46387669.0,
      "step": 277
    },
    {
      "entropy": 1.898623416821162,
      "epoch": 0.030540221361676417,
      "grad_norm": 1.5173487663269043,
      "learning_rate": 1.0127970749542962e-05,
      "loss": 1.4926,
      "mean_token_accuracy": 0.6275862356026968,
      "num_tokens": 46563977.0,
      "step": 278
    },
    {
      "entropy": 1.995850036541621,
      "epoch": 0.030650078273049355,
      "grad_norm": 1.4851152896881104,
      "learning_rate": 1.0164533820840951e-05,
      "loss": 1.4706,
      "mean_token_accuracy": 0.6297584424416224,
      "num_tokens": 46718556.0,
      "step": 279
    },
    {
      "entropy": 1.8533688286940257,
      "epoch": 0.03075993518442229,
      "grad_norm": 1.2799378633499146,
      "learning_rate": 1.020109689213894e-05,
      "loss": 1.4704,
      "mean_token_accuracy": 0.6369777669509252,
      "num_tokens": 46878881.0,
      "step": 280
    },
    {
      "entropy": 1.9496891895929973,
      "epoch": 0.030869792095795226,
      "grad_norm": 7.689694404602051,
      "learning_rate": 1.023765996343693e-05,
      "loss": 1.443,
      "mean_token_accuracy": 0.6240266213814417,
      "num_tokens": 47091397.0,
      "step": 281
    },
    {
      "entropy": 1.9444605509440105,
      "epoch": 0.030979649007168163,
      "grad_norm": 2.042428970336914,
      "learning_rate": 1.0274223034734917e-05,
      "loss": 1.4686,
      "mean_token_accuracy": 0.6330529451370239,
      "num_tokens": 47221651.0,
      "step": 282
    },
    {
      "entropy": 1.889829029639562,
      "epoch": 0.0310895059185411,
      "grad_norm": 1.3333542346954346,
      "learning_rate": 1.0310786106032909e-05,
      "loss": 1.4242,
      "mean_token_accuracy": 0.6345295310020447,
      "num_tokens": 47396569.0,
      "step": 283
    },
    {
      "entropy": 1.844144841035207,
      "epoch": 0.031199362829914038,
      "grad_norm": 1.2614295482635498,
      "learning_rate": 1.0347349177330897e-05,
      "loss": 1.4626,
      "mean_token_accuracy": 0.6344168136517206,
      "num_tokens": 47542762.0,
      "step": 284
    },
    {
      "entropy": 1.8404381672541301,
      "epoch": 0.031309219741286975,
      "grad_norm": 2.0773274898529053,
      "learning_rate": 1.0383912248628885e-05,
      "loss": 1.3985,
      "mean_token_accuracy": 0.6463861962159475,
      "num_tokens": 47669565.0,
      "step": 285
    },
    {
      "entropy": 1.8757590055465698,
      "epoch": 0.03141907665265991,
      "grad_norm": 0.996104896068573,
      "learning_rate": 1.0420475319926875e-05,
      "loss": 1.4716,
      "mean_token_accuracy": 0.6297437200943629,
      "num_tokens": 47852702.0,
      "step": 286
    },
    {
      "entropy": 1.957614282766978,
      "epoch": 0.03152893356403285,
      "grad_norm": 1.0234733819961548,
      "learning_rate": 1.0457038391224863e-05,
      "loss": 1.5283,
      "mean_token_accuracy": 0.628383403023084,
      "num_tokens": 48039754.0,
      "step": 287
    },
    {
      "entropy": 1.8798251052697499,
      "epoch": 0.031638790475405784,
      "grad_norm": 1.2098981142044067,
      "learning_rate": 1.0493601462522852e-05,
      "loss": 1.5128,
      "mean_token_accuracy": 0.6379542450110117,
      "num_tokens": 48191936.0,
      "step": 288
    },
    {
      "entropy": 1.8851182560125987,
      "epoch": 0.03174864738677872,
      "grad_norm": 1.206680178642273,
      "learning_rate": 1.053016453382084e-05,
      "loss": 1.5542,
      "mean_token_accuracy": 0.6433884302775065,
      "num_tokens": 48385870.0,
      "step": 289
    },
    {
      "entropy": 1.8928188979625702,
      "epoch": 0.03185850429815166,
      "grad_norm": 1.523961067199707,
      "learning_rate": 1.0566727605118832e-05,
      "loss": 1.432,
      "mean_token_accuracy": 0.6425420343875885,
      "num_tokens": 48558121.0,
      "step": 290
    },
    {
      "entropy": 1.945473462343216,
      "epoch": 0.03196836120952459,
      "grad_norm": 0.9344412088394165,
      "learning_rate": 1.060329067641682e-05,
      "loss": 1.5703,
      "mean_token_accuracy": 0.6286270767450333,
      "num_tokens": 48722343.0,
      "step": 291
    },
    {
      "entropy": 1.881322979927063,
      "epoch": 0.032078218120897534,
      "grad_norm": 0.9196475148200989,
      "learning_rate": 1.0639853747714808e-05,
      "loss": 1.5234,
      "mean_token_accuracy": 0.6369537711143494,
      "num_tokens": 48887704.0,
      "step": 292
    },
    {
      "entropy": 1.933806041876475,
      "epoch": 0.03218807503227047,
      "grad_norm": 1.59644615650177,
      "learning_rate": 1.0676416819012798e-05,
      "loss": 1.4071,
      "mean_token_accuracy": 0.6504911333322525,
      "num_tokens": 49020557.0,
      "step": 293
    },
    {
      "entropy": 1.9321398834387462,
      "epoch": 0.0322979319436434,
      "grad_norm": 0.9138100147247314,
      "learning_rate": 1.0712979890310786e-05,
      "loss": 1.5022,
      "mean_token_accuracy": 0.6257292628288269,
      "num_tokens": 49207179.0,
      "step": 294
    },
    {
      "entropy": 1.968072275320689,
      "epoch": 0.03240778885501634,
      "grad_norm": 1.0833994150161743,
      "learning_rate": 1.0749542961608776e-05,
      "loss": 1.5052,
      "mean_token_accuracy": 0.6170014639695486,
      "num_tokens": 49368907.0,
      "step": 295
    },
    {
      "entropy": 1.897968828678131,
      "epoch": 0.032517645766389276,
      "grad_norm": 1.578821063041687,
      "learning_rate": 1.0786106032906764e-05,
      "loss": 1.4847,
      "mean_token_accuracy": 0.6308430184920629,
      "num_tokens": 49501311.0,
      "step": 296
    },
    {
      "entropy": 1.8983619312445323,
      "epoch": 0.03262750267776222,
      "grad_norm": 0.7992421388626099,
      "learning_rate": 1.0822669104204755e-05,
      "loss": 1.5683,
      "mean_token_accuracy": 0.622817466656367,
      "num_tokens": 49710655.0,
      "step": 297
    },
    {
      "entropy": 1.904332121213277,
      "epoch": 0.03273735958913515,
      "grad_norm": 0.8225474953651428,
      "learning_rate": 1.0859232175502743e-05,
      "loss": 1.6713,
      "mean_token_accuracy": 0.6234669287999471,
      "num_tokens": 49927190.0,
      "step": 298
    },
    {
      "entropy": 1.9980522493521373,
      "epoch": 0.032847216500508085,
      "grad_norm": 1.2448490858078003,
      "learning_rate": 1.0895795246800731e-05,
      "loss": 1.72,
      "mean_token_accuracy": 0.6147239456574122,
      "num_tokens": 50130606.0,
      "step": 299
    },
    {
      "entropy": 1.8948036630948384,
      "epoch": 0.032957073411881026,
      "grad_norm": 0.9344723224639893,
      "learning_rate": 1.0932358318098721e-05,
      "loss": 1.4923,
      "mean_token_accuracy": 0.636970043182373,
      "num_tokens": 50313035.0,
      "step": 300
    },
    {
      "entropy": 1.9244210918744404,
      "epoch": 0.03306693032325396,
      "grad_norm": 1.0805492401123047,
      "learning_rate": 1.096892138939671e-05,
      "loss": 1.5029,
      "mean_token_accuracy": 0.6375883320967356,
      "num_tokens": 50508718.0,
      "step": 301
    },
    {
      "entropy": 1.9689223965009053,
      "epoch": 0.0331767872346269,
      "grad_norm": 1.3119393587112427,
      "learning_rate": 1.1005484460694699e-05,
      "loss": 1.6139,
      "mean_token_accuracy": 0.6174919605255127,
      "num_tokens": 50686071.0,
      "step": 302
    },
    {
      "entropy": 1.9293088515599568,
      "epoch": 0.033286644145999834,
      "grad_norm": 1.0145171880722046,
      "learning_rate": 1.1042047531992687e-05,
      "loss": 1.4831,
      "mean_token_accuracy": 0.634314775466919,
      "num_tokens": 50862535.0,
      "step": 303
    },
    {
      "entropy": 1.9416919847329457,
      "epoch": 0.033396501057372775,
      "grad_norm": 1.5745701789855957,
      "learning_rate": 1.1078610603290679e-05,
      "loss": 1.5724,
      "mean_token_accuracy": 0.63288913667202,
      "num_tokens": 51040714.0,
      "step": 304
    },
    {
      "entropy": 1.914773811896642,
      "epoch": 0.03350635796874571,
      "grad_norm": 1.8054081201553345,
      "learning_rate": 1.1115173674588667e-05,
      "loss": 1.4908,
      "mean_token_accuracy": 0.6410078605016073,
      "num_tokens": 51196791.0,
      "step": 305
    },
    {
      "entropy": 1.8429247538248699,
      "epoch": 0.03361621488011864,
      "grad_norm": 0.9021672606468201,
      "learning_rate": 1.1151736745886655e-05,
      "loss": 1.584,
      "mean_token_accuracy": 0.6183707366387049,
      "num_tokens": 51438626.0,
      "step": 306
    },
    {
      "entropy": 1.926130364338557,
      "epoch": 0.033726071791491584,
      "grad_norm": 1.2748171091079712,
      "learning_rate": 1.1188299817184644e-05,
      "loss": 1.4385,
      "mean_token_accuracy": 0.6522895991802216,
      "num_tokens": 51584083.0,
      "step": 307
    },
    {
      "entropy": 1.893998791774114,
      "epoch": 0.03383592870286452,
      "grad_norm": 0.9571841955184937,
      "learning_rate": 1.1224862888482633e-05,
      "loss": 1.4666,
      "mean_token_accuracy": 0.638142466545105,
      "num_tokens": 51765032.0,
      "step": 308
    },
    {
      "entropy": 2.0008548498153687,
      "epoch": 0.03394578561423746,
      "grad_norm": 1.4947288036346436,
      "learning_rate": 1.1261425959780622e-05,
      "loss": 1.4839,
      "mean_token_accuracy": 0.6292637437582016,
      "num_tokens": 51912342.0,
      "step": 309
    },
    {
      "entropy": 1.8920707205931346,
      "epoch": 0.03405564252561039,
      "grad_norm": 1.2760716676712036,
      "learning_rate": 1.129798903107861e-05,
      "loss": 1.4213,
      "mean_token_accuracy": 0.6458606521288554,
      "num_tokens": 52051740.0,
      "step": 310
    },
    {
      "entropy": 1.9140145977338154,
      "epoch": 0.034165499436983326,
      "grad_norm": 0.9365392923355103,
      "learning_rate": 1.1334552102376602e-05,
      "loss": 1.5388,
      "mean_token_accuracy": 0.6314593305190405,
      "num_tokens": 52231050.0,
      "step": 311
    },
    {
      "entropy": 1.9039499859015148,
      "epoch": 0.03427535634835627,
      "grad_norm": 1.0918009281158447,
      "learning_rate": 1.137111517367459e-05,
      "loss": 1.6301,
      "mean_token_accuracy": 0.6101748992999395,
      "num_tokens": 52405268.0,
      "step": 312
    },
    {
      "entropy": 1.9176567395528157,
      "epoch": 0.0343852132597292,
      "grad_norm": 1.2120338678359985,
      "learning_rate": 1.1407678244972578e-05,
      "loss": 1.5766,
      "mean_token_accuracy": 0.6275134632984797,
      "num_tokens": 52615722.0,
      "step": 313
    },
    {
      "entropy": 1.8687150677045186,
      "epoch": 0.03449507017110214,
      "grad_norm": 1.3236573934555054,
      "learning_rate": 1.1444241316270568e-05,
      "loss": 1.5724,
      "mean_token_accuracy": 0.6229855716228485,
      "num_tokens": 52788308.0,
      "step": 314
    },
    {
      "entropy": 1.9559665719668071,
      "epoch": 0.034604927082475076,
      "grad_norm": 1.5506702661514282,
      "learning_rate": 1.1480804387568556e-05,
      "loss": 1.5085,
      "mean_token_accuracy": 0.6220680375893911,
      "num_tokens": 52927707.0,
      "step": 315
    },
    {
      "entropy": 1.88349653283755,
      "epoch": 0.03471478399384801,
      "grad_norm": 1.3259515762329102,
      "learning_rate": 1.1517367458866546e-05,
      "loss": 1.5174,
      "mean_token_accuracy": 0.6426070580879847,
      "num_tokens": 53062021.0,
      "step": 316
    },
    {
      "entropy": 1.9310015539328258,
      "epoch": 0.03482464090522095,
      "grad_norm": 1.5750491619110107,
      "learning_rate": 1.1553930530164534e-05,
      "loss": 1.5892,
      "mean_token_accuracy": 0.61604871849219,
      "num_tokens": 53181467.0,
      "step": 317
    },
    {
      "entropy": 1.8769896825154622,
      "epoch": 0.034934497816593885,
      "grad_norm": 0.743971049785614,
      "learning_rate": 1.1590493601462525e-05,
      "loss": 1.5217,
      "mean_token_accuracy": 0.6268236736456553,
      "num_tokens": 53407027.0,
      "step": 318
    },
    {
      "entropy": 1.9732247789700825,
      "epoch": 0.035044354727966825,
      "grad_norm": 1.4356918334960938,
      "learning_rate": 1.1627056672760513e-05,
      "loss": 1.4453,
      "mean_token_accuracy": 0.626713772614797,
      "num_tokens": 53556426.0,
      "step": 319
    },
    {
      "entropy": 1.9230054517587025,
      "epoch": 0.03515421163933976,
      "grad_norm": 1.635143756866455,
      "learning_rate": 1.1663619744058501e-05,
      "loss": 1.4392,
      "mean_token_accuracy": 0.6414381017287573,
      "num_tokens": 53663337.0,
      "step": 320
    },
    {
      "entropy": 1.9362250169118245,
      "epoch": 0.03526406855071269,
      "grad_norm": 1.7073150873184204,
      "learning_rate": 1.1700182815356491e-05,
      "loss": 1.617,
      "mean_token_accuracy": 0.6255223502715429,
      "num_tokens": 53799717.0,
      "step": 321
    },
    {
      "entropy": 1.8816980421543121,
      "epoch": 0.035373925462085634,
      "grad_norm": 1.4336020946502686,
      "learning_rate": 1.1736745886654479e-05,
      "loss": 1.4752,
      "mean_token_accuracy": 0.6383567899465561,
      "num_tokens": 53946152.0,
      "step": 322
    },
    {
      "entropy": 1.8929463227589924,
      "epoch": 0.03548378237345857,
      "grad_norm": 2.153032064437866,
      "learning_rate": 1.1773308957952469e-05,
      "loss": 1.5695,
      "mean_token_accuracy": 0.6398225873708725,
      "num_tokens": 54116796.0,
      "step": 323
    },
    {
      "entropy": 1.8566848436991374,
      "epoch": 0.03559363928483151,
      "grad_norm": 0.8859526515007019,
      "learning_rate": 1.1809872029250457e-05,
      "loss": 1.5324,
      "mean_token_accuracy": 0.6276658624410629,
      "num_tokens": 54293425.0,
      "step": 324
    },
    {
      "entropy": 1.8859939277172089,
      "epoch": 0.03570349619620444,
      "grad_norm": 1.7319366931915283,
      "learning_rate": 1.1846435100548448e-05,
      "loss": 1.4423,
      "mean_token_accuracy": 0.6443535685539246,
      "num_tokens": 54418340.0,
      "step": 325
    },
    {
      "entropy": 1.8691116273403168,
      "epoch": 0.035813353107577384,
      "grad_norm": 0.8846819400787354,
      "learning_rate": 1.1882998171846436e-05,
      "loss": 1.5374,
      "mean_token_accuracy": 0.6237656573454539,
      "num_tokens": 54593530.0,
      "step": 326
    },
    {
      "entropy": 1.9191945890585582,
      "epoch": 0.03592321001895032,
      "grad_norm": 1.6270257234573364,
      "learning_rate": 1.1919561243144425e-05,
      "loss": 1.3593,
      "mean_token_accuracy": 0.6514436999956766,
      "num_tokens": 54754982.0,
      "step": 327
    },
    {
      "entropy": 1.9296835362911224,
      "epoch": 0.03603306693032325,
      "grad_norm": 1.3112103939056396,
      "learning_rate": 1.1956124314442414e-05,
      "loss": 1.548,
      "mean_token_accuracy": 0.6345210323731104,
      "num_tokens": 54911330.0,
      "step": 328
    },
    {
      "entropy": 1.9412719508012135,
      "epoch": 0.03614292384169619,
      "grad_norm": 1.8282943964004517,
      "learning_rate": 1.1992687385740402e-05,
      "loss": 1.5502,
      "mean_token_accuracy": 0.6237274209658304,
      "num_tokens": 55070562.0,
      "step": 329
    },
    {
      "entropy": 1.9365448355674744,
      "epoch": 0.036252780753069126,
      "grad_norm": 1.3936512470245361,
      "learning_rate": 1.2029250457038392e-05,
      "loss": 1.4556,
      "mean_token_accuracy": 0.635651042064031,
      "num_tokens": 55234754.0,
      "step": 330
    },
    {
      "entropy": 1.90728959441185,
      "epoch": 0.03636263766444207,
      "grad_norm": 1.0101035833358765,
      "learning_rate": 1.206581352833638e-05,
      "loss": 1.4667,
      "mean_token_accuracy": 0.6326676507790884,
      "num_tokens": 55403593.0,
      "step": 331
    },
    {
      "entropy": 1.9017587800820668,
      "epoch": 0.036472494575815,
      "grad_norm": 0.9737944006919861,
      "learning_rate": 1.2102376599634372e-05,
      "loss": 1.4969,
      "mean_token_accuracy": 0.6238344510396322,
      "num_tokens": 55615207.0,
      "step": 332
    },
    {
      "entropy": 1.9239464402198792,
      "epoch": 0.036582351487187935,
      "grad_norm": 1.1247916221618652,
      "learning_rate": 1.213893967093236e-05,
      "loss": 1.5176,
      "mean_token_accuracy": 0.6404502739508947,
      "num_tokens": 55772900.0,
      "step": 333
    },
    {
      "entropy": 1.97471684217453,
      "epoch": 0.036692208398560876,
      "grad_norm": 1.3233532905578613,
      "learning_rate": 1.2175502742230348e-05,
      "loss": 1.463,
      "mean_token_accuracy": 0.6393190721670786,
      "num_tokens": 55917794.0,
      "step": 334
    },
    {
      "entropy": 1.8958436946074169,
      "epoch": 0.03680206530993381,
      "grad_norm": 1.441660761833191,
      "learning_rate": 1.2212065813528338e-05,
      "loss": 1.413,
      "mean_token_accuracy": 0.6413801709810892,
      "num_tokens": 56056541.0,
      "step": 335
    },
    {
      "entropy": 1.9842320779959361,
      "epoch": 0.03691192222130675,
      "grad_norm": 1.0363242626190186,
      "learning_rate": 1.2248628884826326e-05,
      "loss": 1.4963,
      "mean_token_accuracy": 0.6350095023711523,
      "num_tokens": 56192437.0,
      "step": 336
    },
    {
      "entropy": 1.9338072041670482,
      "epoch": 0.037021779132679684,
      "grad_norm": 1.5733563899993896,
      "learning_rate": 1.2285191956124315e-05,
      "loss": 1.554,
      "mean_token_accuracy": 0.6295024752616882,
      "num_tokens": 56358968.0,
      "step": 337
    },
    {
      "entropy": 1.897556722164154,
      "epoch": 0.03713163604405262,
      "grad_norm": 0.9414510130882263,
      "learning_rate": 1.2321755027422303e-05,
      "loss": 1.4555,
      "mean_token_accuracy": 0.6441336075464884,
      "num_tokens": 56547658.0,
      "step": 338
    },
    {
      "entropy": 1.9216489593187969,
      "epoch": 0.03724149295542556,
      "grad_norm": 0.890693187713623,
      "learning_rate": 1.2358318098720295e-05,
      "loss": 1.5634,
      "mean_token_accuracy": 0.6117081145445505,
      "num_tokens": 56755945.0,
      "step": 339
    },
    {
      "entropy": 1.878822495539983,
      "epoch": 0.03735134986679849,
      "grad_norm": 1.6289485692977905,
      "learning_rate": 1.2394881170018283e-05,
      "loss": 1.346,
      "mean_token_accuracy": 0.6585533966620764,
      "num_tokens": 56889301.0,
      "step": 340
    },
    {
      "entropy": 1.9101523856321971,
      "epoch": 0.037461206778171434,
      "grad_norm": 1.244612455368042,
      "learning_rate": 1.2431444241316271e-05,
      "loss": 1.4946,
      "mean_token_accuracy": 0.625670313835144,
      "num_tokens": 57043658.0,
      "step": 341
    },
    {
      "entropy": 1.9623491565386455,
      "epoch": 0.03757106368954437,
      "grad_norm": 1.3181416988372803,
      "learning_rate": 1.246800731261426e-05,
      "loss": 1.5015,
      "mean_token_accuracy": 0.6292295505603155,
      "num_tokens": 57171786.0,
      "step": 342
    },
    {
      "entropy": 1.894644061724345,
      "epoch": 0.03768092060091731,
      "grad_norm": 1.3845021724700928,
      "learning_rate": 1.2504570383912249e-05,
      "loss": 1.5347,
      "mean_token_accuracy": 0.6457602828741074,
      "num_tokens": 57329673.0,
      "step": 343
    },
    {
      "entropy": 1.9226838648319244,
      "epoch": 0.03779077751229024,
      "grad_norm": 1.0904666185379028,
      "learning_rate": 1.2541133455210239e-05,
      "loss": 1.4927,
      "mean_token_accuracy": 0.6328802009423574,
      "num_tokens": 57504063.0,
      "step": 344
    },
    {
      "entropy": 1.8712241252263386,
      "epoch": 0.037900634423663176,
      "grad_norm": 0.674035906791687,
      "learning_rate": 1.2577696526508227e-05,
      "loss": 1.5697,
      "mean_token_accuracy": 0.6206586708625158,
      "num_tokens": 57748561.0,
      "step": 345
    },
    {
      "entropy": 1.8309160272280376,
      "epoch": 0.03801049133503612,
      "grad_norm": 0.8603072166442871,
      "learning_rate": 1.2614259597806218e-05,
      "loss": 1.5903,
      "mean_token_accuracy": 0.6370584319035212,
      "num_tokens": 57941124.0,
      "step": 346
    },
    {
      "entropy": 1.867393175760905,
      "epoch": 0.03812034824640905,
      "grad_norm": 1.344534158706665,
      "learning_rate": 1.2650822669104206e-05,
      "loss": 1.425,
      "mean_token_accuracy": 0.6433531989653906,
      "num_tokens": 58091957.0,
      "step": 347
    },
    {
      "entropy": 1.8822752038637798,
      "epoch": 0.03823020515778199,
      "grad_norm": 1.8091611862182617,
      "learning_rate": 1.2687385740402194e-05,
      "loss": 1.3816,
      "mean_token_accuracy": 0.6489702761173248,
      "num_tokens": 58240675.0,
      "step": 348
    },
    {
      "entropy": 1.9269113938013713,
      "epoch": 0.038340062069154926,
      "grad_norm": 1.1259180307388306,
      "learning_rate": 1.2723948811700184e-05,
      "loss": 1.5647,
      "mean_token_accuracy": 0.6245926817258199,
      "num_tokens": 58431982.0,
      "step": 349
    },
    {
      "entropy": 1.861362983783086,
      "epoch": 0.03844991898052786,
      "grad_norm": 1.033488392829895,
      "learning_rate": 1.2760511882998172e-05,
      "loss": 1.468,
      "mean_token_accuracy": 0.6400075107812881,
      "num_tokens": 58609741.0,
      "step": 350
    },
    {
      "entropy": 1.956882357597351,
      "epoch": 0.0385597758919008,
      "grad_norm": 1.2942620515823364,
      "learning_rate": 1.2797074954296162e-05,
      "loss": 1.4972,
      "mean_token_accuracy": 0.6373551438252131,
      "num_tokens": 58725263.0,
      "step": 351
    },
    {
      "entropy": 1.9582510491212208,
      "epoch": 0.038669632803273735,
      "grad_norm": 1.3242194652557373,
      "learning_rate": 1.283363802559415e-05,
      "loss": 1.4572,
      "mean_token_accuracy": 0.6369108855724335,
      "num_tokens": 58890257.0,
      "step": 352
    },
    {
      "entropy": 1.8531585335731506,
      "epoch": 0.038779489714646675,
      "grad_norm": 1.8601542711257935,
      "learning_rate": 1.2870201096892141e-05,
      "loss": 1.3595,
      "mean_token_accuracy": 0.6562222242355347,
      "num_tokens": 59013387.0,
      "step": 353
    },
    {
      "entropy": 1.938563883304596,
      "epoch": 0.03888934662601961,
      "grad_norm": 1.148009181022644,
      "learning_rate": 1.290676416819013e-05,
      "loss": 1.4834,
      "mean_token_accuracy": 0.6284010857343674,
      "num_tokens": 59194237.0,
      "step": 354
    },
    {
      "entropy": 1.8674622178077698,
      "epoch": 0.03899920353739254,
      "grad_norm": 0.8510828018188477,
      "learning_rate": 1.2943327239488118e-05,
      "loss": 1.4612,
      "mean_token_accuracy": 0.6370283762613932,
      "num_tokens": 59393642.0,
      "step": 355
    },
    {
      "entropy": 1.8750587205092113,
      "epoch": 0.039109060448765484,
      "grad_norm": 1.027628779411316,
      "learning_rate": 1.2979890310786107e-05,
      "loss": 1.4421,
      "mean_token_accuracy": 0.635211726029714,
      "num_tokens": 59545332.0,
      "step": 356
    },
    {
      "entropy": 1.9101734459400177,
      "epoch": 0.03921891736013842,
      "grad_norm": 1.4470945596694946,
      "learning_rate": 1.3016453382084095e-05,
      "loss": 1.3906,
      "mean_token_accuracy": 0.6514510164658228,
      "num_tokens": 59690347.0,
      "step": 357
    },
    {
      "entropy": 1.8950016995271046,
      "epoch": 0.03932877427151136,
      "grad_norm": 1.020830512046814,
      "learning_rate": 1.3053016453382085e-05,
      "loss": 1.4614,
      "mean_token_accuracy": 0.6369933982690176,
      "num_tokens": 59897237.0,
      "step": 358
    },
    {
      "entropy": 1.9750393331050873,
      "epoch": 0.03943863118288429,
      "grad_norm": 1.3367540836334229,
      "learning_rate": 1.3089579524680073e-05,
      "loss": 1.5399,
      "mean_token_accuracy": 0.620476762453715,
      "num_tokens": 60056227.0,
      "step": 359
    },
    {
      "entropy": 1.833806296189626,
      "epoch": 0.03954848809425723,
      "grad_norm": 1.280727505683899,
      "learning_rate": 1.3126142595978065e-05,
      "loss": 1.4652,
      "mean_token_accuracy": 0.6454865237077078,
      "num_tokens": 60203405.0,
      "step": 360
    },
    {
      "entropy": 1.9267512361208599,
      "epoch": 0.03965834500563017,
      "grad_norm": 1.0081630945205688,
      "learning_rate": 1.3162705667276053e-05,
      "loss": 1.5328,
      "mean_token_accuracy": 0.6300081759691238,
      "num_tokens": 60402318.0,
      "step": 361
    },
    {
      "entropy": 1.8845655421415966,
      "epoch": 0.0397682019170031,
      "grad_norm": 0.7514256834983826,
      "learning_rate": 1.3199268738574041e-05,
      "loss": 1.4632,
      "mean_token_accuracy": 0.6361817816893259,
      "num_tokens": 60603115.0,
      "step": 362
    },
    {
      "entropy": 1.8751682738463085,
      "epoch": 0.03987805882837604,
      "grad_norm": 0.9772806167602539,
      "learning_rate": 1.323583180987203e-05,
      "loss": 1.5428,
      "mean_token_accuracy": 0.6149017065763474,
      "num_tokens": 60849896.0,
      "step": 363
    },
    {
      "entropy": 1.9592778881390889,
      "epoch": 0.039987915739748976,
      "grad_norm": 1.4042431116104126,
      "learning_rate": 1.3272394881170019e-05,
      "loss": 1.5267,
      "mean_token_accuracy": 0.638154923915863,
      "num_tokens": 61010485.0,
      "step": 364
    },
    {
      "entropy": 1.8496886094411213,
      "epoch": 0.04009777265112192,
      "grad_norm": 0.871859610080719,
      "learning_rate": 1.3308957952468008e-05,
      "loss": 1.5193,
      "mean_token_accuracy": 0.6397547672192255,
      "num_tokens": 61197551.0,
      "step": 365
    },
    {
      "entropy": 1.9339230159918468,
      "epoch": 0.04020762956249485,
      "grad_norm": 1.5222102403640747,
      "learning_rate": 1.3345521023765997e-05,
      "loss": 1.5256,
      "mean_token_accuracy": 0.6346002717812856,
      "num_tokens": 61334172.0,
      "step": 366
    },
    {
      "entropy": 1.84268722931544,
      "epoch": 0.040317486473867785,
      "grad_norm": 0.8281468749046326,
      "learning_rate": 1.3382084095063988e-05,
      "loss": 1.53,
      "mean_token_accuracy": 0.6305044641097387,
      "num_tokens": 61550034.0,
      "step": 367
    },
    {
      "entropy": 1.8627445697784424,
      "epoch": 0.040427343385240726,
      "grad_norm": 0.6707728505134583,
      "learning_rate": 1.3418647166361976e-05,
      "loss": 1.4511,
      "mean_token_accuracy": 0.6334594835837682,
      "num_tokens": 61766707.0,
      "step": 368
    },
    {
      "entropy": 1.927617460489273,
      "epoch": 0.04053720029661366,
      "grad_norm": 1.031119465827942,
      "learning_rate": 1.3455210237659964e-05,
      "loss": 1.4601,
      "mean_token_accuracy": 0.6361829191446304,
      "num_tokens": 61899435.0,
      "step": 369
    },
    {
      "entropy": 1.8108851512273152,
      "epoch": 0.0406470572079866,
      "grad_norm": 1.329870343208313,
      "learning_rate": 1.3491773308957954e-05,
      "loss": 1.392,
      "mean_token_accuracy": 0.6440057257811228,
      "num_tokens": 62068166.0,
      "step": 370
    },
    {
      "entropy": 1.83323472738266,
      "epoch": 0.040756914119359534,
      "grad_norm": 0.8489660620689392,
      "learning_rate": 1.3528336380255942e-05,
      "loss": 1.3747,
      "mean_token_accuracy": 0.651435524225235,
      "num_tokens": 62237791.0,
      "step": 371
    },
    {
      "entropy": 1.8929267923037212,
      "epoch": 0.04086677103073247,
      "grad_norm": 1.568328857421875,
      "learning_rate": 1.3564899451553932e-05,
      "loss": 1.3254,
      "mean_token_accuracy": 0.6630758593479792,
      "num_tokens": 62354504.0,
      "step": 372
    },
    {
      "entropy": 1.904485156138738,
      "epoch": 0.04097662794210541,
      "grad_norm": 1.0895646810531616,
      "learning_rate": 1.360146252285192e-05,
      "loss": 1.4935,
      "mean_token_accuracy": 0.6399994641542435,
      "num_tokens": 62560184.0,
      "step": 373
    },
    {
      "entropy": 1.9404686590035756,
      "epoch": 0.04108648485347834,
      "grad_norm": 0.7966954112052917,
      "learning_rate": 1.3638025594149911e-05,
      "loss": 1.6445,
      "mean_token_accuracy": 0.6181567882498106,
      "num_tokens": 62762821.0,
      "step": 374
    },
    {
      "entropy": 1.930189887682597,
      "epoch": 0.041196341764851284,
      "grad_norm": 1.237733006477356,
      "learning_rate": 1.36745886654479e-05,
      "loss": 1.4306,
      "mean_token_accuracy": 0.6403100987275442,
      "num_tokens": 62911553.0,
      "step": 375
    },
    {
      "entropy": 1.932339499394099,
      "epoch": 0.04130619867622422,
      "grad_norm": 1.387355923652649,
      "learning_rate": 1.3711151736745887e-05,
      "loss": 1.4726,
      "mean_token_accuracy": 0.6367992361386617,
      "num_tokens": 63048004.0,
      "step": 376
    },
    {
      "entropy": 1.8782165547211964,
      "epoch": 0.04141605558759715,
      "grad_norm": 1.2075997591018677,
      "learning_rate": 1.3747714808043877e-05,
      "loss": 1.4862,
      "mean_token_accuracy": 0.6394857068856558,
      "num_tokens": 63211370.0,
      "step": 377
    },
    {
      "entropy": 1.9089668989181519,
      "epoch": 0.04152591249897009,
      "grad_norm": 1.1602435111999512,
      "learning_rate": 1.3784277879341865e-05,
      "loss": 1.4771,
      "mean_token_accuracy": 0.6510659754276276,
      "num_tokens": 63393016.0,
      "step": 378
    },
    {
      "entropy": 1.993513544400533,
      "epoch": 0.041635769410343026,
      "grad_norm": 1.2444241046905518,
      "learning_rate": 1.3820840950639855e-05,
      "loss": 1.4608,
      "mean_token_accuracy": 0.6339425295591354,
      "num_tokens": 63528722.0,
      "step": 379
    },
    {
      "entropy": 1.794573426246643,
      "epoch": 0.04174562632171597,
      "grad_norm": 0.9674469232559204,
      "learning_rate": 1.3857404021937843e-05,
      "loss": 1.5345,
      "mean_token_accuracy": 0.6317428996165594,
      "num_tokens": 63712882.0,
      "step": 380
    },
    {
      "entropy": 1.9814475774765015,
      "epoch": 0.0418554832330889,
      "grad_norm": 1.197340488433838,
      "learning_rate": 1.3893967093235835e-05,
      "loss": 1.4852,
      "mean_token_accuracy": 0.6282167633374532,
      "num_tokens": 63842716.0,
      "step": 381
    },
    {
      "entropy": 1.9127925833066304,
      "epoch": 0.041965340144461835,
      "grad_norm": 1.0025110244750977,
      "learning_rate": 1.3930530164533823e-05,
      "loss": 1.446,
      "mean_token_accuracy": 0.6374160995086035,
      "num_tokens": 64050221.0,
      "step": 382
    },
    {
      "entropy": 1.8482964634895325,
      "epoch": 0.042075197055834776,
      "grad_norm": 1.02582585811615,
      "learning_rate": 1.396709323583181e-05,
      "loss": 1.4667,
      "mean_token_accuracy": 0.6344637920459112,
      "num_tokens": 64211219.0,
      "step": 383
    },
    {
      "entropy": 1.9587088723977406,
      "epoch": 0.04218505396720771,
      "grad_norm": 1.2455130815505981,
      "learning_rate": 1.40036563071298e-05,
      "loss": 1.5323,
      "mean_token_accuracy": 0.6333187768856684,
      "num_tokens": 64323175.0,
      "step": 384
    },
    {
      "entropy": 1.9571288426717122,
      "epoch": 0.04229491087858065,
      "grad_norm": 1.6702572107315063,
      "learning_rate": 1.4040219378427789e-05,
      "loss": 1.5039,
      "mean_token_accuracy": 0.6258624742428461,
      "num_tokens": 64442759.0,
      "step": 385
    },
    {
      "entropy": 1.9019165933132172,
      "epoch": 0.042404767789953585,
      "grad_norm": 0.7855273485183716,
      "learning_rate": 1.4076782449725778e-05,
      "loss": 1.6998,
      "mean_token_accuracy": 0.6055170843998591,
      "num_tokens": 64665676.0,
      "step": 386
    },
    {
      "entropy": 1.9035062193870544,
      "epoch": 0.042514624701326525,
      "grad_norm": 1.8162872791290283,
      "learning_rate": 1.4113345521023766e-05,
      "loss": 1.3691,
      "mean_token_accuracy": 0.6513401865959167,
      "num_tokens": 64782379.0,
      "step": 387
    },
    {
      "entropy": 1.903337796529134,
      "epoch": 0.04262448161269946,
      "grad_norm": 1.0532211065292358,
      "learning_rate": 1.4149908592321758e-05,
      "loss": 1.3714,
      "mean_token_accuracy": 0.6637005259593328,
      "num_tokens": 64934687.0,
      "step": 388
    },
    {
      "entropy": 1.9479155739148457,
      "epoch": 0.04273433852407239,
      "grad_norm": 1.551796555519104,
      "learning_rate": 1.4186471663619746e-05,
      "loss": 1.4819,
      "mean_token_accuracy": 0.6278212567170461,
      "num_tokens": 65082079.0,
      "step": 389
    },
    {
      "entropy": 1.8967718482017517,
      "epoch": 0.042844195435445334,
      "grad_norm": 1.1235419511795044,
      "learning_rate": 1.4223034734917734e-05,
      "loss": 1.4021,
      "mean_token_accuracy": 0.6365053604046503,
      "num_tokens": 65289665.0,
      "step": 390
    },
    {
      "entropy": 1.9098777274290721,
      "epoch": 0.04295405234681827,
      "grad_norm": 0.99347984790802,
      "learning_rate": 1.4259597806215724e-05,
      "loss": 1.5961,
      "mean_token_accuracy": 0.6231525763869286,
      "num_tokens": 65423010.0,
      "step": 391
    },
    {
      "entropy": 1.9435608784357707,
      "epoch": 0.04306390925819121,
      "grad_norm": 0.733677864074707,
      "learning_rate": 1.4296160877513712e-05,
      "loss": 1.5477,
      "mean_token_accuracy": 0.6210927665233612,
      "num_tokens": 65632732.0,
      "step": 392
    },
    {
      "entropy": 1.939713458220164,
      "epoch": 0.04317376616956414,
      "grad_norm": 1.312638282775879,
      "learning_rate": 1.4332723948811702e-05,
      "loss": 1.4456,
      "mean_token_accuracy": 0.6392714977264404,
      "num_tokens": 65774896.0,
      "step": 393
    },
    {
      "entropy": 1.8830204804738362,
      "epoch": 0.04328362308093708,
      "grad_norm": 0.9776220917701721,
      "learning_rate": 1.436928702010969e-05,
      "loss": 1.4522,
      "mean_token_accuracy": 0.6250886768102646,
      "num_tokens": 65965831.0,
      "step": 394
    },
    {
      "entropy": 1.8725888232390087,
      "epoch": 0.04339347999231002,
      "grad_norm": 0.9504810571670532,
      "learning_rate": 1.4405850091407681e-05,
      "loss": 1.507,
      "mean_token_accuracy": 0.6213281452655792,
      "num_tokens": 66131698.0,
      "step": 395
    },
    {
      "entropy": 1.946168194214503,
      "epoch": 0.04350333690368295,
      "grad_norm": 1.1905755996704102,
      "learning_rate": 1.444241316270567e-05,
      "loss": 1.4674,
      "mean_token_accuracy": 0.6266982605059942,
      "num_tokens": 66250281.0,
      "step": 396
    },
    {
      "entropy": 1.8628549575805664,
      "epoch": 0.04361319381505589,
      "grad_norm": 1.0694218873977661,
      "learning_rate": 1.4478976234003657e-05,
      "loss": 1.3903,
      "mean_token_accuracy": 0.6529761354128519,
      "num_tokens": 66380753.0,
      "step": 397
    },
    {
      "entropy": 1.8151433169841766,
      "epoch": 0.043723050726428826,
      "grad_norm": 1.0954636335372925,
      "learning_rate": 1.4515539305301647e-05,
      "loss": 1.3429,
      "mean_token_accuracy": 0.6568314780791601,
      "num_tokens": 66511047.0,
      "step": 398
    },
    {
      "entropy": 1.8963292141755421,
      "epoch": 0.04383290763780176,
      "grad_norm": 0.7910407781600952,
      "learning_rate": 1.4552102376599635e-05,
      "loss": 1.5738,
      "mean_token_accuracy": 0.6402320464452108,
      "num_tokens": 66691862.0,
      "step": 399
    },
    {
      "entropy": 1.9180162648359935,
      "epoch": 0.0439427645491747,
      "grad_norm": 0.9959750175476074,
      "learning_rate": 1.4588665447897625e-05,
      "loss": 1.7048,
      "mean_token_accuracy": 0.6067099720239639,
      "num_tokens": 66884961.0,
      "step": 400
    },
    {
      "entropy": 1.8748231430848439,
      "epoch": 0.044052621460547635,
      "grad_norm": 0.9748513102531433,
      "learning_rate": 1.4625228519195613e-05,
      "loss": 1.5165,
      "mean_token_accuracy": 0.6368064184983572,
      "num_tokens": 67041958.0,
      "step": 401
    },
    {
      "entropy": 1.85904856522878,
      "epoch": 0.044162478371920576,
      "grad_norm": 1.2120349407196045,
      "learning_rate": 1.4661791590493604e-05,
      "loss": 1.3507,
      "mean_token_accuracy": 0.6649549951155981,
      "num_tokens": 67176830.0,
      "step": 402
    },
    {
      "entropy": 1.8290843864281972,
      "epoch": 0.04427233528329351,
      "grad_norm": 0.9248878359794617,
      "learning_rate": 1.4698354661791592e-05,
      "loss": 1.4839,
      "mean_token_accuracy": 0.6410348663727442,
      "num_tokens": 67335145.0,
      "step": 403
    },
    {
      "entropy": 1.86801873644193,
      "epoch": 0.044382192194666444,
      "grad_norm": 1.033895492553711,
      "learning_rate": 1.473491773308958e-05,
      "loss": 1.6367,
      "mean_token_accuracy": 0.6232090393702189,
      "num_tokens": 67511434.0,
      "step": 404
    },
    {
      "entropy": 1.9208786884943645,
      "epoch": 0.044492049106039384,
      "grad_norm": 0.9780264496803284,
      "learning_rate": 1.477148080438757e-05,
      "loss": 1.4249,
      "mean_token_accuracy": 0.659845232963562,
      "num_tokens": 67644219.0,
      "step": 405
    },
    {
      "entropy": 1.8616258203983307,
      "epoch": 0.04460190601741232,
      "grad_norm": 1.050032377243042,
      "learning_rate": 1.4808043875685558e-05,
      "loss": 1.522,
      "mean_token_accuracy": 0.6423654605944952,
      "num_tokens": 67802624.0,
      "step": 406
    },
    {
      "entropy": 1.9324693580468495,
      "epoch": 0.04471176292878526,
      "grad_norm": 0.8673065900802612,
      "learning_rate": 1.4844606946983548e-05,
      "loss": 1.4363,
      "mean_token_accuracy": 0.6219440003236135,
      "num_tokens": 67979554.0,
      "step": 407
    },
    {
      "entropy": 1.8592036068439484,
      "epoch": 0.04482161984015819,
      "grad_norm": 0.809765100479126,
      "learning_rate": 1.4881170018281536e-05,
      "loss": 1.5808,
      "mean_token_accuracy": 0.63762233654658,
      "num_tokens": 68165091.0,
      "step": 408
    },
    {
      "entropy": 1.9416759411493938,
      "epoch": 0.044931476751531134,
      "grad_norm": 0.6962368488311768,
      "learning_rate": 1.4917733089579528e-05,
      "loss": 1.4768,
      "mean_token_accuracy": 0.6251722325881323,
      "num_tokens": 68410038.0,
      "step": 409
    },
    {
      "entropy": 1.950746734937032,
      "epoch": 0.04504133366290407,
      "grad_norm": 1.4196857213974,
      "learning_rate": 1.4954296160877516e-05,
      "loss": 1.402,
      "mean_token_accuracy": 0.6466809262832006,
      "num_tokens": 68514877.0,
      "step": 410
    },
    {
      "entropy": 1.963972936073939,
      "epoch": 0.045151190574277,
      "grad_norm": 1.451259970664978,
      "learning_rate": 1.4990859232175504e-05,
      "loss": 1.4126,
      "mean_token_accuracy": 0.6355726569890976,
      "num_tokens": 68660564.0,
      "step": 411
    },
    {
      "entropy": 1.8489231765270233,
      "epoch": 0.04526104748564994,
      "grad_norm": 1.0938141345977783,
      "learning_rate": 1.5027422303473494e-05,
      "loss": 1.387,
      "mean_token_accuracy": 0.6448115805784861,
      "num_tokens": 68811370.0,
      "step": 412
    },
    {
      "entropy": 1.8644197285175323,
      "epoch": 0.045370904397022876,
      "grad_norm": 1.0362029075622559,
      "learning_rate": 1.5063985374771482e-05,
      "loss": 1.5106,
      "mean_token_accuracy": 0.6414720167716345,
      "num_tokens": 68959627.0,
      "step": 413
    },
    {
      "entropy": 1.9586124916871388,
      "epoch": 0.04548076130839582,
      "grad_norm": 0.8306599259376526,
      "learning_rate": 1.5100548446069471e-05,
      "loss": 1.6478,
      "mean_token_accuracy": 0.6033438295125961,
      "num_tokens": 69141689.0,
      "step": 414
    },
    {
      "entropy": 1.9255466957887013,
      "epoch": 0.04559061821976875,
      "grad_norm": 0.7374395728111267,
      "learning_rate": 1.513711151736746e-05,
      "loss": 1.5721,
      "mean_token_accuracy": 0.622237409154574,
      "num_tokens": 69346313.0,
      "step": 415
    },
    {
      "entropy": 1.9461825489997864,
      "epoch": 0.045700475131141685,
      "grad_norm": 1.0214322805404663,
      "learning_rate": 1.5173674588665451e-05,
      "loss": 1.3917,
      "mean_token_accuracy": 0.6484548399845759,
      "num_tokens": 69484013.0,
      "step": 416
    },
    {
      "entropy": 1.9209075768788655,
      "epoch": 0.045810332042514626,
      "grad_norm": 1.165231466293335,
      "learning_rate": 1.5210237659963439e-05,
      "loss": 1.4843,
      "mean_token_accuracy": 0.637021337946256,
      "num_tokens": 69634261.0,
      "step": 417
    },
    {
      "entropy": 1.8663530945777893,
      "epoch": 0.04592018895388756,
      "grad_norm": 0.8267627358436584,
      "learning_rate": 1.5246800731261427e-05,
      "loss": 1.5228,
      "mean_token_accuracy": 0.6384973078966141,
      "num_tokens": 69810623.0,
      "step": 418
    },
    {
      "entropy": 1.8647344807783763,
      "epoch": 0.0460300458652605,
      "grad_norm": 1.1516979932785034,
      "learning_rate": 1.5283363802559417e-05,
      "loss": 1.3857,
      "mean_token_accuracy": 0.649631142616272,
      "num_tokens": 69971092.0,
      "step": 419
    },
    {
      "entropy": 1.8947654863198597,
      "epoch": 0.046139902776633435,
      "grad_norm": 1.20870041847229,
      "learning_rate": 1.5319926873857403e-05,
      "loss": 1.4169,
      "mean_token_accuracy": 0.6381567666927973,
      "num_tokens": 70117842.0,
      "step": 420
    },
    {
      "entropy": 1.95854847629865,
      "epoch": 0.04624975968800637,
      "grad_norm": 1.056316614151001,
      "learning_rate": 1.5356489945155396e-05,
      "loss": 1.4916,
      "mean_token_accuracy": 0.6343552867571512,
      "num_tokens": 70258941.0,
      "step": 421
    },
    {
      "entropy": 1.8973442415396373,
      "epoch": 0.04635961659937931,
      "grad_norm": 0.7159221172332764,
      "learning_rate": 1.5393053016453383e-05,
      "loss": 1.5651,
      "mean_token_accuracy": 0.621953676144282,
      "num_tokens": 70458247.0,
      "step": 422
    },
    {
      "entropy": 1.9163278142611186,
      "epoch": 0.04646947351075224,
      "grad_norm": 0.6779471039772034,
      "learning_rate": 1.5429616087751372e-05,
      "loss": 1.4651,
      "mean_token_accuracy": 0.6381291598081589,
      "num_tokens": 70633332.0,
      "step": 423
    },
    {
      "entropy": 1.853121320406596,
      "epoch": 0.046579330422125184,
      "grad_norm": 0.7182997465133667,
      "learning_rate": 1.5466179159049362e-05,
      "loss": 1.4749,
      "mean_token_accuracy": 0.6441103170315424,
      "num_tokens": 70828981.0,
      "step": 424
    },
    {
      "entropy": 1.9391433397928874,
      "epoch": 0.04668918733349812,
      "grad_norm": 0.8690926432609558,
      "learning_rate": 1.550274223034735e-05,
      "loss": 1.4578,
      "mean_token_accuracy": 0.6315609067678452,
      "num_tokens": 70989991.0,
      "step": 425
    },
    {
      "entropy": 1.8937304317951202,
      "epoch": 0.04679904424487106,
      "grad_norm": 1.377400517463684,
      "learning_rate": 1.553930530164534e-05,
      "loss": 1.4113,
      "mean_token_accuracy": 0.645716001590093,
      "num_tokens": 71123738.0,
      "step": 426
    },
    {
      "entropy": 1.92280246814092,
      "epoch": 0.04690890115624399,
      "grad_norm": 1.2862893342971802,
      "learning_rate": 1.5575868372943328e-05,
      "loss": 1.4553,
      "mean_token_accuracy": 0.6406665394703547,
      "num_tokens": 71236228.0,
      "step": 427
    },
    {
      "entropy": 1.8118858635425568,
      "epoch": 0.04701875806761693,
      "grad_norm": 0.903378963470459,
      "learning_rate": 1.5612431444241318e-05,
      "loss": 1.5105,
      "mean_token_accuracy": 0.6435635139544805,
      "num_tokens": 71383417.0,
      "step": 428
    },
    {
      "entropy": 2.0178940494855246,
      "epoch": 0.04712861497898987,
      "grad_norm": 1.603965163230896,
      "learning_rate": 1.5648994515539308e-05,
      "loss": 1.3997,
      "mean_token_accuracy": 0.6480491409699122,
      "num_tokens": 71521903.0,
      "step": 429
    },
    {
      "entropy": 1.865706165631612,
      "epoch": 0.0472384718903628,
      "grad_norm": 1.1885672807693481,
      "learning_rate": 1.5685557586837297e-05,
      "loss": 1.5575,
      "mean_token_accuracy": 0.6412462542454401,
      "num_tokens": 71704942.0,
      "step": 430
    },
    {
      "entropy": 1.816953221956889,
      "epoch": 0.04734832880173574,
      "grad_norm": 0.7502696514129639,
      "learning_rate": 1.5722120658135284e-05,
      "loss": 1.4532,
      "mean_token_accuracy": 0.6353533814350764,
      "num_tokens": 71906527.0,
      "step": 431
    },
    {
      "entropy": 1.8986171980698903,
      "epoch": 0.047458185713108676,
      "grad_norm": 1.043899655342102,
      "learning_rate": 1.5758683729433274e-05,
      "loss": 1.407,
      "mean_token_accuracy": 0.6350090801715851,
      "num_tokens": 72112800.0,
      "step": 432
    },
    {
      "entropy": 1.9298064609368641,
      "epoch": 0.04756804262448161,
      "grad_norm": 0.8479198217391968,
      "learning_rate": 1.5795246800731263e-05,
      "loss": 1.5159,
      "mean_token_accuracy": 0.6414108375708262,
      "num_tokens": 72320482.0,
      "step": 433
    },
    {
      "entropy": 1.9490727484226227,
      "epoch": 0.04767789953585455,
      "grad_norm": 0.848849356174469,
      "learning_rate": 1.583180987202925e-05,
      "loss": 1.5658,
      "mean_token_accuracy": 0.6233013023932775,
      "num_tokens": 72463724.0,
      "step": 434
    },
    {
      "entropy": 1.8321526845296223,
      "epoch": 0.047787756447227485,
      "grad_norm": 0.7417627573013306,
      "learning_rate": 1.5868372943327243e-05,
      "loss": 1.3661,
      "mean_token_accuracy": 0.6409125824769338,
      "num_tokens": 72635818.0,
      "step": 435
    },
    {
      "entropy": 1.8534736235936482,
      "epoch": 0.047897613358600426,
      "grad_norm": 0.836335301399231,
      "learning_rate": 1.590493601462523e-05,
      "loss": 1.6775,
      "mean_token_accuracy": 0.630969633658727,
      "num_tokens": 72801261.0,
      "step": 436
    },
    {
      "entropy": 1.969543606042862,
      "epoch": 0.04800747026997336,
      "grad_norm": 0.9996944665908813,
      "learning_rate": 1.594149908592322e-05,
      "loss": 1.4598,
      "mean_token_accuracy": 0.634533574183782,
      "num_tokens": 72940719.0,
      "step": 437
    },
    {
      "entropy": 1.893303821484248,
      "epoch": 0.048117327181346294,
      "grad_norm": 1.1567001342773438,
      "learning_rate": 1.597806215722121e-05,
      "loss": 1.3812,
      "mean_token_accuracy": 0.6442390580972036,
      "num_tokens": 73072820.0,
      "step": 438
    },
    {
      "entropy": 1.9349376459916432,
      "epoch": 0.048227184092719234,
      "grad_norm": 0.9590914845466614,
      "learning_rate": 1.6014625228519195e-05,
      "loss": 1.4763,
      "mean_token_accuracy": 0.6355199714501699,
      "num_tokens": 73241924.0,
      "step": 439
    },
    {
      "entropy": 1.8869278033574421,
      "epoch": 0.04833704100409217,
      "grad_norm": 0.7127754092216492,
      "learning_rate": 1.6051188299817185e-05,
      "loss": 1.4739,
      "mean_token_accuracy": 0.6266596366961797,
      "num_tokens": 73421388.0,
      "step": 440
    },
    {
      "entropy": 1.8205039203166962,
      "epoch": 0.04844689791546511,
      "grad_norm": 1.2497098445892334,
      "learning_rate": 1.6087751371115175e-05,
      "loss": 1.4651,
      "mean_token_accuracy": 0.6429401089747747,
      "num_tokens": 73574441.0,
      "step": 441
    },
    {
      "entropy": 1.880224694808324,
      "epoch": 0.04855675482683804,
      "grad_norm": 0.8544715046882629,
      "learning_rate": 1.6124314442413164e-05,
      "loss": 1.4796,
      "mean_token_accuracy": 0.6351951907078425,
      "num_tokens": 73732021.0,
      "step": 442
    },
    {
      "entropy": 1.845553586880366,
      "epoch": 0.04866661173821098,
      "grad_norm": 0.8492904305458069,
      "learning_rate": 1.6160877513711154e-05,
      "loss": 1.4662,
      "mean_token_accuracy": 0.6401056249936422,
      "num_tokens": 73898879.0,
      "step": 443
    },
    {
      "entropy": 1.8184046844641368,
      "epoch": 0.04877646864958392,
      "grad_norm": 0.8159205913543701,
      "learning_rate": 1.6197440585009144e-05,
      "loss": 1.3999,
      "mean_token_accuracy": 0.6590509961048762,
      "num_tokens": 74048185.0,
      "step": 444
    },
    {
      "entropy": 1.909311443567276,
      "epoch": 0.04888632556095685,
      "grad_norm": 0.8159104585647583,
      "learning_rate": 1.623400365630713e-05,
      "loss": 1.4732,
      "mean_token_accuracy": 0.639503538608551,
      "num_tokens": 74205846.0,
      "step": 445
    },
    {
      "entropy": 1.8864035904407501,
      "epoch": 0.04899618247232979,
      "grad_norm": 1.0417039394378662,
      "learning_rate": 1.627056672760512e-05,
      "loss": 1.35,
      "mean_token_accuracy": 0.6542015026013056,
      "num_tokens": 74350478.0,
      "step": 446
    },
    {
      "entropy": 1.9047284424304962,
      "epoch": 0.049106039383702726,
      "grad_norm": 0.7739196419715881,
      "learning_rate": 1.630712979890311e-05,
      "loss": 1.4764,
      "mean_token_accuracy": 0.6416764905055364,
      "num_tokens": 74523233.0,
      "step": 447
    },
    {
      "entropy": 1.8290265500545502,
      "epoch": 0.04921589629507567,
      "grad_norm": 0.8136515021324158,
      "learning_rate": 1.6343692870201096e-05,
      "loss": 1.4462,
      "mean_token_accuracy": 0.6408629318078359,
      "num_tokens": 74662652.0,
      "step": 448
    },
    {
      "entropy": 1.836196482181549,
      "epoch": 0.0493257532064486,
      "grad_norm": 0.8380835056304932,
      "learning_rate": 1.638025594149909e-05,
      "loss": 1.4125,
      "mean_token_accuracy": 0.6456181158622106,
      "num_tokens": 74836953.0,
      "step": 449
    },
    {
      "entropy": 1.8020283778508503,
      "epoch": 0.049435610117821535,
      "grad_norm": 1.37300705909729,
      "learning_rate": 1.6416819012797076e-05,
      "loss": 1.3302,
      "mean_token_accuracy": 0.6666079958279928,
      "num_tokens": 74981072.0,
      "step": 450
    },
    {
      "entropy": 1.9055909911791484,
      "epoch": 0.049545467029194476,
      "grad_norm": 0.9503870010375977,
      "learning_rate": 1.6453382084095066e-05,
      "loss": 1.4723,
      "mean_token_accuracy": 0.6394474705060323,
      "num_tokens": 75121906.0,
      "step": 451
    },
    {
      "entropy": 1.842297613620758,
      "epoch": 0.04965532394056741,
      "grad_norm": 0.7884616851806641,
      "learning_rate": 1.6489945155393055e-05,
      "loss": 1.4174,
      "mean_token_accuracy": 0.6418876697619756,
      "num_tokens": 75293694.0,
      "step": 452
    },
    {
      "entropy": 1.921643594900767,
      "epoch": 0.04976518085194035,
      "grad_norm": 1.0184119939804077,
      "learning_rate": 1.6526508226691042e-05,
      "loss": 1.5131,
      "mean_token_accuracy": 0.6456418732802073,
      "num_tokens": 75431517.0,
      "step": 453
    },
    {
      "entropy": 1.916659524043401,
      "epoch": 0.049875037763313285,
      "grad_norm": 1.5741225481033325,
      "learning_rate": 1.656307129798903e-05,
      "loss": 1.348,
      "mean_token_accuracy": 0.6527373790740967,
      "num_tokens": 75541765.0,
      "step": 454
    },
    {
      "entropy": 1.8336934447288513,
      "epoch": 0.04998489467468622,
      "grad_norm": 0.9903491735458374,
      "learning_rate": 1.659963436928702e-05,
      "loss": 1.399,
      "mean_token_accuracy": 0.653240958849589,
      "num_tokens": 75694830.0,
      "step": 455
    },
    {
      "entropy": 1.8270506660143535,
      "epoch": 0.05009475158605916,
      "grad_norm": 0.7361817955970764,
      "learning_rate": 1.663619744058501e-05,
      "loss": 1.5485,
      "mean_token_accuracy": 0.637207085887591,
      "num_tokens": 75927979.0,
      "step": 456
    },
    {
      "entropy": 1.9009975989659627,
      "epoch": 0.05020460849743209,
      "grad_norm": 1.2144572734832764,
      "learning_rate": 1.6672760511883e-05,
      "loss": 1.3843,
      "mean_token_accuracy": 0.6520481109619141,
      "num_tokens": 76028451.0,
      "step": 457
    },
    {
      "entropy": 1.933722198009491,
      "epoch": 0.050314465408805034,
      "grad_norm": 0.9374269843101501,
      "learning_rate": 1.6709323583180987e-05,
      "loss": 1.399,
      "mean_token_accuracy": 0.6511914978424708,
      "num_tokens": 76162186.0,
      "step": 458
    },
    {
      "entropy": 1.8920509020487468,
      "epoch": 0.05042432232017797,
      "grad_norm": 0.7262760400772095,
      "learning_rate": 1.6745886654478977e-05,
      "loss": 1.5039,
      "mean_token_accuracy": 0.6288343866666158,
      "num_tokens": 76330676.0,
      "step": 459
    },
    {
      "entropy": 1.8482555548350017,
      "epoch": 0.0505341792315509,
      "grad_norm": 0.8332237601280212,
      "learning_rate": 1.6782449725776967e-05,
      "loss": 1.5237,
      "mean_token_accuracy": 0.6457237054904302,
      "num_tokens": 76468568.0,
      "step": 460
    },
    {
      "entropy": 1.820657879114151,
      "epoch": 0.05064403614292384,
      "grad_norm": 1.824617624282837,
      "learning_rate": 1.6819012797074956e-05,
      "loss": 1.0706,
      "mean_token_accuracy": 0.6815401464700699,
      "num_tokens": 76622873.0,
      "step": 461
    },
    {
      "entropy": 1.8888212939103444,
      "epoch": 0.05075389305429678,
      "grad_norm": 0.8382301926612854,
      "learning_rate": 1.6855575868372943e-05,
      "loss": 1.5501,
      "mean_token_accuracy": 0.6339965413014094,
      "num_tokens": 76788721.0,
      "step": 462
    },
    {
      "entropy": 1.782186617453893,
      "epoch": 0.05086374996566972,
      "grad_norm": 0.8659656643867493,
      "learning_rate": 1.6892138939670936e-05,
      "loss": 1.382,
      "mean_token_accuracy": 0.6629950056473414,
      "num_tokens": 76929800.0,
      "step": 463
    },
    {
      "entropy": 1.84979913632075,
      "epoch": 0.05097360687704265,
      "grad_norm": 1.0096579790115356,
      "learning_rate": 1.6928702010968922e-05,
      "loss": 1.4331,
      "mean_token_accuracy": 0.6603454450766245,
      "num_tokens": 77088974.0,
      "step": 464
    },
    {
      "entropy": 1.8461360732714336,
      "epoch": 0.051083463788415585,
      "grad_norm": 0.851254940032959,
      "learning_rate": 1.6965265082266912e-05,
      "loss": 1.5439,
      "mean_token_accuracy": 0.6388277113437653,
      "num_tokens": 77269063.0,
      "step": 465
    },
    {
      "entropy": 1.8718996942043304,
      "epoch": 0.051193320699788526,
      "grad_norm": 1.469465732574463,
      "learning_rate": 1.7001828153564902e-05,
      "loss": 1.2971,
      "mean_token_accuracy": 0.6635722517967224,
      "num_tokens": 77403714.0,
      "step": 466
    },
    {
      "entropy": 1.785783976316452,
      "epoch": 0.05130317761116146,
      "grad_norm": 0.9720367193222046,
      "learning_rate": 1.7038391224862888e-05,
      "loss": 1.3768,
      "mean_token_accuracy": 0.660425583521525,
      "num_tokens": 77551768.0,
      "step": 467
    },
    {
      "entropy": 1.783895234266917,
      "epoch": 0.0514130345225344,
      "grad_norm": 0.8119345903396606,
      "learning_rate": 1.7074954296160878e-05,
      "loss": 1.3155,
      "mean_token_accuracy": 0.6677038272221884,
      "num_tokens": 77707970.0,
      "step": 468
    },
    {
      "entropy": 1.8844469288984935,
      "epoch": 0.051522891433907335,
      "grad_norm": 1.0332210063934326,
      "learning_rate": 1.7111517367458868e-05,
      "loss": 1.3061,
      "mean_token_accuracy": 0.6705901821454366,
      "num_tokens": 77838254.0,
      "step": 469
    },
    {
      "entropy": 1.899887502193451,
      "epoch": 0.051632748345280276,
      "grad_norm": 0.8115286231040955,
      "learning_rate": 1.7148080438756858e-05,
      "loss": 1.6136,
      "mean_token_accuracy": 0.6468661973873774,
      "num_tokens": 78030097.0,
      "step": 470
    },
    {
      "entropy": 1.8445066312948863,
      "epoch": 0.05174260525665321,
      "grad_norm": 0.67425936460495,
      "learning_rate": 1.7184643510054847e-05,
      "loss": 1.4869,
      "mean_token_accuracy": 0.6447852005561193,
      "num_tokens": 78218757.0,
      "step": 471
    },
    {
      "entropy": 1.8734458883603413,
      "epoch": 0.051852462168026144,
      "grad_norm": 0.7984296679496765,
      "learning_rate": 1.7221206581352834e-05,
      "loss": 1.4225,
      "mean_token_accuracy": 0.6457456847031912,
      "num_tokens": 78377793.0,
      "step": 472
    },
    {
      "entropy": 1.9007401863733928,
      "epoch": 0.051962319079399084,
      "grad_norm": 0.760857343673706,
      "learning_rate": 1.7257769652650823e-05,
      "loss": 1.5456,
      "mean_token_accuracy": 0.6302074193954468,
      "num_tokens": 78573934.0,
      "step": 473
    },
    {
      "entropy": 1.849319765965144,
      "epoch": 0.05207217599077202,
      "grad_norm": 1.178850531578064,
      "learning_rate": 1.7294332723948813e-05,
      "loss": 1.3321,
      "mean_token_accuracy": 0.6654231746991476,
      "num_tokens": 78684333.0,
      "step": 474
    },
    {
      "entropy": 1.8049305478731792,
      "epoch": 0.05218203290214496,
      "grad_norm": 0.7811275720596313,
      "learning_rate": 1.7330895795246803e-05,
      "loss": 1.3971,
      "mean_token_accuracy": 0.6538741886615753,
      "num_tokens": 78851016.0,
      "step": 475
    },
    {
      "entropy": 1.8060388763745625,
      "epoch": 0.05229188981351789,
      "grad_norm": 1.0945056676864624,
      "learning_rate": 1.736745886654479e-05,
      "loss": 1.339,
      "mean_token_accuracy": 0.6550626158714294,
      "num_tokens": 79003715.0,
      "step": 476
    },
    {
      "entropy": 1.8515853186448414,
      "epoch": 0.05240174672489083,
      "grad_norm": 0.6653461456298828,
      "learning_rate": 1.7404021937842783e-05,
      "loss": 1.5661,
      "mean_token_accuracy": 0.6174762199322382,
      "num_tokens": 79283121.0,
      "step": 477
    },
    {
      "entropy": 1.851629654566447,
      "epoch": 0.05251160363626377,
      "grad_norm": 0.7771194577217102,
      "learning_rate": 1.744058500914077e-05,
      "loss": 1.5499,
      "mean_token_accuracy": 0.6309017390012741,
      "num_tokens": 79463326.0,
      "step": 478
    },
    {
      "entropy": 1.8349732557932537,
      "epoch": 0.0526214605476367,
      "grad_norm": 0.9575709700584412,
      "learning_rate": 1.747714808043876e-05,
      "loss": 1.4673,
      "mean_token_accuracy": 0.6315694997708002,
      "num_tokens": 79601389.0,
      "step": 479
    },
    {
      "entropy": 1.9489451746145885,
      "epoch": 0.05273131745900964,
      "grad_norm": 0.7346012592315674,
      "learning_rate": 1.751371115173675e-05,
      "loss": 1.4289,
      "mean_token_accuracy": 0.6379700899124146,
      "num_tokens": 79742483.0,
      "step": 480
    },
    {
      "entropy": 1.8353569904963176,
      "epoch": 0.052841174370382576,
      "grad_norm": 0.7082385420799255,
      "learning_rate": 1.7550274223034735e-05,
      "loss": 1.4335,
      "mean_token_accuracy": 0.6611069192488989,
      "num_tokens": 79996396.0,
      "step": 481
    },
    {
      "entropy": 1.8154561916987102,
      "epoch": 0.05295103128175551,
      "grad_norm": 0.6445807218551636,
      "learning_rate": 1.7586837294332725e-05,
      "loss": 1.4676,
      "mean_token_accuracy": 0.6439694265524546,
      "num_tokens": 80231599.0,
      "step": 482
    },
    {
      "entropy": 1.8863433003425598,
      "epoch": 0.05306088819312845,
      "grad_norm": 0.8372637629508972,
      "learning_rate": 1.7623400365630714e-05,
      "loss": 1.6164,
      "mean_token_accuracy": 0.6192357142766317,
      "num_tokens": 80385089.0,
      "step": 483
    },
    {
      "entropy": 1.8703928589820862,
      "epoch": 0.053170745104501385,
      "grad_norm": 0.7205429673194885,
      "learning_rate": 1.7659963436928704e-05,
      "loss": 1.4353,
      "mean_token_accuracy": 0.6483421623706818,
      "num_tokens": 80590298.0,
      "step": 484
    },
    {
      "entropy": 1.869334836800893,
      "epoch": 0.053280602015874326,
      "grad_norm": 0.6076232194900513,
      "learning_rate": 1.7696526508226694e-05,
      "loss": 1.4977,
      "mean_token_accuracy": 0.6276814242204031,
      "num_tokens": 80811725.0,
      "step": 485
    },
    {
      "entropy": 1.7474851707617443,
      "epoch": 0.05339045892724726,
      "grad_norm": 0.8083134889602661,
      "learning_rate": 1.773308957952468e-05,
      "loss": 1.2768,
      "mean_token_accuracy": 0.6715359588464102,
      "num_tokens": 80953065.0,
      "step": 486
    },
    {
      "entropy": 1.8078358471393585,
      "epoch": 0.053500315838620194,
      "grad_norm": 0.9833588600158691,
      "learning_rate": 1.776965265082267e-05,
      "loss": 1.3843,
      "mean_token_accuracy": 0.6488884389400482,
      "num_tokens": 81123124.0,
      "step": 487
    },
    {
      "entropy": 1.8762567341327667,
      "epoch": 0.053610172749993135,
      "grad_norm": 0.7375379800796509,
      "learning_rate": 1.780621572212066e-05,
      "loss": 1.443,
      "mean_token_accuracy": 0.6359260429938635,
      "num_tokens": 81279364.0,
      "step": 488
    },
    {
      "entropy": 1.852634310722351,
      "epoch": 0.05372002966136607,
      "grad_norm": 0.9888647794723511,
      "learning_rate": 1.784277879341865e-05,
      "loss": 1.412,
      "mean_token_accuracy": 0.6469916899998983,
      "num_tokens": 81430039.0,
      "step": 489
    },
    {
      "entropy": 1.89104425907135,
      "epoch": 0.05382988657273901,
      "grad_norm": 0.8109338879585266,
      "learning_rate": 1.7879341864716636e-05,
      "loss": 1.4514,
      "mean_token_accuracy": 0.6364847421646118,
      "num_tokens": 81619758.0,
      "step": 490
    },
    {
      "entropy": 1.9149113893508911,
      "epoch": 0.05393974348411194,
      "grad_norm": 0.7840366363525391,
      "learning_rate": 1.791590493601463e-05,
      "loss": 1.4288,
      "mean_token_accuracy": 0.6536184300978979,
      "num_tokens": 81796494.0,
      "step": 491
    },
    {
      "entropy": 1.8676457504431407,
      "epoch": 0.054049600395484884,
      "grad_norm": 0.8361501097679138,
      "learning_rate": 1.7952468007312615e-05,
      "loss": 1.3977,
      "mean_token_accuracy": 0.663863534728686,
      "num_tokens": 81932706.0,
      "step": 492
    },
    {
      "entropy": 1.8649681508541107,
      "epoch": 0.05415945730685782,
      "grad_norm": 0.9290244579315186,
      "learning_rate": 1.7989031078610605e-05,
      "loss": 1.5228,
      "mean_token_accuracy": 0.6413531800111135,
      "num_tokens": 82154289.0,
      "step": 493
    },
    {
      "entropy": 1.8859212299187977,
      "epoch": 0.05426931421823075,
      "grad_norm": 0.792782723903656,
      "learning_rate": 1.8025594149908595e-05,
      "loss": 1.6165,
      "mean_token_accuracy": 0.6251773834228516,
      "num_tokens": 82343958.0,
      "step": 494
    },
    {
      "entropy": 1.867518424987793,
      "epoch": 0.05437917112960369,
      "grad_norm": 0.6810131669044495,
      "learning_rate": 1.806215722120658e-05,
      "loss": 1.4721,
      "mean_token_accuracy": 0.6292106856902441,
      "num_tokens": 82553546.0,
      "step": 495
    },
    {
      "entropy": 1.7545313934485118,
      "epoch": 0.05448902804097663,
      "grad_norm": 0.6590803861618042,
      "learning_rate": 1.809872029250457e-05,
      "loss": 1.3972,
      "mean_token_accuracy": 0.6627217878897985,
      "num_tokens": 82736724.0,
      "step": 496
    },
    {
      "entropy": 1.8064947426319122,
      "epoch": 0.05459888495234957,
      "grad_norm": 0.7147844433784485,
      "learning_rate": 1.813528336380256e-05,
      "loss": 1.4111,
      "mean_token_accuracy": 0.6673514246940613,
      "num_tokens": 82928814.0,
      "step": 497
    },
    {
      "entropy": 1.8595764935016632,
      "epoch": 0.0547087418637225,
      "grad_norm": 0.7674292325973511,
      "learning_rate": 1.817184643510055e-05,
      "loss": 1.5436,
      "mean_token_accuracy": 0.6367508967717489,
      "num_tokens": 83169052.0,
      "step": 498
    },
    {
      "entropy": 1.7980642318725586,
      "epoch": 0.054818598775095435,
      "grad_norm": 0.7615039348602295,
      "learning_rate": 1.820840950639854e-05,
      "loss": 1.4503,
      "mean_token_accuracy": 0.6509919663270315,
      "num_tokens": 83362711.0,
      "step": 499
    },
    {
      "entropy": 1.848442365725835,
      "epoch": 0.054928455686468376,
      "grad_norm": 0.6286888718605042,
      "learning_rate": 1.8244972577696527e-05,
      "loss": 1.3508,
      "mean_token_accuracy": 0.6550141274929047,
      "num_tokens": 83540687.0,
      "step": 500
    },
    {
      "entropy": 1.8486445744832356,
      "epoch": 0.05503831259784131,
      "grad_norm": 1.779735803604126,
      "learning_rate": 1.8281535648994517e-05,
      "loss": 1.1664,
      "mean_token_accuracy": 0.6659951458374659,
      "num_tokens": 83716601.0,
      "step": 501
    },
    {
      "entropy": 1.7482089002927144,
      "epoch": 0.05514816950921425,
      "grad_norm": 0.715691089630127,
      "learning_rate": 1.8318098720292506e-05,
      "loss": 1.4013,
      "mean_token_accuracy": 0.6483576248089472,
      "num_tokens": 83897803.0,
      "step": 502
    },
    {
      "entropy": 1.8891556064287822,
      "epoch": 0.055258026420587185,
      "grad_norm": 0.7861650586128235,
      "learning_rate": 1.8354661791590496e-05,
      "loss": 1.4081,
      "mean_token_accuracy": 0.6608035564422607,
      "num_tokens": 84052066.0,
      "step": 503
    },
    {
      "entropy": 1.8510177036126454,
      "epoch": 0.05536788333196012,
      "grad_norm": 1.1780167818069458,
      "learning_rate": 1.8391224862888482e-05,
      "loss": 1.4559,
      "mean_token_accuracy": 0.6438465466101965,
      "num_tokens": 84214794.0,
      "step": 504
    },
    {
      "entropy": 1.8411860366662343,
      "epoch": 0.05547774024333306,
      "grad_norm": 0.6785144805908203,
      "learning_rate": 1.8427787934186476e-05,
      "loss": 1.6069,
      "mean_token_accuracy": 0.6364410271247228,
      "num_tokens": 84426411.0,
      "step": 505
    },
    {
      "entropy": 1.7741001347700756,
      "epoch": 0.055587597154705994,
      "grad_norm": 0.7365214824676514,
      "learning_rate": 1.8464351005484462e-05,
      "loss": 1.3837,
      "mean_token_accuracy": 0.6612890263398489,
      "num_tokens": 84564688.0,
      "step": 506
    },
    {
      "entropy": 1.858109325170517,
      "epoch": 0.055697454066078934,
      "grad_norm": 0.6560879945755005,
      "learning_rate": 1.8500914076782452e-05,
      "loss": 1.5934,
      "mean_token_accuracy": 0.6287341316541036,
      "num_tokens": 84764716.0,
      "step": 507
    },
    {
      "entropy": 1.8872665762901306,
      "epoch": 0.05580731097745187,
      "grad_norm": 0.8644893169403076,
      "learning_rate": 1.853747714808044e-05,
      "loss": 1.3268,
      "mean_token_accuracy": 0.6630988270044327,
      "num_tokens": 84906107.0,
      "step": 508
    },
    {
      "entropy": 1.8340339064598083,
      "epoch": 0.05591716788882481,
      "grad_norm": 0.7128955125808716,
      "learning_rate": 1.8574040219378428e-05,
      "loss": 1.3998,
      "mean_token_accuracy": 0.658979594707489,
      "num_tokens": 85057303.0,
      "step": 509
    },
    {
      "entropy": 1.877872258424759,
      "epoch": 0.05602702480019774,
      "grad_norm": 1.0351197719573975,
      "learning_rate": 1.8610603290676418e-05,
      "loss": 1.4379,
      "mean_token_accuracy": 0.6406905551751455,
      "num_tokens": 85237921.0,
      "step": 510
    },
    {
      "entropy": 1.832102398077647,
      "epoch": 0.05613688171157068,
      "grad_norm": 0.9562404155731201,
      "learning_rate": 1.8647166361974407e-05,
      "loss": 1.4014,
      "mean_token_accuracy": 0.6476325045029322,
      "num_tokens": 85363257.0,
      "step": 511
    },
    {
      "entropy": 1.8245374759038289,
      "epoch": 0.05624673862294362,
      "grad_norm": 0.7608838081359863,
      "learning_rate": 1.8683729433272397e-05,
      "loss": 1.4446,
      "mean_token_accuracy": 0.6506583044926325,
      "num_tokens": 85492436.0,
      "step": 512
    },
    {
      "entropy": 1.8646320700645447,
      "epoch": 0.05635659553431655,
      "grad_norm": 0.967135488986969,
      "learning_rate": 1.8720292504570387e-05,
      "loss": 1.3519,
      "mean_token_accuracy": 0.6563466837008795,
      "num_tokens": 85653597.0,
      "step": 513
    },
    {
      "entropy": 1.8935543298721313,
      "epoch": 0.05646645244568949,
      "grad_norm": 0.8624943494796753,
      "learning_rate": 1.8756855575868373e-05,
      "loss": 1.4485,
      "mean_token_accuracy": 0.6568788141012192,
      "num_tokens": 85765957.0,
      "step": 514
    },
    {
      "entropy": 1.8232440849145253,
      "epoch": 0.056576309357062426,
      "grad_norm": 0.7825310230255127,
      "learning_rate": 1.8793418647166363e-05,
      "loss": 1.4999,
      "mean_token_accuracy": 0.6494305729866028,
      "num_tokens": 85933528.0,
      "step": 515
    },
    {
      "entropy": 1.8484807411829631,
      "epoch": 0.05668616626843536,
      "grad_norm": 0.6889421939849854,
      "learning_rate": 1.8829981718464353e-05,
      "loss": 1.5048,
      "mean_token_accuracy": 0.6314730395873388,
      "num_tokens": 86120045.0,
      "step": 516
    },
    {
      "entropy": 1.8484809299310048,
      "epoch": 0.0567960231798083,
      "grad_norm": 0.9059920310974121,
      "learning_rate": 1.8866544789762343e-05,
      "loss": 1.4745,
      "mean_token_accuracy": 0.6385734875996908,
      "num_tokens": 86286777.0,
      "step": 517
    },
    {
      "entropy": 1.853780855735143,
      "epoch": 0.056905880091181235,
      "grad_norm": 0.8004304766654968,
      "learning_rate": 1.890310786106033e-05,
      "loss": 1.547,
      "mean_token_accuracy": 0.640062207976977,
      "num_tokens": 86451355.0,
      "step": 518
    },
    {
      "entropy": 1.807072252035141,
      "epoch": 0.057015737002554176,
      "grad_norm": 0.7398921847343445,
      "learning_rate": 1.8939670932358322e-05,
      "loss": 1.3051,
      "mean_token_accuracy": 0.6686479697624842,
      "num_tokens": 86619527.0,
      "step": 519
    },
    {
      "entropy": 1.8454334139823914,
      "epoch": 0.05712559391392711,
      "grad_norm": 0.68968665599823,
      "learning_rate": 1.897623400365631e-05,
      "loss": 1.3527,
      "mean_token_accuracy": 0.6641424546639124,
      "num_tokens": 86762429.0,
      "step": 520
    },
    {
      "entropy": 1.90091206630071,
      "epoch": 0.057235450825300044,
      "grad_norm": 0.9172680974006653,
      "learning_rate": 1.90127970749543e-05,
      "loss": 1.3641,
      "mean_token_accuracy": 0.6482406457265218,
      "num_tokens": 86864597.0,
      "step": 521
    },
    {
      "entropy": 1.8825439810752869,
      "epoch": 0.057345307736672985,
      "grad_norm": 0.9436008334159851,
      "learning_rate": 1.9049360146252288e-05,
      "loss": 1.4111,
      "mean_token_accuracy": 0.6459259490172068,
      "num_tokens": 86980728.0,
      "step": 522
    },
    {
      "entropy": 1.847435434659322,
      "epoch": 0.05745516464804592,
      "grad_norm": 0.5968527793884277,
      "learning_rate": 1.9085923217550274e-05,
      "loss": 1.4007,
      "mean_token_accuracy": 0.6396257479985555,
      "num_tokens": 87210371.0,
      "step": 523
    },
    {
      "entropy": 1.8333716690540314,
      "epoch": 0.05756502155941886,
      "grad_norm": 0.7715458273887634,
      "learning_rate": 1.9122486288848264e-05,
      "loss": 1.5396,
      "mean_token_accuracy": 0.6410951962073644,
      "num_tokens": 87404365.0,
      "step": 524
    },
    {
      "entropy": 1.7693612972895305,
      "epoch": 0.05767487847079179,
      "grad_norm": 1.143162727355957,
      "learning_rate": 1.9159049360146254e-05,
      "loss": 1.3754,
      "mean_token_accuracy": 0.6539959609508514,
      "num_tokens": 87539027.0,
      "step": 525
    },
    {
      "entropy": 1.8589285711447399,
      "epoch": 0.05778473538216473,
      "grad_norm": 0.8187215924263,
      "learning_rate": 1.9195612431444244e-05,
      "loss": 1.4923,
      "mean_token_accuracy": 0.6357589811086655,
      "num_tokens": 87746160.0,
      "step": 526
    },
    {
      "entropy": 1.8425296048323314,
      "epoch": 0.05789459229353767,
      "grad_norm": 0.7849891185760498,
      "learning_rate": 1.9232175502742234e-05,
      "loss": 1.3778,
      "mean_token_accuracy": 0.6585688690344492,
      "num_tokens": 87885330.0,
      "step": 527
    },
    {
      "entropy": 1.813408613204956,
      "epoch": 0.0580044492049106,
      "grad_norm": 0.9070361256599426,
      "learning_rate": 1.926873857404022e-05,
      "loss": 1.4793,
      "mean_token_accuracy": 0.6466079652309418,
      "num_tokens": 88023429.0,
      "step": 528
    },
    {
      "entropy": 1.8070883452892303,
      "epoch": 0.05811430611628354,
      "grad_norm": 0.8531019687652588,
      "learning_rate": 1.930530164533821e-05,
      "loss": 1.5821,
      "mean_token_accuracy": 0.6390858789285024,
      "num_tokens": 88217336.0,
      "step": 529
    },
    {
      "entropy": 1.762501190106074,
      "epoch": 0.05822416302765648,
      "grad_norm": 0.6754366755485535,
      "learning_rate": 1.93418647166362e-05,
      "loss": 1.3344,
      "mean_token_accuracy": 0.6736961950858434,
      "num_tokens": 88391452.0,
      "step": 530
    },
    {
      "entropy": 1.8850489755471547,
      "epoch": 0.05833401993902942,
      "grad_norm": 0.8538105487823486,
      "learning_rate": 1.937842778793419e-05,
      "loss": 1.3894,
      "mean_token_accuracy": 0.6557394365469614,
      "num_tokens": 88522769.0,
      "step": 531
    },
    {
      "entropy": 1.8417104880015056,
      "epoch": 0.05844387685040235,
      "grad_norm": 0.665955662727356,
      "learning_rate": 1.9414990859232176e-05,
      "loss": 1.4531,
      "mean_token_accuracy": 0.6464942395687103,
      "num_tokens": 88695328.0,
      "step": 532
    },
    {
      "entropy": 1.8750036259492238,
      "epoch": 0.058553733761775285,
      "grad_norm": 0.8706235289573669,
      "learning_rate": 1.945155393053017e-05,
      "loss": 1.4869,
      "mean_token_accuracy": 0.6461243083079656,
      "num_tokens": 88884132.0,
      "step": 533
    },
    {
      "entropy": 1.9077441891034443,
      "epoch": 0.058663590673148226,
      "grad_norm": 0.7450928092002869,
      "learning_rate": 1.9488117001828155e-05,
      "loss": 1.3803,
      "mean_token_accuracy": 0.6466763665278753,
      "num_tokens": 89011757.0,
      "step": 534
    },
    {
      "entropy": 1.8615180750687916,
      "epoch": 0.05877344758452116,
      "grad_norm": 0.6712978482246399,
      "learning_rate": 1.9524680073126145e-05,
      "loss": 1.4863,
      "mean_token_accuracy": 0.63641490538915,
      "num_tokens": 89201664.0,
      "step": 535
    },
    {
      "entropy": 1.8326091468334198,
      "epoch": 0.0588833044958941,
      "grad_norm": 0.731995701789856,
      "learning_rate": 1.9561243144424135e-05,
      "loss": 1.4143,
      "mean_token_accuracy": 0.6499495257933935,
      "num_tokens": 89342221.0,
      "step": 536
    },
    {
      "entropy": 1.768342783053716,
      "epoch": 0.058993161407267035,
      "grad_norm": 0.7949745655059814,
      "learning_rate": 1.959780621572212e-05,
      "loss": 1.473,
      "mean_token_accuracy": 0.6656158169110616,
      "num_tokens": 89483457.0,
      "step": 537
    },
    {
      "entropy": 1.8990335762500763,
      "epoch": 0.05910301831863997,
      "grad_norm": 0.7969281077384949,
      "learning_rate": 1.963436928702011e-05,
      "loss": 1.3961,
      "mean_token_accuracy": 0.6416173179944357,
      "num_tokens": 89600539.0,
      "step": 538
    },
    {
      "entropy": 1.9141974449157715,
      "epoch": 0.05921287523001291,
      "grad_norm": 0.8687071800231934,
      "learning_rate": 1.96709323583181e-05,
      "loss": 1.4503,
      "mean_token_accuracy": 0.6416681607564291,
      "num_tokens": 89730626.0,
      "step": 539
    },
    {
      "entropy": 1.924128810564677,
      "epoch": 0.059322732141385844,
      "grad_norm": 0.8359556198120117,
      "learning_rate": 1.970749542961609e-05,
      "loss": 1.3636,
      "mean_token_accuracy": 0.6541641503572464,
      "num_tokens": 89842957.0,
      "step": 540
    },
    {
      "entropy": 1.90417875846227,
      "epoch": 0.059432589052758784,
      "grad_norm": 0.7051600217819214,
      "learning_rate": 1.974405850091408e-05,
      "loss": 1.4902,
      "mean_token_accuracy": 0.6339495678742727,
      "num_tokens": 90053658.0,
      "step": 541
    },
    {
      "entropy": 1.81476491689682,
      "epoch": 0.05954244596413172,
      "grad_norm": 1.2421592473983765,
      "learning_rate": 1.9780621572212066e-05,
      "loss": 1.3046,
      "mean_token_accuracy": 0.6642891814311346,
      "num_tokens": 90217444.0,
      "step": 542
    },
    {
      "entropy": 1.8745914101600647,
      "epoch": 0.05965230287550465,
      "grad_norm": 0.7224368453025818,
      "learning_rate": 1.9817184643510056e-05,
      "loss": 1.4492,
      "mean_token_accuracy": 0.6379654556512833,
      "num_tokens": 90424582.0,
      "step": 543
    },
    {
      "entropy": 1.8410755693912506,
      "epoch": 0.05976215978687759,
      "grad_norm": 0.8019373416900635,
      "learning_rate": 1.9853747714808046e-05,
      "loss": 1.3688,
      "mean_token_accuracy": 0.6595296114683151,
      "num_tokens": 90581155.0,
      "step": 544
    },
    {
      "entropy": 1.8492278754711151,
      "epoch": 0.05987201669825053,
      "grad_norm": 0.7192192673683167,
      "learning_rate": 1.9890310786106036e-05,
      "loss": 1.4485,
      "mean_token_accuracy": 0.6582233111063639,
      "num_tokens": 90770719.0,
      "step": 545
    },
    {
      "entropy": 1.7911238272984822,
      "epoch": 0.05998187360962347,
      "grad_norm": 0.7712220549583435,
      "learning_rate": 1.9926873857404022e-05,
      "loss": 1.4184,
      "mean_token_accuracy": 0.6521774580081304,
      "num_tokens": 90954476.0,
      "step": 546
    },
    {
      "entropy": 1.7789829870065053,
      "epoch": 0.0600917305209964,
      "grad_norm": 0.7799301147460938,
      "learning_rate": 1.9963436928702012e-05,
      "loss": 1.3837,
      "mean_token_accuracy": 0.6543701936801275,
      "num_tokens": 91118773.0,
      "step": 547
    },
    {
      "entropy": 1.8910561104615529,
      "epoch": 0.060201587432369336,
      "grad_norm": 0.7084527611732483,
      "learning_rate": 2e-05,
      "loss": 1.5324,
      "mean_token_accuracy": 0.6384007583061854,
      "num_tokens": 91291657.0,
      "step": 548
    },
    {
      "entropy": 1.8717210789521534,
      "epoch": 0.060311444343742276,
      "grad_norm": 0.8148479461669922,
      "learning_rate": 1.999999985757703e-05,
      "loss": 1.375,
      "mean_token_accuracy": 0.6619729151328405,
      "num_tokens": 91417362.0,
      "step": 549
    },
    {
      "entropy": 1.8685090740521748,
      "epoch": 0.06042130125511521,
      "grad_norm": 0.9293744564056396,
      "learning_rate": 1.9999999430308118e-05,
      "loss": 1.4431,
      "mean_token_accuracy": 0.644400030374527,
      "num_tokens": 91664996.0,
      "step": 550
    },
    {
      "entropy": 1.8850101232528687,
      "epoch": 0.06053115816648815,
      "grad_norm": 0.6854516267776489,
      "learning_rate": 1.999999871819328e-05,
      "loss": 1.4789,
      "mean_token_accuracy": 0.6571693470080694,
      "num_tokens": 91816730.0,
      "step": 551
    },
    {
      "entropy": 1.8250452876091003,
      "epoch": 0.060641015077861085,
      "grad_norm": 0.8001742959022522,
      "learning_rate": 1.9999997721232536e-05,
      "loss": 1.3613,
      "mean_token_accuracy": 0.6481845825910568,
      "num_tokens": 91975856.0,
      "step": 552
    },
    {
      "entropy": 1.798028330008189,
      "epoch": 0.060750871989234026,
      "grad_norm": 0.7020228505134583,
      "learning_rate": 1.999999643942592e-05,
      "loss": 1.484,
      "mean_token_accuracy": 0.6372916350762049,
      "num_tokens": 92166416.0,
      "step": 553
    },
    {
      "entropy": 1.7991608679294586,
      "epoch": 0.06086072890060696,
      "grad_norm": 0.6366422772407532,
      "learning_rate": 1.9999994872773474e-05,
      "loss": 1.4652,
      "mean_token_accuracy": 0.6406016697486242,
      "num_tokens": 92426296.0,
      "step": 554
    },
    {
      "entropy": 1.8256397744019826,
      "epoch": 0.060970585811979894,
      "grad_norm": 0.7002333998680115,
      "learning_rate": 1.9999993021275244e-05,
      "loss": 1.2857,
      "mean_token_accuracy": 0.659576748808225,
      "num_tokens": 92610146.0,
      "step": 555
    },
    {
      "entropy": 1.8464308480421703,
      "epoch": 0.061080442723352835,
      "grad_norm": 0.7711760997772217,
      "learning_rate": 1.999999088493129e-05,
      "loss": 1.3101,
      "mean_token_accuracy": 0.6737810522317886,
      "num_tokens": 92745387.0,
      "step": 556
    },
    {
      "entropy": 1.8655918041865032,
      "epoch": 0.06119029963472577,
      "grad_norm": 0.7186883091926575,
      "learning_rate": 1.999998846374168e-05,
      "loss": 1.461,
      "mean_token_accuracy": 0.6509124487638474,
      "num_tokens": 92891313.0,
      "step": 557
    },
    {
      "entropy": 1.8603834410508473,
      "epoch": 0.06130015654609871,
      "grad_norm": 0.7382420301437378,
      "learning_rate": 1.9999985757706496e-05,
      "loss": 1.4309,
      "mean_token_accuracy": 0.6502951284249624,
      "num_tokens": 93118663.0,
      "step": 558
    },
    {
      "entropy": 1.8049174745877583,
      "epoch": 0.06141001345747164,
      "grad_norm": 0.7095914483070374,
      "learning_rate": 1.9999982766825814e-05,
      "loss": 1.4092,
      "mean_token_accuracy": 0.6614819119373957,
      "num_tokens": 93288993.0,
      "step": 559
    },
    {
      "entropy": 1.8342632949352264,
      "epoch": 0.06151987036884458,
      "grad_norm": 0.8286252021789551,
      "learning_rate": 1.9999979491099732e-05,
      "loss": 1.3481,
      "mean_token_accuracy": 0.6633094002803167,
      "num_tokens": 93426205.0,
      "step": 560
    },
    {
      "entropy": 1.8448581198851268,
      "epoch": 0.06162972728021752,
      "grad_norm": 1.0569968223571777,
      "learning_rate": 1.9999975930528356e-05,
      "loss": 1.4604,
      "mean_token_accuracy": 0.6365474959214529,
      "num_tokens": 93634167.0,
      "step": 561
    },
    {
      "entropy": 1.789972831805547,
      "epoch": 0.06173958419159045,
      "grad_norm": 0.9230442643165588,
      "learning_rate": 1.9999972085111797e-05,
      "loss": 1.4326,
      "mean_token_accuracy": 0.6513793369134268,
      "num_tokens": 93781489.0,
      "step": 562
    },
    {
      "entropy": 1.8464637994766235,
      "epoch": 0.06184944110296339,
      "grad_norm": 0.8019546866416931,
      "learning_rate": 1.9999967954850177e-05,
      "loss": 1.419,
      "mean_token_accuracy": 0.6493262598911921,
      "num_tokens": 93996272.0,
      "step": 563
    },
    {
      "entropy": 1.8182610770066578,
      "epoch": 0.06195929801433633,
      "grad_norm": 0.8727892637252808,
      "learning_rate": 1.9999963539743628e-05,
      "loss": 1.4969,
      "mean_token_accuracy": 0.6455451051394144,
      "num_tokens": 94171319.0,
      "step": 564
    },
    {
      "entropy": 1.8235016266504924,
      "epoch": 0.06206915492570926,
      "grad_norm": 0.8368512392044067,
      "learning_rate": 1.9999958839792286e-05,
      "loss": 1.4576,
      "mean_token_accuracy": 0.6452821691830953,
      "num_tokens": 94335499.0,
      "step": 565
    },
    {
      "entropy": 1.78616197903951,
      "epoch": 0.0621790118370822,
      "grad_norm": 0.7931045889854431,
      "learning_rate": 1.9999953854996303e-05,
      "loss": 1.3282,
      "mean_token_accuracy": 0.6569087654352188,
      "num_tokens": 94479337.0,
      "step": 566
    },
    {
      "entropy": 1.7730096379915874,
      "epoch": 0.062288868748455135,
      "grad_norm": 0.8699260950088501,
      "learning_rate": 1.9999948585355836e-05,
      "loss": 1.3678,
      "mean_token_accuracy": 0.6560121526320776,
      "num_tokens": 94648746.0,
      "step": 567
    },
    {
      "entropy": 1.8760800262292225,
      "epoch": 0.062398725659828076,
      "grad_norm": 1.1178594827651978,
      "learning_rate": 1.9999943030871053e-05,
      "loss": 1.3277,
      "mean_token_accuracy": 0.661268358429273,
      "num_tokens": 94747983.0,
      "step": 568
    },
    {
      "entropy": 1.86210831006368,
      "epoch": 0.06250858257120101,
      "grad_norm": 0.7388879656791687,
      "learning_rate": 1.9999937191542128e-05,
      "loss": 1.4365,
      "mean_token_accuracy": 0.650276447335879,
      "num_tokens": 94919214.0,
      "step": 569
    },
    {
      "entropy": 1.8915256162484486,
      "epoch": 0.06261843948257395,
      "grad_norm": 0.7970117926597595,
      "learning_rate": 1.9999931067369246e-05,
      "loss": 1.4995,
      "mean_token_accuracy": 0.6465731561183929,
      "num_tokens": 95084859.0,
      "step": 570
    },
    {
      "entropy": 1.7767747739950817,
      "epoch": 0.06272829639394688,
      "grad_norm": 0.9821522235870361,
      "learning_rate": 1.99999246583526e-05,
      "loss": 1.506,
      "mean_token_accuracy": 0.6511118859052658,
      "num_tokens": 95242471.0,
      "step": 571
    },
    {
      "entropy": 1.7983069618542988,
      "epoch": 0.06283815330531982,
      "grad_norm": 0.7964573502540588,
      "learning_rate": 1.9999917964492393e-05,
      "loss": 1.418,
      "mean_token_accuracy": 0.6608897646268209,
      "num_tokens": 95411496.0,
      "step": 572
    },
    {
      "entropy": 1.7514270345369976,
      "epoch": 0.06294801021669276,
      "grad_norm": 0.7527838349342346,
      "learning_rate": 1.9999910985788842e-05,
      "loss": 1.4319,
      "mean_token_accuracy": 0.6370367358128229,
      "num_tokens": 95612011.0,
      "step": 573
    },
    {
      "entropy": 1.8501805861790974,
      "epoch": 0.0630578671280657,
      "grad_norm": 0.7433388233184814,
      "learning_rate": 1.999990372224216e-05,
      "loss": 1.4124,
      "mean_token_accuracy": 0.6372717867294947,
      "num_tokens": 95775330.0,
      "step": 574
    },
    {
      "entropy": 1.8343484302361805,
      "epoch": 0.06316772403943863,
      "grad_norm": 0.8306664824485779,
      "learning_rate": 1.9999896173852585e-05,
      "loss": 1.4024,
      "mean_token_accuracy": 0.6379790206750234,
      "num_tokens": 95954358.0,
      "step": 575
    },
    {
      "entropy": 1.8649726808071136,
      "epoch": 0.06327758095081157,
      "grad_norm": 0.7519362568855286,
      "learning_rate": 1.999988834062035e-05,
      "loss": 1.4086,
      "mean_token_accuracy": 0.6535822004079819,
      "num_tokens": 96118913.0,
      "step": 576
    },
    {
      "entropy": 1.866872598727544,
      "epoch": 0.06338743786218451,
      "grad_norm": 1.0160154104232788,
      "learning_rate": 1.9999880222545703e-05,
      "loss": 1.4077,
      "mean_token_accuracy": 0.6465723812580109,
      "num_tokens": 96233662.0,
      "step": 577
    },
    {
      "entropy": 1.8999827206134796,
      "epoch": 0.06349729477355744,
      "grad_norm": 0.7083912491798401,
      "learning_rate": 1.99998718196289e-05,
      "loss": 1.5182,
      "mean_token_accuracy": 0.6312810579935709,
      "num_tokens": 96372780.0,
      "step": 578
    },
    {
      "entropy": 1.8947786291440327,
      "epoch": 0.06360715168493038,
      "grad_norm": 0.771692156791687,
      "learning_rate": 1.9999863131870213e-05,
      "loss": 1.4229,
      "mean_token_accuracy": 0.6529962420463562,
      "num_tokens": 96532545.0,
      "step": 579
    },
    {
      "entropy": 1.849695046742757,
      "epoch": 0.06371700859630332,
      "grad_norm": 0.7248260378837585,
      "learning_rate": 1.9999854159269915e-05,
      "loss": 1.4054,
      "mean_token_accuracy": 0.6576380530993143,
      "num_tokens": 96708045.0,
      "step": 580
    },
    {
      "entropy": 1.757933537165324,
      "epoch": 0.06382686550767624,
      "grad_norm": 0.7588098645210266,
      "learning_rate": 1.9999844901828286e-05,
      "loss": 1.4921,
      "mean_token_accuracy": 0.6364376048247019,
      "num_tokens": 96907139.0,
      "step": 581
    },
    {
      "entropy": 1.796962042649587,
      "epoch": 0.06393672241904919,
      "grad_norm": 0.7149285674095154,
      "learning_rate": 1.9999835359545622e-05,
      "loss": 1.4685,
      "mean_token_accuracy": 0.649954711397489,
      "num_tokens": 97080342.0,
      "step": 582
    },
    {
      "entropy": 1.8116531372070312,
      "epoch": 0.06404657933042213,
      "grad_norm": 0.803112268447876,
      "learning_rate": 1.999982553242222e-05,
      "loss": 1.5352,
      "mean_token_accuracy": 0.6461968272924423,
      "num_tokens": 97248479.0,
      "step": 583
    },
    {
      "entropy": 1.8498141765594482,
      "epoch": 0.06415643624179507,
      "grad_norm": 1.0572980642318726,
      "learning_rate": 1.99998154204584e-05,
      "loss": 1.3259,
      "mean_token_accuracy": 0.6570860395828882,
      "num_tokens": 97389667.0,
      "step": 584
    },
    {
      "entropy": 1.8106311957041423,
      "epoch": 0.064266293153168,
      "grad_norm": 0.7023609280586243,
      "learning_rate": 1.9999805023654474e-05,
      "loss": 1.381,
      "mean_token_accuracy": 0.6562709013621012,
      "num_tokens": 97544195.0,
      "step": 585
    },
    {
      "entropy": 1.8761279384295146,
      "epoch": 0.06437615006454094,
      "grad_norm": 0.6949073076248169,
      "learning_rate": 1.9999794342010777e-05,
      "loss": 1.4237,
      "mean_token_accuracy": 0.6387066642443339,
      "num_tokens": 97697668.0,
      "step": 586
    },
    {
      "entropy": 1.7704632878303528,
      "epoch": 0.06448600697591388,
      "grad_norm": 0.6187701225280762,
      "learning_rate": 1.9999783375527647e-05,
      "loss": 1.4075,
      "mean_token_accuracy": 0.6577561795711517,
      "num_tokens": 97903522.0,
      "step": 587
    },
    {
      "entropy": 1.8219424188137054,
      "epoch": 0.0645958638872868,
      "grad_norm": 0.8520556688308716,
      "learning_rate": 1.9999772124205423e-05,
      "loss": 1.3681,
      "mean_token_accuracy": 0.6523155321677526,
      "num_tokens": 98057082.0,
      "step": 588
    },
    {
      "entropy": 1.8426192998886108,
      "epoch": 0.06470572079865974,
      "grad_norm": 0.8771872520446777,
      "learning_rate": 1.999976058804447e-05,
      "loss": 1.5718,
      "mean_token_accuracy": 0.6308561414480209,
      "num_tokens": 98242770.0,
      "step": 589
    },
    {
      "entropy": 1.8485606014728546,
      "epoch": 0.06481557771003268,
      "grad_norm": 0.7140512466430664,
      "learning_rate": 1.9999748767045148e-05,
      "loss": 1.4753,
      "mean_token_accuracy": 0.6466710418462753,
      "num_tokens": 98406161.0,
      "step": 590
    },
    {
      "entropy": 1.8343448042869568,
      "epoch": 0.06492543462140563,
      "grad_norm": 0.7732890248298645,
      "learning_rate": 1.9999736661207833e-05,
      "loss": 1.3634,
      "mean_token_accuracy": 0.6507249772548676,
      "num_tokens": 98576357.0,
      "step": 591
    },
    {
      "entropy": 1.8259783387184143,
      "epoch": 0.06503529153277855,
      "grad_norm": 0.8179787993431091,
      "learning_rate": 1.999972427053291e-05,
      "loss": 1.4097,
      "mean_token_accuracy": 0.6523296386003494,
      "num_tokens": 98705683.0,
      "step": 592
    },
    {
      "entropy": 1.8165560364723206,
      "epoch": 0.0651451484441515,
      "grad_norm": 0.945043683052063,
      "learning_rate": 1.999971159502077e-05,
      "loss": 1.3726,
      "mean_token_accuracy": 0.6657868524392446,
      "num_tokens": 98842481.0,
      "step": 593
    },
    {
      "entropy": 1.8081829249858856,
      "epoch": 0.06525500535552443,
      "grad_norm": 0.7620939612388611,
      "learning_rate": 1.9999698634671808e-05,
      "loss": 1.5107,
      "mean_token_accuracy": 0.6559838702281316,
      "num_tokens": 99017663.0,
      "step": 594
    },
    {
      "entropy": 1.808142175277074,
      "epoch": 0.06536486226689736,
      "grad_norm": 0.682893693447113,
      "learning_rate": 1.9999685389486444e-05,
      "loss": 1.4069,
      "mean_token_accuracy": 0.6539217978715897,
      "num_tokens": 99199192.0,
      "step": 595
    },
    {
      "entropy": 1.8011847337086995,
      "epoch": 0.0654747191782703,
      "grad_norm": 0.7496669888496399,
      "learning_rate": 1.9999671859465092e-05,
      "loss": 1.4311,
      "mean_token_accuracy": 0.6457031667232513,
      "num_tokens": 99373748.0,
      "step": 596
    },
    {
      "entropy": 1.7991874118645985,
      "epoch": 0.06558457608964324,
      "grad_norm": 0.624677836894989,
      "learning_rate": 1.999965804460818e-05,
      "loss": 1.4802,
      "mean_token_accuracy": 0.6430507103602091,
      "num_tokens": 99603545.0,
      "step": 597
    },
    {
      "entropy": 1.8343899448712666,
      "epoch": 0.06569443300101617,
      "grad_norm": 0.9112517237663269,
      "learning_rate": 1.999964394491615e-05,
      "loss": 1.5462,
      "mean_token_accuracy": 0.6385933210452398,
      "num_tokens": 99744710.0,
      "step": 598
    },
    {
      "entropy": 1.7479709486166637,
      "epoch": 0.06580428991238911,
      "grad_norm": 0.8736753463745117,
      "learning_rate": 1.999962956038944e-05,
      "loss": 1.3665,
      "mean_token_accuracy": 0.6576890349388123,
      "num_tokens": 99941601.0,
      "step": 599
    },
    {
      "entropy": 1.7895345389842987,
      "epoch": 0.06591414682376205,
      "grad_norm": 1.08870267868042,
      "learning_rate": 1.999961489102851e-05,
      "loss": 1.3301,
      "mean_token_accuracy": 0.6591797322034836,
      "num_tokens": 100054777.0,
      "step": 600
    },
    {
      "entropy": 1.755403737227122,
      "epoch": 0.06602400373513499,
      "grad_norm": 0.7063686847686768,
      "learning_rate": 1.9999599936833827e-05,
      "loss": 1.3455,
      "mean_token_accuracy": 0.6583442091941833,
      "num_tokens": 100205128.0,
      "step": 601
    },
    {
      "entropy": 1.8366802831490834,
      "epoch": 0.06613386064650792,
      "grad_norm": 0.7118000388145447,
      "learning_rate": 1.9999584697805858e-05,
      "loss": 1.4197,
      "mean_token_accuracy": 0.648671492934227,
      "num_tokens": 100395366.0,
      "step": 602
    },
    {
      "entropy": 1.802819162607193,
      "epoch": 0.06624371755788086,
      "grad_norm": 0.8801571726799011,
      "learning_rate": 1.999956917394509e-05,
      "loss": 1.5157,
      "mean_token_accuracy": 0.6466168984770775,
      "num_tokens": 100539414.0,
      "step": 603
    },
    {
      "entropy": 1.8523845076560974,
      "epoch": 0.0663535744692538,
      "grad_norm": 0.715670645236969,
      "learning_rate": 1.9999553365252014e-05,
      "loss": 1.4567,
      "mean_token_accuracy": 0.6485249350468317,
      "num_tokens": 100703282.0,
      "step": 604
    },
    {
      "entropy": 1.8390779892603557,
      "epoch": 0.06646343138062673,
      "grad_norm": 0.8692449331283569,
      "learning_rate": 1.9999537271727128e-05,
      "loss": 1.3827,
      "mean_token_accuracy": 0.6466074089209238,
      "num_tokens": 100889824.0,
      "step": 605
    },
    {
      "entropy": 1.7545512715975444,
      "epoch": 0.06657328829199967,
      "grad_norm": 0.7428275942802429,
      "learning_rate": 1.9999520893370944e-05,
      "loss": 1.3813,
      "mean_token_accuracy": 0.6578773707151413,
      "num_tokens": 101029032.0,
      "step": 606
    },
    {
      "entropy": 1.7871941129366558,
      "epoch": 0.06668314520337261,
      "grad_norm": 0.6753717064857483,
      "learning_rate": 1.9999504230183976e-05,
      "loss": 1.4339,
      "mean_token_accuracy": 0.6428654193878174,
      "num_tokens": 101216884.0,
      "step": 607
    },
    {
      "entropy": 1.811436951160431,
      "epoch": 0.06679300211474555,
      "grad_norm": 0.7294607162475586,
      "learning_rate": 1.9999487282166758e-05,
      "loss": 1.5457,
      "mean_token_accuracy": 0.628396287560463,
      "num_tokens": 101407501.0,
      "step": 608
    },
    {
      "entropy": 1.901543140411377,
      "epoch": 0.06690285902611848,
      "grad_norm": 0.8634178638458252,
      "learning_rate": 1.9999470049319823e-05,
      "loss": 1.4976,
      "mean_token_accuracy": 0.6367218047380447,
      "num_tokens": 101567263.0,
      "step": 609
    },
    {
      "entropy": 1.7725516855716705,
      "epoch": 0.06701271593749142,
      "grad_norm": 0.6490088701248169,
      "learning_rate": 1.999945253164371e-05,
      "loss": 1.4208,
      "mean_token_accuracy": 0.6521205753087997,
      "num_tokens": 101736088.0,
      "step": 610
    },
    {
      "entropy": 1.8182121813297272,
      "epoch": 0.06712257284886436,
      "grad_norm": 0.7487345933914185,
      "learning_rate": 1.999943472913899e-05,
      "loss": 1.5168,
      "mean_token_accuracy": 0.6501521567503611,
      "num_tokens": 101882039.0,
      "step": 611
    },
    {
      "entropy": 1.7695377667744954,
      "epoch": 0.06723242976023729,
      "grad_norm": 0.6472978591918945,
      "learning_rate": 1.9999416641806206e-05,
      "loss": 1.4747,
      "mean_token_accuracy": 0.6211903840303421,
      "num_tokens": 102114402.0,
      "step": 612
    },
    {
      "entropy": 1.827112078666687,
      "epoch": 0.06734228667161023,
      "grad_norm": 1.119243860244751,
      "learning_rate": 1.9999398269645947e-05,
      "loss": 1.4288,
      "mean_token_accuracy": 0.6412825981775919,
      "num_tokens": 102270509.0,
      "step": 613
    },
    {
      "entropy": 1.726913293202718,
      "epoch": 0.06745214358298317,
      "grad_norm": 0.7255959510803223,
      "learning_rate": 1.9999379612658785e-05,
      "loss": 1.3827,
      "mean_token_accuracy": 0.6515529453754425,
      "num_tokens": 102435141.0,
      "step": 614
    },
    {
      "entropy": 1.8226731022198994,
      "epoch": 0.0675620004943561,
      "grad_norm": 0.8500895500183105,
      "learning_rate": 1.9999360670845314e-05,
      "loss": 1.5447,
      "mean_token_accuracy": 0.6447988549868265,
      "num_tokens": 102575866.0,
      "step": 615
    },
    {
      "entropy": 1.8276772399743397,
      "epoch": 0.06767185740572904,
      "grad_norm": 1.0635449886322021,
      "learning_rate": 1.9999341444206133e-05,
      "loss": 1.321,
      "mean_token_accuracy": 0.6598222802082697,
      "num_tokens": 102710803.0,
      "step": 616
    },
    {
      "entropy": 1.7802319824695587,
      "epoch": 0.06778171431710198,
      "grad_norm": 0.7771666646003723,
      "learning_rate": 1.999932193274185e-05,
      "loss": 1.3659,
      "mean_token_accuracy": 0.6599055776993433,
      "num_tokens": 102828396.0,
      "step": 617
    },
    {
      "entropy": 1.7876626749833424,
      "epoch": 0.06789157122847492,
      "grad_norm": 4.962174892425537,
      "learning_rate": 1.9999302136453083e-05,
      "loss": 1.4445,
      "mean_token_accuracy": 0.6381362775961558,
      "num_tokens": 103047628.0,
      "step": 618
    },
    {
      "entropy": 1.8322969575723012,
      "epoch": 0.06800142813984784,
      "grad_norm": 0.9945211410522461,
      "learning_rate": 1.999928205534046e-05,
      "loss": 1.4898,
      "mean_token_accuracy": 0.6348124096790949,
      "num_tokens": 103266857.0,
      "step": 619
    },
    {
      "entropy": 1.7776095767815907,
      "epoch": 0.06811128505122079,
      "grad_norm": 0.9018236994743347,
      "learning_rate": 1.9999261689404615e-05,
      "loss": 1.3107,
      "mean_token_accuracy": 0.6572676748037338,
      "num_tokens": 103398868.0,
      "step": 620
    },
    {
      "entropy": 1.8384911715984344,
      "epoch": 0.06822114196259373,
      "grad_norm": 0.7996423244476318,
      "learning_rate": 1.9999241038646192e-05,
      "loss": 1.5596,
      "mean_token_accuracy": 0.6426488012075424,
      "num_tokens": 103562795.0,
      "step": 621
    },
    {
      "entropy": 1.790726323922475,
      "epoch": 0.06833099887396665,
      "grad_norm": 0.7970197796821594,
      "learning_rate": 1.9999220103065845e-05,
      "loss": 1.4247,
      "mean_token_accuracy": 0.6529985020558039,
      "num_tokens": 103716669.0,
      "step": 622
    },
    {
      "entropy": 1.8390385210514069,
      "epoch": 0.0684408557853396,
      "grad_norm": 0.7664891481399536,
      "learning_rate": 1.9999198882664236e-05,
      "loss": 1.4072,
      "mean_token_accuracy": 0.6501214305559794,
      "num_tokens": 103860168.0,
      "step": 623
    },
    {
      "entropy": 1.8309910794099171,
      "epoch": 0.06855071269671253,
      "grad_norm": 0.7682109475135803,
      "learning_rate": 1.9999177377442042e-05,
      "loss": 1.4699,
      "mean_token_accuracy": 0.6459651440382004,
      "num_tokens": 104010898.0,
      "step": 624
    },
    {
      "entropy": 1.8477097650369008,
      "epoch": 0.06866056960808548,
      "grad_norm": 0.9405747056007385,
      "learning_rate": 1.9999155587399934e-05,
      "loss": 1.3493,
      "mean_token_accuracy": 0.6499254653851191,
      "num_tokens": 104123289.0,
      "step": 625
    },
    {
      "entropy": 1.8265024423599243,
      "epoch": 0.0687704265194584,
      "grad_norm": 0.8012916445732117,
      "learning_rate": 1.999913351253861e-05,
      "loss": 1.3671,
      "mean_token_accuracy": 0.6617961873610815,
      "num_tokens": 104287167.0,
      "step": 626
    },
    {
      "entropy": 1.8607315520445507,
      "epoch": 0.06888028343083134,
      "grad_norm": 0.7399889230728149,
      "learning_rate": 1.999911115285876e-05,
      "loss": 1.5387,
      "mean_token_accuracy": 0.6346966524918874,
      "num_tokens": 104482574.0,
      "step": 627
    },
    {
      "entropy": 1.8020449976126354,
      "epoch": 0.06899014034220428,
      "grad_norm": 0.6279281377792358,
      "learning_rate": 1.9999088508361104e-05,
      "loss": 1.4417,
      "mean_token_accuracy": 0.6576824982961019,
      "num_tokens": 104674006.0,
      "step": 628
    },
    {
      "entropy": 1.7799376746018727,
      "epoch": 0.06909999725357721,
      "grad_norm": 0.705096960067749,
      "learning_rate": 1.999906557904635e-05,
      "loss": 1.5049,
      "mean_token_accuracy": 0.6500988801320394,
      "num_tokens": 104865258.0,
      "step": 629
    },
    {
      "entropy": 1.8464046518007915,
      "epoch": 0.06920985416495015,
      "grad_norm": 0.7601498365402222,
      "learning_rate": 1.9999042364915222e-05,
      "loss": 1.372,
      "mean_token_accuracy": 0.6506158063809077,
      "num_tokens": 104993966.0,
      "step": 630
    },
    {
      "entropy": 1.8217159807682037,
      "epoch": 0.06931971107632309,
      "grad_norm": 0.6956254243850708,
      "learning_rate": 1.9999018865968462e-05,
      "loss": 1.363,
      "mean_token_accuracy": 0.656999429066976,
      "num_tokens": 105120668.0,
      "step": 631
    },
    {
      "entropy": 1.880683700243632,
      "epoch": 0.06942956798769602,
      "grad_norm": 0.792460560798645,
      "learning_rate": 1.999899508220681e-05,
      "loss": 1.4723,
      "mean_token_accuracy": 0.6231094797452291,
      "num_tokens": 105278220.0,
      "step": 632
    },
    {
      "entropy": 1.9088138242562611,
      "epoch": 0.06953942489906896,
      "grad_norm": 0.7916814088821411,
      "learning_rate": 1.9998971013631017e-05,
      "loss": 1.5356,
      "mean_token_accuracy": 0.6298377265532812,
      "num_tokens": 105413384.0,
      "step": 633
    },
    {
      "entropy": 1.7535264392693837,
      "epoch": 0.0696492818104419,
      "grad_norm": 1.0666766166687012,
      "learning_rate": 1.9998946660241845e-05,
      "loss": 1.3734,
      "mean_token_accuracy": 0.6519220570723215,
      "num_tokens": 105636692.0,
      "step": 634
    },
    {
      "entropy": 1.762801597515742,
      "epoch": 0.06975913872181484,
      "grad_norm": 0.6462137699127197,
      "learning_rate": 1.9998922022040068e-05,
      "loss": 1.3319,
      "mean_token_accuracy": 0.6682475755612055,
      "num_tokens": 105776185.0,
      "step": 635
    },
    {
      "entropy": 1.802270730336507,
      "epoch": 0.06986899563318777,
      "grad_norm": 0.6272945404052734,
      "learning_rate": 1.9998897099026464e-05,
      "loss": 1.5092,
      "mean_token_accuracy": 0.6357052127520243,
      "num_tokens": 105943190.0,
      "step": 636
    },
    {
      "entropy": 1.7483725647131603,
      "epoch": 0.06997885254456071,
      "grad_norm": 0.6791301369667053,
      "learning_rate": 1.9998871891201822e-05,
      "loss": 1.3783,
      "mean_token_accuracy": 0.6612305889527003,
      "num_tokens": 106072514.0,
      "step": 637
    },
    {
      "entropy": 1.7557042439778645,
      "epoch": 0.07008870945593365,
      "grad_norm": 0.6274598836898804,
      "learning_rate": 1.9998846398566937e-05,
      "loss": 1.4067,
      "mean_token_accuracy": 0.636664499839147,
      "num_tokens": 106315956.0,
      "step": 638
    },
    {
      "entropy": 1.851299395163854,
      "epoch": 0.07019856636730658,
      "grad_norm": 0.8829707503318787,
      "learning_rate": 1.9998820621122623e-05,
      "loss": 1.5645,
      "mean_token_accuracy": 0.6381447166204453,
      "num_tokens": 106515312.0,
      "step": 639
    },
    {
      "entropy": 1.7740463018417358,
      "epoch": 0.07030842327867952,
      "grad_norm": 0.6600044369697571,
      "learning_rate": 1.999879455886969e-05,
      "loss": 1.4202,
      "mean_token_accuracy": 0.6525014142195383,
      "num_tokens": 106734565.0,
      "step": 640
    },
    {
      "entropy": 1.808898796637853,
      "epoch": 0.07041828019005246,
      "grad_norm": 0.7501150965690613,
      "learning_rate": 1.9998768211808962e-05,
      "loss": 1.5897,
      "mean_token_accuracy": 0.6105268895626068,
      "num_tokens": 106986985.0,
      "step": 641
    },
    {
      "entropy": 1.7719741264979045,
      "epoch": 0.07052813710142539,
      "grad_norm": 0.9000745415687561,
      "learning_rate": 1.9998741579941278e-05,
      "loss": 1.4318,
      "mean_token_accuracy": 0.6551828881104788,
      "num_tokens": 107135180.0,
      "step": 642
    },
    {
      "entropy": 1.8894204199314117,
      "epoch": 0.07063799401279833,
      "grad_norm": 0.8245925307273865,
      "learning_rate": 1.9998714663267476e-05,
      "loss": 1.461,
      "mean_token_accuracy": 0.6333466370900472,
      "num_tokens": 107343264.0,
      "step": 643
    },
    {
      "entropy": 1.8361808558305104,
      "epoch": 0.07074785092417127,
      "grad_norm": 0.8316481709480286,
      "learning_rate": 1.999868746178841e-05,
      "loss": 1.3824,
      "mean_token_accuracy": 0.657560924688975,
      "num_tokens": 107472183.0,
      "step": 644
    },
    {
      "entropy": 1.7973891297976177,
      "epoch": 0.07085770783554421,
      "grad_norm": 0.6126974821090698,
      "learning_rate": 1.999865997550494e-05,
      "loss": 1.5521,
      "mean_token_accuracy": 0.6135254551966985,
      "num_tokens": 107694331.0,
      "step": 645
    },
    {
      "entropy": 1.8026204109191895,
      "epoch": 0.07096756474691714,
      "grad_norm": 0.6637122631072998,
      "learning_rate": 1.9998632204417937e-05,
      "loss": 1.3808,
      "mean_token_accuracy": 0.6509968092044195,
      "num_tokens": 107878484.0,
      "step": 646
    },
    {
      "entropy": 1.7910412450631459,
      "epoch": 0.07107742165829008,
      "grad_norm": 0.6697704195976257,
      "learning_rate": 1.9998604148528284e-05,
      "loss": 1.658,
      "mean_token_accuracy": 0.6217399090528488,
      "num_tokens": 108061157.0,
      "step": 647
    },
    {
      "entropy": 1.7230544984340668,
      "epoch": 0.07118727856966302,
      "grad_norm": 0.6764496564865112,
      "learning_rate": 1.999857580783686e-05,
      "loss": 1.3284,
      "mean_token_accuracy": 0.6676372985045115,
      "num_tokens": 108202427.0,
      "step": 648
    },
    {
      "entropy": 1.7782044510046642,
      "epoch": 0.07129713548103594,
      "grad_norm": 0.7073798179626465,
      "learning_rate": 1.9998547182344564e-05,
      "loss": 1.4346,
      "mean_token_accuracy": 0.6538479775190353,
      "num_tokens": 108361157.0,
      "step": 649
    },
    {
      "entropy": 1.7819972435633342,
      "epoch": 0.07140699239240889,
      "grad_norm": 0.6922680735588074,
      "learning_rate": 1.999851827205231e-05,
      "loss": 1.3826,
      "mean_token_accuracy": 0.6540144383907318,
      "num_tokens": 108528441.0,
      "step": 650
    },
    {
      "entropy": 1.7943304777145386,
      "epoch": 0.07151684930378183,
      "grad_norm": 0.6376049518585205,
      "learning_rate": 1.9998489076961005e-05,
      "loss": 1.4412,
      "mean_token_accuracy": 0.636512354016304,
      "num_tokens": 108738071.0,
      "step": 651
    },
    {
      "entropy": 1.85460830728213,
      "epoch": 0.07162670621515477,
      "grad_norm": 0.8236610889434814,
      "learning_rate": 1.999845959707158e-05,
      "loss": 1.4868,
      "mean_token_accuracy": 0.6557626873254776,
      "num_tokens": 108885666.0,
      "step": 652
    },
    {
      "entropy": 1.7542377909024556,
      "epoch": 0.0717365631265277,
      "grad_norm": 0.7607982754707336,
      "learning_rate": 1.9998429832384953e-05,
      "loss": 1.3098,
      "mean_token_accuracy": 0.6667990038792292,
      "num_tokens": 109009005.0,
      "step": 653
    },
    {
      "entropy": 1.7943703830242157,
      "epoch": 0.07184642003790064,
      "grad_norm": 0.6870585680007935,
      "learning_rate": 1.9998399782902083e-05,
      "loss": 1.4376,
      "mean_token_accuracy": 0.6404406229654948,
      "num_tokens": 109180672.0,
      "step": 654
    },
    {
      "entropy": 1.81678972641627,
      "epoch": 0.07195627694927358,
      "grad_norm": 0.9632508158683777,
      "learning_rate": 1.9998369448623916e-05,
      "loss": 1.2715,
      "mean_token_accuracy": 0.6628138174613317,
      "num_tokens": 109287099.0,
      "step": 655
    },
    {
      "entropy": 1.7701709270477295,
      "epoch": 0.0720661338606465,
      "grad_norm": 0.941100001335144,
      "learning_rate": 1.999833882955141e-05,
      "loss": 1.367,
      "mean_token_accuracy": 0.648131713271141,
      "num_tokens": 109474542.0,
      "step": 656
    },
    {
      "entropy": 1.821062793334325,
      "epoch": 0.07217599077201944,
      "grad_norm": 0.6249318718910217,
      "learning_rate": 1.9998307925685534e-05,
      "loss": 1.3544,
      "mean_token_accuracy": 0.6468546291192373,
      "num_tokens": 109606382.0,
      "step": 657
    },
    {
      "entropy": 1.8237617115179698,
      "epoch": 0.07228584768339238,
      "grad_norm": 0.6935443878173828,
      "learning_rate": 1.9998276737027266e-05,
      "loss": 1.4338,
      "mean_token_accuracy": 0.6507659604152044,
      "num_tokens": 109770865.0,
      "step": 658
    },
    {
      "entropy": 1.8277263343334198,
      "epoch": 0.07239570459476531,
      "grad_norm": 0.6764071583747864,
      "learning_rate": 1.9998245263577596e-05,
      "loss": 1.5816,
      "mean_token_accuracy": 0.6434828341007233,
      "num_tokens": 109976506.0,
      "step": 659
    },
    {
      "entropy": 1.8320674896240234,
      "epoch": 0.07250556150613825,
      "grad_norm": 0.7720675468444824,
      "learning_rate": 1.999821350533752e-05,
      "loss": 1.64,
      "mean_token_accuracy": 0.6294133017460505,
      "num_tokens": 110132121.0,
      "step": 660
    },
    {
      "entropy": 1.7681880195935566,
      "epoch": 0.0726154184175112,
      "grad_norm": 0.6684180498123169,
      "learning_rate": 1.9998181462308037e-05,
      "loss": 1.4463,
      "mean_token_accuracy": 0.6456720034281412,
      "num_tokens": 110322861.0,
      "step": 661
    },
    {
      "entropy": 1.8428928156693776,
      "epoch": 0.07272527532888413,
      "grad_norm": 0.7397868633270264,
      "learning_rate": 1.9998149134490165e-05,
      "loss": 1.3386,
      "mean_token_accuracy": 0.6623791555563608,
      "num_tokens": 110483291.0,
      "step": 662
    },
    {
      "entropy": 1.7374838987986247,
      "epoch": 0.07283513224025706,
      "grad_norm": 0.6700147390365601,
      "learning_rate": 1.999811652188493e-05,
      "loss": 1.5732,
      "mean_token_accuracy": 0.6497671554485956,
      "num_tokens": 110678771.0,
      "step": 663
    },
    {
      "entropy": 1.8194133241971333,
      "epoch": 0.07294498915163,
      "grad_norm": 0.6404582858085632,
      "learning_rate": 1.999808362449336e-05,
      "loss": 1.623,
      "mean_token_accuracy": 0.6257813026507696,
      "num_tokens": 110835416.0,
      "step": 664
    },
    {
      "entropy": 1.7887710829575856,
      "epoch": 0.07305484606300294,
      "grad_norm": 1.0074845552444458,
      "learning_rate": 1.9998050442316503e-05,
      "loss": 1.4084,
      "mean_token_accuracy": 0.651343877116839,
      "num_tokens": 111000969.0,
      "step": 665
    },
    {
      "entropy": 1.764528065919876,
      "epoch": 0.07316470297437587,
      "grad_norm": 0.9937914609909058,
      "learning_rate": 1.9998016975355397e-05,
      "loss": 1.2696,
      "mean_token_accuracy": 0.6718964874744415,
      "num_tokens": 111115363.0,
      "step": 666
    },
    {
      "entropy": 1.8262263238430023,
      "epoch": 0.07327455988574881,
      "grad_norm": 0.8130075335502625,
      "learning_rate": 1.9997983223611112e-05,
      "loss": 1.4068,
      "mean_token_accuracy": 0.6590779721736908,
      "num_tokens": 111280328.0,
      "step": 667
    },
    {
      "entropy": 1.830139935016632,
      "epoch": 0.07338441679712175,
      "grad_norm": 0.7358323931694031,
      "learning_rate": 1.999794918708471e-05,
      "loss": 1.4667,
      "mean_token_accuracy": 0.6425051589806875,
      "num_tokens": 111466818.0,
      "step": 668
    },
    {
      "entropy": 1.8468297918637593,
      "epoch": 0.07349427370849469,
      "grad_norm": 0.8599507808685303,
      "learning_rate": 1.9997914865777273e-05,
      "loss": 1.3408,
      "mean_token_accuracy": 0.6542004893223444,
      "num_tokens": 111602406.0,
      "step": 669
    },
    {
      "entropy": 1.7656611204147339,
      "epoch": 0.07360413061986762,
      "grad_norm": 0.7185338735580444,
      "learning_rate": 1.9997880259689886e-05,
      "loss": 1.3936,
      "mean_token_accuracy": 0.6685215532779694,
      "num_tokens": 111751172.0,
      "step": 670
    },
    {
      "entropy": 1.7852209508419037,
      "epoch": 0.07371398753124056,
      "grad_norm": 0.7217685580253601,
      "learning_rate": 1.999784536882364e-05,
      "loss": 1.5029,
      "mean_token_accuracy": 0.6421723713477453,
      "num_tokens": 111929666.0,
      "step": 671
    },
    {
      "entropy": 1.8410307069619496,
      "epoch": 0.0738238444426135,
      "grad_norm": 0.6868441104888916,
      "learning_rate": 1.9997810193179647e-05,
      "loss": 1.4308,
      "mean_token_accuracy": 0.6462933719158173,
      "num_tokens": 112079312.0,
      "step": 672
    },
    {
      "entropy": 1.7862571875254314,
      "epoch": 0.07393370135398643,
      "grad_norm": 0.7277688980102539,
      "learning_rate": 1.9997774732759013e-05,
      "loss": 1.4031,
      "mean_token_accuracy": 0.647498811284701,
      "num_tokens": 112248478.0,
      "step": 673
    },
    {
      "entropy": 1.8328973750273387,
      "epoch": 0.07404355826535937,
      "grad_norm": 0.8798831105232239,
      "learning_rate": 1.9997738987562866e-05,
      "loss": 1.5971,
      "mean_token_accuracy": 0.6418457180261612,
      "num_tokens": 112434647.0,
      "step": 674
    },
    {
      "entropy": 1.821668843428294,
      "epoch": 0.07415341517673231,
      "grad_norm": 0.749891459941864,
      "learning_rate": 1.999770295759233e-05,
      "loss": 1.3465,
      "mean_token_accuracy": 0.654508168498675,
      "num_tokens": 112564952.0,
      "step": 675
    },
    {
      "entropy": 1.7971191604932149,
      "epoch": 0.07426327208810524,
      "grad_norm": 0.8182111978530884,
      "learning_rate": 1.9997666642848554e-05,
      "loss": 1.5722,
      "mean_token_accuracy": 0.6354757895072302,
      "num_tokens": 112725586.0,
      "step": 676
    },
    {
      "entropy": 1.8406287133693695,
      "epoch": 0.07437312899947818,
      "grad_norm": 0.8844257593154907,
      "learning_rate": 1.999763004333268e-05,
      "loss": 1.2809,
      "mean_token_accuracy": 0.6689592599868774,
      "num_tokens": 112853047.0,
      "step": 677
    },
    {
      "entropy": 1.8012821773688,
      "epoch": 0.07448298591085112,
      "grad_norm": 0.5953492522239685,
      "learning_rate": 1.9997593159045873e-05,
      "loss": 1.5063,
      "mean_token_accuracy": 0.6295547236998876,
      "num_tokens": 113080741.0,
      "step": 678
    },
    {
      "entropy": 1.8217666645844777,
      "epoch": 0.07459284282222406,
      "grad_norm": 220.8173370361328,
      "learning_rate": 1.9997555989989293e-05,
      "loss": 1.573,
      "mean_token_accuracy": 0.6443419431646665,
      "num_tokens": 113273229.0,
      "step": 679
    },
    {
      "entropy": 1.783298095067342,
      "epoch": 0.07470269973359699,
      "grad_norm": 0.668280303478241,
      "learning_rate": 1.9997518536164123e-05,
      "loss": 1.3078,
      "mean_token_accuracy": 0.6795926441748937,
      "num_tokens": 113430145.0,
      "step": 680
    },
    {
      "entropy": 1.7551721433798473,
      "epoch": 0.07481255664496993,
      "grad_norm": 0.7069210410118103,
      "learning_rate": 1.9997480797571547e-05,
      "loss": 1.3379,
      "mean_token_accuracy": 0.6589397639036179,
      "num_tokens": 113588815.0,
      "step": 681
    },
    {
      "entropy": 1.8191516598065693,
      "epoch": 0.07492241355634287,
      "grad_norm": 0.610933244228363,
      "learning_rate": 1.9997442774212753e-05,
      "loss": 1.4519,
      "mean_token_accuracy": 0.6368223875761032,
      "num_tokens": 113777021.0,
      "step": 682
    },
    {
      "entropy": 1.8061704138914745,
      "epoch": 0.0750322704677158,
      "grad_norm": 0.7445184588432312,
      "learning_rate": 1.9997404466088953e-05,
      "loss": 1.4369,
      "mean_token_accuracy": 0.6480630288521448,
      "num_tokens": 113933174.0,
      "step": 683
    },
    {
      "entropy": 1.7527543703715007,
      "epoch": 0.07514212737908874,
      "grad_norm": 0.6358804702758789,
      "learning_rate": 1.9997365873201356e-05,
      "loss": 1.4386,
      "mean_token_accuracy": 0.6501162797212601,
      "num_tokens": 114121410.0,
      "step": 684
    },
    {
      "entropy": 1.799436867237091,
      "epoch": 0.07525198429046168,
      "grad_norm": 0.8749188780784607,
      "learning_rate": 1.9997326995551183e-05,
      "loss": 1.5263,
      "mean_token_accuracy": 0.6480574657519659,
      "num_tokens": 114282873.0,
      "step": 685
    },
    {
      "entropy": 1.7453529338041942,
      "epoch": 0.07536184120183462,
      "grad_norm": 0.7320595979690552,
      "learning_rate": 1.9997287833139666e-05,
      "loss": 1.5296,
      "mean_token_accuracy": 0.657763327161471,
      "num_tokens": 114508923.0,
      "step": 686
    },
    {
      "entropy": 1.7952920198440552,
      "epoch": 0.07547169811320754,
      "grad_norm": 0.6980917453765869,
      "learning_rate": 1.9997248385968042e-05,
      "loss": 1.4428,
      "mean_token_accuracy": 0.6694839894771576,
      "num_tokens": 114681044.0,
      "step": 687
    },
    {
      "entropy": 1.7734041313330333,
      "epoch": 0.07558155502458049,
      "grad_norm": 0.6694082617759705,
      "learning_rate": 1.999720865403756e-05,
      "loss": 1.4143,
      "mean_token_accuracy": 0.6455632597208023,
      "num_tokens": 114862846.0,
      "step": 688
    },
    {
      "entropy": 1.8399201730887096,
      "epoch": 0.07569141193595343,
      "grad_norm": 0.7080643773078918,
      "learning_rate": 1.999716863734948e-05,
      "loss": 1.4556,
      "mean_token_accuracy": 0.6443889985481898,
      "num_tokens": 115039990.0,
      "step": 689
    },
    {
      "entropy": 1.7809200982252757,
      "epoch": 0.07580126884732635,
      "grad_norm": 0.6346096396446228,
      "learning_rate": 1.9997128335905066e-05,
      "loss": 1.4591,
      "mean_token_accuracy": 0.6494338313738505,
      "num_tokens": 115206329.0,
      "step": 690
    },
    {
      "entropy": 1.8355284929275513,
      "epoch": 0.0759111257586993,
      "grad_norm": 0.7674968242645264,
      "learning_rate": 1.9997087749705595e-05,
      "loss": 1.4145,
      "mean_token_accuracy": 0.6622882982095083,
      "num_tokens": 115352467.0,
      "step": 691
    },
    {
      "entropy": 1.7761068443457286,
      "epoch": 0.07602098267007223,
      "grad_norm": 0.6778233647346497,
      "learning_rate": 1.999704687875235e-05,
      "loss": 1.4126,
      "mean_token_accuracy": 0.658729096253713,
      "num_tokens": 115559309.0,
      "step": 692
    },
    {
      "entropy": 1.772262881199519,
      "epoch": 0.07613083958144516,
      "grad_norm": 0.7021632194519043,
      "learning_rate": 1.9997005723046628e-05,
      "loss": 1.4743,
      "mean_token_accuracy": 0.6380442132552465,
      "num_tokens": 115747604.0,
      "step": 693
    },
    {
      "entropy": 1.7603289783000946,
      "epoch": 0.0762406964928181,
      "grad_norm": 0.7222464680671692,
      "learning_rate": 1.9996964282589724e-05,
      "loss": 1.4163,
      "mean_token_accuracy": 0.6446563949187597,
      "num_tokens": 115907827.0,
      "step": 694
    },
    {
      "entropy": 1.841255287329356,
      "epoch": 0.07635055340419104,
      "grad_norm": 0.6588021516799927,
      "learning_rate": 1.999692255738296e-05,
      "loss": 1.4226,
      "mean_token_accuracy": 0.6450923730929693,
      "num_tokens": 116087244.0,
      "step": 695
    },
    {
      "entropy": 1.7898233930269878,
      "epoch": 0.07646041031556398,
      "grad_norm": 0.5840282440185547,
      "learning_rate": 1.999688054742765e-05,
      "loss": 1.4013,
      "mean_token_accuracy": 0.6547726740439733,
      "num_tokens": 116257019.0,
      "step": 696
    },
    {
      "entropy": 1.7955358823140461,
      "epoch": 0.07657026722693691,
      "grad_norm": 0.729434609413147,
      "learning_rate": 1.9996838252725123e-05,
      "loss": 1.3782,
      "mean_token_accuracy": 0.6612616926431656,
      "num_tokens": 116414138.0,
      "step": 697
    },
    {
      "entropy": 1.8139538665612538,
      "epoch": 0.07668012413830985,
      "grad_norm": 0.6815258264541626,
      "learning_rate": 1.999679567327672e-05,
      "loss": 1.4255,
      "mean_token_accuracy": 0.6536463449398676,
      "num_tokens": 116605641.0,
      "step": 698
    },
    {
      "entropy": 1.8517298797766368,
      "epoch": 0.07678998104968279,
      "grad_norm": 0.7695915102958679,
      "learning_rate": 1.9996752809083788e-05,
      "loss": 1.4368,
      "mean_token_accuracy": 0.6444319734970728,
      "num_tokens": 116753233.0,
      "step": 699
    },
    {
      "entropy": 1.746784100929896,
      "epoch": 0.07689983796105572,
      "grad_norm": 0.6605033278465271,
      "learning_rate": 1.9996709660147683e-05,
      "loss": 1.4952,
      "mean_token_accuracy": 0.6499835948149363,
      "num_tokens": 116916082.0,
      "step": 700
    },
    {
      "entropy": 1.7918027838071187,
      "epoch": 0.07700969487242866,
      "grad_norm": 0.7656397819519043,
      "learning_rate": 1.999666622646977e-05,
      "loss": 1.6114,
      "mean_token_accuracy": 0.6382357329130173,
      "num_tokens": 117116194.0,
      "step": 701
    },
    {
      "entropy": 1.7874523599942524,
      "epoch": 0.0771195517838016,
      "grad_norm": 0.6298776268959045,
      "learning_rate": 1.999662250805143e-05,
      "loss": 1.3409,
      "mean_token_accuracy": 0.6549411416053772,
      "num_tokens": 117255116.0,
      "step": 702
    },
    {
      "entropy": 1.8126642107963562,
      "epoch": 0.07722940869517453,
      "grad_norm": 0.9679374694824219,
      "learning_rate": 1.9996578504894037e-05,
      "loss": 1.3772,
      "mean_token_accuracy": 0.6570501724878947,
      "num_tokens": 117399980.0,
      "step": 703
    },
    {
      "entropy": 1.8066406548023224,
      "epoch": 0.07733926560654747,
      "grad_norm": 0.6479452252388,
      "learning_rate": 1.999653421699899e-05,
      "loss": 1.6135,
      "mean_token_accuracy": 0.6204476977388064,
      "num_tokens": 117653352.0,
      "step": 704
    },
    {
      "entropy": 1.746168166399002,
      "epoch": 0.07744912251792041,
      "grad_norm": 0.8578298091888428,
      "learning_rate": 1.9996489644367688e-05,
      "loss": 1.4505,
      "mean_token_accuracy": 0.6426874895890554,
      "num_tokens": 117816334.0,
      "step": 705
    },
    {
      "entropy": 1.729866623878479,
      "epoch": 0.07755897942929335,
      "grad_norm": 0.766589343547821,
      "learning_rate": 1.999644478700154e-05,
      "loss": 1.3927,
      "mean_token_accuracy": 0.6578174283107122,
      "num_tokens": 118010653.0,
      "step": 706
    },
    {
      "entropy": 1.7975072264671326,
      "epoch": 0.07766883634066628,
      "grad_norm": 0.9121028780937195,
      "learning_rate": 1.9996399644901976e-05,
      "loss": 1.5192,
      "mean_token_accuracy": 0.6352412700653076,
      "num_tokens": 118195093.0,
      "step": 707
    },
    {
      "entropy": 1.8069658875465393,
      "epoch": 0.07777869325203922,
      "grad_norm": 0.6980465650558472,
      "learning_rate": 1.999635421807041e-05,
      "loss": 1.4175,
      "mean_token_accuracy": 0.6498169104258219,
      "num_tokens": 118338858.0,
      "step": 708
    },
    {
      "entropy": 1.8504317104816437,
      "epoch": 0.07788855016341216,
      "grad_norm": 0.9060118794441223,
      "learning_rate": 1.999630850650829e-05,
      "loss": 1.4035,
      "mean_token_accuracy": 0.6471539338429769,
      "num_tokens": 118444002.0,
      "step": 709
    },
    {
      "entropy": 1.829773207505544,
      "epoch": 0.07799840707478509,
      "grad_norm": 0.7004634141921997,
      "learning_rate": 1.9996262510217058e-05,
      "loss": 1.3789,
      "mean_token_accuracy": 0.6589366098244985,
      "num_tokens": 118603170.0,
      "step": 710
    },
    {
      "entropy": 1.7559443612893422,
      "epoch": 0.07810826398615803,
      "grad_norm": 0.6373770236968994,
      "learning_rate": 1.9996216229198175e-05,
      "loss": 1.2677,
      "mean_token_accuracy": 0.680022269487381,
      "num_tokens": 118757923.0,
      "step": 711
    },
    {
      "entropy": 1.805822531382243,
      "epoch": 0.07821812089753097,
      "grad_norm": 0.7866727709770203,
      "learning_rate": 1.9996169663453096e-05,
      "loss": 1.5077,
      "mean_token_accuracy": 0.6585622876882553,
      "num_tokens": 119017661.0,
      "step": 712
    },
    {
      "entropy": 1.7577200531959534,
      "epoch": 0.07832797780890391,
      "grad_norm": 0.7266113758087158,
      "learning_rate": 1.9996122812983307e-05,
      "loss": 1.49,
      "mean_token_accuracy": 0.6384626974662145,
      "num_tokens": 119187084.0,
      "step": 713
    },
    {
      "entropy": 1.8151898682117462,
      "epoch": 0.07843783472027684,
      "grad_norm": 0.8451136350631714,
      "learning_rate": 1.9996075677790284e-05,
      "loss": 1.3513,
      "mean_token_accuracy": 0.6595414280891418,
      "num_tokens": 119316009.0,
      "step": 714
    },
    {
      "entropy": 1.7623566885789235,
      "epoch": 0.07854769163164978,
      "grad_norm": 0.8786435127258301,
      "learning_rate": 1.9996028257875518e-05,
      "loss": 1.2819,
      "mean_token_accuracy": 0.667223796248436,
      "num_tokens": 119478080.0,
      "step": 715
    },
    {
      "entropy": 1.793608546257019,
      "epoch": 0.07865754854302272,
      "grad_norm": 0.7934389114379883,
      "learning_rate": 1.999598055324051e-05,
      "loss": 1.4843,
      "mean_token_accuracy": 0.6354232827822367,
      "num_tokens": 119646813.0,
      "step": 716
    },
    {
      "entropy": 1.7802114486694336,
      "epoch": 0.07876740545439564,
      "grad_norm": 0.701699435710907,
      "learning_rate": 1.9995932563886774e-05,
      "loss": 1.5294,
      "mean_token_accuracy": 0.6498485853274664,
      "num_tokens": 119826582.0,
      "step": 717
    },
    {
      "entropy": 1.7280071278413136,
      "epoch": 0.07887726236576859,
      "grad_norm": 0.7847176194190979,
      "learning_rate": 1.9995884289815822e-05,
      "loss": 1.2134,
      "mean_token_accuracy": 0.6839973479509354,
      "num_tokens": 119938664.0,
      "step": 718
    },
    {
      "entropy": 1.8675900995731354,
      "epoch": 0.07898711927714153,
      "grad_norm": 0.9124090671539307,
      "learning_rate": 1.9995835731029188e-05,
      "loss": 1.3989,
      "mean_token_accuracy": 0.6580939839283625,
      "num_tokens": 120071040.0,
      "step": 719
    },
    {
      "entropy": 1.7469736437002819,
      "epoch": 0.07909697618851445,
      "grad_norm": 0.6930084228515625,
      "learning_rate": 1.999578688752841e-05,
      "loss": 1.4251,
      "mean_token_accuracy": 0.6595380107561747,
      "num_tokens": 120280438.0,
      "step": 720
    },
    {
      "entropy": 1.8206437130769093,
      "epoch": 0.0792068330998874,
      "grad_norm": 0.7369340062141418,
      "learning_rate": 1.9995737759315025e-05,
      "loss": 1.5097,
      "mean_token_accuracy": 0.6350439786911011,
      "num_tokens": 120485289.0,
      "step": 721
    },
    {
      "entropy": 1.7503860990206401,
      "epoch": 0.07931669001126034,
      "grad_norm": 0.7530749440193176,
      "learning_rate": 1.99956883463906e-05,
      "loss": 1.4151,
      "mean_token_accuracy": 0.6404246886571249,
      "num_tokens": 120689052.0,
      "step": 722
    },
    {
      "entropy": 1.7276439766089122,
      "epoch": 0.07942654692263328,
      "grad_norm": 0.8877029418945312,
      "learning_rate": 1.9995638648756686e-05,
      "loss": 1.2943,
      "mean_token_accuracy": 0.6667290230592092,
      "num_tokens": 120798819.0,
      "step": 723
    },
    {
      "entropy": 1.7703753213087718,
      "epoch": 0.0795364038340062,
      "grad_norm": 0.7141546607017517,
      "learning_rate": 1.9995588666414866e-05,
      "loss": 1.4063,
      "mean_token_accuracy": 0.6415145248174667,
      "num_tokens": 120975866.0,
      "step": 724
    },
    {
      "entropy": 1.8610213895638783,
      "epoch": 0.07964626074537914,
      "grad_norm": 0.8251237869262695,
      "learning_rate": 1.9995538399366716e-05,
      "loss": 1.5718,
      "mean_token_accuracy": 0.6517770936091741,
      "num_tokens": 121107698.0,
      "step": 725
    },
    {
      "entropy": 1.7903367479642232,
      "epoch": 0.07975611765675208,
      "grad_norm": 0.7166335582733154,
      "learning_rate": 1.9995487847613832e-05,
      "loss": 1.5287,
      "mean_token_accuracy": 0.633270596464475,
      "num_tokens": 121295774.0,
      "step": 726
    },
    {
      "entropy": 1.7588022152582805,
      "epoch": 0.07986597456812501,
      "grad_norm": 0.723822832107544,
      "learning_rate": 1.9995437011157805e-05,
      "loss": 1.7178,
      "mean_token_accuracy": 0.6282697518666586,
      "num_tokens": 121554849.0,
      "step": 727
    },
    {
      "entropy": 1.8302726646264393,
      "epoch": 0.07997583147949795,
      "grad_norm": 0.7193813920021057,
      "learning_rate": 1.9995385890000256e-05,
      "loss": 1.4198,
      "mean_token_accuracy": 0.6537833462158839,
      "num_tokens": 121708057.0,
      "step": 728
    },
    {
      "entropy": 1.8833401600519817,
      "epoch": 0.0800856883908709,
      "grad_norm": 0.896878182888031,
      "learning_rate": 1.9995334484142797e-05,
      "loss": 1.4591,
      "mean_token_accuracy": 0.6470515926678976,
      "num_tokens": 121871319.0,
      "step": 729
    },
    {
      "entropy": 1.8520794709523518,
      "epoch": 0.08019554530224383,
      "grad_norm": 0.6501368284225464,
      "learning_rate": 1.999528279358705e-05,
      "loss": 1.5772,
      "mean_token_accuracy": 0.6148606240749359,
      "num_tokens": 122104472.0,
      "step": 730
    },
    {
      "entropy": 1.8304372231165569,
      "epoch": 0.08030540221361676,
      "grad_norm": 0.7300158143043518,
      "learning_rate": 1.9995230818334665e-05,
      "loss": 1.5162,
      "mean_token_accuracy": 0.6417268216609955,
      "num_tokens": 122318282.0,
      "step": 731
    },
    {
      "entropy": 1.8412455519040425,
      "epoch": 0.0804152591249897,
      "grad_norm": 0.7814407348632812,
      "learning_rate": 1.9995178558387268e-05,
      "loss": 1.5187,
      "mean_token_accuracy": 0.6483007321755091,
      "num_tokens": 122441137.0,
      "step": 732
    },
    {
      "entropy": 1.8073117434978485,
      "epoch": 0.08052511603636264,
      "grad_norm": 0.761740505695343,
      "learning_rate": 1.9995126013746527e-05,
      "loss": 1.436,
      "mean_token_accuracy": 0.6581438233455023,
      "num_tokens": 122574227.0,
      "step": 733
    },
    {
      "entropy": 1.7240748008092244,
      "epoch": 0.08063497294773557,
      "grad_norm": 0.6440936326980591,
      "learning_rate": 1.9995073184414103e-05,
      "loss": 1.31,
      "mean_token_accuracy": 0.6681271195411682,
      "num_tokens": 122704629.0,
      "step": 734
    },
    {
      "entropy": 1.8669129113356273,
      "epoch": 0.08074482985910851,
      "grad_norm": 0.8220887184143066,
      "learning_rate": 1.9995020070391666e-05,
      "loss": 1.5414,
      "mean_token_accuracy": 0.645127202073733,
      "num_tokens": 122870109.0,
      "step": 735
    },
    {
      "entropy": 1.767956554889679,
      "epoch": 0.08085468677048145,
      "grad_norm": 0.8655692338943481,
      "learning_rate": 1.9994966671680892e-05,
      "loss": 1.3607,
      "mean_token_accuracy": 0.6563311517238617,
      "num_tokens": 122991223.0,
      "step": 736
    },
    {
      "entropy": 1.8697227636973064,
      "epoch": 0.08096454368185438,
      "grad_norm": 0.8299003839492798,
      "learning_rate": 1.999491298828348e-05,
      "loss": 1.4838,
      "mean_token_accuracy": 0.6484878609577814,
      "num_tokens": 123119953.0,
      "step": 737
    },
    {
      "entropy": 1.8050644993782043,
      "epoch": 0.08107440059322732,
      "grad_norm": 0.9768658876419067,
      "learning_rate": 1.9994859020201124e-05,
      "loss": 1.301,
      "mean_token_accuracy": 0.6755692362785339,
      "num_tokens": 123261135.0,
      "step": 738
    },
    {
      "entropy": 1.7627781132857006,
      "epoch": 0.08118425750460026,
      "grad_norm": 0.846538245677948,
      "learning_rate": 1.9994804767435535e-05,
      "loss": 1.368,
      "mean_token_accuracy": 0.6451980670293173,
      "num_tokens": 123420991.0,
      "step": 739
    },
    {
      "entropy": 1.8099198838075001,
      "epoch": 0.0812941144159732,
      "grad_norm": 0.6865768432617188,
      "learning_rate": 1.9994750229988426e-05,
      "loss": 1.3777,
      "mean_token_accuracy": 0.6596326579650243,
      "num_tokens": 123562426.0,
      "step": 740
    },
    {
      "entropy": 1.7973152299722035,
      "epoch": 0.08140397132734613,
      "grad_norm": 0.6900340914726257,
      "learning_rate": 1.9994695407861526e-05,
      "loss": 1.4664,
      "mean_token_accuracy": 0.6281344542900721,
      "num_tokens": 123751162.0,
      "step": 741
    },
    {
      "entropy": 1.796221762895584,
      "epoch": 0.08151382823871907,
      "grad_norm": 0.661390483379364,
      "learning_rate": 1.999464030105657e-05,
      "loss": 1.6038,
      "mean_token_accuracy": 0.6439404537280401,
      "num_tokens": 123962173.0,
      "step": 742
    },
    {
      "entropy": 1.8211529751618702,
      "epoch": 0.08162368515009201,
      "grad_norm": 0.838100254535675,
      "learning_rate": 1.99945849095753e-05,
      "loss": 1.5889,
      "mean_token_accuracy": 0.6407252550125122,
      "num_tokens": 124092071.0,
      "step": 743
    },
    {
      "entropy": 1.7539305289586384,
      "epoch": 0.08173354206146494,
      "grad_norm": 0.7083438038825989,
      "learning_rate": 1.999452923341947e-05,
      "loss": 1.4526,
      "mean_token_accuracy": 0.661969467997551,
      "num_tokens": 124272313.0,
      "step": 744
    },
    {
      "entropy": 1.8283264338970184,
      "epoch": 0.08184339897283788,
      "grad_norm": 0.9990186095237732,
      "learning_rate": 1.9994473272590848e-05,
      "loss": 1.5733,
      "mean_token_accuracy": 0.6551229556401571,
      "num_tokens": 124408723.0,
      "step": 745
    },
    {
      "entropy": 1.7998952567577362,
      "epoch": 0.08195325588421082,
      "grad_norm": 0.9326064586639404,
      "learning_rate": 1.9994417027091193e-05,
      "loss": 1.3575,
      "mean_token_accuracy": 0.6747980813185374,
      "num_tokens": 124546937.0,
      "step": 746
    },
    {
      "entropy": 1.8038958807786305,
      "epoch": 0.08206311279558375,
      "grad_norm": 0.6932543516159058,
      "learning_rate": 1.9994360496922297e-05,
      "loss": 1.4123,
      "mean_token_accuracy": 0.6614984820286433,
      "num_tokens": 124690925.0,
      "step": 747
    },
    {
      "entropy": 1.8390637238820393,
      "epoch": 0.08217296970695669,
      "grad_norm": 0.9938632845878601,
      "learning_rate": 1.9994303682085946e-05,
      "loss": 1.4262,
      "mean_token_accuracy": 0.6745589772860209,
      "num_tokens": 124849459.0,
      "step": 748
    },
    {
      "entropy": 1.7794020473957062,
      "epoch": 0.08228282661832963,
      "grad_norm": 0.7585030198097229,
      "learning_rate": 1.999424658258393e-05,
      "loss": 1.5437,
      "mean_token_accuracy": 0.63681960105896,
      "num_tokens": 125045326.0,
      "step": 749
    },
    {
      "entropy": 1.752739042043686,
      "epoch": 0.08239268352970257,
      "grad_norm": 0.7272341251373291,
      "learning_rate": 1.9994189198418067e-05,
      "loss": 1.5744,
      "mean_token_accuracy": 0.6451994031667709,
      "num_tokens": 125215785.0,
      "step": 750
    },
    {
      "entropy": 1.7343992094198863,
      "epoch": 0.0825025404410755,
      "grad_norm": 0.8098207712173462,
      "learning_rate": 1.9994131529590166e-05,
      "loss": 1.5917,
      "mean_token_accuracy": 0.6374679381648699,
      "num_tokens": 125409547.0,
      "step": 751
    },
    {
      "entropy": 1.8226308226585388,
      "epoch": 0.08261239735244844,
      "grad_norm": 0.7430676221847534,
      "learning_rate": 1.9994073576102058e-05,
      "loss": 1.399,
      "mean_token_accuracy": 0.6658477435509363,
      "num_tokens": 125530731.0,
      "step": 752
    },
    {
      "entropy": 1.7828458150227864,
      "epoch": 0.08272225426382138,
      "grad_norm": 0.7506123185157776,
      "learning_rate": 1.999401533795557e-05,
      "loss": 1.3961,
      "mean_token_accuracy": 0.6559909929831823,
      "num_tokens": 125660742.0,
      "step": 753
    },
    {
      "entropy": 1.7625751396020253,
      "epoch": 0.0828321111751943,
      "grad_norm": 1.280418038368225,
      "learning_rate": 1.9993956815152553e-05,
      "loss": 1.1615,
      "mean_token_accuracy": 0.6699869732062022,
      "num_tokens": 125830165.0,
      "step": 754
    },
    {
      "entropy": 1.8572514255841572,
      "epoch": 0.08294196808656724,
      "grad_norm": 0.9156613945960999,
      "learning_rate": 1.9993898007694857e-05,
      "loss": 1.6035,
      "mean_token_accuracy": 0.634151021639506,
      "num_tokens": 125965207.0,
      "step": 755
    },
    {
      "entropy": 1.7810141642888386,
      "epoch": 0.08305182499794019,
      "grad_norm": 0.714108407497406,
      "learning_rate": 1.999383891558434e-05,
      "loss": 1.3414,
      "mean_token_accuracy": 0.6630875319242477,
      "num_tokens": 126126227.0,
      "step": 756
    },
    {
      "entropy": 1.755696713924408,
      "epoch": 0.08316168190931313,
      "grad_norm": 0.6537689566612244,
      "learning_rate": 1.9993779538822873e-05,
      "loss": 1.46,
      "mean_token_accuracy": 0.6578283309936523,
      "num_tokens": 126285094.0,
      "step": 757
    },
    {
      "entropy": 1.8099895517031352,
      "epoch": 0.08327153882068605,
      "grad_norm": 0.8549863696098328,
      "learning_rate": 1.9993719877412333e-05,
      "loss": 1.3394,
      "mean_token_accuracy": 0.6538981397946676,
      "num_tokens": 126461471.0,
      "step": 758
    },
    {
      "entropy": 1.8493448694547017,
      "epoch": 0.083381395732059,
      "grad_norm": 0.85292649269104,
      "learning_rate": 1.9993659931354616e-05,
      "loss": 1.4327,
      "mean_token_accuracy": 0.6453457971413931,
      "num_tokens": 126644623.0,
      "step": 759
    },
    {
      "entropy": 1.8416785299777985,
      "epoch": 0.08349125264343193,
      "grad_norm": 0.7345470190048218,
      "learning_rate": 1.9993599700651612e-05,
      "loss": 1.4578,
      "mean_token_accuracy": 0.6381366650263468,
      "num_tokens": 126832969.0,
      "step": 760
    },
    {
      "entropy": 1.7897752424081166,
      "epoch": 0.08360110955480486,
      "grad_norm": 0.6783207654953003,
      "learning_rate": 1.9993539185305236e-05,
      "loss": 1.3596,
      "mean_token_accuracy": 0.6550974746545156,
      "num_tokens": 127023280.0,
      "step": 761
    },
    {
      "entropy": 1.7872902353604634,
      "epoch": 0.0837109664661778,
      "grad_norm": 0.7059661746025085,
      "learning_rate": 1.9993478385317392e-05,
      "loss": 1.3619,
      "mean_token_accuracy": 0.6592389543851217,
      "num_tokens": 127161642.0,
      "step": 762
    },
    {
      "entropy": 1.8159588476022084,
      "epoch": 0.08382082337755074,
      "grad_norm": 0.6670881509780884,
      "learning_rate": 1.999341730069001e-05,
      "loss": 1.3591,
      "mean_token_accuracy": 0.6564019024372101,
      "num_tokens": 127301579.0,
      "step": 763
    },
    {
      "entropy": 1.7422301471233368,
      "epoch": 0.08393068028892367,
      "grad_norm": 0.6835038661956787,
      "learning_rate": 1.9993355931425026e-05,
      "loss": 1.3785,
      "mean_token_accuracy": 0.6575357466936111,
      "num_tokens": 127444174.0,
      "step": 764
    },
    {
      "entropy": 1.7988096475601196,
      "epoch": 0.08404053720029661,
      "grad_norm": 0.6521595120429993,
      "learning_rate": 1.9993294277524376e-05,
      "loss": 1.4665,
      "mean_token_accuracy": 0.6468783915042877,
      "num_tokens": 127635492.0,
      "step": 765
    },
    {
      "entropy": 1.808186541001002,
      "epoch": 0.08415039411166955,
      "grad_norm": 0.8931750655174255,
      "learning_rate": 1.9993232338990017e-05,
      "loss": 1.5414,
      "mean_token_accuracy": 0.642045333981514,
      "num_tokens": 127793125.0,
      "step": 766
    },
    {
      "entropy": 1.8431545893351238,
      "epoch": 0.08426025102304249,
      "grad_norm": 0.7338786125183105,
      "learning_rate": 1.9993170115823907e-05,
      "loss": 1.5627,
      "mean_token_accuracy": 0.6344971805810928,
      "num_tokens": 127993475.0,
      "step": 767
    },
    {
      "entropy": 1.822217325369517,
      "epoch": 0.08437010793441542,
      "grad_norm": 0.7734959721565247,
      "learning_rate": 1.9993107608028014e-05,
      "loss": 1.4285,
      "mean_token_accuracy": 0.6521108448505402,
      "num_tokens": 128139318.0,
      "step": 768
    },
    {
      "entropy": 1.8207875788211823,
      "epoch": 0.08447996484578836,
      "grad_norm": 0.6687442064285278,
      "learning_rate": 1.9993044815604315e-05,
      "loss": 1.4348,
      "mean_token_accuracy": 0.6397057324647903,
      "num_tokens": 128349536.0,
      "step": 769
    },
    {
      "entropy": 1.776291400194168,
      "epoch": 0.0845898217571613,
      "grad_norm": 0.7247187495231628,
      "learning_rate": 1.9992981738554804e-05,
      "loss": 1.4005,
      "mean_token_accuracy": 0.6597668379545212,
      "num_tokens": 128529318.0,
      "step": 770
    },
    {
      "entropy": 1.8065292338530223,
      "epoch": 0.08469967866853423,
      "grad_norm": 0.7673947215080261,
      "learning_rate": 1.999291837688147e-05,
      "loss": 1.2979,
      "mean_token_accuracy": 0.6667843461036682,
      "num_tokens": 128647932.0,
      "step": 771
    },
    {
      "entropy": 1.8455777664979298,
      "epoch": 0.08480953557990717,
      "grad_norm": 0.8621540069580078,
      "learning_rate": 1.9992854730586328e-05,
      "loss": 1.3875,
      "mean_token_accuracy": 0.6518898904323578,
      "num_tokens": 128806671.0,
      "step": 772
    },
    {
      "entropy": 1.7859807113806407,
      "epoch": 0.08491939249128011,
      "grad_norm": 0.806907057762146,
      "learning_rate": 1.999279079967138e-05,
      "loss": 1.4682,
      "mean_token_accuracy": 0.6510076969861984,
      "num_tokens": 128956643.0,
      "step": 773
    },
    {
      "entropy": 1.8100234270095825,
      "epoch": 0.08502924940265305,
      "grad_norm": 0.7432371973991394,
      "learning_rate": 1.9992726584138654e-05,
      "loss": 1.4843,
      "mean_token_accuracy": 0.637720063328743,
      "num_tokens": 129165449.0,
      "step": 774
    },
    {
      "entropy": 1.810623029867808,
      "epoch": 0.08513910631402598,
      "grad_norm": 0.7347936034202576,
      "learning_rate": 1.999266208399019e-05,
      "loss": 1.4643,
      "mean_token_accuracy": 0.6474610765775045,
      "num_tokens": 129345429.0,
      "step": 775
    },
    {
      "entropy": 1.8380460838476818,
      "epoch": 0.08524896322539892,
      "grad_norm": 0.778282642364502,
      "learning_rate": 1.999259729922802e-05,
      "loss": 1.364,
      "mean_token_accuracy": 0.6652749627828598,
      "num_tokens": 129470095.0,
      "step": 776
    },
    {
      "entropy": 1.733398546775182,
      "epoch": 0.08535882013677186,
      "grad_norm": 1.2146008014678955,
      "learning_rate": 1.9992532229854198e-05,
      "loss": 1.2652,
      "mean_token_accuracy": 0.6567486921946207,
      "num_tokens": 129738611.0,
      "step": 777
    },
    {
      "entropy": 1.7519733210404713,
      "epoch": 0.08546867704814479,
      "grad_norm": 0.7072291374206543,
      "learning_rate": 1.9992466875870783e-05,
      "loss": 1.3025,
      "mean_token_accuracy": 0.6597904910643896,
      "num_tokens": 129854306.0,
      "step": 778
    },
    {
      "entropy": 1.8180581033229828,
      "epoch": 0.08557853395951773,
      "grad_norm": 0.9036336541175842,
      "learning_rate": 1.9992401237279842e-05,
      "loss": 1.2928,
      "mean_token_accuracy": 0.6717847138643265,
      "num_tokens": 129988460.0,
      "step": 779
    },
    {
      "entropy": 1.8475947678089142,
      "epoch": 0.08568839087089067,
      "grad_norm": 0.690317690372467,
      "learning_rate": 1.9992335314083456e-05,
      "loss": 1.3999,
      "mean_token_accuracy": 0.6502603391806284,
      "num_tokens": 130130018.0,
      "step": 780
    },
    {
      "entropy": 1.7420289814472198,
      "epoch": 0.0857982477822636,
      "grad_norm": 0.5954359173774719,
      "learning_rate": 1.999226910628371e-05,
      "loss": 1.5268,
      "mean_token_accuracy": 0.6370938271284103,
      "num_tokens": 130339750.0,
      "step": 781
    },
    {
      "entropy": 1.833437740802765,
      "epoch": 0.08590810469363654,
      "grad_norm": 0.972395122051239,
      "learning_rate": 1.9992202613882697e-05,
      "loss": 1.4811,
      "mean_token_accuracy": 0.6551183809836706,
      "num_tokens": 130484058.0,
      "step": 782
    },
    {
      "entropy": 1.7667591671148937,
      "epoch": 0.08601796160500948,
      "grad_norm": 0.7758358716964722,
      "learning_rate": 1.999213583688252e-05,
      "loss": 1.3965,
      "mean_token_accuracy": 0.6554379711548487,
      "num_tokens": 130646142.0,
      "step": 783
    },
    {
      "entropy": 1.7984866201877594,
      "epoch": 0.08612781851638242,
      "grad_norm": 0.8162248134613037,
      "learning_rate": 1.9992068775285306e-05,
      "loss": 1.5106,
      "mean_token_accuracy": 0.6294661909341812,
      "num_tokens": 130834885.0,
      "step": 784
    },
    {
      "entropy": 1.7651668687661488,
      "epoch": 0.08623767542775534,
      "grad_norm": 0.9227822422981262,
      "learning_rate": 1.9992001429093156e-05,
      "loss": 1.2935,
      "mean_token_accuracy": 0.6639310071865717,
      "num_tokens": 130975509.0,
      "step": 785
    },
    {
      "entropy": 1.7787472208340962,
      "epoch": 0.08634753233912829,
      "grad_norm": 0.6106439828872681,
      "learning_rate": 1.9991933798308222e-05,
      "loss": 1.397,
      "mean_token_accuracy": 0.6517676264047623,
      "num_tokens": 131148150.0,
      "step": 786
    },
    {
      "entropy": 1.7501886288324993,
      "epoch": 0.08645738925050123,
      "grad_norm": 0.6313499808311462,
      "learning_rate": 1.9991865882932628e-05,
      "loss": 1.4274,
      "mean_token_accuracy": 0.6402166783809662,
      "num_tokens": 131368022.0,
      "step": 787
    },
    {
      "entropy": 1.8370747168858845,
      "epoch": 0.08656724616187415,
      "grad_norm": 0.7224745154380798,
      "learning_rate": 1.9991797682968533e-05,
      "loss": 1.337,
      "mean_token_accuracy": 0.6554816514253616,
      "num_tokens": 131494243.0,
      "step": 788
    },
    {
      "entropy": 1.7572102049986522,
      "epoch": 0.0866771030732471,
      "grad_norm": 0.6437149047851562,
      "learning_rate": 1.9991729198418094e-05,
      "loss": 1.3779,
      "mean_token_accuracy": 0.6482534607251486,
      "num_tokens": 131657195.0,
      "step": 789
    },
    {
      "entropy": 1.8201068341732025,
      "epoch": 0.08678695998462004,
      "grad_norm": 0.5996161699295044,
      "learning_rate": 1.9991660429283475e-05,
      "loss": 1.4695,
      "mean_token_accuracy": 0.6353013664484024,
      "num_tokens": 131837418.0,
      "step": 790
    },
    {
      "entropy": 1.737343708674113,
      "epoch": 0.08689681689599298,
      "grad_norm": 0.8244271278381348,
      "learning_rate": 1.999159137556686e-05,
      "loss": 1.3923,
      "mean_token_accuracy": 0.6581053187449774,
      "num_tokens": 131986253.0,
      "step": 791
    },
    {
      "entropy": 1.831222931543986,
      "epoch": 0.0870066738073659,
      "grad_norm": 0.6725685000419617,
      "learning_rate": 1.9991522037270426e-05,
      "loss": 1.5433,
      "mean_token_accuracy": 0.6341465910275778,
      "num_tokens": 132156185.0,
      "step": 792
    },
    {
      "entropy": 1.7623351514339447,
      "epoch": 0.08711653071873884,
      "grad_norm": 0.6132712364196777,
      "learning_rate": 1.9991452414396374e-05,
      "loss": 1.5282,
      "mean_token_accuracy": 0.6300236731767654,
      "num_tokens": 132375195.0,
      "step": 793
    },
    {
      "entropy": 1.8128896256287892,
      "epoch": 0.08722638763011178,
      "grad_norm": 0.8201103210449219,
      "learning_rate": 1.99913825069469e-05,
      "loss": 1.4092,
      "mean_token_accuracy": 0.6543792635202408,
      "num_tokens": 132572019.0,
      "step": 794
    },
    {
      "entropy": 1.8170464436213176,
      "epoch": 0.08733624454148471,
      "grad_norm": 0.7330581545829773,
      "learning_rate": 1.9991312314924223e-05,
      "loss": 1.5836,
      "mean_token_accuracy": 0.6373669604460398,
      "num_tokens": 132757713.0,
      "step": 795
    },
    {
      "entropy": 1.7433435519536336,
      "epoch": 0.08744610145285765,
      "grad_norm": 0.7479463219642639,
      "learning_rate": 1.9991241838330563e-05,
      "loss": 1.2838,
      "mean_token_accuracy": 0.6742591361204783,
      "num_tokens": 132907608.0,
      "step": 796
    },
    {
      "entropy": 1.7819043000539143,
      "epoch": 0.0875559583642306,
      "grad_norm": 0.8788211941719055,
      "learning_rate": 1.999117107716815e-05,
      "loss": 1.2552,
      "mean_token_accuracy": 0.6783933192491531,
      "num_tokens": 133021304.0,
      "step": 797
    },
    {
      "entropy": 1.803941269715627,
      "epoch": 0.08766581527560352,
      "grad_norm": 0.7351856827735901,
      "learning_rate": 1.9991100031439226e-05,
      "loss": 1.4558,
      "mean_token_accuracy": 0.6422074437141418,
      "num_tokens": 133170851.0,
      "step": 798
    },
    {
      "entropy": 1.7430227200190227,
      "epoch": 0.08777567218697646,
      "grad_norm": 0.7564266324043274,
      "learning_rate": 1.999102870114604e-05,
      "loss": 1.5169,
      "mean_token_accuracy": 0.6481150388717651,
      "num_tokens": 133331023.0,
      "step": 799
    },
    {
      "entropy": 1.8221300840377808,
      "epoch": 0.0878855290983494,
      "grad_norm": 0.6594426035881042,
      "learning_rate": 1.9990957086290842e-05,
      "loss": 1.5665,
      "mean_token_accuracy": 0.6504103392362595,
      "num_tokens": 133496097.0,
      "step": 800
    },
    {
      "entropy": 1.781892587741216,
      "epoch": 0.08799538600972234,
      "grad_norm": 0.7563036680221558,
      "learning_rate": 1.9990885186875903e-05,
      "loss": 1.5135,
      "mean_token_accuracy": 0.6499631603558859,
      "num_tokens": 133688537.0,
      "step": 801
    },
    {
      "entropy": 1.7549792230129242,
      "epoch": 0.08810524292109527,
      "grad_norm": 0.7245374321937561,
      "learning_rate": 1.9990813002903504e-05,
      "loss": 1.4476,
      "mean_token_accuracy": 0.6485745906829834,
      "num_tokens": 133853936.0,
      "step": 802
    },
    {
      "entropy": 1.762273798386256,
      "epoch": 0.08821509983246821,
      "grad_norm": 0.9437369108200073,
      "learning_rate": 1.999074053437592e-05,
      "loss": 1.3344,
      "mean_token_accuracy": 0.6619789600372314,
      "num_tokens": 134003645.0,
      "step": 803
    },
    {
      "entropy": 1.8330159882704418,
      "epoch": 0.08832495674384115,
      "grad_norm": 0.8058866858482361,
      "learning_rate": 1.9990667781295453e-05,
      "loss": 1.3736,
      "mean_token_accuracy": 0.6473863820234934,
      "num_tokens": 134140327.0,
      "step": 804
    },
    {
      "entropy": 1.7547661860783894,
      "epoch": 0.08843481365521408,
      "grad_norm": 0.7638370394706726,
      "learning_rate": 1.9990594743664402e-05,
      "loss": 1.4696,
      "mean_token_accuracy": 0.652462974190712,
      "num_tokens": 134275518.0,
      "step": 805
    },
    {
      "entropy": 1.7573677500089009,
      "epoch": 0.08854467056658702,
      "grad_norm": 0.7340158224105835,
      "learning_rate": 1.9990521421485077e-05,
      "loss": 1.2733,
      "mean_token_accuracy": 0.6660685688257217,
      "num_tokens": 134395935.0,
      "step": 806
    },
    {
      "entropy": 1.8871439099311829,
      "epoch": 0.08865452747795996,
      "grad_norm": 0.8130138516426086,
      "learning_rate": 1.99904478147598e-05,
      "loss": 1.3587,
      "mean_token_accuracy": 0.6492532193660736,
      "num_tokens": 134495765.0,
      "step": 807
    },
    {
      "entropy": 1.8198732137680054,
      "epoch": 0.08876438438933289,
      "grad_norm": 0.8263359665870667,
      "learning_rate": 1.99903739234909e-05,
      "loss": 1.4117,
      "mean_token_accuracy": 0.6728939761718115,
      "num_tokens": 134650045.0,
      "step": 808
    },
    {
      "entropy": 1.7290976345539093,
      "epoch": 0.08887424130070583,
      "grad_norm": 1.5325140953063965,
      "learning_rate": 1.999029974768072e-05,
      "loss": 1.2137,
      "mean_token_accuracy": 0.675426850716273,
      "num_tokens": 134879431.0,
      "step": 809
    },
    {
      "entropy": 1.7537180085976918,
      "epoch": 0.08898409821207877,
      "grad_norm": 0.7787648439407349,
      "learning_rate": 1.99902252873316e-05,
      "loss": 1.4029,
      "mean_token_accuracy": 0.6435067852338155,
      "num_tokens": 135037088.0,
      "step": 810
    },
    {
      "entropy": 1.793819099664688,
      "epoch": 0.08909395512345171,
      "grad_norm": 0.6838997006416321,
      "learning_rate": 1.9990150542445904e-05,
      "loss": 1.512,
      "mean_token_accuracy": 0.650256002942721,
      "num_tokens": 135257457.0,
      "step": 811
    },
    {
      "entropy": 1.8345171809196472,
      "epoch": 0.08920381203482464,
      "grad_norm": 0.6854283809661865,
      "learning_rate": 1.999007551302599e-05,
      "loss": 1.4529,
      "mean_token_accuracy": 0.6385099937518438,
      "num_tokens": 135443159.0,
      "step": 812
    },
    {
      "entropy": 1.7310991485913594,
      "epoch": 0.08931366894619758,
      "grad_norm": 0.7480428814888,
      "learning_rate": 1.9990000199074244e-05,
      "loss": 1.385,
      "mean_token_accuracy": 0.6632754951715469,
      "num_tokens": 135602809.0,
      "step": 813
    },
    {
      "entropy": 1.7727793554464977,
      "epoch": 0.08942352585757052,
      "grad_norm": 0.9646157026290894,
      "learning_rate": 1.9989924600593037e-05,
      "loss": 1.3619,
      "mean_token_accuracy": 0.6555025527874628,
      "num_tokens": 135716606.0,
      "step": 814
    },
    {
      "entropy": 1.7907099723815918,
      "epoch": 0.08953338276894345,
      "grad_norm": 0.7035730481147766,
      "learning_rate": 1.998984871758477e-05,
      "loss": 1.4499,
      "mean_token_accuracy": 0.6439538051684698,
      "num_tokens": 135878432.0,
      "step": 815
    },
    {
      "entropy": 1.8181606729825337,
      "epoch": 0.08964323968031639,
      "grad_norm": 0.6870342493057251,
      "learning_rate": 1.998977255005184e-05,
      "loss": 1.4373,
      "mean_token_accuracy": 0.6356525272130966,
      "num_tokens": 136081813.0,
      "step": 816
    },
    {
      "entropy": 1.7305361131827037,
      "epoch": 0.08975309659168933,
      "grad_norm": 0.5997280478477478,
      "learning_rate": 1.9989696097996662e-05,
      "loss": 1.4796,
      "mean_token_accuracy": 0.6471946984529495,
      "num_tokens": 136295261.0,
      "step": 817
    },
    {
      "entropy": 1.7904970049858093,
      "epoch": 0.08986295350306227,
      "grad_norm": 0.8890630006790161,
      "learning_rate": 1.998961936142165e-05,
      "loss": 1.403,
      "mean_token_accuracy": 0.6517884830633799,
      "num_tokens": 136466043.0,
      "step": 818
    },
    {
      "entropy": 1.770477294921875,
      "epoch": 0.0899728104144352,
      "grad_norm": 0.6830163598060608,
      "learning_rate": 1.998954234032924e-05,
      "loss": 1.5319,
      "mean_token_accuracy": 0.6378083527088165,
      "num_tokens": 136665178.0,
      "step": 819
    },
    {
      "entropy": 1.8271574676036835,
      "epoch": 0.09008266732580814,
      "grad_norm": 0.755791187286377,
      "learning_rate": 1.9989465034721866e-05,
      "loss": 1.533,
      "mean_token_accuracy": 0.6352124363183975,
      "num_tokens": 136800420.0,
      "step": 820
    },
    {
      "entropy": 1.7916331390539806,
      "epoch": 0.09019252423718108,
      "grad_norm": 0.7258456945419312,
      "learning_rate": 1.998938744460197e-05,
      "loss": 1.4128,
      "mean_token_accuracy": 0.654478500286738,
      "num_tokens": 136971123.0,
      "step": 821
    },
    {
      "entropy": 1.773153026898702,
      "epoch": 0.090302381148554,
      "grad_norm": 0.5961330533027649,
      "learning_rate": 1.9989309569972014e-05,
      "loss": 1.4252,
      "mean_token_accuracy": 0.6488613287607828,
      "num_tokens": 137200207.0,
      "step": 822
    },
    {
      "entropy": 1.7114134629567463,
      "epoch": 0.09041223805992694,
      "grad_norm": 0.6579198241233826,
      "learning_rate": 1.9989231410834462e-05,
      "loss": 1.4714,
      "mean_token_accuracy": 0.6568086395661036,
      "num_tokens": 137407339.0,
      "step": 823
    },
    {
      "entropy": 1.7578770518302917,
      "epoch": 0.09052209497129989,
      "grad_norm": 0.7298670411109924,
      "learning_rate": 1.9989152967191788e-05,
      "loss": 1.4054,
      "mean_token_accuracy": 0.6561851551135381,
      "num_tokens": 137533281.0,
      "step": 824
    },
    {
      "entropy": 1.7987795968850453,
      "epoch": 0.09063195188267281,
      "grad_norm": 0.7497153878211975,
      "learning_rate": 1.9989074239046467e-05,
      "loss": 1.5478,
      "mean_token_accuracy": 0.6374392211437225,
      "num_tokens": 137734737.0,
      "step": 825
    },
    {
      "entropy": 1.8171394268671672,
      "epoch": 0.09074180879404575,
      "grad_norm": 0.7937276363372803,
      "learning_rate": 1.9988995226401e-05,
      "loss": 1.4708,
      "mean_token_accuracy": 0.6504966169595718,
      "num_tokens": 137901984.0,
      "step": 826
    },
    {
      "entropy": 1.7756889462471008,
      "epoch": 0.0908516657054187,
      "grad_norm": 0.7066166996955872,
      "learning_rate": 1.9988915929257887e-05,
      "loss": 1.3252,
      "mean_token_accuracy": 0.6584804703791937,
      "num_tokens": 138067546.0,
      "step": 827
    },
    {
      "entropy": 1.6937337219715118,
      "epoch": 0.09096152261679163,
      "grad_norm": 0.8448572754859924,
      "learning_rate": 1.9988836347619634e-05,
      "loss": 1.2457,
      "mean_token_accuracy": 0.6707619080940882,
      "num_tokens": 138239095.0,
      "step": 828
    },
    {
      "entropy": 1.777471164862315,
      "epoch": 0.09107137952816456,
      "grad_norm": 0.7635485529899597,
      "learning_rate": 1.998875648148876e-05,
      "loss": 1.4174,
      "mean_token_accuracy": 0.6492311904827753,
      "num_tokens": 138382813.0,
      "step": 829
    },
    {
      "entropy": 1.7190299828847249,
      "epoch": 0.0911812364395375,
      "grad_norm": 0.6621118783950806,
      "learning_rate": 1.9988676330867798e-05,
      "loss": 1.4274,
      "mean_token_accuracy": 0.6445133884747823,
      "num_tokens": 138589846.0,
      "step": 830
    },
    {
      "entropy": 1.7541986008485158,
      "epoch": 0.09129109335091044,
      "grad_norm": 0.7409399151802063,
      "learning_rate": 1.9988595895759276e-05,
      "loss": 1.3882,
      "mean_token_accuracy": 0.6580299437046051,
      "num_tokens": 138717947.0,
      "step": 831
    },
    {
      "entropy": 1.8276172975699108,
      "epoch": 0.09140095026228337,
      "grad_norm": 0.815585196018219,
      "learning_rate": 1.9988515176165748e-05,
      "loss": 1.6175,
      "mean_token_accuracy": 0.6387762427330017,
      "num_tokens": 138900529.0,
      "step": 832
    },
    {
      "entropy": 1.7899891436100006,
      "epoch": 0.09151080717365631,
      "grad_norm": 0.6510075926780701,
      "learning_rate": 1.998843417208976e-05,
      "loss": 1.4375,
      "mean_token_accuracy": 0.6496662348508835,
      "num_tokens": 139045331.0,
      "step": 833
    },
    {
      "entropy": 1.7600055237611134,
      "epoch": 0.09162066408502925,
      "grad_norm": 0.7253756523132324,
      "learning_rate": 1.9988352883533883e-05,
      "loss": 1.5197,
      "mean_token_accuracy": 0.6373974829912186,
      "num_tokens": 139188419.0,
      "step": 834
    },
    {
      "entropy": 1.7518123586972554,
      "epoch": 0.09173052099640219,
      "grad_norm": 0.735378086566925,
      "learning_rate": 1.9988271310500686e-05,
      "loss": 1.3998,
      "mean_token_accuracy": 0.6474562138319016,
      "num_tokens": 139335708.0,
      "step": 835
    },
    {
      "entropy": 1.795258621374766,
      "epoch": 0.09184037790777512,
      "grad_norm": 0.659813404083252,
      "learning_rate": 1.9988189452992755e-05,
      "loss": 1.4814,
      "mean_token_accuracy": 0.6482225656509399,
      "num_tokens": 139570367.0,
      "step": 836
    },
    {
      "entropy": 1.8820240795612335,
      "epoch": 0.09195023481914806,
      "grad_norm": 0.6837143301963806,
      "learning_rate": 1.9988107311012675e-05,
      "loss": 1.4863,
      "mean_token_accuracy": 0.6410119732220968,
      "num_tokens": 139719920.0,
      "step": 837
    },
    {
      "entropy": 1.7456907431284587,
      "epoch": 0.092060091730521,
      "grad_norm": 0.6721776127815247,
      "learning_rate": 1.9988024884563054e-05,
      "loss": 1.339,
      "mean_token_accuracy": 0.6614281088113785,
      "num_tokens": 139892505.0,
      "step": 838
    },
    {
      "entropy": 1.7585683763027191,
      "epoch": 0.09216994864189393,
      "grad_norm": 0.713774561882019,
      "learning_rate": 1.9987942173646488e-05,
      "loss": 1.3296,
      "mean_token_accuracy": 0.6708425531784693,
      "num_tokens": 140041887.0,
      "step": 839
    },
    {
      "entropy": 1.753789484500885,
      "epoch": 0.09227980555326687,
      "grad_norm": 0.9725476503372192,
      "learning_rate": 1.998785917826561e-05,
      "loss": 1.5496,
      "mean_token_accuracy": 0.6513581027587255,
      "num_tokens": 140250586.0,
      "step": 840
    },
    {
      "entropy": 1.8161666095256805,
      "epoch": 0.09238966246463981,
      "grad_norm": 0.657247006893158,
      "learning_rate": 1.9987775898423036e-05,
      "loss": 1.3999,
      "mean_token_accuracy": 0.6466280668973923,
      "num_tokens": 140445865.0,
      "step": 841
    },
    {
      "entropy": 1.843330095211665,
      "epoch": 0.09249951937601274,
      "grad_norm": 0.7465802431106567,
      "learning_rate": 1.9987692334121402e-05,
      "loss": 1.4241,
      "mean_token_accuracy": 0.6497205942869186,
      "num_tokens": 140638169.0,
      "step": 842
    },
    {
      "entropy": 1.737547109524409,
      "epoch": 0.09260937628738568,
      "grad_norm": 0.6497205495834351,
      "learning_rate": 1.998760848536336e-05,
      "loss": 1.4405,
      "mean_token_accuracy": 0.6456060359875361,
      "num_tokens": 140833553.0,
      "step": 843
    },
    {
      "entropy": 1.6892894407113392,
      "epoch": 0.09271923319875862,
      "grad_norm": 0.6569632887840271,
      "learning_rate": 1.9987524352151556e-05,
      "loss": 1.438,
      "mean_token_accuracy": 0.6561574091513952,
      "num_tokens": 141038298.0,
      "step": 844
    },
    {
      "entropy": 1.7608444193998973,
      "epoch": 0.09282909011013156,
      "grad_norm": 0.7499677538871765,
      "learning_rate": 1.9987439934488656e-05,
      "loss": 1.3569,
      "mean_token_accuracy": 0.6573406010866165,
      "num_tokens": 141167798.0,
      "step": 845
    },
    {
      "entropy": 1.7646370430787404,
      "epoch": 0.09293894702150449,
      "grad_norm": 0.8782757520675659,
      "learning_rate": 1.9987355232377334e-05,
      "loss": 1.4156,
      "mean_token_accuracy": 0.655216450492541,
      "num_tokens": 141305587.0,
      "step": 846
    },
    {
      "entropy": 1.6969274083773296,
      "epoch": 0.09304880393287743,
      "grad_norm": 0.7114330530166626,
      "learning_rate": 1.9987270245820266e-05,
      "loss": 1.4441,
      "mean_token_accuracy": 0.6574098318815231,
      "num_tokens": 141494915.0,
      "step": 847
    },
    {
      "entropy": 1.7382513582706451,
      "epoch": 0.09315866084425037,
      "grad_norm": 0.633026659488678,
      "learning_rate": 1.998718497482015e-05,
      "loss": 1.4415,
      "mean_token_accuracy": 0.6520839134852091,
      "num_tokens": 141665803.0,
      "step": 848
    },
    {
      "entropy": 1.7377788325150807,
      "epoch": 0.0932685177556233,
      "grad_norm": 0.8016728162765503,
      "learning_rate": 1.9987099419379674e-05,
      "loss": 1.2266,
      "mean_token_accuracy": 0.6830306202173233,
      "num_tokens": 141771140.0,
      "step": 849
    },
    {
      "entropy": 1.7722203036149342,
      "epoch": 0.09337837466699624,
      "grad_norm": 0.816390335559845,
      "learning_rate": 1.998701357950155e-05,
      "loss": 1.4453,
      "mean_token_accuracy": 0.6510142137606939,
      "num_tokens": 141921548.0,
      "step": 850
    },
    {
      "entropy": 1.797320306301117,
      "epoch": 0.09348823157836918,
      "grad_norm": 0.7288161516189575,
      "learning_rate": 1.9986927455188503e-05,
      "loss": 1.4359,
      "mean_token_accuracy": 0.647617906332016,
      "num_tokens": 142051031.0,
      "step": 851
    },
    {
      "entropy": 1.7711346745491028,
      "epoch": 0.09359808848974212,
      "grad_norm": 0.6476997137069702,
      "learning_rate": 1.9986841046443245e-05,
      "loss": 1.4482,
      "mean_token_accuracy": 0.6498673806587855,
      "num_tokens": 142227046.0,
      "step": 852
    },
    {
      "entropy": 1.7939196527004242,
      "epoch": 0.09370794540111504,
      "grad_norm": 0.6596160531044006,
      "learning_rate": 1.9986754353268522e-05,
      "loss": 1.4829,
      "mean_token_accuracy": 0.6461114784081777,
      "num_tokens": 142400594.0,
      "step": 853
    },
    {
      "entropy": 1.723371555407842,
      "epoch": 0.09381780231248799,
      "grad_norm": 0.8292514681816101,
      "learning_rate": 1.9986667375667067e-05,
      "loss": 1.3327,
      "mean_token_accuracy": 0.6621809701124827,
      "num_tokens": 142541930.0,
      "step": 854
    },
    {
      "entropy": 1.7200664281845093,
      "epoch": 0.09392765922386093,
      "grad_norm": 0.6569286584854126,
      "learning_rate": 1.9986580113641645e-05,
      "loss": 1.4073,
      "mean_token_accuracy": 0.6560418456792831,
      "num_tokens": 142707884.0,
      "step": 855
    },
    {
      "entropy": 1.763913631439209,
      "epoch": 0.09403751613523385,
      "grad_norm": 0.7746670842170715,
      "learning_rate": 1.998649256719501e-05,
      "loss": 1.257,
      "mean_token_accuracy": 0.680213044087092,
      "num_tokens": 142845415.0,
      "step": 856
    },
    {
      "entropy": 1.7523279786109924,
      "epoch": 0.0941473730466068,
      "grad_norm": 0.8351315259933472,
      "learning_rate": 1.9986404736329935e-05,
      "loss": 1.3057,
      "mean_token_accuracy": 0.6638447294632593,
      "num_tokens": 142991596.0,
      "step": 857
    },
    {
      "entropy": 1.7808737655480702,
      "epoch": 0.09425722995797974,
      "grad_norm": 0.7735828161239624,
      "learning_rate": 1.9986316621049198e-05,
      "loss": 1.3841,
      "mean_token_accuracy": 0.6511393884817759,
      "num_tokens": 143141446.0,
      "step": 858
    },
    {
      "entropy": 1.8006083170572917,
      "epoch": 0.09436708686935266,
      "grad_norm": 0.6989002227783203,
      "learning_rate": 1.9986228221355593e-05,
      "loss": 1.4593,
      "mean_token_accuracy": 0.6463498423496882,
      "num_tokens": 143304040.0,
      "step": 859
    },
    {
      "entropy": 1.7336869637171428,
      "epoch": 0.0944769437807256,
      "grad_norm": 0.6207464337348938,
      "learning_rate": 1.998613953725191e-05,
      "loss": 1.4264,
      "mean_token_accuracy": 0.6408118307590485,
      "num_tokens": 143521739.0,
      "step": 860
    },
    {
      "entropy": 1.7804212868213654,
      "epoch": 0.09458680069209854,
      "grad_norm": 0.7322898507118225,
      "learning_rate": 1.998605056874096e-05,
      "loss": 1.2565,
      "mean_token_accuracy": 0.6800819089015325,
      "num_tokens": 143669420.0,
      "step": 861
    },
    {
      "entropy": 1.8095572888851166,
      "epoch": 0.09469665760347148,
      "grad_norm": 0.6634199619293213,
      "learning_rate": 1.998596131582556e-05,
      "loss": 1.3476,
      "mean_token_accuracy": 0.6624392867088318,
      "num_tokens": 143890464.0,
      "step": 862
    },
    {
      "entropy": 1.7374099691708882,
      "epoch": 0.09480651451484441,
      "grad_norm": 0.5917066931724548,
      "learning_rate": 1.9985871778508536e-05,
      "loss": 1.3316,
      "mean_token_accuracy": 0.6642079999049505,
      "num_tokens": 144071612.0,
      "step": 863
    },
    {
      "entropy": 1.7235216995080311,
      "epoch": 0.09491637142621735,
      "grad_norm": 0.6594040989875793,
      "learning_rate": 1.9985781956792712e-05,
      "loss": 1.5624,
      "mean_token_accuracy": 0.6464419017235438,
      "num_tokens": 144275211.0,
      "step": 864
    },
    {
      "entropy": 1.7869758109251659,
      "epoch": 0.0950262283375903,
      "grad_norm": 0.6814702153205872,
      "learning_rate": 1.9985691850680945e-05,
      "loss": 1.3704,
      "mean_token_accuracy": 0.6551233877738317,
      "num_tokens": 144461229.0,
      "step": 865
    },
    {
      "entropy": 1.7437097529570262,
      "epoch": 0.09513608524896322,
      "grad_norm": 0.6789867281913757,
      "learning_rate": 1.998560146017608e-05,
      "loss": 1.4037,
      "mean_token_accuracy": 0.6533855001131693,
      "num_tokens": 144626703.0,
      "step": 866
    },
    {
      "entropy": 1.797066976626714,
      "epoch": 0.09524594216033616,
      "grad_norm": 0.7511526346206665,
      "learning_rate": 1.9985510785280973e-05,
      "loss": 1.4707,
      "mean_token_accuracy": 0.6475979636112849,
      "num_tokens": 144816688.0,
      "step": 867
    },
    {
      "entropy": 1.8556463519732158,
      "epoch": 0.0953557990717091,
      "grad_norm": 0.729511559009552,
      "learning_rate": 1.99854198259985e-05,
      "loss": 1.4624,
      "mean_token_accuracy": 0.6474516242742538,
      "num_tokens": 144974185.0,
      "step": 868
    },
    {
      "entropy": 1.7502427001794179,
      "epoch": 0.09546565598308203,
      "grad_norm": 0.7686792016029358,
      "learning_rate": 1.9985328582331543e-05,
      "loss": 1.3928,
      "mean_token_accuracy": 0.6506832788387934,
      "num_tokens": 145131985.0,
      "step": 869
    },
    {
      "entropy": 1.8473133345444996,
      "epoch": 0.09557551289445497,
      "grad_norm": 0.7290443181991577,
      "learning_rate": 1.998523705428298e-05,
      "loss": 1.4376,
      "mean_token_accuracy": 0.6440041263898214,
      "num_tokens": 145300425.0,
      "step": 870
    },
    {
      "entropy": 1.7909137805302937,
      "epoch": 0.09568536980582791,
      "grad_norm": 1.0265684127807617,
      "learning_rate": 1.9985145241855715e-05,
      "loss": 1.3176,
      "mean_token_accuracy": 0.6611884931723276,
      "num_tokens": 145434375.0,
      "step": 871
    },
    {
      "entropy": 1.8016241292158763,
      "epoch": 0.09579522671720085,
      "grad_norm": 0.8837740421295166,
      "learning_rate": 1.998505314505265e-05,
      "loss": 1.4417,
      "mean_token_accuracy": 0.6421179672082266,
      "num_tokens": 145595112.0,
      "step": 872
    },
    {
      "entropy": 1.7559907833735149,
      "epoch": 0.09590508362857378,
      "grad_norm": 0.7442582249641418,
      "learning_rate": 1.9984960763876707e-05,
      "loss": 1.4568,
      "mean_token_accuracy": 0.6378819495439529,
      "num_tokens": 145809619.0,
      "step": 873
    },
    {
      "entropy": 1.7758004764715831,
      "epoch": 0.09601494053994672,
      "grad_norm": 0.7401770353317261,
      "learning_rate": 1.99848680983308e-05,
      "loss": 1.3542,
      "mean_token_accuracy": 0.6558797508478165,
      "num_tokens": 145962185.0,
      "step": 874
    },
    {
      "entropy": 1.701437811056773,
      "epoch": 0.09612479745131966,
      "grad_norm": 0.6981661319732666,
      "learning_rate": 1.998477514841787e-05,
      "loss": 1.272,
      "mean_token_accuracy": 0.6712963829437891,
      "num_tokens": 146122219.0,
      "step": 875
    },
    {
      "entropy": 1.8346630732218425,
      "epoch": 0.09623465436269259,
      "grad_norm": 1.0015085935592651,
      "learning_rate": 1.998468191414085e-05,
      "loss": 1.4049,
      "mean_token_accuracy": 0.6612652838230133,
      "num_tokens": 146286262.0,
      "step": 876
    },
    {
      "entropy": 1.8047532737255096,
      "epoch": 0.09634451127406553,
      "grad_norm": 0.6116564869880676,
      "learning_rate": 1.99845883955027e-05,
      "loss": 1.4939,
      "mean_token_accuracy": 0.6393746683994929,
      "num_tokens": 146482748.0,
      "step": 877
    },
    {
      "entropy": 1.8028401136398315,
      "epoch": 0.09645436818543847,
      "grad_norm": 0.8170140981674194,
      "learning_rate": 1.9984494592506375e-05,
      "loss": 1.4695,
      "mean_token_accuracy": 0.6653387248516083,
      "num_tokens": 146623953.0,
      "step": 878
    },
    {
      "entropy": 1.8251157999038696,
      "epoch": 0.09656422509681141,
      "grad_norm": 0.7140014171600342,
      "learning_rate": 1.9984400505154845e-05,
      "loss": 1.3936,
      "mean_token_accuracy": 0.6512231677770615,
      "num_tokens": 146771851.0,
      "step": 879
    },
    {
      "entropy": 1.7021491626898448,
      "epoch": 0.09667408200818434,
      "grad_norm": 0.7085208296775818,
      "learning_rate": 1.9984306133451085e-05,
      "loss": 1.5546,
      "mean_token_accuracy": 0.6158442795276642,
      "num_tokens": 147018276.0,
      "step": 880
    },
    {
      "entropy": 1.7345736026763916,
      "epoch": 0.09678393891955728,
      "grad_norm": 0.6248441934585571,
      "learning_rate": 1.9984211477398087e-05,
      "loss": 1.3856,
      "mean_token_accuracy": 0.6412098606427511,
      "num_tokens": 147164089.0,
      "step": 881
    },
    {
      "entropy": 1.7824423809846242,
      "epoch": 0.09689379583093022,
      "grad_norm": 0.7416592240333557,
      "learning_rate": 1.9984116536998842e-05,
      "loss": 1.3108,
      "mean_token_accuracy": 0.6656797031561533,
      "num_tokens": 147277397.0,
      "step": 882
    },
    {
      "entropy": 1.7290455897649128,
      "epoch": 0.09700365274230315,
      "grad_norm": 0.5920156836509705,
      "learning_rate": 1.998402131225636e-05,
      "loss": 1.464,
      "mean_token_accuracy": 0.646095464626948,
      "num_tokens": 147526287.0,
      "step": 883
    },
    {
      "entropy": 1.8121102452278137,
      "epoch": 0.09711350965367609,
      "grad_norm": 0.6940451264381409,
      "learning_rate": 1.998392580317365e-05,
      "loss": 1.5421,
      "mean_token_accuracy": 0.6315521448850632,
      "num_tokens": 147680370.0,
      "step": 884
    },
    {
      "entropy": 1.7699245909849803,
      "epoch": 0.09722336656504903,
      "grad_norm": 0.6525464653968811,
      "learning_rate": 1.9983830009753736e-05,
      "loss": 1.3875,
      "mean_token_accuracy": 0.6589068621397018,
      "num_tokens": 147840870.0,
      "step": 885
    },
    {
      "entropy": 1.7928034762541454,
      "epoch": 0.09733322347642195,
      "grad_norm": 0.6272910833358765,
      "learning_rate": 1.9983733931999652e-05,
      "loss": 1.4885,
      "mean_token_accuracy": 0.6306471476952235,
      "num_tokens": 148027455.0,
      "step": 886
    },
    {
      "entropy": 1.7910848359266918,
      "epoch": 0.0974430803877949,
      "grad_norm": 0.7335218191146851,
      "learning_rate": 1.9983637569914434e-05,
      "loss": 1.609,
      "mean_token_accuracy": 0.619565524160862,
      "num_tokens": 148195323.0,
      "step": 887
    },
    {
      "entropy": 1.8034427464008331,
      "epoch": 0.09755293729916784,
      "grad_norm": 1.0481171607971191,
      "learning_rate": 1.9983540923501136e-05,
      "loss": 1.3526,
      "mean_token_accuracy": 0.6704971541961035,
      "num_tokens": 148342254.0,
      "step": 888
    },
    {
      "entropy": 1.799752136071523,
      "epoch": 0.09766279421054078,
      "grad_norm": 0.8031909465789795,
      "learning_rate": 1.9983443992762818e-05,
      "loss": 1.4918,
      "mean_token_accuracy": 0.660582959651947,
      "num_tokens": 148456069.0,
      "step": 889
    },
    {
      "entropy": 1.7524477740128834,
      "epoch": 0.0977726511219137,
      "grad_norm": 0.66947340965271,
      "learning_rate": 1.9983346777702546e-05,
      "loss": 1.422,
      "mean_token_accuracy": 0.6511275370915731,
      "num_tokens": 148639070.0,
      "step": 890
    },
    {
      "entropy": 1.760518193244934,
      "epoch": 0.09788250803328664,
      "grad_norm": 0.71653151512146,
      "learning_rate": 1.9983249278323394e-05,
      "loss": 1.4249,
      "mean_token_accuracy": 0.64531609416008,
      "num_tokens": 148808597.0,
      "step": 891
    },
    {
      "entropy": 1.7460968097050984,
      "epoch": 0.09799236494465959,
      "grad_norm": 0.7005469799041748,
      "learning_rate": 1.9983151494628452e-05,
      "loss": 1.4135,
      "mean_token_accuracy": 0.6504943122466406,
      "num_tokens": 148986736.0,
      "step": 892
    },
    {
      "entropy": 1.6886422137419383,
      "epoch": 0.09810222185603251,
      "grad_norm": 0.7256191968917847,
      "learning_rate": 1.9983053426620812e-05,
      "loss": 1.282,
      "mean_token_accuracy": 0.6670690476894379,
      "num_tokens": 149123138.0,
      "step": 893
    },
    {
      "entropy": 1.764316588640213,
      "epoch": 0.09821207876740545,
      "grad_norm": 0.7242082357406616,
      "learning_rate": 1.998295507430358e-05,
      "loss": 1.4177,
      "mean_token_accuracy": 0.6532685707012812,
      "num_tokens": 149304620.0,
      "step": 894
    },
    {
      "entropy": 1.709983338912328,
      "epoch": 0.0983219356787784,
      "grad_norm": 0.760214626789093,
      "learning_rate": 1.998285643767987e-05,
      "loss": 1.3549,
      "mean_token_accuracy": 0.6476463874181112,
      "num_tokens": 149458167.0,
      "step": 895
    },
    {
      "entropy": 1.7316644787788391,
      "epoch": 0.09843179259015133,
      "grad_norm": 0.7626999020576477,
      "learning_rate": 1.99827575167528e-05,
      "loss": 1.3188,
      "mean_token_accuracy": 0.6596734821796417,
      "num_tokens": 149637723.0,
      "step": 896
    },
    {
      "entropy": 1.737456738948822,
      "epoch": 0.09854164950152426,
      "grad_norm": 0.7550251483917236,
      "learning_rate": 1.9982658311525497e-05,
      "loss": 1.488,
      "mean_token_accuracy": 0.6350032538175583,
      "num_tokens": 149820282.0,
      "step": 897
    },
    {
      "entropy": 1.7865496476491292,
      "epoch": 0.0986515064128972,
      "grad_norm": 0.7146956324577332,
      "learning_rate": 1.9982558822001107e-05,
      "loss": 1.3048,
      "mean_token_accuracy": 0.6644372095664343,
      "num_tokens": 149984370.0,
      "step": 898
    },
    {
      "entropy": 1.7460536360740662,
      "epoch": 0.09876136332427014,
      "grad_norm": 0.7782373428344727,
      "learning_rate": 1.9982459048182787e-05,
      "loss": 1.2861,
      "mean_token_accuracy": 0.6806688259045283,
      "num_tokens": 150100533.0,
      "step": 899
    },
    {
      "entropy": 1.7238269646962483,
      "epoch": 0.09887122023564307,
      "grad_norm": 0.9449548125267029,
      "learning_rate": 1.9982358990073677e-05,
      "loss": 1.3353,
      "mean_token_accuracy": 0.6628151287635168,
      "num_tokens": 150251335.0,
      "step": 900
    },
    {
      "entropy": 1.808404137690862,
      "epoch": 0.09898107714701601,
      "grad_norm": 0.7466446161270142,
      "learning_rate": 1.9982258647676955e-05,
      "loss": 1.5167,
      "mean_token_accuracy": 0.6374181012312571,
      "num_tokens": 150410855.0,
      "step": 901
    },
    {
      "entropy": 1.7830796142419179,
      "epoch": 0.09909093405838895,
      "grad_norm": 0.6440333127975464,
      "learning_rate": 1.9982158020995797e-05,
      "loss": 1.611,
      "mean_token_accuracy": 0.6330165167649587,
      "num_tokens": 150600761.0,
      "step": 902
    },
    {
      "entropy": 1.792793979247411,
      "epoch": 0.09920079096976188,
      "grad_norm": 0.6835723519325256,
      "learning_rate": 1.998205711003338e-05,
      "loss": 1.6041,
      "mean_token_accuracy": 0.6333948771158854,
      "num_tokens": 150845548.0,
      "step": 903
    },
    {
      "entropy": 1.7442950308322906,
      "epoch": 0.09931064788113482,
      "grad_norm": 0.7617843151092529,
      "learning_rate": 1.9981955914792906e-05,
      "loss": 1.3282,
      "mean_token_accuracy": 0.6637561370929083,
      "num_tokens": 150972304.0,
      "step": 904
    },
    {
      "entropy": 1.7536637882391612,
      "epoch": 0.09942050479250776,
      "grad_norm": 0.7179109454154968,
      "learning_rate": 1.9981854435277577e-05,
      "loss": 1.5067,
      "mean_token_accuracy": 0.6481045782566071,
      "num_tokens": 151143396.0,
      "step": 905
    },
    {
      "entropy": 1.7627435723940532,
      "epoch": 0.0995303617038807,
      "grad_norm": 0.7069958448410034,
      "learning_rate": 1.9981752671490598e-05,
      "loss": 1.3833,
      "mean_token_accuracy": 0.6542354027430216,
      "num_tokens": 151325547.0,
      "step": 906
    },
    {
      "entropy": 1.7693799436092377,
      "epoch": 0.09964021861525363,
      "grad_norm": 0.6431506872177124,
      "learning_rate": 1.9981650623435194e-05,
      "loss": 1.3678,
      "mean_token_accuracy": 0.6576612442731857,
      "num_tokens": 151536185.0,
      "step": 907
    },
    {
      "entropy": 1.7635951141516368,
      "epoch": 0.09975007552662657,
      "grad_norm": 0.7126159071922302,
      "learning_rate": 1.9981548291114595e-05,
      "loss": 1.3731,
      "mean_token_accuracy": 0.6596753050883611,
      "num_tokens": 151683858.0,
      "step": 908
    },
    {
      "entropy": 1.7573548754056294,
      "epoch": 0.09985993243799951,
      "grad_norm": 0.8124845027923584,
      "learning_rate": 1.9981445674532046e-05,
      "loss": 1.2352,
      "mean_token_accuracy": 0.6722429444392523,
      "num_tokens": 151803918.0,
      "step": 909
    },
    {
      "entropy": 1.7850454151630402,
      "epoch": 0.09996978934937244,
      "grad_norm": 0.7685918211936951,
      "learning_rate": 1.9981342773690783e-05,
      "loss": 1.512,
      "mean_token_accuracy": 0.6380599588155746,
      "num_tokens": 151971626.0,
      "step": 910
    },
    {
      "entropy": 1.805126855770747,
      "epoch": 0.10007964626074538,
      "grad_norm": 0.6546812057495117,
      "learning_rate": 1.9981239588594072e-05,
      "loss": 1.5592,
      "mean_token_accuracy": 0.6306341290473938,
      "num_tokens": 152201475.0,
      "step": 911
    },
    {
      "entropy": 1.7827772498130798,
      "epoch": 0.10018950317211832,
      "grad_norm": 0.6877257823944092,
      "learning_rate": 1.998113611924517e-05,
      "loss": 1.4371,
      "mean_token_accuracy": 0.6537010818719864,
      "num_tokens": 152351189.0,
      "step": 912
    },
    {
      "entropy": 1.7649867534637451,
      "epoch": 0.10029936008349125,
      "grad_norm": 0.7598903179168701,
      "learning_rate": 1.998103236564736e-05,
      "loss": 1.372,
      "mean_token_accuracy": 0.6497568885485331,
      "num_tokens": 152524073.0,
      "step": 913
    },
    {
      "entropy": 1.7680945495764415,
      "epoch": 0.10040921699486419,
      "grad_norm": 0.7872158885002136,
      "learning_rate": 1.9980928327803923e-05,
      "loss": 1.5074,
      "mean_token_accuracy": 0.6456826428572336,
      "num_tokens": 152670080.0,
      "step": 914
    },
    {
      "entropy": 1.7560344437758129,
      "epoch": 0.10051907390623713,
      "grad_norm": 0.5883249640464783,
      "learning_rate": 1.998082400571815e-05,
      "loss": 1.3791,
      "mean_token_accuracy": 0.64297587176164,
      "num_tokens": 152845888.0,
      "step": 915
    },
    {
      "entropy": 1.7675274113814037,
      "epoch": 0.10062893081761007,
      "grad_norm": 0.7053165435791016,
      "learning_rate": 1.9980719399393343e-05,
      "loss": 1.4325,
      "mean_token_accuracy": 0.6427458872397741,
      "num_tokens": 152978290.0,
      "step": 916
    },
    {
      "entropy": 1.7399719854195912,
      "epoch": 0.100738787728983,
      "grad_norm": 0.7673996686935425,
      "learning_rate": 1.9980614508832815e-05,
      "loss": 1.425,
      "mean_token_accuracy": 0.6594684372345606,
      "num_tokens": 153149847.0,
      "step": 917
    },
    {
      "entropy": 1.762896368900935,
      "epoch": 0.10084864464035594,
      "grad_norm": 0.8135155439376831,
      "learning_rate": 1.9980509334039885e-05,
      "loss": 1.5537,
      "mean_token_accuracy": 0.6251424799362818,
      "num_tokens": 153411080.0,
      "step": 918
    },
    {
      "entropy": 1.817118614912033,
      "epoch": 0.10095850155172888,
      "grad_norm": 1.1829191446304321,
      "learning_rate": 1.998040387501788e-05,
      "loss": 1.4132,
      "mean_token_accuracy": 0.6469329843918482,
      "num_tokens": 153647902.0,
      "step": 919
    },
    {
      "entropy": 1.723706712325414,
      "epoch": 0.1010683584631018,
      "grad_norm": 0.6135080456733704,
      "learning_rate": 1.998029813177014e-05,
      "loss": 1.4235,
      "mean_token_accuracy": 0.6411093920469284,
      "num_tokens": 153887618.0,
      "step": 920
    },
    {
      "entropy": 1.7523813048998516,
      "epoch": 0.10117821537447474,
      "grad_norm": 0.6740756034851074,
      "learning_rate": 1.998019210430001e-05,
      "loss": 1.4545,
      "mean_token_accuracy": 0.6468822509050369,
      "num_tokens": 154040907.0,
      "step": 921
    },
    {
      "entropy": 1.7299329936504364,
      "epoch": 0.10128807228584769,
      "grad_norm": 0.670302152633667,
      "learning_rate": 1.998008579261085e-05,
      "loss": 1.4126,
      "mean_token_accuracy": 0.6671505371729533,
      "num_tokens": 154192950.0,
      "step": 922
    },
    {
      "entropy": 1.763699213663737,
      "epoch": 0.10139792919722063,
      "grad_norm": 0.803800106048584,
      "learning_rate": 1.9979979196706015e-05,
      "loss": 1.478,
      "mean_token_accuracy": 0.6557512432336807,
      "num_tokens": 154343446.0,
      "step": 923
    },
    {
      "entropy": 1.7053393324216206,
      "epoch": 0.10150778610859355,
      "grad_norm": 0.9171890020370483,
      "learning_rate": 1.997987231658889e-05,
      "loss": 1.4155,
      "mean_token_accuracy": 0.6599433819452921,
      "num_tokens": 154542170.0,
      "step": 924
    },
    {
      "entropy": 1.8018841644128163,
      "epoch": 0.1016176430199665,
      "grad_norm": 0.7261690497398376,
      "learning_rate": 1.997976515226285e-05,
      "loss": 1.3835,
      "mean_token_accuracy": 0.6623082359631857,
      "num_tokens": 154683041.0,
      "step": 925
    },
    {
      "entropy": 1.8124282856782277,
      "epoch": 0.10172749993133944,
      "grad_norm": 0.8906520009040833,
      "learning_rate": 1.9979657703731293e-05,
      "loss": 1.424,
      "mean_token_accuracy": 0.6509944200515747,
      "num_tokens": 154823935.0,
      "step": 926
    },
    {
      "entropy": 1.680219441652298,
      "epoch": 0.10183735684271236,
      "grad_norm": 0.7079525589942932,
      "learning_rate": 1.9979549970997613e-05,
      "loss": 1.35,
      "mean_token_accuracy": 0.6591299722592036,
      "num_tokens": 154979227.0,
      "step": 927
    },
    {
      "entropy": 1.7787267863750458,
      "epoch": 0.1019472137540853,
      "grad_norm": 0.8107025623321533,
      "learning_rate": 1.9979441954065222e-05,
      "loss": 1.3122,
      "mean_token_accuracy": 0.6689551870028178,
      "num_tokens": 155096447.0,
      "step": 928
    },
    {
      "entropy": 1.70075523853302,
      "epoch": 0.10205707066545824,
      "grad_norm": 0.642701268196106,
      "learning_rate": 1.997933365293754e-05,
      "loss": 1.4148,
      "mean_token_accuracy": 0.6453291227420171,
      "num_tokens": 155272639.0,
      "step": 929
    },
    {
      "entropy": 1.778489778439204,
      "epoch": 0.10216692757683117,
      "grad_norm": 0.7005394101142883,
      "learning_rate": 1.9979225067617995e-05,
      "loss": 1.3191,
      "mean_token_accuracy": 0.662499725818634,
      "num_tokens": 155389573.0,
      "step": 930
    },
    {
      "entropy": 1.7405783832073212,
      "epoch": 0.10227678448820411,
      "grad_norm": 0.7797371745109558,
      "learning_rate": 1.9979116198110022e-05,
      "loss": 1.4646,
      "mean_token_accuracy": 0.6487743357817332,
      "num_tokens": 155582478.0,
      "step": 931
    },
    {
      "entropy": 1.8176141182581584,
      "epoch": 0.10238664139957705,
      "grad_norm": 0.6615299582481384,
      "learning_rate": 1.9979007044417068e-05,
      "loss": 1.5006,
      "mean_token_accuracy": 0.6347943594058355,
      "num_tokens": 155734907.0,
      "step": 932
    },
    {
      "entropy": 1.801711489756902,
      "epoch": 0.10249649831095,
      "grad_norm": 0.9806280136108398,
      "learning_rate": 1.9978897606542585e-05,
      "loss": 1.532,
      "mean_token_accuracy": 0.636087437470754,
      "num_tokens": 155891281.0,
      "step": 933
    },
    {
      "entropy": 1.719766726096471,
      "epoch": 0.10260635522232292,
      "grad_norm": 0.6877168416976929,
      "learning_rate": 1.9978787884490042e-05,
      "loss": 1.4065,
      "mean_token_accuracy": 0.6426805555820465,
      "num_tokens": 156096557.0,
      "step": 934
    },
    {
      "entropy": 1.808685193459193,
      "epoch": 0.10271621213369586,
      "grad_norm": 0.8238107562065125,
      "learning_rate": 1.997867787826291e-05,
      "loss": 1.2805,
      "mean_token_accuracy": 0.6664846589167913,
      "num_tokens": 156197634.0,
      "step": 935
    },
    {
      "entropy": 1.6944943865140278,
      "epoch": 0.1028260690450688,
      "grad_norm": 0.5987890958786011,
      "learning_rate": 1.9978567587864662e-05,
      "loss": 1.2886,
      "mean_token_accuracy": 0.6632740994294485,
      "num_tokens": 156353948.0,
      "step": 936
    },
    {
      "entropy": 1.7655479113260906,
      "epoch": 0.10293592595644173,
      "grad_norm": 0.6797613501548767,
      "learning_rate": 1.99784570132988e-05,
      "loss": 1.4642,
      "mean_token_accuracy": 0.6423184126615524,
      "num_tokens": 156535094.0,
      "step": 937
    },
    {
      "entropy": 1.7759600281715393,
      "epoch": 0.10304578286781467,
      "grad_norm": 0.7226538062095642,
      "learning_rate": 1.9978346154568816e-05,
      "loss": 1.4255,
      "mean_token_accuracy": 0.6578917105992635,
      "num_tokens": 156662107.0,
      "step": 938
    },
    {
      "entropy": 1.7849325835704803,
      "epoch": 0.10315563977918761,
      "grad_norm": 0.7838888764381409,
      "learning_rate": 1.9978235011678227e-05,
      "loss": 1.457,
      "mean_token_accuracy": 0.6387642721335093,
      "num_tokens": 156816532.0,
      "step": 939
    },
    {
      "entropy": 1.8332215547561646,
      "epoch": 0.10326549669056055,
      "grad_norm": 1.3963543176651,
      "learning_rate": 1.9978123584630543e-05,
      "loss": 1.5022,
      "mean_token_accuracy": 0.6504113674163818,
      "num_tokens": 157001513.0,
      "step": 940
    },
    {
      "entropy": 1.7760482331116993,
      "epoch": 0.10337535360193348,
      "grad_norm": 0.7974473237991333,
      "learning_rate": 1.9978011873429293e-05,
      "loss": 1.5326,
      "mean_token_accuracy": 0.6438284814357758,
      "num_tokens": 157140942.0,
      "step": 941
    },
    {
      "entropy": 1.739799976348877,
      "epoch": 0.10348521051330642,
      "grad_norm": 0.6732959151268005,
      "learning_rate": 1.9977899878078014e-05,
      "loss": 1.3565,
      "mean_token_accuracy": 0.6677434494098028,
      "num_tokens": 157322095.0,
      "step": 942
    },
    {
      "entropy": 1.7245545585950215,
      "epoch": 0.10359506742467936,
      "grad_norm": 0.6832246780395508,
      "learning_rate": 1.997778759858025e-05,
      "loss": 1.4486,
      "mean_token_accuracy": 0.6488750129938126,
      "num_tokens": 157489321.0,
      "step": 943
    },
    {
      "entropy": 1.7096454600493114,
      "epoch": 0.10370492433605229,
      "grad_norm": 0.669666588306427,
      "learning_rate": 1.9977675034939552e-05,
      "loss": 1.398,
      "mean_token_accuracy": 0.6563703020413717,
      "num_tokens": 157648478.0,
      "step": 944
    },
    {
      "entropy": 1.7183943092823029,
      "epoch": 0.10381478124742523,
      "grad_norm": 0.6543197631835938,
      "learning_rate": 1.9977562187159485e-05,
      "loss": 1.5301,
      "mean_token_accuracy": 0.6386249661445618,
      "num_tokens": 157843823.0,
      "step": 945
    },
    {
      "entropy": 1.8044803241888683,
      "epoch": 0.10392463815879817,
      "grad_norm": 0.8148881793022156,
      "learning_rate": 1.997744905524362e-05,
      "loss": 1.3916,
      "mean_token_accuracy": 0.6454024910926819,
      "num_tokens": 157990593.0,
      "step": 946
    },
    {
      "entropy": 1.6993337571620941,
      "epoch": 0.1040344950701711,
      "grad_norm": 0.6236430406570435,
      "learning_rate": 1.997733563919554e-05,
      "loss": 1.3219,
      "mean_token_accuracy": 0.6601608147223791,
      "num_tokens": 158132629.0,
      "step": 947
    },
    {
      "entropy": 1.8001770675182343,
      "epoch": 0.10414435198154404,
      "grad_norm": 0.884178638458252,
      "learning_rate": 1.9977221939018828e-05,
      "loss": 1.2416,
      "mean_token_accuracy": 0.6784195502599081,
      "num_tokens": 158246943.0,
      "step": 948
    },
    {
      "entropy": 1.6941777964433034,
      "epoch": 0.10425420889291698,
      "grad_norm": 0.6711726784706116,
      "learning_rate": 1.997710795471709e-05,
      "loss": 1.3108,
      "mean_token_accuracy": 0.6635520309209824,
      "num_tokens": 158415493.0,
      "step": 949
    },
    {
      "entropy": 1.7117989857991536,
      "epoch": 0.10436406580428992,
      "grad_norm": 0.6808717846870422,
      "learning_rate": 1.997699368629393e-05,
      "loss": 1.2102,
      "mean_token_accuracy": 0.6949316064516703,
      "num_tokens": 158540142.0,
      "step": 950
    },
    {
      "entropy": 1.6830700536568959,
      "epoch": 0.10447392271566285,
      "grad_norm": 0.5724490880966187,
      "learning_rate": 1.9976879133752968e-05,
      "loss": 1.3332,
      "mean_token_accuracy": 0.6712360580762228,
      "num_tokens": 158724951.0,
      "step": 951
    },
    {
      "entropy": 1.7850287755330403,
      "epoch": 0.10458377962703579,
      "grad_norm": 0.6788071393966675,
      "learning_rate": 1.9976764297097822e-05,
      "loss": 1.5117,
      "mean_token_accuracy": 0.6374179919560751,
      "num_tokens": 158927317.0,
      "step": 952
    },
    {
      "entropy": 1.7926728427410126,
      "epoch": 0.10469363653840873,
      "grad_norm": 0.6966988444328308,
      "learning_rate": 1.997664917633213e-05,
      "loss": 1.4233,
      "mean_token_accuracy": 0.6491448630889257,
      "num_tokens": 159079596.0,
      "step": 953
    },
    {
      "entropy": 1.8218385577201843,
      "epoch": 0.10480349344978165,
      "grad_norm": 0.6010218262672424,
      "learning_rate": 1.997653377145954e-05,
      "loss": 1.5112,
      "mean_token_accuracy": 0.6297382464011511,
      "num_tokens": 159274755.0,
      "step": 954
    },
    {
      "entropy": 1.7728229264418285,
      "epoch": 0.1049133503611546,
      "grad_norm": 0.7513667345046997,
      "learning_rate": 1.9976418082483702e-05,
      "loss": 1.4339,
      "mean_token_accuracy": 0.6446366707483927,
      "num_tokens": 159482155.0,
      "step": 955
    },
    {
      "entropy": 1.7381539046764374,
      "epoch": 0.10502320727252754,
      "grad_norm": 0.7744698524475098,
      "learning_rate": 1.9976302109408274e-05,
      "loss": 1.2582,
      "mean_token_accuracy": 0.6699808637301127,
      "num_tokens": 159597958.0,
      "step": 956
    },
    {
      "entropy": 1.7696404854456584,
      "epoch": 0.10513306418390048,
      "grad_norm": 0.7949146032333374,
      "learning_rate": 1.997618585223693e-05,
      "loss": 1.5213,
      "mean_token_accuracy": 0.644510825475057,
      "num_tokens": 159798577.0,
      "step": 957
    },
    {
      "entropy": 1.7655962506930034,
      "epoch": 0.1052429210952734,
      "grad_norm": 0.8974981904029846,
      "learning_rate": 1.9976069310973346e-05,
      "loss": 1.5157,
      "mean_token_accuracy": 0.6608059157927831,
      "num_tokens": 159983233.0,
      "step": 958
    },
    {
      "entropy": 1.8399652739365895,
      "epoch": 0.10535277800664634,
      "grad_norm": 0.7629010081291199,
      "learning_rate": 1.9975952485621216e-05,
      "loss": 1.5352,
      "mean_token_accuracy": 0.6394019822279612,
      "num_tokens": 160163249.0,
      "step": 959
    },
    {
      "entropy": 1.791842778523763,
      "epoch": 0.10546263491801929,
      "grad_norm": 0.6020023822784424,
      "learning_rate": 1.9975835376184234e-05,
      "loss": 1.5612,
      "mean_token_accuracy": 0.636442189415296,
      "num_tokens": 160345525.0,
      "step": 960
    },
    {
      "entropy": 1.7129618525505066,
      "epoch": 0.10557249182939221,
      "grad_norm": 0.6331304311752319,
      "learning_rate": 1.9975717982666106e-05,
      "loss": 1.3834,
      "mean_token_accuracy": 0.6419539799292883,
      "num_tokens": 160529851.0,
      "step": 961
    },
    {
      "entropy": 1.719476044178009,
      "epoch": 0.10568234874076515,
      "grad_norm": 0.6035734415054321,
      "learning_rate": 1.997560030507055e-05,
      "loss": 1.3994,
      "mean_token_accuracy": 0.6515898952881495,
      "num_tokens": 160716656.0,
      "step": 962
    },
    {
      "entropy": 1.7441074351469676,
      "epoch": 0.1057922056521381,
      "grad_norm": 0.7362382411956787,
      "learning_rate": 1.9975482343401288e-05,
      "loss": 1.4038,
      "mean_token_accuracy": 0.6557846516370773,
      "num_tokens": 160877936.0,
      "step": 963
    },
    {
      "entropy": 1.7481865584850311,
      "epoch": 0.10590206256351102,
      "grad_norm": 0.7199084162712097,
      "learning_rate": 1.9975364097662052e-05,
      "loss": 1.4177,
      "mean_token_accuracy": 0.6450687150160471,
      "num_tokens": 161095705.0,
      "step": 964
    },
    {
      "entropy": 1.8243679702281952,
      "epoch": 0.10601191947488396,
      "grad_norm": 0.7219046950340271,
      "learning_rate": 1.9975245567856588e-05,
      "loss": 1.3518,
      "mean_token_accuracy": 0.6582407156626383,
      "num_tokens": 161210783.0,
      "step": 965
    },
    {
      "entropy": 1.7808333535989125,
      "epoch": 0.1061217763862569,
      "grad_norm": 2.4213051795959473,
      "learning_rate": 1.9975126753988647e-05,
      "loss": 1.1241,
      "mean_token_accuracy": 0.6723516434431076,
      "num_tokens": 161360356.0,
      "step": 966
    },
    {
      "entropy": 1.7639015515645344,
      "epoch": 0.10623163329762984,
      "grad_norm": 0.7218215465545654,
      "learning_rate": 1.997500765606199e-05,
      "loss": 1.3598,
      "mean_token_accuracy": 0.6689661492904028,
      "num_tokens": 161492497.0,
      "step": 967
    },
    {
      "entropy": 1.7146398623784382,
      "epoch": 0.10634149020900277,
      "grad_norm": 0.6931177377700806,
      "learning_rate": 1.997488827408038e-05,
      "loss": 1.253,
      "mean_token_accuracy": 0.6601031124591827,
      "num_tokens": 161610533.0,
      "step": 968
    },
    {
      "entropy": 1.8045812646547954,
      "epoch": 0.10645134712037571,
      "grad_norm": 0.7326215505599976,
      "learning_rate": 1.997476860804761e-05,
      "loss": 1.417,
      "mean_token_accuracy": 0.6494764337937037,
      "num_tokens": 161748491.0,
      "step": 969
    },
    {
      "entropy": 1.8294326663017273,
      "epoch": 0.10656120403174865,
      "grad_norm": 1.0038849115371704,
      "learning_rate": 1.9974648657967446e-05,
      "loss": 1.6506,
      "mean_token_accuracy": 0.6360284189383189,
      "num_tokens": 161920941.0,
      "step": 970
    },
    {
      "entropy": 1.7476938267548878,
      "epoch": 0.10667106094312158,
      "grad_norm": 0.6628261804580688,
      "learning_rate": 1.9974528423843703e-05,
      "loss": 1.3734,
      "mean_token_accuracy": 0.6495839109023412,
      "num_tokens": 162065785.0,
      "step": 971
    },
    {
      "entropy": 1.724196970462799,
      "epoch": 0.10678091785449452,
      "grad_norm": 0.7884043455123901,
      "learning_rate": 1.9974407905680176e-05,
      "loss": 1.2882,
      "mean_token_accuracy": 0.6736412594715754,
      "num_tokens": 162210428.0,
      "step": 972
    },
    {
      "entropy": 1.7328240772088368,
      "epoch": 0.10689077476586746,
      "grad_norm": 0.7030888795852661,
      "learning_rate": 1.9974287103480684e-05,
      "loss": 1.4312,
      "mean_token_accuracy": 0.6504674156506857,
      "num_tokens": 162358621.0,
      "step": 973
    },
    {
      "entropy": 1.7429528137048085,
      "epoch": 0.10700063167724039,
      "grad_norm": 0.782061755657196,
      "learning_rate": 1.997416601724905e-05,
      "loss": 1.2338,
      "mean_token_accuracy": 0.6769704719384512,
      "num_tokens": 162479846.0,
      "step": 974
    },
    {
      "entropy": 1.7454247772693634,
      "epoch": 0.10711048858861333,
      "grad_norm": 0.6557988524436951,
      "learning_rate": 1.9974044646989104e-05,
      "loss": 1.4533,
      "mean_token_accuracy": 0.6591964761416117,
      "num_tokens": 162650080.0,
      "step": 975
    },
    {
      "entropy": 1.7760846018791199,
      "epoch": 0.10722034549998627,
      "grad_norm": 0.6828281879425049,
      "learning_rate": 1.997392299270469e-05,
      "loss": 1.407,
      "mean_token_accuracy": 0.651309072971344,
      "num_tokens": 162793424.0,
      "step": 976
    },
    {
      "entropy": 1.6812183062235515,
      "epoch": 0.10733020241135921,
      "grad_norm": 0.6630516052246094,
      "learning_rate": 1.997380105439966e-05,
      "loss": 1.3284,
      "mean_token_accuracy": 0.6731794824202856,
      "num_tokens": 162959826.0,
      "step": 977
    },
    {
      "entropy": 1.6819258431593578,
      "epoch": 0.10744005932273214,
      "grad_norm": 0.7564113736152649,
      "learning_rate": 1.9973678832077864e-05,
      "loss": 1.3177,
      "mean_token_accuracy": 0.6723869691292444,
      "num_tokens": 163115903.0,
      "step": 978
    },
    {
      "entropy": 1.7295123835404713,
      "epoch": 0.10754991623410508,
      "grad_norm": 0.7460121512413025,
      "learning_rate": 1.997355632574318e-05,
      "loss": 1.3707,
      "mean_token_accuracy": 0.671826089421908,
      "num_tokens": 163258000.0,
      "step": 979
    },
    {
      "entropy": 1.739086627960205,
      "epoch": 0.10765977314547802,
      "grad_norm": 0.7044259905815125,
      "learning_rate": 1.997343353539948e-05,
      "loss": 1.243,
      "mean_token_accuracy": 0.670919140179952,
      "num_tokens": 163390903.0,
      "step": 980
    },
    {
      "entropy": 1.7413827578226726,
      "epoch": 0.10776963005685095,
      "grad_norm": 0.6770658493041992,
      "learning_rate": 1.9973310461050656e-05,
      "loss": 1.5073,
      "mean_token_accuracy": 0.6495876014232635,
      "num_tokens": 163623202.0,
      "step": 981
    },
    {
      "entropy": 1.7152122557163239,
      "epoch": 0.10787948696822389,
      "grad_norm": 0.6223786473274231,
      "learning_rate": 1.99731871027006e-05,
      "loss": 1.3162,
      "mean_token_accuracy": 0.6673212250073751,
      "num_tokens": 163747993.0,
      "step": 982
    },
    {
      "entropy": 1.76864688595136,
      "epoch": 0.10798934387959683,
      "grad_norm": 0.6262992024421692,
      "learning_rate": 1.9973063460353207e-05,
      "loss": 1.4522,
      "mean_token_accuracy": 0.645324652393659,
      "num_tokens": 163992793.0,
      "step": 983
    },
    {
      "entropy": 1.76500407854716,
      "epoch": 0.10809920079096977,
      "grad_norm": 0.5834012627601624,
      "learning_rate": 1.997293953401241e-05,
      "loss": 1.4136,
      "mean_token_accuracy": 0.6545668741067251,
      "num_tokens": 164176810.0,
      "step": 984
    },
    {
      "entropy": 1.7618548075358074,
      "epoch": 0.1082090577023427,
      "grad_norm": 0.6489772200584412,
      "learning_rate": 1.997281532368211e-05,
      "loss": 1.3492,
      "mean_token_accuracy": 0.65315709511439,
      "num_tokens": 164342656.0,
      "step": 985
    },
    {
      "entropy": 1.7967805167039235,
      "epoch": 0.10831891461371564,
      "grad_norm": 0.8636541962623596,
      "learning_rate": 1.9972690829366254e-05,
      "loss": 1.4586,
      "mean_token_accuracy": 0.6364806840817133,
      "num_tokens": 164534044.0,
      "step": 986
    },
    {
      "entropy": 1.79604172706604,
      "epoch": 0.10842877152508858,
      "grad_norm": 0.6198572516441345,
      "learning_rate": 1.9972566051068775e-05,
      "loss": 1.4286,
      "mean_token_accuracy": 0.6450680047273636,
      "num_tokens": 164692093.0,
      "step": 987
    },
    {
      "entropy": 1.74147434035937,
      "epoch": 0.1085386284364615,
      "grad_norm": 0.9842249155044556,
      "learning_rate": 1.9972440988793623e-05,
      "loss": 1.4988,
      "mean_token_accuracy": 0.6356190939744314,
      "num_tokens": 164968178.0,
      "step": 988
    },
    {
      "entropy": 1.699428141117096,
      "epoch": 0.10864848534783444,
      "grad_norm": 0.6791302561759949,
      "learning_rate": 1.997231564254476e-05,
      "loss": 1.3922,
      "mean_token_accuracy": 0.6636618773142496,
      "num_tokens": 165128695.0,
      "step": 989
    },
    {
      "entropy": 1.832966188589732,
      "epoch": 0.10875834225920739,
      "grad_norm": 0.7480493187904358,
      "learning_rate": 1.9972190012326146e-05,
      "loss": 1.505,
      "mean_token_accuracy": 0.6330814162890116,
      "num_tokens": 165312932.0,
      "step": 990
    },
    {
      "entropy": 1.7748298744360607,
      "epoch": 0.10886819917058031,
      "grad_norm": 0.8279789090156555,
      "learning_rate": 1.9972064098141763e-05,
      "loss": 1.5419,
      "mean_token_accuracy": 0.6653905312220255,
      "num_tokens": 165499258.0,
      "step": 991
    },
    {
      "entropy": 1.750197817881902,
      "epoch": 0.10897805608195325,
      "grad_norm": 0.8178195953369141,
      "learning_rate": 1.9971937899995595e-05,
      "loss": 1.2939,
      "mean_token_accuracy": 0.6684920241435369,
      "num_tokens": 165641236.0,
      "step": 992
    },
    {
      "entropy": 1.6943954626719158,
      "epoch": 0.1090879129933262,
      "grad_norm": 0.6711166501045227,
      "learning_rate": 1.9971811417891634e-05,
      "loss": 1.2783,
      "mean_token_accuracy": 0.6719668805599213,
      "num_tokens": 165795977.0,
      "step": 993
    },
    {
      "entropy": 1.7269932230313618,
      "epoch": 0.10919776990469914,
      "grad_norm": 0.6310712099075317,
      "learning_rate": 1.9971684651833886e-05,
      "loss": 1.3686,
      "mean_token_accuracy": 0.6621618568897247,
      "num_tokens": 165955938.0,
      "step": 994
    },
    {
      "entropy": 1.7690664927164714,
      "epoch": 0.10930762681607206,
      "grad_norm": 0.7837558388710022,
      "learning_rate": 1.9971557601826358e-05,
      "loss": 1.3947,
      "mean_token_accuracy": 0.6452465703090032,
      "num_tokens": 166087991.0,
      "step": 995
    },
    {
      "entropy": 1.7119774222373962,
      "epoch": 0.109417483727445,
      "grad_norm": 0.5863208770751953,
      "learning_rate": 1.9971430267873077e-05,
      "loss": 1.535,
      "mean_token_accuracy": 0.6391033828258514,
      "num_tokens": 166281825.0,
      "step": 996
    },
    {
      "entropy": 1.748874545097351,
      "epoch": 0.10952734063881794,
      "grad_norm": 0.5901543498039246,
      "learning_rate": 1.997130264997807e-05,
      "loss": 1.3562,
      "mean_token_accuracy": 0.6514041026433309,
      "num_tokens": 166481277.0,
      "step": 997
    },
    {
      "entropy": 1.7872538765271504,
      "epoch": 0.10963719755019087,
      "grad_norm": 0.7273993492126465,
      "learning_rate": 1.9971174748145376e-05,
      "loss": 1.3969,
      "mean_token_accuracy": 0.6459978073835373,
      "num_tokens": 166638635.0,
      "step": 998
    },
    {
      "entropy": 1.7589583992958069,
      "epoch": 0.10974705446156381,
      "grad_norm": 0.7236528992652893,
      "learning_rate": 1.997104656237905e-05,
      "loss": 1.443,
      "mean_token_accuracy": 0.6443432023127874,
      "num_tokens": 166842013.0,
      "step": 999
    },
    {
      "entropy": 1.716710348924001,
      "epoch": 0.10985691137293675,
      "grad_norm": 0.6968439817428589,
      "learning_rate": 1.9970918092683133e-05,
      "loss": 1.3732,
      "mean_token_accuracy": 0.6586572974920273,
      "num_tokens": 166983909.0,
      "step": 1000
    },
    {
      "entropy": 1.7281900147596996,
      "epoch": 0.1099667682843097,
      "grad_norm": 0.7102954983711243,
      "learning_rate": 1.9970789339061707e-05,
      "loss": 1.4898,
      "mean_token_accuracy": 0.6502237866322199,
      "num_tokens": 167207507.0,
      "step": 1001
    },
    {
      "entropy": 1.7563473085562389,
      "epoch": 0.11007662519568262,
      "grad_norm": 0.687754213809967,
      "learning_rate": 1.997066030151884e-05,
      "loss": 1.4765,
      "mean_token_accuracy": 0.6534829437732697,
      "num_tokens": 167361838.0,
      "step": 1002
    },
    {
      "entropy": 1.7929190198580425,
      "epoch": 0.11018648210705556,
      "grad_norm": 0.671809732913971,
      "learning_rate": 1.9970530980058614e-05,
      "loss": 1.518,
      "mean_token_accuracy": 0.6443095902601877,
      "num_tokens": 167562959.0,
      "step": 1003
    },
    {
      "entropy": 1.7678324580192566,
      "epoch": 0.1102963390184285,
      "grad_norm": 0.602029025554657,
      "learning_rate": 1.9970401374685126e-05,
      "loss": 1.4024,
      "mean_token_accuracy": 0.6431177506844202,
      "num_tokens": 167755692.0,
      "step": 1004
    },
    {
      "entropy": 1.7461299399534862,
      "epoch": 0.11040619592980143,
      "grad_norm": 0.564751386642456,
      "learning_rate": 1.9970271485402478e-05,
      "loss": 1.458,
      "mean_token_accuracy": 0.6464813202619553,
      "num_tokens": 167945870.0,
      "step": 1005
    },
    {
      "entropy": 1.7465039889017742,
      "epoch": 0.11051605284117437,
      "grad_norm": 0.6950850486755371,
      "learning_rate": 1.9970141312214778e-05,
      "loss": 1.3697,
      "mean_token_accuracy": 0.654125397404035,
      "num_tokens": 168123031.0,
      "step": 1006
    },
    {
      "entropy": 1.7230841716130574,
      "epoch": 0.11062590975254731,
      "grad_norm": 0.5795581340789795,
      "learning_rate": 1.9970010855126148e-05,
      "loss": 1.3064,
      "mean_token_accuracy": 0.6747977683941523,
      "num_tokens": 168344827.0,
      "step": 1007
    },
    {
      "entropy": 1.768018126487732,
      "epoch": 0.11073576666392024,
      "grad_norm": 0.727882444858551,
      "learning_rate": 1.9969880114140717e-05,
      "loss": 1.3756,
      "mean_token_accuracy": 0.6502227435509363,
      "num_tokens": 168493595.0,
      "step": 1008
    },
    {
      "entropy": 1.7701697448889415,
      "epoch": 0.11084562357529318,
      "grad_norm": 0.7508238554000854,
      "learning_rate": 1.9969749089262623e-05,
      "loss": 1.2765,
      "mean_token_accuracy": 0.6652316004037857,
      "num_tokens": 168603351.0,
      "step": 1009
    },
    {
      "entropy": 1.7724807858467102,
      "epoch": 0.11095548048666612,
      "grad_norm": 0.6007605791091919,
      "learning_rate": 1.9969617780496008e-05,
      "loss": 1.3051,
      "mean_token_accuracy": 0.666801263888677,
      "num_tokens": 168780284.0,
      "step": 1010
    },
    {
      "entropy": 1.7377927700678508,
      "epoch": 0.11106533739803906,
      "grad_norm": 0.7759512662887573,
      "learning_rate": 1.9969486187845037e-05,
      "loss": 1.4752,
      "mean_token_accuracy": 0.6457094500462214,
      "num_tokens": 168976335.0,
      "step": 1011
    },
    {
      "entropy": 1.7481233775615692,
      "epoch": 0.11117519430941199,
      "grad_norm": 0.6538453698158264,
      "learning_rate": 1.9969354311313868e-05,
      "loss": 1.4398,
      "mean_token_accuracy": 0.646173338095347,
      "num_tokens": 169130001.0,
      "step": 1012
    },
    {
      "entropy": 1.7797774871190388,
      "epoch": 0.11128505122078493,
      "grad_norm": 0.8638194799423218,
      "learning_rate": 1.9969222150906677e-05,
      "loss": 1.4131,
      "mean_token_accuracy": 0.6468067765235901,
      "num_tokens": 169258271.0,
      "step": 1013
    },
    {
      "entropy": 1.7161829272905986,
      "epoch": 0.11139490813215787,
      "grad_norm": 0.8480156064033508,
      "learning_rate": 1.9969089706627646e-05,
      "loss": 1.351,
      "mean_token_accuracy": 0.668408066034317,
      "num_tokens": 169448988.0,
      "step": 1014
    },
    {
      "entropy": 1.721673975388209,
      "epoch": 0.1115047650435308,
      "grad_norm": 0.6855505108833313,
      "learning_rate": 1.996895697848097e-05,
      "loss": 1.4182,
      "mean_token_accuracy": 0.6560923904180527,
      "num_tokens": 169617296.0,
      "step": 1015
    },
    {
      "entropy": 1.754950036605199,
      "epoch": 0.11161462195490374,
      "grad_norm": 0.5711190104484558,
      "learning_rate": 1.9968823966470844e-05,
      "loss": 1.5817,
      "mean_token_accuracy": 0.6348544011513392,
      "num_tokens": 169828139.0,
      "step": 1016
    },
    {
      "entropy": 1.8216430644194286,
      "epoch": 0.11172447886627668,
      "grad_norm": 0.7866774201393127,
      "learning_rate": 1.9968690670601483e-05,
      "loss": 1.4799,
      "mean_token_accuracy": 0.6281097233295441,
      "num_tokens": 169993288.0,
      "step": 1017
    },
    {
      "entropy": 1.7923205494880676,
      "epoch": 0.11183433577764962,
      "grad_norm": 0.7133738398551941,
      "learning_rate": 1.99685570908771e-05,
      "loss": 1.5161,
      "mean_token_accuracy": 0.6534708514809608,
      "num_tokens": 170185324.0,
      "step": 1018
    },
    {
      "entropy": 1.7083572149276733,
      "epoch": 0.11194419268902255,
      "grad_norm": 0.6993825435638428,
      "learning_rate": 1.9968423227301928e-05,
      "loss": 1.3804,
      "mean_token_accuracy": 0.6609247972567877,
      "num_tokens": 170347764.0,
      "step": 1019
    },
    {
      "entropy": 1.7944194575150807,
      "epoch": 0.11205404960039549,
      "grad_norm": 0.6917293071746826,
      "learning_rate": 1.9968289079880204e-05,
      "loss": 1.4405,
      "mean_token_accuracy": 0.6581203043460846,
      "num_tokens": 170498990.0,
      "step": 1020
    },
    {
      "entropy": 1.7612830102443695,
      "epoch": 0.11216390651176843,
      "grad_norm": 0.6517383456230164,
      "learning_rate": 1.9968154648616174e-05,
      "loss": 1.4844,
      "mean_token_accuracy": 0.6349473794301351,
      "num_tokens": 170659958.0,
      "step": 1021
    },
    {
      "entropy": 1.7332187394301097,
      "epoch": 0.11227376342314135,
      "grad_norm": 0.7480264902114868,
      "learning_rate": 1.996801993351408e-05,
      "loss": 1.3936,
      "mean_token_accuracy": 0.6647941619157791,
      "num_tokens": 170819653.0,
      "step": 1022
    },
    {
      "entropy": 1.7455625931421916,
      "epoch": 0.1123836203345143,
      "grad_norm": 0.6116794943809509,
      "learning_rate": 1.996788493457821e-05,
      "loss": 1.4525,
      "mean_token_accuracy": 0.6416516304016113,
      "num_tokens": 170994301.0,
      "step": 1023
    },
    {
      "entropy": 1.731279730796814,
      "epoch": 0.11249347724588724,
      "grad_norm": 0.6867764592170715,
      "learning_rate": 1.9967749651812815e-05,
      "loss": 1.321,
      "mean_token_accuracy": 0.6761416296164194,
      "num_tokens": 171174374.0,
      "step": 1024
    },
    {
      "entropy": 1.7446598211924236,
      "epoch": 0.11260333415726016,
      "grad_norm": 0.7553854584693909,
      "learning_rate": 1.9967614085222187e-05,
      "loss": 1.5306,
      "mean_token_accuracy": 0.6366226524114609,
      "num_tokens": 171329470.0,
      "step": 1025
    },
    {
      "entropy": 1.7547922631104786,
      "epoch": 0.1127131910686331,
      "grad_norm": 0.7220216393470764,
      "learning_rate": 1.996747823481061e-05,
      "loss": 1.3455,
      "mean_token_accuracy": 0.6626160144805908,
      "num_tokens": 171493059.0,
      "step": 1026
    },
    {
      "entropy": 1.690296709537506,
      "epoch": 0.11282304798000604,
      "grad_norm": 0.6687548160552979,
      "learning_rate": 1.9967342100582394e-05,
      "loss": 1.3581,
      "mean_token_accuracy": 0.6656670471032461,
      "num_tokens": 171646415.0,
      "step": 1027
    },
    {
      "entropy": 1.7647127310434978,
      "epoch": 0.11293290489137899,
      "grad_norm": 0.637204110622406,
      "learning_rate": 1.9967205682541834e-05,
      "loss": 1.4116,
      "mean_token_accuracy": 0.6447415898243586,
      "num_tokens": 171828506.0,
      "step": 1028
    },
    {
      "entropy": 1.7863658169905345,
      "epoch": 0.11304276180275191,
      "grad_norm": 0.6792446374893188,
      "learning_rate": 1.9967068980693262e-05,
      "loss": 1.3788,
      "mean_token_accuracy": 0.6593380073706309,
      "num_tokens": 171976616.0,
      "step": 1029
    },
    {
      "entropy": 1.7621726393699646,
      "epoch": 0.11315261871412485,
      "grad_norm": 0.7082951068878174,
      "learning_rate": 1.9966931995040992e-05,
      "loss": 1.4682,
      "mean_token_accuracy": 0.6501838515202204,
      "num_tokens": 172158583.0,
      "step": 1030
    },
    {
      "entropy": 1.8039735853672028,
      "epoch": 0.1132624756254978,
      "grad_norm": 0.6356441974639893,
      "learning_rate": 1.9966794725589368e-05,
      "loss": 1.4936,
      "mean_token_accuracy": 0.6384439915418625,
      "num_tokens": 172320260.0,
      "step": 1031
    },
    {
      "entropy": 1.731901486714681,
      "epoch": 0.11337233253687072,
      "grad_norm": 0.7175825238227844,
      "learning_rate": 1.9966657172342733e-05,
      "loss": 1.2825,
      "mean_token_accuracy": 0.6734850654999415,
      "num_tokens": 172454571.0,
      "step": 1032
    },
    {
      "entropy": 1.7200752000013988,
      "epoch": 0.11348218944824366,
      "grad_norm": 0.9528830647468567,
      "learning_rate": 1.9966519335305434e-05,
      "loss": 1.3735,
      "mean_token_accuracy": 0.653776541352272,
      "num_tokens": 172605672.0,
      "step": 1033
    },
    {
      "entropy": 1.7589248915513356,
      "epoch": 0.1135920463596166,
      "grad_norm": 0.7243776917457581,
      "learning_rate": 1.996638121448184e-05,
      "loss": 1.4101,
      "mean_token_accuracy": 0.6624555786450704,
      "num_tokens": 172817225.0,
      "step": 1034
    },
    {
      "entropy": 1.7110880215962727,
      "epoch": 0.11370190327098953,
      "grad_norm": 0.7603755593299866,
      "learning_rate": 1.9966242809876323e-05,
      "loss": 1.3095,
      "mean_token_accuracy": 0.6720947672923406,
      "num_tokens": 172991993.0,
      "step": 1035
    },
    {
      "entropy": 1.70220681031545,
      "epoch": 0.11381176018236247,
      "grad_norm": 0.6258305311203003,
      "learning_rate": 1.9966104121493262e-05,
      "loss": 1.4045,
      "mean_token_accuracy": 0.6527692576249441,
      "num_tokens": 173175089.0,
      "step": 1036
    },
    {
      "entropy": 1.7945917348066966,
      "epoch": 0.11392161709373541,
      "grad_norm": 0.7107659578323364,
      "learning_rate": 1.9965965149337044e-05,
      "loss": 1.4265,
      "mean_token_accuracy": 0.6489067127307256,
      "num_tokens": 173367208.0,
      "step": 1037
    },
    {
      "entropy": 1.7529179851214092,
      "epoch": 0.11403147400510835,
      "grad_norm": 0.6977424621582031,
      "learning_rate": 1.9965825893412066e-05,
      "loss": 1.4642,
      "mean_token_accuracy": 0.6490010867516199,
      "num_tokens": 173529488.0,
      "step": 1038
    },
    {
      "entropy": 1.7823486824830372,
      "epoch": 0.11414133091648128,
      "grad_norm": 0.7429659366607666,
      "learning_rate": 1.9965686353722744e-05,
      "loss": 1.4706,
      "mean_token_accuracy": 0.6589999397595724,
      "num_tokens": 173743382.0,
      "step": 1039
    },
    {
      "entropy": 1.7522972325483959,
      "epoch": 0.11425118782785422,
      "grad_norm": 0.6352205276489258,
      "learning_rate": 1.9965546530273484e-05,
      "loss": 1.4292,
      "mean_token_accuracy": 0.6400622725486755,
      "num_tokens": 173912436.0,
      "step": 1040
    },
    {
      "entropy": 1.7382917702198029,
      "epoch": 0.11436104473922716,
      "grad_norm": 0.7589994072914124,
      "learning_rate": 1.9965406423068722e-05,
      "loss": 1.3622,
      "mean_token_accuracy": 0.6633311361074448,
      "num_tokens": 174093358.0,
      "step": 1041
    },
    {
      "entropy": 1.7625388304392497,
      "epoch": 0.11447090165060009,
      "grad_norm": 0.6129192113876343,
      "learning_rate": 1.9965266032112883e-05,
      "loss": 1.4215,
      "mean_token_accuracy": 0.6418607930342356,
      "num_tokens": 174317864.0,
      "step": 1042
    },
    {
      "entropy": 1.6891125738620758,
      "epoch": 0.11458075856197303,
      "grad_norm": 0.7192829251289368,
      "learning_rate": 1.9965125357410415e-05,
      "loss": 1.437,
      "mean_token_accuracy": 0.6587806989749273,
      "num_tokens": 174456645.0,
      "step": 1043
    },
    {
      "entropy": 1.7558738390604656,
      "epoch": 0.11469061547334597,
      "grad_norm": 0.8326495289802551,
      "learning_rate": 1.9964984398965768e-05,
      "loss": 1.3175,
      "mean_token_accuracy": 0.6619067142407099,
      "num_tokens": 174574320.0,
      "step": 1044
    },
    {
      "entropy": 1.7502717077732086,
      "epoch": 0.11480047238471891,
      "grad_norm": 0.6890818476676941,
      "learning_rate": 1.9964843156783406e-05,
      "loss": 1.456,
      "mean_token_accuracy": 0.6418903172016144,
      "num_tokens": 174761804.0,
      "step": 1045
    },
    {
      "entropy": 1.7364663283030193,
      "epoch": 0.11491032929609184,
      "grad_norm": 0.6975388526916504,
      "learning_rate": 1.99647016308678e-05,
      "loss": 1.4514,
      "mean_token_accuracy": 0.6475592801968256,
      "num_tokens": 174937492.0,
      "step": 1046
    },
    {
      "entropy": 1.7429968516031902,
      "epoch": 0.11502018620746478,
      "grad_norm": 0.8240295052528381,
      "learning_rate": 1.9964559821223423e-05,
      "loss": 1.3563,
      "mean_token_accuracy": 0.6688429315884908,
      "num_tokens": 175073825.0,
      "step": 1047
    },
    {
      "entropy": 1.765154093503952,
      "epoch": 0.11513004311883772,
      "grad_norm": 0.742708146572113,
      "learning_rate": 1.9964417727854766e-05,
      "loss": 1.6561,
      "mean_token_accuracy": 0.629709780216217,
      "num_tokens": 175240948.0,
      "step": 1048
    },
    {
      "entropy": 1.7909338076909382,
      "epoch": 0.11523990003021065,
      "grad_norm": 10.230766296386719,
      "learning_rate": 1.9964275350766328e-05,
      "loss": 1.2824,
      "mean_token_accuracy": 0.6872695883115133,
      "num_tokens": 175389639.0,
      "step": 1049
    },
    {
      "entropy": 1.7785474856694539,
      "epoch": 0.11534975694158359,
      "grad_norm": 0.7796043157577515,
      "learning_rate": 1.996413268996262e-05,
      "loss": 1.3464,
      "mean_token_accuracy": 0.6501271277666092,
      "num_tokens": 175507065.0,
      "step": 1050
    },
    {
      "entropy": 1.70500651995341,
      "epoch": 0.11545961385295653,
      "grad_norm": 0.7728234529495239,
      "learning_rate": 1.9963989745448148e-05,
      "loss": 1.314,
      "mean_token_accuracy": 0.6640622218449911,
      "num_tokens": 175645190.0,
      "step": 1051
    },
    {
      "entropy": 1.778702090183894,
      "epoch": 0.11556947076432945,
      "grad_norm": 0.7463306784629822,
      "learning_rate": 1.9963846517227438e-05,
      "loss": 1.4866,
      "mean_token_accuracy": 0.6476029555002848,
      "num_tokens": 175787142.0,
      "step": 1052
    },
    {
      "entropy": 1.7820600767930348,
      "epoch": 0.1156793276757024,
      "grad_norm": 0.8117401003837585,
      "learning_rate": 1.9963703005305026e-05,
      "loss": 1.6304,
      "mean_token_accuracy": 0.6415733198324839,
      "num_tokens": 175978725.0,
      "step": 1053
    },
    {
      "entropy": 1.767964760462443,
      "epoch": 0.11578918458707534,
      "grad_norm": 0.7086589336395264,
      "learning_rate": 1.9963559209685453e-05,
      "loss": 1.488,
      "mean_token_accuracy": 0.6404663970073065,
      "num_tokens": 176151940.0,
      "step": 1054
    },
    {
      "entropy": 1.7119649251302083,
      "epoch": 0.11589904149844828,
      "grad_norm": 0.6427537798881531,
      "learning_rate": 1.9963415130373272e-05,
      "loss": 1.4038,
      "mean_token_accuracy": 0.6565761119127274,
      "num_tokens": 176346366.0,
      "step": 1055
    },
    {
      "entropy": 1.6838423609733582,
      "epoch": 0.1160088984098212,
      "grad_norm": 0.6571147441864014,
      "learning_rate": 1.996327076737304e-05,
      "loss": 1.4475,
      "mean_token_accuracy": 0.657142753402392,
      "num_tokens": 176531787.0,
      "step": 1056
    },
    {
      "entropy": 1.7079651753107707,
      "epoch": 0.11611875532119414,
      "grad_norm": 0.7071012258529663,
      "learning_rate": 1.9963126120689327e-05,
      "loss": 1.245,
      "mean_token_accuracy": 0.6794669379790624,
      "num_tokens": 176644581.0,
      "step": 1057
    },
    {
      "entropy": 1.7078370153903961,
      "epoch": 0.11622861223256709,
      "grad_norm": 0.6504570841789246,
      "learning_rate": 1.996298119032671e-05,
      "loss": 1.4807,
      "mean_token_accuracy": 0.6452956398328146,
      "num_tokens": 176800118.0,
      "step": 1058
    },
    {
      "entropy": 1.7567949692408245,
      "epoch": 0.11633846914394001,
      "grad_norm": 0.6000586152076721,
      "learning_rate": 1.996283597628978e-05,
      "loss": 1.5075,
      "mean_token_accuracy": 0.6261270443598429,
      "num_tokens": 176997873.0,
      "step": 1059
    },
    {
      "entropy": 1.737035463253657,
      "epoch": 0.11644832605531295,
      "grad_norm": 0.785273551940918,
      "learning_rate": 1.996269047858313e-05,
      "loss": 1.4997,
      "mean_token_accuracy": 0.6675494114557902,
      "num_tokens": 177170996.0,
      "step": 1060
    },
    {
      "entropy": 1.778021514415741,
      "epoch": 0.1165581829666859,
      "grad_norm": 0.6912639141082764,
      "learning_rate": 1.996254469721136e-05,
      "loss": 1.3567,
      "mean_token_accuracy": 0.6619671285152435,
      "num_tokens": 177310138.0,
      "step": 1061
    },
    {
      "entropy": 1.7289757231871288,
      "epoch": 0.11666803987805884,
      "grad_norm": 0.6175736784934998,
      "learning_rate": 1.9962398632179095e-05,
      "loss": 1.4535,
      "mean_token_accuracy": 0.6459249506394068,
      "num_tokens": 177492607.0,
      "step": 1062
    },
    {
      "entropy": 1.7960573335488637,
      "epoch": 0.11677789678943176,
      "grad_norm": 0.64888596534729,
      "learning_rate": 1.996225228349095e-05,
      "loss": 1.3823,
      "mean_token_accuracy": 0.6632821957270304,
      "num_tokens": 177682018.0,
      "step": 1063
    },
    {
      "entropy": 1.7856767276922862,
      "epoch": 0.1168877537008047,
      "grad_norm": 0.8114152550697327,
      "learning_rate": 1.9962105651151554e-05,
      "loss": 1.507,
      "mean_token_accuracy": 0.6501527229944865,
      "num_tokens": 177849461.0,
      "step": 1064
    },
    {
      "entropy": 1.7049864828586578,
      "epoch": 0.11699761061217764,
      "grad_norm": 0.6832014918327332,
      "learning_rate": 1.9961958735165558e-05,
      "loss": 1.4545,
      "mean_token_accuracy": 0.6496352106332779,
      "num_tokens": 178013404.0,
      "step": 1065
    },
    {
      "entropy": 1.766481727361679,
      "epoch": 0.11710746752355057,
      "grad_norm": 0.925279438495636,
      "learning_rate": 1.9961811535537607e-05,
      "loss": 1.5581,
      "mean_token_accuracy": 0.6499437689781189,
      "num_tokens": 178180175.0,
      "step": 1066
    },
    {
      "entropy": 1.8251918852329254,
      "epoch": 0.11721732443492351,
      "grad_norm": 0.7407745718955994,
      "learning_rate": 1.9961664052272355e-05,
      "loss": 1.4513,
      "mean_token_accuracy": 0.6350584477186203,
      "num_tokens": 178338753.0,
      "step": 1067
    },
    {
      "entropy": 1.7265767951806386,
      "epoch": 0.11732718134629645,
      "grad_norm": 0.7054161429405212,
      "learning_rate": 1.996151628537448e-05,
      "loss": 1.3095,
      "mean_token_accuracy": 0.6645342856645584,
      "num_tokens": 178489201.0,
      "step": 1068
    },
    {
      "entropy": 1.687457690636317,
      "epoch": 0.11743703825766938,
      "grad_norm": 0.6299598813056946,
      "learning_rate": 1.9961368234848647e-05,
      "loss": 1.4949,
      "mean_token_accuracy": 0.6444557011127472,
      "num_tokens": 178682246.0,
      "step": 1069
    },
    {
      "entropy": 1.736327697833379,
      "epoch": 0.11754689516904232,
      "grad_norm": 0.7318028211593628,
      "learning_rate": 1.9961219900699545e-05,
      "loss": 1.5979,
      "mean_token_accuracy": 0.6583315829435984,
      "num_tokens": 178856231.0,
      "step": 1070
    },
    {
      "entropy": 1.7476358910401661,
      "epoch": 0.11765675208041526,
      "grad_norm": 0.5873830318450928,
      "learning_rate": 1.996107128293188e-05,
      "loss": 1.5281,
      "mean_token_accuracy": 0.6360836823781332,
      "num_tokens": 179036805.0,
      "step": 1071
    },
    {
      "entropy": 1.6975926160812378,
      "epoch": 0.1177666089917882,
      "grad_norm": 0.7855924367904663,
      "learning_rate": 1.9960922381550342e-05,
      "loss": 1.3234,
      "mean_token_accuracy": 0.6804987043142319,
      "num_tokens": 179179515.0,
      "step": 1072
    },
    {
      "entropy": 1.746078997850418,
      "epoch": 0.11787646590316113,
      "grad_norm": 0.7362106442451477,
      "learning_rate": 1.9960773196559647e-05,
      "loss": 1.3612,
      "mean_token_accuracy": 0.6657725870609283,
      "num_tokens": 179309228.0,
      "step": 1073
    },
    {
      "entropy": 1.6905361711978912,
      "epoch": 0.11798632281453407,
      "grad_norm": 0.5651462078094482,
      "learning_rate": 1.9960623727964522e-05,
      "loss": 1.379,
      "mean_token_accuracy": 0.6537969360748926,
      "num_tokens": 179544581.0,
      "step": 1074
    },
    {
      "entropy": 1.7257480025291443,
      "epoch": 0.11809617972590701,
      "grad_norm": 0.9071959257125854,
      "learning_rate": 1.9960473975769693e-05,
      "loss": 1.3199,
      "mean_token_accuracy": 0.6615277131398519,
      "num_tokens": 179650333.0,
      "step": 1075
    },
    {
      "entropy": 1.7202151914437611,
      "epoch": 0.11820603663727994,
      "grad_norm": 0.5977594256401062,
      "learning_rate": 1.9960323939979894e-05,
      "loss": 1.4065,
      "mean_token_accuracy": 0.6557470411062241,
      "num_tokens": 179832640.0,
      "step": 1076
    },
    {
      "entropy": 1.7765184839566548,
      "epoch": 0.11831589354865288,
      "grad_norm": 0.7578040361404419,
      "learning_rate": 1.9960173620599887e-05,
      "loss": 1.3649,
      "mean_token_accuracy": 0.6576367566982905,
      "num_tokens": 179984410.0,
      "step": 1077
    },
    {
      "entropy": 1.8273439009984334,
      "epoch": 0.11842575046002582,
      "grad_norm": 0.8141303062438965,
      "learning_rate": 1.996002301763442e-05,
      "loss": 1.444,
      "mean_token_accuracy": 0.6420343518257141,
      "num_tokens": 180146615.0,
      "step": 1078
    },
    {
      "entropy": 1.7694277266661327,
      "epoch": 0.11853560737139875,
      "grad_norm": 0.6545711755752563,
      "learning_rate": 1.9959872131088264e-05,
      "loss": 1.417,
      "mean_token_accuracy": 0.6598865836858749,
      "num_tokens": 180292276.0,
      "step": 1079
    },
    {
      "entropy": 1.7825441459814708,
      "epoch": 0.11864546428277169,
      "grad_norm": 0.5675626397132874,
      "learning_rate": 1.995972096096619e-05,
      "loss": 1.46,
      "mean_token_accuracy": 0.6376805355151495,
      "num_tokens": 180499401.0,
      "step": 1080
    },
    {
      "entropy": 1.738411416610082,
      "epoch": 0.11875532119414463,
      "grad_norm": 0.7769458889961243,
      "learning_rate": 1.9959569507272985e-05,
      "loss": 1.5524,
      "mean_token_accuracy": 0.6482310444116592,
      "num_tokens": 180664053.0,
      "step": 1081
    },
    {
      "entropy": 1.7660705149173737,
      "epoch": 0.11886517810551757,
      "grad_norm": 0.6864280700683594,
      "learning_rate": 1.9959417770013445e-05,
      "loss": 1.4833,
      "mean_token_accuracy": 0.6475979934136072,
      "num_tokens": 180832870.0,
      "step": 1082
    },
    {
      "entropy": 1.7743451297283173,
      "epoch": 0.1189750350168905,
      "grad_norm": 0.7256821990013123,
      "learning_rate": 1.995926574919237e-05,
      "loss": 1.3349,
      "mean_token_accuracy": 0.6730091770490011,
      "num_tokens": 180944514.0,
      "step": 1083
    },
    {
      "entropy": 1.791404128074646,
      "epoch": 0.11908489192826344,
      "grad_norm": 0.8112614154815674,
      "learning_rate": 1.9959113444814567e-05,
      "loss": 1.3597,
      "mean_token_accuracy": 0.6570585270722707,
      "num_tokens": 181104580.0,
      "step": 1084
    },
    {
      "entropy": 1.6880301733811696,
      "epoch": 0.11919474883963638,
      "grad_norm": 0.6577028632164001,
      "learning_rate": 1.9958960856884862e-05,
      "loss": 1.4622,
      "mean_token_accuracy": 0.6448287467161814,
      "num_tokens": 181300738.0,
      "step": 1085
    },
    {
      "entropy": 1.722762902577718,
      "epoch": 0.1193046057510093,
      "grad_norm": 0.7643953561782837,
      "learning_rate": 1.9958807985408083e-05,
      "loss": 1.4948,
      "mean_token_accuracy": 0.647366444269816,
      "num_tokens": 181454434.0,
      "step": 1086
    },
    {
      "entropy": 1.7054348190625508,
      "epoch": 0.11941446266238225,
      "grad_norm": 0.7724200487136841,
      "learning_rate": 1.995865483038907e-05,
      "loss": 1.4808,
      "mean_token_accuracy": 0.662505899866422,
      "num_tokens": 181651668.0,
      "step": 1087
    },
    {
      "entropy": 1.7870188256104786,
      "epoch": 0.11952431957375519,
      "grad_norm": 0.8176293969154358,
      "learning_rate": 1.995850139183267e-05,
      "loss": 1.3453,
      "mean_token_accuracy": 0.6639283945163091,
      "num_tokens": 181788460.0,
      "step": 1088
    },
    {
      "entropy": 1.7554938594500225,
      "epoch": 0.11963417648512813,
      "grad_norm": 0.7022227644920349,
      "learning_rate": 1.995834766974373e-05,
      "loss": 1.3982,
      "mean_token_accuracy": 0.6482542703549067,
      "num_tokens": 182038105.0,
      "step": 1089
    },
    {
      "entropy": 1.7522353132565816,
      "epoch": 0.11974403339650105,
      "grad_norm": 0.9576560854911804,
      "learning_rate": 1.995819366412713e-05,
      "loss": 1.4416,
      "mean_token_accuracy": 0.6475793421268463,
      "num_tokens": 182216542.0,
      "step": 1090
    },
    {
      "entropy": 1.7578060527642567,
      "epoch": 0.119853890307874,
      "grad_norm": 0.6407710313796997,
      "learning_rate": 1.9958039374987738e-05,
      "loss": 1.5203,
      "mean_token_accuracy": 0.6500546783208847,
      "num_tokens": 182385751.0,
      "step": 1091
    },
    {
      "entropy": 1.777414192756017,
      "epoch": 0.11996374721924694,
      "grad_norm": 0.8721911311149597,
      "learning_rate": 1.995788480233043e-05,
      "loss": 1.5271,
      "mean_token_accuracy": 0.635983943939209,
      "num_tokens": 182566662.0,
      "step": 1092
    },
    {
      "entropy": 1.7177048722902934,
      "epoch": 0.12007360413061986,
      "grad_norm": 0.6299294829368591,
      "learning_rate": 1.9957729946160108e-05,
      "loss": 1.2945,
      "mean_token_accuracy": 0.6612618813912073,
      "num_tokens": 182701870.0,
      "step": 1093
    },
    {
      "entropy": 1.6905933519204457,
      "epoch": 0.1201834610419928,
      "grad_norm": 0.7173838019371033,
      "learning_rate": 1.995757480648167e-05,
      "loss": 1.4643,
      "mean_token_accuracy": 0.6514955560366312,
      "num_tokens": 182853909.0,
      "step": 1094
    },
    {
      "entropy": 1.8044182658195496,
      "epoch": 0.12029331795336574,
      "grad_norm": 0.7805381417274475,
      "learning_rate": 1.995741938330003e-05,
      "loss": 1.4079,
      "mean_token_accuracy": 0.6487281521161398,
      "num_tokens": 182996153.0,
      "step": 1095
    },
    {
      "entropy": 1.7813920577367146,
      "epoch": 0.12040317486473867,
      "grad_norm": 0.6752137541770935,
      "learning_rate": 1.9957263676620094e-05,
      "loss": 1.5411,
      "mean_token_accuracy": 0.6410238941510519,
      "num_tokens": 183196179.0,
      "step": 1096
    },
    {
      "entropy": 1.7193073829015095,
      "epoch": 0.12051303177611161,
      "grad_norm": 0.7395818829536438,
      "learning_rate": 1.9957107686446805e-05,
      "loss": 1.2063,
      "mean_token_accuracy": 0.678206260005633,
      "num_tokens": 183324746.0,
      "step": 1097
    },
    {
      "entropy": 1.7467433512210846,
      "epoch": 0.12062288868748455,
      "grad_norm": 0.7600111365318298,
      "learning_rate": 1.995695141278509e-05,
      "loss": 1.402,
      "mean_token_accuracy": 0.6539099762837092,
      "num_tokens": 183455165.0,
      "step": 1098
    },
    {
      "entropy": 1.766270915667216,
      "epoch": 0.1207327455988575,
      "grad_norm": 0.6678837537765503,
      "learning_rate": 1.9956794855639902e-05,
      "loss": 1.5132,
      "mean_token_accuracy": 0.6394678006569544,
      "num_tokens": 183653879.0,
      "step": 1099
    },
    {
      "entropy": 1.70885169506073,
      "epoch": 0.12084260251023042,
      "grad_norm": 0.6890634894371033,
      "learning_rate": 1.9956638015016192e-05,
      "loss": 1.4759,
      "mean_token_accuracy": 0.6423639605442683,
      "num_tokens": 183865460.0,
      "step": 1100
    },
    {
      "entropy": 1.7804962793986003,
      "epoch": 0.12095245942160336,
      "grad_norm": 0.6882741451263428,
      "learning_rate": 1.9956480890918923e-05,
      "loss": 1.3699,
      "mean_token_accuracy": 0.6530927171309789,
      "num_tokens": 184012429.0,
      "step": 1101
    },
    {
      "entropy": 1.7800053457419078,
      "epoch": 0.1210623163329763,
      "grad_norm": 0.7321879863739014,
      "learning_rate": 1.9956323483353073e-05,
      "loss": 1.3303,
      "mean_token_accuracy": 0.6687973191340765,
      "num_tokens": 184132575.0,
      "step": 1102
    },
    {
      "entropy": 1.7981793681780498,
      "epoch": 0.12117217324434923,
      "grad_norm": 0.7735952138900757,
      "learning_rate": 1.995616579232362e-05,
      "loss": 1.5259,
      "mean_token_accuracy": 0.6438850810130438,
      "num_tokens": 184294442.0,
      "step": 1103
    },
    {
      "entropy": 1.6824164589246113,
      "epoch": 0.12128203015572217,
      "grad_norm": 0.8133576512336731,
      "learning_rate": 1.995600781783555e-05,
      "loss": 1.3995,
      "mean_token_accuracy": 0.6544992427031199,
      "num_tokens": 184454040.0,
      "step": 1104
    },
    {
      "entropy": 1.8094957967599232,
      "epoch": 0.12139188706709511,
      "grad_norm": 0.7161358594894409,
      "learning_rate": 1.9955849559893878e-05,
      "loss": 1.3367,
      "mean_token_accuracy": 0.6558258583148321,
      "num_tokens": 184576608.0,
      "step": 1105
    },
    {
      "entropy": 1.6985692779223125,
      "epoch": 0.12150174397846805,
      "grad_norm": 0.7241420745849609,
      "learning_rate": 1.9955691018503592e-05,
      "loss": 1.5111,
      "mean_token_accuracy": 0.6411018818616867,
      "num_tokens": 184743688.0,
      "step": 1106
    },
    {
      "entropy": 1.8171222706635792,
      "epoch": 0.12161160088984098,
      "grad_norm": 0.7848587036132812,
      "learning_rate": 1.995553219366973e-05,
      "loss": 1.3863,
      "mean_token_accuracy": 0.6589597115914027,
      "num_tokens": 184908891.0,
      "step": 1107
    },
    {
      "entropy": 1.7540997366110485,
      "epoch": 0.12172145780121392,
      "grad_norm": 0.709570050239563,
      "learning_rate": 1.9955373085397304e-05,
      "loss": 1.3756,
      "mean_token_accuracy": 0.6544551948706309,
      "num_tokens": 185037502.0,
      "step": 1108
    },
    {
      "entropy": 1.7399804890155792,
      "epoch": 0.12183131471258686,
      "grad_norm": 2.1236889362335205,
      "learning_rate": 1.9955213693691358e-05,
      "loss": 1.2212,
      "mean_token_accuracy": 0.6755783557891846,
      "num_tokens": 185228287.0,
      "step": 1109
    },
    {
      "entropy": 1.7062017718950908,
      "epoch": 0.12194117162395979,
      "grad_norm": 0.6356903910636902,
      "learning_rate": 1.9955054018556936e-05,
      "loss": 1.4158,
      "mean_token_accuracy": 0.647825613617897,
      "num_tokens": 185421671.0,
      "step": 1110
    },
    {
      "entropy": 1.8161241014798482,
      "epoch": 0.12205102853533273,
      "grad_norm": 0.9130175709724426,
      "learning_rate": 1.9954894059999082e-05,
      "loss": 1.2078,
      "mean_token_accuracy": 0.671512246131897,
      "num_tokens": 185538648.0,
      "step": 1111
    },
    {
      "entropy": 1.6999003887176514,
      "epoch": 0.12216088544670567,
      "grad_norm": 0.6050575375556946,
      "learning_rate": 1.9954733818022873e-05,
      "loss": 1.3409,
      "mean_token_accuracy": 0.6672930121421814,
      "num_tokens": 185718319.0,
      "step": 1112
    },
    {
      "entropy": 1.7451957364877064,
      "epoch": 0.1222707423580786,
      "grad_norm": 0.7081188559532166,
      "learning_rate": 1.995457329263337e-05,
      "loss": 1.4324,
      "mean_token_accuracy": 0.6614968578020731,
      "num_tokens": 185890214.0,
      "step": 1113
    },
    {
      "entropy": 1.7832291225592296,
      "epoch": 0.12238059926945154,
      "grad_norm": 0.6266985535621643,
      "learning_rate": 1.9954412483835658e-05,
      "loss": 1.4527,
      "mean_token_accuracy": 0.6494892338911692,
      "num_tokens": 186067267.0,
      "step": 1114
    },
    {
      "entropy": 1.7837847769260406,
      "epoch": 0.12249045618082448,
      "grad_norm": 0.8108149170875549,
      "learning_rate": 1.995425139163483e-05,
      "loss": 1.394,
      "mean_token_accuracy": 0.6565323745210966,
      "num_tokens": 186187770.0,
      "step": 1115
    },
    {
      "entropy": 1.7373790740966797,
      "epoch": 0.12260031309219742,
      "grad_norm": 0.6153585910797119,
      "learning_rate": 1.9954090016035975e-05,
      "loss": 1.4611,
      "mean_token_accuracy": 0.6373415837685267,
      "num_tokens": 186378770.0,
      "step": 1116
    },
    {
      "entropy": 1.8052891790866852,
      "epoch": 0.12271017000357035,
      "grad_norm": 0.7305307388305664,
      "learning_rate": 1.9953928357044207e-05,
      "loss": 1.584,
      "mean_token_accuracy": 0.6416770915190378,
      "num_tokens": 186558752.0,
      "step": 1117
    },
    {
      "entropy": 1.8447977602481842,
      "epoch": 0.12282002691494329,
      "grad_norm": 0.6544065475463867,
      "learning_rate": 1.9953766414664643e-05,
      "loss": 1.5598,
      "mean_token_accuracy": 0.6420470277468363,
      "num_tokens": 186735295.0,
      "step": 1118
    },
    {
      "entropy": 1.7785147627194722,
      "epoch": 0.12292988382631623,
      "grad_norm": 0.9531629681587219,
      "learning_rate": 1.9953604188902407e-05,
      "loss": 1.4761,
      "mean_token_accuracy": 0.6378699193398157,
      "num_tokens": 186921485.0,
      "step": 1119
    },
    {
      "entropy": 1.732460230588913,
      "epoch": 0.12303974073768915,
      "grad_norm": 0.6433352828025818,
      "learning_rate": 1.995344167976263e-05,
      "loss": 1.4005,
      "mean_token_accuracy": 0.6507207999626795,
      "num_tokens": 187083038.0,
      "step": 1120
    },
    {
      "entropy": 1.7945673267046611,
      "epoch": 0.1231495976490621,
      "grad_norm": 0.7739344239234924,
      "learning_rate": 1.995327888725046e-05,
      "loss": 1.3051,
      "mean_token_accuracy": 0.6669691900412241,
      "num_tokens": 187232544.0,
      "step": 1121
    },
    {
      "entropy": 1.735634684562683,
      "epoch": 0.12325945456043504,
      "grad_norm": 0.6914976239204407,
      "learning_rate": 1.995311581137105e-05,
      "loss": 1.3125,
      "mean_token_accuracy": 0.6667511413494746,
      "num_tokens": 187355432.0,
      "step": 1122
    },
    {
      "entropy": 1.7393087248007457,
      "epoch": 0.12336931147180798,
      "grad_norm": 0.6433930993080139,
      "learning_rate": 1.9952952452129557e-05,
      "loss": 1.3744,
      "mean_token_accuracy": 0.6738745719194412,
      "num_tokens": 187522816.0,
      "step": 1123
    },
    {
      "entropy": 1.7415795028209686,
      "epoch": 0.1234791683831809,
      "grad_norm": 0.632103443145752,
      "learning_rate": 1.995278880953115e-05,
      "loss": 1.4548,
      "mean_token_accuracy": 0.6446659713983536,
      "num_tokens": 187709230.0,
      "step": 1124
    },
    {
      "entropy": 1.7378952999909718,
      "epoch": 0.12358902529455384,
      "grad_norm": 0.6405538320541382,
      "learning_rate": 1.9952624883581015e-05,
      "loss": 1.5702,
      "mean_token_accuracy": 0.6246414035558701,
      "num_tokens": 187965508.0,
      "step": 1125
    },
    {
      "entropy": 1.7145747939745586,
      "epoch": 0.12369888220592679,
      "grad_norm": 0.7018551826477051,
      "learning_rate": 1.9952460674284335e-05,
      "loss": 1.2834,
      "mean_token_accuracy": 0.6730683247248331,
      "num_tokens": 188080441.0,
      "step": 1126
    },
    {
      "entropy": 1.6676550805568695,
      "epoch": 0.12380873911729971,
      "grad_norm": 0.5789968967437744,
      "learning_rate": 1.995229618164631e-05,
      "loss": 1.36,
      "mean_token_accuracy": 0.6580460617939631,
      "num_tokens": 188292733.0,
      "step": 1127
    },
    {
      "entropy": 1.7675324380397797,
      "epoch": 0.12391859602867265,
      "grad_norm": 1.9231761693954468,
      "learning_rate": 1.9952131405672145e-05,
      "loss": 1.3133,
      "mean_token_accuracy": 0.6596612135569254,
      "num_tokens": 188507601.0,
      "step": 1128
    },
    {
      "entropy": 1.7851240833600361,
      "epoch": 0.1240284529400456,
      "grad_norm": 0.6579344272613525,
      "learning_rate": 1.9951966346367054e-05,
      "loss": 1.3917,
      "mean_token_accuracy": 0.6518159955739975,
      "num_tokens": 188647743.0,
      "step": 1129
    },
    {
      "entropy": 1.8078663349151611,
      "epoch": 0.12413830985141852,
      "grad_norm": 0.9145793318748474,
      "learning_rate": 1.9951801003736263e-05,
      "loss": 1.198,
      "mean_token_accuracy": 0.6740387082099915,
      "num_tokens": 188748896.0,
      "step": 1130
    },
    {
      "entropy": 1.7432547012964885,
      "epoch": 0.12424816676279146,
      "grad_norm": 0.6863495707511902,
      "learning_rate": 1.9951635377785002e-05,
      "loss": 1.4592,
      "mean_token_accuracy": 0.6456627547740936,
      "num_tokens": 188953780.0,
      "step": 1131
    },
    {
      "entropy": 1.7238787710666656,
      "epoch": 0.1243580236741644,
      "grad_norm": 0.8133369088172913,
      "learning_rate": 1.9951469468518516e-05,
      "loss": 1.3483,
      "mean_token_accuracy": 0.6647701015075048,
      "num_tokens": 189125417.0,
      "step": 1132
    },
    {
      "entropy": 1.6680325170358021,
      "epoch": 0.12446788058553734,
      "grad_norm": 0.6783432364463806,
      "learning_rate": 1.9951303275942055e-05,
      "loss": 1.2737,
      "mean_token_accuracy": 0.6636984546979269,
      "num_tokens": 189260690.0,
      "step": 1133
    },
    {
      "entropy": 1.722198059161504,
      "epoch": 0.12457773749691027,
      "grad_norm": 0.784504234790802,
      "learning_rate": 1.995113680006088e-05,
      "loss": 1.3104,
      "mean_token_accuracy": 0.6713638504346212,
      "num_tokens": 189388782.0,
      "step": 1134
    },
    {
      "entropy": 1.7054710189501445,
      "epoch": 0.12468759440828321,
      "grad_norm": 0.7793455123901367,
      "learning_rate": 1.995097004088026e-05,
      "loss": 1.3697,
      "mean_token_accuracy": 0.66965984304746,
      "num_tokens": 189574036.0,
      "step": 1135
    },
    {
      "entropy": 1.7583240966002147,
      "epoch": 0.12479745131965615,
      "grad_norm": 0.7912724018096924,
      "learning_rate": 1.9950802998405468e-05,
      "loss": 1.4305,
      "mean_token_accuracy": 0.6560654044151306,
      "num_tokens": 189702401.0,
      "step": 1136
    },
    {
      "entropy": 1.8047844966252644,
      "epoch": 0.12490730823102908,
      "grad_norm": 0.9431250691413879,
      "learning_rate": 1.9950635672641797e-05,
      "loss": 1.4202,
      "mean_token_accuracy": 0.6618384718894958,
      "num_tokens": 189861738.0,
      "step": 1137
    },
    {
      "entropy": 1.764178196589152,
      "epoch": 0.12501716514240202,
      "grad_norm": 0.7213315367698669,
      "learning_rate": 1.995046806359454e-05,
      "loss": 1.4782,
      "mean_token_accuracy": 0.6546398401260376,
      "num_tokens": 190010964.0,
      "step": 1138
    },
    {
      "entropy": 1.7561284104983013,
      "epoch": 0.12512702205377496,
      "grad_norm": 0.7379279136657715,
      "learning_rate": 1.9950300171269e-05,
      "loss": 1.3491,
      "mean_token_accuracy": 0.6550362805525461,
      "num_tokens": 190186627.0,
      "step": 1139
    },
    {
      "entropy": 1.6882170836130779,
      "epoch": 0.1252368789651479,
      "grad_norm": 0.6673735976219177,
      "learning_rate": 1.9950131995670494e-05,
      "loss": 1.414,
      "mean_token_accuracy": 0.6644150763750076,
      "num_tokens": 190355893.0,
      "step": 1140
    },
    {
      "entropy": 1.696480651696523,
      "epoch": 0.12534673587652084,
      "grad_norm": 2.3444578647613525,
      "learning_rate": 1.994996353680434e-05,
      "loss": 0.9837,
      "mean_token_accuracy": 0.6970398674408594,
      "num_tokens": 190506476.0,
      "step": 1141
    },
    {
      "entropy": 1.7339637279510498,
      "epoch": 0.12545659278789376,
      "grad_norm": 0.6325587630271912,
      "learning_rate": 1.994979479467588e-05,
      "loss": 1.4113,
      "mean_token_accuracy": 0.6466666658719381,
      "num_tokens": 190693618.0,
      "step": 1142
    },
    {
      "entropy": 1.7287168403466542,
      "epoch": 0.1255664496992667,
      "grad_norm": 0.7597485184669495,
      "learning_rate": 1.9949625769290442e-05,
      "loss": 1.3352,
      "mean_token_accuracy": 0.6628235826889673,
      "num_tokens": 190805076.0,
      "step": 1143
    },
    {
      "entropy": 1.70640030503273,
      "epoch": 0.12567630661063964,
      "grad_norm": 0.6051517128944397,
      "learning_rate": 1.9949456460653382e-05,
      "loss": 1.3608,
      "mean_token_accuracy": 0.656550352772077,
      "num_tokens": 190980015.0,
      "step": 1144
    },
    {
      "entropy": 1.7363159358501434,
      "epoch": 0.12578616352201258,
      "grad_norm": 0.7932606339454651,
      "learning_rate": 1.9949286868770063e-05,
      "loss": 1.4355,
      "mean_token_accuracy": 0.6533750792344412,
      "num_tokens": 191172729.0,
      "step": 1145
    },
    {
      "entropy": 1.7515104512373607,
      "epoch": 0.12589602043338552,
      "grad_norm": 0.5937777161598206,
      "learning_rate": 1.9949116993645842e-05,
      "loss": 1.3832,
      "mean_token_accuracy": 0.6598383535941442,
      "num_tokens": 191371147.0,
      "step": 1146
    },
    {
      "entropy": 1.8300546904404957,
      "epoch": 0.12600587734475846,
      "grad_norm": 0.7814804315567017,
      "learning_rate": 1.9948946835286102e-05,
      "loss": 1.4727,
      "mean_token_accuracy": 0.630996306737264,
      "num_tokens": 191552878.0,
      "step": 1147
    },
    {
      "entropy": 1.696203629175822,
      "epoch": 0.1261157342561314,
      "grad_norm": 0.6297745704650879,
      "learning_rate": 1.9948776393696227e-05,
      "loss": 1.3124,
      "mean_token_accuracy": 0.667043482263883,
      "num_tokens": 191733626.0,
      "step": 1148
    },
    {
      "entropy": 1.710612674554189,
      "epoch": 0.12622559116750431,
      "grad_norm": 0.803044855594635,
      "learning_rate": 1.9948605668881608e-05,
      "loss": 1.4977,
      "mean_token_accuracy": 0.6440107375383377,
      "num_tokens": 191888183.0,
      "step": 1149
    },
    {
      "entropy": 1.7293962438901265,
      "epoch": 0.12633544807887725,
      "grad_norm": 0.7975369095802307,
      "learning_rate": 1.9948434660847658e-05,
      "loss": 1.2799,
      "mean_token_accuracy": 0.6679138342539469,
      "num_tokens": 192005132.0,
      "step": 1150
    },
    {
      "entropy": 1.7680123845736186,
      "epoch": 0.1264453049902502,
      "grad_norm": 0.7152736186981201,
      "learning_rate": 1.994826336959978e-05,
      "loss": 1.4389,
      "mean_token_accuracy": 0.6575280626614889,
      "num_tokens": 192155335.0,
      "step": 1151
    },
    {
      "entropy": 1.7631124357382457,
      "epoch": 0.12655516190162314,
      "grad_norm": 0.7395944595336914,
      "learning_rate": 1.99480917951434e-05,
      "loss": 1.2721,
      "mean_token_accuracy": 0.6726651241381963,
      "num_tokens": 192270766.0,
      "step": 1152
    },
    {
      "entropy": 1.727259635925293,
      "epoch": 0.12666501881299608,
      "grad_norm": 0.6742376089096069,
      "learning_rate": 1.9947919937483944e-05,
      "loss": 1.43,
      "mean_token_accuracy": 0.6421197056770325,
      "num_tokens": 192433846.0,
      "step": 1153
    },
    {
      "entropy": 1.81740140914917,
      "epoch": 0.12677487572436902,
      "grad_norm": 0.8998958468437195,
      "learning_rate": 1.9947747796626854e-05,
      "loss": 1.3927,
      "mean_token_accuracy": 0.653491660952568,
      "num_tokens": 192557670.0,
      "step": 1154
    },
    {
      "entropy": 1.7740411162376404,
      "epoch": 0.12688473263574196,
      "grad_norm": 0.7846980690956116,
      "learning_rate": 1.9947575372577583e-05,
      "loss": 1.3235,
      "mean_token_accuracy": 0.6758840531110764,
      "num_tokens": 192690479.0,
      "step": 1155
    },
    {
      "entropy": 1.765354762474696,
      "epoch": 0.12699458954711487,
      "grad_norm": 0.7348425388336182,
      "learning_rate": 1.994740266534158e-05,
      "loss": 1.3549,
      "mean_token_accuracy": 0.661831850806872,
      "num_tokens": 192830194.0,
      "step": 1156
    },
    {
      "entropy": 1.7395083606243134,
      "epoch": 0.1271044464584878,
      "grad_norm": 0.6277830600738525,
      "learning_rate": 1.9947229674924316e-05,
      "loss": 1.5185,
      "mean_token_accuracy": 0.6336728284756342,
      "num_tokens": 193034894.0,
      "step": 1157
    },
    {
      "entropy": 1.7037833829720814,
      "epoch": 0.12721430336986075,
      "grad_norm": 0.6423079967498779,
      "learning_rate": 1.9947056401331265e-05,
      "loss": 1.4111,
      "mean_token_accuracy": 0.6632378300031027,
      "num_tokens": 193280199.0,
      "step": 1158
    },
    {
      "entropy": 1.7469445566336315,
      "epoch": 0.1273241602812337,
      "grad_norm": 0.7091412544250488,
      "learning_rate": 1.9946882844567906e-05,
      "loss": 1.3312,
      "mean_token_accuracy": 0.6669044842322668,
      "num_tokens": 193443768.0,
      "step": 1159
    },
    {
      "entropy": 1.7258818745613098,
      "epoch": 0.12743401719260664,
      "grad_norm": 0.6195393800735474,
      "learning_rate": 1.994670900463974e-05,
      "loss": 1.3969,
      "mean_token_accuracy": 0.6519241978724798,
      "num_tokens": 193645217.0,
      "step": 1160
    },
    {
      "entropy": 1.7719605664412181,
      "epoch": 0.12754387410397958,
      "grad_norm": 0.6821731925010681,
      "learning_rate": 1.9946534881552266e-05,
      "loss": 1.3772,
      "mean_token_accuracy": 0.6459381332000097,
      "num_tokens": 193758088.0,
      "step": 1161
    },
    {
      "entropy": 1.7489538192749023,
      "epoch": 0.1276537310153525,
      "grad_norm": 0.6906759738922119,
      "learning_rate": 1.9946360475310993e-05,
      "loss": 1.4159,
      "mean_token_accuracy": 0.662546748916308,
      "num_tokens": 193951389.0,
      "step": 1162
    },
    {
      "entropy": 1.7279592752456665,
      "epoch": 0.12776358792672543,
      "grad_norm": 0.6182255148887634,
      "learning_rate": 1.9946185785921442e-05,
      "loss": 1.4738,
      "mean_token_accuracy": 0.6493389358123144,
      "num_tokens": 194166434.0,
      "step": 1163
    },
    {
      "entropy": 1.6567539076010387,
      "epoch": 0.12787344483809837,
      "grad_norm": 0.659775972366333,
      "learning_rate": 1.9946010813389143e-05,
      "loss": 1.1995,
      "mean_token_accuracy": 0.689688558379809,
      "num_tokens": 194303583.0,
      "step": 1164
    },
    {
      "entropy": 1.807248870531718,
      "epoch": 0.1279833017494713,
      "grad_norm": 0.6941498517990112,
      "learning_rate": 1.9945835557719632e-05,
      "loss": 1.4976,
      "mean_token_accuracy": 0.6428570051987966,
      "num_tokens": 194473880.0,
      "step": 1165
    },
    {
      "entropy": 1.7196752826372783,
      "epoch": 0.12809315866084425,
      "grad_norm": 0.6665788888931274,
      "learning_rate": 1.9945660018918456e-05,
      "loss": 1.467,
      "mean_token_accuracy": 0.6387737194697062,
      "num_tokens": 194655840.0,
      "step": 1166
    },
    {
      "entropy": 1.70614160100619,
      "epoch": 0.1282030155722172,
      "grad_norm": 0.7460064888000488,
      "learning_rate": 1.9945484196991173e-05,
      "loss": 1.4486,
      "mean_token_accuracy": 0.6422029336293539,
      "num_tokens": 194826668.0,
      "step": 1167
    },
    {
      "entropy": 1.713955005009969,
      "epoch": 0.12831287248359013,
      "grad_norm": 0.7533404231071472,
      "learning_rate": 1.9945308091943348e-05,
      "loss": 1.5628,
      "mean_token_accuracy": 0.656499852736791,
      "num_tokens": 195019203.0,
      "step": 1168
    },
    {
      "entropy": 1.7552619874477386,
      "epoch": 0.12842272939496305,
      "grad_norm": 0.9428662061691284,
      "learning_rate": 1.994513170378055e-05,
      "loss": 1.4442,
      "mean_token_accuracy": 0.6546032627423605,
      "num_tokens": 195199499.0,
      "step": 1169
    },
    {
      "entropy": 1.7821119626363118,
      "epoch": 0.128532586306336,
      "grad_norm": 0.7639563679695129,
      "learning_rate": 1.9944955032508365e-05,
      "loss": 1.4387,
      "mean_token_accuracy": 0.6538108189900717,
      "num_tokens": 195356654.0,
      "step": 1170
    },
    {
      "entropy": 1.7284887731075287,
      "epoch": 0.12864244321770893,
      "grad_norm": 2.3883559703826904,
      "learning_rate": 1.994477807813238e-05,
      "loss": 0.9387,
      "mean_token_accuracy": 0.6993002146482468,
      "num_tokens": 195492267.0,
      "step": 1171
    },
    {
      "entropy": 1.7171109517415364,
      "epoch": 0.12875230012908187,
      "grad_norm": 0.6380852460861206,
      "learning_rate": 1.9944600840658207e-05,
      "loss": 1.2273,
      "mean_token_accuracy": 0.6765789190928141,
      "num_tokens": 195647384.0,
      "step": 1172
    },
    {
      "entropy": 1.7350752850373585,
      "epoch": 0.1288621570404548,
      "grad_norm": 0.6649433374404907,
      "learning_rate": 1.9944423320091445e-05,
      "loss": 1.4263,
      "mean_token_accuracy": 0.6540283511082331,
      "num_tokens": 195798088.0,
      "step": 1173
    },
    {
      "entropy": 1.6744823853174846,
      "epoch": 0.12897201395182775,
      "grad_norm": 0.6647149920463562,
      "learning_rate": 1.9944245516437714e-05,
      "loss": 1.2886,
      "mean_token_accuracy": 0.6681593358516693,
      "num_tokens": 195964314.0,
      "step": 1174
    },
    {
      "entropy": 1.7713862359523773,
      "epoch": 0.1290818708632007,
      "grad_norm": 0.8901455998420715,
      "learning_rate": 1.9944067429702644e-05,
      "loss": 1.2277,
      "mean_token_accuracy": 0.6852303644021353,
      "num_tokens": 196078305.0,
      "step": 1175
    },
    {
      "entropy": 1.793348143498103,
      "epoch": 0.1291917277745736,
      "grad_norm": 0.8101892471313477,
      "learning_rate": 1.994388905989187e-05,
      "loss": 1.3155,
      "mean_token_accuracy": 0.6616990566253662,
      "num_tokens": 196179334.0,
      "step": 1176
    },
    {
      "entropy": 1.6949261128902435,
      "epoch": 0.12930158468594655,
      "grad_norm": 0.5549296736717224,
      "learning_rate": 1.9943710407011038e-05,
      "loss": 1.3279,
      "mean_token_accuracy": 0.6614242494106293,
      "num_tokens": 196345485.0,
      "step": 1177
    },
    {
      "entropy": 1.7543793419996898,
      "epoch": 0.1294114415973195,
      "grad_norm": 0.8616530299186707,
      "learning_rate": 1.9943531471065798e-05,
      "loss": 1.5046,
      "mean_token_accuracy": 0.6579241951306661,
      "num_tokens": 196497507.0,
      "step": 1178
    },
    {
      "entropy": 1.741701563199361,
      "epoch": 0.12952129850869243,
      "grad_norm": 0.7313582897186279,
      "learning_rate": 1.9943352252061818e-05,
      "loss": 1.418,
      "mean_token_accuracy": 0.6414368947347006,
      "num_tokens": 196674374.0,
      "step": 1179
    },
    {
      "entropy": 1.7809857726097107,
      "epoch": 0.12963115542006537,
      "grad_norm": 0.7206242680549622,
      "learning_rate": 1.9943172750004773e-05,
      "loss": 1.5279,
      "mean_token_accuracy": 0.6377990394830704,
      "num_tokens": 196852648.0,
      "step": 1180
    },
    {
      "entropy": 1.7742149730523427,
      "epoch": 0.1297410123314383,
      "grad_norm": 0.712735116481781,
      "learning_rate": 1.994299296490034e-05,
      "loss": 1.4867,
      "mean_token_accuracy": 0.6416104336579641,
      "num_tokens": 197005775.0,
      "step": 1181
    },
    {
      "entropy": 1.801190088192622,
      "epoch": 0.12985086924281125,
      "grad_norm": 0.7176236510276794,
      "learning_rate": 1.9942812896754206e-05,
      "loss": 1.535,
      "mean_token_accuracy": 0.6445636649926504,
      "num_tokens": 197172268.0,
      "step": 1182
    },
    {
      "entropy": 1.7565678854783375,
      "epoch": 0.12996072615418416,
      "grad_norm": 0.8221584558486938,
      "learning_rate": 1.9942632545572073e-05,
      "loss": 1.442,
      "mean_token_accuracy": 0.6304828822612762,
      "num_tokens": 197381956.0,
      "step": 1183
    },
    {
      "entropy": 1.7492178777853649,
      "epoch": 0.1300705830655571,
      "grad_norm": 0.569448709487915,
      "learning_rate": 1.9942451911359655e-05,
      "loss": 1.5449,
      "mean_token_accuracy": 0.6221815447012583,
      "num_tokens": 197666755.0,
      "step": 1184
    },
    {
      "entropy": 1.7311831414699554,
      "epoch": 0.13018043997693005,
      "grad_norm": 0.652637779712677,
      "learning_rate": 1.994227099412266e-05,
      "loss": 1.5645,
      "mean_token_accuracy": 0.637279137969017,
      "num_tokens": 197885096.0,
      "step": 1185
    },
    {
      "entropy": 1.7549742658933003,
      "epoch": 0.130290296888303,
      "grad_norm": 0.6172470450401306,
      "learning_rate": 1.994208979386682e-05,
      "loss": 1.471,
      "mean_token_accuracy": 0.6358410517374674,
      "num_tokens": 198047424.0,
      "step": 1186
    },
    {
      "entropy": 1.69119127591451,
      "epoch": 0.13040015379967593,
      "grad_norm": 0.572778582572937,
      "learning_rate": 1.9941908310597862e-05,
      "loss": 1.4412,
      "mean_token_accuracy": 0.6451299836238226,
      "num_tokens": 198258790.0,
      "step": 1187
    },
    {
      "entropy": 1.7269008060296376,
      "epoch": 0.13051001071104887,
      "grad_norm": 0.6882736682891846,
      "learning_rate": 1.994172654432154e-05,
      "loss": 1.4044,
      "mean_token_accuracy": 0.6471477945645651,
      "num_tokens": 198405031.0,
      "step": 1188
    },
    {
      "entropy": 1.8405869603157043,
      "epoch": 0.1306198676224218,
      "grad_norm": 0.7171852588653564,
      "learning_rate": 1.99415444950436e-05,
      "loss": 1.4245,
      "mean_token_accuracy": 0.6366102347771326,
      "num_tokens": 198536441.0,
      "step": 1189
    },
    {
      "entropy": 1.708700180053711,
      "epoch": 0.13072972453379472,
      "grad_norm": 0.6238212585449219,
      "learning_rate": 1.994136216276981e-05,
      "loss": 1.3952,
      "mean_token_accuracy": 0.6541391809781393,
      "num_tokens": 198771632.0,
      "step": 1190
    },
    {
      "entropy": 1.686782290538152,
      "epoch": 0.13083958144516766,
      "grad_norm": 0.6770201921463013,
      "learning_rate": 1.994117954750593e-05,
      "loss": 1.4392,
      "mean_token_accuracy": 0.6496217797199885,
      "num_tokens": 198940548.0,
      "step": 1191
    },
    {
      "entropy": 1.732615441083908,
      "epoch": 0.1309494383565406,
      "grad_norm": 0.635962724685669,
      "learning_rate": 1.994099664925775e-05,
      "loss": 1.4054,
      "mean_token_accuracy": 0.6503652880589167,
      "num_tokens": 199146118.0,
      "step": 1192
    },
    {
      "entropy": 1.6821688016255696,
      "epoch": 0.13105929526791354,
      "grad_norm": 0.6260414719581604,
      "learning_rate": 1.9940813468031056e-05,
      "loss": 1.5164,
      "mean_token_accuracy": 0.639798546830813,
      "num_tokens": 199337245.0,
      "step": 1193
    },
    {
      "entropy": 1.751666744550069,
      "epoch": 0.13116915217928649,
      "grad_norm": 0.6123976707458496,
      "learning_rate": 1.9940630003831644e-05,
      "loss": 1.6292,
      "mean_token_accuracy": 0.6407297352949778,
      "num_tokens": 199596254.0,
      "step": 1194
    },
    {
      "entropy": 1.74623238046964,
      "epoch": 0.13127900909065943,
      "grad_norm": 0.7188962697982788,
      "learning_rate": 1.9940446256665317e-05,
      "loss": 1.4197,
      "mean_token_accuracy": 0.6419958025217056,
      "num_tokens": 199772672.0,
      "step": 1195
    },
    {
      "entropy": 1.7535964945952098,
      "epoch": 0.13138886600203234,
      "grad_norm": 0.6890870928764343,
      "learning_rate": 1.99402622265379e-05,
      "loss": 1.3874,
      "mean_token_accuracy": 0.6490504443645477,
      "num_tokens": 199920027.0,
      "step": 1196
    },
    {
      "entropy": 1.7611814439296722,
      "epoch": 0.13149872291340528,
      "grad_norm": 0.8501882553100586,
      "learning_rate": 1.994007791345521e-05,
      "loss": 1.4224,
      "mean_token_accuracy": 0.6603156328201294,
      "num_tokens": 200084942.0,
      "step": 1197
    },
    {
      "entropy": 1.7293813327948253,
      "epoch": 0.13160857982477822,
      "grad_norm": 0.6405790448188782,
      "learning_rate": 1.9939893317423086e-05,
      "loss": 1.5273,
      "mean_token_accuracy": 0.6357795844475428,
      "num_tokens": 200288548.0,
      "step": 1198
    },
    {
      "entropy": 1.68119282523791,
      "epoch": 0.13171843673615116,
      "grad_norm": 0.6990883350372314,
      "learning_rate": 1.9939708438447357e-05,
      "loss": 1.1898,
      "mean_token_accuracy": 0.685491551955541,
      "num_tokens": 200429774.0,
      "step": 1199
    },
    {
      "entropy": 1.764894962310791,
      "epoch": 0.1318282936475241,
      "grad_norm": 0.629033088684082,
      "learning_rate": 1.9939523276533893e-05,
      "loss": 1.3889,
      "mean_token_accuracy": 0.6700173169374466,
      "num_tokens": 200570651.0,
      "step": 1200
    },
    {
      "entropy": 1.7846981485684712,
      "epoch": 0.13193815055889704,
      "grad_norm": 0.646364688873291,
      "learning_rate": 1.9939337831688544e-05,
      "loss": 1.5205,
      "mean_token_accuracy": 0.6368842373291651,
      "num_tokens": 200748458.0,
      "step": 1201
    },
    {
      "entropy": 1.7097224394480388,
      "epoch": 0.13204800747026998,
      "grad_norm": 0.641553521156311,
      "learning_rate": 1.993915210391718e-05,
      "loss": 1.5153,
      "mean_token_accuracy": 0.650927260518074,
      "num_tokens": 200931234.0,
      "step": 1202
    },
    {
      "entropy": 1.7454093396663666,
      "epoch": 0.1321578643816429,
      "grad_norm": 0.8706952333450317,
      "learning_rate": 1.9938966093225683e-05,
      "loss": 1.3199,
      "mean_token_accuracy": 0.6697538246711096,
      "num_tokens": 201066141.0,
      "step": 1203
    },
    {
      "entropy": 1.7411855657895405,
      "epoch": 0.13226772129301584,
      "grad_norm": 0.6181418895721436,
      "learning_rate": 1.993877979961993e-05,
      "loss": 1.3747,
      "mean_token_accuracy": 0.6520515978336334,
      "num_tokens": 201257542.0,
      "step": 1204
    },
    {
      "entropy": 1.7680325210094452,
      "epoch": 0.13237757820438878,
      "grad_norm": 0.7731313109397888,
      "learning_rate": 1.993859322310583e-05,
      "loss": 1.5037,
      "mean_token_accuracy": 0.6352165639400482,
      "num_tokens": 201434347.0,
      "step": 1205
    },
    {
      "entropy": 1.710806429386139,
      "epoch": 0.13248743511576172,
      "grad_norm": 0.7883396148681641,
      "learning_rate": 1.993840636368928e-05,
      "loss": 1.4203,
      "mean_token_accuracy": 0.6624042391777039,
      "num_tokens": 201612352.0,
      "step": 1206
    },
    {
      "entropy": 1.7501719494660695,
      "epoch": 0.13259729202713466,
      "grad_norm": 0.6519463062286377,
      "learning_rate": 1.9938219221376198e-05,
      "loss": 1.343,
      "mean_token_accuracy": 0.656904548406601,
      "num_tokens": 201805098.0,
      "step": 1207
    },
    {
      "entropy": 1.6922560433546703,
      "epoch": 0.1327071489385076,
      "grad_norm": 0.6619210243225098,
      "learning_rate": 1.9938031796172504e-05,
      "loss": 1.4414,
      "mean_token_accuracy": 0.6696604192256927,
      "num_tokens": 201974466.0,
      "step": 1208
    },
    {
      "entropy": 1.7348144352436066,
      "epoch": 0.13281700584988054,
      "grad_norm": 0.7165763974189758,
      "learning_rate": 1.993784408808413e-05,
      "loss": 1.422,
      "mean_token_accuracy": 0.6480233718951544,
      "num_tokens": 202120925.0,
      "step": 1209
    },
    {
      "entropy": 1.6581164697806041,
      "epoch": 0.13292686276125346,
      "grad_norm": 0.6778578162193298,
      "learning_rate": 1.993765609711702e-05,
      "loss": 1.4294,
      "mean_token_accuracy": 0.6534278045097986,
      "num_tokens": 202282750.0,
      "step": 1210
    },
    {
      "entropy": 1.6809436281522114,
      "epoch": 0.1330367196726264,
      "grad_norm": 0.7304653525352478,
      "learning_rate": 1.9937467823277122e-05,
      "loss": 1.4323,
      "mean_token_accuracy": 0.6725066850582758,
      "num_tokens": 202462082.0,
      "step": 1211
    },
    {
      "entropy": 1.6749194264411926,
      "epoch": 0.13314657658399934,
      "grad_norm": 0.8034223914146423,
      "learning_rate": 1.9937279266570395e-05,
      "loss": 1.4945,
      "mean_token_accuracy": 0.6492439856131872,
      "num_tokens": 202629513.0,
      "step": 1212
    },
    {
      "entropy": 1.7574256658554077,
      "epoch": 0.13325643349537228,
      "grad_norm": 0.741016149520874,
      "learning_rate": 1.9937090427002806e-05,
      "loss": 1.3436,
      "mean_token_accuracy": 0.6710640490055084,
      "num_tokens": 202774386.0,
      "step": 1213
    },
    {
      "entropy": 1.7507571478684743,
      "epoch": 0.13336629040674522,
      "grad_norm": 0.7227981686592102,
      "learning_rate": 1.993690130458033e-05,
      "loss": 1.4202,
      "mean_token_accuracy": 0.6539425303538641,
      "num_tokens": 202919220.0,
      "step": 1214
    },
    {
      "entropy": 1.784160981575648,
      "epoch": 0.13347614731811816,
      "grad_norm": 0.7705137133598328,
      "learning_rate": 1.993671189930896e-05,
      "loss": 1.3467,
      "mean_token_accuracy": 0.6598477313915888,
      "num_tokens": 203027863.0,
      "step": 1215
    },
    {
      "entropy": 1.642378608385722,
      "epoch": 0.1335860042294911,
      "grad_norm": 0.5922091603279114,
      "learning_rate": 1.993652221119468e-05,
      "loss": 1.232,
      "mean_token_accuracy": 0.6796272893746694,
      "num_tokens": 203157757.0,
      "step": 1216
    },
    {
      "entropy": 1.8348711729049683,
      "epoch": 0.13369586114086401,
      "grad_norm": 0.6379344463348389,
      "learning_rate": 1.9936332240243503e-05,
      "loss": 1.516,
      "mean_token_accuracy": 0.6400525023539861,
      "num_tokens": 203348155.0,
      "step": 1217
    },
    {
      "entropy": 1.695642501115799,
      "epoch": 0.13380571805223695,
      "grad_norm": 0.6818593740463257,
      "learning_rate": 1.9936141986461434e-05,
      "loss": 1.3798,
      "mean_token_accuracy": 0.6709787100553513,
      "num_tokens": 203499917.0,
      "step": 1218
    },
    {
      "entropy": 1.7197688619295757,
      "epoch": 0.1339155749636099,
      "grad_norm": 0.6506553292274475,
      "learning_rate": 1.9935951449854502e-05,
      "loss": 1.5437,
      "mean_token_accuracy": 0.6586721042792002,
      "num_tokens": 203678606.0,
      "step": 1219
    },
    {
      "entropy": 1.6951692700386047,
      "epoch": 0.13402543187498284,
      "grad_norm": 0.7173891067504883,
      "learning_rate": 1.993576063042873e-05,
      "loss": 1.3165,
      "mean_token_accuracy": 0.6613740225632986,
      "num_tokens": 203802059.0,
      "step": 1220
    },
    {
      "entropy": 1.7536791861057281,
      "epoch": 0.13413528878635578,
      "grad_norm": 0.8501359820365906,
      "learning_rate": 1.993556952819016e-05,
      "loss": 1.3935,
      "mean_token_accuracy": 0.6629123538732529,
      "num_tokens": 203961628.0,
      "step": 1221
    },
    {
      "entropy": 1.7680688103040059,
      "epoch": 0.13424514569772872,
      "grad_norm": 0.5954765677452087,
      "learning_rate": 1.993537814314484e-05,
      "loss": 1.386,
      "mean_token_accuracy": 0.660725419720014,
      "num_tokens": 204138349.0,
      "step": 1222
    },
    {
      "entropy": 1.8008166750272114,
      "epoch": 0.13435500260910163,
      "grad_norm": 0.7124298214912415,
      "learning_rate": 1.993518647529883e-05,
      "loss": 1.5329,
      "mean_token_accuracy": 0.6388672788937887,
      "num_tokens": 204301649.0,
      "step": 1223
    },
    {
      "entropy": 1.780760755141576,
      "epoch": 0.13446485952047457,
      "grad_norm": 0.6755843162536621,
      "learning_rate": 1.9934994524658196e-05,
      "loss": 1.3597,
      "mean_token_accuracy": 0.6550761957963308,
      "num_tokens": 204474630.0,
      "step": 1224
    },
    {
      "entropy": 1.7628767291704814,
      "epoch": 0.1345747164318475,
      "grad_norm": 0.6415227651596069,
      "learning_rate": 1.993480229122901e-05,
      "loss": 1.5455,
      "mean_token_accuracy": 0.6402927239735922,
      "num_tokens": 204680151.0,
      "step": 1225
    },
    {
      "entropy": 1.723549763361613,
      "epoch": 0.13468457334322045,
      "grad_norm": 0.605971097946167,
      "learning_rate": 1.9934609775017357e-05,
      "loss": 1.5025,
      "mean_token_accuracy": 0.6315073023239771,
      "num_tokens": 204876536.0,
      "step": 1226
    },
    {
      "entropy": 1.711145242055257,
      "epoch": 0.1347944302545934,
      "grad_norm": 0.696202278137207,
      "learning_rate": 1.993441697602933e-05,
      "loss": 1.4026,
      "mean_token_accuracy": 0.6470880806446075,
      "num_tokens": 205090640.0,
      "step": 1227
    },
    {
      "entropy": 1.7900481621424358,
      "epoch": 0.13490428716596634,
      "grad_norm": 0.7666972875595093,
      "learning_rate": 1.9934223894271035e-05,
      "loss": 1.4558,
      "mean_token_accuracy": 0.6359467854102453,
      "num_tokens": 205354906.0,
      "step": 1228
    },
    {
      "entropy": 1.7724877794583638,
      "epoch": 0.13501414407733928,
      "grad_norm": 0.6311783790588379,
      "learning_rate": 1.993403052974858e-05,
      "loss": 1.444,
      "mean_token_accuracy": 0.6428662339846293,
      "num_tokens": 205529189.0,
      "step": 1229
    },
    {
      "entropy": 1.7515977422396343,
      "epoch": 0.1351240009887122,
      "grad_norm": 0.706529974937439,
      "learning_rate": 1.993383688246808e-05,
      "loss": 1.3015,
      "mean_token_accuracy": 0.6625747283299764,
      "num_tokens": 205683718.0,
      "step": 1230
    },
    {
      "entropy": 1.7582630415757496,
      "epoch": 0.13523385790008513,
      "grad_norm": 0.6772528886795044,
      "learning_rate": 1.993364295243567e-05,
      "loss": 1.405,
      "mean_token_accuracy": 0.6459440638621649,
      "num_tokens": 205812951.0,
      "step": 1231
    },
    {
      "entropy": 1.7285764515399933,
      "epoch": 0.13534371481145807,
      "grad_norm": 0.6248936057090759,
      "learning_rate": 1.9933448739657487e-05,
      "loss": 1.3699,
      "mean_token_accuracy": 0.6622784286737442,
      "num_tokens": 205944308.0,
      "step": 1232
    },
    {
      "entropy": 1.6804889539877574,
      "epoch": 0.135453571722831,
      "grad_norm": 0.8179889917373657,
      "learning_rate": 1.9933254244139675e-05,
      "loss": 1.341,
      "mean_token_accuracy": 0.6590113043785095,
      "num_tokens": 206136941.0,
      "step": 1233
    },
    {
      "entropy": 1.7611981630325317,
      "epoch": 0.13556342863420395,
      "grad_norm": 0.7938576340675354,
      "learning_rate": 1.9933059465888394e-05,
      "loss": 1.4829,
      "mean_token_accuracy": 0.6553379346927007,
      "num_tokens": 206305282.0,
      "step": 1234
    },
    {
      "entropy": 1.7320065299669902,
      "epoch": 0.1356732855455769,
      "grad_norm": 0.6579363942146301,
      "learning_rate": 1.9932864404909808e-05,
      "loss": 1.399,
      "mean_token_accuracy": 0.6568387846151987,
      "num_tokens": 206530940.0,
      "step": 1235
    },
    {
      "entropy": 1.8249189853668213,
      "epoch": 0.13578314245694983,
      "grad_norm": 0.6946649551391602,
      "learning_rate": 1.9932669061210082e-05,
      "loss": 1.4977,
      "mean_token_accuracy": 0.6561338355143865,
      "num_tokens": 206728889.0,
      "step": 1236
    },
    {
      "entropy": 1.7712652484575908,
      "epoch": 0.13589299936832275,
      "grad_norm": 0.8788438439369202,
      "learning_rate": 1.993247343479541e-05,
      "loss": 1.2986,
      "mean_token_accuracy": 0.6657395313183466,
      "num_tokens": 206838081.0,
      "step": 1237
    },
    {
      "entropy": 1.7870614627997081,
      "epoch": 0.1360028562796957,
      "grad_norm": 0.9152439832687378,
      "learning_rate": 1.993227752567198e-05,
      "loss": 1.4701,
      "mean_token_accuracy": 0.648246243596077,
      "num_tokens": 206974371.0,
      "step": 1238
    },
    {
      "entropy": 1.7998821139335632,
      "epoch": 0.13611271319106863,
      "grad_norm": 0.6228598952293396,
      "learning_rate": 1.9932081333845988e-05,
      "loss": 1.3967,
      "mean_token_accuracy": 0.6436318705479304,
      "num_tokens": 207125473.0,
      "step": 1239
    },
    {
      "entropy": 1.7932134866714478,
      "epoch": 0.13622257010244157,
      "grad_norm": 0.8686763048171997,
      "learning_rate": 1.993188485932365e-05,
      "loss": 1.6097,
      "mean_token_accuracy": 0.6425013393163681,
      "num_tokens": 207272468.0,
      "step": 1240
    },
    {
      "entropy": 1.7816320955753326,
      "epoch": 0.1363324270138145,
      "grad_norm": 0.8052454590797424,
      "learning_rate": 1.993168810211118e-05,
      "loss": 1.2604,
      "mean_token_accuracy": 0.6674903134504954,
      "num_tokens": 207394408.0,
      "step": 1241
    },
    {
      "entropy": 1.7591705024242401,
      "epoch": 0.13644228392518745,
      "grad_norm": 0.8733900189399719,
      "learning_rate": 1.9931491062214806e-05,
      "loss": 1.326,
      "mean_token_accuracy": 0.670804500579834,
      "num_tokens": 207520568.0,
      "step": 1242
    },
    {
      "entropy": 1.7159309188524883,
      "epoch": 0.1365521408365604,
      "grad_norm": 0.6903548240661621,
      "learning_rate": 1.993129373964076e-05,
      "loss": 1.4192,
      "mean_token_accuracy": 0.668173685669899,
      "num_tokens": 207663994.0,
      "step": 1243
    },
    {
      "entropy": 1.7172527611255646,
      "epoch": 0.1366619977479333,
      "grad_norm": 0.8254104256629944,
      "learning_rate": 1.9931096134395298e-05,
      "loss": 1.366,
      "mean_token_accuracy": 0.664167582988739,
      "num_tokens": 207861655.0,
      "step": 1244
    },
    {
      "entropy": 1.7482962310314178,
      "epoch": 0.13677185465930625,
      "grad_norm": 0.805140495300293,
      "learning_rate": 1.9930898246484664e-05,
      "loss": 1.4019,
      "mean_token_accuracy": 0.6474734991788864,
      "num_tokens": 208035591.0,
      "step": 1245
    },
    {
      "entropy": 1.7081841230392456,
      "epoch": 0.1368817115706792,
      "grad_norm": 0.7142578959465027,
      "learning_rate": 1.9930700075915127e-05,
      "loss": 1.4685,
      "mean_token_accuracy": 0.6366176108519236,
      "num_tokens": 208215389.0,
      "step": 1246
    },
    {
      "entropy": 1.7701348463694255,
      "epoch": 0.13699156848205213,
      "grad_norm": 0.6305694580078125,
      "learning_rate": 1.9930501622692955e-05,
      "loss": 1.4108,
      "mean_token_accuracy": 0.6463577598333359,
      "num_tokens": 208432404.0,
      "step": 1247
    },
    {
      "entropy": 1.805136779944102,
      "epoch": 0.13710142539342507,
      "grad_norm": 0.9272505640983582,
      "learning_rate": 1.9930302886824434e-05,
      "loss": 1.4094,
      "mean_token_accuracy": 0.641325443983078,
      "num_tokens": 208584833.0,
      "step": 1248
    },
    {
      "entropy": 1.760273923476537,
      "epoch": 0.137211282304798,
      "grad_norm": 0.6633432507514954,
      "learning_rate": 1.9930103868315845e-05,
      "loss": 1.3002,
      "mean_token_accuracy": 0.6639900704224905,
      "num_tokens": 208717845.0,
      "step": 1249
    },
    {
      "entropy": 1.688180943330129,
      "epoch": 0.13732113921617095,
      "grad_norm": 0.662477433681488,
      "learning_rate": 1.99299045671735e-05,
      "loss": 1.5009,
      "mean_token_accuracy": 0.6593229522307714,
      "num_tokens": 208926014.0,
      "step": 1250
    },
    {
      "entropy": 1.8261633117993672,
      "epoch": 0.13743099612754386,
      "grad_norm": 0.8224329948425293,
      "learning_rate": 1.9929704983403694e-05,
      "loss": 1.2925,
      "mean_token_accuracy": 0.6615334004163742,
      "num_tokens": 209031355.0,
      "step": 1251
    },
    {
      "entropy": 1.7323819696903229,
      "epoch": 0.1375408530389168,
      "grad_norm": 0.5979375243186951,
      "learning_rate": 1.9929505117012753e-05,
      "loss": 1.5184,
      "mean_token_accuracy": 0.6293915957212448,
      "num_tokens": 209224580.0,
      "step": 1252
    },
    {
      "entropy": 1.6968580385049183,
      "epoch": 0.13765070995028975,
      "grad_norm": 0.6671169996261597,
      "learning_rate": 1.9929304968006996e-05,
      "loss": 1.3719,
      "mean_token_accuracy": 0.6572729150454203,
      "num_tokens": 209431303.0,
      "step": 1253
    },
    {
      "entropy": 1.7308607598145802,
      "epoch": 0.1377605668616627,
      "grad_norm": 0.7142148017883301,
      "learning_rate": 1.992910453639276e-05,
      "loss": 1.4229,
      "mean_token_accuracy": 0.6546590526898702,
      "num_tokens": 209596420.0,
      "step": 1254
    },
    {
      "entropy": 1.787158230940501,
      "epoch": 0.13787042377303563,
      "grad_norm": 0.6323195695877075,
      "learning_rate": 1.9928903822176392e-05,
      "loss": 1.5243,
      "mean_token_accuracy": 0.6278480341037115,
      "num_tokens": 209779786.0,
      "step": 1255
    },
    {
      "entropy": 1.6387408177057903,
      "epoch": 0.13798028068440857,
      "grad_norm": 3.0804104804992676,
      "learning_rate": 1.992870282536424e-05,
      "loss": 1.4143,
      "mean_token_accuracy": 0.6523379882176717,
      "num_tokens": 209938901.0,
      "step": 1256
    },
    {
      "entropy": 1.7122711837291718,
      "epoch": 0.13809013759578148,
      "grad_norm": 0.669571042060852,
      "learning_rate": 1.9928501545962666e-05,
      "loss": 1.3667,
      "mean_token_accuracy": 0.6676834921042124,
      "num_tokens": 210133192.0,
      "step": 1257
    },
    {
      "entropy": 1.8118088046709697,
      "epoch": 0.13819999450715442,
      "grad_norm": 0.7653446197509766,
      "learning_rate": 1.992829998397804e-05,
      "loss": 1.5617,
      "mean_token_accuracy": 0.6499693269530932,
      "num_tokens": 210305749.0,
      "step": 1258
    },
    {
      "entropy": 1.7411625186602275,
      "epoch": 0.13830985141852736,
      "grad_norm": 0.7534335255622864,
      "learning_rate": 1.9928098139416745e-05,
      "loss": 1.457,
      "mean_token_accuracy": 0.6617699215809504,
      "num_tokens": 210448909.0,
      "step": 1259
    },
    {
      "entropy": 1.742474267880122,
      "epoch": 0.1384197083299003,
      "grad_norm": 0.6153781414031982,
      "learning_rate": 1.9927896012285168e-05,
      "loss": 1.4539,
      "mean_token_accuracy": 0.6413547496000925,
      "num_tokens": 210620811.0,
      "step": 1260
    },
    {
      "entropy": 1.7018092572689056,
      "epoch": 0.13852956524127324,
      "grad_norm": 0.6760329008102417,
      "learning_rate": 1.99276936025897e-05,
      "loss": 1.3766,
      "mean_token_accuracy": 0.6578912138938904,
      "num_tokens": 210781045.0,
      "step": 1261
    },
    {
      "entropy": 1.7072451611359913,
      "epoch": 0.13863942215264619,
      "grad_norm": 0.6856552958488464,
      "learning_rate": 1.992749091033676e-05,
      "loss": 1.3279,
      "mean_token_accuracy": 0.6731646209955215,
      "num_tokens": 210906125.0,
      "step": 1262
    },
    {
      "entropy": 1.758314996957779,
      "epoch": 0.13874927906401913,
      "grad_norm": 0.7295485138893127,
      "learning_rate": 1.9927287935532748e-05,
      "loss": 1.6247,
      "mean_token_accuracy": 0.6324874858061472,
      "num_tokens": 211094941.0,
      "step": 1263
    },
    {
      "entropy": 1.7821235358715057,
      "epoch": 0.13885913597539204,
      "grad_norm": 0.7965490221977234,
      "learning_rate": 1.99270846781841e-05,
      "loss": 1.4094,
      "mean_token_accuracy": 0.654320701956749,
      "num_tokens": 211215450.0,
      "step": 1264
    },
    {
      "entropy": 1.7328162292639415,
      "epoch": 0.13896899288676498,
      "grad_norm": 0.7370543479919434,
      "learning_rate": 1.9926881138297246e-05,
      "loss": 1.4465,
      "mean_token_accuracy": 0.6546304225921631,
      "num_tokens": 211399399.0,
      "step": 1265
    },
    {
      "entropy": 1.7225729425748189,
      "epoch": 0.13907884979813792,
      "grad_norm": 0.7675600051879883,
      "learning_rate": 1.9926677315878624e-05,
      "loss": 1.2386,
      "mean_token_accuracy": 0.6786759148041407,
      "num_tokens": 211565381.0,
      "step": 1266
    },
    {
      "entropy": 1.8305182953675587,
      "epoch": 0.13918870670951086,
      "grad_norm": 0.710245668888092,
      "learning_rate": 1.9926473210934686e-05,
      "loss": 1.5366,
      "mean_token_accuracy": 0.6416638592878977,
      "num_tokens": 211706810.0,
      "step": 1267
    },
    {
      "entropy": 1.773509681224823,
      "epoch": 0.1392985636208838,
      "grad_norm": 0.6955118775367737,
      "learning_rate": 1.9926268823471894e-05,
      "loss": 1.4023,
      "mean_token_accuracy": 0.6475071211655935,
      "num_tokens": 211901076.0,
      "step": 1268
    },
    {
      "entropy": 1.7048786679903667,
      "epoch": 0.13940842053225674,
      "grad_norm": 0.6570739150047302,
      "learning_rate": 1.992606415349672e-05,
      "loss": 1.3676,
      "mean_token_accuracy": 0.6701171100139618,
      "num_tokens": 212066863.0,
      "step": 1269
    },
    {
      "entropy": 1.7483859062194824,
      "epoch": 0.13951827744362968,
      "grad_norm": 0.6274306774139404,
      "learning_rate": 1.9925859201015633e-05,
      "loss": 1.4419,
      "mean_token_accuracy": 0.649980386098226,
      "num_tokens": 212264417.0,
      "step": 1270
    },
    {
      "entropy": 1.6661617755889893,
      "epoch": 0.1396281343550026,
      "grad_norm": 0.8265875577926636,
      "learning_rate": 1.9925653966035126e-05,
      "loss": 1.1776,
      "mean_token_accuracy": 0.6817067364851633,
      "num_tokens": 212372748.0,
      "step": 1271
    },
    {
      "entropy": 1.7644007603327434,
      "epoch": 0.13973799126637554,
      "grad_norm": 0.653523862361908,
      "learning_rate": 1.992544844856169e-05,
      "loss": 1.3228,
      "mean_token_accuracy": 0.6687373667955399,
      "num_tokens": 212509269.0,
      "step": 1272
    },
    {
      "entropy": 1.750530868768692,
      "epoch": 0.13984784817774848,
      "grad_norm": 0.7181108593940735,
      "learning_rate": 1.9925242648601837e-05,
      "loss": 1.5806,
      "mean_token_accuracy": 0.6340227698286375,
      "num_tokens": 212692270.0,
      "step": 1273
    },
    {
      "entropy": 1.7549054125944774,
      "epoch": 0.13995770508912142,
      "grad_norm": 0.7157692909240723,
      "learning_rate": 1.992503656616208e-05,
      "loss": 1.3865,
      "mean_token_accuracy": 0.6512027333180109,
      "num_tokens": 212868340.0,
      "step": 1274
    },
    {
      "entropy": 1.7521459460258484,
      "epoch": 0.14006756200049436,
      "grad_norm": 0.8038479089736938,
      "learning_rate": 1.9924830201248928e-05,
      "loss": 1.3245,
      "mean_token_accuracy": 0.6748414585987726,
      "num_tokens": 212980640.0,
      "step": 1275
    },
    {
      "entropy": 1.7466616133848827,
      "epoch": 0.1401774189118673,
      "grad_norm": 0.6825430989265442,
      "learning_rate": 1.9924623553868927e-05,
      "loss": 1.3675,
      "mean_token_accuracy": 0.6585159202416738,
      "num_tokens": 213130813.0,
      "step": 1276
    },
    {
      "entropy": 1.7830199599266052,
      "epoch": 0.14028727582324024,
      "grad_norm": 0.7503454089164734,
      "learning_rate": 1.992441662402861e-05,
      "loss": 1.3358,
      "mean_token_accuracy": 0.6596743067105612,
      "num_tokens": 213304286.0,
      "step": 1277
    },
    {
      "entropy": 1.7447825769583385,
      "epoch": 0.14039713273461316,
      "grad_norm": 0.7130751013755798,
      "learning_rate": 1.9924209411734526e-05,
      "loss": 1.5629,
      "mean_token_accuracy": 0.6291346848011017,
      "num_tokens": 213532550.0,
      "step": 1278
    },
    {
      "entropy": 1.8167424301306407,
      "epoch": 0.1405069896459861,
      "grad_norm": 0.7561038732528687,
      "learning_rate": 1.9924001916993238e-05,
      "loss": 1.4062,
      "mean_token_accuracy": 0.6401105572779974,
      "num_tokens": 213737731.0,
      "step": 1279
    },
    {
      "entropy": 1.7469572722911835,
      "epoch": 0.14061684655735904,
      "grad_norm": 0.7100579142570496,
      "learning_rate": 1.9923794139811313e-05,
      "loss": 1.4572,
      "mean_token_accuracy": 0.6476842015981674,
      "num_tokens": 213912106.0,
      "step": 1280
    },
    {
      "entropy": 1.7979302604993184,
      "epoch": 0.14072670346873198,
      "grad_norm": 0.6927300691604614,
      "learning_rate": 1.9923586080195323e-05,
      "loss": 1.36,
      "mean_token_accuracy": 0.6531442552804947,
      "num_tokens": 214069371.0,
      "step": 1281
    },
    {
      "entropy": 1.6450412273406982,
      "epoch": 0.14083656038010492,
      "grad_norm": 0.689548671245575,
      "learning_rate": 1.9923377738151856e-05,
      "loss": 1.2596,
      "mean_token_accuracy": 0.6867117385069529,
      "num_tokens": 214201260.0,
      "step": 1282
    },
    {
      "entropy": 1.762027770280838,
      "epoch": 0.14094641729147786,
      "grad_norm": 0.709928572177887,
      "learning_rate": 1.9923169113687503e-05,
      "loss": 1.5263,
      "mean_token_accuracy": 0.6340511639912924,
      "num_tokens": 214406160.0,
      "step": 1283
    },
    {
      "entropy": 1.7095829248428345,
      "epoch": 0.14105627420285077,
      "grad_norm": 8.520343780517578,
      "learning_rate": 1.9922960206808867e-05,
      "loss": 1.0589,
      "mean_token_accuracy": 0.6897023518880209,
      "num_tokens": 214592081.0,
      "step": 1284
    },
    {
      "entropy": 1.7550367613633473,
      "epoch": 0.14116613111422371,
      "grad_norm": 0.6775065064430237,
      "learning_rate": 1.992275101752256e-05,
      "loss": 1.4911,
      "mean_token_accuracy": 0.6530732462803522,
      "num_tokens": 214764303.0,
      "step": 1285
    },
    {
      "entropy": 1.7507551113764446,
      "epoch": 0.14127598802559665,
      "grad_norm": 0.6907753944396973,
      "learning_rate": 1.992254154583521e-05,
      "loss": 1.4727,
      "mean_token_accuracy": 0.6412150710821152,
      "num_tokens": 214920143.0,
      "step": 1286
    },
    {
      "entropy": 1.7401640017827351,
      "epoch": 0.1413858449369696,
      "grad_norm": 0.7834397554397583,
      "learning_rate": 1.9922331791753435e-05,
      "loss": 1.3464,
      "mean_token_accuracy": 0.6618963032960892,
      "num_tokens": 215046344.0,
      "step": 1287
    },
    {
      "entropy": 1.7570099631945293,
      "epoch": 0.14149570184834254,
      "grad_norm": 0.70011967420578,
      "learning_rate": 1.992212175528388e-05,
      "loss": 1.3707,
      "mean_token_accuracy": 0.6539260894060135,
      "num_tokens": 215180311.0,
      "step": 1288
    },
    {
      "entropy": 1.6938535173734028,
      "epoch": 0.14160555875971548,
      "grad_norm": 0.7015315294265747,
      "learning_rate": 1.9921911436433194e-05,
      "loss": 1.5209,
      "mean_token_accuracy": 0.6413632233937582,
      "num_tokens": 215372204.0,
      "step": 1289
    },
    {
      "entropy": 1.7938569088776906,
      "epoch": 0.14171541567108842,
      "grad_norm": 0.6672449707984924,
      "learning_rate": 1.992170083520803e-05,
      "loss": 1.4559,
      "mean_token_accuracy": 0.6347246567408243,
      "num_tokens": 215554411.0,
      "step": 1290
    },
    {
      "entropy": 1.7035801708698273,
      "epoch": 0.14182527258246133,
      "grad_norm": 0.8814971446990967,
      "learning_rate": 1.9921489951615057e-05,
      "loss": 1.3534,
      "mean_token_accuracy": 0.6513211578130722,
      "num_tokens": 215689080.0,
      "step": 1291
    },
    {
      "entropy": 1.7192172209421794,
      "epoch": 0.14193512949383427,
      "grad_norm": 0.690263569355011,
      "learning_rate": 1.9921278785660946e-05,
      "loss": 1.4102,
      "mean_token_accuracy": 0.6569246202707291,
      "num_tokens": 215849803.0,
      "step": 1292
    },
    {
      "entropy": 1.7479885419209797,
      "epoch": 0.1420449864052072,
      "grad_norm": 0.6556616425514221,
      "learning_rate": 1.9921067337352384e-05,
      "loss": 1.4046,
      "mean_token_accuracy": 0.6546976268291473,
      "num_tokens": 216019645.0,
      "step": 1293
    },
    {
      "entropy": 1.7502675553162892,
      "epoch": 0.14215484331658015,
      "grad_norm": 0.7258479595184326,
      "learning_rate": 1.9920855606696054e-05,
      "loss": 1.5266,
      "mean_token_accuracy": 0.6518742392460505,
      "num_tokens": 216187505.0,
      "step": 1294
    },
    {
      "entropy": 1.7436367273330688,
      "epoch": 0.1422647002279531,
      "grad_norm": 0.8124620914459229,
      "learning_rate": 1.992064359369867e-05,
      "loss": 1.3587,
      "mean_token_accuracy": 0.6601897577444712,
      "num_tokens": 216323904.0,
      "step": 1295
    },
    {
      "entropy": 1.706505278746287,
      "epoch": 0.14237455713932604,
      "grad_norm": 0.7671903371810913,
      "learning_rate": 1.992043129836693e-05,
      "loss": 1.2957,
      "mean_token_accuracy": 0.6700823853413264,
      "num_tokens": 216450218.0,
      "step": 1296
    },
    {
      "entropy": 1.6708903312683105,
      "epoch": 0.14248441405069898,
      "grad_norm": 0.6247614026069641,
      "learning_rate": 1.9920218720707563e-05,
      "loss": 1.2455,
      "mean_token_accuracy": 0.683778112133344,
      "num_tokens": 216583167.0,
      "step": 1297
    },
    {
      "entropy": 1.755852033694585,
      "epoch": 0.1425942709620719,
      "grad_norm": 0.8267444968223572,
      "learning_rate": 1.992000586072729e-05,
      "loss": 1.2248,
      "mean_token_accuracy": 0.6767070343097051,
      "num_tokens": 216706610.0,
      "step": 1298
    },
    {
      "entropy": 1.7532562911510468,
      "epoch": 0.14270412787344483,
      "grad_norm": 0.7160501480102539,
      "learning_rate": 1.9919792718432858e-05,
      "loss": 1.4451,
      "mean_token_accuracy": 0.6385903209447861,
      "num_tokens": 216851311.0,
      "step": 1299
    },
    {
      "entropy": 1.7782372931639354,
      "epoch": 0.14281398478481777,
      "grad_norm": 0.8023732900619507,
      "learning_rate": 1.9919579293831e-05,
      "loss": 1.4043,
      "mean_token_accuracy": 0.6392123301823934,
      "num_tokens": 217002266.0,
      "step": 1300
    },
    {
      "entropy": 1.7266008655230205,
      "epoch": 0.1429238416961907,
      "grad_norm": 0.706461489200592,
      "learning_rate": 1.9919365586928477e-05,
      "loss": 1.431,
      "mean_token_accuracy": 0.6418863981962204,
      "num_tokens": 217151987.0,
      "step": 1301
    },
    {
      "entropy": 1.6731161773204803,
      "epoch": 0.14303369860756365,
      "grad_norm": 0.5926313400268555,
      "learning_rate": 1.9919151597732055e-05,
      "loss": 1.5354,
      "mean_token_accuracy": 0.6458988140026728,
      "num_tokens": 217370579.0,
      "step": 1302
    },
    {
      "entropy": 1.7368605931599934,
      "epoch": 0.1431435555189366,
      "grad_norm": 0.7459754943847656,
      "learning_rate": 1.9918937326248503e-05,
      "loss": 1.3562,
      "mean_token_accuracy": 0.6788886686166128,
      "num_tokens": 217495749.0,
      "step": 1303
    },
    {
      "entropy": 1.77315154671669,
      "epoch": 0.14325341243030953,
      "grad_norm": 0.9817308187484741,
      "learning_rate": 1.99187227724846e-05,
      "loss": 1.4833,
      "mean_token_accuracy": 0.6524508446455002,
      "num_tokens": 217617122.0,
      "step": 1304
    },
    {
      "entropy": 1.6556137005488079,
      "epoch": 0.14336326934168245,
      "grad_norm": 0.6126701235771179,
      "learning_rate": 1.9918507936447146e-05,
      "loss": 1.3457,
      "mean_token_accuracy": 0.657344122727712,
      "num_tokens": 217822669.0,
      "step": 1305
    },
    {
      "entropy": 1.7017977635065715,
      "epoch": 0.1434731262530554,
      "grad_norm": 0.8157427906990051,
      "learning_rate": 1.9918292818142934e-05,
      "loss": 1.3017,
      "mean_token_accuracy": 0.6645906120538712,
      "num_tokens": 217935144.0,
      "step": 1306
    },
    {
      "entropy": 1.6964992980162303,
      "epoch": 0.14358298316442833,
      "grad_norm": 0.664656400680542,
      "learning_rate": 1.9918077417578768e-05,
      "loss": 1.3651,
      "mean_token_accuracy": 0.6545301824808121,
      "num_tokens": 218130755.0,
      "step": 1307
    },
    {
      "entropy": 1.7069012820720673,
      "epoch": 0.14369284007580127,
      "grad_norm": 0.5952320694923401,
      "learning_rate": 1.9917861734761476e-05,
      "loss": 1.3134,
      "mean_token_accuracy": 0.6620885580778122,
      "num_tokens": 218293252.0,
      "step": 1308
    },
    {
      "entropy": 1.7563343445460002,
      "epoch": 0.1438026969871742,
      "grad_norm": 0.710450291633606,
      "learning_rate": 1.9917645769697874e-05,
      "loss": 1.2887,
      "mean_token_accuracy": 0.6759348313013712,
      "num_tokens": 218437112.0,
      "step": 1309
    },
    {
      "entropy": 1.6977879603703816,
      "epoch": 0.14391255389854715,
      "grad_norm": 0.5810772776603699,
      "learning_rate": 1.99174295223948e-05,
      "loss": 1.4859,
      "mean_token_accuracy": 0.6420779774586359,
      "num_tokens": 218652082.0,
      "step": 1310
    },
    {
      "entropy": 1.729242612918218,
      "epoch": 0.1440224108099201,
      "grad_norm": 0.6845049858093262,
      "learning_rate": 1.9917212992859104e-05,
      "loss": 1.5988,
      "mean_token_accuracy": 0.6266419490178426,
      "num_tokens": 218867489.0,
      "step": 1311
    },
    {
      "entropy": 1.7926994264125824,
      "epoch": 0.144132267721293,
      "grad_norm": 0.6462848782539368,
      "learning_rate": 1.9916996181097635e-05,
      "loss": 1.4226,
      "mean_token_accuracy": 0.6535110026597977,
      "num_tokens": 219003067.0,
      "step": 1312
    },
    {
      "entropy": 1.7463144659996033,
      "epoch": 0.14424212463266595,
      "grad_norm": 0.7083527445793152,
      "learning_rate": 1.9916779087117255e-05,
      "loss": 1.4073,
      "mean_token_accuracy": 0.654004101951917,
      "num_tokens": 219137606.0,
      "step": 1313
    },
    {
      "entropy": 1.7422666052977245,
      "epoch": 0.1443519815440389,
      "grad_norm": 0.6640010476112366,
      "learning_rate": 1.9916561710924834e-05,
      "loss": 1.4153,
      "mean_token_accuracy": 0.6418075213829676,
      "num_tokens": 219327443.0,
      "step": 1314
    },
    {
      "entropy": 1.7220148543516796,
      "epoch": 0.14446183845541183,
      "grad_norm": 0.7796133756637573,
      "learning_rate": 1.9916344052527252e-05,
      "loss": 1.2958,
      "mean_token_accuracy": 0.6594913254181544,
      "num_tokens": 219472432.0,
      "step": 1315
    },
    {
      "entropy": 1.7227765917778015,
      "epoch": 0.14457169536678477,
      "grad_norm": 0.8143858909606934,
      "learning_rate": 1.99161261119314e-05,
      "loss": 1.5051,
      "mean_token_accuracy": 0.6485525220632553,
      "num_tokens": 219634962.0,
      "step": 1316
    },
    {
      "entropy": 1.687673379977544,
      "epoch": 0.1446815522781577,
      "grad_norm": 0.7880772352218628,
      "learning_rate": 1.9915907889144175e-05,
      "loss": 1.2464,
      "mean_token_accuracy": 0.6796143154303232,
      "num_tokens": 219760215.0,
      "step": 1317
    },
    {
      "entropy": 1.69181493918101,
      "epoch": 0.14479140918953062,
      "grad_norm": 0.6202834248542786,
      "learning_rate": 1.991568938417248e-05,
      "loss": 1.3949,
      "mean_token_accuracy": 0.6500192880630493,
      "num_tokens": 220040624.0,
      "step": 1318
    },
    {
      "entropy": 1.7221740285555522,
      "epoch": 0.14490126610090356,
      "grad_norm": 0.6479632258415222,
      "learning_rate": 1.9915470597023235e-05,
      "loss": 1.4433,
      "mean_token_accuracy": 0.6498556931813558,
      "num_tokens": 220187439.0,
      "step": 1319
    },
    {
      "entropy": 1.8096940517425537,
      "epoch": 0.1450111230122765,
      "grad_norm": 0.8540252447128296,
      "learning_rate": 1.9915251527703364e-05,
      "loss": 1.4752,
      "mean_token_accuracy": 0.6390475134054819,
      "num_tokens": 220368796.0,
      "step": 1320
    },
    {
      "entropy": 1.7524564564228058,
      "epoch": 0.14512097992364945,
      "grad_norm": 0.6428526043891907,
      "learning_rate": 1.9915032176219796e-05,
      "loss": 1.4522,
      "mean_token_accuracy": 0.638989175359408,
      "num_tokens": 220553587.0,
      "step": 1321
    },
    {
      "entropy": 1.7355947295824687,
      "epoch": 0.1452308368350224,
      "grad_norm": 0.6749572157859802,
      "learning_rate": 1.991481254257948e-05,
      "loss": 1.4713,
      "mean_token_accuracy": 0.6340489635864893,
      "num_tokens": 220841767.0,
      "step": 1322
    },
    {
      "entropy": 1.7015680869420369,
      "epoch": 0.14534069374639533,
      "grad_norm": 0.6925226449966431,
      "learning_rate": 1.9914592626789364e-05,
      "loss": 1.5523,
      "mean_token_accuracy": 0.6562323371569315,
      "num_tokens": 221024974.0,
      "step": 1323
    },
    {
      "entropy": 1.712952087322871,
      "epoch": 0.14545055065776827,
      "grad_norm": 0.6849307417869568,
      "learning_rate": 1.9914372428856407e-05,
      "loss": 1.3889,
      "mean_token_accuracy": 0.652979368964831,
      "num_tokens": 221204468.0,
      "step": 1324
    },
    {
      "entropy": 1.6939956446488698,
      "epoch": 0.14556040756914118,
      "grad_norm": 0.877672553062439,
      "learning_rate": 1.991415194878758e-05,
      "loss": 1.2828,
      "mean_token_accuracy": 0.6566557884216309,
      "num_tokens": 221341403.0,
      "step": 1325
    },
    {
      "entropy": 1.674074947834015,
      "epoch": 0.14567026448051412,
      "grad_norm": 0.655870795249939,
      "learning_rate": 1.9913931186589863e-05,
      "loss": 1.3431,
      "mean_token_accuracy": 0.6632597943147024,
      "num_tokens": 221473989.0,
      "step": 1326
    },
    {
      "entropy": 1.8000195523103077,
      "epoch": 0.14578012139188706,
      "grad_norm": 0.6739341616630554,
      "learning_rate": 1.991371014227024e-05,
      "loss": 1.4806,
      "mean_token_accuracy": 0.6396994342406591,
      "num_tokens": 221646735.0,
      "step": 1327
    },
    {
      "entropy": 1.7230163713296254,
      "epoch": 0.14588997830326,
      "grad_norm": 0.6686187386512756,
      "learning_rate": 1.9913488815835703e-05,
      "loss": 1.3263,
      "mean_token_accuracy": 0.65727499127388,
      "num_tokens": 221804801.0,
      "step": 1328
    },
    {
      "entropy": 1.7675328155358632,
      "epoch": 0.14599983521463294,
      "grad_norm": 0.7255124449729919,
      "learning_rate": 1.9913267207293266e-05,
      "loss": 1.4374,
      "mean_token_accuracy": 0.665775845448176,
      "num_tokens": 221967384.0,
      "step": 1329
    },
    {
      "entropy": 1.689390778541565,
      "epoch": 0.14610969212600589,
      "grad_norm": 0.6025556921958923,
      "learning_rate": 1.991304531664994e-05,
      "loss": 1.3426,
      "mean_token_accuracy": 0.6495958268642426,
      "num_tokens": 222153590.0,
      "step": 1330
    },
    {
      "entropy": 1.7810916304588318,
      "epoch": 0.14621954903737883,
      "grad_norm": 0.7592765688896179,
      "learning_rate": 1.991282314391274e-05,
      "loss": 1.4854,
      "mean_token_accuracy": 0.6385663896799088,
      "num_tokens": 222342691.0,
      "step": 1331
    },
    {
      "entropy": 1.7684324781099956,
      "epoch": 0.14632940594875174,
      "grad_norm": 0.6830516457557678,
      "learning_rate": 1.9912600689088706e-05,
      "loss": 1.4813,
      "mean_token_accuracy": 0.6428666114807129,
      "num_tokens": 222508014.0,
      "step": 1332
    },
    {
      "entropy": 1.7351989547411601,
      "epoch": 0.14643926286012468,
      "grad_norm": 0.632705569267273,
      "learning_rate": 1.9912377952184877e-05,
      "loss": 1.3404,
      "mean_token_accuracy": 0.6745259712139765,
      "num_tokens": 222669382.0,
      "step": 1333
    },
    {
      "entropy": 1.7773430248101552,
      "epoch": 0.14654911977149762,
      "grad_norm": 0.7237338423728943,
      "learning_rate": 1.9912154933208304e-05,
      "loss": 1.3179,
      "mean_token_accuracy": 0.669169470667839,
      "num_tokens": 222795017.0,
      "step": 1334
    },
    {
      "entropy": 1.718500792980194,
      "epoch": 0.14665897668287056,
      "grad_norm": 0.756379246711731,
      "learning_rate": 1.991193163216604e-05,
      "loss": 1.3977,
      "mean_token_accuracy": 0.6572215805451075,
      "num_tokens": 222920812.0,
      "step": 1335
    },
    {
      "entropy": 1.7016732394695282,
      "epoch": 0.1467688335942435,
      "grad_norm": 0.6574013829231262,
      "learning_rate": 1.9911708049065156e-05,
      "loss": 1.4359,
      "mean_token_accuracy": 0.6623116632302603,
      "num_tokens": 223102526.0,
      "step": 1336
    },
    {
      "entropy": 1.7057139774163563,
      "epoch": 0.14687869050561644,
      "grad_norm": 0.6829228401184082,
      "learning_rate": 1.991148418391273e-05,
      "loss": 1.4427,
      "mean_token_accuracy": 0.6601560066143671,
      "num_tokens": 223284435.0,
      "step": 1337
    },
    {
      "entropy": 1.7417578597863514,
      "epoch": 0.14698854741698938,
      "grad_norm": 0.7731585502624512,
      "learning_rate": 1.9911260036715847e-05,
      "loss": 1.2842,
      "mean_token_accuracy": 0.6613179345925649,
      "num_tokens": 223436682.0,
      "step": 1338
    },
    {
      "entropy": 1.7527393798033397,
      "epoch": 0.1470984043283623,
      "grad_norm": 0.741357147693634,
      "learning_rate": 1.9911035607481593e-05,
      "loss": 1.4087,
      "mean_token_accuracy": 0.6580107063055038,
      "num_tokens": 223598162.0,
      "step": 1339
    },
    {
      "entropy": 1.7267196973164876,
      "epoch": 0.14720826123973524,
      "grad_norm": 0.5621564388275146,
      "learning_rate": 1.991081089621708e-05,
      "loss": 1.3998,
      "mean_token_accuracy": 0.6478342314561208,
      "num_tokens": 223756258.0,
      "step": 1340
    },
    {
      "entropy": 1.741438736518224,
      "epoch": 0.14731811815110818,
      "grad_norm": 0.7508729100227356,
      "learning_rate": 1.991058590292942e-05,
      "loss": 1.6231,
      "mean_token_accuracy": 0.6208352545897166,
      "num_tokens": 223971677.0,
      "step": 1341
    },
    {
      "entropy": 1.6777463555335999,
      "epoch": 0.14742797506248112,
      "grad_norm": 0.7933493852615356,
      "learning_rate": 1.9910360627625727e-05,
      "loss": 1.3107,
      "mean_token_accuracy": 0.6797795047362646,
      "num_tokens": 224146005.0,
      "step": 1342
    },
    {
      "entropy": 1.7229306896527607,
      "epoch": 0.14753783197385406,
      "grad_norm": 0.8197740316390991,
      "learning_rate": 1.991013507031314e-05,
      "loss": 1.4139,
      "mean_token_accuracy": 0.6649947216113409,
      "num_tokens": 224323644.0,
      "step": 1343
    },
    {
      "entropy": 1.748872071504593,
      "epoch": 0.147647688885227,
      "grad_norm": 0.6963921785354614,
      "learning_rate": 1.9909909230998792e-05,
      "loss": 1.3859,
      "mean_token_accuracy": 0.6595577448606491,
      "num_tokens": 224447585.0,
      "step": 1344
    },
    {
      "entropy": 1.778872420390447,
      "epoch": 0.14775754579659992,
      "grad_norm": 0.7228877544403076,
      "learning_rate": 1.9909683109689832e-05,
      "loss": 1.4321,
      "mean_token_accuracy": 0.6432789415121078,
      "num_tokens": 224622414.0,
      "step": 1345
    },
    {
      "entropy": 1.7511253654956818,
      "epoch": 0.14786740270797286,
      "grad_norm": 0.6408666968345642,
      "learning_rate": 1.9909456706393412e-05,
      "loss": 1.432,
      "mean_token_accuracy": 0.6518001953760783,
      "num_tokens": 224786040.0,
      "step": 1346
    },
    {
      "entropy": 1.710090051094691,
      "epoch": 0.1479772596193458,
      "grad_norm": 0.5858021974563599,
      "learning_rate": 1.990923002111671e-05,
      "loss": 1.4401,
      "mean_token_accuracy": 0.6551679819822311,
      "num_tokens": 225004135.0,
      "step": 1347
    },
    {
      "entropy": 1.7244882980982463,
      "epoch": 0.14808711653071874,
      "grad_norm": 0.6452533006668091,
      "learning_rate": 1.9909003053866884e-05,
      "loss": 1.3192,
      "mean_token_accuracy": 0.6712134927511215,
      "num_tokens": 225190143.0,
      "step": 1348
    },
    {
      "entropy": 1.7229234476884205,
      "epoch": 0.14819697344209168,
      "grad_norm": 0.6897783875465393,
      "learning_rate": 1.990877580465113e-05,
      "loss": 1.3271,
      "mean_token_accuracy": 0.6669703423976898,
      "num_tokens": 225357614.0,
      "step": 1349
    },
    {
      "entropy": 1.7231020828088124,
      "epoch": 0.14830683035346462,
      "grad_norm": 0.7694151997566223,
      "learning_rate": 1.9908548273476634e-05,
      "loss": 1.3355,
      "mean_token_accuracy": 0.6548380752404531,
      "num_tokens": 225467576.0,
      "step": 1350
    },
    {
      "entropy": 1.6866406897703807,
      "epoch": 0.14841668726483756,
      "grad_norm": 0.6810007095336914,
      "learning_rate": 1.9908320460350604e-05,
      "loss": 1.3045,
      "mean_token_accuracy": 0.681728353103002,
      "num_tokens": 225624930.0,
      "step": 1351
    },
    {
      "entropy": 1.7498182157675426,
      "epoch": 0.14852654417621047,
      "grad_norm": 0.6989384293556213,
      "learning_rate": 1.990809236528024e-05,
      "loss": 1.527,
      "mean_token_accuracy": 0.6339794049660364,
      "num_tokens": 225834299.0,
      "step": 1352
    },
    {
      "entropy": 1.7136845489343007,
      "epoch": 0.14863640108758341,
      "grad_norm": 0.8216297626495361,
      "learning_rate": 1.990786398827277e-05,
      "loss": 1.3575,
      "mean_token_accuracy": 0.6578425218661627,
      "num_tokens": 226001216.0,
      "step": 1353
    },
    {
      "entropy": 1.7596096694469452,
      "epoch": 0.14874625799895635,
      "grad_norm": 0.7053200006484985,
      "learning_rate": 1.9907635329335417e-05,
      "loss": 1.39,
      "mean_token_accuracy": 0.6508052945137024,
      "num_tokens": 226164348.0,
      "step": 1354
    },
    {
      "entropy": 1.7615208824475606,
      "epoch": 0.1488561149103293,
      "grad_norm": 0.6843299269676208,
      "learning_rate": 1.990740638847542e-05,
      "loss": 1.443,
      "mean_token_accuracy": 0.648722713192304,
      "num_tokens": 226324003.0,
      "step": 1355
    },
    {
      "entropy": 1.73859507838885,
      "epoch": 0.14896597182170224,
      "grad_norm": 0.7353606820106506,
      "learning_rate": 1.9907177165700026e-05,
      "loss": 1.4766,
      "mean_token_accuracy": 0.6503659536441168,
      "num_tokens": 226517283.0,
      "step": 1356
    },
    {
      "entropy": 1.681709756453832,
      "epoch": 0.14907582873307518,
      "grad_norm": 0.709335207939148,
      "learning_rate": 1.9906947661016488e-05,
      "loss": 1.3196,
      "mean_token_accuracy": 0.6770564814408621,
      "num_tokens": 226653702.0,
      "step": 1357
    },
    {
      "entropy": 1.7128639618555705,
      "epoch": 0.14918568564444812,
      "grad_norm": 0.6673030257225037,
      "learning_rate": 1.9906717874432068e-05,
      "loss": 1.3176,
      "mean_token_accuracy": 0.6593418667713801,
      "num_tokens": 226783131.0,
      "step": 1358
    },
    {
      "entropy": 1.6683493653933208,
      "epoch": 0.14929554255582103,
      "grad_norm": 0.7545623183250427,
      "learning_rate": 1.9906487805954046e-05,
      "loss": 1.332,
      "mean_token_accuracy": 0.6640367060899734,
      "num_tokens": 226903165.0,
      "step": 1359
    },
    {
      "entropy": 1.7147560715675354,
      "epoch": 0.14940539946719397,
      "grad_norm": 0.6294198632240295,
      "learning_rate": 1.9906257455589693e-05,
      "loss": 1.3845,
      "mean_token_accuracy": 0.6489193687836329,
      "num_tokens": 227123559.0,
      "step": 1360
    },
    {
      "entropy": 1.7493448158105214,
      "epoch": 0.1495152563785669,
      "grad_norm": 0.7184653878211975,
      "learning_rate": 1.9906026823346304e-05,
      "loss": 1.3539,
      "mean_token_accuracy": 0.6593509018421173,
      "num_tokens": 227249956.0,
      "step": 1361
    },
    {
      "entropy": 1.8085836668809254,
      "epoch": 0.14962511328993985,
      "grad_norm": 0.751181960105896,
      "learning_rate": 1.9905795909231184e-05,
      "loss": 1.4853,
      "mean_token_accuracy": 0.648095632592837,
      "num_tokens": 227436120.0,
      "step": 1362
    },
    {
      "entropy": 1.8024127682050068,
      "epoch": 0.1497349702013128,
      "grad_norm": 0.6900661587715149,
      "learning_rate": 1.990556471325163e-05,
      "loss": 1.477,
      "mean_token_accuracy": 0.6429435362418493,
      "num_tokens": 227581787.0,
      "step": 1363
    },
    {
      "entropy": 1.761184275150299,
      "epoch": 0.14984482711268574,
      "grad_norm": 0.6370431184768677,
      "learning_rate": 1.9905333235414974e-05,
      "loss": 1.4608,
      "mean_token_accuracy": 0.6300752957661947,
      "num_tokens": 227798907.0,
      "step": 1364
    },
    {
      "entropy": 1.729689121246338,
      "epoch": 0.14995468402405868,
      "grad_norm": 0.6400964856147766,
      "learning_rate": 1.990510147572853e-05,
      "loss": 1.3613,
      "mean_token_accuracy": 0.6598215152819952,
      "num_tokens": 227928221.0,
      "step": 1365
    },
    {
      "entropy": 1.7528914511203766,
      "epoch": 0.1500645409354316,
      "grad_norm": 0.6673919558525085,
      "learning_rate": 1.9904869434199638e-05,
      "loss": 1.3918,
      "mean_token_accuracy": 0.6615985929965973,
      "num_tokens": 228047390.0,
      "step": 1366
    },
    {
      "entropy": 1.7323197424411774,
      "epoch": 0.15017439784680453,
      "grad_norm": 0.9341157674789429,
      "learning_rate": 1.9904637110835637e-05,
      "loss": 1.4983,
      "mean_token_accuracy": 0.651843269666036,
      "num_tokens": 228240212.0,
      "step": 1367
    },
    {
      "entropy": 1.7418803771336873,
      "epoch": 0.15028425475817747,
      "grad_norm": 0.7539012432098389,
      "learning_rate": 1.990440450564389e-05,
      "loss": 1.3946,
      "mean_token_accuracy": 0.652935266494751,
      "num_tokens": 228398736.0,
      "step": 1368
    },
    {
      "entropy": 1.7218880355358124,
      "epoch": 0.1503941116695504,
      "grad_norm": 0.6365805268287659,
      "learning_rate": 1.9904171618631745e-05,
      "loss": 1.3038,
      "mean_token_accuracy": 0.6718200296163559,
      "num_tokens": 228572349.0,
      "step": 1369
    },
    {
      "entropy": 1.7416918476422627,
      "epoch": 0.15050396858092335,
      "grad_norm": 0.6741893887519836,
      "learning_rate": 1.990393844980659e-05,
      "loss": 1.4381,
      "mean_token_accuracy": 0.6531198918819427,
      "num_tokens": 228733406.0,
      "step": 1370
    },
    {
      "entropy": 1.7413328488667805,
      "epoch": 0.1506138254922963,
      "grad_norm": 0.7957093715667725,
      "learning_rate": 1.9903704999175787e-05,
      "loss": 1.4825,
      "mean_token_accuracy": 0.6500815153121948,
      "num_tokens": 228933666.0,
      "step": 1371
    },
    {
      "entropy": 1.7816022833188374,
      "epoch": 0.15072368240366923,
      "grad_norm": 0.7574257850646973,
      "learning_rate": 1.990347126674674e-05,
      "loss": 1.4431,
      "mean_token_accuracy": 0.6395841191212336,
      "num_tokens": 229105787.0,
      "step": 1372
    },
    {
      "entropy": 1.7355500161647797,
      "epoch": 0.15083353931504215,
      "grad_norm": 0.7089441418647766,
      "learning_rate": 1.9903237252526834e-05,
      "loss": 1.3002,
      "mean_token_accuracy": 0.665576363603274,
      "num_tokens": 229232132.0,
      "step": 1373
    },
    {
      "entropy": 1.7314164439837139,
      "epoch": 0.1509433962264151,
      "grad_norm": 0.6388537287712097,
      "learning_rate": 1.9903002956523483e-05,
      "loss": 1.378,
      "mean_token_accuracy": 0.649604876836141,
      "num_tokens": 229425376.0,
      "step": 1374
    },
    {
      "entropy": 1.7354730864365895,
      "epoch": 0.15105325313778803,
      "grad_norm": 0.6285607218742371,
      "learning_rate": 1.99027683787441e-05,
      "loss": 1.3263,
      "mean_token_accuracy": 0.6639270832141241,
      "num_tokens": 229590289.0,
      "step": 1375
    },
    {
      "entropy": 1.7280907134215038,
      "epoch": 0.15116311004916097,
      "grad_norm": 0.6440637111663818,
      "learning_rate": 1.990253351919611e-05,
      "loss": 1.3824,
      "mean_token_accuracy": 0.6578231900930405,
      "num_tokens": 229803918.0,
      "step": 1376
    },
    {
      "entropy": 1.7382831076780956,
      "epoch": 0.1512729669605339,
      "grad_norm": 0.6672256588935852,
      "learning_rate": 1.9902298377886946e-05,
      "loss": 1.3339,
      "mean_token_accuracy": 0.6681515922149023,
      "num_tokens": 229969814.0,
      "step": 1377
    },
    {
      "entropy": 1.7324320872624714,
      "epoch": 0.15138282387190685,
      "grad_norm": 0.7574326992034912,
      "learning_rate": 1.990206295482405e-05,
      "loss": 1.4158,
      "mean_token_accuracy": 0.6632709354162216,
      "num_tokens": 230122719.0,
      "step": 1378
    },
    {
      "entropy": 1.6780237257480621,
      "epoch": 0.15149268078327977,
      "grad_norm": 0.6588215231895447,
      "learning_rate": 1.990182725001487e-05,
      "loss": 1.2503,
      "mean_token_accuracy": 0.6718401412169138,
      "num_tokens": 230236303.0,
      "step": 1379
    },
    {
      "entropy": 1.711432198683421,
      "epoch": 0.1516025376946527,
      "grad_norm": 0.6185994744300842,
      "learning_rate": 1.9901591263466872e-05,
      "loss": 1.4058,
      "mean_token_accuracy": 0.6546655098597208,
      "num_tokens": 230396650.0,
      "step": 1380
    },
    {
      "entropy": 1.7140692472457886,
      "epoch": 0.15171239460602565,
      "grad_norm": 0.6763261556625366,
      "learning_rate": 1.9901354995187517e-05,
      "loss": 1.3125,
      "mean_token_accuracy": 0.6666051745414734,
      "num_tokens": 230512660.0,
      "step": 1381
    },
    {
      "entropy": 1.7215290268262227,
      "epoch": 0.1518222515173986,
      "grad_norm": 0.6929253935813904,
      "learning_rate": 1.9901118445184292e-05,
      "loss": 1.2935,
      "mean_token_accuracy": 0.6653975496689478,
      "num_tokens": 230644801.0,
      "step": 1382
    },
    {
      "entropy": 1.744094043970108,
      "epoch": 0.15193210842877153,
      "grad_norm": 0.67906653881073,
      "learning_rate": 1.990088161346468e-05,
      "loss": 1.5015,
      "mean_token_accuracy": 0.633465126156807,
      "num_tokens": 230843687.0,
      "step": 1383
    },
    {
      "entropy": 1.714278946320216,
      "epoch": 0.15204196534014447,
      "grad_norm": 0.6904776692390442,
      "learning_rate": 1.9900644500036174e-05,
      "loss": 1.3465,
      "mean_token_accuracy": 0.6527802546819051,
      "num_tokens": 231002297.0,
      "step": 1384
    },
    {
      "entropy": 1.7312476833661397,
      "epoch": 0.1521518222515174,
      "grad_norm": 0.6808450818061829,
      "learning_rate": 1.990040710490628e-05,
      "loss": 1.3135,
      "mean_token_accuracy": 0.6642954846223196,
      "num_tokens": 231185181.0,
      "step": 1385
    },
    {
      "entropy": 1.7672143479188283,
      "epoch": 0.15226167916289032,
      "grad_norm": 0.7930114269256592,
      "learning_rate": 1.990016942808251e-05,
      "loss": 1.3884,
      "mean_token_accuracy": 0.6474938144286474,
      "num_tokens": 231335247.0,
      "step": 1386
    },
    {
      "entropy": 1.7301386694113414,
      "epoch": 0.15237153607426326,
      "grad_norm": 0.7413761615753174,
      "learning_rate": 1.989993146957239e-05,
      "loss": 1.5081,
      "mean_token_accuracy": 0.6514854778846105,
      "num_tokens": 231490527.0,
      "step": 1387
    },
    {
      "entropy": 1.6940825978914897,
      "epoch": 0.1524813929856362,
      "grad_norm": 0.6954035758972168,
      "learning_rate": 1.9899693229383447e-05,
      "loss": 1.3801,
      "mean_token_accuracy": 0.6533026595910391,
      "num_tokens": 231707365.0,
      "step": 1388
    },
    {
      "entropy": 1.7286064724127452,
      "epoch": 0.15259124989700915,
      "grad_norm": 0.7006916999816895,
      "learning_rate": 1.9899454707523228e-05,
      "loss": 1.3657,
      "mean_token_accuracy": 0.6559472481409708,
      "num_tokens": 231838489.0,
      "step": 1389
    },
    {
      "entropy": 1.689795325199763,
      "epoch": 0.1527011068083821,
      "grad_norm": 0.7353735566139221,
      "learning_rate": 1.9899215903999272e-05,
      "loss": 1.4271,
      "mean_token_accuracy": 0.6647296249866486,
      "num_tokens": 231989155.0,
      "step": 1390
    },
    {
      "entropy": 1.8015301525592804,
      "epoch": 0.15281096371975503,
      "grad_norm": 0.8433383703231812,
      "learning_rate": 1.989897681881915e-05,
      "loss": 1.4108,
      "mean_token_accuracy": 0.659388080239296,
      "num_tokens": 232130833.0,
      "step": 1391
    },
    {
      "entropy": 1.7052685618400574,
      "epoch": 0.15292082063112797,
      "grad_norm": 0.7113513946533203,
      "learning_rate": 1.989873745199042e-05,
      "loss": 1.3169,
      "mean_token_accuracy": 0.6690341283877691,
      "num_tokens": 232299980.0,
      "step": 1392
    },
    {
      "entropy": 1.7220211327075958,
      "epoch": 0.15303067754250088,
      "grad_norm": 0.6374592781066895,
      "learning_rate": 1.9898497803520652e-05,
      "loss": 1.3122,
      "mean_token_accuracy": 0.6635673840840658,
      "num_tokens": 232454219.0,
      "step": 1393
    },
    {
      "entropy": 1.6884993215401967,
      "epoch": 0.15314053445387382,
      "grad_norm": 0.5745070576667786,
      "learning_rate": 1.9898257873417445e-05,
      "loss": 1.4229,
      "mean_token_accuracy": 0.6347446690003077,
      "num_tokens": 232668443.0,
      "step": 1394
    },
    {
      "entropy": 1.7229583462079365,
      "epoch": 0.15325039136524676,
      "grad_norm": 0.6316061615943909,
      "learning_rate": 1.9898017661688384e-05,
      "loss": 1.4632,
      "mean_token_accuracy": 0.651705930630366,
      "num_tokens": 232827806.0,
      "step": 1395
    },
    {
      "entropy": 1.7420443991820018,
      "epoch": 0.1533602482766197,
      "grad_norm": 0.8270453810691833,
      "learning_rate": 1.9897777168341078e-05,
      "loss": 1.3791,
      "mean_token_accuracy": 0.6554538011550903,
      "num_tokens": 232976688.0,
      "step": 1396
    },
    {
      "entropy": 1.7458803057670593,
      "epoch": 0.15347010518799264,
      "grad_norm": 0.725121021270752,
      "learning_rate": 1.9897536393383126e-05,
      "loss": 1.4105,
      "mean_token_accuracy": 0.6579022953907648,
      "num_tokens": 233112726.0,
      "step": 1397
    },
    {
      "entropy": 1.7431099613507588,
      "epoch": 0.15357996209936559,
      "grad_norm": 0.7982557415962219,
      "learning_rate": 1.9897295336822163e-05,
      "loss": 1.2854,
      "mean_token_accuracy": 0.6716776788234711,
      "num_tokens": 233223044.0,
      "step": 1398
    },
    {
      "entropy": 1.7481550176938374,
      "epoch": 0.15368981901073853,
      "grad_norm": 0.7132703065872192,
      "learning_rate": 1.989705399866581e-05,
      "loss": 1.5079,
      "mean_token_accuracy": 0.6489944805701574,
      "num_tokens": 233380580.0,
      "step": 1399
    },
    {
      "entropy": 1.7383308410644531,
      "epoch": 0.15379967592211144,
      "grad_norm": 0.7662017941474915,
      "learning_rate": 1.9896812378921705e-05,
      "loss": 1.5184,
      "mean_token_accuracy": 0.6418096820513407,
      "num_tokens": 233544584.0,
      "step": 1400
    },
    {
      "entropy": 1.7894498109817505,
      "epoch": 0.15390953283348438,
      "grad_norm": 0.6829231977462769,
      "learning_rate": 1.98965704775975e-05,
      "loss": 1.4861,
      "mean_token_accuracy": 0.6324234555164973,
      "num_tokens": 233743461.0,
      "step": 1401
    },
    {
      "entropy": 1.7661231060822804,
      "epoch": 0.15401938974485732,
      "grad_norm": 0.758860170841217,
      "learning_rate": 1.989632829470085e-05,
      "loss": 1.3311,
      "mean_token_accuracy": 0.6602408438920975,
      "num_tokens": 233886963.0,
      "step": 1402
    },
    {
      "entropy": 1.8040996094544728,
      "epoch": 0.15412924665623026,
      "grad_norm": 0.7048920392990112,
      "learning_rate": 1.989608583023941e-05,
      "loss": 1.4562,
      "mean_token_accuracy": 0.6474844366312027,
      "num_tokens": 234039711.0,
      "step": 1403
    },
    {
      "entropy": 1.6952104270458221,
      "epoch": 0.1542391035676032,
      "grad_norm": 0.6951699256896973,
      "learning_rate": 1.989584308422087e-05,
      "loss": 1.5166,
      "mean_token_accuracy": 0.666146586338679,
      "num_tokens": 234184971.0,
      "step": 1404
    },
    {
      "entropy": 1.7021946410338085,
      "epoch": 0.15434896047897614,
      "grad_norm": 0.6730145812034607,
      "learning_rate": 1.9895600056652904e-05,
      "loss": 1.3321,
      "mean_token_accuracy": 0.6629207084576288,
      "num_tokens": 234305549.0,
      "step": 1405
    },
    {
      "entropy": 1.7574187914530437,
      "epoch": 0.15445881739034906,
      "grad_norm": 0.6781946420669556,
      "learning_rate": 1.98953567475432e-05,
      "loss": 1.3731,
      "mean_token_accuracy": 0.6600083112716675,
      "num_tokens": 234429812.0,
      "step": 1406
    },
    {
      "entropy": 1.7185521523157756,
      "epoch": 0.154568674301722,
      "grad_norm": 0.6366341710090637,
      "learning_rate": 1.9895113156899468e-05,
      "loss": 1.4108,
      "mean_token_accuracy": 0.6553384065628052,
      "num_tokens": 234591666.0,
      "step": 1407
    },
    {
      "entropy": 1.7048729260762532,
      "epoch": 0.15467853121309494,
      "grad_norm": 0.7763659358024597,
      "learning_rate": 1.989486928472941e-05,
      "loss": 1.2446,
      "mean_token_accuracy": 0.682253509759903,
      "num_tokens": 234729738.0,
      "step": 1408
    },
    {
      "entropy": 1.7599883476893108,
      "epoch": 0.15478838812446788,
      "grad_norm": 0.6926746368408203,
      "learning_rate": 1.9894625131040746e-05,
      "loss": 1.3447,
      "mean_token_accuracy": 0.658067504564921,
      "num_tokens": 234885495.0,
      "step": 1409
    },
    {
      "entropy": 1.7993106842041016,
      "epoch": 0.15489824503584082,
      "grad_norm": 0.895706295967102,
      "learning_rate": 1.9894380695841207e-05,
      "loss": 1.6742,
      "mean_token_accuracy": 0.6284699141979218,
      "num_tokens": 235065714.0,
      "step": 1410
    },
    {
      "entropy": 1.7256481846173604,
      "epoch": 0.15500810194721376,
      "grad_norm": 0.6546118855476379,
      "learning_rate": 1.989413597913853e-05,
      "loss": 1.3875,
      "mean_token_accuracy": 0.6590452939271927,
      "num_tokens": 235210267.0,
      "step": 1411
    },
    {
      "entropy": 1.7416211764017742,
      "epoch": 0.1551179588585867,
      "grad_norm": 0.79004967212677,
      "learning_rate": 1.9893890980940456e-05,
      "loss": 1.388,
      "mean_token_accuracy": 0.6537879854440689,
      "num_tokens": 235364422.0,
      "step": 1412
    },
    {
      "entropy": 1.7044924398263295,
      "epoch": 0.15522781576995962,
      "grad_norm": 0.5850828289985657,
      "learning_rate": 1.9893645701254737e-05,
      "loss": 1.3368,
      "mean_token_accuracy": 0.666097084681193,
      "num_tokens": 235548464.0,
      "step": 1413
    },
    {
      "entropy": 1.757189800341924,
      "epoch": 0.15533767268133256,
      "grad_norm": 0.6978262066841125,
      "learning_rate": 1.9893400140089138e-05,
      "loss": 1.3671,
      "mean_token_accuracy": 0.651861180861791,
      "num_tokens": 235702467.0,
      "step": 1414
    },
    {
      "entropy": 1.7016917367776234,
      "epoch": 0.1554475295927055,
      "grad_norm": 0.934744656085968,
      "learning_rate": 1.9893154297451437e-05,
      "loss": 1.4425,
      "mean_token_accuracy": 0.6469552119572958,
      "num_tokens": 235865582.0,
      "step": 1415
    },
    {
      "entropy": 1.6989723841349285,
      "epoch": 0.15555738650407844,
      "grad_norm": 0.7889364361763,
      "learning_rate": 1.9892908173349405e-05,
      "loss": 1.3199,
      "mean_token_accuracy": 0.6727441449960073,
      "num_tokens": 235991724.0,
      "step": 1416
    },
    {
      "entropy": 1.6890127261479695,
      "epoch": 0.15566724341545138,
      "grad_norm": 0.8580669164657593,
      "learning_rate": 1.989266176779084e-05,
      "loss": 1.3835,
      "mean_token_accuracy": 0.6598442941904068,
      "num_tokens": 236149820.0,
      "step": 1417
    },
    {
      "entropy": 1.765044758717219,
      "epoch": 0.15577710032682432,
      "grad_norm": 0.7060015797615051,
      "learning_rate": 1.9892415080783535e-05,
      "loss": 1.397,
      "mean_token_accuracy": 0.6596352259318033,
      "num_tokens": 236275889.0,
      "step": 1418
    },
    {
      "entropy": 1.7240539093812306,
      "epoch": 0.15588695723819726,
      "grad_norm": 0.6542495489120483,
      "learning_rate": 1.9892168112335303e-05,
      "loss": 1.4078,
      "mean_token_accuracy": 0.6570458362499872,
      "num_tokens": 236448746.0,
      "step": 1419
    },
    {
      "entropy": 1.686035692691803,
      "epoch": 0.15599681414957017,
      "grad_norm": 0.7507334351539612,
      "learning_rate": 1.9891920862453954e-05,
      "loss": 1.5029,
      "mean_token_accuracy": 0.6390158931414286,
      "num_tokens": 236653518.0,
      "step": 1420
    },
    {
      "entropy": 1.751685917377472,
      "epoch": 0.15610667106094311,
      "grad_norm": 0.7609370946884155,
      "learning_rate": 1.9891673331147315e-05,
      "loss": 1.3791,
      "mean_token_accuracy": 0.6601094206174215,
      "num_tokens": 236785623.0,
      "step": 1421
    },
    {
      "entropy": 1.7528755863507588,
      "epoch": 0.15621652797231605,
      "grad_norm": 0.6571503281593323,
      "learning_rate": 1.9891425518423225e-05,
      "loss": 1.329,
      "mean_token_accuracy": 0.6659893939892451,
      "num_tokens": 236959510.0,
      "step": 1422
    },
    {
      "entropy": 1.8252331515153248,
      "epoch": 0.156326384883689,
      "grad_norm": 0.6614378094673157,
      "learning_rate": 1.9891177424289524e-05,
      "loss": 1.4472,
      "mean_token_accuracy": 0.6394238173961639,
      "num_tokens": 237176421.0,
      "step": 1423
    },
    {
      "entropy": 1.7615261673927307,
      "epoch": 0.15643624179506194,
      "grad_norm": 0.6956297755241394,
      "learning_rate": 1.989092904875406e-05,
      "loss": 1.5164,
      "mean_token_accuracy": 0.6591284970442454,
      "num_tokens": 237347871.0,
      "step": 1424
    },
    {
      "entropy": 1.7877203325430553,
      "epoch": 0.15654609870643488,
      "grad_norm": 0.6468766331672668,
      "learning_rate": 1.9890680391824703e-05,
      "loss": 1.5098,
      "mean_token_accuracy": 0.6396308938662211,
      "num_tokens": 237543259.0,
      "step": 1425
    },
    {
      "entropy": 1.7254225611686707,
      "epoch": 0.15665595561780782,
      "grad_norm": 0.6719499826431274,
      "learning_rate": 1.9890431453509317e-05,
      "loss": 1.5274,
      "mean_token_accuracy": 0.6330312093098959,
      "num_tokens": 237710891.0,
      "step": 1426
    },
    {
      "entropy": 1.6991487741470337,
      "epoch": 0.15676581252918073,
      "grad_norm": 0.7204530835151672,
      "learning_rate": 1.9890182233815777e-05,
      "loss": 1.2901,
      "mean_token_accuracy": 0.6699622919162115,
      "num_tokens": 237850728.0,
      "step": 1427
    },
    {
      "entropy": 1.7319742838541667,
      "epoch": 0.15687566944055367,
      "grad_norm": 0.7595884203910828,
      "learning_rate": 1.988993273275198e-05,
      "loss": 1.3026,
      "mean_token_accuracy": 0.6677504330873489,
      "num_tokens": 238048528.0,
      "step": 1428
    },
    {
      "entropy": 1.7359434564908345,
      "epoch": 0.1569855263519266,
      "grad_norm": 0.6204552054405212,
      "learning_rate": 1.9889682950325814e-05,
      "loss": 1.2607,
      "mean_token_accuracy": 0.6708816637595495,
      "num_tokens": 238201749.0,
      "step": 1429
    },
    {
      "entropy": 1.7319020132223766,
      "epoch": 0.15709538326329955,
      "grad_norm": 0.7870994806289673,
      "learning_rate": 1.988943288654519e-05,
      "loss": 1.4783,
      "mean_token_accuracy": 0.6482026080290476,
      "num_tokens": 238388738.0,
      "step": 1430
    },
    {
      "entropy": 1.7651021579901378,
      "epoch": 0.1572052401746725,
      "grad_norm": 0.6856090426445007,
      "learning_rate": 1.9889182541418025e-05,
      "loss": 1.4452,
      "mean_token_accuracy": 0.6410435736179352,
      "num_tokens": 238573579.0,
      "step": 1431
    },
    {
      "entropy": 1.7478333910306294,
      "epoch": 0.15731509708604544,
      "grad_norm": 0.8158244490623474,
      "learning_rate": 1.9888931914952233e-05,
      "loss": 1.391,
      "mean_token_accuracy": 0.6592821230491003,
      "num_tokens": 238712138.0,
      "step": 1432
    },
    {
      "entropy": 1.7397787074247997,
      "epoch": 0.15742495399741835,
      "grad_norm": 0.7736004590988159,
      "learning_rate": 1.9888681007155754e-05,
      "loss": 1.3865,
      "mean_token_accuracy": 0.6538245578606924,
      "num_tokens": 238883329.0,
      "step": 1433
    },
    {
      "entropy": 1.7427138984203339,
      "epoch": 0.1575348109087913,
      "grad_norm": 0.6095617413520813,
      "learning_rate": 1.9888429818036526e-05,
      "loss": 1.456,
      "mean_token_accuracy": 0.6447610855102539,
      "num_tokens": 239158770.0,
      "step": 1434
    },
    {
      "entropy": 1.7088470856348674,
      "epoch": 0.15764466782016423,
      "grad_norm": 0.6134941577911377,
      "learning_rate": 1.98881783476025e-05,
      "loss": 1.3449,
      "mean_token_accuracy": 0.6597955723603567,
      "num_tokens": 239303140.0,
      "step": 1435
    },
    {
      "entropy": 1.731537361939748,
      "epoch": 0.15775452473153717,
      "grad_norm": 0.6490273475646973,
      "learning_rate": 1.988792659586163e-05,
      "loss": 1.2962,
      "mean_token_accuracy": 0.6675442407528559,
      "num_tokens": 239429104.0,
      "step": 1436
    },
    {
      "entropy": 1.7000961601734161,
      "epoch": 0.1578643816429101,
      "grad_norm": 0.6515488028526306,
      "learning_rate": 1.9887674562821892e-05,
      "loss": 1.4389,
      "mean_token_accuracy": 0.659287025531133,
      "num_tokens": 239630290.0,
      "step": 1437
    },
    {
      "entropy": 1.6991292238235474,
      "epoch": 0.15797423855428305,
      "grad_norm": 0.630832850933075,
      "learning_rate": 1.9887422248491263e-05,
      "loss": 1.3143,
      "mean_token_accuracy": 0.6765478601058325,
      "num_tokens": 239751335.0,
      "step": 1438
    },
    {
      "entropy": 1.7824784815311432,
      "epoch": 0.158084095465656,
      "grad_norm": 0.7180033326148987,
      "learning_rate": 1.988716965287772e-05,
      "loss": 1.373,
      "mean_token_accuracy": 0.6581806441148123,
      "num_tokens": 239933924.0,
      "step": 1439
    },
    {
      "entropy": 1.732376217842102,
      "epoch": 0.1581939523770289,
      "grad_norm": 0.7710111141204834,
      "learning_rate": 1.9886916775989263e-05,
      "loss": 1.3055,
      "mean_token_accuracy": 0.674410010377566,
      "num_tokens": 240093624.0,
      "step": 1440
    },
    {
      "entropy": 1.6590780516465504,
      "epoch": 0.15830380928840185,
      "grad_norm": 0.702910840511322,
      "learning_rate": 1.988666361783389e-05,
      "loss": 1.233,
      "mean_token_accuracy": 0.6768196622530619,
      "num_tokens": 240232409.0,
      "step": 1441
    },
    {
      "entropy": 1.7165300846099854,
      "epoch": 0.1584136661997748,
      "grad_norm": 0.6681031584739685,
      "learning_rate": 1.9886410178419624e-05,
      "loss": 1.32,
      "mean_token_accuracy": 0.6700728883345922,
      "num_tokens": 240390864.0,
      "step": 1442
    },
    {
      "entropy": 1.7243541578451793,
      "epoch": 0.15852352311114773,
      "grad_norm": 0.6899517178535461,
      "learning_rate": 1.9886156457754476e-05,
      "loss": 1.2152,
      "mean_token_accuracy": 0.6867374628782272,
      "num_tokens": 240554611.0,
      "step": 1443
    },
    {
      "entropy": 1.6928447286287944,
      "epoch": 0.15863338002252067,
      "grad_norm": 0.698421835899353,
      "learning_rate": 1.9885902455846486e-05,
      "loss": 1.3928,
      "mean_token_accuracy": 0.6612624774376551,
      "num_tokens": 240762372.0,
      "step": 1444
    },
    {
      "entropy": 1.6924518247445424,
      "epoch": 0.1587432369338936,
      "grad_norm": 0.6793832182884216,
      "learning_rate": 1.988564817270368e-05,
      "loss": 1.3986,
      "mean_token_accuracy": 0.649079958597819,
      "num_tokens": 240915721.0,
      "step": 1445
    },
    {
      "entropy": 1.7608232696851094,
      "epoch": 0.15885309384526655,
      "grad_norm": 0.7623583078384399,
      "learning_rate": 1.988539360833412e-05,
      "loss": 1.4448,
      "mean_token_accuracy": 0.6457181026538213,
      "num_tokens": 241082642.0,
      "step": 1446
    },
    {
      "entropy": 1.709537297487259,
      "epoch": 0.15896295075663947,
      "grad_norm": 0.7644019722938538,
      "learning_rate": 1.988513876274585e-05,
      "loss": 1.5179,
      "mean_token_accuracy": 0.6708864470322927,
      "num_tokens": 241260001.0,
      "step": 1447
    },
    {
      "entropy": 1.7161897718906403,
      "epoch": 0.1590728076680124,
      "grad_norm": 0.7442562580108643,
      "learning_rate": 1.9884883635946946e-05,
      "loss": 1.4027,
      "mean_token_accuracy": 0.6529113352298737,
      "num_tokens": 241416125.0,
      "step": 1448
    },
    {
      "entropy": 1.784531682729721,
      "epoch": 0.15918266457938535,
      "grad_norm": 0.7441882491111755,
      "learning_rate": 1.988462822794548e-05,
      "loss": 1.5471,
      "mean_token_accuracy": 0.6351829022169113,
      "num_tokens": 241538589.0,
      "step": 1449
    },
    {
      "entropy": 1.8008837799231212,
      "epoch": 0.1592925214907583,
      "grad_norm": 0.6900771260261536,
      "learning_rate": 1.988437253874953e-05,
      "loss": 1.3957,
      "mean_token_accuracy": 0.6521695852279663,
      "num_tokens": 241676766.0,
      "step": 1450
    },
    {
      "entropy": 1.7292368113994598,
      "epoch": 0.15940237840213123,
      "grad_norm": 0.7718958854675293,
      "learning_rate": 1.9884116568367197e-05,
      "loss": 1.3787,
      "mean_token_accuracy": 0.6554831564426422,
      "num_tokens": 241893683.0,
      "step": 1451
    },
    {
      "entropy": 1.722067544857661,
      "epoch": 0.15951223531350417,
      "grad_norm": 0.7179570198059082,
      "learning_rate": 1.9883860316806574e-05,
      "loss": 1.3341,
      "mean_token_accuracy": 0.6695725172758102,
      "num_tokens": 242045379.0,
      "step": 1452
    },
    {
      "entropy": 1.7238109707832336,
      "epoch": 0.1596220922248771,
      "grad_norm": 0.7079585790634155,
      "learning_rate": 1.9883603784075775e-05,
      "loss": 1.2653,
      "mean_token_accuracy": 0.668131892879804,
      "num_tokens": 242161184.0,
      "step": 1453
    },
    {
      "entropy": 1.7084789176781972,
      "epoch": 0.15973194913625002,
      "grad_norm": 0.7071990966796875,
      "learning_rate": 1.988334697018292e-05,
      "loss": 1.2958,
      "mean_token_accuracy": 0.6706744233767191,
      "num_tokens": 242318729.0,
      "step": 1454
    },
    {
      "entropy": 1.6312975188096364,
      "epoch": 0.15984180604762296,
      "grad_norm": 0.6232081055641174,
      "learning_rate": 1.9883089875136138e-05,
      "loss": 1.524,
      "mean_token_accuracy": 0.6439757943153381,
      "num_tokens": 242585751.0,
      "step": 1455
    },
    {
      "entropy": 1.730732500553131,
      "epoch": 0.1599516629589959,
      "grad_norm": 0.8543137311935425,
      "learning_rate": 1.9882832498943565e-05,
      "loss": 1.5473,
      "mean_token_accuracy": 0.650491843620936,
      "num_tokens": 242744635.0,
      "step": 1456
    },
    {
      "entropy": 1.7197604576746623,
      "epoch": 0.16006151987036885,
      "grad_norm": 0.6170863509178162,
      "learning_rate": 1.9882574841613343e-05,
      "loss": 1.3721,
      "mean_token_accuracy": 0.6532426675160726,
      "num_tokens": 242906122.0,
      "step": 1457
    },
    {
      "entropy": 1.6996217370033264,
      "epoch": 0.1601713767817418,
      "grad_norm": 0.6345753073692322,
      "learning_rate": 1.988231690315363e-05,
      "loss": 1.4325,
      "mean_token_accuracy": 0.6547591636578242,
      "num_tokens": 243090125.0,
      "step": 1458
    },
    {
      "entropy": 1.7933961947758992,
      "epoch": 0.16028123369311473,
      "grad_norm": 0.6274416446685791,
      "learning_rate": 1.9882058683572592e-05,
      "loss": 1.5511,
      "mean_token_accuracy": 0.6325584451357523,
      "num_tokens": 243343304.0,
      "step": 1459
    },
    {
      "entropy": 1.6818243861198425,
      "epoch": 0.16039109060448767,
      "grad_norm": 0.8472453355789185,
      "learning_rate": 1.9881800182878398e-05,
      "loss": 1.3233,
      "mean_token_accuracy": 0.6590960721174876,
      "num_tokens": 243460895.0,
      "step": 1460
    },
    {
      "entropy": 1.7377244929472606,
      "epoch": 0.16050094751586058,
      "grad_norm": 0.6753596067428589,
      "learning_rate": 1.988154140107923e-05,
      "loss": 1.3971,
      "mean_token_accuracy": 0.6536543518304825,
      "num_tokens": 243660279.0,
      "step": 1461
    },
    {
      "entropy": 1.7900232076644897,
      "epoch": 0.16061080442723352,
      "grad_norm": 0.7756820917129517,
      "learning_rate": 1.9881282338183277e-05,
      "loss": 1.3319,
      "mean_token_accuracy": 0.6654796799023946,
      "num_tokens": 243799068.0,
      "step": 1462
    },
    {
      "entropy": 1.659742573897044,
      "epoch": 0.16072066133860646,
      "grad_norm": 0.6284655332565308,
      "learning_rate": 1.9881022994198744e-05,
      "loss": 1.4305,
      "mean_token_accuracy": 0.65923244257768,
      "num_tokens": 243991348.0,
      "step": 1463
    },
    {
      "entropy": 1.7306521832942963,
      "epoch": 0.1608305182499794,
      "grad_norm": 0.6783806681632996,
      "learning_rate": 1.988076336913383e-05,
      "loss": 1.347,
      "mean_token_accuracy": 0.6588092744350433,
      "num_tokens": 244144588.0,
      "step": 1464
    },
    {
      "entropy": 1.690244237581889,
      "epoch": 0.16094037516135234,
      "grad_norm": 0.7397460341453552,
      "learning_rate": 1.9880503462996763e-05,
      "loss": 1.5079,
      "mean_token_accuracy": 0.6375847011804581,
      "num_tokens": 244393970.0,
      "step": 1465
    },
    {
      "entropy": 1.6876225968201954,
      "epoch": 0.16105023207272529,
      "grad_norm": 0.7748399376869202,
      "learning_rate": 1.9880243275795758e-05,
      "loss": 1.1538,
      "mean_token_accuracy": 0.6858840386072794,
      "num_tokens": 244502713.0,
      "step": 1466
    },
    {
      "entropy": 1.6742197672526042,
      "epoch": 0.1611600889840982,
      "grad_norm": 0.6609341502189636,
      "learning_rate": 1.987998280753906e-05,
      "loss": 1.2905,
      "mean_token_accuracy": 0.6699156562487284,
      "num_tokens": 244680505.0,
      "step": 1467
    },
    {
      "entropy": 1.8177895247936249,
      "epoch": 0.16126994589547114,
      "grad_norm": 0.6985216736793518,
      "learning_rate": 1.9879722058234903e-05,
      "loss": 1.419,
      "mean_token_accuracy": 0.6576731552680334,
      "num_tokens": 244816173.0,
      "step": 1468
    },
    {
      "entropy": 1.7414447963237762,
      "epoch": 0.16137980280684408,
      "grad_norm": 0.7506465911865234,
      "learning_rate": 1.9879461027891546e-05,
      "loss": 1.3904,
      "mean_token_accuracy": 0.6590597579876581,
      "num_tokens": 244951775.0,
      "step": 1469
    },
    {
      "entropy": 1.676265945037206,
      "epoch": 0.16148965971821702,
      "grad_norm": 0.5871666669845581,
      "learning_rate": 1.9879199716517247e-05,
      "loss": 1.2981,
      "mean_token_accuracy": 0.6679906199375788,
      "num_tokens": 245154813.0,
      "step": 1470
    },
    {
      "entropy": 1.7278977930545807,
      "epoch": 0.16159951662958996,
      "grad_norm": 0.6722689270973206,
      "learning_rate": 1.987893812412028e-05,
      "loss": 1.5139,
      "mean_token_accuracy": 0.6363293901085854,
      "num_tokens": 245349545.0,
      "step": 1471
    },
    {
      "entropy": 1.6537324488162994,
      "epoch": 0.1617093735409629,
      "grad_norm": 0.7102640867233276,
      "learning_rate": 1.9878676250708922e-05,
      "loss": 1.3051,
      "mean_token_accuracy": 0.6738253484169642,
      "num_tokens": 245523769.0,
      "step": 1472
    },
    {
      "entropy": 1.7391831477483113,
      "epoch": 0.16181923045233584,
      "grad_norm": 0.7415077090263367,
      "learning_rate": 1.9878414096291462e-05,
      "loss": 1.3022,
      "mean_token_accuracy": 0.6666351109743118,
      "num_tokens": 245682976.0,
      "step": 1473
    },
    {
      "entropy": 1.7627001007397969,
      "epoch": 0.16192908736370876,
      "grad_norm": 0.6851019263267517,
      "learning_rate": 1.9878151660876195e-05,
      "loss": 1.4372,
      "mean_token_accuracy": 0.6531008581320444,
      "num_tokens": 245828968.0,
      "step": 1474
    },
    {
      "entropy": 1.7610424359639485,
      "epoch": 0.1620389442750817,
      "grad_norm": 0.7833350896835327,
      "learning_rate": 1.9877888944471432e-05,
      "loss": 1.3799,
      "mean_token_accuracy": 0.6726367622613907,
      "num_tokens": 245963753.0,
      "step": 1475
    },
    {
      "entropy": 1.7145276069641113,
      "epoch": 0.16214880118645464,
      "grad_norm": 0.7759976983070374,
      "learning_rate": 1.9877625947085478e-05,
      "loss": 1.5535,
      "mean_token_accuracy": 0.6358107725779215,
      "num_tokens": 246109245.0,
      "step": 1476
    },
    {
      "entropy": 1.717542956272761,
      "epoch": 0.16225865809782758,
      "grad_norm": 0.6734223961830139,
      "learning_rate": 1.987736266872667e-05,
      "loss": 1.535,
      "mean_token_accuracy": 0.643081416686376,
      "num_tokens": 246266085.0,
      "step": 1477
    },
    {
      "entropy": 1.7120660841464996,
      "epoch": 0.16236851500920052,
      "grad_norm": 0.6512724161148071,
      "learning_rate": 1.987709910940333e-05,
      "loss": 1.3746,
      "mean_token_accuracy": 0.6628182381391525,
      "num_tokens": 246450821.0,
      "step": 1478
    },
    {
      "entropy": 1.7386384705702465,
      "epoch": 0.16247837192057346,
      "grad_norm": 1.0366206169128418,
      "learning_rate": 1.9876835269123806e-05,
      "loss": 1.4757,
      "mean_token_accuracy": 0.6452366163333257,
      "num_tokens": 246654303.0,
      "step": 1479
    },
    {
      "entropy": 1.7971782286961873,
      "epoch": 0.1625882288319464,
      "grad_norm": 0.6871124505996704,
      "learning_rate": 1.987657114789644e-05,
      "loss": 1.3246,
      "mean_token_accuracy": 0.6647598246733347,
      "num_tokens": 246766857.0,
      "step": 1480
    },
    {
      "entropy": 1.7070013185342152,
      "epoch": 0.16269808574331932,
      "grad_norm": 0.7218469381332397,
      "learning_rate": 1.98763067457296e-05,
      "loss": 1.4415,
      "mean_token_accuracy": 0.6488531132539114,
      "num_tokens": 246930724.0,
      "step": 1481
    },
    {
      "entropy": 1.6882566809654236,
      "epoch": 0.16280794265469226,
      "grad_norm": 0.6939437389373779,
      "learning_rate": 1.9876042062631655e-05,
      "loss": 1.3713,
      "mean_token_accuracy": 0.6539578934510549,
      "num_tokens": 247155211.0,
      "step": 1482
    },
    {
      "entropy": 1.6750567058722179,
      "epoch": 0.1629177995660652,
      "grad_norm": 0.5919098258018494,
      "learning_rate": 1.9875777098610973e-05,
      "loss": 1.3869,
      "mean_token_accuracy": 0.6595859378576279,
      "num_tokens": 247370725.0,
      "step": 1483
    },
    {
      "entropy": 1.6641695896784465,
      "epoch": 0.16302765647743814,
      "grad_norm": 0.6180868148803711,
      "learning_rate": 1.9875511853675952e-05,
      "loss": 1.5215,
      "mean_token_accuracy": 0.6372140099604925,
      "num_tokens": 247577638.0,
      "step": 1484
    },
    {
      "entropy": 1.641531765460968,
      "epoch": 0.16313751338881108,
      "grad_norm": 0.6315323710441589,
      "learning_rate": 1.9875246327834973e-05,
      "loss": 1.4135,
      "mean_token_accuracy": 0.647536481420199,
      "num_tokens": 247794309.0,
      "step": 1485
    },
    {
      "entropy": 1.7311479051907857,
      "epoch": 0.16324737030018402,
      "grad_norm": 0.6436353921890259,
      "learning_rate": 1.987498052109645e-05,
      "loss": 1.3109,
      "mean_token_accuracy": 0.6649970014890035,
      "num_tokens": 247932675.0,
      "step": 1486
    },
    {
      "entropy": 1.6989285945892334,
      "epoch": 0.16335722721155696,
      "grad_norm": 0.7341669201850891,
      "learning_rate": 1.9874714433468792e-05,
      "loss": 1.3223,
      "mean_token_accuracy": 0.6625909308592478,
      "num_tokens": 248085847.0,
      "step": 1487
    },
    {
      "entropy": 1.729597012201945,
      "epoch": 0.16346708412292987,
      "grad_norm": 0.6755861639976501,
      "learning_rate": 1.9874448064960422e-05,
      "loss": 1.502,
      "mean_token_accuracy": 0.6398074775934219,
      "num_tokens": 248277427.0,
      "step": 1488
    },
    {
      "entropy": 1.6631129284699757,
      "epoch": 0.16357694103430281,
      "grad_norm": 0.6498894095420837,
      "learning_rate": 1.987418141557977e-05,
      "loss": 1.2334,
      "mean_token_accuracy": 0.6779984682798386,
      "num_tokens": 248423875.0,
      "step": 1489
    },
    {
      "entropy": 1.7226392328739166,
      "epoch": 0.16368679794567575,
      "grad_norm": 0.5937130451202393,
      "learning_rate": 1.9873914485335274e-05,
      "loss": 1.4005,
      "mean_token_accuracy": 0.6503377507130305,
      "num_tokens": 248638269.0,
      "step": 1490
    },
    {
      "entropy": 1.7222268283367157,
      "epoch": 0.1637966548570487,
      "grad_norm": 0.7151001691818237,
      "learning_rate": 1.9873647274235384e-05,
      "loss": 1.4244,
      "mean_token_accuracy": 0.6669965138038,
      "num_tokens": 248764528.0,
      "step": 1491
    },
    {
      "entropy": 1.7631146212418873,
      "epoch": 0.16390651176842164,
      "grad_norm": 0.7749632000923157,
      "learning_rate": 1.9873379782288555e-05,
      "loss": 1.3909,
      "mean_token_accuracy": 0.6470388472080231,
      "num_tokens": 248911474.0,
      "step": 1492
    },
    {
      "entropy": 1.7954902946949005,
      "epoch": 0.16401636867979458,
      "grad_norm": 0.6423087120056152,
      "learning_rate": 1.9873112009503256e-05,
      "loss": 1.4206,
      "mean_token_accuracy": 0.649329255024592,
      "num_tokens": 249077416.0,
      "step": 1493
    },
    {
      "entropy": 1.6648548245429993,
      "epoch": 0.1641262255911675,
      "grad_norm": 0.9466790556907654,
      "learning_rate": 1.987284395588796e-05,
      "loss": 1.4267,
      "mean_token_accuracy": 0.6575258076190948,
      "num_tokens": 249211722.0,
      "step": 1494
    },
    {
      "entropy": 1.767043113708496,
      "epoch": 0.16423608250254043,
      "grad_norm": 0.6665019989013672,
      "learning_rate": 1.987257562145115e-05,
      "loss": 1.3619,
      "mean_token_accuracy": 0.6605860988299052,
      "num_tokens": 249442176.0,
      "step": 1495
    },
    {
      "entropy": 1.7210952043533325,
      "epoch": 0.16434593941391337,
      "grad_norm": 0.769982099533081,
      "learning_rate": 1.987230700620132e-05,
      "loss": 1.3586,
      "mean_token_accuracy": 0.6576197892427444,
      "num_tokens": 249569258.0,
      "step": 1496
    },
    {
      "entropy": 1.7499938607215881,
      "epoch": 0.1644557963252863,
      "grad_norm": 0.8687669634819031,
      "learning_rate": 1.987203811014697e-05,
      "loss": 1.4874,
      "mean_token_accuracy": 0.6517137040694555,
      "num_tokens": 249739841.0,
      "step": 1497
    },
    {
      "entropy": 1.7234773536523182,
      "epoch": 0.16456565323665925,
      "grad_norm": 0.7829402089118958,
      "learning_rate": 1.9871768933296616e-05,
      "loss": 1.3424,
      "mean_token_accuracy": 0.6686098178227743,
      "num_tokens": 249887148.0,
      "step": 1498
    },
    {
      "entropy": 1.7844958702723186,
      "epoch": 0.1646755101480322,
      "grad_norm": 0.7004623413085938,
      "learning_rate": 1.987149947565877e-05,
      "loss": 1.5753,
      "mean_token_accuracy": 0.6275525540113449,
      "num_tokens": 250106989.0,
      "step": 1499
    },
    {
      "entropy": 1.7767977714538574,
      "epoch": 0.16478536705940514,
      "grad_norm": 0.8283874988555908,
      "learning_rate": 1.9871229737241963e-05,
      "loss": 1.4238,
      "mean_token_accuracy": 0.6419435540835062,
      "num_tokens": 250244200.0,
      "step": 1500
    },
    {
      "entropy": 1.7311366498470306,
      "epoch": 0.16489522397077805,
      "grad_norm": 0.6668105125427246,
      "learning_rate": 1.9870959718054733e-05,
      "loss": 1.4291,
      "mean_token_accuracy": 0.6505243728558222,
      "num_tokens": 250418231.0,
      "step": 1501
    },
    {
      "entropy": 1.7808765669663746,
      "epoch": 0.165005080882151,
      "grad_norm": 0.6634812951087952,
      "learning_rate": 1.9870689418105623e-05,
      "loss": 1.3597,
      "mean_token_accuracy": 0.6567443857590357,
      "num_tokens": 250544059.0,
      "step": 1502
    },
    {
      "entropy": 1.7454225818316143,
      "epoch": 0.16511493779352393,
      "grad_norm": 0.7223145961761475,
      "learning_rate": 1.9870418837403194e-05,
      "loss": 1.4386,
      "mean_token_accuracy": 0.6378096987803777,
      "num_tokens": 250731948.0,
      "step": 1503
    },
    {
      "entropy": 1.7013043363889058,
      "epoch": 0.16522479470489687,
      "grad_norm": 0.712053656578064,
      "learning_rate": 1.9870147975956004e-05,
      "loss": 1.3979,
      "mean_token_accuracy": 0.6579237480958303,
      "num_tokens": 250889151.0,
      "step": 1504
    },
    {
      "entropy": 1.692932019631068,
      "epoch": 0.1653346516162698,
      "grad_norm": 0.7106614112854004,
      "learning_rate": 1.9869876833772625e-05,
      "loss": 1.5012,
      "mean_token_accuracy": 0.6438654214143753,
      "num_tokens": 251113024.0,
      "step": 1505
    },
    {
      "entropy": 1.7009440064430237,
      "epoch": 0.16544450852764275,
      "grad_norm": 0.7013898491859436,
      "learning_rate": 1.9869605410861646e-05,
      "loss": 1.2613,
      "mean_token_accuracy": 0.6773126920064291,
      "num_tokens": 251247569.0,
      "step": 1506
    },
    {
      "entropy": 1.7212568124135335,
      "epoch": 0.1655543654390157,
      "grad_norm": 0.6236050724983215,
      "learning_rate": 1.986933370723165e-05,
      "loss": 1.3193,
      "mean_token_accuracy": 0.6535242249568304,
      "num_tokens": 251385146.0,
      "step": 1507
    },
    {
      "entropy": 1.669597287972768,
      "epoch": 0.1656642223503886,
      "grad_norm": 0.7364504933357239,
      "learning_rate": 1.9869061722891235e-05,
      "loss": 1.2212,
      "mean_token_accuracy": 0.6872139424085617,
      "num_tokens": 251535729.0,
      "step": 1508
    },
    {
      "entropy": 1.7369881371657054,
      "epoch": 0.16577407926176155,
      "grad_norm": 0.7119384407997131,
      "learning_rate": 1.9868789457849018e-05,
      "loss": 1.4191,
      "mean_token_accuracy": 0.6483266254266103,
      "num_tokens": 251685078.0,
      "step": 1509
    },
    {
      "entropy": 1.7074172000090282,
      "epoch": 0.1658839361731345,
      "grad_norm": 0.5950348377227783,
      "learning_rate": 1.986851691211361e-05,
      "loss": 1.3744,
      "mean_token_accuracy": 0.6569475283225378,
      "num_tokens": 251863638.0,
      "step": 1510
    },
    {
      "entropy": 1.7139769693215687,
      "epoch": 0.16599379308450743,
      "grad_norm": 0.7062231302261353,
      "learning_rate": 1.986824408569364e-05,
      "loss": 1.3153,
      "mean_token_accuracy": 0.6584917455911636,
      "num_tokens": 252028124.0,
      "step": 1511
    },
    {
      "entropy": 1.774364709854126,
      "epoch": 0.16610364999588037,
      "grad_norm": 0.6657449007034302,
      "learning_rate": 1.9867970978597738e-05,
      "loss": 1.3523,
      "mean_token_accuracy": 0.6527550766865412,
      "num_tokens": 252189853.0,
      "step": 1512
    },
    {
      "entropy": 1.645888904730479,
      "epoch": 0.1662135069072533,
      "grad_norm": 1.011468768119812,
      "learning_rate": 1.9867697590834552e-05,
      "loss": 1.4475,
      "mean_token_accuracy": 0.6760109663009644,
      "num_tokens": 252391083.0,
      "step": 1513
    },
    {
      "entropy": 1.7124705612659454,
      "epoch": 0.16632336381862625,
      "grad_norm": 0.866172194480896,
      "learning_rate": 1.9867423922412732e-05,
      "loss": 1.3624,
      "mean_token_accuracy": 0.6526060750087103,
      "num_tokens": 252555620.0,
      "step": 1514
    },
    {
      "entropy": 1.7539417843023937,
      "epoch": 0.16643322072999917,
      "grad_norm": 0.7852609753608704,
      "learning_rate": 1.986714997334094e-05,
      "loss": 1.3325,
      "mean_token_accuracy": 0.6687429994344711,
      "num_tokens": 252705040.0,
      "step": 1515
    },
    {
      "entropy": 1.7840530971686046,
      "epoch": 0.1665430776413721,
      "grad_norm": 0.7107824087142944,
      "learning_rate": 1.9866875743627845e-05,
      "loss": 1.5625,
      "mean_token_accuracy": 0.6361605624357859,
      "num_tokens": 252910429.0,
      "step": 1516
    },
    {
      "entropy": 1.6945801079273224,
      "epoch": 0.16665293455274505,
      "grad_norm": 0.7252150177955627,
      "learning_rate": 1.9866601233282133e-05,
      "loss": 1.3175,
      "mean_token_accuracy": 0.6691045463085175,
      "num_tokens": 253035185.0,
      "step": 1517
    },
    {
      "entropy": 1.738978087902069,
      "epoch": 0.166762791464118,
      "grad_norm": 1.032089352607727,
      "learning_rate": 1.9866326442312485e-05,
      "loss": 1.574,
      "mean_token_accuracy": 0.6497288842995962,
      "num_tokens": 253196871.0,
      "step": 1518
    },
    {
      "entropy": 1.7240648766358693,
      "epoch": 0.16687264837549093,
      "grad_norm": 0.6749817132949829,
      "learning_rate": 1.9866051370727604e-05,
      "loss": 1.3699,
      "mean_token_accuracy": 0.6552683015664419,
      "num_tokens": 253352031.0,
      "step": 1519
    },
    {
      "entropy": 1.7319549322128296,
      "epoch": 0.16698250528686387,
      "grad_norm": 0.6335762143135071,
      "learning_rate": 1.9865776018536188e-05,
      "loss": 1.4646,
      "mean_token_accuracy": 0.6430019934972128,
      "num_tokens": 253511981.0,
      "step": 1520
    },
    {
      "entropy": 1.7338798642158508,
      "epoch": 0.1670923621982368,
      "grad_norm": 0.6900236010551453,
      "learning_rate": 1.9865500385746954e-05,
      "loss": 1.3692,
      "mean_token_accuracy": 0.6590522130330404,
      "num_tokens": 253663727.0,
      "step": 1521
    },
    {
      "entropy": 1.7445284326871235,
      "epoch": 0.16720221910960972,
      "grad_norm": 0.7063678503036499,
      "learning_rate": 1.9865224472368634e-05,
      "loss": 1.5004,
      "mean_token_accuracy": 0.6508728663126627,
      "num_tokens": 253860814.0,
      "step": 1522
    },
    {
      "entropy": 1.7685929238796234,
      "epoch": 0.16731207602098266,
      "grad_norm": 0.7194231152534485,
      "learning_rate": 1.986494827840995e-05,
      "loss": 1.3029,
      "mean_token_accuracy": 0.6638128211100897,
      "num_tokens": 253980941.0,
      "step": 1523
    },
    {
      "entropy": 1.750822017590205,
      "epoch": 0.1674219329323556,
      "grad_norm": 0.6481338143348694,
      "learning_rate": 1.9864671803879648e-05,
      "loss": 1.3924,
      "mean_token_accuracy": 0.6541791011889776,
      "num_tokens": 254148839.0,
      "step": 1524
    },
    {
      "entropy": 1.6678146918614705,
      "epoch": 0.16753178984372855,
      "grad_norm": 0.9855983257293701,
      "learning_rate": 1.9864395048786477e-05,
      "loss": 1.6043,
      "mean_token_accuracy": 0.6395136813322703,
      "num_tokens": 254354163.0,
      "step": 1525
    },
    {
      "entropy": 1.718589961528778,
      "epoch": 0.1676416467551015,
      "grad_norm": 0.8905704617500305,
      "learning_rate": 1.98641180131392e-05,
      "loss": 1.2566,
      "mean_token_accuracy": 0.6782409648100535,
      "num_tokens": 254504599.0,
      "step": 1526
    },
    {
      "entropy": 1.7314582268397014,
      "epoch": 0.16775150366647443,
      "grad_norm": 0.6675595641136169,
      "learning_rate": 1.986384069694658e-05,
      "loss": 1.4248,
      "mean_token_accuracy": 0.660760889450709,
      "num_tokens": 254671668.0,
      "step": 1527
    },
    {
      "entropy": 1.819986879825592,
      "epoch": 0.16786136057784734,
      "grad_norm": 0.7095764875411987,
      "learning_rate": 1.9863563100217397e-05,
      "loss": 1.5101,
      "mean_token_accuracy": 0.6234359592199326,
      "num_tokens": 254837716.0,
      "step": 1528
    },
    {
      "entropy": 1.6930086314678192,
      "epoch": 0.16797121748922028,
      "grad_norm": 0.7223114371299744,
      "learning_rate": 1.9863285222960436e-05,
      "loss": 1.3947,
      "mean_token_accuracy": 0.6587740182876587,
      "num_tokens": 255038553.0,
      "step": 1529
    },
    {
      "entropy": 1.7511506875356038,
      "epoch": 0.16808107440059322,
      "grad_norm": 0.6249548196792603,
      "learning_rate": 1.986300706518449e-05,
      "loss": 1.4064,
      "mean_token_accuracy": 0.6461884180704752,
      "num_tokens": 255246012.0,
      "step": 1530
    },
    {
      "entropy": 1.7595790127913158,
      "epoch": 0.16819093131196616,
      "grad_norm": 0.8911905288696289,
      "learning_rate": 1.9862728626898363e-05,
      "loss": 1.3936,
      "mean_token_accuracy": 0.6536350101232529,
      "num_tokens": 255406852.0,
      "step": 1531
    },
    {
      "entropy": 1.7233379284540813,
      "epoch": 0.1683007882233391,
      "grad_norm": 0.6526165008544922,
      "learning_rate": 1.9862449908110876e-05,
      "loss": 1.5453,
      "mean_token_accuracy": 0.6314892421166102,
      "num_tokens": 255600884.0,
      "step": 1532
    },
    {
      "entropy": 1.7559981842835743,
      "epoch": 0.16841064513471204,
      "grad_norm": 0.7608028054237366,
      "learning_rate": 1.9862170908830837e-05,
      "loss": 1.5887,
      "mean_token_accuracy": 0.6392476956049601,
      "num_tokens": 255762853.0,
      "step": 1533
    },
    {
      "entropy": 1.7382706304391224,
      "epoch": 0.16852050204608499,
      "grad_norm": 0.651728630065918,
      "learning_rate": 1.986189162906708e-05,
      "loss": 1.5546,
      "mean_token_accuracy": 0.6259034971396128,
      "num_tokens": 255989620.0,
      "step": 1534
    },
    {
      "entropy": 1.7760844230651855,
      "epoch": 0.1686303589574579,
      "grad_norm": 0.8464280366897583,
      "learning_rate": 1.986161206882845e-05,
      "loss": 1.309,
      "mean_token_accuracy": 0.6692384978135427,
      "num_tokens": 256139502.0,
      "step": 1535
    },
    {
      "entropy": 1.7130251824855804,
      "epoch": 0.16874021586883084,
      "grad_norm": 0.6570628881454468,
      "learning_rate": 1.986133222812379e-05,
      "loss": 1.3684,
      "mean_token_accuracy": 0.6575349122285843,
      "num_tokens": 256303217.0,
      "step": 1536
    },
    {
      "entropy": 1.746040016412735,
      "epoch": 0.16885007278020378,
      "grad_norm": 0.7733869552612305,
      "learning_rate": 1.986105210696196e-05,
      "loss": 1.4488,
      "mean_token_accuracy": 0.6521646479765574,
      "num_tokens": 256480152.0,
      "step": 1537
    },
    {
      "entropy": 1.7764933109283447,
      "epoch": 0.16895992969157672,
      "grad_norm": 0.8233133554458618,
      "learning_rate": 1.9860771705351822e-05,
      "loss": 1.453,
      "mean_token_accuracy": 0.6571964025497437,
      "num_tokens": 256621819.0,
      "step": 1538
    },
    {
      "entropy": 1.70499520500501,
      "epoch": 0.16906978660294966,
      "grad_norm": 0.7217221260070801,
      "learning_rate": 1.9860491023302252e-05,
      "loss": 1.4539,
      "mean_token_accuracy": 0.6460290650526682,
      "num_tokens": 256864065.0,
      "step": 1539
    },
    {
      "entropy": 1.6891511678695679,
      "epoch": 0.1691796435143226,
      "grad_norm": 0.7945336103439331,
      "learning_rate": 1.9860210060822137e-05,
      "loss": 1.4004,
      "mean_token_accuracy": 0.6728538970152537,
      "num_tokens": 257076992.0,
      "step": 1540
    },
    {
      "entropy": 1.7396195034186046,
      "epoch": 0.16928950042569554,
      "grad_norm": 0.7375956773757935,
      "learning_rate": 1.9859928817920363e-05,
      "loss": 1.3562,
      "mean_token_accuracy": 0.6567103415727615,
      "num_tokens": 257245992.0,
      "step": 1541
    },
    {
      "entropy": 1.7729649543762207,
      "epoch": 0.16939935733706846,
      "grad_norm": 0.5919457674026489,
      "learning_rate": 1.9859647294605832e-05,
      "loss": 1.3707,
      "mean_token_accuracy": 0.6635322074095408,
      "num_tokens": 257484248.0,
      "step": 1542
    },
    {
      "entropy": 1.7026795248190563,
      "epoch": 0.1695092142484414,
      "grad_norm": 0.7219969630241394,
      "learning_rate": 1.985936549088746e-05,
      "loss": 1.3216,
      "mean_token_accuracy": 0.6651143580675125,
      "num_tokens": 257612083.0,
      "step": 1543
    },
    {
      "entropy": 1.6986474494139354,
      "epoch": 0.16961907115981434,
      "grad_norm": 0.6384711861610413,
      "learning_rate": 1.985908340677416e-05,
      "loss": 1.2761,
      "mean_token_accuracy": 0.6821579784154892,
      "num_tokens": 257801207.0,
      "step": 1544
    },
    {
      "entropy": 1.740968902905782,
      "epoch": 0.16972892807118728,
      "grad_norm": 1.006049633026123,
      "learning_rate": 1.9858801042274865e-05,
      "loss": 1.6709,
      "mean_token_accuracy": 0.6359262764453888,
      "num_tokens": 257943835.0,
      "step": 1545
    },
    {
      "entropy": 1.761252890030543,
      "epoch": 0.16983878498256022,
      "grad_norm": 0.678752601146698,
      "learning_rate": 1.9858518397398506e-05,
      "loss": 1.3871,
      "mean_token_accuracy": 0.6560403803984324,
      "num_tokens": 258112452.0,
      "step": 1546
    },
    {
      "entropy": 1.7248517572879791,
      "epoch": 0.16994864189393316,
      "grad_norm": 0.6440653204917908,
      "learning_rate": 1.9858235472154035e-05,
      "loss": 1.3485,
      "mean_token_accuracy": 0.6657489885886511,
      "num_tokens": 258272795.0,
      "step": 1547
    },
    {
      "entropy": 1.7436510026454926,
      "epoch": 0.1700584988053061,
      "grad_norm": 0.6682828068733215,
      "learning_rate": 1.98579522665504e-05,
      "loss": 1.2871,
      "mean_token_accuracy": 0.6653337130943934,
      "num_tokens": 258421193.0,
      "step": 1548
    },
    {
      "entropy": 1.768191655476888,
      "epoch": 0.17016835571667902,
      "grad_norm": 0.6639819145202637,
      "learning_rate": 1.9857668780596566e-05,
      "loss": 1.3542,
      "mean_token_accuracy": 0.6570809185504913,
      "num_tokens": 258586838.0,
      "step": 1549
    },
    {
      "entropy": 1.7020961840947468,
      "epoch": 0.17027821262805196,
      "grad_norm": 0.713425874710083,
      "learning_rate": 1.985738501430151e-05,
      "loss": 1.4274,
      "mean_token_accuracy": 0.6487694978713989,
      "num_tokens": 258785508.0,
      "step": 1550
    },
    {
      "entropy": 1.7292237877845764,
      "epoch": 0.1703880695394249,
      "grad_norm": 0.6867907047271729,
      "learning_rate": 1.9857100967674207e-05,
      "loss": 1.4103,
      "mean_token_accuracy": 0.646657998363177,
      "num_tokens": 258951979.0,
      "step": 1551
    },
    {
      "entropy": 1.7403623362382252,
      "epoch": 0.17049792645079784,
      "grad_norm": 0.6921045780181885,
      "learning_rate": 1.985681664072365e-05,
      "loss": 1.4913,
      "mean_token_accuracy": 0.6297862927118937,
      "num_tokens": 259176216.0,
      "step": 1552
    },
    {
      "entropy": 1.7630130350589752,
      "epoch": 0.17060778336217078,
      "grad_norm": 0.6721217632293701,
      "learning_rate": 1.9856532033458838e-05,
      "loss": 1.349,
      "mean_token_accuracy": 0.6710087656974792,
      "num_tokens": 259352224.0,
      "step": 1553
    },
    {
      "entropy": 1.8647314310073853,
      "epoch": 0.17071764027354372,
      "grad_norm": 0.8853358626365662,
      "learning_rate": 1.985624714588878e-05,
      "loss": 1.4459,
      "mean_token_accuracy": 0.6719841261704763,
      "num_tokens": 259450105.0,
      "step": 1554
    },
    {
      "entropy": 1.7859836916128795,
      "epoch": 0.17082749718491663,
      "grad_norm": 0.7029029726982117,
      "learning_rate": 1.9855961978022487e-05,
      "loss": 1.3664,
      "mean_token_accuracy": 0.6556002298990885,
      "num_tokens": 259563607.0,
      "step": 1555
    },
    {
      "entropy": 1.7396026750405629,
      "epoch": 0.17093735409628957,
      "grad_norm": 0.9122359156608582,
      "learning_rate": 1.9855676529868987e-05,
      "loss": 1.4244,
      "mean_token_accuracy": 0.6562978277603785,
      "num_tokens": 259724551.0,
      "step": 1556
    },
    {
      "entropy": 1.6989874243736267,
      "epoch": 0.17104721100766251,
      "grad_norm": 0.7166799306869507,
      "learning_rate": 1.985539080143732e-05,
      "loss": 1.4114,
      "mean_token_accuracy": 0.6575746287902197,
      "num_tokens": 259892519.0,
      "step": 1557
    },
    {
      "entropy": 1.763812651236852,
      "epoch": 0.17115706791903545,
      "grad_norm": 0.8969507217407227,
      "learning_rate": 1.9855104792736523e-05,
      "loss": 1.2682,
      "mean_token_accuracy": 0.6701969256003698,
      "num_tokens": 260020525.0,
      "step": 1558
    },
    {
      "entropy": 1.6851574281851451,
      "epoch": 0.1712669248304084,
      "grad_norm": 0.6716583967208862,
      "learning_rate": 1.985481850377565e-05,
      "loss": 1.2937,
      "mean_token_accuracy": 0.6693290968736013,
      "num_tokens": 260173052.0,
      "step": 1559
    },
    {
      "entropy": 1.7508944670359294,
      "epoch": 0.17137678174178134,
      "grad_norm": 0.7718809247016907,
      "learning_rate": 1.9854531934563756e-05,
      "loss": 1.3227,
      "mean_token_accuracy": 0.6782904316981634,
      "num_tokens": 260302029.0,
      "step": 1560
    },
    {
      "entropy": 1.725020448366801,
      "epoch": 0.17148663865315428,
      "grad_norm": 0.6612850427627563,
      "learning_rate": 1.985424508510992e-05,
      "loss": 1.5275,
      "mean_token_accuracy": 0.6432696729898453,
      "num_tokens": 260518768.0,
      "step": 1561
    },
    {
      "entropy": 1.706325650215149,
      "epoch": 0.1715964955645272,
      "grad_norm": 0.6583466529846191,
      "learning_rate": 1.985395795542322e-05,
      "loss": 1.382,
      "mean_token_accuracy": 0.6552939414978027,
      "num_tokens": 260747412.0,
      "step": 1562
    },
    {
      "entropy": 1.7528244455655415,
      "epoch": 0.17170635247590013,
      "grad_norm": 0.6246992349624634,
      "learning_rate": 1.985367054551274e-05,
      "loss": 1.4976,
      "mean_token_accuracy": 0.6324788878361384,
      "num_tokens": 260942417.0,
      "step": 1563
    },
    {
      "entropy": 1.658085564772288,
      "epoch": 0.17181620938727307,
      "grad_norm": 0.8413445353507996,
      "learning_rate": 1.985338285538757e-05,
      "loss": 1.2427,
      "mean_token_accuracy": 0.6698757459719976,
      "num_tokens": 261082216.0,
      "step": 1564
    },
    {
      "entropy": 1.7026270429293315,
      "epoch": 0.171926066298646,
      "grad_norm": 0.6878015995025635,
      "learning_rate": 1.9853094885056824e-05,
      "loss": 1.3236,
      "mean_token_accuracy": 0.6607059886058172,
      "num_tokens": 261265341.0,
      "step": 1565
    },
    {
      "entropy": 1.7412429749965668,
      "epoch": 0.17203592321001895,
      "grad_norm": 0.6753911375999451,
      "learning_rate": 1.9852806634529617e-05,
      "loss": 1.5171,
      "mean_token_accuracy": 0.645161176721255,
      "num_tokens": 261451694.0,
      "step": 1566
    },
    {
      "entropy": 1.7042547861735027,
      "epoch": 0.1721457801213919,
      "grad_norm": 0.6290127635002136,
      "learning_rate": 1.985251810381507e-05,
      "loss": 1.3632,
      "mean_token_accuracy": 0.6557406087716421,
      "num_tokens": 261608260.0,
      "step": 1567
    },
    {
      "entropy": 1.707568456729253,
      "epoch": 0.17225563703276484,
      "grad_norm": 0.7598758935928345,
      "learning_rate": 1.985222929292231e-05,
      "loss": 1.5189,
      "mean_token_accuracy": 0.643217921257019,
      "num_tokens": 261830010.0,
      "step": 1568
    },
    {
      "entropy": 1.6917735834916432,
      "epoch": 0.17236549394413775,
      "grad_norm": 0.7184498906135559,
      "learning_rate": 1.9851940201860486e-05,
      "loss": 1.3412,
      "mean_token_accuracy": 0.656810333331426,
      "num_tokens": 261946266.0,
      "step": 1569
    },
    {
      "entropy": 1.723334978024165,
      "epoch": 0.1724753508555107,
      "grad_norm": 0.5953544974327087,
      "learning_rate": 1.985165083063874e-05,
      "loss": 1.437,
      "mean_token_accuracy": 0.638761967420578,
      "num_tokens": 262116192.0,
      "step": 1570
    },
    {
      "entropy": 1.7972069382667542,
      "epoch": 0.17258520776688363,
      "grad_norm": 0.8096028566360474,
      "learning_rate": 1.985136117926624e-05,
      "loss": 1.3684,
      "mean_token_accuracy": 0.6510176906983057,
      "num_tokens": 262310188.0,
      "step": 1571
    },
    {
      "entropy": 1.7401937345663707,
      "epoch": 0.17269506467825657,
      "grad_norm": 0.699908435344696,
      "learning_rate": 1.9851071247752144e-05,
      "loss": 1.512,
      "mean_token_accuracy": 0.6426756829023361,
      "num_tokens": 262485269.0,
      "step": 1572
    },
    {
      "entropy": 1.739349255959193,
      "epoch": 0.1728049215896295,
      "grad_norm": 0.7645807266235352,
      "learning_rate": 1.9850781036105628e-05,
      "loss": 1.3933,
      "mean_token_accuracy": 0.6666643818219503,
      "num_tokens": 262634754.0,
      "step": 1573
    },
    {
      "entropy": 1.7648814817269642,
      "epoch": 0.17291477850100245,
      "grad_norm": 0.5633745789527893,
      "learning_rate": 1.9850490544335883e-05,
      "loss": 1.4968,
      "mean_token_accuracy": 0.6367639104525248,
      "num_tokens": 262848023.0,
      "step": 1574
    },
    {
      "entropy": 1.7256119847297668,
      "epoch": 0.1730246354123754,
      "grad_norm": 0.7680408358573914,
      "learning_rate": 1.9850199772452102e-05,
      "loss": 1.2459,
      "mean_token_accuracy": 0.6759609977404276,
      "num_tokens": 262952079.0,
      "step": 1575
    },
    {
      "entropy": 1.7688967287540436,
      "epoch": 0.1731344923237483,
      "grad_norm": 0.7607701420783997,
      "learning_rate": 1.9849908720463483e-05,
      "loss": 1.686,
      "mean_token_accuracy": 0.6304403940836588,
      "num_tokens": 263123172.0,
      "step": 1576
    },
    {
      "entropy": 1.7065779368082683,
      "epoch": 0.17324434923512125,
      "grad_norm": 0.7314710021018982,
      "learning_rate": 1.9849617388379243e-05,
      "loss": 1.3961,
      "mean_token_accuracy": 0.662748172879219,
      "num_tokens": 263287696.0,
      "step": 1577
    },
    {
      "entropy": 1.7852273086706798,
      "epoch": 0.1733542061464942,
      "grad_norm": 0.7075253129005432,
      "learning_rate": 1.9849325776208597e-05,
      "loss": 1.5109,
      "mean_token_accuracy": 0.6389070451259613,
      "num_tokens": 263463542.0,
      "step": 1578
    },
    {
      "entropy": 1.759129822254181,
      "epoch": 0.17346406305786713,
      "grad_norm": 0.6782553791999817,
      "learning_rate": 1.984903388396078e-05,
      "loss": 1.3754,
      "mean_token_accuracy": 0.66612375775973,
      "num_tokens": 263611324.0,
      "step": 1579
    },
    {
      "entropy": 1.7275327742099762,
      "epoch": 0.17357391996924007,
      "grad_norm": 0.6759166121482849,
      "learning_rate": 1.984874171164503e-05,
      "loss": 1.4564,
      "mean_token_accuracy": 0.6484881341457367,
      "num_tokens": 263803481.0,
      "step": 1580
    },
    {
      "entropy": 1.7481872042020161,
      "epoch": 0.173683776880613,
      "grad_norm": 0.7830897569656372,
      "learning_rate": 1.9848449259270594e-05,
      "loss": 1.4403,
      "mean_token_accuracy": 0.6442924290895462,
      "num_tokens": 263980547.0,
      "step": 1581
    },
    {
      "entropy": 1.6898111701011658,
      "epoch": 0.17379363379198595,
      "grad_norm": 0.7016710638999939,
      "learning_rate": 1.984815652684672e-05,
      "loss": 1.2634,
      "mean_token_accuracy": 0.677551324168841,
      "num_tokens": 264100476.0,
      "step": 1582
    },
    {
      "entropy": 1.756488412618637,
      "epoch": 0.17390349070335887,
      "grad_norm": 0.725829005241394,
      "learning_rate": 1.9847863514382684e-05,
      "loss": 1.3736,
      "mean_token_accuracy": 0.6665743341048559,
      "num_tokens": 264267717.0,
      "step": 1583
    },
    {
      "entropy": 1.7239744464556377,
      "epoch": 0.1740133476147318,
      "grad_norm": 0.7309584617614746,
      "learning_rate": 1.9847570221887752e-05,
      "loss": 1.4512,
      "mean_token_accuracy": 0.6631620625654856,
      "num_tokens": 264435736.0,
      "step": 1584
    },
    {
      "entropy": 1.754454771677653,
      "epoch": 0.17412320452610475,
      "grad_norm": 0.7535955905914307,
      "learning_rate": 1.984727664937121e-05,
      "loss": 1.3803,
      "mean_token_accuracy": 0.6569480895996094,
      "num_tokens": 264575234.0,
      "step": 1585
    },
    {
      "entropy": 1.7318914433320363,
      "epoch": 0.1742330614374777,
      "grad_norm": 0.7644667625427246,
      "learning_rate": 1.9846982796842348e-05,
      "loss": 1.3139,
      "mean_token_accuracy": 0.6594865024089813,
      "num_tokens": 264726884.0,
      "step": 1586
    },
    {
      "entropy": 1.716256360212962,
      "epoch": 0.17434291834885063,
      "grad_norm": 0.9378094673156738,
      "learning_rate": 1.9846688664310466e-05,
      "loss": 1.3089,
      "mean_token_accuracy": 0.6705767214298248,
      "num_tokens": 264888577.0,
      "step": 1587
    },
    {
      "entropy": 1.7499485909938812,
      "epoch": 0.17445277526022357,
      "grad_norm": 0.6963350772857666,
      "learning_rate": 1.9846394251784878e-05,
      "loss": 1.3224,
      "mean_token_accuracy": 0.6636629452308019,
      "num_tokens": 265017805.0,
      "step": 1588
    },
    {
      "entropy": 1.6987595359484355,
      "epoch": 0.17456263217159648,
      "grad_norm": 0.549950122833252,
      "learning_rate": 1.9846099559274896e-05,
      "loss": 1.445,
      "mean_token_accuracy": 0.6353604396184286,
      "num_tokens": 265263719.0,
      "step": 1589
    },
    {
      "entropy": 1.663997044165929,
      "epoch": 0.17467248908296942,
      "grad_norm": 0.6349430680274963,
      "learning_rate": 1.9845804586789846e-05,
      "loss": 1.497,
      "mean_token_accuracy": 0.6526202807823817,
      "num_tokens": 265452023.0,
      "step": 1590
    },
    {
      "entropy": 1.7305479149023693,
      "epoch": 0.17478234599434236,
      "grad_norm": 0.641980767250061,
      "learning_rate": 1.984550933433907e-05,
      "loss": 1.5094,
      "mean_token_accuracy": 0.6398686319589615,
      "num_tokens": 265639435.0,
      "step": 1591
    },
    {
      "entropy": 1.7175764441490173,
      "epoch": 0.1748922029057153,
      "grad_norm": 0.6882075071334839,
      "learning_rate": 1.9845213801931912e-05,
      "loss": 1.5512,
      "mean_token_accuracy": 0.6555089851220449,
      "num_tokens": 265805955.0,
      "step": 1592
    },
    {
      "entropy": 1.7594363292058308,
      "epoch": 0.17500205981708825,
      "grad_norm": 0.6819611191749573,
      "learning_rate": 1.984491798957772e-05,
      "loss": 1.6119,
      "mean_token_accuracy": 0.623213991522789,
      "num_tokens": 265979623.0,
      "step": 1593
    },
    {
      "entropy": 1.6993054151535034,
      "epoch": 0.1751119167284612,
      "grad_norm": 0.6733065843582153,
      "learning_rate": 1.9844621897285857e-05,
      "loss": 1.3148,
      "mean_token_accuracy": 0.6543001731236776,
      "num_tokens": 266115341.0,
      "step": 1594
    },
    {
      "entropy": 1.633053998152415,
      "epoch": 0.17522177363983413,
      "grad_norm": 0.7140861749649048,
      "learning_rate": 1.9844325525065703e-05,
      "loss": 1.3898,
      "mean_token_accuracy": 0.6798456112543741,
      "num_tokens": 266245546.0,
      "step": 1595
    },
    {
      "entropy": 1.7286945780118306,
      "epoch": 0.17533163055120704,
      "grad_norm": 0.7508774399757385,
      "learning_rate": 1.9844028872926624e-05,
      "loss": 1.5096,
      "mean_token_accuracy": 0.6422994434833527,
      "num_tokens": 266441953.0,
      "step": 1596
    },
    {
      "entropy": 1.6760883927345276,
      "epoch": 0.17544148746257998,
      "grad_norm": 0.6171284317970276,
      "learning_rate": 1.984373194087802e-05,
      "loss": 1.3983,
      "mean_token_accuracy": 0.6639473040898641,
      "num_tokens": 266596780.0,
      "step": 1597
    },
    {
      "entropy": 1.6912609040737152,
      "epoch": 0.17555134437395292,
      "grad_norm": 0.6284732818603516,
      "learning_rate": 1.9843434728929287e-05,
      "loss": 1.2327,
      "mean_token_accuracy": 0.6864048341910044,
      "num_tokens": 266738616.0,
      "step": 1598
    },
    {
      "entropy": 1.6915510594844818,
      "epoch": 0.17566120128532586,
      "grad_norm": 0.6584773063659668,
      "learning_rate": 1.9843137237089825e-05,
      "loss": 1.3557,
      "mean_token_accuracy": 0.6557959119478861,
      "num_tokens": 266897766.0,
      "step": 1599
    },
    {
      "entropy": 1.7651262879371643,
      "epoch": 0.1757710581966988,
      "grad_norm": 0.8828444480895996,
      "learning_rate": 1.984283946536906e-05,
      "loss": 1.4619,
      "mean_token_accuracy": 0.6481021742026011,
      "num_tokens": 267065155.0,
      "step": 1600
    },
    {
      "entropy": 1.8013077477614086,
      "epoch": 0.17588091510807174,
      "grad_norm": 0.685353696346283,
      "learning_rate": 1.9842541413776405e-05,
      "loss": 1.3999,
      "mean_token_accuracy": 0.6464814196030298,
      "num_tokens": 267229641.0,
      "step": 1601
    },
    {
      "entropy": 1.8050518830617268,
      "epoch": 0.17599077201944469,
      "grad_norm": 0.8125794529914856,
      "learning_rate": 1.98422430823213e-05,
      "loss": 1.5728,
      "mean_token_accuracy": 0.6321427176396052,
      "num_tokens": 267378156.0,
      "step": 1602
    },
    {
      "entropy": 1.651296724875768,
      "epoch": 0.1761006289308176,
      "grad_norm": 0.6428789496421814,
      "learning_rate": 1.984194447101319e-05,
      "loss": 1.3641,
      "mean_token_accuracy": 0.6623906741539637,
      "num_tokens": 267590605.0,
      "step": 1603
    },
    {
      "entropy": 1.7778548002243042,
      "epoch": 0.17621048584219054,
      "grad_norm": 0.6255530118942261,
      "learning_rate": 1.984164557986152e-05,
      "loss": 1.4539,
      "mean_token_accuracy": 0.6396249979734421,
      "num_tokens": 267756215.0,
      "step": 1604
    },
    {
      "entropy": 1.6877602239449818,
      "epoch": 0.17632034275356348,
      "grad_norm": 0.7188239693641663,
      "learning_rate": 1.984134640887575e-05,
      "loss": 1.4997,
      "mean_token_accuracy": 0.6404122064510981,
      "num_tokens": 268034363.0,
      "step": 1605
    },
    {
      "entropy": 1.760389010111491,
      "epoch": 0.17643019966493642,
      "grad_norm": 0.758726954460144,
      "learning_rate": 1.984104695806535e-05,
      "loss": 1.3262,
      "mean_token_accuracy": 0.6760849605003992,
      "num_tokens": 268157355.0,
      "step": 1606
    },
    {
      "entropy": 1.6769930223623912,
      "epoch": 0.17654005657630936,
      "grad_norm": 0.6320821642875671,
      "learning_rate": 1.98407472274398e-05,
      "loss": 1.4481,
      "mean_token_accuracy": 0.6526689926783243,
      "num_tokens": 268370854.0,
      "step": 1607
    },
    {
      "entropy": 1.7059557735919952,
      "epoch": 0.1766499134876823,
      "grad_norm": 0.5866220593452454,
      "learning_rate": 1.9840447217008583e-05,
      "loss": 1.4575,
      "mean_token_accuracy": 0.6406320333480835,
      "num_tokens": 268603959.0,
      "step": 1608
    },
    {
      "entropy": 1.6889616250991821,
      "epoch": 0.17675977039905524,
      "grad_norm": 0.802364706993103,
      "learning_rate": 1.9840146926781193e-05,
      "loss": 1.3417,
      "mean_token_accuracy": 0.6644609669844309,
      "num_tokens": 268784211.0,
      "step": 1609
    },
    {
      "entropy": 1.7760377724965413,
      "epoch": 0.17686962731042816,
      "grad_norm": 0.760371744632721,
      "learning_rate": 1.9839846356767135e-05,
      "loss": 1.5012,
      "mean_token_accuracy": 0.6282084981600443,
      "num_tokens": 268997493.0,
      "step": 1610
    },
    {
      "entropy": 1.750706394513448,
      "epoch": 0.1769794842218011,
      "grad_norm": 0.8299148678779602,
      "learning_rate": 1.983954550697593e-05,
      "loss": 1.3053,
      "mean_token_accuracy": 0.6595065792401632,
      "num_tokens": 269102555.0,
      "step": 1611
    },
    {
      "entropy": 1.7330009837945302,
      "epoch": 0.17708934113317404,
      "grad_norm": 0.6234577298164368,
      "learning_rate": 1.9839244377417087e-05,
      "loss": 1.4342,
      "mean_token_accuracy": 0.6495455453793207,
      "num_tokens": 269270569.0,
      "step": 1612
    },
    {
      "entropy": 1.712340384721756,
      "epoch": 0.17719919804454698,
      "grad_norm": 0.6255055069923401,
      "learning_rate": 1.9838942968100145e-05,
      "loss": 1.4671,
      "mean_token_accuracy": 0.6483869006236395,
      "num_tokens": 269488489.0,
      "step": 1613
    },
    {
      "entropy": 1.6904551486174266,
      "epoch": 0.17730905495591992,
      "grad_norm": 1.2697219848632812,
      "learning_rate": 1.983864127903464e-05,
      "loss": 1.229,
      "mean_token_accuracy": 0.6800280114014944,
      "num_tokens": 269745519.0,
      "step": 1614
    },
    {
      "entropy": 1.7634007533391316,
      "epoch": 0.17741891186729286,
      "grad_norm": 0.6574758291244507,
      "learning_rate": 1.9838339310230123e-05,
      "loss": 1.4662,
      "mean_token_accuracy": 0.6376509219408035,
      "num_tokens": 269926677.0,
      "step": 1615
    },
    {
      "entropy": 1.6982669830322266,
      "epoch": 0.17752876877866577,
      "grad_norm": 1.7531147003173828,
      "learning_rate": 1.983803706169615e-05,
      "loss": 1.0775,
      "mean_token_accuracy": 0.6754929721355438,
      "num_tokens": 270145004.0,
      "step": 1616
    },
    {
      "entropy": 1.7733216385046642,
      "epoch": 0.17763862569003872,
      "grad_norm": 0.7520893216133118,
      "learning_rate": 1.983773453344228e-05,
      "loss": 1.4172,
      "mean_token_accuracy": 0.6514776547749838,
      "num_tokens": 270295428.0,
      "step": 1617
    },
    {
      "entropy": 1.7757883270581563,
      "epoch": 0.17774848260141166,
      "grad_norm": 0.6765945553779602,
      "learning_rate": 1.98374317254781e-05,
      "loss": 1.3595,
      "mean_token_accuracy": 0.661077231168747,
      "num_tokens": 270507846.0,
      "step": 1618
    },
    {
      "entropy": 1.7714926997820537,
      "epoch": 0.1778583395127846,
      "grad_norm": 0.8542430400848389,
      "learning_rate": 1.9837128637813187e-05,
      "loss": 1.4031,
      "mean_token_accuracy": 0.6585122595230738,
      "num_tokens": 270682825.0,
      "step": 1619
    },
    {
      "entropy": 1.7776615619659424,
      "epoch": 0.17796819642415754,
      "grad_norm": 0.7186983823776245,
      "learning_rate": 1.9836825270457133e-05,
      "loss": 1.3677,
      "mean_token_accuracy": 0.6544285813967387,
      "num_tokens": 270818145.0,
      "step": 1620
    },
    {
      "entropy": 1.7131075461705525,
      "epoch": 0.17807805333553048,
      "grad_norm": 0.5991750359535217,
      "learning_rate": 1.9836521623419546e-05,
      "loss": 1.3429,
      "mean_token_accuracy": 0.6644314974546432,
      "num_tokens": 270978762.0,
      "step": 1621
    },
    {
      "entropy": 1.704333871603012,
      "epoch": 0.17818791024690342,
      "grad_norm": 0.9044831395149231,
      "learning_rate": 1.983621769671003e-05,
      "loss": 1.4033,
      "mean_token_accuracy": 0.6686131457487742,
      "num_tokens": 271125197.0,
      "step": 1622
    },
    {
      "entropy": 1.7072937885920207,
      "epoch": 0.17829776715827633,
      "grad_norm": 0.6216189861297607,
      "learning_rate": 1.98359134903382e-05,
      "loss": 1.4799,
      "mean_token_accuracy": 0.6512039552132288,
      "num_tokens": 271319205.0,
      "step": 1623
    },
    {
      "entropy": 1.6969341238339741,
      "epoch": 0.17840762406964927,
      "grad_norm": 0.8598399758338928,
      "learning_rate": 1.9835609004313693e-05,
      "loss": 1.3197,
      "mean_token_accuracy": 0.6660919090112051,
      "num_tokens": 271482991.0,
      "step": 1624
    },
    {
      "entropy": 1.7475373148918152,
      "epoch": 0.17851748098102221,
      "grad_norm": 0.8220011591911316,
      "learning_rate": 1.9835304238646146e-05,
      "loss": 1.3325,
      "mean_token_accuracy": 0.6602373421192169,
      "num_tokens": 271615079.0,
      "step": 1625
    },
    {
      "entropy": 1.7845442990461986,
      "epoch": 0.17862733789239515,
      "grad_norm": 0.7265953421592712,
      "learning_rate": 1.9834999193345197e-05,
      "loss": 1.2799,
      "mean_token_accuracy": 0.6676252981026968,
      "num_tokens": 271737120.0,
      "step": 1626
    },
    {
      "entropy": 1.7501579523086548,
      "epoch": 0.1787371948037681,
      "grad_norm": 0.6195200681686401,
      "learning_rate": 1.9834693868420505e-05,
      "loss": 1.4889,
      "mean_token_accuracy": 0.643327941497167,
      "num_tokens": 271926352.0,
      "step": 1627
    },
    {
      "entropy": 1.7393087645371754,
      "epoch": 0.17884705171514104,
      "grad_norm": 0.8133971095085144,
      "learning_rate": 1.9834388263881736e-05,
      "loss": 1.4181,
      "mean_token_accuracy": 0.6791380792856216,
      "num_tokens": 272038740.0,
      "step": 1628
    },
    {
      "entropy": 1.6529111862182617,
      "epoch": 0.17895690862651398,
      "grad_norm": 0.653113603591919,
      "learning_rate": 1.9834082379738556e-05,
      "loss": 1.4357,
      "mean_token_accuracy": 0.6570485532283783,
      "num_tokens": 272226850.0,
      "step": 1629
    },
    {
      "entropy": 1.701356291770935,
      "epoch": 0.1790667655378869,
      "grad_norm": 0.7334955334663391,
      "learning_rate": 1.983377621600065e-05,
      "loss": 1.3291,
      "mean_token_accuracy": 0.6579341193040212,
      "num_tokens": 272393860.0,
      "step": 1630
    },
    {
      "entropy": 1.7137031455834706,
      "epoch": 0.17917662244925983,
      "grad_norm": 0.6799026727676392,
      "learning_rate": 1.983346977267771e-05,
      "loss": 1.4359,
      "mean_token_accuracy": 0.6577520171801249,
      "num_tokens": 272577442.0,
      "step": 1631
    },
    {
      "entropy": 1.7033151189486186,
      "epoch": 0.17928647936063277,
      "grad_norm": 0.7878915071487427,
      "learning_rate": 1.983316304977943e-05,
      "loss": 1.4819,
      "mean_token_accuracy": 0.6430552899837494,
      "num_tokens": 272770738.0,
      "step": 1632
    },
    {
      "entropy": 1.6933635870615642,
      "epoch": 0.1793963362720057,
      "grad_norm": 0.7030259966850281,
      "learning_rate": 1.9832856047315522e-05,
      "loss": 1.3218,
      "mean_token_accuracy": 0.6660377085208893,
      "num_tokens": 272972512.0,
      "step": 1633
    },
    {
      "entropy": 1.767316649357478,
      "epoch": 0.17950619318337865,
      "grad_norm": 0.6197423934936523,
      "learning_rate": 1.9832548765295696e-05,
      "loss": 1.4417,
      "mean_token_accuracy": 0.6372250666220983,
      "num_tokens": 273161984.0,
      "step": 1634
    },
    {
      "entropy": 1.6606941322485607,
      "epoch": 0.1796160500947516,
      "grad_norm": 0.6114673614501953,
      "learning_rate": 1.9832241203729684e-05,
      "loss": 1.4749,
      "mean_token_accuracy": 0.649383544921875,
      "num_tokens": 273362338.0,
      "step": 1635
    },
    {
      "entropy": 1.757198413213094,
      "epoch": 0.17972590700612454,
      "grad_norm": 0.7329999208450317,
      "learning_rate": 1.9831933362627215e-05,
      "loss": 1.5256,
      "mean_token_accuracy": 0.6449063618977865,
      "num_tokens": 273550420.0,
      "step": 1636
    },
    {
      "entropy": 1.7132985492547352,
      "epoch": 0.17983576391749745,
      "grad_norm": 0.72648024559021,
      "learning_rate": 1.983162524199804e-05,
      "loss": 1.5848,
      "mean_token_accuracy": 0.6244159291187922,
      "num_tokens": 273767744.0,
      "step": 1637
    },
    {
      "entropy": 1.7032330830891926,
      "epoch": 0.1799456208288704,
      "grad_norm": 0.7133116126060486,
      "learning_rate": 1.9831316841851906e-05,
      "loss": 1.4667,
      "mean_token_accuracy": 0.6442908545335134,
      "num_tokens": 274002746.0,
      "step": 1638
    },
    {
      "entropy": 1.700139433145523,
      "epoch": 0.18005547774024333,
      "grad_norm": 0.662652850151062,
      "learning_rate": 1.9831008162198565e-05,
      "loss": 1.3707,
      "mean_token_accuracy": 0.6429425726334254,
      "num_tokens": 274183020.0,
      "step": 1639
    },
    {
      "entropy": 1.700132042169571,
      "epoch": 0.18016533465161627,
      "grad_norm": 0.7111302018165588,
      "learning_rate": 1.9830699203047804e-05,
      "loss": 1.4556,
      "mean_token_accuracy": 0.6517406602700552,
      "num_tokens": 274383586.0,
      "step": 1640
    },
    {
      "entropy": 1.7377035915851593,
      "epoch": 0.1802751915629892,
      "grad_norm": 0.7069066762924194,
      "learning_rate": 1.983038996440939e-05,
      "loss": 1.3404,
      "mean_token_accuracy": 0.6645782341559728,
      "num_tokens": 274524820.0,
      "step": 1641
    },
    {
      "entropy": 1.7640187640984852,
      "epoch": 0.18038504847436215,
      "grad_norm": 0.7231025099754333,
      "learning_rate": 1.983008044629311e-05,
      "loss": 1.3854,
      "mean_token_accuracy": 0.6507704704999924,
      "num_tokens": 274656672.0,
      "step": 1642
    },
    {
      "entropy": 1.728807379802068,
      "epoch": 0.1804949053857351,
      "grad_norm": 0.6958527565002441,
      "learning_rate": 1.9829770648708764e-05,
      "loss": 1.4108,
      "mean_token_accuracy": 0.6552976568539938,
      "num_tokens": 274853709.0,
      "step": 1643
    },
    {
      "entropy": 1.7781054377555847,
      "epoch": 0.180604762297108,
      "grad_norm": 0.8837335705757141,
      "learning_rate": 1.9829460571666156e-05,
      "loss": 1.4283,
      "mean_token_accuracy": 0.6518157124519348,
      "num_tokens": 274988556.0,
      "step": 1644
    },
    {
      "entropy": 1.7898385723431904,
      "epoch": 0.18071461920848095,
      "grad_norm": 0.801447331905365,
      "learning_rate": 1.9829150215175103e-05,
      "loss": 1.5257,
      "mean_token_accuracy": 0.6439861307541529,
      "num_tokens": 275141877.0,
      "step": 1645
    },
    {
      "entropy": 1.6892934044202168,
      "epoch": 0.1808244761198539,
      "grad_norm": 0.621210515499115,
      "learning_rate": 1.982883957924542e-05,
      "loss": 1.337,
      "mean_token_accuracy": 0.6619320660829544,
      "num_tokens": 275286921.0,
      "step": 1646
    },
    {
      "entropy": 1.7738712231318157,
      "epoch": 0.18093433303122683,
      "grad_norm": 0.7250021696090698,
      "learning_rate": 1.9828528663886946e-05,
      "loss": 1.4375,
      "mean_token_accuracy": 0.6405630757411321,
      "num_tokens": 275465643.0,
      "step": 1647
    },
    {
      "entropy": 1.7501648565133412,
      "epoch": 0.18104418994259977,
      "grad_norm": 0.7406297326087952,
      "learning_rate": 1.9828217469109514e-05,
      "loss": 1.6333,
      "mean_token_accuracy": 0.631665957470735,
      "num_tokens": 275636335.0,
      "step": 1648
    },
    {
      "entropy": 1.7328572471936543,
      "epoch": 0.1811540468539727,
      "grad_norm": 0.7023396492004395,
      "learning_rate": 1.982790599492298e-05,
      "loss": 1.3489,
      "mean_token_accuracy": 0.6668912867705027,
      "num_tokens": 275778888.0,
      "step": 1649
    },
    {
      "entropy": 1.7373796900113423,
      "epoch": 0.18126390376534562,
      "grad_norm": 0.6394554376602173,
      "learning_rate": 1.9827594241337196e-05,
      "loss": 1.2949,
      "mean_token_accuracy": 0.6552981982628504,
      "num_tokens": 275936865.0,
      "step": 1650
    },
    {
      "entropy": 1.6960271497567494,
      "epoch": 0.18137376067671857,
      "grad_norm": 0.6193222403526306,
      "learning_rate": 1.9827282208362034e-05,
      "loss": 1.3971,
      "mean_token_accuracy": 0.6560710817575455,
      "num_tokens": 276084652.0,
      "step": 1651
    },
    {
      "entropy": 1.747694154580434,
      "epoch": 0.1814836175880915,
      "grad_norm": 0.6936965584754944,
      "learning_rate": 1.982696989600737e-05,
      "loss": 1.3516,
      "mean_token_accuracy": 0.6600579669078191,
      "num_tokens": 276264605.0,
      "step": 1652
    },
    {
      "entropy": 1.7094822824001312,
      "epoch": 0.18159347449946445,
      "grad_norm": 0.7348982095718384,
      "learning_rate": 1.9826657304283085e-05,
      "loss": 1.3374,
      "mean_token_accuracy": 0.6641669621070226,
      "num_tokens": 276425397.0,
      "step": 1653
    },
    {
      "entropy": 1.7678433259328206,
      "epoch": 0.1817033314108374,
      "grad_norm": 0.6787462830543518,
      "learning_rate": 1.982634443319907e-05,
      "loss": 1.4428,
      "mean_token_accuracy": 0.6486629645029703,
      "num_tokens": 276586282.0,
      "step": 1654
    },
    {
      "entropy": 1.7211858630180359,
      "epoch": 0.18181318832221033,
      "grad_norm": 0.6997633576393127,
      "learning_rate": 1.9826031282765233e-05,
      "loss": 1.3731,
      "mean_token_accuracy": 0.6508075048526129,
      "num_tokens": 276786867.0,
      "step": 1655
    },
    {
      "entropy": 1.7509803275267284,
      "epoch": 0.18192304523358327,
      "grad_norm": 0.7596442699432373,
      "learning_rate": 1.9825717852991487e-05,
      "loss": 1.4368,
      "mean_token_accuracy": 0.6510319958130518,
      "num_tokens": 276926610.0,
      "step": 1656
    },
    {
      "entropy": 1.7846331695715587,
      "epoch": 0.18203290214495618,
      "grad_norm": 0.7824363708496094,
      "learning_rate": 1.9825404143887746e-05,
      "loss": 1.5756,
      "mean_token_accuracy": 0.6446571896473566,
      "num_tokens": 277112438.0,
      "step": 1657
    },
    {
      "entropy": 1.7570526401201885,
      "epoch": 0.18214275905632912,
      "grad_norm": 0.7908049821853638,
      "learning_rate": 1.9825090155463936e-05,
      "loss": 1.3862,
      "mean_token_accuracy": 0.6663278043270111,
      "num_tokens": 277257253.0,
      "step": 1658
    },
    {
      "entropy": 1.6966181596120198,
      "epoch": 0.18225261596770206,
      "grad_norm": 0.7348120808601379,
      "learning_rate": 1.9824775887730006e-05,
      "loss": 1.2518,
      "mean_token_accuracy": 0.6801349520683289,
      "num_tokens": 277366545.0,
      "step": 1659
    },
    {
      "entropy": 1.7101906538009644,
      "epoch": 0.182362472879075,
      "grad_norm": 0.7664896845817566,
      "learning_rate": 1.9824461340695892e-05,
      "loss": 1.6055,
      "mean_token_accuracy": 0.6423424060146014,
      "num_tokens": 277553846.0,
      "step": 1660
    },
    {
      "entropy": 1.6806841989358265,
      "epoch": 0.18247232979044795,
      "grad_norm": 0.5992354154586792,
      "learning_rate": 1.9824146514371553e-05,
      "loss": 1.4604,
      "mean_token_accuracy": 0.6359513700008392,
      "num_tokens": 277779533.0,
      "step": 1661
    },
    {
      "entropy": 1.7670801480611165,
      "epoch": 0.1825821867018209,
      "grad_norm": 0.8071349263191223,
      "learning_rate": 1.9823831408766953e-05,
      "loss": 1.703,
      "mean_token_accuracy": 0.6325116107861201,
      "num_tokens": 277985352.0,
      "step": 1662
    },
    {
      "entropy": 1.6910718381404877,
      "epoch": 0.18269204361319383,
      "grad_norm": 0.6777242422103882,
      "learning_rate": 1.9823516023892067e-05,
      "loss": 1.5038,
      "mean_token_accuracy": 0.6417184472084045,
      "num_tokens": 278220879.0,
      "step": 1663
    },
    {
      "entropy": 1.728562315305074,
      "epoch": 0.18280190052456674,
      "grad_norm": 0.6362787485122681,
      "learning_rate": 1.9823200359756875e-05,
      "loss": 1.4164,
      "mean_token_accuracy": 0.6453818678855896,
      "num_tokens": 278368023.0,
      "step": 1664
    },
    {
      "entropy": 1.7313311994075775,
      "epoch": 0.18291175743593968,
      "grad_norm": 0.6767556071281433,
      "learning_rate": 1.9822884416371364e-05,
      "loss": 1.3056,
      "mean_token_accuracy": 0.6659288257360458,
      "num_tokens": 278496388.0,
      "step": 1665
    },
    {
      "entropy": 1.6881966690222423,
      "epoch": 0.18302161434731262,
      "grad_norm": 0.6294616460800171,
      "learning_rate": 1.982256819374554e-05,
      "loss": 1.4921,
      "mean_token_accuracy": 0.6462472081184387,
      "num_tokens": 278674023.0,
      "step": 1666
    },
    {
      "entropy": 1.6751320759455364,
      "epoch": 0.18313147125868556,
      "grad_norm": 0.5912817120552063,
      "learning_rate": 1.9822251691889408e-05,
      "loss": 1.3839,
      "mean_token_accuracy": 0.6660457054773966,
      "num_tokens": 278837833.0,
      "step": 1667
    },
    {
      "entropy": 1.7794308066368103,
      "epoch": 0.1832413281700585,
      "grad_norm": 1.0613802671432495,
      "learning_rate": 1.9821934910812984e-05,
      "loss": 1.5629,
      "mean_token_accuracy": 0.6530888924996058,
      "num_tokens": 279020010.0,
      "step": 1668
    },
    {
      "entropy": 1.6890638172626495,
      "epoch": 0.18335118508143144,
      "grad_norm": 0.9429357647895813,
      "learning_rate": 1.9821617850526297e-05,
      "loss": 1.7154,
      "mean_token_accuracy": 0.6422553857167562,
      "num_tokens": 279192730.0,
      "step": 1669
    },
    {
      "entropy": 1.7527574300765991,
      "epoch": 0.18346104199280439,
      "grad_norm": 0.6539662480354309,
      "learning_rate": 1.9821300511039378e-05,
      "loss": 1.3789,
      "mean_token_accuracy": 0.6461327920357386,
      "num_tokens": 279341934.0,
      "step": 1670
    },
    {
      "entropy": 1.7701294422149658,
      "epoch": 0.1835708989041773,
      "grad_norm": 0.7200759053230286,
      "learning_rate": 1.9820982892362274e-05,
      "loss": 1.3941,
      "mean_token_accuracy": 0.65191750228405,
      "num_tokens": 279491511.0,
      "step": 1671
    },
    {
      "entropy": 1.8013378481070201,
      "epoch": 0.18368075581555024,
      "grad_norm": 0.7267040610313416,
      "learning_rate": 1.9820664994505035e-05,
      "loss": 1.4202,
      "mean_token_accuracy": 0.6435056875149409,
      "num_tokens": 279678965.0,
      "step": 1672
    },
    {
      "entropy": 1.723004271586736,
      "epoch": 0.18379061272692318,
      "grad_norm": 0.7009273171424866,
      "learning_rate": 1.9820346817477725e-05,
      "loss": 1.4127,
      "mean_token_accuracy": 0.6442108601331711,
      "num_tokens": 279853720.0,
      "step": 1673
    },
    {
      "entropy": 1.710123598575592,
      "epoch": 0.18390046963829612,
      "grad_norm": 0.8877512812614441,
      "learning_rate": 1.982002836129041e-05,
      "loss": 1.4214,
      "mean_token_accuracy": 0.6699336767196655,
      "num_tokens": 279997611.0,
      "step": 1674
    },
    {
      "entropy": 1.7392498552799225,
      "epoch": 0.18401032654966906,
      "grad_norm": 0.8386234641075134,
      "learning_rate": 1.9819709625953174e-05,
      "loss": 1.285,
      "mean_token_accuracy": 0.6787472317616144,
      "num_tokens": 280114602.0,
      "step": 1675
    },
    {
      "entropy": 1.763936976591746,
      "epoch": 0.184120183461042,
      "grad_norm": 0.8790518641471863,
      "learning_rate": 1.9819390611476105e-05,
      "loss": 1.3905,
      "mean_token_accuracy": 0.6481430331865946,
      "num_tokens": 280325517.0,
      "step": 1676
    },
    {
      "entropy": 1.725318839152654,
      "epoch": 0.18423004037241492,
      "grad_norm": 0.5728416442871094,
      "learning_rate": 1.9819071317869295e-05,
      "loss": 1.5904,
      "mean_token_accuracy": 0.6158607254425684,
      "num_tokens": 280595902.0,
      "step": 1677
    },
    {
      "entropy": 1.7371946076552074,
      "epoch": 0.18433989728378786,
      "grad_norm": 0.5821994543075562,
      "learning_rate": 1.9818751745142853e-05,
      "loss": 1.4596,
      "mean_token_accuracy": 0.645810733238856,
      "num_tokens": 280830692.0,
      "step": 1678
    },
    {
      "entropy": 1.8042426307996113,
      "epoch": 0.1844497541951608,
      "grad_norm": 0.6637836694717407,
      "learning_rate": 1.9818431893306887e-05,
      "loss": 1.5292,
      "mean_token_accuracy": 0.6280421316623688,
      "num_tokens": 281004533.0,
      "step": 1679
    },
    {
      "entropy": 1.7169641653696697,
      "epoch": 0.18455961110653374,
      "grad_norm": 0.7053066492080688,
      "learning_rate": 1.981811176237153e-05,
      "loss": 1.3631,
      "mean_token_accuracy": 0.6582474460204443,
      "num_tokens": 281160638.0,
      "step": 1680
    },
    {
      "entropy": 1.777447024981181,
      "epoch": 0.18466946801790668,
      "grad_norm": 0.7402387857437134,
      "learning_rate": 1.981779135234691e-05,
      "loss": 1.5166,
      "mean_token_accuracy": 0.6345723768075308,
      "num_tokens": 281338443.0,
      "step": 1681
    },
    {
      "entropy": 1.7175538738568623,
      "epoch": 0.18477932492927962,
      "grad_norm": 0.5362944602966309,
      "learning_rate": 1.9817470663243165e-05,
      "loss": 0.9837,
      "mean_token_accuracy": 0.6940766374270121,
      "num_tokens": 281502174.0,
      "step": 1682
    },
    {
      "entropy": 1.77180611093839,
      "epoch": 0.18488918184065256,
      "grad_norm": 0.9495187401771545,
      "learning_rate": 1.9817149695070447e-05,
      "loss": 1.4066,
      "mean_token_accuracy": 0.6637826462586721,
      "num_tokens": 281636795.0,
      "step": 1683
    },
    {
      "entropy": 1.7006933093070984,
      "epoch": 0.18499903875202547,
      "grad_norm": 0.5615609884262085,
      "learning_rate": 1.9816828447838913e-05,
      "loss": 1.3676,
      "mean_token_accuracy": 0.6498903632164001,
      "num_tokens": 281795185.0,
      "step": 1684
    },
    {
      "entropy": 1.8015896479288738,
      "epoch": 0.18510889566339842,
      "grad_norm": 0.7910170555114746,
      "learning_rate": 1.9816506921558733e-05,
      "loss": 1.4873,
      "mean_token_accuracy": 0.6395314981540045,
      "num_tokens": 281967043.0,
      "step": 1685
    },
    {
      "entropy": 1.7635705371697743,
      "epoch": 0.18521875257477136,
      "grad_norm": 0.6194027066230774,
      "learning_rate": 1.9816185116240084e-05,
      "loss": 1.4286,
      "mean_token_accuracy": 0.6360458632310232,
      "num_tokens": 282209695.0,
      "step": 1686
    },
    {
      "entropy": 1.727480669816335,
      "epoch": 0.1853286094861443,
      "grad_norm": 0.6732087135314941,
      "learning_rate": 1.981586303189315e-05,
      "loss": 1.2988,
      "mean_token_accuracy": 0.6633017708857855,
      "num_tokens": 282393134.0,
      "step": 1687
    },
    {
      "entropy": 1.7175672849019368,
      "epoch": 0.18543846639751724,
      "grad_norm": 0.7200150489807129,
      "learning_rate": 1.9815540668528116e-05,
      "loss": 1.4865,
      "mean_token_accuracy": 0.652409682671229,
      "num_tokens": 282586386.0,
      "step": 1688
    },
    {
      "entropy": 1.7157348195711772,
      "epoch": 0.18554832330889018,
      "grad_norm": 0.6159201264381409,
      "learning_rate": 1.9815218026155194e-05,
      "loss": 1.4005,
      "mean_token_accuracy": 0.6451119929552078,
      "num_tokens": 282769139.0,
      "step": 1689
    },
    {
      "entropy": 1.7268279194831848,
      "epoch": 0.18565818022026312,
      "grad_norm": 0.8370085954666138,
      "learning_rate": 1.9814895104784598e-05,
      "loss": 1.3224,
      "mean_token_accuracy": 0.6635098308324814,
      "num_tokens": 282906774.0,
      "step": 1690
    },
    {
      "entropy": 1.7369357744852703,
      "epoch": 0.18576803713163603,
      "grad_norm": 0.8012304306030273,
      "learning_rate": 1.9814571904426543e-05,
      "loss": 1.3494,
      "mean_token_accuracy": 0.6629086136817932,
      "num_tokens": 283026160.0,
      "step": 1691
    },
    {
      "entropy": 1.766795575618744,
      "epoch": 0.18587789404300897,
      "grad_norm": 0.6900972127914429,
      "learning_rate": 1.9814248425091256e-05,
      "loss": 1.4208,
      "mean_token_accuracy": 0.6468196511268616,
      "num_tokens": 283225811.0,
      "step": 1692
    },
    {
      "entropy": 1.739597777525584,
      "epoch": 0.18598775095438191,
      "grad_norm": 0.6812617778778076,
      "learning_rate": 1.981392466678898e-05,
      "loss": 1.4982,
      "mean_token_accuracy": 0.6387915263573328,
      "num_tokens": 283443567.0,
      "step": 1693
    },
    {
      "entropy": 1.6632297138373058,
      "epoch": 0.18609760786575485,
      "grad_norm": 0.7416886687278748,
      "learning_rate": 1.981360062952996e-05,
      "loss": 1.4409,
      "mean_token_accuracy": 0.6323288530111313,
      "num_tokens": 283658416.0,
      "step": 1694
    },
    {
      "entropy": 1.7458237608273823,
      "epoch": 0.1862074647771278,
      "grad_norm": 0.5728136897087097,
      "learning_rate": 1.9813276313324453e-05,
      "loss": 1.3206,
      "mean_token_accuracy": 0.6567148516575495,
      "num_tokens": 283807479.0,
      "step": 1695
    },
    {
      "entropy": 1.7193138301372528,
      "epoch": 0.18631732168850074,
      "grad_norm": 0.6321941018104553,
      "learning_rate": 1.981295171818272e-05,
      "loss": 1.3395,
      "mean_token_accuracy": 0.6582736521959305,
      "num_tokens": 284013422.0,
      "step": 1696
    },
    {
      "entropy": 1.7184888124465942,
      "epoch": 0.18642717859987368,
      "grad_norm": 0.579247236251831,
      "learning_rate": 1.981262684411504e-05,
      "loss": 1.4342,
      "mean_token_accuracy": 0.6520635535319647,
      "num_tokens": 284242706.0,
      "step": 1697
    },
    {
      "entropy": 1.7161762118339539,
      "epoch": 0.1865370355112466,
      "grad_norm": 0.6291903853416443,
      "learning_rate": 1.9812301691131688e-05,
      "loss": 1.3629,
      "mean_token_accuracy": 0.663032611211141,
      "num_tokens": 284413353.0,
      "step": 1698
    },
    {
      "entropy": 1.7629437744617462,
      "epoch": 0.18664689242261953,
      "grad_norm": 0.7114847898483276,
      "learning_rate": 1.981197625924296e-05,
      "loss": 1.3757,
      "mean_token_accuracy": 0.6550849924484888,
      "num_tokens": 284543844.0,
      "step": 1699
    },
    {
      "entropy": 1.7381982902685802,
      "epoch": 0.18675674933399247,
      "grad_norm": 0.7382696866989136,
      "learning_rate": 1.9811650548459155e-05,
      "loss": 1.4664,
      "mean_token_accuracy": 0.6513356864452362,
      "num_tokens": 284731517.0,
      "step": 1700
    },
    {
      "entropy": 1.674417903025945,
      "epoch": 0.1868666062453654,
      "grad_norm": 0.7865607142448425,
      "learning_rate": 1.9811324558790573e-05,
      "loss": 1.3178,
      "mean_token_accuracy": 0.6622059692939123,
      "num_tokens": 284848458.0,
      "step": 1701
    },
    {
      "entropy": 1.6967013478279114,
      "epoch": 0.18697646315673835,
      "grad_norm": 0.6472486853599548,
      "learning_rate": 1.9810998290247547e-05,
      "loss": 1.4338,
      "mean_token_accuracy": 0.6450558453798294,
      "num_tokens": 285063455.0,
      "step": 1702
    },
    {
      "entropy": 1.701272616783778,
      "epoch": 0.1870863200681113,
      "grad_norm": 0.6370506882667542,
      "learning_rate": 1.9810671742840394e-05,
      "loss": 1.3558,
      "mean_token_accuracy": 0.6611084739367167,
      "num_tokens": 285219438.0,
      "step": 1703
    },
    {
      "entropy": 1.7011124789714813,
      "epoch": 0.18719617697948424,
      "grad_norm": 0.7365835309028625,
      "learning_rate": 1.981034491657945e-05,
      "loss": 1.4027,
      "mean_token_accuracy": 0.6517395476500193,
      "num_tokens": 285421503.0,
      "step": 1704
    },
    {
      "entropy": 1.7084963818391163,
      "epoch": 0.18730603389085715,
      "grad_norm": 0.7742033004760742,
      "learning_rate": 1.9810017811475058e-05,
      "loss": 1.3874,
      "mean_token_accuracy": 0.6629381775856018,
      "num_tokens": 285546599.0,
      "step": 1705
    },
    {
      "entropy": 1.7513247827688854,
      "epoch": 0.1874158908022301,
      "grad_norm": 0.6956959962844849,
      "learning_rate": 1.9809690427537577e-05,
      "loss": 1.436,
      "mean_token_accuracy": 0.6494058966636658,
      "num_tokens": 285726907.0,
      "step": 1706
    },
    {
      "entropy": 1.6769114037354786,
      "epoch": 0.18752574771360303,
      "grad_norm": 0.6903713345527649,
      "learning_rate": 1.9809362764777357e-05,
      "loss": 1.3839,
      "mean_token_accuracy": 0.656981165210406,
      "num_tokens": 285913198.0,
      "step": 1707
    },
    {
      "entropy": 1.7068938712279003,
      "epoch": 0.18763560462497597,
      "grad_norm": 0.6433144807815552,
      "learning_rate": 1.980903482320478e-05,
      "loss": 1.4031,
      "mean_token_accuracy": 0.6512850423653921,
      "num_tokens": 286084913.0,
      "step": 1708
    },
    {
      "entropy": 1.7556909918785095,
      "epoch": 0.1877454615363489,
      "grad_norm": 0.6782954335212708,
      "learning_rate": 1.980870660283022e-05,
      "loss": 1.3747,
      "mean_token_accuracy": 0.6523662805557251,
      "num_tokens": 286225973.0,
      "step": 1709
    },
    {
      "entropy": 1.7448440194129944,
      "epoch": 0.18785531844772185,
      "grad_norm": 0.7479444742202759,
      "learning_rate": 1.9808378103664064e-05,
      "loss": 1.3416,
      "mean_token_accuracy": 0.6604155600070953,
      "num_tokens": 286384384.0,
      "step": 1710
    },
    {
      "entropy": 1.7512960731983185,
      "epoch": 0.18796517535909477,
      "grad_norm": 0.7333407402038574,
      "learning_rate": 1.980804932571671e-05,
      "loss": 1.3877,
      "mean_token_accuracy": 0.6567022105058035,
      "num_tokens": 286546675.0,
      "step": 1711
    },
    {
      "entropy": 1.6740979949633281,
      "epoch": 0.1880750322704677,
      "grad_norm": 0.8082526922225952,
      "learning_rate": 1.9807720268998563e-05,
      "loss": 1.3267,
      "mean_token_accuracy": 0.6659936855236689,
      "num_tokens": 286679729.0,
      "step": 1712
    },
    {
      "entropy": 1.7247611383597057,
      "epoch": 0.18818488918184065,
      "grad_norm": 0.6447880268096924,
      "learning_rate": 1.980739093352004e-05,
      "loss": 1.3205,
      "mean_token_accuracy": 0.6574007123708725,
      "num_tokens": 286806107.0,
      "step": 1713
    },
    {
      "entropy": 1.683200756708781,
      "epoch": 0.1882947460932136,
      "grad_norm": 0.7221059203147888,
      "learning_rate": 1.9807061319291562e-05,
      "loss": 1.4732,
      "mean_token_accuracy": 0.6614238594969114,
      "num_tokens": 286932425.0,
      "step": 1714
    },
    {
      "entropy": 1.733568549156189,
      "epoch": 0.18840460300458653,
      "grad_norm": 0.8345680832862854,
      "learning_rate": 1.980673142632356e-05,
      "loss": 1.3026,
      "mean_token_accuracy": 0.6688729921976725,
      "num_tokens": 287051397.0,
      "step": 1715
    },
    {
      "entropy": 1.700208157300949,
      "epoch": 0.18851445991595947,
      "grad_norm": 0.7973415851593018,
      "learning_rate": 1.9806401254626483e-05,
      "loss": 1.3171,
      "mean_token_accuracy": 0.6919489403565725,
      "num_tokens": 287216101.0,
      "step": 1716
    },
    {
      "entropy": 1.7363602022329967,
      "epoch": 0.1886243168273324,
      "grad_norm": 0.798485517501831,
      "learning_rate": 1.9806070804210768e-05,
      "loss": 1.4979,
      "mean_token_accuracy": 0.6549982378880183,
      "num_tokens": 287384291.0,
      "step": 1717
    },
    {
      "entropy": 1.6927721202373505,
      "epoch": 0.18873417373870532,
      "grad_norm": 0.6318584084510803,
      "learning_rate": 1.9805740075086884e-05,
      "loss": 1.2625,
      "mean_token_accuracy": 0.6866245418787003,
      "num_tokens": 287521194.0,
      "step": 1718
    },
    {
      "entropy": 1.7616549928983052,
      "epoch": 0.18884403065007827,
      "grad_norm": 0.6952632069587708,
      "learning_rate": 1.980540906726529e-05,
      "loss": 1.5152,
      "mean_token_accuracy": 0.6423781365156174,
      "num_tokens": 287695130.0,
      "step": 1719
    },
    {
      "entropy": 1.7475587129592896,
      "epoch": 0.1889538875614512,
      "grad_norm": 0.8023023009300232,
      "learning_rate": 1.9805077780756473e-05,
      "loss": 1.2237,
      "mean_token_accuracy": 0.6784818867842356,
      "num_tokens": 287806319.0,
      "step": 1720
    },
    {
      "entropy": 1.7310992081960042,
      "epoch": 0.18906374447282415,
      "grad_norm": 0.7073454856872559,
      "learning_rate": 1.9804746215570908e-05,
      "loss": 1.4297,
      "mean_token_accuracy": 0.6600957165161768,
      "num_tokens": 288006487.0,
      "step": 1721
    },
    {
      "entropy": 1.6791634062925975,
      "epoch": 0.1891736013841971,
      "grad_norm": 0.7400916218757629,
      "learning_rate": 1.9804414371719096e-05,
      "loss": 1.2141,
      "mean_token_accuracy": 0.6767335186402003,
      "num_tokens": 288109036.0,
      "step": 1722
    },
    {
      "entropy": 1.7825380861759186,
      "epoch": 0.18928345829557003,
      "grad_norm": 0.786323070526123,
      "learning_rate": 1.9804082249211533e-05,
      "loss": 1.4554,
      "mean_token_accuracy": 0.6546699553728104,
      "num_tokens": 288234316.0,
      "step": 1723
    },
    {
      "entropy": 1.7622264524300892,
      "epoch": 0.18939331520694297,
      "grad_norm": 0.7630921602249146,
      "learning_rate": 1.9803749848058733e-05,
      "loss": 1.2852,
      "mean_token_accuracy": 0.6784159690141678,
      "num_tokens": 288358675.0,
      "step": 1724
    },
    {
      "entropy": 1.6970917185147603,
      "epoch": 0.18950317211831588,
      "grad_norm": 0.9257987141609192,
      "learning_rate": 1.980341716827122e-05,
      "loss": 1.3535,
      "mean_token_accuracy": 0.658329596122106,
      "num_tokens": 288525891.0,
      "step": 1725
    },
    {
      "entropy": 1.7701091667016347,
      "epoch": 0.18961302902968882,
      "grad_norm": 0.7394087910652161,
      "learning_rate": 1.980308420985952e-05,
      "loss": 1.3935,
      "mean_token_accuracy": 0.6555753747622172,
      "num_tokens": 288695061.0,
      "step": 1726
    },
    {
      "entropy": 1.7800631125768025,
      "epoch": 0.18972288594106176,
      "grad_norm": 0.8137099742889404,
      "learning_rate": 1.980275097283417e-05,
      "loss": 1.5755,
      "mean_token_accuracy": 0.6337922463814417,
      "num_tokens": 288879071.0,
      "step": 1727
    },
    {
      "entropy": 1.6966053247451782,
      "epoch": 0.1898327428524347,
      "grad_norm": 0.6805859804153442,
      "learning_rate": 1.980241745720572e-05,
      "loss": 1.56,
      "mean_token_accuracy": 0.6277511119842529,
      "num_tokens": 289092246.0,
      "step": 1728
    },
    {
      "entropy": 1.7272930939992268,
      "epoch": 0.18994259976380765,
      "grad_norm": 0.6892310976982117,
      "learning_rate": 1.9802083662984727e-05,
      "loss": 1.5014,
      "mean_token_accuracy": 0.645158996184667,
      "num_tokens": 289246411.0,
      "step": 1729
    },
    {
      "entropy": 1.718581090370814,
      "epoch": 0.1900524566751806,
      "grad_norm": 0.7332895994186401,
      "learning_rate": 1.9801749590181747e-05,
      "loss": 1.4741,
      "mean_token_accuracy": 0.6542643109957377,
      "num_tokens": 289450051.0,
      "step": 1730
    },
    {
      "entropy": 1.7375418742497761,
      "epoch": 0.19016231358655353,
      "grad_norm": 0.6508983969688416,
      "learning_rate": 1.980141523880736e-05,
      "loss": 1.4436,
      "mean_token_accuracy": 0.6606499453385671,
      "num_tokens": 289635594.0,
      "step": 1731
    },
    {
      "entropy": 1.749743362267812,
      "epoch": 0.19027217049792644,
      "grad_norm": 0.6622723937034607,
      "learning_rate": 1.980108060887215e-05,
      "loss": 1.3431,
      "mean_token_accuracy": 0.6567785541216532,
      "num_tokens": 289785489.0,
      "step": 1732
    },
    {
      "entropy": 1.7038879295190175,
      "epoch": 0.19038202740929938,
      "grad_norm": 0.7151694297790527,
      "learning_rate": 1.98007457003867e-05,
      "loss": 1.4463,
      "mean_token_accuracy": 0.6599321961402893,
      "num_tokens": 289955840.0,
      "step": 1733
    },
    {
      "entropy": 1.6714328130086262,
      "epoch": 0.19049188432067232,
      "grad_norm": 0.5718501210212708,
      "learning_rate": 1.980041051336162e-05,
      "loss": 1.3941,
      "mean_token_accuracy": 0.6486310015122095,
      "num_tokens": 290155918.0,
      "step": 1734
    },
    {
      "entropy": 1.7431990305582683,
      "epoch": 0.19060174123204526,
      "grad_norm": 0.7136338949203491,
      "learning_rate": 1.9800075047807507e-05,
      "loss": 1.4286,
      "mean_token_accuracy": 0.6443975865840912,
      "num_tokens": 290318477.0,
      "step": 1735
    },
    {
      "entropy": 1.7279701729615529,
      "epoch": 0.1907115981434182,
      "grad_norm": 0.8319575786590576,
      "learning_rate": 1.9799739303734986e-05,
      "loss": 1.3872,
      "mean_token_accuracy": 0.6527506609757742,
      "num_tokens": 290442722.0,
      "step": 1736
    },
    {
      "entropy": 1.6454756160577138,
      "epoch": 0.19082145505479114,
      "grad_norm": 0.6253258585929871,
      "learning_rate": 1.9799403281154684e-05,
      "loss": 1.2394,
      "mean_token_accuracy": 0.6801058252652487,
      "num_tokens": 290589905.0,
      "step": 1737
    },
    {
      "entropy": 1.7290644546349843,
      "epoch": 0.19093131196616406,
      "grad_norm": 0.6695640087127686,
      "learning_rate": 1.9799066980077227e-05,
      "loss": 1.4237,
      "mean_token_accuracy": 0.6563388605912527,
      "num_tokens": 290762031.0,
      "step": 1738
    },
    {
      "entropy": 1.7278599540392559,
      "epoch": 0.191041168877537,
      "grad_norm": 0.7530442476272583,
      "learning_rate": 1.979873040051327e-05,
      "loss": 1.5137,
      "mean_token_accuracy": 0.6513047764698664,
      "num_tokens": 290924823.0,
      "step": 1739
    },
    {
      "entropy": 1.79681396484375,
      "epoch": 0.19115102578890994,
      "grad_norm": 0.7993313074111938,
      "learning_rate": 1.9798393542473456e-05,
      "loss": 1.4511,
      "mean_token_accuracy": 0.6647708465655645,
      "num_tokens": 291080098.0,
      "step": 1740
    },
    {
      "entropy": 1.7253247797489166,
      "epoch": 0.19126088270028288,
      "grad_norm": 0.6776132583618164,
      "learning_rate": 1.9798056405968457e-05,
      "loss": 1.3921,
      "mean_token_accuracy": 0.6470450113217036,
      "num_tokens": 291206890.0,
      "step": 1741
    },
    {
      "entropy": 1.7353723645210266,
      "epoch": 0.19137073961165582,
      "grad_norm": 0.8562172055244446,
      "learning_rate": 1.9797718991008936e-05,
      "loss": 1.3435,
      "mean_token_accuracy": 0.6580035636822382,
      "num_tokens": 291343320.0,
      "step": 1742
    },
    {
      "entropy": 1.7603330214818318,
      "epoch": 0.19148059652302876,
      "grad_norm": 0.7309443950653076,
      "learning_rate": 1.979738129760557e-05,
      "loss": 1.5365,
      "mean_token_accuracy": 0.622960185011228,
      "num_tokens": 291550070.0,
      "step": 1743
    },
    {
      "entropy": 1.7653774221738179,
      "epoch": 0.1915904534344017,
      "grad_norm": 0.833625316619873,
      "learning_rate": 1.9797043325769056e-05,
      "loss": 1.3869,
      "mean_token_accuracy": 0.6533713638782501,
      "num_tokens": 291680108.0,
      "step": 1744
    },
    {
      "entropy": 1.715358128150304,
      "epoch": 0.19170031034577462,
      "grad_norm": 0.7196187973022461,
      "learning_rate": 1.979670507551008e-05,
      "loss": 1.4072,
      "mean_token_accuracy": 0.6509930094083151,
      "num_tokens": 291852862.0,
      "step": 1745
    },
    {
      "entropy": 1.7125201920668285,
      "epoch": 0.19181016725714756,
      "grad_norm": 0.6884719729423523,
      "learning_rate": 1.9796366546839354e-05,
      "loss": 1.3614,
      "mean_token_accuracy": 0.655213917295138,
      "num_tokens": 292033459.0,
      "step": 1746
    },
    {
      "entropy": 1.6897228856881459,
      "epoch": 0.1919200241685205,
      "grad_norm": 0.6630612015724182,
      "learning_rate": 1.9796027739767587e-05,
      "loss": 1.5917,
      "mean_token_accuracy": 0.6360281805197397,
      "num_tokens": 292222658.0,
      "step": 1747
    },
    {
      "entropy": 1.6932558019955952,
      "epoch": 0.19202988107989344,
      "grad_norm": 0.6871110200881958,
      "learning_rate": 1.979568865430551e-05,
      "loss": 1.3225,
      "mean_token_accuracy": 0.6635150760412216,
      "num_tokens": 292398658.0,
      "step": 1748
    },
    {
      "entropy": 1.7077955702940624,
      "epoch": 0.19213973799126638,
      "grad_norm": 0.6830503344535828,
      "learning_rate": 1.979534929046385e-05,
      "loss": 1.4689,
      "mean_token_accuracy": 0.6499410420656204,
      "num_tokens": 292556109.0,
      "step": 1749
    },
    {
      "entropy": 1.6917288800080617,
      "epoch": 0.19224959490263932,
      "grad_norm": 0.7428691983222961,
      "learning_rate": 1.9795009648253346e-05,
      "loss": 1.4188,
      "mean_token_accuracy": 0.6616235027710596,
      "num_tokens": 292701727.0,
      "step": 1750
    },
    {
      "entropy": 1.7118379374345143,
      "epoch": 0.19235945181401226,
      "grad_norm": 0.7000189423561096,
      "learning_rate": 1.979466972768475e-05,
      "loss": 1.399,
      "mean_token_accuracy": 0.6520606428384781,
      "num_tokens": 292871798.0,
      "step": 1751
    },
    {
      "entropy": 1.6876471141974132,
      "epoch": 0.19246930872538517,
      "grad_norm": 0.7701053619384766,
      "learning_rate": 1.9794329528768822e-05,
      "loss": 1.2992,
      "mean_token_accuracy": 0.665013869603475,
      "num_tokens": 293021064.0,
      "step": 1752
    },
    {
      "entropy": 1.7469976941744487,
      "epoch": 0.19257916563675812,
      "grad_norm": 0.6615880727767944,
      "learning_rate": 1.9793989051516327e-05,
      "loss": 1.4366,
      "mean_token_accuracy": 0.6483164032300314,
      "num_tokens": 293149174.0,
      "step": 1753
    },
    {
      "entropy": 1.7197850545247395,
      "epoch": 0.19268902254813106,
      "grad_norm": 0.714011549949646,
      "learning_rate": 1.979364829593804e-05,
      "loss": 1.4344,
      "mean_token_accuracy": 0.639839842915535,
      "num_tokens": 293300752.0,
      "step": 1754
    },
    {
      "entropy": 1.7304006119569142,
      "epoch": 0.192798879459504,
      "grad_norm": 0.7182620763778687,
      "learning_rate": 1.9793307262044748e-05,
      "loss": 1.4202,
      "mean_token_accuracy": 0.6542019993066788,
      "num_tokens": 293456002.0,
      "step": 1755
    },
    {
      "entropy": 1.7409031490484874,
      "epoch": 0.19290873637087694,
      "grad_norm": 0.6725859045982361,
      "learning_rate": 1.9792965949847242e-05,
      "loss": 1.3865,
      "mean_token_accuracy": 0.6448834588130316,
      "num_tokens": 293628935.0,
      "step": 1756
    },
    {
      "entropy": 1.6798570553461711,
      "epoch": 0.19301859328224988,
      "grad_norm": 0.7474890351295471,
      "learning_rate": 1.9792624359356326e-05,
      "loss": 1.2733,
      "mean_token_accuracy": 0.6787517368793488,
      "num_tokens": 293755756.0,
      "step": 1757
    },
    {
      "entropy": 1.7863287031650543,
      "epoch": 0.19312845019362282,
      "grad_norm": 0.8425063490867615,
      "learning_rate": 1.9792282490582812e-05,
      "loss": 1.4917,
      "mean_token_accuracy": 0.6436772296826044,
      "num_tokens": 293919313.0,
      "step": 1758
    },
    {
      "entropy": 1.6916013459364574,
      "epoch": 0.19323830710499573,
      "grad_norm": 0.7149840593338013,
      "learning_rate": 1.9791940343537517e-05,
      "loss": 1.4658,
      "mean_token_accuracy": 0.653274287780126,
      "num_tokens": 294076984.0,
      "step": 1759
    },
    {
      "entropy": 1.7235734164714813,
      "epoch": 0.19334816401636867,
      "grad_norm": 0.7532820701599121,
      "learning_rate": 1.9791597918231278e-05,
      "loss": 1.2797,
      "mean_token_accuracy": 0.6706577440102895,
      "num_tokens": 294259181.0,
      "step": 1760
    },
    {
      "entropy": 1.727324555317561,
      "epoch": 0.19345802092774161,
      "grad_norm": 0.711613655090332,
      "learning_rate": 1.9791255214674922e-05,
      "loss": 1.4411,
      "mean_token_accuracy": 0.6571811487277349,
      "num_tokens": 294419560.0,
      "step": 1761
    },
    {
      "entropy": 1.7226892411708832,
      "epoch": 0.19356787783911455,
      "grad_norm": 0.6647672653198242,
      "learning_rate": 1.97909122328793e-05,
      "loss": 1.5226,
      "mean_token_accuracy": 0.6560903539260229,
      "num_tokens": 294579172.0,
      "step": 1762
    },
    {
      "entropy": 1.719457467397054,
      "epoch": 0.1936777347504875,
      "grad_norm": 0.6270412802696228,
      "learning_rate": 1.9790568972855266e-05,
      "loss": 1.3127,
      "mean_token_accuracy": 0.6619095156590143,
      "num_tokens": 294728030.0,
      "step": 1763
    },
    {
      "entropy": 1.6665961543718975,
      "epoch": 0.19378759166186044,
      "grad_norm": 0.7340520620346069,
      "learning_rate": 1.9790225434613687e-05,
      "loss": 1.3513,
      "mean_token_accuracy": 0.681754027803739,
      "num_tokens": 294866688.0,
      "step": 1764
    },
    {
      "entropy": 1.8049577971299489,
      "epoch": 0.19389744857323335,
      "grad_norm": 0.7559868097305298,
      "learning_rate": 1.9789881618165434e-05,
      "loss": 1.3979,
      "mean_token_accuracy": 0.6505992064873377,
      "num_tokens": 295021152.0,
      "step": 1765
    },
    {
      "entropy": 1.6748623251914978,
      "epoch": 0.1940073054846063,
      "grad_norm": 0.5827370882034302,
      "learning_rate": 1.9789537523521387e-05,
      "loss": 1.3721,
      "mean_token_accuracy": 0.6543336113293966,
      "num_tokens": 295229519.0,
      "step": 1766
    },
    {
      "entropy": 1.7147534688313801,
      "epoch": 0.19411716239597923,
      "grad_norm": 6.890192031860352,
      "learning_rate": 1.9789193150692438e-05,
      "loss": 1.4899,
      "mean_token_accuracy": 0.6559451967477798,
      "num_tokens": 295384686.0,
      "step": 1767
    },
    {
      "entropy": 1.707640786965688,
      "epoch": 0.19422701930735217,
      "grad_norm": 0.6139290928840637,
      "learning_rate": 1.978884849968949e-05,
      "loss": 1.2937,
      "mean_token_accuracy": 0.6562622785568237,
      "num_tokens": 295563230.0,
      "step": 1768
    },
    {
      "entropy": 1.7182945013046265,
      "epoch": 0.1943368762187251,
      "grad_norm": 0.6669062972068787,
      "learning_rate": 1.9788503570523443e-05,
      "loss": 1.4615,
      "mean_token_accuracy": 0.6506092747052511,
      "num_tokens": 295726034.0,
      "step": 1769
    },
    {
      "entropy": 1.7365097900231679,
      "epoch": 0.19444673313009805,
      "grad_norm": 0.7182427048683167,
      "learning_rate": 1.978815836320522e-05,
      "loss": 1.4676,
      "mean_token_accuracy": 0.651889423529307,
      "num_tokens": 295918492.0,
      "step": 1770
    },
    {
      "entropy": 1.7327903906504314,
      "epoch": 0.194556590041471,
      "grad_norm": 0.6817887425422668,
      "learning_rate": 1.9787812877745745e-05,
      "loss": 1.3728,
      "mean_token_accuracy": 0.6570483843485514,
      "num_tokens": 296085849.0,
      "step": 1771
    },
    {
      "entropy": 1.693399171034495,
      "epoch": 0.1946664469528439,
      "grad_norm": 0.715168833732605,
      "learning_rate": 1.978746711415595e-05,
      "loss": 1.3975,
      "mean_token_accuracy": 0.6593023041884104,
      "num_tokens": 296266624.0,
      "step": 1772
    },
    {
      "entropy": 1.7591918508211772,
      "epoch": 0.19477630386421685,
      "grad_norm": 0.7243099808692932,
      "learning_rate": 1.9787121072446785e-05,
      "loss": 1.4259,
      "mean_token_accuracy": 0.6468930890162786,
      "num_tokens": 296396972.0,
      "step": 1773
    },
    {
      "entropy": 1.6918930610020955,
      "epoch": 0.1948861607755898,
      "grad_norm": 0.7280333042144775,
      "learning_rate": 1.9786774752629195e-05,
      "loss": 1.3678,
      "mean_token_accuracy": 0.6707959572474161,
      "num_tokens": 296548243.0,
      "step": 1774
    },
    {
      "entropy": 1.7696085572242737,
      "epoch": 0.19499601768696273,
      "grad_norm": 0.5832480788230896,
      "learning_rate": 1.9786428154714143e-05,
      "loss": 1.5862,
      "mean_token_accuracy": 0.6292986472447714,
      "num_tokens": 296747351.0,
      "step": 1775
    },
    {
      "entropy": 1.7673150698343914,
      "epoch": 0.19510587459833567,
      "grad_norm": 0.6457276940345764,
      "learning_rate": 1.9786081278712598e-05,
      "loss": 1.4639,
      "mean_token_accuracy": 0.6444855431715647,
      "num_tokens": 296935015.0,
      "step": 1776
    },
    {
      "entropy": 1.6158926784992218,
      "epoch": 0.1952157315097086,
      "grad_norm": 0.5862371921539307,
      "learning_rate": 1.9785734124635544e-05,
      "loss": 1.3359,
      "mean_token_accuracy": 0.6693507929642996,
      "num_tokens": 297145524.0,
      "step": 1777
    },
    {
      "entropy": 1.7320951322714488,
      "epoch": 0.19532558842108155,
      "grad_norm": 0.7013179659843445,
      "learning_rate": 1.978538669249396e-05,
      "loss": 1.4895,
      "mean_token_accuracy": 0.6407797584931055,
      "num_tokens": 297288935.0,
      "step": 1778
    },
    {
      "entropy": 1.7831117709477742,
      "epoch": 0.19543544533245447,
      "grad_norm": 0.7159624099731445,
      "learning_rate": 1.978503898229885e-05,
      "loss": 1.4075,
      "mean_token_accuracy": 0.6433553198973337,
      "num_tokens": 297459113.0,
      "step": 1779
    },
    {
      "entropy": 1.6679442922274272,
      "epoch": 0.1955453022438274,
      "grad_norm": 0.725671112537384,
      "learning_rate": 1.978469099406121e-05,
      "loss": 1.3892,
      "mean_token_accuracy": 0.655972421169281,
      "num_tokens": 297624207.0,
      "step": 1780
    },
    {
      "entropy": 1.7021668950716655,
      "epoch": 0.19565515915520035,
      "grad_norm": 0.6634953022003174,
      "learning_rate": 1.978434272779206e-05,
      "loss": 1.3119,
      "mean_token_accuracy": 0.6691978275775909,
      "num_tokens": 297786571.0,
      "step": 1781
    },
    {
      "entropy": 1.7528183460235596,
      "epoch": 0.1957650160665733,
      "grad_norm": 0.7583564519882202,
      "learning_rate": 1.9783994183502423e-05,
      "loss": 1.5388,
      "mean_token_accuracy": 0.626950333515803,
      "num_tokens": 298018826.0,
      "step": 1782
    },
    {
      "entropy": 1.6614128748575847,
      "epoch": 0.19587487297794623,
      "grad_norm": 0.5320108532905579,
      "learning_rate": 1.9783645361203324e-05,
      "loss": 1.3674,
      "mean_token_accuracy": 0.6552481253941854,
      "num_tokens": 298245649.0,
      "step": 1783
    },
    {
      "entropy": 1.770830233891805,
      "epoch": 0.19598472988931917,
      "grad_norm": 0.6707810163497925,
      "learning_rate": 1.9783296260905812e-05,
      "loss": 1.3718,
      "mean_token_accuracy": 0.6541836063067118,
      "num_tokens": 298382824.0,
      "step": 1784
    },
    {
      "entropy": 1.759553889433543,
      "epoch": 0.1960945868006921,
      "grad_norm": 0.7541280388832092,
      "learning_rate": 1.978294688262093e-05,
      "loss": 1.2791,
      "mean_token_accuracy": 0.6692831069231033,
      "num_tokens": 298517297.0,
      "step": 1785
    },
    {
      "entropy": 1.7564668953418732,
      "epoch": 0.19620444371206502,
      "grad_norm": 0.6617575287818909,
      "learning_rate": 1.9782597226359737e-05,
      "loss": 1.4138,
      "mean_token_accuracy": 0.6551504383484522,
      "num_tokens": 298666505.0,
      "step": 1786
    },
    {
      "entropy": 1.760979433854421,
      "epoch": 0.19631430062343797,
      "grad_norm": 0.8420041799545288,
      "learning_rate": 1.97822472921333e-05,
      "loss": 1.2352,
      "mean_token_accuracy": 0.6695485363403956,
      "num_tokens": 298824770.0,
      "step": 1787
    },
    {
      "entropy": 1.7239550054073334,
      "epoch": 0.1964241575348109,
      "grad_norm": 0.7422584295272827,
      "learning_rate": 1.9781897079952693e-05,
      "loss": 1.4415,
      "mean_token_accuracy": 0.6553243845701218,
      "num_tokens": 298993460.0,
      "step": 1788
    },
    {
      "entropy": 1.7003070811430614,
      "epoch": 0.19653401444618385,
      "grad_norm": 0.6796644926071167,
      "learning_rate": 1.9781546589828993e-05,
      "loss": 1.4076,
      "mean_token_accuracy": 0.6579789767662684,
      "num_tokens": 299145182.0,
      "step": 1789
    },
    {
      "entropy": 1.7247399985790253,
      "epoch": 0.1966438713575568,
      "grad_norm": 0.7494299411773682,
      "learning_rate": 1.9781195821773313e-05,
      "loss": 1.2761,
      "mean_token_accuracy": 0.6815857142210007,
      "num_tokens": 299274678.0,
      "step": 1790
    },
    {
      "entropy": 1.7042510112126668,
      "epoch": 0.19675372826892973,
      "grad_norm": 0.6861709952354431,
      "learning_rate": 1.9780844775796733e-05,
      "loss": 1.3178,
      "mean_token_accuracy": 0.6655194312334061,
      "num_tokens": 299407876.0,
      "step": 1791
    },
    {
      "entropy": 1.6969355642795563,
      "epoch": 0.19686358518030267,
      "grad_norm": 0.7215892672538757,
      "learning_rate": 1.978049345191038e-05,
      "loss": 1.3921,
      "mean_token_accuracy": 0.6600968192021052,
      "num_tokens": 299560247.0,
      "step": 1792
    },
    {
      "entropy": 1.7007923424243927,
      "epoch": 0.19697344209167558,
      "grad_norm": 0.5989768505096436,
      "learning_rate": 1.9780141850125362e-05,
      "loss": 1.3689,
      "mean_token_accuracy": 0.6636965026458105,
      "num_tokens": 299788837.0,
      "step": 1793
    },
    {
      "entropy": 1.672113170226415,
      "epoch": 0.19708329900304852,
      "grad_norm": 0.751150906085968,
      "learning_rate": 1.977978997045281e-05,
      "loss": 1.3912,
      "mean_token_accuracy": 0.6588180909554163,
      "num_tokens": 299966636.0,
      "step": 1794
    },
    {
      "entropy": 1.6974561214447021,
      "epoch": 0.19719315591442146,
      "grad_norm": 0.6662459969520569,
      "learning_rate": 1.9779437812903862e-05,
      "loss": 1.3124,
      "mean_token_accuracy": 0.6676592777172724,
      "num_tokens": 300121520.0,
      "step": 1795
    },
    {
      "entropy": 1.7895707885424297,
      "epoch": 0.1973030128257944,
      "grad_norm": 0.6926854252815247,
      "learning_rate": 1.9779085377489663e-05,
      "loss": 1.4074,
      "mean_token_accuracy": 0.6511611789464951,
      "num_tokens": 300249227.0,
      "step": 1796
    },
    {
      "entropy": 1.6819771826267242,
      "epoch": 0.19741286973716735,
      "grad_norm": 3.198624849319458,
      "learning_rate": 1.977873266422137e-05,
      "loss": 1.1345,
      "mean_token_accuracy": 0.6746688683827718,
      "num_tokens": 300417964.0,
      "step": 1797
    },
    {
      "entropy": 1.7427258292833965,
      "epoch": 0.1975227266485403,
      "grad_norm": 0.7579461336135864,
      "learning_rate": 1.977837967311014e-05,
      "loss": 1.3167,
      "mean_token_accuracy": 0.6665651847918829,
      "num_tokens": 300538034.0,
      "step": 1798
    },
    {
      "entropy": 1.7113410731156666,
      "epoch": 0.1976325835599132,
      "grad_norm": 0.7278785705566406,
      "learning_rate": 1.977802640416715e-05,
      "loss": 1.3031,
      "mean_token_accuracy": 0.6744206001361212,
      "num_tokens": 300652123.0,
      "step": 1799
    },
    {
      "entropy": 1.7057754894097645,
      "epoch": 0.19774244047128614,
      "grad_norm": 0.6383393406867981,
      "learning_rate": 1.9777672857403584e-05,
      "loss": 1.5941,
      "mean_token_accuracy": 0.6359094778696696,
      "num_tokens": 300918339.0,
      "step": 1800
    },
    {
      "entropy": 1.796320726474126,
      "epoch": 0.19785229738265908,
      "grad_norm": 0.8345091342926025,
      "learning_rate": 1.9777319032830624e-05,
      "loss": 1.433,
      "mean_token_accuracy": 0.6534850498040518,
      "num_tokens": 301084973.0,
      "step": 1801
    },
    {
      "entropy": 1.7382001678148906,
      "epoch": 0.19796215429403202,
      "grad_norm": 0.8948132395744324,
      "learning_rate": 1.9776964930459474e-05,
      "loss": 1.3021,
      "mean_token_accuracy": 0.6653626014788946,
      "num_tokens": 301208519.0,
      "step": 1802
    },
    {
      "entropy": 1.7888563871383667,
      "epoch": 0.19807201120540496,
      "grad_norm": 0.6303662061691284,
      "learning_rate": 1.9776610550301338e-05,
      "loss": 1.4763,
      "mean_token_accuracy": 0.6427715172370275,
      "num_tokens": 301351718.0,
      "step": 1803
    },
    {
      "entropy": 1.6515491306781769,
      "epoch": 0.1981818681167779,
      "grad_norm": 0.7126901745796204,
      "learning_rate": 1.977625589236743e-05,
      "loss": 1.2714,
      "mean_token_accuracy": 0.6703294515609741,
      "num_tokens": 301507032.0,
      "step": 1804
    },
    {
      "entropy": 1.7583887577056885,
      "epoch": 0.19829172502815084,
      "grad_norm": 0.68550044298172,
      "learning_rate": 1.977590095666898e-05,
      "loss": 1.39,
      "mean_token_accuracy": 0.6463887542486191,
      "num_tokens": 301646202.0,
      "step": 1805
    },
    {
      "entropy": 1.68940003712972,
      "epoch": 0.19840158193952376,
      "grad_norm": 0.6771380305290222,
      "learning_rate": 1.977554574321722e-05,
      "loss": 1.482,
      "mean_token_accuracy": 0.6526958445707957,
      "num_tokens": 301804123.0,
      "step": 1806
    },
    {
      "entropy": 1.7353551983833313,
      "epoch": 0.1985114388508967,
      "grad_norm": 0.7520933747291565,
      "learning_rate": 1.977519025202339e-05,
      "loss": 1.5235,
      "mean_token_accuracy": 0.6432921489079794,
      "num_tokens": 301974575.0,
      "step": 1807
    },
    {
      "entropy": 1.7340351243813832,
      "epoch": 0.19862129576226964,
      "grad_norm": 0.6563875675201416,
      "learning_rate": 1.9774834483098745e-05,
      "loss": 1.3366,
      "mean_token_accuracy": 0.6615680456161499,
      "num_tokens": 302144787.0,
      "step": 1808
    },
    {
      "entropy": 1.6780883272488911,
      "epoch": 0.19873115267364258,
      "grad_norm": 0.6213021278381348,
      "learning_rate": 1.977447843645454e-05,
      "loss": 1.3939,
      "mean_token_accuracy": 0.6571485896905264,
      "num_tokens": 302332010.0,
      "step": 1809
    },
    {
      "entropy": 1.7402231593926747,
      "epoch": 0.19884100958501552,
      "grad_norm": 0.7091407775878906,
      "learning_rate": 1.9774122112102047e-05,
      "loss": 1.4103,
      "mean_token_accuracy": 0.6477878441413244,
      "num_tokens": 302472018.0,
      "step": 1810
    },
    {
      "entropy": 1.6822114984194438,
      "epoch": 0.19895086649638846,
      "grad_norm": 0.7527471780776978,
      "learning_rate": 1.9773765510052546e-05,
      "loss": 1.5214,
      "mean_token_accuracy": 0.6414872830112776,
      "num_tokens": 302690599.0,
      "step": 1811
    },
    {
      "entropy": 1.7382448216279347,
      "epoch": 0.1990607234077614,
      "grad_norm": 0.8488646149635315,
      "learning_rate": 1.9773408630317316e-05,
      "loss": 1.4812,
      "mean_token_accuracy": 0.6391682376464208,
      "num_tokens": 302884159.0,
      "step": 1812
    },
    {
      "entropy": 1.7655917604764302,
      "epoch": 0.19917058031913432,
      "grad_norm": 0.8058510422706604,
      "learning_rate": 1.9773051472907657e-05,
      "loss": 1.558,
      "mean_token_accuracy": 0.6351256171862284,
      "num_tokens": 303045104.0,
      "step": 1813
    },
    {
      "entropy": 1.7527148922284443,
      "epoch": 0.19928043723050726,
      "grad_norm": 0.7928998470306396,
      "learning_rate": 1.9772694037834873e-05,
      "loss": 1.5035,
      "mean_token_accuracy": 0.64784603814284,
      "num_tokens": 303195849.0,
      "step": 1814
    },
    {
      "entropy": 1.7500303983688354,
      "epoch": 0.1993902941418802,
      "grad_norm": 0.6854771375656128,
      "learning_rate": 1.977233632511028e-05,
      "loss": 1.3672,
      "mean_token_accuracy": 0.6633496433496475,
      "num_tokens": 303362204.0,
      "step": 1815
    },
    {
      "entropy": 1.7209295729796092,
      "epoch": 0.19950015105325314,
      "grad_norm": 0.7351916432380676,
      "learning_rate": 1.9771978334745184e-05,
      "loss": 1.4907,
      "mean_token_accuracy": 0.6455176422993342,
      "num_tokens": 303576314.0,
      "step": 1816
    },
    {
      "entropy": 1.7865357597668965,
      "epoch": 0.19961000796462608,
      "grad_norm": 0.79336017370224,
      "learning_rate": 1.9771620066750937e-05,
      "loss": 1.4667,
      "mean_token_accuracy": 0.6478342215220133,
      "num_tokens": 303792834.0,
      "step": 1817
    },
    {
      "entropy": 1.6429633895556133,
      "epoch": 0.19971986487599902,
      "grad_norm": 0.6706152558326721,
      "learning_rate": 1.9771261521138862e-05,
      "loss": 1.2351,
      "mean_token_accuracy": 0.6809234966834387,
      "num_tokens": 303906864.0,
      "step": 1818
    },
    {
      "entropy": 1.8072155614693959,
      "epoch": 0.19982972178737196,
      "grad_norm": 0.8159286975860596,
      "learning_rate": 1.9770902697920315e-05,
      "loss": 1.5045,
      "mean_token_accuracy": 0.6369387259085973,
      "num_tokens": 304084742.0,
      "step": 1819
    },
    {
      "entropy": 1.7179032564163208,
      "epoch": 0.19993957869874487,
      "grad_norm": 0.770172655582428,
      "learning_rate": 1.977054359710665e-05,
      "loss": 1.2617,
      "mean_token_accuracy": 0.6699782609939575,
      "num_tokens": 304223214.0,
      "step": 1820
    },
    {
      "entropy": 1.712960034608841,
      "epoch": 0.20004943561011782,
      "grad_norm": 0.9042562246322632,
      "learning_rate": 1.977018421870923e-05,
      "loss": 1.3977,
      "mean_token_accuracy": 0.6594905803600947,
      "num_tokens": 304405961.0,
      "step": 1821
    },
    {
      "entropy": 1.6442652344703674,
      "epoch": 0.20015929252149076,
      "grad_norm": 0.609815776348114,
      "learning_rate": 1.976982456273943e-05,
      "loss": 1.3585,
      "mean_token_accuracy": 0.6593890488147736,
      "num_tokens": 304574118.0,
      "step": 1822
    },
    {
      "entropy": 1.6892712612946827,
      "epoch": 0.2002691494328637,
      "grad_norm": 0.7102997303009033,
      "learning_rate": 1.9769464629208643e-05,
      "loss": 1.2489,
      "mean_token_accuracy": 0.6777701675891876,
      "num_tokens": 304742861.0,
      "step": 1823
    },
    {
      "entropy": 1.6933867732683818,
      "epoch": 0.20037900634423664,
      "grad_norm": 0.596263587474823,
      "learning_rate": 1.976910441812824e-05,
      "loss": 1.5056,
      "mean_token_accuracy": 0.6288742969433466,
      "num_tokens": 305020688.0,
      "step": 1824
    },
    {
      "entropy": 1.7255509893099468,
      "epoch": 0.20048886325560958,
      "grad_norm": 0.730722188949585,
      "learning_rate": 1.9768743929509643e-05,
      "loss": 1.425,
      "mean_token_accuracy": 0.6644620796044668,
      "num_tokens": 305151455.0,
      "step": 1825
    },
    {
      "entropy": 1.7349488337834675,
      "epoch": 0.2005987201669825,
      "grad_norm": 0.6531474590301514,
      "learning_rate": 1.9768383163364248e-05,
      "loss": 1.6278,
      "mean_token_accuracy": 0.6154864877462387,
      "num_tokens": 305348902.0,
      "step": 1826
    },
    {
      "entropy": 1.7766931653022766,
      "epoch": 0.20070857707835543,
      "grad_norm": 0.7823039293289185,
      "learning_rate": 1.9768022119703477e-05,
      "loss": 1.3906,
      "mean_token_accuracy": 0.6641748547554016,
      "num_tokens": 305467608.0,
      "step": 1827
    },
    {
      "entropy": 1.7294628620147705,
      "epoch": 0.20081843398972837,
      "grad_norm": 0.600829541683197,
      "learning_rate": 1.9767660798538757e-05,
      "loss": 1.3125,
      "mean_token_accuracy": 0.6706470201412836,
      "num_tokens": 305626175.0,
      "step": 1828
    },
    {
      "entropy": 1.7608105738957722,
      "epoch": 0.20092829090110131,
      "grad_norm": 0.6462728977203369,
      "learning_rate": 1.9767299199881524e-05,
      "loss": 1.4496,
      "mean_token_accuracy": 0.6452651371558508,
      "num_tokens": 305863805.0,
      "step": 1829
    },
    {
      "entropy": 1.7059124012788136,
      "epoch": 0.20103814781247425,
      "grad_norm": 0.5904053449630737,
      "learning_rate": 1.9766937323743226e-05,
      "loss": 1.2778,
      "mean_token_accuracy": 0.6797713836034139,
      "num_tokens": 306001168.0,
      "step": 1830
    },
    {
      "entropy": 1.6253532270590465,
      "epoch": 0.2011480047238472,
      "grad_norm": 0.7917356491088867,
      "learning_rate": 1.976657517013531e-05,
      "loss": 1.2863,
      "mean_token_accuracy": 0.6701359699169794,
      "num_tokens": 306199106.0,
      "step": 1831
    },
    {
      "entropy": 1.7297336757183075,
      "epoch": 0.20125786163522014,
      "grad_norm": 0.7113462686538696,
      "learning_rate": 1.9766212739069233e-05,
      "loss": 1.4775,
      "mean_token_accuracy": 0.6459426383177439,
      "num_tokens": 306362651.0,
      "step": 1832
    },
    {
      "entropy": 1.7070247530937195,
      "epoch": 0.20136771854659305,
      "grad_norm": 0.6649527549743652,
      "learning_rate": 1.976585003055648e-05,
      "loss": 1.4208,
      "mean_token_accuracy": 0.6574066330989202,
      "num_tokens": 306544467.0,
      "step": 1833
    },
    {
      "entropy": 1.7177915970484416,
      "epoch": 0.201477575457966,
      "grad_norm": 0.742743730545044,
      "learning_rate": 1.976548704460852e-05,
      "loss": 1.2361,
      "mean_token_accuracy": 0.6762651801109314,
      "num_tokens": 306659110.0,
      "step": 1834
    },
    {
      "entropy": 1.706160436073939,
      "epoch": 0.20158743236933893,
      "grad_norm": 0.907835841178894,
      "learning_rate": 1.976512378123685e-05,
      "loss": 1.3505,
      "mean_token_accuracy": 0.6621433893839518,
      "num_tokens": 306810908.0,
      "step": 1835
    },
    {
      "entropy": 1.700301080942154,
      "epoch": 0.20169728928071187,
      "grad_norm": 0.7097511291503906,
      "learning_rate": 1.9764760240452957e-05,
      "loss": 1.4589,
      "mean_token_accuracy": 0.6501483097672462,
      "num_tokens": 306986279.0,
      "step": 1836
    },
    {
      "entropy": 1.7191430628299713,
      "epoch": 0.2018071461920848,
      "grad_norm": 0.607349157333374,
      "learning_rate": 1.9764396422268356e-05,
      "loss": 1.3485,
      "mean_token_accuracy": 0.662805438041687,
      "num_tokens": 307116996.0,
      "step": 1837
    },
    {
      "entropy": 1.7494115829467773,
      "epoch": 0.20191700310345775,
      "grad_norm": 0.7002793550491333,
      "learning_rate": 1.976403232669455e-05,
      "loss": 1.5679,
      "mean_token_accuracy": 0.6226314206918081,
      "num_tokens": 307295127.0,
      "step": 1838
    },
    {
      "entropy": 1.7843216558297474,
      "epoch": 0.2020268600148307,
      "grad_norm": 0.6927679777145386,
      "learning_rate": 1.9763667953743078e-05,
      "loss": 1.4433,
      "mean_token_accuracy": 0.650288388133049,
      "num_tokens": 307474847.0,
      "step": 1839
    },
    {
      "entropy": 1.7510626216729481,
      "epoch": 0.2021367169262036,
      "grad_norm": 0.652125895023346,
      "learning_rate": 1.9763303303425463e-05,
      "loss": 1.3464,
      "mean_token_accuracy": 0.6607447812954584,
      "num_tokens": 307652843.0,
      "step": 1840
    },
    {
      "entropy": 1.7755654851595561,
      "epoch": 0.20224657383757655,
      "grad_norm": 0.9156058430671692,
      "learning_rate": 1.9762938375753245e-05,
      "loss": 1.3372,
      "mean_token_accuracy": 0.6591128408908844,
      "num_tokens": 307769467.0,
      "step": 1841
    },
    {
      "entropy": 1.7441391746203105,
      "epoch": 0.2023564307489495,
      "grad_norm": 0.7158201932907104,
      "learning_rate": 1.976257317073798e-05,
      "loss": 1.366,
      "mean_token_accuracy": 0.6583238691091537,
      "num_tokens": 307913812.0,
      "step": 1842
    },
    {
      "entropy": 1.7281207144260406,
      "epoch": 0.20246628766032243,
      "grad_norm": 0.5468607544898987,
      "learning_rate": 1.9762207688391216e-05,
      "loss": 1.4142,
      "mean_token_accuracy": 0.6494698971509933,
      "num_tokens": 308126776.0,
      "step": 1843
    },
    {
      "entropy": 1.7128788232803345,
      "epoch": 0.20257614457169537,
      "grad_norm": 0.6986768841743469,
      "learning_rate": 1.976184192872453e-05,
      "loss": 1.3821,
      "mean_token_accuracy": 0.650952065984408,
      "num_tokens": 308296663.0,
      "step": 1844
    },
    {
      "entropy": 1.7056085566679637,
      "epoch": 0.2026860014830683,
      "grad_norm": 0.6520532369613647,
      "learning_rate": 1.9761475891749496e-05,
      "loss": 1.3298,
      "mean_token_accuracy": 0.6659070352713267,
      "num_tokens": 308484182.0,
      "step": 1845
    },
    {
      "entropy": 1.7646136184533436,
      "epoch": 0.20279585839444125,
      "grad_norm": 0.6946887373924255,
      "learning_rate": 1.9761109577477696e-05,
      "loss": 1.5495,
      "mean_token_accuracy": 0.6431872049967448,
      "num_tokens": 308660541.0,
      "step": 1846
    },
    {
      "entropy": 1.716064860423406,
      "epoch": 0.20290571530581417,
      "grad_norm": 0.8077802062034607,
      "learning_rate": 1.9760742985920726e-05,
      "loss": 1.5907,
      "mean_token_accuracy": 0.6451023171345392,
      "num_tokens": 308825957.0,
      "step": 1847
    },
    {
      "entropy": 1.7179016371568043,
      "epoch": 0.2030155722171871,
      "grad_norm": 0.7027926445007324,
      "learning_rate": 1.976037611709019e-05,
      "loss": 1.4141,
      "mean_token_accuracy": 0.6579538484414419,
      "num_tokens": 308979266.0,
      "step": 1848
    },
    {
      "entropy": 1.724165548880895,
      "epoch": 0.20312542912856005,
      "grad_norm": 0.5816169381141663,
      "learning_rate": 1.9760008970997702e-05,
      "loss": 1.3984,
      "mean_token_accuracy": 0.6541108936071396,
      "num_tokens": 309144227.0,
      "step": 1849
    },
    {
      "entropy": 1.7344149947166443,
      "epoch": 0.203235286039933,
      "grad_norm": 0.7658873796463013,
      "learning_rate": 1.975964154765487e-05,
      "loss": 1.5109,
      "mean_token_accuracy": 0.6461022893587748,
      "num_tokens": 309307786.0,
      "step": 1850
    },
    {
      "entropy": 1.7166369756062825,
      "epoch": 0.20334514295130593,
      "grad_norm": 0.6772670149803162,
      "learning_rate": 1.975927384707333e-05,
      "loss": 1.4384,
      "mean_token_accuracy": 0.6566036691268285,
      "num_tokens": 309459208.0,
      "step": 1851
    },
    {
      "entropy": 1.6875809729099274,
      "epoch": 0.20345499986267887,
      "grad_norm": 0.7443994283676147,
      "learning_rate": 1.9758905869264725e-05,
      "loss": 1.5135,
      "mean_token_accuracy": 0.6605640351772308,
      "num_tokens": 309607725.0,
      "step": 1852
    },
    {
      "entropy": 1.775184839963913,
      "epoch": 0.2035648567740518,
      "grad_norm": 0.7913832664489746,
      "learning_rate": 1.9758537614240692e-05,
      "loss": 1.3856,
      "mean_token_accuracy": 0.6432444254557291,
      "num_tokens": 309776782.0,
      "step": 1853
    },
    {
      "entropy": 1.7546232839425404,
      "epoch": 0.20367471368542472,
      "grad_norm": 0.7907248139381409,
      "learning_rate": 1.9758169082012893e-05,
      "loss": 1.3165,
      "mean_token_accuracy": 0.6588219453891119,
      "num_tokens": 309925121.0,
      "step": 1854
    },
    {
      "entropy": 1.7209657728672028,
      "epoch": 0.20378457059679767,
      "grad_norm": 0.770335853099823,
      "learning_rate": 1.975780027259299e-05,
      "loss": 1.4543,
      "mean_token_accuracy": 0.6663737197717031,
      "num_tokens": 310094118.0,
      "step": 1855
    },
    {
      "entropy": 1.6761006116867065,
      "epoch": 0.2038944275081706,
      "grad_norm": 0.7291706204414368,
      "learning_rate": 1.975743118599265e-05,
      "loss": 1.322,
      "mean_token_accuracy": 0.672456423441569,
      "num_tokens": 310234093.0,
      "step": 1856
    },
    {
      "entropy": 1.7500018080075581,
      "epoch": 0.20400428441954355,
      "grad_norm": 0.7051176428794861,
      "learning_rate": 1.975706182222356e-05,
      "loss": 1.4993,
      "mean_token_accuracy": 0.6471735189358393,
      "num_tokens": 310438381.0,
      "step": 1857
    },
    {
      "entropy": 1.7876022458076477,
      "epoch": 0.2041141413309165,
      "grad_norm": 0.7112467288970947,
      "learning_rate": 1.9756692181297412e-05,
      "loss": 1.5468,
      "mean_token_accuracy": 0.6419008473555247,
      "num_tokens": 310624466.0,
      "step": 1858
    },
    {
      "entropy": 1.7213526765505474,
      "epoch": 0.20422399824228943,
      "grad_norm": 0.6644498705863953,
      "learning_rate": 1.9756322263225903e-05,
      "loss": 1.3655,
      "mean_token_accuracy": 0.6711994310220083,
      "num_tokens": 310774375.0,
      "step": 1859
    },
    {
      "entropy": 1.6958336333433788,
      "epoch": 0.20433385515366234,
      "grad_norm": 0.6671877503395081,
      "learning_rate": 1.9755952068020737e-05,
      "loss": 1.3116,
      "mean_token_accuracy": 0.6657513082027435,
      "num_tokens": 310940187.0,
      "step": 1860
    },
    {
      "entropy": 1.6833363076051076,
      "epoch": 0.20444371206503528,
      "grad_norm": 0.7353310585021973,
      "learning_rate": 1.9755581595693636e-05,
      "loss": 1.4442,
      "mean_token_accuracy": 0.6834416141112646,
      "num_tokens": 311079868.0,
      "step": 1861
    },
    {
      "entropy": 1.7643102804819744,
      "epoch": 0.20455356897640822,
      "grad_norm": 0.7783114910125732,
      "learning_rate": 1.975521084625632e-05,
      "loss": 1.3208,
      "mean_token_accuracy": 0.6558940261602402,
      "num_tokens": 311220945.0,
      "step": 1862
    },
    {
      "entropy": 1.7230792840321858,
      "epoch": 0.20466342588778116,
      "grad_norm": 0.6682336926460266,
      "learning_rate": 1.975483981972053e-05,
      "loss": 1.426,
      "mean_token_accuracy": 0.6528936872879664,
      "num_tokens": 311384579.0,
      "step": 1863
    },
    {
      "entropy": 1.7676608264446259,
      "epoch": 0.2047732827991541,
      "grad_norm": 0.7327151298522949,
      "learning_rate": 1.9754468516098003e-05,
      "loss": 1.3778,
      "mean_token_accuracy": 0.6655658980210623,
      "num_tokens": 311529478.0,
      "step": 1864
    },
    {
      "entropy": 1.773693968852361,
      "epoch": 0.20488313971052705,
      "grad_norm": 0.8596065044403076,
      "learning_rate": 1.975409693540049e-05,
      "loss": 1.2687,
      "mean_token_accuracy": 0.6674908697605133,
      "num_tokens": 311648679.0,
      "step": 1865
    },
    {
      "entropy": 1.682075430949529,
      "epoch": 0.2049929966219,
      "grad_norm": 0.7088510990142822,
      "learning_rate": 1.9753725077639757e-05,
      "loss": 1.3837,
      "mean_token_accuracy": 0.6538609862327576,
      "num_tokens": 311807028.0,
      "step": 1866
    },
    {
      "entropy": 1.7813390990098317,
      "epoch": 0.2051028535332729,
      "grad_norm": 0.7097972631454468,
      "learning_rate": 1.9753352942827568e-05,
      "loss": 1.6051,
      "mean_token_accuracy": 0.6367628425359726,
      "num_tokens": 312009929.0,
      "step": 1867
    },
    {
      "entropy": 1.7026053667068481,
      "epoch": 0.20521271044464584,
      "grad_norm": 0.7793052196502686,
      "learning_rate": 1.9752980530975702e-05,
      "loss": 1.3475,
      "mean_token_accuracy": 0.6695610036452612,
      "num_tokens": 312142042.0,
      "step": 1868
    },
    {
      "entropy": 1.7217031021912892,
      "epoch": 0.20532256735601878,
      "grad_norm": 0.6053064465522766,
      "learning_rate": 1.975260784209595e-05,
      "loss": 1.4688,
      "mean_token_accuracy": 0.6375043392181396,
      "num_tokens": 312356696.0,
      "step": 1869
    },
    {
      "entropy": 1.7617976367473602,
      "epoch": 0.20543242426739172,
      "grad_norm": 1.0582380294799805,
      "learning_rate": 1.9752234876200097e-05,
      "loss": 1.5011,
      "mean_token_accuracy": 0.6502614468336105,
      "num_tokens": 312534643.0,
      "step": 1870
    },
    {
      "entropy": 1.6304903427759807,
      "epoch": 0.20554228117876466,
      "grad_norm": 0.5571168065071106,
      "learning_rate": 1.975186163329996e-05,
      "loss": 1.2778,
      "mean_token_accuracy": 0.6664902319510778,
      "num_tokens": 312700073.0,
      "step": 1871
    },
    {
      "entropy": 1.6912108063697815,
      "epoch": 0.2056521380901376,
      "grad_norm": 0.6295304894447327,
      "learning_rate": 1.9751488113407343e-05,
      "loss": 1.4227,
      "mean_token_accuracy": 0.6689607550700506,
      "num_tokens": 312847666.0,
      "step": 1872
    },
    {
      "entropy": 1.7157114446163177,
      "epoch": 0.20576199500151054,
      "grad_norm": 0.8937650918960571,
      "learning_rate": 1.975111431653407e-05,
      "loss": 1.5174,
      "mean_token_accuracy": 0.6386149227619171,
      "num_tokens": 313025199.0,
      "step": 1873
    },
    {
      "entropy": 1.7388854622840881,
      "epoch": 0.20587185191288346,
      "grad_norm": 0.5921317934989929,
      "learning_rate": 1.9750740242691978e-05,
      "loss": 1.5385,
      "mean_token_accuracy": 0.6445744981368383,
      "num_tokens": 313268338.0,
      "step": 1874
    },
    {
      "entropy": 1.6713208258152008,
      "epoch": 0.2059817088242564,
      "grad_norm": 0.7296470403671265,
      "learning_rate": 1.9750365891892894e-05,
      "loss": 1.4052,
      "mean_token_accuracy": 0.6561514039834341,
      "num_tokens": 313477471.0,
      "step": 1875
    },
    {
      "entropy": 1.6889991958936055,
      "epoch": 0.20609156573562934,
      "grad_norm": 0.591461181640625,
      "learning_rate": 1.9749991264148676e-05,
      "loss": 1.3788,
      "mean_token_accuracy": 0.6569076975186666,
      "num_tokens": 313703842.0,
      "step": 1876
    },
    {
      "entropy": 1.710012932618459,
      "epoch": 0.20620142264700228,
      "grad_norm": 0.7003285884857178,
      "learning_rate": 1.9749616359471176e-05,
      "loss": 1.2286,
      "mean_token_accuracy": 0.6813757121562958,
      "num_tokens": 313828662.0,
      "step": 1877
    },
    {
      "entropy": 1.7340795695781708,
      "epoch": 0.20631127955837522,
      "grad_norm": 0.7556050419807434,
      "learning_rate": 1.974924117787226e-05,
      "loss": 1.3818,
      "mean_token_accuracy": 0.6705377250909805,
      "num_tokens": 313992143.0,
      "step": 1878
    },
    {
      "entropy": 1.6594361861546834,
      "epoch": 0.20642113646974816,
      "grad_norm": 0.67914217710495,
      "learning_rate": 1.974886571936381e-05,
      "loss": 1.4848,
      "mean_token_accuracy": 0.655074879527092,
      "num_tokens": 314195437.0,
      "step": 1879
    },
    {
      "entropy": 1.7556609710057576,
      "epoch": 0.2065309933811211,
      "grad_norm": 0.7271071672439575,
      "learning_rate": 1.9748489983957692e-05,
      "loss": 1.4298,
      "mean_token_accuracy": 0.641119142373403,
      "num_tokens": 314352057.0,
      "step": 1880
    },
    {
      "entropy": 1.747815767923991,
      "epoch": 0.20664085029249402,
      "grad_norm": 0.6552515625953674,
      "learning_rate": 1.9748113971665816e-05,
      "loss": 1.3886,
      "mean_token_accuracy": 0.6543693294127783,
      "num_tokens": 314532136.0,
      "step": 1881
    },
    {
      "entropy": 1.723093291123708,
      "epoch": 0.20675070720386696,
      "grad_norm": 0.6786137223243713,
      "learning_rate": 1.9747737682500072e-05,
      "loss": 1.5003,
      "mean_token_accuracy": 0.6459396133820215,
      "num_tokens": 314696517.0,
      "step": 1882
    },
    {
      "entropy": 1.7882917523384094,
      "epoch": 0.2068605641152399,
      "grad_norm": 0.7087535262107849,
      "learning_rate": 1.9747361116472373e-05,
      "loss": 1.4855,
      "mean_token_accuracy": 0.6424766977628072,
      "num_tokens": 314906715.0,
      "step": 1883
    },
    {
      "entropy": 1.7414319415887196,
      "epoch": 0.20697042102661284,
      "grad_norm": 0.8721282482147217,
      "learning_rate": 1.9746984273594632e-05,
      "loss": 1.4097,
      "mean_token_accuracy": 0.654596209526062,
      "num_tokens": 315155191.0,
      "step": 1884
    },
    {
      "entropy": 1.7770436803499858,
      "epoch": 0.20708027793798578,
      "grad_norm": 0.7305892705917358,
      "learning_rate": 1.9746607153878786e-05,
      "loss": 1.4086,
      "mean_token_accuracy": 0.6574834038813909,
      "num_tokens": 315321135.0,
      "step": 1885
    },
    {
      "entropy": 1.7179120083649952,
      "epoch": 0.20719013484935872,
      "grad_norm": 0.7217333912849426,
      "learning_rate": 1.9746229757336763e-05,
      "loss": 1.4068,
      "mean_token_accuracy": 0.6624855548143387,
      "num_tokens": 315492089.0,
      "step": 1886
    },
    {
      "entropy": 1.7504285176595051,
      "epoch": 0.20729999176073163,
      "grad_norm": 0.6315979957580566,
      "learning_rate": 1.9745852083980507e-05,
      "loss": 1.5327,
      "mean_token_accuracy": 0.6477139939864477,
      "num_tokens": 315664077.0,
      "step": 1887
    },
    {
      "entropy": 1.6375745435555775,
      "epoch": 0.20740984867210457,
      "grad_norm": 0.7350934147834778,
      "learning_rate": 1.9745474133821978e-05,
      "loss": 1.379,
      "mean_token_accuracy": 0.6684954961140951,
      "num_tokens": 315862163.0,
      "step": 1888
    },
    {
      "entropy": 1.6826703051726024,
      "epoch": 0.20751970558347752,
      "grad_norm": 0.6202029585838318,
      "learning_rate": 1.974509590687313e-05,
      "loss": 1.3122,
      "mean_token_accuracy": 0.6682248959938685,
      "num_tokens": 316025052.0,
      "step": 1889
    },
    {
      "entropy": 1.724346548318863,
      "epoch": 0.20762956249485046,
      "grad_norm": 0.7694988250732422,
      "learning_rate": 1.9744717403145935e-05,
      "loss": 1.3031,
      "mean_token_accuracy": 0.6729477494955063,
      "num_tokens": 316128499.0,
      "step": 1890
    },
    {
      "entropy": 1.7621622681617737,
      "epoch": 0.2077394194062234,
      "grad_norm": 0.6370652318000793,
      "learning_rate": 1.974433862265238e-05,
      "loss": 1.4028,
      "mean_token_accuracy": 0.653249795238177,
      "num_tokens": 316363618.0,
      "step": 1891
    },
    {
      "entropy": 1.733237236738205,
      "epoch": 0.20784927631759634,
      "grad_norm": 0.7276230454444885,
      "learning_rate": 1.9743959565404444e-05,
      "loss": 1.2583,
      "mean_token_accuracy": 0.6862328201532364,
      "num_tokens": 316514946.0,
      "step": 1892
    },
    {
      "entropy": 1.6722540160020192,
      "epoch": 0.20795913322896928,
      "grad_norm": 0.6568346619606018,
      "learning_rate": 1.974358023141413e-05,
      "loss": 1.3413,
      "mean_token_accuracy": 0.6587617894013723,
      "num_tokens": 316683060.0,
      "step": 1893
    },
    {
      "entropy": 1.7204617460568745,
      "epoch": 0.2080689901403422,
      "grad_norm": 0.7202989459037781,
      "learning_rate": 1.9743200620693442e-05,
      "loss": 1.3252,
      "mean_token_accuracy": 0.6609460512797037,
      "num_tokens": 316879147.0,
      "step": 1894
    },
    {
      "entropy": 1.703949401775996,
      "epoch": 0.20817884705171513,
      "grad_norm": 0.7430747747421265,
      "learning_rate": 1.9742820733254394e-05,
      "loss": 1.3856,
      "mean_token_accuracy": 0.6529827465613683,
      "num_tokens": 317073037.0,
      "step": 1895
    },
    {
      "entropy": 1.7440508604049683,
      "epoch": 0.20828870396308807,
      "grad_norm": 0.6155939698219299,
      "learning_rate": 1.9742440569109008e-05,
      "loss": 1.4088,
      "mean_token_accuracy": 0.6512663116057714,
      "num_tokens": 317300611.0,
      "step": 1896
    },
    {
      "entropy": 1.7047240138053894,
      "epoch": 0.20839856087446101,
      "grad_norm": 0.7423590421676636,
      "learning_rate": 1.974206012826932e-05,
      "loss": 1.4194,
      "mean_token_accuracy": 0.6572458644707998,
      "num_tokens": 317448579.0,
      "step": 1897
    },
    {
      "entropy": 1.7306395471096039,
      "epoch": 0.20850841778583395,
      "grad_norm": 0.644149661064148,
      "learning_rate": 1.9741679410747364e-05,
      "loss": 1.4372,
      "mean_token_accuracy": 0.6524844119946162,
      "num_tokens": 317628610.0,
      "step": 1898
    },
    {
      "entropy": 1.7001280784606934,
      "epoch": 0.2086182746972069,
      "grad_norm": 0.6855803728103638,
      "learning_rate": 1.9741298416555196e-05,
      "loss": 1.4569,
      "mean_token_accuracy": 0.6421359926462173,
      "num_tokens": 317810190.0,
      "step": 1899
    },
    {
      "entropy": 1.7195194760958354,
      "epoch": 0.20872813160857984,
      "grad_norm": 0.7779269218444824,
      "learning_rate": 1.974091714570487e-05,
      "loss": 1.5581,
      "mean_token_accuracy": 0.6334304213523865,
      "num_tokens": 318001402.0,
      "step": 1900
    },
    {
      "entropy": 1.7282605667908986,
      "epoch": 0.20883798851995275,
      "grad_norm": 0.6376639604568481,
      "learning_rate": 1.9740535598208458e-05,
      "loss": 1.3576,
      "mean_token_accuracy": 0.6543524712324142,
      "num_tokens": 318167363.0,
      "step": 1901
    },
    {
      "entropy": 1.7092109819253285,
      "epoch": 0.2089478454313257,
      "grad_norm": 0.6729239821434021,
      "learning_rate": 1.9740153774078033e-05,
      "loss": 1.346,
      "mean_token_accuracy": 0.658411035935084,
      "num_tokens": 318317612.0,
      "step": 1902
    },
    {
      "entropy": 1.7186111609141033,
      "epoch": 0.20905770234269863,
      "grad_norm": 0.8159520030021667,
      "learning_rate": 1.9739771673325678e-05,
      "loss": 1.4808,
      "mean_token_accuracy": 0.6539090524117152,
      "num_tokens": 318481892.0,
      "step": 1903
    },
    {
      "entropy": 1.7617724239826202,
      "epoch": 0.20916755925407157,
      "grad_norm": 0.6777756214141846,
      "learning_rate": 1.9739389295963486e-05,
      "loss": 1.5622,
      "mean_token_accuracy": 0.6342104425032934,
      "num_tokens": 318709241.0,
      "step": 1904
    },
    {
      "entropy": 1.719315081834793,
      "epoch": 0.2092774161654445,
      "grad_norm": 0.663506805896759,
      "learning_rate": 1.9739006642003566e-05,
      "loss": 1.3675,
      "mean_token_accuracy": 0.668515016635259,
      "num_tokens": 318948897.0,
      "step": 1905
    },
    {
      "entropy": 1.7113699913024902,
      "epoch": 0.20938727307681745,
      "grad_norm": 0.6316990256309509,
      "learning_rate": 1.973862371145802e-05,
      "loss": 1.4644,
      "mean_token_accuracy": 0.6517230321963629,
      "num_tokens": 319134577.0,
      "step": 1906
    },
    {
      "entropy": 1.7475859622160594,
      "epoch": 0.2094971299881904,
      "grad_norm": 0.7789897322654724,
      "learning_rate": 1.973824050433897e-05,
      "loss": 1.4932,
      "mean_token_accuracy": 0.6495751440525055,
      "num_tokens": 319295735.0,
      "step": 1907
    },
    {
      "entropy": 1.685575932264328,
      "epoch": 0.2096069868995633,
      "grad_norm": 0.5883545279502869,
      "learning_rate": 1.973785702065855e-05,
      "loss": 1.4238,
      "mean_token_accuracy": 0.6530423561731974,
      "num_tokens": 319516027.0,
      "step": 1908
    },
    {
      "entropy": 1.7320783734321594,
      "epoch": 0.20971684381093625,
      "grad_norm": 0.8050070405006409,
      "learning_rate": 1.9737473260428894e-05,
      "loss": 1.337,
      "mean_token_accuracy": 0.6576566646496455,
      "num_tokens": 319616804.0,
      "step": 1909
    },
    {
      "entropy": 1.7201977968215942,
      "epoch": 0.2098267007223092,
      "grad_norm": 0.7059934139251709,
      "learning_rate": 1.973708922366214e-05,
      "loss": 1.2972,
      "mean_token_accuracy": 0.6773047844568888,
      "num_tokens": 319738775.0,
      "step": 1910
    },
    {
      "entropy": 1.7452878654003143,
      "epoch": 0.20993655763368213,
      "grad_norm": 0.6112817525863647,
      "learning_rate": 1.973670491037045e-05,
      "loss": 1.4088,
      "mean_token_accuracy": 0.6482658833265305,
      "num_tokens": 319930662.0,
      "step": 1911
    },
    {
      "entropy": 1.710121254126231,
      "epoch": 0.21004641454505507,
      "grad_norm": 0.7919174432754517,
      "learning_rate": 1.973632032056599e-05,
      "loss": 1.4035,
      "mean_token_accuracy": 0.6597762157519659,
      "num_tokens": 320076366.0,
      "step": 1912
    },
    {
      "entropy": 1.7030129532019298,
      "epoch": 0.210156271456428,
      "grad_norm": 0.700587272644043,
      "learning_rate": 1.9735935454260925e-05,
      "loss": 1.3965,
      "mean_token_accuracy": 0.6516723334789276,
      "num_tokens": 320247392.0,
      "step": 1913
    },
    {
      "entropy": 1.7211789786815643,
      "epoch": 0.21026612836780095,
      "grad_norm": 0.7128605842590332,
      "learning_rate": 1.9735550311467443e-05,
      "loss": 1.4136,
      "mean_token_accuracy": 0.6487771173318228,
      "num_tokens": 320408383.0,
      "step": 1914
    },
    {
      "entropy": 1.7001396020253499,
      "epoch": 0.21037598527917387,
      "grad_norm": 0.7244299650192261,
      "learning_rate": 1.973516489219773e-05,
      "loss": 1.499,
      "mean_token_accuracy": 0.6356903513272604,
      "num_tokens": 320659297.0,
      "step": 1915
    },
    {
      "entropy": 1.7240975697835286,
      "epoch": 0.2104858421905468,
      "grad_norm": 0.5836021900177002,
      "learning_rate": 1.973477919646398e-05,
      "loss": 1.316,
      "mean_token_accuracy": 0.6605116327603658,
      "num_tokens": 320823387.0,
      "step": 1916
    },
    {
      "entropy": 1.724854737520218,
      "epoch": 0.21059569910191975,
      "grad_norm": 0.7972742319107056,
      "learning_rate": 1.9734393224278406e-05,
      "loss": 1.3694,
      "mean_token_accuracy": 0.6639392127593359,
      "num_tokens": 320951543.0,
      "step": 1917
    },
    {
      "entropy": 1.696036696434021,
      "epoch": 0.2107055560132927,
      "grad_norm": 0.8939576745033264,
      "learning_rate": 1.9734006975653224e-05,
      "loss": 1.2696,
      "mean_token_accuracy": 0.6718998452027639,
      "num_tokens": 321087040.0,
      "step": 1918
    },
    {
      "entropy": 1.6345807611942291,
      "epoch": 0.21081541292466563,
      "grad_norm": 0.5838897824287415,
      "learning_rate": 1.9733620450600655e-05,
      "loss": 1.3427,
      "mean_token_accuracy": 0.6704151580731074,
      "num_tokens": 321269169.0,
      "step": 1919
    },
    {
      "entropy": 1.7143397529919941,
      "epoch": 0.21092526983603857,
      "grad_norm": 0.7261598110198975,
      "learning_rate": 1.9733233649132938e-05,
      "loss": 1.4234,
      "mean_token_accuracy": 0.6666987985372543,
      "num_tokens": 321418860.0,
      "step": 1920
    },
    {
      "entropy": 1.7327088514963787,
      "epoch": 0.21103512674741148,
      "grad_norm": 0.7012075185775757,
      "learning_rate": 1.9732846571262304e-05,
      "loss": 1.4299,
      "mean_token_accuracy": 0.6525350759426752,
      "num_tokens": 321598118.0,
      "step": 1921
    },
    {
      "entropy": 1.7444495658079784,
      "epoch": 0.21114498365878442,
      "grad_norm": 0.6507946252822876,
      "learning_rate": 1.9732459217001017e-05,
      "loss": 1.4639,
      "mean_token_accuracy": 0.6573313424984614,
      "num_tokens": 321804284.0,
      "step": 1922
    },
    {
      "entropy": 1.724996030330658,
      "epoch": 0.21125484057015737,
      "grad_norm": 0.620772123336792,
      "learning_rate": 1.9732071586361334e-05,
      "loss": 1.5714,
      "mean_token_accuracy": 0.625721663236618,
      "num_tokens": 322021779.0,
      "step": 1923
    },
    {
      "entropy": 1.6913380126158397,
      "epoch": 0.2113646974815303,
      "grad_norm": 0.5675688982009888,
      "learning_rate": 1.973168367935551e-05,
      "loss": 1.4439,
      "mean_token_accuracy": 0.6470164060592651,
      "num_tokens": 322200625.0,
      "step": 1924
    },
    {
      "entropy": 1.647382875283559,
      "epoch": 0.21147455439290325,
      "grad_norm": 0.6393111348152161,
      "learning_rate": 1.9731295495995838e-05,
      "loss": 1.3366,
      "mean_token_accuracy": 0.6661768307288488,
      "num_tokens": 322380416.0,
      "step": 1925
    },
    {
      "entropy": 1.6876880129178364,
      "epoch": 0.2115844113042762,
      "grad_norm": 2.3705599308013916,
      "learning_rate": 1.97309070362946e-05,
      "loss": 1.175,
      "mean_token_accuracy": 0.6751070966323217,
      "num_tokens": 322560122.0,
      "step": 1926
    },
    {
      "entropy": 1.7260343929131825,
      "epoch": 0.21169426821564913,
      "grad_norm": 0.689630389213562,
      "learning_rate": 1.9730518300264086e-05,
      "loss": 1.4034,
      "mean_token_accuracy": 0.66618379453818,
      "num_tokens": 322702668.0,
      "step": 1927
    },
    {
      "entropy": 1.6774284541606903,
      "epoch": 0.21180412512702204,
      "grad_norm": 0.6801313757896423,
      "learning_rate": 1.97301292879166e-05,
      "loss": 1.3852,
      "mean_token_accuracy": 0.6520472516616186,
      "num_tokens": 322920370.0,
      "step": 1928
    },
    {
      "entropy": 1.6716736455758412,
      "epoch": 0.21191398203839498,
      "grad_norm": 0.7043926119804382,
      "learning_rate": 1.9729739999264458e-05,
      "loss": 1.4412,
      "mean_token_accuracy": 0.6420286248127619,
      "num_tokens": 323090618.0,
      "step": 1929
    },
    {
      "entropy": 1.7062031924724579,
      "epoch": 0.21202383894976792,
      "grad_norm": 0.6019328832626343,
      "learning_rate": 1.9729350434319977e-05,
      "loss": 1.5193,
      "mean_token_accuracy": 0.6340185602506002,
      "num_tokens": 323303523.0,
      "step": 1930
    },
    {
      "entropy": 1.71775417526563,
      "epoch": 0.21213369586114086,
      "grad_norm": 0.655889093875885,
      "learning_rate": 1.9728960593095493e-05,
      "loss": 1.3497,
      "mean_token_accuracy": 0.6655166298151016,
      "num_tokens": 323446877.0,
      "step": 1931
    },
    {
      "entropy": 1.6558316747347515,
      "epoch": 0.2122435527725138,
      "grad_norm": 0.703708291053772,
      "learning_rate": 1.9728570475603336e-05,
      "loss": 1.3943,
      "mean_token_accuracy": 0.6581457406282425,
      "num_tokens": 323604718.0,
      "step": 1932
    },
    {
      "entropy": 1.7211906711260478,
      "epoch": 0.21235340968388675,
      "grad_norm": 0.7779010534286499,
      "learning_rate": 1.9728180081855855e-05,
      "loss": 1.4799,
      "mean_token_accuracy": 0.6504116902748743,
      "num_tokens": 323744606.0,
      "step": 1933
    },
    {
      "entropy": 1.636175235112508,
      "epoch": 0.2124632665952597,
      "grad_norm": 0.6399657726287842,
      "learning_rate": 1.972778941186541e-05,
      "loss": 1.2702,
      "mean_token_accuracy": 0.6657491226991018,
      "num_tokens": 323939422.0,
      "step": 1934
    },
    {
      "entropy": 1.7119918167591095,
      "epoch": 0.2125731235066326,
      "grad_norm": 0.6368902921676636,
      "learning_rate": 1.9727398465644363e-05,
      "loss": 1.3036,
      "mean_token_accuracy": 0.668227881193161,
      "num_tokens": 324097047.0,
      "step": 1935
    },
    {
      "entropy": 1.6312094032764435,
      "epoch": 0.21268298041800554,
      "grad_norm": 0.6294612884521484,
      "learning_rate": 1.972700724320509e-05,
      "loss": 1.2651,
      "mean_token_accuracy": 0.6779163281122843,
      "num_tokens": 324248984.0,
      "step": 1936
    },
    {
      "entropy": 1.7897210717201233,
      "epoch": 0.21279283732937848,
      "grad_norm": 0.7651355266571045,
      "learning_rate": 1.9726615744559965e-05,
      "loss": 1.4585,
      "mean_token_accuracy": 0.6460629999637604,
      "num_tokens": 324427567.0,
      "step": 1937
    },
    {
      "entropy": 1.760125567515691,
      "epoch": 0.21290269424075142,
      "grad_norm": 0.9342473745346069,
      "learning_rate": 1.9726223969721384e-05,
      "loss": 1.3453,
      "mean_token_accuracy": 0.6497061004241308,
      "num_tokens": 324608248.0,
      "step": 1938
    },
    {
      "entropy": 1.7319878935813904,
      "epoch": 0.21301255115212436,
      "grad_norm": 0.6311997771263123,
      "learning_rate": 1.972583191870175e-05,
      "loss": 1.3187,
      "mean_token_accuracy": 0.6541954825321833,
      "num_tokens": 324767775.0,
      "step": 1939
    },
    {
      "entropy": 1.681753158569336,
      "epoch": 0.2131224080634973,
      "grad_norm": 0.7324146032333374,
      "learning_rate": 1.9725439591513467e-05,
      "loss": 1.3592,
      "mean_token_accuracy": 0.6560372710227966,
      "num_tokens": 324951412.0,
      "step": 1940
    },
    {
      "entropy": 1.7503413657347362,
      "epoch": 0.21323226497487024,
      "grad_norm": 0.7484403252601624,
      "learning_rate": 1.972504698816895e-05,
      "loss": 1.3736,
      "mean_token_accuracy": 0.662136490146319,
      "num_tokens": 325081774.0,
      "step": 1941
    },
    {
      "entropy": 1.6506099005540211,
      "epoch": 0.21334212188624316,
      "grad_norm": 0.6231799125671387,
      "learning_rate": 1.972465410868063e-05,
      "loss": 1.2779,
      "mean_token_accuracy": 0.6839319914579391,
      "num_tokens": 325248232.0,
      "step": 1942
    },
    {
      "entropy": 1.7160189251104991,
      "epoch": 0.2134519787976161,
      "grad_norm": 0.7348440289497375,
      "learning_rate": 1.972426095306094e-05,
      "loss": 1.488,
      "mean_token_accuracy": 0.6483329683542252,
      "num_tokens": 325456430.0,
      "step": 1943
    },
    {
      "entropy": 1.6814146141211193,
      "epoch": 0.21356183570898904,
      "grad_norm": 0.6065512299537659,
      "learning_rate": 1.972386752132232e-05,
      "loss": 1.3807,
      "mean_token_accuracy": 0.6708929588397344,
      "num_tokens": 325625943.0,
      "step": 1944
    },
    {
      "entropy": 1.7090165813763936,
      "epoch": 0.21367169262036198,
      "grad_norm": 0.6108605861663818,
      "learning_rate": 1.9723473813477223e-05,
      "loss": 1.363,
      "mean_token_accuracy": 0.6590655495723089,
      "num_tokens": 325806626.0,
      "step": 1945
    },
    {
      "entropy": 1.7288100719451904,
      "epoch": 0.21378154953173492,
      "grad_norm": 0.814892590045929,
      "learning_rate": 1.9723079829538115e-05,
      "loss": 1.4412,
      "mean_token_accuracy": 0.6585568189620972,
      "num_tokens": 325963539.0,
      "step": 1946
    },
    {
      "entropy": 1.7768865327040355,
      "epoch": 0.21389140644310786,
      "grad_norm": 0.8345417976379395,
      "learning_rate": 1.9722685569517455e-05,
      "loss": 1.4554,
      "mean_token_accuracy": 0.6512434879938761,
      "num_tokens": 326093531.0,
      "step": 1947
    },
    {
      "entropy": 1.6884494721889496,
      "epoch": 0.21400126335448078,
      "grad_norm": 0.6763792634010315,
      "learning_rate": 1.9722291033427733e-05,
      "loss": 1.3025,
      "mean_token_accuracy": 0.6711457918087641,
      "num_tokens": 326244680.0,
      "step": 1948
    },
    {
      "entropy": 1.6721834540367126,
      "epoch": 0.21411112026585372,
      "grad_norm": 0.7668681144714355,
      "learning_rate": 1.9721896221281426e-05,
      "loss": 1.3331,
      "mean_token_accuracy": 0.6610443890094757,
      "num_tokens": 326351781.0,
      "step": 1949
    },
    {
      "entropy": 1.6889389057954152,
      "epoch": 0.21422097717722666,
      "grad_norm": 0.6436994075775146,
      "learning_rate": 1.9721501133091035e-05,
      "loss": 1.3498,
      "mean_token_accuracy": 0.6683029731114706,
      "num_tokens": 326496856.0,
      "step": 1950
    },
    {
      "entropy": 1.726958990097046,
      "epoch": 0.2143308340885996,
      "grad_norm": 0.7337366342544556,
      "learning_rate": 1.9721105768869066e-05,
      "loss": 1.5077,
      "mean_token_accuracy": 0.6476754397153854,
      "num_tokens": 326642845.0,
      "step": 1951
    },
    {
      "entropy": 1.750323196252187,
      "epoch": 0.21444069099997254,
      "grad_norm": 0.6473729610443115,
      "learning_rate": 1.972071012862802e-05,
      "loss": 1.5035,
      "mean_token_accuracy": 0.6414787570635477,
      "num_tokens": 326801852.0,
      "step": 1952
    },
    {
      "entropy": 1.6994662880897522,
      "epoch": 0.21455054791134548,
      "grad_norm": 0.6995154023170471,
      "learning_rate": 1.9720314212380437e-05,
      "loss": 1.3645,
      "mean_token_accuracy": 0.6681473056475321,
      "num_tokens": 327002498.0,
      "step": 1953
    },
    {
      "entropy": 1.7458200256029766,
      "epoch": 0.21466040482271842,
      "grad_norm": 0.7394571900367737,
      "learning_rate": 1.971991802013884e-05,
      "loss": 1.6005,
      "mean_token_accuracy": 0.6400333990653356,
      "num_tokens": 327189288.0,
      "step": 1954
    },
    {
      "entropy": 1.7399512827396393,
      "epoch": 0.21477026173409133,
      "grad_norm": 1.1217888593673706,
      "learning_rate": 1.9719521551915763e-05,
      "loss": 1.3252,
      "mean_token_accuracy": 0.6774489680926005,
      "num_tokens": 327317080.0,
      "step": 1955
    },
    {
      "entropy": 1.7320358057816823,
      "epoch": 0.21488011864546427,
      "grad_norm": 0.6957964897155762,
      "learning_rate": 1.971912480772376e-05,
      "loss": 1.4162,
      "mean_token_accuracy": 0.6480669528245926,
      "num_tokens": 327514283.0,
      "step": 1956
    },
    {
      "entropy": 1.6627892553806305,
      "epoch": 0.21498997555683722,
      "grad_norm": 0.7532937526702881,
      "learning_rate": 1.9718727787575383e-05,
      "loss": 1.3621,
      "mean_token_accuracy": 0.6672651420036951,
      "num_tokens": 327668545.0,
      "step": 1957
    },
    {
      "entropy": 1.6754935681819916,
      "epoch": 0.21509983246821016,
      "grad_norm": 0.6984850764274597,
      "learning_rate": 1.97183304914832e-05,
      "loss": 1.3214,
      "mean_token_accuracy": 0.6585142463445663,
      "num_tokens": 327835589.0,
      "step": 1958
    },
    {
      "entropy": 1.7026499410470326,
      "epoch": 0.2152096893795831,
      "grad_norm": 0.558738112449646,
      "learning_rate": 1.9717932919459784e-05,
      "loss": 1.4541,
      "mean_token_accuracy": 0.6451480984687805,
      "num_tokens": 328089156.0,
      "step": 1959
    },
    {
      "entropy": 1.6809870799382527,
      "epoch": 0.21531954629095604,
      "grad_norm": 0.6252606511116028,
      "learning_rate": 1.9717535071517724e-05,
      "loss": 1.4261,
      "mean_token_accuracy": 0.6565803388754526,
      "num_tokens": 328295200.0,
      "step": 1960
    },
    {
      "entropy": 1.736928681532542,
      "epoch": 0.21542940320232898,
      "grad_norm": 0.7609971165657043,
      "learning_rate": 1.9717136947669606e-05,
      "loss": 1.3809,
      "mean_token_accuracy": 0.6587243974208832,
      "num_tokens": 328509731.0,
      "step": 1961
    },
    {
      "entropy": 1.6860435704390209,
      "epoch": 0.2155392601137019,
      "grad_norm": 0.751956045627594,
      "learning_rate": 1.971673854792803e-05,
      "loss": 1.2261,
      "mean_token_accuracy": 0.6756429572900137,
      "num_tokens": 328612622.0,
      "step": 1962
    },
    {
      "entropy": 1.7120301028092701,
      "epoch": 0.21564911702507483,
      "grad_norm": 0.700073778629303,
      "learning_rate": 1.971633987230561e-05,
      "loss": 1.4035,
      "mean_token_accuracy": 0.6547966102759043,
      "num_tokens": 328845263.0,
      "step": 1963
    },
    {
      "entropy": 1.7697708209355671,
      "epoch": 0.21575897393644777,
      "grad_norm": 0.7105919718742371,
      "learning_rate": 1.971594092081496e-05,
      "loss": 1.312,
      "mean_token_accuracy": 0.6595413237810135,
      "num_tokens": 328975866.0,
      "step": 1964
    },
    {
      "entropy": 1.7790792485078175,
      "epoch": 0.21586883084782071,
      "grad_norm": 0.8269145488739014,
      "learning_rate": 1.9715541693468703e-05,
      "loss": 1.3614,
      "mean_token_accuracy": 0.6634324043989182,
      "num_tokens": 329095429.0,
      "step": 1965
    },
    {
      "entropy": 1.6846925516923268,
      "epoch": 0.21597868775919365,
      "grad_norm": 0.5915414094924927,
      "learning_rate": 1.9715142190279482e-05,
      "loss": 1.3213,
      "mean_token_accuracy": 0.6567167490720749,
      "num_tokens": 329249605.0,
      "step": 1966
    },
    {
      "entropy": 1.744320313135783,
      "epoch": 0.2160885446705666,
      "grad_norm": 0.6608003973960876,
      "learning_rate": 1.971474241125994e-05,
      "loss": 1.4533,
      "mean_token_accuracy": 0.6462043275435766,
      "num_tokens": 329411071.0,
      "step": 1967
    },
    {
      "entropy": 1.6898845732212067,
      "epoch": 0.21619840158193954,
      "grad_norm": 0.6290837526321411,
      "learning_rate": 1.9714342356422723e-05,
      "loss": 1.4013,
      "mean_token_accuracy": 0.6717150410016378,
      "num_tokens": 329570535.0,
      "step": 1968
    },
    {
      "entropy": 1.7154962023099263,
      "epoch": 0.21630825849331245,
      "grad_norm": 0.7625136971473694,
      "learning_rate": 1.97139420257805e-05,
      "loss": 1.3062,
      "mean_token_accuracy": 0.6675903101762136,
      "num_tokens": 329703050.0,
      "step": 1969
    },
    {
      "entropy": 1.7551279962062836,
      "epoch": 0.2164181154046854,
      "grad_norm": 0.736630380153656,
      "learning_rate": 1.971354141934594e-05,
      "loss": 1.4062,
      "mean_token_accuracy": 0.6460110992193222,
      "num_tokens": 329872834.0,
      "step": 1970
    },
    {
      "entropy": 1.7381382485230763,
      "epoch": 0.21652797231605833,
      "grad_norm": 0.6895781755447388,
      "learning_rate": 1.9713140537131715e-05,
      "loss": 1.4274,
      "mean_token_accuracy": 0.6558477779229482,
      "num_tokens": 330013651.0,
      "step": 1971
    },
    {
      "entropy": 1.7030009031295776,
      "epoch": 0.21663782922743127,
      "grad_norm": 0.7224587798118591,
      "learning_rate": 1.9712739379150523e-05,
      "loss": 1.4991,
      "mean_token_accuracy": 0.6588802685340246,
      "num_tokens": 330178313.0,
      "step": 1972
    },
    {
      "entropy": 1.681588480869929,
      "epoch": 0.2167476861388042,
      "grad_norm": 0.5660827159881592,
      "learning_rate": 1.9712337945415054e-05,
      "loss": 1.4877,
      "mean_token_accuracy": 0.6458199421564738,
      "num_tokens": 330385757.0,
      "step": 1973
    },
    {
      "entropy": 1.6638726989428203,
      "epoch": 0.21685754305017715,
      "grad_norm": 0.623779296875,
      "learning_rate": 1.9711936235938014e-05,
      "loss": 1.3621,
      "mean_token_accuracy": 0.659187431136767,
      "num_tokens": 330589361.0,
      "step": 1974
    },
    {
      "entropy": 1.691465973854065,
      "epoch": 0.2169673999615501,
      "grad_norm": 0.6252658367156982,
      "learning_rate": 1.971153425073212e-05,
      "loss": 1.3112,
      "mean_token_accuracy": 0.6599445144335429,
      "num_tokens": 330753043.0,
      "step": 1975
    },
    {
      "entropy": 1.7143527666727703,
      "epoch": 0.217077256872923,
      "grad_norm": 0.7959213256835938,
      "learning_rate": 1.971113198981009e-05,
      "loss": 1.4267,
      "mean_token_accuracy": 0.6643683314323425,
      "num_tokens": 330914792.0,
      "step": 1976
    },
    {
      "entropy": 1.7403099636236827,
      "epoch": 0.21718711378429595,
      "grad_norm": 0.7242742776870728,
      "learning_rate": 1.9710729453184663e-05,
      "loss": 1.4078,
      "mean_token_accuracy": 0.6562838604052862,
      "num_tokens": 331075502.0,
      "step": 1977
    },
    {
      "entropy": 1.721234291791916,
      "epoch": 0.2172969706956689,
      "grad_norm": 0.6983941197395325,
      "learning_rate": 1.9710326640868568e-05,
      "loss": 1.429,
      "mean_token_accuracy": 0.6565836171309153,
      "num_tokens": 331268768.0,
      "step": 1978
    },
    {
      "entropy": 1.728889485200246,
      "epoch": 0.21740682760704183,
      "grad_norm": 0.7118070125579834,
      "learning_rate": 1.9709923552874565e-05,
      "loss": 1.3784,
      "mean_token_accuracy": 0.6568760176499685,
      "num_tokens": 331436142.0,
      "step": 1979
    },
    {
      "entropy": 1.7155893842379253,
      "epoch": 0.21751668451841477,
      "grad_norm": 0.738287091255188,
      "learning_rate": 1.9709520189215403e-05,
      "loss": 1.4332,
      "mean_token_accuracy": 0.6453232914209366,
      "num_tokens": 331580092.0,
      "step": 1980
    },
    {
      "entropy": 1.7075227002302806,
      "epoch": 0.2176265414297877,
      "grad_norm": 0.6078463792800903,
      "learning_rate": 1.970911654990385e-05,
      "loss": 1.501,
      "mean_token_accuracy": 0.6402676453193029,
      "num_tokens": 331803746.0,
      "step": 1981
    },
    {
      "entropy": 1.6620681583881378,
      "epoch": 0.21773639834116063,
      "grad_norm": 0.6076948046684265,
      "learning_rate": 1.9708712634952688e-05,
      "loss": 1.4018,
      "mean_token_accuracy": 0.6624077359835306,
      "num_tokens": 331958945.0,
      "step": 1982
    },
    {
      "entropy": 1.6899429162343342,
      "epoch": 0.21784625525253357,
      "grad_norm": 0.6573540568351746,
      "learning_rate": 1.970830844437469e-05,
      "loss": 1.4148,
      "mean_token_accuracy": 0.6478807330131531,
      "num_tokens": 332191045.0,
      "step": 1983
    },
    {
      "entropy": 1.705435295899709,
      "epoch": 0.2179561121639065,
      "grad_norm": 0.6898738145828247,
      "learning_rate": 1.970790397818266e-05,
      "loss": 1.4029,
      "mean_token_accuracy": 0.6507929762204488,
      "num_tokens": 332347935.0,
      "step": 1984
    },
    {
      "entropy": 1.7328907350699108,
      "epoch": 0.21806596907527945,
      "grad_norm": 0.6054257750511169,
      "learning_rate": 1.9707499236389384e-05,
      "loss": 1.4292,
      "mean_token_accuracy": 0.6487182925144831,
      "num_tokens": 332523846.0,
      "step": 1985
    },
    {
      "entropy": 1.6892162561416626,
      "epoch": 0.2181758259866524,
      "grad_norm": 0.7589190006256104,
      "learning_rate": 1.9707094219007687e-05,
      "loss": 1.2616,
      "mean_token_accuracy": 0.6733472148577372,
      "num_tokens": 332684862.0,
      "step": 1986
    },
    {
      "entropy": 1.6447477738062541,
      "epoch": 0.21828568289802533,
      "grad_norm": 0.7766509056091309,
      "learning_rate": 1.970668892605038e-05,
      "loss": 1.3476,
      "mean_token_accuracy": 0.6714780976374944,
      "num_tokens": 332864922.0,
      "step": 1987
    },
    {
      "entropy": 1.7524027526378632,
      "epoch": 0.21839553980939827,
      "grad_norm": 0.6996143460273743,
      "learning_rate": 1.9706283357530294e-05,
      "loss": 1.3252,
      "mean_token_accuracy": 0.66605643928051,
      "num_tokens": 333030584.0,
      "step": 1988
    },
    {
      "entropy": 1.7636100550492604,
      "epoch": 0.21850539672077118,
      "grad_norm": 0.8666709661483765,
      "learning_rate": 1.9705877513460257e-05,
      "loss": 1.4356,
      "mean_token_accuracy": 0.64682570596536,
      "num_tokens": 333186942.0,
      "step": 1989
    },
    {
      "entropy": 1.7297316590944927,
      "epoch": 0.21861525363214412,
      "grad_norm": 0.8126122951507568,
      "learning_rate": 1.9705471393853126e-05,
      "loss": 1.3266,
      "mean_token_accuracy": 0.6661059657732645,
      "num_tokens": 333316991.0,
      "step": 1990
    },
    {
      "entropy": 1.7401694059371948,
      "epoch": 0.21872511054351707,
      "grad_norm": 0.7024965286254883,
      "learning_rate": 1.9705064998721742e-05,
      "loss": 1.2493,
      "mean_token_accuracy": 0.6787941058476766,
      "num_tokens": 333439176.0,
      "step": 1991
    },
    {
      "entropy": 1.708668867746989,
      "epoch": 0.21883496745489,
      "grad_norm": 0.6795996427536011,
      "learning_rate": 1.970465832807898e-05,
      "loss": 1.4659,
      "mean_token_accuracy": 0.660365030169487,
      "num_tokens": 333613726.0,
      "step": 1992
    },
    {
      "entropy": 1.696395069360733,
      "epoch": 0.21894482436626295,
      "grad_norm": 0.7904760837554932,
      "learning_rate": 1.9704251381937703e-05,
      "loss": 1.2613,
      "mean_token_accuracy": 0.6752869784832001,
      "num_tokens": 333778956.0,
      "step": 1993
    },
    {
      "entropy": 1.698264519373576,
      "epoch": 0.2190546812776359,
      "grad_norm": 0.5874459147453308,
      "learning_rate": 1.970384416031079e-05,
      "loss": 1.4253,
      "mean_token_accuracy": 0.6463806182146072,
      "num_tokens": 333982509.0,
      "step": 1994
    },
    {
      "entropy": 1.7498473624388378,
      "epoch": 0.21916453818900883,
      "grad_norm": 0.7056718468666077,
      "learning_rate": 1.970343666321113e-05,
      "loss": 1.3865,
      "mean_token_accuracy": 0.6528016924858093,
      "num_tokens": 334137289.0,
      "step": 1995
    },
    {
      "entropy": 1.7133673230806987,
      "epoch": 0.21927439510038174,
      "grad_norm": 0.7165104150772095,
      "learning_rate": 1.9703028890651625e-05,
      "loss": 1.3948,
      "mean_token_accuracy": 0.6589706838130951,
      "num_tokens": 334332222.0,
      "step": 1996
    },
    {
      "entropy": 1.704959104458491,
      "epoch": 0.21938425201175468,
      "grad_norm": 0.6553063988685608,
      "learning_rate": 1.9702620842645176e-05,
      "loss": 1.5619,
      "mean_token_accuracy": 0.6511781016985575,
      "num_tokens": 334525106.0,
      "step": 1997
    },
    {
      "entropy": 1.7078428268432617,
      "epoch": 0.21949410892312762,
      "grad_norm": 0.7418580651283264,
      "learning_rate": 1.9702212519204697e-05,
      "loss": 1.3736,
      "mean_token_accuracy": 0.669340506196022,
      "num_tokens": 334729517.0,
      "step": 1998
    },
    {
      "entropy": 1.71206929286321,
      "epoch": 0.21960396583450056,
      "grad_norm": 2.2254767417907715,
      "learning_rate": 1.9701803920343117e-05,
      "loss": 1.1656,
      "mean_token_accuracy": 0.6783639788627625,
      "num_tokens": 334926935.0,
      "step": 1999
    },
    {
      "entropy": 1.6726875305175781,
      "epoch": 0.2197138227458735,
      "grad_norm": 0.6199320554733276,
      "learning_rate": 1.9701395046073358e-05,
      "loss": 1.4867,
      "mean_token_accuracy": 0.6402423232793808,
      "num_tokens": 335119572.0,
      "step": 2000
    },
    {
      "entropy": 1.6810939411322277,
      "epoch": 0.21982367965724645,
      "grad_norm": 0.6892693638801575,
      "learning_rate": 1.970098589640837e-05,
      "loss": 1.4422,
      "mean_token_accuracy": 0.6712821374336878,
      "num_tokens": 335300516.0,
      "step": 2001
    },
    {
      "entropy": 1.7373451888561249,
      "epoch": 0.2199335365686194,
      "grad_norm": 0.652580201625824,
      "learning_rate": 1.9700576471361103e-05,
      "loss": 1.383,
      "mean_token_accuracy": 0.6453498254219691,
      "num_tokens": 335441164.0,
      "step": 2002
    },
    {
      "entropy": 1.7873657743136089,
      "epoch": 0.2200433934799923,
      "grad_norm": 0.6044803261756897,
      "learning_rate": 1.9700166770944505e-05,
      "loss": 1.4454,
      "mean_token_accuracy": 0.6438331256310145,
      "num_tokens": 335614767.0,
      "step": 2003
    },
    {
      "entropy": 1.7439679205417633,
      "epoch": 0.22015325039136524,
      "grad_norm": 0.718855619430542,
      "learning_rate": 1.9699756795171553e-05,
      "loss": 1.5,
      "mean_token_accuracy": 0.6593141506115595,
      "num_tokens": 335782527.0,
      "step": 2004
    },
    {
      "entropy": 1.680442641178767,
      "epoch": 0.22026310730273818,
      "grad_norm": 6.6189284324646,
      "learning_rate": 1.9699346544055217e-05,
      "loss": 1.3119,
      "mean_token_accuracy": 0.6821538011233012,
      "num_tokens": 335921470.0,
      "step": 2005
    },
    {
      "entropy": 1.7134496867656708,
      "epoch": 0.22037296421411112,
      "grad_norm": 0.749874472618103,
      "learning_rate": 1.9698936017608484e-05,
      "loss": 1.4309,
      "mean_token_accuracy": 0.6579453547795614,
      "num_tokens": 336076125.0,
      "step": 2006
    },
    {
      "entropy": 1.6650103032588959,
      "epoch": 0.22048282112548406,
      "grad_norm": 0.6054286956787109,
      "learning_rate": 1.9698525215844347e-05,
      "loss": 1.3048,
      "mean_token_accuracy": 0.6650077700614929,
      "num_tokens": 336246010.0,
      "step": 2007
    },
    {
      "entropy": 1.7242847979068756,
      "epoch": 0.220592678036857,
      "grad_norm": 0.8481932878494263,
      "learning_rate": 1.96981141387758e-05,
      "loss": 1.1978,
      "mean_token_accuracy": 0.6881664743026098,
      "num_tokens": 336384043.0,
      "step": 2008
    },
    {
      "entropy": 1.6481478810310364,
      "epoch": 0.22070253494822992,
      "grad_norm": 0.8285883665084839,
      "learning_rate": 1.9697702786415866e-05,
      "loss": 1.4015,
      "mean_token_accuracy": 0.6562249759833018,
      "num_tokens": 336584871.0,
      "step": 2009
    },
    {
      "entropy": 1.7549095054467518,
      "epoch": 0.22081239185960286,
      "grad_norm": 0.6210580468177795,
      "learning_rate": 1.969729115877756e-05,
      "loss": 1.4517,
      "mean_token_accuracy": 0.6447333445151647,
      "num_tokens": 336785253.0,
      "step": 2010
    },
    {
      "entropy": 1.7175431450208027,
      "epoch": 0.2209222487709758,
      "grad_norm": 0.8552317023277283,
      "learning_rate": 1.9696879255873902e-05,
      "loss": 1.5219,
      "mean_token_accuracy": 0.6434709678093592,
      "num_tokens": 336988668.0,
      "step": 2011
    },
    {
      "entropy": 1.7095571756362915,
      "epoch": 0.22103210568234874,
      "grad_norm": 0.6405702233314514,
      "learning_rate": 1.969646707771794e-05,
      "loss": 1.3564,
      "mean_token_accuracy": 0.6549317836761475,
      "num_tokens": 337175572.0,
      "step": 2012
    },
    {
      "entropy": 1.7163640260696411,
      "epoch": 0.22114196259372168,
      "grad_norm": 0.8766898512840271,
      "learning_rate": 1.969605462432271e-05,
      "loss": 1.3813,
      "mean_token_accuracy": 0.6668533583482107,
      "num_tokens": 337325813.0,
      "step": 2013
    },
    {
      "entropy": 1.6816040774186451,
      "epoch": 0.22125181950509462,
      "grad_norm": 0.7182164192199707,
      "learning_rate": 1.969564189570127e-05,
      "loss": 1.4426,
      "mean_token_accuracy": 0.6525221814711889,
      "num_tokens": 337460554.0,
      "step": 2014
    },
    {
      "entropy": 1.768685221672058,
      "epoch": 0.22136167641646756,
      "grad_norm": 0.7436334490776062,
      "learning_rate": 1.9695228891866683e-05,
      "loss": 1.611,
      "mean_token_accuracy": 0.6214992552995682,
      "num_tokens": 337641696.0,
      "step": 2015
    },
    {
      "entropy": 1.656598299741745,
      "epoch": 0.22147153332784048,
      "grad_norm": 0.7697328925132751,
      "learning_rate": 1.9694815612832018e-05,
      "loss": 1.3634,
      "mean_token_accuracy": 0.6659995466470718,
      "num_tokens": 337771813.0,
      "step": 2016
    },
    {
      "entropy": 1.7032875816027324,
      "epoch": 0.22158139023921342,
      "grad_norm": 0.6816899180412292,
      "learning_rate": 1.969440205861036e-05,
      "loss": 1.483,
      "mean_token_accuracy": 0.6475236068169276,
      "num_tokens": 337973121.0,
      "step": 2017
    },
    {
      "entropy": 1.7433029512564342,
      "epoch": 0.22169124715058636,
      "grad_norm": 0.6455709934234619,
      "learning_rate": 1.969398822921479e-05,
      "loss": 1.4009,
      "mean_token_accuracy": 0.6455973982810974,
      "num_tokens": 338137737.0,
      "step": 2018
    },
    {
      "entropy": 1.7247349818547566,
      "epoch": 0.2218011040619593,
      "grad_norm": 0.6982224583625793,
      "learning_rate": 1.9693574124658414e-05,
      "loss": 1.4222,
      "mean_token_accuracy": 0.6396381010611852,
      "num_tokens": 338369135.0,
      "step": 2019
    },
    {
      "entropy": 1.67547611395518,
      "epoch": 0.22191096097333224,
      "grad_norm": 0.6213436722755432,
      "learning_rate": 1.9693159744954335e-05,
      "loss": 1.4448,
      "mean_token_accuracy": 0.6563169062137604,
      "num_tokens": 338550921.0,
      "step": 2020
    },
    {
      "entropy": 1.7012183169523876,
      "epoch": 0.22202081788470518,
      "grad_norm": 0.6709868311882019,
      "learning_rate": 1.9692745090115664e-05,
      "loss": 1.3577,
      "mean_token_accuracy": 0.6605485628048579,
      "num_tokens": 338739755.0,
      "step": 2021
    },
    {
      "entropy": 1.7212641338507335,
      "epoch": 0.22213067479607812,
      "grad_norm": 0.6741979122161865,
      "learning_rate": 1.969233016015553e-05,
      "loss": 1.4985,
      "mean_token_accuracy": 0.6394399156173071,
      "num_tokens": 338942812.0,
      "step": 2022
    },
    {
      "entropy": 1.7291043400764465,
      "epoch": 0.22224053170745103,
      "grad_norm": 0.7105062007904053,
      "learning_rate": 1.9691914955087065e-05,
      "loss": 1.4693,
      "mean_token_accuracy": 0.6584506978591284,
      "num_tokens": 339081060.0,
      "step": 2023
    },
    {
      "entropy": 1.7811701993147533,
      "epoch": 0.22235038861882397,
      "grad_norm": 0.7212976217269897,
      "learning_rate": 1.9691499474923405e-05,
      "loss": 1.4486,
      "mean_token_accuracy": 0.644217719634374,
      "num_tokens": 339226880.0,
      "step": 2024
    },
    {
      "entropy": 1.6993672450383503,
      "epoch": 0.22246024553019692,
      "grad_norm": 0.7805929780006409,
      "learning_rate": 1.9691083719677707e-05,
      "loss": 1.381,
      "mean_token_accuracy": 0.672341451048851,
      "num_tokens": 339366403.0,
      "step": 2025
    },
    {
      "entropy": 1.6640028357505798,
      "epoch": 0.22257010244156986,
      "grad_norm": 0.643774151802063,
      "learning_rate": 1.969066768936312e-05,
      "loss": 1.3309,
      "mean_token_accuracy": 0.6650595118602117,
      "num_tokens": 339535229.0,
      "step": 2026
    },
    {
      "entropy": 1.7151845892270405,
      "epoch": 0.2226799593529428,
      "grad_norm": 0.7019052505493164,
      "learning_rate": 1.969025138399282e-05,
      "loss": 1.3497,
      "mean_token_accuracy": 0.6575596183538437,
      "num_tokens": 339704603.0,
      "step": 2027
    },
    {
      "entropy": 1.6844234863917034,
      "epoch": 0.22278981626431574,
      "grad_norm": 0.7261092066764832,
      "learning_rate": 1.9689834803579983e-05,
      "loss": 1.4324,
      "mean_token_accuracy": 0.652221143245697,
      "num_tokens": 339868917.0,
      "step": 2028
    },
    {
      "entropy": 1.7535183529059093,
      "epoch": 0.22289967317568868,
      "grad_norm": 0.8210894465446472,
      "learning_rate": 1.9689417948137786e-05,
      "loss": 1.5589,
      "mean_token_accuracy": 0.6526251584291458,
      "num_tokens": 340013342.0,
      "step": 2029
    },
    {
      "entropy": 1.8341341416041057,
      "epoch": 0.2230095300870616,
      "grad_norm": 0.8437470197677612,
      "learning_rate": 1.9689000817679428e-05,
      "loss": 1.496,
      "mean_token_accuracy": 0.6356715758641561,
      "num_tokens": 340169704.0,
      "step": 2030
    },
    {
      "entropy": 1.6810695727666218,
      "epoch": 0.22311938699843453,
      "grad_norm": 0.6405393481254578,
      "learning_rate": 1.9688583412218108e-05,
      "loss": 1.36,
      "mean_token_accuracy": 0.6580146849155426,
      "num_tokens": 340359004.0,
      "step": 2031
    },
    {
      "entropy": 1.7621925572554271,
      "epoch": 0.22322924390980747,
      "grad_norm": 0.7428179979324341,
      "learning_rate": 1.9688165731767037e-05,
      "loss": 1.5521,
      "mean_token_accuracy": 0.6292354067166647,
      "num_tokens": 340577217.0,
      "step": 2032
    },
    {
      "entropy": 1.6683639585971832,
      "epoch": 0.22333910082118041,
      "grad_norm": 0.6185237765312195,
      "learning_rate": 1.968774777633944e-05,
      "loss": 1.3931,
      "mean_token_accuracy": 0.6481966078281403,
      "num_tokens": 340762287.0,
      "step": 2033
    },
    {
      "entropy": 1.6244226296742756,
      "epoch": 0.22344895773255335,
      "grad_norm": 0.6757908463478088,
      "learning_rate": 1.9687329545948533e-05,
      "loss": 1.3674,
      "mean_token_accuracy": 0.6705109626054764,
      "num_tokens": 340905555.0,
      "step": 2034
    },
    {
      "entropy": 1.6744134823481243,
      "epoch": 0.2235588146439263,
      "grad_norm": 0.6213631629943848,
      "learning_rate": 1.968691104060757e-05,
      "loss": 1.4006,
      "mean_token_accuracy": 0.6517485429843267,
      "num_tokens": 341092632.0,
      "step": 2035
    },
    {
      "entropy": 1.6906062265237172,
      "epoch": 0.22366867155529924,
      "grad_norm": 0.6319667100906372,
      "learning_rate": 1.9686492260329783e-05,
      "loss": 1.3007,
      "mean_token_accuracy": 0.6612733155488968,
      "num_tokens": 341223672.0,
      "step": 2036
    },
    {
      "entropy": 1.7172020475069683,
      "epoch": 0.22377852846667215,
      "grad_norm": 0.6903420090675354,
      "learning_rate": 1.968607320512843e-05,
      "loss": 1.3112,
      "mean_token_accuracy": 0.6633612463871638,
      "num_tokens": 341388402.0,
      "step": 2037
    },
    {
      "entropy": 1.7287559310595195,
      "epoch": 0.2238883853780451,
      "grad_norm": 0.7884252071380615,
      "learning_rate": 1.9685653875016773e-05,
      "loss": 1.252,
      "mean_token_accuracy": 0.6740682969490687,
      "num_tokens": 341510142.0,
      "step": 2038
    },
    {
      "entropy": 1.741033395131429,
      "epoch": 0.22399824228941803,
      "grad_norm": 0.6842942237854004,
      "learning_rate": 1.9685234270008085e-05,
      "loss": 1.378,
      "mean_token_accuracy": 0.6639875521262487,
      "num_tokens": 341675965.0,
      "step": 2039
    },
    {
      "entropy": 1.7549268503983815,
      "epoch": 0.22410809920079097,
      "grad_norm": 0.7328823208808899,
      "learning_rate": 1.9684814390115644e-05,
      "loss": 1.3624,
      "mean_token_accuracy": 0.6532031744718552,
      "num_tokens": 341811346.0,
      "step": 2040
    },
    {
      "entropy": 1.7577114800612132,
      "epoch": 0.2242179561121639,
      "grad_norm": 0.6929943561553955,
      "learning_rate": 1.9684394235352744e-05,
      "loss": 1.5978,
      "mean_token_accuracy": 0.6406635567545891,
      "num_tokens": 341991608.0,
      "step": 2041
    },
    {
      "entropy": 1.7216146389643352,
      "epoch": 0.22432781302353685,
      "grad_norm": 0.7165713310241699,
      "learning_rate": 1.9683973805732684e-05,
      "loss": 1.4438,
      "mean_token_accuracy": 0.6414127250512441,
      "num_tokens": 342162750.0,
      "step": 2042
    },
    {
      "entropy": 1.6384899119536083,
      "epoch": 0.22443766993490977,
      "grad_norm": 0.694940984249115,
      "learning_rate": 1.9683553101268756e-05,
      "loss": 1.3885,
      "mean_token_accuracy": 0.6634632100661596,
      "num_tokens": 342342619.0,
      "step": 2043
    },
    {
      "entropy": 1.721029241879781,
      "epoch": 0.2245475268462827,
      "grad_norm": 2.877837657928467,
      "learning_rate": 1.968313212197429e-05,
      "loss": 1.3462,
      "mean_token_accuracy": 0.6564084043105444,
      "num_tokens": 342549662.0,
      "step": 2044
    },
    {
      "entropy": 1.7353296478589375,
      "epoch": 0.22465738375765565,
      "grad_norm": 0.7393618226051331,
      "learning_rate": 1.968271086786261e-05,
      "loss": 1.3049,
      "mean_token_accuracy": 0.6696875343720118,
      "num_tokens": 342671498.0,
      "step": 2045
    },
    {
      "entropy": 1.6773792306582134,
      "epoch": 0.2247672406690286,
      "grad_norm": 0.6500130295753479,
      "learning_rate": 1.9682289338947037e-05,
      "loss": 1.3325,
      "mean_token_accuracy": 0.6623169581095377,
      "num_tokens": 342824666.0,
      "step": 2046
    },
    {
      "entropy": 1.647678832213084,
      "epoch": 0.22487709758040153,
      "grad_norm": 0.6050171256065369,
      "learning_rate": 1.9681867535240924e-05,
      "loss": 1.35,
      "mean_token_accuracy": 0.665855829914411,
      "num_tokens": 343013627.0,
      "step": 2047
    },
    {
      "entropy": 1.703715850909551,
      "epoch": 0.22498695449177447,
      "grad_norm": 0.7125741839408875,
      "learning_rate": 1.968144545675761e-05,
      "loss": 1.4769,
      "mean_token_accuracy": 0.650515486796697,
      "num_tokens": 343157329.0,
      "step": 2048
    },
    {
      "entropy": 1.717505931854248,
      "epoch": 0.2250968114031474,
      "grad_norm": 0.7336664795875549,
      "learning_rate": 1.9681023103510465e-05,
      "loss": 1.3677,
      "mean_token_accuracy": 0.6719395915667216,
      "num_tokens": 343305654.0,
      "step": 2049
    },
    {
      "entropy": 1.7339052259922028,
      "epoch": 0.22520666831452033,
      "grad_norm": 0.7247207164764404,
      "learning_rate": 1.9680600475512844e-05,
      "loss": 1.3452,
      "mean_token_accuracy": 0.6586270729700724,
      "num_tokens": 343467941.0,
      "step": 2050
    },
    {
      "entropy": 1.6390206515789032,
      "epoch": 0.22531652522589327,
      "grad_norm": 0.7296788096427917,
      "learning_rate": 1.9680177572778135e-05,
      "loss": 1.2363,
      "mean_token_accuracy": 0.6724939694007238,
      "num_tokens": 343596667.0,
      "step": 2051
    },
    {
      "entropy": 1.7341953416665394,
      "epoch": 0.2254263821372662,
      "grad_norm": 0.6788911819458008,
      "learning_rate": 1.9679754395319714e-05,
      "loss": 1.3616,
      "mean_token_accuracy": 0.6549450208743414,
      "num_tokens": 343744356.0,
      "step": 2052
    },
    {
      "entropy": 1.7105887234210968,
      "epoch": 0.22553623904863915,
      "grad_norm": 0.6413341760635376,
      "learning_rate": 1.9679330943150982e-05,
      "loss": 1.3892,
      "mean_token_accuracy": 0.6598889281352361,
      "num_tokens": 343920401.0,
      "step": 2053
    },
    {
      "entropy": 1.7920573552449544,
      "epoch": 0.2256460959600121,
      "grad_norm": 0.7013512849807739,
      "learning_rate": 1.967890721628533e-05,
      "loss": 1.4534,
      "mean_token_accuracy": 0.6496995538473129,
      "num_tokens": 344058015.0,
      "step": 2054
    },
    {
      "entropy": 1.6886359850565593,
      "epoch": 0.22575595287138503,
      "grad_norm": 0.6699264049530029,
      "learning_rate": 1.967848321473618e-05,
      "loss": 1.4349,
      "mean_token_accuracy": 0.6515084008375803,
      "num_tokens": 344246715.0,
      "step": 2055
    },
    {
      "entropy": 1.7019972801208496,
      "epoch": 0.22586580978275797,
      "grad_norm": 0.6247515678405762,
      "learning_rate": 1.9678058938516946e-05,
      "loss": 1.3938,
      "mean_token_accuracy": 0.6596282968918482,
      "num_tokens": 344416664.0,
      "step": 2056
    },
    {
      "entropy": 1.6917652984460194,
      "epoch": 0.22597566669413088,
      "grad_norm": 0.7000340223312378,
      "learning_rate": 1.9677634387641056e-05,
      "loss": 1.4938,
      "mean_token_accuracy": 0.6429780870676041,
      "num_tokens": 344609791.0,
      "step": 2057
    },
    {
      "entropy": 1.729089339574178,
      "epoch": 0.22608552360550382,
      "grad_norm": 0.7346123456954956,
      "learning_rate": 1.967720956212195e-05,
      "loss": 1.4291,
      "mean_token_accuracy": 0.6589990357557932,
      "num_tokens": 344777080.0,
      "step": 2058
    },
    {
      "entropy": 1.7153427302837372,
      "epoch": 0.22619538051687677,
      "grad_norm": 0.6257114410400391,
      "learning_rate": 1.9676784461973068e-05,
      "loss": 1.4968,
      "mean_token_accuracy": 0.6334412743647894,
      "num_tokens": 344995489.0,
      "step": 2059
    },
    {
      "entropy": 1.766806423664093,
      "epoch": 0.2263052374282497,
      "grad_norm": 0.7080755233764648,
      "learning_rate": 1.967635908720787e-05,
      "loss": 1.3861,
      "mean_token_accuracy": 0.6605810771385828,
      "num_tokens": 345155660.0,
      "step": 2060
    },
    {
      "entropy": 1.659007489681244,
      "epoch": 0.22641509433962265,
      "grad_norm": 0.728387713432312,
      "learning_rate": 1.9675933437839817e-05,
      "loss": 1.3944,
      "mean_token_accuracy": 0.6693829894065857,
      "num_tokens": 345282543.0,
      "step": 2061
    },
    {
      "entropy": 1.757192333539327,
      "epoch": 0.2265249512509956,
      "grad_norm": 0.6841723322868347,
      "learning_rate": 1.967550751388238e-05,
      "loss": 1.4359,
      "mean_token_accuracy": 0.645816907286644,
      "num_tokens": 345459681.0,
      "step": 2062
    },
    {
      "entropy": 1.7275842030843098,
      "epoch": 0.22663480816236853,
      "grad_norm": 0.7722262740135193,
      "learning_rate": 1.9675081315349037e-05,
      "loss": 1.3776,
      "mean_token_accuracy": 0.6634769191344579,
      "num_tokens": 345643276.0,
      "step": 2063
    },
    {
      "entropy": 1.6928351819515228,
      "epoch": 0.22674466507374144,
      "grad_norm": 0.7217462658882141,
      "learning_rate": 1.9674654842253283e-05,
      "loss": 1.3029,
      "mean_token_accuracy": 0.6618945797284445,
      "num_tokens": 345780782.0,
      "step": 2064
    },
    {
      "entropy": 1.7282683352629344,
      "epoch": 0.22685452198511438,
      "grad_norm": 0.6660979390144348,
      "learning_rate": 1.967422809460861e-05,
      "loss": 1.4675,
      "mean_token_accuracy": 0.6451341956853867,
      "num_tokens": 345949242.0,
      "step": 2065
    },
    {
      "entropy": 1.6747341950734456,
      "epoch": 0.22696437889648732,
      "grad_norm": 0.632645308971405,
      "learning_rate": 1.9673801072428528e-05,
      "loss": 1.402,
      "mean_token_accuracy": 0.6539940188328425,
      "num_tokens": 346131283.0,
      "step": 2066
    },
    {
      "entropy": 1.823501318693161,
      "epoch": 0.22707423580786026,
      "grad_norm": 0.8174815773963928,
      "learning_rate": 1.967337377572655e-05,
      "loss": 1.5313,
      "mean_token_accuracy": 0.6354220509529114,
      "num_tokens": 346348047.0,
      "step": 2067
    },
    {
      "entropy": 1.7198161383469899,
      "epoch": 0.2271840927192332,
      "grad_norm": 0.6577022671699524,
      "learning_rate": 1.96729462045162e-05,
      "loss": 1.3033,
      "mean_token_accuracy": 0.6620743771394094,
      "num_tokens": 346500237.0,
      "step": 2068
    },
    {
      "entropy": 1.7309946616490681,
      "epoch": 0.22729394963060615,
      "grad_norm": 0.641176164150238,
      "learning_rate": 1.967251835881101e-05,
      "loss": 1.4701,
      "mean_token_accuracy": 0.6394395977258682,
      "num_tokens": 346672848.0,
      "step": 2069
    },
    {
      "entropy": 1.758286048968633,
      "epoch": 0.22740380654197906,
      "grad_norm": 0.7229630947113037,
      "learning_rate": 1.967209023862452e-05,
      "loss": 1.3428,
      "mean_token_accuracy": 0.6649421552817026,
      "num_tokens": 346808156.0,
      "step": 2070
    },
    {
      "entropy": 1.6775102814038594,
      "epoch": 0.227513663453352,
      "grad_norm": 0.6443026661872864,
      "learning_rate": 1.9671661843970283e-05,
      "loss": 1.4133,
      "mean_token_accuracy": 0.6403845498959223,
      "num_tokens": 346997057.0,
      "step": 2071
    },
    {
      "entropy": 1.7017942468325298,
      "epoch": 0.22762352036472494,
      "grad_norm": 0.7220076322555542,
      "learning_rate": 1.967123317486186e-05,
      "loss": 1.4647,
      "mean_token_accuracy": 0.6385684708754221,
      "num_tokens": 347201593.0,
      "step": 2072
    },
    {
      "entropy": 1.729232649008433,
      "epoch": 0.22773337727609788,
      "grad_norm": 0.7669538259506226,
      "learning_rate": 1.967080423131281e-05,
      "loss": 1.28,
      "mean_token_accuracy": 0.6778450608253479,
      "num_tokens": 347340620.0,
      "step": 2073
    },
    {
      "entropy": 1.7673300007979076,
      "epoch": 0.22784323418747082,
      "grad_norm": 0.7315675616264343,
      "learning_rate": 1.9670375013336716e-05,
      "loss": 1.3434,
      "mean_token_accuracy": 0.661798839767774,
      "num_tokens": 347537266.0,
      "step": 2074
    },
    {
      "entropy": 1.7187786897023518,
      "epoch": 0.22795309109884376,
      "grad_norm": 0.6596832275390625,
      "learning_rate": 1.966994552094716e-05,
      "loss": 1.372,
      "mean_token_accuracy": 0.6497376809517542,
      "num_tokens": 347677741.0,
      "step": 2075
    },
    {
      "entropy": 1.6955298682053883,
      "epoch": 0.2280629480102167,
      "grad_norm": 0.698900580406189,
      "learning_rate": 1.9669515754157732e-05,
      "loss": 1.3391,
      "mean_token_accuracy": 0.6492668986320496,
      "num_tokens": 347890197.0,
      "step": 2076
    },
    {
      "entropy": 1.7692882418632507,
      "epoch": 0.22817280492158962,
      "grad_norm": 0.669717013835907,
      "learning_rate": 1.9669085712982038e-05,
      "loss": 1.6084,
      "mean_token_accuracy": 0.6258754978577296,
      "num_tokens": 348110513.0,
      "step": 2077
    },
    {
      "entropy": 1.7276891966660817,
      "epoch": 0.22828266183296256,
      "grad_norm": 0.6462763547897339,
      "learning_rate": 1.966865539743369e-05,
      "loss": 1.3711,
      "mean_token_accuracy": 0.6671418696641922,
      "num_tokens": 348238587.0,
      "step": 2078
    },
    {
      "entropy": 1.708987295627594,
      "epoch": 0.2283925187443355,
      "grad_norm": 0.7623677253723145,
      "learning_rate": 1.9668224807526306e-05,
      "loss": 1.3025,
      "mean_token_accuracy": 0.6712601681550344,
      "num_tokens": 348356342.0,
      "step": 2079
    },
    {
      "entropy": 1.6536230842272441,
      "epoch": 0.22850237565570844,
      "grad_norm": 0.5909548997879028,
      "learning_rate": 1.9667793943273507e-05,
      "loss": 1.3718,
      "mean_token_accuracy": 0.6658143649498621,
      "num_tokens": 348573661.0,
      "step": 2080
    },
    {
      "entropy": 1.6918116807937622,
      "epoch": 0.22861223256708138,
      "grad_norm": 0.6436260938644409,
      "learning_rate": 1.966736280468894e-05,
      "loss": 1.4668,
      "mean_token_accuracy": 0.6581264610091845,
      "num_tokens": 348730332.0,
      "step": 2081
    },
    {
      "entropy": 1.7079047163327534,
      "epoch": 0.22872208947845432,
      "grad_norm": 0.680583119392395,
      "learning_rate": 1.966693139178624e-05,
      "loss": 1.353,
      "mean_token_accuracy": 0.6601024568080902,
      "num_tokens": 348882457.0,
      "step": 2082
    },
    {
      "entropy": 1.655688891808192,
      "epoch": 0.22883194638982726,
      "grad_norm": 0.6544623970985413,
      "learning_rate": 1.9666499704579074e-05,
      "loss": 1.3916,
      "mean_token_accuracy": 0.6687876433134079,
      "num_tokens": 349018470.0,
      "step": 2083
    },
    {
      "entropy": 1.6593633393446605,
      "epoch": 0.22894180330120018,
      "grad_norm": 0.7558723092079163,
      "learning_rate": 1.9666067743081094e-05,
      "loss": 1.2681,
      "mean_token_accuracy": 0.681985874970754,
      "num_tokens": 349155041.0,
      "step": 2084
    },
    {
      "entropy": 1.755085527896881,
      "epoch": 0.22905166021257312,
      "grad_norm": 0.7257434725761414,
      "learning_rate": 1.9665635507305975e-05,
      "loss": 1.368,
      "mean_token_accuracy": 0.6560467928647995,
      "num_tokens": 349303770.0,
      "step": 2085
    },
    {
      "entropy": 1.7510084907213848,
      "epoch": 0.22916151712394606,
      "grad_norm": 0.7767149209976196,
      "learning_rate": 1.9665202997267398e-05,
      "loss": 1.33,
      "mean_token_accuracy": 0.666937862833341,
      "num_tokens": 349421045.0,
      "step": 2086
    },
    {
      "entropy": 1.7155856092770894,
      "epoch": 0.229271374035319,
      "grad_norm": 0.6380376219749451,
      "learning_rate": 1.9664770212979048e-05,
      "loss": 1.3557,
      "mean_token_accuracy": 0.6549844940503439,
      "num_tokens": 349573846.0,
      "step": 2087
    },
    {
      "entropy": 1.7313959101835887,
      "epoch": 0.22938123094669194,
      "grad_norm": 0.7793395519256592,
      "learning_rate": 1.966433715445463e-05,
      "loss": 1.4454,
      "mean_token_accuracy": 0.6458447525898615,
      "num_tokens": 349733574.0,
      "step": 2088
    },
    {
      "entropy": 1.7679253121217091,
      "epoch": 0.22949108785806488,
      "grad_norm": 0.7481524348258972,
      "learning_rate": 1.9663903821707843e-05,
      "loss": 1.4977,
      "mean_token_accuracy": 0.646313488483429,
      "num_tokens": 349914696.0,
      "step": 2089
    },
    {
      "entropy": 1.7201211750507355,
      "epoch": 0.22960094476943782,
      "grad_norm": 0.6787753701210022,
      "learning_rate": 1.9663470214752404e-05,
      "loss": 1.2731,
      "mean_token_accuracy": 0.6699012964963913,
      "num_tokens": 350019115.0,
      "step": 2090
    },
    {
      "entropy": 1.744313398996989,
      "epoch": 0.22971080168081073,
      "grad_norm": 0.8407695293426514,
      "learning_rate": 1.966303633360204e-05,
      "loss": 1.5798,
      "mean_token_accuracy": 0.6501995325088501,
      "num_tokens": 350204871.0,
      "step": 2091
    },
    {
      "entropy": 1.66973876953125,
      "epoch": 0.22982065859218367,
      "grad_norm": 0.6919146180152893,
      "learning_rate": 1.9662602178270473e-05,
      "loss": 1.4768,
      "mean_token_accuracy": 0.6421976536512375,
      "num_tokens": 350414385.0,
      "step": 2092
    },
    {
      "entropy": 1.710203657547633,
      "epoch": 0.22993051550355662,
      "grad_norm": 0.6580731272697449,
      "learning_rate": 1.9662167748771456e-05,
      "loss": 1.4226,
      "mean_token_accuracy": 0.6441041479508082,
      "num_tokens": 350563611.0,
      "step": 2093
    },
    {
      "entropy": 1.7262790699799855,
      "epoch": 0.23004037241492956,
      "grad_norm": 0.6261684894561768,
      "learning_rate": 1.966173304511873e-05,
      "loss": 1.3752,
      "mean_token_accuracy": 0.6569176514943441,
      "num_tokens": 350733461.0,
      "step": 2094
    },
    {
      "entropy": 1.7107460002104442,
      "epoch": 0.2301502293263025,
      "grad_norm": 0.722224235534668,
      "learning_rate": 1.9661298067326057e-05,
      "loss": 1.4182,
      "mean_token_accuracy": 0.6536510388056437,
      "num_tokens": 350896912.0,
      "step": 2095
    },
    {
      "entropy": 1.7100590467453003,
      "epoch": 0.23026008623767544,
      "grad_norm": 0.9301192760467529,
      "learning_rate": 1.9660862815407203e-05,
      "loss": 1.503,
      "mean_token_accuracy": 0.6540075987577438,
      "num_tokens": 351056942.0,
      "step": 2096
    },
    {
      "entropy": 1.6752377649148305,
      "epoch": 0.23036994314904835,
      "grad_norm": 0.6664115190505981,
      "learning_rate": 1.9660427289375945e-05,
      "loss": 1.4077,
      "mean_token_accuracy": 0.6520341883103052,
      "num_tokens": 351293001.0,
      "step": 2097
    },
    {
      "entropy": 1.7409682472546895,
      "epoch": 0.2304798000604213,
      "grad_norm": 0.6675509810447693,
      "learning_rate": 1.965999148924606e-05,
      "loss": 1.5078,
      "mean_token_accuracy": 0.6427519768476486,
      "num_tokens": 351525219.0,
      "step": 2098
    },
    {
      "entropy": 1.7048235932985942,
      "epoch": 0.23058965697179423,
      "grad_norm": 0.6759990453720093,
      "learning_rate": 1.9659555415031352e-05,
      "loss": 1.4459,
      "mean_token_accuracy": 0.6511163661877314,
      "num_tokens": 351698289.0,
      "step": 2099
    },
    {
      "entropy": 1.7245367964108784,
      "epoch": 0.23069951388316717,
      "grad_norm": 0.6386352181434631,
      "learning_rate": 1.965911906674562e-05,
      "loss": 1.477,
      "mean_token_accuracy": 0.646999349196752,
      "num_tokens": 351893291.0,
      "step": 2100
    },
    {
      "entropy": 1.6794813175996144,
      "epoch": 0.23080937079454011,
      "grad_norm": 0.7493569850921631,
      "learning_rate": 1.9658682444402666e-05,
      "loss": 1.0951,
      "mean_token_accuracy": 0.6764346112807592,
      "num_tokens": 352074217.0,
      "step": 2101
    },
    {
      "entropy": 1.6989248593648274,
      "epoch": 0.23091922770591305,
      "grad_norm": 0.6547640562057495,
      "learning_rate": 1.9658245548016314e-05,
      "loss": 1.3522,
      "mean_token_accuracy": 0.661203866203626,
      "num_tokens": 352207973.0,
      "step": 2102
    },
    {
      "entropy": 1.7575849791367848,
      "epoch": 0.231029084617286,
      "grad_norm": 0.75108802318573,
      "learning_rate": 1.9657808377600395e-05,
      "loss": 1.3971,
      "mean_token_accuracy": 0.6579893529415131,
      "num_tokens": 352402101.0,
      "step": 2103
    },
    {
      "entropy": 1.6805921494960785,
      "epoch": 0.2311389415286589,
      "grad_norm": 0.6265072226524353,
      "learning_rate": 1.965737093316874e-05,
      "loss": 1.246,
      "mean_token_accuracy": 0.6822475343942642,
      "num_tokens": 352530008.0,
      "step": 2104
    },
    {
      "entropy": 1.7218637466430664,
      "epoch": 0.23124879844003185,
      "grad_norm": 0.7253437042236328,
      "learning_rate": 1.96569332147352e-05,
      "loss": 1.3307,
      "mean_token_accuracy": 0.6561064024766287,
      "num_tokens": 352674554.0,
      "step": 2105
    },
    {
      "entropy": 1.6980949739615123,
      "epoch": 0.2313586553514048,
      "grad_norm": 0.5350558757781982,
      "learning_rate": 1.965649522231362e-05,
      "loss": 1.4637,
      "mean_token_accuracy": 0.6409613688786825,
      "num_tokens": 352954153.0,
      "step": 2106
    },
    {
      "entropy": 1.6509924431641896,
      "epoch": 0.23146851226277773,
      "grad_norm": 0.6137299537658691,
      "learning_rate": 1.965605695591787e-05,
      "loss": 1.3385,
      "mean_token_accuracy": 0.6657126645247141,
      "num_tokens": 353113713.0,
      "step": 2107
    },
    {
      "entropy": 1.690576394399007,
      "epoch": 0.23157836917415067,
      "grad_norm": 0.6963815689086914,
      "learning_rate": 1.9655618415561816e-05,
      "loss": 1.3486,
      "mean_token_accuracy": 0.660049964984258,
      "num_tokens": 353263381.0,
      "step": 2108
    },
    {
      "entropy": 1.7236856520175934,
      "epoch": 0.2316882260855236,
      "grad_norm": 0.678913950920105,
      "learning_rate": 1.965517960125934e-05,
      "loss": 1.3219,
      "mean_token_accuracy": 0.6630937109390894,
      "num_tokens": 353390958.0,
      "step": 2109
    },
    {
      "entropy": 1.8335295915603638,
      "epoch": 0.23179808299689655,
      "grad_norm": 0.8892464637756348,
      "learning_rate": 1.965474051302433e-05,
      "loss": 1.4938,
      "mean_token_accuracy": 0.6548814475536346,
      "num_tokens": 353538619.0,
      "step": 2110
    },
    {
      "entropy": 1.7106240193049114,
      "epoch": 0.23190793990826947,
      "grad_norm": 0.7260220646858215,
      "learning_rate": 1.965430115087068e-05,
      "loss": 1.3023,
      "mean_token_accuracy": 0.6652000844478607,
      "num_tokens": 353691828.0,
      "step": 2111
    },
    {
      "entropy": 1.7223450640837352,
      "epoch": 0.2320177968196424,
      "grad_norm": 0.6633872389793396,
      "learning_rate": 1.9653861514812305e-05,
      "loss": 1.439,
      "mean_token_accuracy": 0.6730594833691915,
      "num_tokens": 353900581.0,
      "step": 2112
    },
    {
      "entropy": 1.6289326747258503,
      "epoch": 0.23212765373101535,
      "grad_norm": 0.6929929256439209,
      "learning_rate": 1.965342160486311e-05,
      "loss": 1.3896,
      "mean_token_accuracy": 0.6601720203955969,
      "num_tokens": 354106680.0,
      "step": 2113
    },
    {
      "entropy": 1.6527433395385742,
      "epoch": 0.2322375106423883,
      "grad_norm": 0.6912239193916321,
      "learning_rate": 1.9652981421037016e-05,
      "loss": 1.3321,
      "mean_token_accuracy": 0.6719396263360977,
      "num_tokens": 354240940.0,
      "step": 2114
    },
    {
      "entropy": 1.7169695695241292,
      "epoch": 0.23234736755376123,
      "grad_norm": 0.682310938835144,
      "learning_rate": 1.965254096334796e-05,
      "loss": 1.3884,
      "mean_token_accuracy": 0.6444130092859268,
      "num_tokens": 354378597.0,
      "step": 2115
    },
    {
      "entropy": 1.794925073782603,
      "epoch": 0.23245722446513417,
      "grad_norm": 0.8051143288612366,
      "learning_rate": 1.9652100231809886e-05,
      "loss": 1.5086,
      "mean_token_accuracy": 0.6416242470343908,
      "num_tokens": 354547066.0,
      "step": 2116
    },
    {
      "entropy": 1.7723517616589863,
      "epoch": 0.2325670813765071,
      "grad_norm": 0.8096024990081787,
      "learning_rate": 1.9651659226436736e-05,
      "loss": 1.4075,
      "mean_token_accuracy": 0.6405593703190485,
      "num_tokens": 354728773.0,
      "step": 2117
    },
    {
      "entropy": 1.7235789597034454,
      "epoch": 0.23267693828788003,
      "grad_norm": 0.7707192897796631,
      "learning_rate": 1.965121794724247e-05,
      "loss": 1.6905,
      "mean_token_accuracy": 0.6104727784792582,
      "num_tokens": 354986725.0,
      "step": 2118
    },
    {
      "entropy": 1.6637963851292927,
      "epoch": 0.23278679519925297,
      "grad_norm": 0.7707030177116394,
      "learning_rate": 1.9650776394241053e-05,
      "loss": 1.244,
      "mean_token_accuracy": 0.6805417140324911,
      "num_tokens": 355113452.0,
      "step": 2119
    },
    {
      "entropy": 1.7366061508655548,
      "epoch": 0.2328966521106259,
      "grad_norm": 0.7351778149604797,
      "learning_rate": 1.9650334567446464e-05,
      "loss": 1.2731,
      "mean_token_accuracy": 0.6736204822858175,
      "num_tokens": 355213687.0,
      "step": 2120
    },
    {
      "entropy": 1.7788714170455933,
      "epoch": 0.23300650902199885,
      "grad_norm": 0.7859005928039551,
      "learning_rate": 1.964989246687268e-05,
      "loss": 1.3793,
      "mean_token_accuracy": 0.651082048813502,
      "num_tokens": 355321358.0,
      "step": 2121
    },
    {
      "entropy": 1.737849046786626,
      "epoch": 0.2331163659333718,
      "grad_norm": 0.7442585825920105,
      "learning_rate": 1.96494500925337e-05,
      "loss": 1.311,
      "mean_token_accuracy": 0.6615156581004461,
      "num_tokens": 355425618.0,
      "step": 2122
    },
    {
      "entropy": 1.7283195753892262,
      "epoch": 0.23322622284474473,
      "grad_norm": 0.638728141784668,
      "learning_rate": 1.964900744444352e-05,
      "loss": 1.4032,
      "mean_token_accuracy": 0.6568774382273356,
      "num_tokens": 355597017.0,
      "step": 2123
    },
    {
      "entropy": 1.6358279883861542,
      "epoch": 0.23333607975611767,
      "grad_norm": 0.6525757312774658,
      "learning_rate": 1.9648564522616156e-05,
      "loss": 1.2853,
      "mean_token_accuracy": 0.6706103881200155,
      "num_tokens": 355760536.0,
      "step": 2124
    },
    {
      "entropy": 1.737657070159912,
      "epoch": 0.23344593666749058,
      "grad_norm": 0.6344397664070129,
      "learning_rate": 1.9648121327065618e-05,
      "loss": 1.4552,
      "mean_token_accuracy": 0.6427590002616247,
      "num_tokens": 355950982.0,
      "step": 2125
    },
    {
      "entropy": 1.7366611162821453,
      "epoch": 0.23355579357886352,
      "grad_norm": 0.9384574294090271,
      "learning_rate": 1.964767785780594e-05,
      "loss": 1.3528,
      "mean_token_accuracy": 0.6612386802832285,
      "num_tokens": 356072860.0,
      "step": 2126
    },
    {
      "entropy": 1.696535994609197,
      "epoch": 0.23366565049023647,
      "grad_norm": 0.7266330718994141,
      "learning_rate": 1.9647234114851152e-05,
      "loss": 1.275,
      "mean_token_accuracy": 0.6714907536904017,
      "num_tokens": 356205844.0,
      "step": 2127
    },
    {
      "entropy": 1.7079964379469554,
      "epoch": 0.2337755074016094,
      "grad_norm": 0.7104028463363647,
      "learning_rate": 1.9646790098215302e-05,
      "loss": 1.4331,
      "mean_token_accuracy": 0.6543066402276357,
      "num_tokens": 356376146.0,
      "step": 2128
    },
    {
      "entropy": 1.6866773664951324,
      "epoch": 0.23388536431298235,
      "grad_norm": 1.0117084980010986,
      "learning_rate": 1.964634580791244e-05,
      "loss": 1.3217,
      "mean_token_accuracy": 0.6756196220715841,
      "num_tokens": 356535528.0,
      "step": 2129
    },
    {
      "entropy": 1.7522582213083904,
      "epoch": 0.2339952212243553,
      "grad_norm": 0.6908559799194336,
      "learning_rate": 1.964590124395663e-05,
      "loss": 1.4413,
      "mean_token_accuracy": 0.6561037798722585,
      "num_tokens": 356697797.0,
      "step": 2130
    },
    {
      "entropy": 1.7344152132670085,
      "epoch": 0.2341050781357282,
      "grad_norm": 0.6250041127204895,
      "learning_rate": 1.9645456406361945e-05,
      "loss": 1.4769,
      "mean_token_accuracy": 0.6356958995262781,
      "num_tokens": 356880210.0,
      "step": 2131
    },
    {
      "entropy": 1.76920285820961,
      "epoch": 0.23421493504710114,
      "grad_norm": 0.7835322618484497,
      "learning_rate": 1.9645011295142456e-05,
      "loss": 1.5479,
      "mean_token_accuracy": 0.6402261257171631,
      "num_tokens": 357043606.0,
      "step": 2132
    },
    {
      "entropy": 1.6776104768117268,
      "epoch": 0.23432479195847408,
      "grad_norm": 0.745183527469635,
      "learning_rate": 1.9644565910312257e-05,
      "loss": 1.4785,
      "mean_token_accuracy": 0.6556303252776464,
      "num_tokens": 357235188.0,
      "step": 2133
    },
    {
      "entropy": 1.7570060988267262,
      "epoch": 0.23443464886984702,
      "grad_norm": 1.126607060432434,
      "learning_rate": 1.9644120251885442e-05,
      "loss": 1.4158,
      "mean_token_accuracy": 0.6616190771261851,
      "num_tokens": 357369106.0,
      "step": 2134
    },
    {
      "entropy": 1.7477031548817952,
      "epoch": 0.23454450578121996,
      "grad_norm": 0.5550586581230164,
      "learning_rate": 1.9643674319876116e-05,
      "loss": 1.5428,
      "mean_token_accuracy": 0.6342013676961263,
      "num_tokens": 357630109.0,
      "step": 2135
    },
    {
      "entropy": 1.7409445345401764,
      "epoch": 0.2346543626925929,
      "grad_norm": 0.6409521102905273,
      "learning_rate": 1.9643228114298394e-05,
      "loss": 1.3992,
      "mean_token_accuracy": 0.6574912518262863,
      "num_tokens": 357876601.0,
      "step": 2136
    },
    {
      "entropy": 1.755222608645757,
      "epoch": 0.23476421960396585,
      "grad_norm": 0.8085409998893738,
      "learning_rate": 1.9642781635166394e-05,
      "loss": 1.3566,
      "mean_token_accuracy": 0.6657391488552094,
      "num_tokens": 358031405.0,
      "step": 2137
    },
    {
      "entropy": 1.7329784830411274,
      "epoch": 0.23487407651533876,
      "grad_norm": 0.7524353265762329,
      "learning_rate": 1.9642334882494252e-05,
      "loss": 1.2204,
      "mean_token_accuracy": 0.6737546324729919,
      "num_tokens": 358140931.0,
      "step": 2138
    },
    {
      "entropy": 1.7543505827585857,
      "epoch": 0.2349839334267117,
      "grad_norm": 0.673270046710968,
      "learning_rate": 1.9641887856296103e-05,
      "loss": 1.4576,
      "mean_token_accuracy": 0.6485131829977036,
      "num_tokens": 358374623.0,
      "step": 2139
    },
    {
      "entropy": 1.7349696457386017,
      "epoch": 0.23509379033808464,
      "grad_norm": 0.6543999314308167,
      "learning_rate": 1.9641440556586103e-05,
      "loss": 1.2942,
      "mean_token_accuracy": 0.6671332617600759,
      "num_tokens": 358489422.0,
      "step": 2140
    },
    {
      "entropy": 1.7005629340807598,
      "epoch": 0.23520364724945758,
      "grad_norm": 0.6191766262054443,
      "learning_rate": 1.9640992983378396e-05,
      "loss": 1.4521,
      "mean_token_accuracy": 0.6530391176541647,
      "num_tokens": 358675459.0,
      "step": 2141
    },
    {
      "entropy": 1.7502335608005524,
      "epoch": 0.23531350416083052,
      "grad_norm": 0.7959282994270325,
      "learning_rate": 1.9640545136687163e-05,
      "loss": 1.5671,
      "mean_token_accuracy": 0.6383850276470184,
      "num_tokens": 358841502.0,
      "step": 2142
    },
    {
      "entropy": 1.7522724668184917,
      "epoch": 0.23542336107220346,
      "grad_norm": 0.8718724846839905,
      "learning_rate": 1.9640097016526562e-05,
      "loss": 1.5196,
      "mean_token_accuracy": 0.6397239714860916,
      "num_tokens": 359026040.0,
      "step": 2143
    },
    {
      "entropy": 1.7374042570590973,
      "epoch": 0.2355332179835764,
      "grad_norm": 0.6595825552940369,
      "learning_rate": 1.9639648622910786e-05,
      "loss": 1.4752,
      "mean_token_accuracy": 0.6529039045174917,
      "num_tokens": 359254305.0,
      "step": 2144
    },
    {
      "entropy": 1.643284171819687,
      "epoch": 0.23564307489494932,
      "grad_norm": 0.6858879327774048,
      "learning_rate": 1.963919995585403e-05,
      "loss": 1.3472,
      "mean_token_accuracy": 0.6681111405293146,
      "num_tokens": 359394696.0,
      "step": 2145
    },
    {
      "entropy": 1.722949246565501,
      "epoch": 0.23575293180632226,
      "grad_norm": 0.687818706035614,
      "learning_rate": 1.9638751015370482e-05,
      "loss": 1.2756,
      "mean_token_accuracy": 0.6662940879662832,
      "num_tokens": 359529099.0,
      "step": 2146
    },
    {
      "entropy": 1.6889635523160298,
      "epoch": 0.2358627887176952,
      "grad_norm": 0.643974781036377,
      "learning_rate": 1.963830180147436e-05,
      "loss": 1.4641,
      "mean_token_accuracy": 0.651663934191068,
      "num_tokens": 359724038.0,
      "step": 2147
    },
    {
      "entropy": 1.6901886363824208,
      "epoch": 0.23597264562906814,
      "grad_norm": 0.5987870097160339,
      "learning_rate": 1.9637852314179874e-05,
      "loss": 1.4741,
      "mean_token_accuracy": 0.6606296797593435,
      "num_tokens": 359880863.0,
      "step": 2148
    },
    {
      "entropy": 1.716208666563034,
      "epoch": 0.23608250254044108,
      "grad_norm": 0.7272748351097107,
      "learning_rate": 1.963740255350126e-05,
      "loss": 1.5086,
      "mean_token_accuracy": 0.6366155793269476,
      "num_tokens": 360047860.0,
      "step": 2149
    },
    {
      "entropy": 1.7702193856239319,
      "epoch": 0.23619235945181402,
      "grad_norm": 0.664681613445282,
      "learning_rate": 1.9636952519452744e-05,
      "loss": 1.3891,
      "mean_token_accuracy": 0.6544702003399531,
      "num_tokens": 360202676.0,
      "step": 2150
    },
    {
      "entropy": 1.7394584218660991,
      "epoch": 0.23630221636318696,
      "grad_norm": 0.6830300688743591,
      "learning_rate": 1.9636502212048572e-05,
      "loss": 1.3563,
      "mean_token_accuracy": 0.6578590472539266,
      "num_tokens": 360355267.0,
      "step": 2151
    },
    {
      "entropy": 1.7491403818130493,
      "epoch": 0.23641207327455988,
      "grad_norm": 0.7265613675117493,
      "learning_rate": 1.9636051631303e-05,
      "loss": 1.477,
      "mean_token_accuracy": 0.6517923126618067,
      "num_tokens": 360478966.0,
      "step": 2152
    },
    {
      "entropy": 1.7051890293757122,
      "epoch": 0.23652193018593282,
      "grad_norm": 0.7303532361984253,
      "learning_rate": 1.9635600777230282e-05,
      "loss": 1.3862,
      "mean_token_accuracy": 0.6609994073708853,
      "num_tokens": 360660424.0,
      "step": 2153
    },
    {
      "entropy": 1.7975957592328389,
      "epoch": 0.23663178709730576,
      "grad_norm": 0.5887877345085144,
      "learning_rate": 1.9635149649844692e-05,
      "loss": 1.5907,
      "mean_token_accuracy": 0.6157426983118057,
      "num_tokens": 360924995.0,
      "step": 2154
    },
    {
      "entropy": 1.6898219386736553,
      "epoch": 0.2367416440086787,
      "grad_norm": 0.6663623452186584,
      "learning_rate": 1.963469824916051e-05,
      "loss": 1.3366,
      "mean_token_accuracy": 0.6628438780705134,
      "num_tokens": 361077147.0,
      "step": 2155
    },
    {
      "entropy": 1.6904780368010204,
      "epoch": 0.23685150092005164,
      "grad_norm": 0.6058080196380615,
      "learning_rate": 1.9634246575192016e-05,
      "loss": 1.5434,
      "mean_token_accuracy": 0.6356114248434702,
      "num_tokens": 361294273.0,
      "step": 2156
    },
    {
      "entropy": 1.7322813769181569,
      "epoch": 0.23696135783142458,
      "grad_norm": 0.6489390730857849,
      "learning_rate": 1.963379462795351e-05,
      "loss": 1.2153,
      "mean_token_accuracy": 0.6865619271993637,
      "num_tokens": 361438046.0,
      "step": 2157
    },
    {
      "entropy": 1.7179724077383678,
      "epoch": 0.2370712147427975,
      "grad_norm": 0.8556140661239624,
      "learning_rate": 1.9633342407459293e-05,
      "loss": 1.4153,
      "mean_token_accuracy": 0.6623386641343435,
      "num_tokens": 361588264.0,
      "step": 2158
    },
    {
      "entropy": 1.728331635395686,
      "epoch": 0.23718107165417043,
      "grad_norm": 0.8043140172958374,
      "learning_rate": 1.963288991372368e-05,
      "loss": 1.4934,
      "mean_token_accuracy": 0.6493467340866724,
      "num_tokens": 361753598.0,
      "step": 2159
    },
    {
      "entropy": 1.732284684975942,
      "epoch": 0.23729092856554337,
      "grad_norm": 0.7125091552734375,
      "learning_rate": 1.963243714676099e-05,
      "loss": 1.4851,
      "mean_token_accuracy": 0.6488629430532455,
      "num_tokens": 361902073.0,
      "step": 2160
    },
    {
      "entropy": 1.78290989001592,
      "epoch": 0.23740078547691632,
      "grad_norm": 0.7010405659675598,
      "learning_rate": 1.9631984106585555e-05,
      "loss": 1.3971,
      "mean_token_accuracy": 0.6474642306566238,
      "num_tokens": 362076912.0,
      "step": 2161
    },
    {
      "entropy": 1.7021795014540355,
      "epoch": 0.23751064238828926,
      "grad_norm": 0.6787356734275818,
      "learning_rate": 1.9631530793211714e-05,
      "loss": 1.4077,
      "mean_token_accuracy": 0.648701603213946,
      "num_tokens": 362238050.0,
      "step": 2162
    },
    {
      "entropy": 1.7377806107203166,
      "epoch": 0.2376204992996622,
      "grad_norm": 0.5525624752044678,
      "learning_rate": 1.9631077206653813e-05,
      "loss": 1.3933,
      "mean_token_accuracy": 0.6540517012278239,
      "num_tokens": 362480190.0,
      "step": 2163
    },
    {
      "entropy": 1.7550107041994731,
      "epoch": 0.23773035621103514,
      "grad_norm": 0.7044647336006165,
      "learning_rate": 1.9630623346926204e-05,
      "loss": 1.5253,
      "mean_token_accuracy": 0.635568325718244,
      "num_tokens": 362670764.0,
      "step": 2164
    },
    {
      "entropy": 1.7480690081914265,
      "epoch": 0.23784021312240805,
      "grad_norm": 0.7633349895477295,
      "learning_rate": 1.9630169214043256e-05,
      "loss": 1.4851,
      "mean_token_accuracy": 0.6614658435185751,
      "num_tokens": 362833342.0,
      "step": 2165
    },
    {
      "entropy": 1.7279286682605743,
      "epoch": 0.237950070033781,
      "grad_norm": 0.6929425597190857,
      "learning_rate": 1.9629714808019346e-05,
      "loss": 1.3254,
      "mean_token_accuracy": 0.668560599287351,
      "num_tokens": 363009578.0,
      "step": 2166
    },
    {
      "entropy": 1.6972400446732838,
      "epoch": 0.23805992694515393,
      "grad_norm": 0.6299599409103394,
      "learning_rate": 1.9629260128868845e-05,
      "loss": 1.4519,
      "mean_token_accuracy": 0.6551623294750849,
      "num_tokens": 363187419.0,
      "step": 2167
    },
    {
      "entropy": 1.7553909023602803,
      "epoch": 0.23816978385652687,
      "grad_norm": 0.8156332969665527,
      "learning_rate": 1.9628805176606154e-05,
      "loss": 1.4541,
      "mean_token_accuracy": 0.647150124112765,
      "num_tokens": 363328352.0,
      "step": 2168
    },
    {
      "entropy": 1.7071846425533295,
      "epoch": 0.23827964076789981,
      "grad_norm": 0.856622040271759,
      "learning_rate": 1.9628349951245664e-05,
      "loss": 1.3319,
      "mean_token_accuracy": 0.6602184077103933,
      "num_tokens": 363489818.0,
      "step": 2169
    },
    {
      "entropy": 1.739296982685725,
      "epoch": 0.23838949767927275,
      "grad_norm": 0.6858103275299072,
      "learning_rate": 1.962789445280179e-05,
      "loss": 1.2651,
      "mean_token_accuracy": 0.6659305195013682,
      "num_tokens": 363619436.0,
      "step": 2170
    },
    {
      "entropy": 1.6668515503406525,
      "epoch": 0.2384993545906457,
      "grad_norm": 0.6311803460121155,
      "learning_rate": 1.962743868128894e-05,
      "loss": 1.4142,
      "mean_token_accuracy": 0.6425204674402872,
      "num_tokens": 363811652.0,
      "step": 2171
    },
    {
      "entropy": 1.7442655265331268,
      "epoch": 0.2386092115020186,
      "grad_norm": 0.6944742202758789,
      "learning_rate": 1.9626982636721545e-05,
      "loss": 1.4477,
      "mean_token_accuracy": 0.6392138053973516,
      "num_tokens": 363977169.0,
      "step": 2172
    },
    {
      "entropy": 1.7125125726064045,
      "epoch": 0.23871906841339155,
      "grad_norm": 0.7651383876800537,
      "learning_rate": 1.9626526319114036e-05,
      "loss": 1.3283,
      "mean_token_accuracy": 0.6706061810255051,
      "num_tokens": 364116621.0,
      "step": 2173
    },
    {
      "entropy": 1.7354065477848053,
      "epoch": 0.2388289253247645,
      "grad_norm": 0.6315815448760986,
      "learning_rate": 1.9626069728480858e-05,
      "loss": 1.443,
      "mean_token_accuracy": 0.6499165147542953,
      "num_tokens": 364276980.0,
      "step": 2174
    },
    {
      "entropy": 1.735385040442149,
      "epoch": 0.23893878223613743,
      "grad_norm": 0.7463067173957825,
      "learning_rate": 1.962561286483646e-05,
      "loss": 1.3995,
      "mean_token_accuracy": 0.6562738716602325,
      "num_tokens": 364459519.0,
      "step": 2175
    },
    {
      "entropy": 1.7214009960492451,
      "epoch": 0.23904863914751037,
      "grad_norm": 0.7005197405815125,
      "learning_rate": 1.9625155728195302e-05,
      "loss": 1.3058,
      "mean_token_accuracy": 0.666901707649231,
      "num_tokens": 364587858.0,
      "step": 2176
    },
    {
      "entropy": 1.712921271721522,
      "epoch": 0.2391584960588833,
      "grad_norm": 0.6100747585296631,
      "learning_rate": 1.962469831857185e-05,
      "loss": 1.4452,
      "mean_token_accuracy": 0.6609046856562296,
      "num_tokens": 364753196.0,
      "step": 2177
    },
    {
      "entropy": 1.7237416009108226,
      "epoch": 0.23926835297025625,
      "grad_norm": 0.7957034111022949,
      "learning_rate": 1.9624240635980584e-05,
      "loss": 1.2262,
      "mean_token_accuracy": 0.674635981520017,
      "num_tokens": 364910423.0,
      "step": 2178
    },
    {
      "entropy": 1.700117399295171,
      "epoch": 0.23937820988162917,
      "grad_norm": 0.6685667037963867,
      "learning_rate": 1.9623782680435987e-05,
      "loss": 1.5193,
      "mean_token_accuracy": 0.6441571215788523,
      "num_tokens": 365077021.0,
      "step": 2179
    },
    {
      "entropy": 1.7847689390182495,
      "epoch": 0.2394880667930021,
      "grad_norm": 0.7147764563560486,
      "learning_rate": 1.9623324451952553e-05,
      "loss": 1.5083,
      "mean_token_accuracy": 0.6502701590458552,
      "num_tokens": 365244591.0,
      "step": 2180
    },
    {
      "entropy": 1.7398345371087391,
      "epoch": 0.23959792370437505,
      "grad_norm": 0.8563188910484314,
      "learning_rate": 1.962286595054479e-05,
      "loss": 1.3004,
      "mean_token_accuracy": 0.6682943751414617,
      "num_tokens": 365376513.0,
      "step": 2181
    },
    {
      "entropy": 1.7507529258728027,
      "epoch": 0.239707780615748,
      "grad_norm": 0.693526566028595,
      "learning_rate": 1.9622407176227203e-05,
      "loss": 1.2758,
      "mean_token_accuracy": 0.6713242183128992,
      "num_tokens": 365498732.0,
      "step": 2182
    },
    {
      "entropy": 1.7492507894833882,
      "epoch": 0.23981763752712093,
      "grad_norm": 0.6851478219032288,
      "learning_rate": 1.9621948129014313e-05,
      "loss": 1.4017,
      "mean_token_accuracy": 0.6537040372689565,
      "num_tokens": 365646829.0,
      "step": 2183
    },
    {
      "entropy": 1.6749079823493958,
      "epoch": 0.23992749443849387,
      "grad_norm": 0.6201784610748291,
      "learning_rate": 1.962148880892065e-05,
      "loss": 1.283,
      "mean_token_accuracy": 0.6736765950918198,
      "num_tokens": 365806583.0,
      "step": 2184
    },
    {
      "entropy": 1.709314078092575,
      "epoch": 0.2400373513498668,
      "grad_norm": 0.758945643901825,
      "learning_rate": 1.9621029215960754e-05,
      "loss": 1.4324,
      "mean_token_accuracy": 0.6545686274766922,
      "num_tokens": 365961748.0,
      "step": 2185
    },
    {
      "entropy": 1.6410066386063893,
      "epoch": 0.24014720826123973,
      "grad_norm": 0.5668028593063354,
      "learning_rate": 1.9620569350149165e-05,
      "loss": 1.4312,
      "mean_token_accuracy": 0.6502448171377182,
      "num_tokens": 366235040.0,
      "step": 2186
    },
    {
      "entropy": 1.6869204839070637,
      "epoch": 0.24025706517261267,
      "grad_norm": 0.648259162902832,
      "learning_rate": 1.962010921150044e-05,
      "loss": 1.4071,
      "mean_token_accuracy": 0.653958131869634,
      "num_tokens": 366404008.0,
      "step": 2187
    },
    {
      "entropy": 1.762471745411555,
      "epoch": 0.2403669220839856,
      "grad_norm": 0.730883002281189,
      "learning_rate": 1.9619648800029147e-05,
      "loss": 1.507,
      "mean_token_accuracy": 0.6531516114870707,
      "num_tokens": 366593272.0,
      "step": 2188
    },
    {
      "entropy": 1.7137305339177449,
      "epoch": 0.24047677899535855,
      "grad_norm": 0.6646022796630859,
      "learning_rate": 1.961918811574985e-05,
      "loss": 1.3821,
      "mean_token_accuracy": 0.6573305775721868,
      "num_tokens": 366745378.0,
      "step": 2189
    },
    {
      "entropy": 1.724080502986908,
      "epoch": 0.2405866359067315,
      "grad_norm": 0.7894087433815002,
      "learning_rate": 1.9618727158677135e-05,
      "loss": 1.2611,
      "mean_token_accuracy": 0.6693530778090159,
      "num_tokens": 366856467.0,
      "step": 2190
    },
    {
      "entropy": 1.6957077880700429,
      "epoch": 0.24069649281810443,
      "grad_norm": 0.7428924441337585,
      "learning_rate": 1.9618265928825585e-05,
      "loss": 1.478,
      "mean_token_accuracy": 0.6377401451269785,
      "num_tokens": 367087055.0,
      "step": 2191
    },
    {
      "entropy": 1.7296242912610371,
      "epoch": 0.24080634972947734,
      "grad_norm": 0.820216178894043,
      "learning_rate": 1.9617804426209806e-05,
      "loss": 1.4666,
      "mean_token_accuracy": 0.6516137719154358,
      "num_tokens": 367269105.0,
      "step": 2192
    },
    {
      "entropy": 1.7189955015977223,
      "epoch": 0.24091620664085028,
      "grad_norm": 0.6569713950157166,
      "learning_rate": 1.96173426508444e-05,
      "loss": 1.3206,
      "mean_token_accuracy": 0.6575327118237814,
      "num_tokens": 367475382.0,
      "step": 2193
    },
    {
      "entropy": 1.6480527619520824,
      "epoch": 0.24102606355222322,
      "grad_norm": 0.6472831964492798,
      "learning_rate": 1.961688060274398e-05,
      "loss": 1.3378,
      "mean_token_accuracy": 0.6720782270034155,
      "num_tokens": 367684314.0,
      "step": 2194
    },
    {
      "entropy": 1.7488195300102234,
      "epoch": 0.24113592046359617,
      "grad_norm": 0.6956831812858582,
      "learning_rate": 1.9616418281923173e-05,
      "loss": 1.3187,
      "mean_token_accuracy": 0.6687667121489843,
      "num_tokens": 367816401.0,
      "step": 2195
    },
    {
      "entropy": 1.7608485917250316,
      "epoch": 0.2412457773749691,
      "grad_norm": 0.7031329274177551,
      "learning_rate": 1.9615955688396612e-05,
      "loss": 1.3447,
      "mean_token_accuracy": 0.6478245705366135,
      "num_tokens": 367957070.0,
      "step": 2196
    },
    {
      "entropy": 1.6865754624207814,
      "epoch": 0.24135563428634205,
      "grad_norm": 0.604003369808197,
      "learning_rate": 1.961549282217893e-05,
      "loss": 1.4346,
      "mean_token_accuracy": 0.650801420211792,
      "num_tokens": 368155745.0,
      "step": 2197
    },
    {
      "entropy": 1.7110398511091869,
      "epoch": 0.241465491197715,
      "grad_norm": 0.6684320569038391,
      "learning_rate": 1.961502968328479e-05,
      "loss": 1.3022,
      "mean_token_accuracy": 0.6626110126574835,
      "num_tokens": 368276371.0,
      "step": 2198
    },
    {
      "entropy": 1.7122747302055359,
      "epoch": 0.2415753481090879,
      "grad_norm": 0.6755695343017578,
      "learning_rate": 1.9614566271728837e-05,
      "loss": 1.3599,
      "mean_token_accuracy": 0.648558442791303,
      "num_tokens": 368465965.0,
      "step": 2199
    },
    {
      "entropy": 1.8012695610523224,
      "epoch": 0.24168520502046084,
      "grad_norm": 0.684968888759613,
      "learning_rate": 1.9614102587525747e-05,
      "loss": 1.4568,
      "mean_token_accuracy": 0.6433351039886475,
      "num_tokens": 368636338.0,
      "step": 2200
    },
    {
      "entropy": 1.7449529965718586,
      "epoch": 0.24179506193183378,
      "grad_norm": 0.7659276127815247,
      "learning_rate": 1.961363863069019e-05,
      "loss": 1.5253,
      "mean_token_accuracy": 0.633417159318924,
      "num_tokens": 368846134.0,
      "step": 2201
    },
    {
      "entropy": 1.6875906387964885,
      "epoch": 0.24190491884320672,
      "grad_norm": 0.5927108526229858,
      "learning_rate": 1.9613174401236854e-05,
      "loss": 1.3356,
      "mean_token_accuracy": 0.6597074568271637,
      "num_tokens": 369033966.0,
      "step": 2202
    },
    {
      "entropy": 1.6861758530139923,
      "epoch": 0.24201477575457966,
      "grad_norm": 0.6627983450889587,
      "learning_rate": 1.9612709899180426e-05,
      "loss": 1.2911,
      "mean_token_accuracy": 0.6747742146253586,
      "num_tokens": 369165869.0,
      "step": 2203
    },
    {
      "entropy": 1.6657120088736217,
      "epoch": 0.2421246326659526,
      "grad_norm": 0.6609204411506653,
      "learning_rate": 1.961224512453561e-05,
      "loss": 1.3563,
      "mean_token_accuracy": 0.6647985180219015,
      "num_tokens": 369339600.0,
      "step": 2204
    },
    {
      "entropy": 1.7627909282843273,
      "epoch": 0.24223448957732555,
      "grad_norm": 0.6282365322113037,
      "learning_rate": 1.961178007731712e-05,
      "loss": 1.4089,
      "mean_token_accuracy": 0.6540078123410543,
      "num_tokens": 369538959.0,
      "step": 2205
    },
    {
      "entropy": 1.722537229458491,
      "epoch": 0.24234434648869846,
      "grad_norm": 0.7731828093528748,
      "learning_rate": 1.961131475753967e-05,
      "loss": 1.4734,
      "mean_token_accuracy": 0.648734783132871,
      "num_tokens": 369681113.0,
      "step": 2206
    },
    {
      "entropy": 1.7212282319863637,
      "epoch": 0.2424542034000714,
      "grad_norm": 0.8537726402282715,
      "learning_rate": 1.9610849165217987e-05,
      "loss": 1.4472,
      "mean_token_accuracy": 0.6453748544057211,
      "num_tokens": 369894724.0,
      "step": 2207
    },
    {
      "entropy": 1.6924510598182678,
      "epoch": 0.24256406031144434,
      "grad_norm": 0.6755207777023315,
      "learning_rate": 1.9610383300366805e-05,
      "loss": 1.4163,
      "mean_token_accuracy": 0.6647496223449707,
      "num_tokens": 370034227.0,
      "step": 2208
    },
    {
      "entropy": 1.649043579896291,
      "epoch": 0.24267391722281728,
      "grad_norm": 0.7188857793807983,
      "learning_rate": 1.960991716300088e-05,
      "loss": 1.3476,
      "mean_token_accuracy": 0.6680084963639578,
      "num_tokens": 370255912.0,
      "step": 2209
    },
    {
      "entropy": 1.6831135253111522,
      "epoch": 0.24278377413419022,
      "grad_norm": 0.6619141101837158,
      "learning_rate": 1.960945075313495e-05,
      "loss": 1.4331,
      "mean_token_accuracy": 0.652848685781161,
      "num_tokens": 370441362.0,
      "step": 2210
    },
    {
      "entropy": 1.7197281420230865,
      "epoch": 0.24289363104556316,
      "grad_norm": 0.710666298866272,
      "learning_rate": 1.9608984070783783e-05,
      "loss": 1.3113,
      "mean_token_accuracy": 0.6746131976445516,
      "num_tokens": 370578910.0,
      "step": 2211
    },
    {
      "entropy": 1.6992753148078918,
      "epoch": 0.2430034879569361,
      "grad_norm": 0.6412252187728882,
      "learning_rate": 1.9608517115962155e-05,
      "loss": 1.4755,
      "mean_token_accuracy": 0.6443726023038229,
      "num_tokens": 370759506.0,
      "step": 2212
    },
    {
      "entropy": 1.7628650764624278,
      "epoch": 0.24311334486830902,
      "grad_norm": 0.8076620101928711,
      "learning_rate": 1.9608049888684834e-05,
      "loss": 1.369,
      "mean_token_accuracy": 0.6632248312234879,
      "num_tokens": 370888869.0,
      "step": 2213
    },
    {
      "entropy": 1.7496830423672993,
      "epoch": 0.24322320177968196,
      "grad_norm": 0.6189358234405518,
      "learning_rate": 1.9607582388966616e-05,
      "loss": 1.3547,
      "mean_token_accuracy": 0.6613173534472784,
      "num_tokens": 371046402.0,
      "step": 2214
    },
    {
      "entropy": 1.7203446328639984,
      "epoch": 0.2433330586910549,
      "grad_norm": 0.6774999499320984,
      "learning_rate": 1.960711461682229e-05,
      "loss": 1.411,
      "mean_token_accuracy": 0.6542786955833435,
      "num_tokens": 371304026.0,
      "step": 2215
    },
    {
      "entropy": 1.6830947597821553,
      "epoch": 0.24344291560242784,
      "grad_norm": 0.6460142731666565,
      "learning_rate": 1.960664657226667e-05,
      "loss": 1.3369,
      "mean_token_accuracy": 0.6676846394936243,
      "num_tokens": 371470000.0,
      "step": 2216
    },
    {
      "entropy": 1.7166868448257446,
      "epoch": 0.24355277251380078,
      "grad_norm": 0.6478844285011292,
      "learning_rate": 1.960617825531456e-05,
      "loss": 1.2987,
      "mean_token_accuracy": 0.6614114989837011,
      "num_tokens": 371579838.0,
      "step": 2217
    },
    {
      "entropy": 1.7828513085842133,
      "epoch": 0.24366262942517372,
      "grad_norm": 1.131135106086731,
      "learning_rate": 1.960570966598079e-05,
      "loss": 1.5558,
      "mean_token_accuracy": 0.6534903893868128,
      "num_tokens": 371739465.0,
      "step": 2218
    },
    {
      "entropy": 1.728717068831126,
      "epoch": 0.24377248633654663,
      "grad_norm": 0.6150972247123718,
      "learning_rate": 1.9605240804280185e-05,
      "loss": 1.4331,
      "mean_token_accuracy": 0.6512966354688009,
      "num_tokens": 371937968.0,
      "step": 2219
    },
    {
      "entropy": 1.7227512498696644,
      "epoch": 0.24388234324791958,
      "grad_norm": 0.7741029262542725,
      "learning_rate": 1.9604771670227586e-05,
      "loss": 1.5728,
      "mean_token_accuracy": 0.6268777251243591,
      "num_tokens": 372118632.0,
      "step": 2220
    },
    {
      "entropy": 1.7896570165952046,
      "epoch": 0.24399220015929252,
      "grad_norm": 0.6654759049415588,
      "learning_rate": 1.960430226383784e-05,
      "loss": 1.4358,
      "mean_token_accuracy": 0.6406222383181254,
      "num_tokens": 372328145.0,
      "step": 2221
    },
    {
      "entropy": 1.7172939280668895,
      "epoch": 0.24410205707066546,
      "grad_norm": 0.759647011756897,
      "learning_rate": 1.9603832585125807e-05,
      "loss": 1.472,
      "mean_token_accuracy": 0.6392781734466553,
      "num_tokens": 372540925.0,
      "step": 2222
    },
    {
      "entropy": 1.7888973255952199,
      "epoch": 0.2442119139820384,
      "grad_norm": 0.7657260298728943,
      "learning_rate": 1.960336263410635e-05,
      "loss": 1.3073,
      "mean_token_accuracy": 0.671954408288002,
      "num_tokens": 372674433.0,
      "step": 2223
    },
    {
      "entropy": 1.6941000918547313,
      "epoch": 0.24432177089341134,
      "grad_norm": 0.7540859580039978,
      "learning_rate": 1.960289241079434e-05,
      "loss": 1.3743,
      "mean_token_accuracy": 0.6615285774072012,
      "num_tokens": 372864530.0,
      "step": 2224
    },
    {
      "entropy": 1.7387097477912903,
      "epoch": 0.24443162780478428,
      "grad_norm": 0.629091739654541,
      "learning_rate": 1.960242191520466e-05,
      "loss": 1.4295,
      "mean_token_accuracy": 0.6414004961649576,
      "num_tokens": 373026958.0,
      "step": 2225
    },
    {
      "entropy": 1.6648336052894592,
      "epoch": 0.2445414847161572,
      "grad_norm": 0.5851943492889404,
      "learning_rate": 1.960195114735221e-05,
      "loss": 1.4927,
      "mean_token_accuracy": 0.6401997953653336,
      "num_tokens": 373255586.0,
      "step": 2226
    },
    {
      "entropy": 1.6632899244626362,
      "epoch": 0.24465134162753013,
      "grad_norm": 0.5614564418792725,
      "learning_rate": 1.9601480107251875e-05,
      "loss": 1.3345,
      "mean_token_accuracy": 0.6726627051830292,
      "num_tokens": 373415841.0,
      "step": 2227
    },
    {
      "entropy": 1.7338934938112895,
      "epoch": 0.24476119853890307,
      "grad_norm": 0.6574128866195679,
      "learning_rate": 1.960100879491857e-05,
      "loss": 1.4711,
      "mean_token_accuracy": 0.6444676717122396,
      "num_tokens": 373600936.0,
      "step": 2228
    },
    {
      "entropy": 1.7459152539571126,
      "epoch": 0.24487105545027602,
      "grad_norm": 0.7730247974395752,
      "learning_rate": 1.960053721036722e-05,
      "loss": 1.3288,
      "mean_token_accuracy": 0.6706405679384867,
      "num_tokens": 373739586.0,
      "step": 2229
    },
    {
      "entropy": 1.7264153758684795,
      "epoch": 0.24498091236164896,
      "grad_norm": 0.6619213819503784,
      "learning_rate": 1.9600065353612735e-05,
      "loss": 1.5545,
      "mean_token_accuracy": 0.6263764947652817,
      "num_tokens": 373943250.0,
      "step": 2230
    },
    {
      "entropy": 1.7214798033237457,
      "epoch": 0.2450907692730219,
      "grad_norm": 0.7965298295021057,
      "learning_rate": 1.959959322467006e-05,
      "loss": 1.5338,
      "mean_token_accuracy": 0.6338108479976654,
      "num_tokens": 374145099.0,
      "step": 2231
    },
    {
      "entropy": 1.7392083803812664,
      "epoch": 0.24520062618439484,
      "grad_norm": 0.6499489545822144,
      "learning_rate": 1.9599120823554137e-05,
      "loss": 1.3013,
      "mean_token_accuracy": 0.6649557749430338,
      "num_tokens": 374267307.0,
      "step": 2232
    },
    {
      "entropy": 1.6417719821135204,
      "epoch": 0.24531048309576775,
      "grad_norm": 0.6339417099952698,
      "learning_rate": 1.959864815027991e-05,
      "loss": 1.4139,
      "mean_token_accuracy": 0.6582342187563578,
      "num_tokens": 374443719.0,
      "step": 2233
    },
    {
      "entropy": 1.7121461629867554,
      "epoch": 0.2454203400071407,
      "grad_norm": 0.6677350997924805,
      "learning_rate": 1.9598175204862348e-05,
      "loss": 1.3063,
      "mean_token_accuracy": 0.6706344981988271,
      "num_tokens": 374593607.0,
      "step": 2234
    },
    {
      "entropy": 1.7524688243865967,
      "epoch": 0.24553019691851363,
      "grad_norm": 0.7025663256645203,
      "learning_rate": 1.959770198731641e-05,
      "loss": 1.4846,
      "mean_token_accuracy": 0.6432475497325262,
      "num_tokens": 374766690.0,
      "step": 2235
    },
    {
      "entropy": 1.7159065902233124,
      "epoch": 0.24564005382988657,
      "grad_norm": 0.7714294791221619,
      "learning_rate": 1.9597228497657084e-05,
      "loss": 1.3186,
      "mean_token_accuracy": 0.6638337969779968,
      "num_tokens": 374890263.0,
      "step": 2236
    },
    {
      "entropy": 1.722405840953191,
      "epoch": 0.24574991074125951,
      "grad_norm": 0.863430380821228,
      "learning_rate": 1.9596754735899347e-05,
      "loss": 1.2672,
      "mean_token_accuracy": 0.669483408331871,
      "num_tokens": 375022168.0,
      "step": 2237
    },
    {
      "entropy": 1.7640716234842937,
      "epoch": 0.24585976765263245,
      "grad_norm": 0.790648877620697,
      "learning_rate": 1.95962807020582e-05,
      "loss": 1.5312,
      "mean_token_accuracy": 0.6371087779601415,
      "num_tokens": 375212695.0,
      "step": 2238
    },
    {
      "entropy": 1.6626634697119396,
      "epoch": 0.2459696245640054,
      "grad_norm": 0.6195372343063354,
      "learning_rate": 1.959580639614864e-05,
      "loss": 1.5048,
      "mean_token_accuracy": 0.631678581237793,
      "num_tokens": 375458846.0,
      "step": 2239
    },
    {
      "entropy": 1.7087614436944325,
      "epoch": 0.2460794814753783,
      "grad_norm": 0.7846135497093201,
      "learning_rate": 1.959533181818568e-05,
      "loss": 1.3327,
      "mean_token_accuracy": 0.6647358934084574,
      "num_tokens": 375608137.0,
      "step": 2240
    },
    {
      "entropy": 1.6494195957978566,
      "epoch": 0.24618933838675125,
      "grad_norm": 0.9152674674987793,
      "learning_rate": 1.9594856968184338e-05,
      "loss": 1.4468,
      "mean_token_accuracy": 0.664206475019455,
      "num_tokens": 375798556.0,
      "step": 2241
    },
    {
      "entropy": 1.7339473962783813,
      "epoch": 0.2462991952981242,
      "grad_norm": 0.7858838438987732,
      "learning_rate": 1.959438184615965e-05,
      "loss": 1.4387,
      "mean_token_accuracy": 0.660494844118754,
      "num_tokens": 375947922.0,
      "step": 2242
    },
    {
      "entropy": 1.7143746713797252,
      "epoch": 0.24640905220949713,
      "grad_norm": 0.6970986127853394,
      "learning_rate": 1.9593906452126646e-05,
      "loss": 1.6092,
      "mean_token_accuracy": 0.6282972743113836,
      "num_tokens": 376216590.0,
      "step": 2243
    },
    {
      "entropy": 1.6953730583190918,
      "epoch": 0.24651890912087007,
      "grad_norm": 0.6785817742347717,
      "learning_rate": 1.9593430786100382e-05,
      "loss": 1.2938,
      "mean_token_accuracy": 0.6653183003266653,
      "num_tokens": 376336959.0,
      "step": 2244
    },
    {
      "entropy": 1.722437173128128,
      "epoch": 0.246628766032243,
      "grad_norm": 0.6590582132339478,
      "learning_rate": 1.9592954848095904e-05,
      "loss": 1.65,
      "mean_token_accuracy": 0.6332317143678665,
      "num_tokens": 376538380.0,
      "step": 2245
    },
    {
      "entropy": 1.721213052670161,
      "epoch": 0.24673862294361595,
      "grad_norm": 0.8105208277702332,
      "learning_rate": 1.9592478638128272e-05,
      "loss": 1.3964,
      "mean_token_accuracy": 0.6566237409909567,
      "num_tokens": 376704949.0,
      "step": 2246
    },
    {
      "entropy": 1.7157046496868134,
      "epoch": 0.24684847985498887,
      "grad_norm": 0.6640613675117493,
      "learning_rate": 1.9592002156212568e-05,
      "loss": 1.3865,
      "mean_token_accuracy": 0.6623821159203848,
      "num_tokens": 376867333.0,
      "step": 2247
    },
    {
      "entropy": 1.6208436489105225,
      "epoch": 0.2469583367663618,
      "grad_norm": 0.6282928586006165,
      "learning_rate": 1.9591525402363864e-05,
      "loss": 1.309,
      "mean_token_accuracy": 0.67738905052344,
      "num_tokens": 377061118.0,
      "step": 2248
    },
    {
      "entropy": 1.7082207401593525,
      "epoch": 0.24706819367773475,
      "grad_norm": 0.6272217035293579,
      "learning_rate": 1.9591048376597253e-05,
      "loss": 1.5739,
      "mean_token_accuracy": 0.636579230427742,
      "num_tokens": 377247432.0,
      "step": 2249
    },
    {
      "entropy": 1.7537776231765747,
      "epoch": 0.2471780505891077,
      "grad_norm": 0.7704234719276428,
      "learning_rate": 1.959057107892783e-05,
      "loss": 1.6269,
      "mean_token_accuracy": 0.626529390613238,
      "num_tokens": 377454531.0,
      "step": 2250
    },
    {
      "entropy": 1.681376536687215,
      "epoch": 0.24728790750048063,
      "grad_norm": 0.65434330701828,
      "learning_rate": 1.9590093509370708e-05,
      "loss": 1.3295,
      "mean_token_accuracy": 0.6573110024134318,
      "num_tokens": 377664696.0,
      "step": 2251
    },
    {
      "entropy": 1.69319083293279,
      "epoch": 0.24739776441185357,
      "grad_norm": 0.7122017741203308,
      "learning_rate": 1.9589615667940994e-05,
      "loss": 1.48,
      "mean_token_accuracy": 0.645169585943222,
      "num_tokens": 377844199.0,
      "step": 2252
    },
    {
      "entropy": 1.7546374201774597,
      "epoch": 0.24750762132322648,
      "grad_norm": 0.6402483582496643,
      "learning_rate": 1.958913755465382e-05,
      "loss": 1.3988,
      "mean_token_accuracy": 0.6497417340675989,
      "num_tokens": 378018473.0,
      "step": 2253
    },
    {
      "entropy": 1.82759756843249,
      "epoch": 0.24761747823459943,
      "grad_norm": 0.7866818308830261,
      "learning_rate": 1.958865916952431e-05,
      "loss": 1.6695,
      "mean_token_accuracy": 0.6300811717907587,
      "num_tokens": 378212776.0,
      "step": 2254
    },
    {
      "entropy": 1.7436250348885853,
      "epoch": 0.24772733514597237,
      "grad_norm": 0.6628825068473816,
      "learning_rate": 1.9588180512567604e-05,
      "loss": 1.4227,
      "mean_token_accuracy": 0.6468610117832819,
      "num_tokens": 378394493.0,
      "step": 2255
    },
    {
      "entropy": 1.7446848253409069,
      "epoch": 0.2478371920573453,
      "grad_norm": 0.6798176765441895,
      "learning_rate": 1.958770158379886e-05,
      "loss": 1.4955,
      "mean_token_accuracy": 0.6422973871231079,
      "num_tokens": 378575118.0,
      "step": 2256
    },
    {
      "entropy": 1.7074936429659526,
      "epoch": 0.24794704896871825,
      "grad_norm": 1.042772650718689,
      "learning_rate": 1.9587222383233228e-05,
      "loss": 1.5275,
      "mean_token_accuracy": 0.6391404122114182,
      "num_tokens": 378807469.0,
      "step": 2257
    },
    {
      "entropy": 1.72696053981781,
      "epoch": 0.2480569058800912,
      "grad_norm": 0.766135573387146,
      "learning_rate": 1.9586742910885874e-05,
      "loss": 1.4886,
      "mean_token_accuracy": 0.6411213676134745,
      "num_tokens": 378956471.0,
      "step": 2258
    },
    {
      "entropy": 1.6875308553377788,
      "epoch": 0.24816676279146413,
      "grad_norm": 0.6208860874176025,
      "learning_rate": 1.9586263166771976e-05,
      "loss": 1.3516,
      "mean_token_accuracy": 0.6571200539668401,
      "num_tokens": 379099761.0,
      "step": 2259
    },
    {
      "entropy": 1.6892028748989105,
      "epoch": 0.24827661970283704,
      "grad_norm": 0.871165931224823,
      "learning_rate": 1.958578315090672e-05,
      "loss": 1.5336,
      "mean_token_accuracy": 0.6406076997518539,
      "num_tokens": 379257672.0,
      "step": 2260
    },
    {
      "entropy": 1.7612777749697368,
      "epoch": 0.24838647661420998,
      "grad_norm": 0.7290350198745728,
      "learning_rate": 1.95853028633053e-05,
      "loss": 1.3248,
      "mean_token_accuracy": 0.6579936047395071,
      "num_tokens": 379388678.0,
      "step": 2261
    },
    {
      "entropy": 1.7003148396809895,
      "epoch": 0.24849633352558292,
      "grad_norm": 0.652847170829773,
      "learning_rate": 1.958482230398291e-05,
      "loss": 1.3746,
      "mean_token_accuracy": 0.6677578836679459,
      "num_tokens": 379561397.0,
      "step": 2262
    },
    {
      "entropy": 1.7450473109881084,
      "epoch": 0.24860619043695587,
      "grad_norm": 0.6660063862800598,
      "learning_rate": 1.958434147295476e-05,
      "loss": 1.4158,
      "mean_token_accuracy": 0.6531000037988027,
      "num_tokens": 379754068.0,
      "step": 2263
    },
    {
      "entropy": 1.738626629114151,
      "epoch": 0.2487160473483288,
      "grad_norm": 0.6657839417457581,
      "learning_rate": 1.9583860370236073e-05,
      "loss": 1.401,
      "mean_token_accuracy": 0.6500038256247839,
      "num_tokens": 379929662.0,
      "step": 2264
    },
    {
      "entropy": 1.6692744890848796,
      "epoch": 0.24882590425970175,
      "grad_norm": 0.5950648188591003,
      "learning_rate": 1.9583378995842073e-05,
      "loss": 1.359,
      "mean_token_accuracy": 0.6600983838240305,
      "num_tokens": 380102552.0,
      "step": 2265
    },
    {
      "entropy": 1.6895807385444641,
      "epoch": 0.2489357611710747,
      "grad_norm": 0.6088550686836243,
      "learning_rate": 1.9582897349788e-05,
      "loss": 1.49,
      "mean_token_accuracy": 0.6435723503430685,
      "num_tokens": 380318259.0,
      "step": 2266
    },
    {
      "entropy": 1.660117010275523,
      "epoch": 0.2490456180824476,
      "grad_norm": 0.5880101919174194,
      "learning_rate": 1.9582415432089086e-05,
      "loss": 1.3985,
      "mean_token_accuracy": 0.6589946647485098,
      "num_tokens": 380484218.0,
      "step": 2267
    },
    {
      "entropy": 1.7047088046868641,
      "epoch": 0.24915547499382054,
      "grad_norm": 0.7071229815483093,
      "learning_rate": 1.9581933242760595e-05,
      "loss": 1.5435,
      "mean_token_accuracy": 0.6445372601350149,
      "num_tokens": 380657830.0,
      "step": 2268
    },
    {
      "entropy": 1.6842391391595204,
      "epoch": 0.24926533190519348,
      "grad_norm": 0.6728826761245728,
      "learning_rate": 1.9581450781817782e-05,
      "loss": 1.4207,
      "mean_token_accuracy": 0.6447325150171915,
      "num_tokens": 380870392.0,
      "step": 2269
    },
    {
      "entropy": 1.7044761975606282,
      "epoch": 0.24937518881656642,
      "grad_norm": 0.6908706426620483,
      "learning_rate": 1.9580968049275918e-05,
      "loss": 1.379,
      "mean_token_accuracy": 0.6554999053478241,
      "num_tokens": 381045560.0,
      "step": 2270
    },
    {
      "entropy": 1.7423875729242961,
      "epoch": 0.24948504572793936,
      "grad_norm": 0.6786364912986755,
      "learning_rate": 1.9580485045150284e-05,
      "loss": 1.3842,
      "mean_token_accuracy": 0.6539370367924372,
      "num_tokens": 381184792.0,
      "step": 2271
    },
    {
      "entropy": 1.7371763586997986,
      "epoch": 0.2495949026393123,
      "grad_norm": 0.6156378984451294,
      "learning_rate": 1.9580001769456166e-05,
      "loss": 1.5311,
      "mean_token_accuracy": 0.6272181322177252,
      "num_tokens": 381470099.0,
      "step": 2272
    },
    {
      "entropy": 1.7165015836556752,
      "epoch": 0.24970475955068525,
      "grad_norm": 0.6726257801055908,
      "learning_rate": 1.9579518222208855e-05,
      "loss": 1.3107,
      "mean_token_accuracy": 0.6664568881193796,
      "num_tokens": 381608195.0,
      "step": 2273
    },
    {
      "entropy": 1.7067488332589467,
      "epoch": 0.24981461646205816,
      "grad_norm": 0.7491520643234253,
      "learning_rate": 1.957903440342366e-05,
      "loss": 1.5999,
      "mean_token_accuracy": 0.6128611117601395,
      "num_tokens": 381845892.0,
      "step": 2274
    },
    {
      "entropy": 1.742664744456609,
      "epoch": 0.2499244733734311,
      "grad_norm": 0.6049597263336182,
      "learning_rate": 1.9578550313115892e-05,
      "loss": 1.3704,
      "mean_token_accuracy": 0.6534209748109182,
      "num_tokens": 382016391.0,
      "step": 2275
    },
    {
      "entropy": 1.6452626784642537,
      "epoch": 0.25003433028480404,
      "grad_norm": 0.6422023773193359,
      "learning_rate": 1.9578065951300873e-05,
      "loss": 1.4084,
      "mean_token_accuracy": 0.6613962203264236,
      "num_tokens": 382212478.0,
      "step": 2276
    },
    {
      "entropy": 1.6521940728028615,
      "epoch": 0.250144187196177,
      "grad_norm": 0.816700279712677,
      "learning_rate": 1.957758131799393e-05,
      "loss": 1.3941,
      "mean_token_accuracy": 0.6591680943965912,
      "num_tokens": 382412188.0,
      "step": 2277
    },
    {
      "entropy": 1.6978717148303986,
      "epoch": 0.2502540441075499,
      "grad_norm": 0.6817605495452881,
      "learning_rate": 1.9577096413210405e-05,
      "loss": 1.4719,
      "mean_token_accuracy": 0.6562831451495489,
      "num_tokens": 382571361.0,
      "step": 2278
    },
    {
      "entropy": 1.7319901784261067,
      "epoch": 0.25036390101892286,
      "grad_norm": 0.9123170971870422,
      "learning_rate": 1.9576611236965644e-05,
      "loss": 1.3404,
      "mean_token_accuracy": 0.6749412715435028,
      "num_tokens": 382719176.0,
      "step": 2279
    },
    {
      "entropy": 1.680397629737854,
      "epoch": 0.2504737579302958,
      "grad_norm": 0.6984215974807739,
      "learning_rate": 1.9576125789275e-05,
      "loss": 1.3374,
      "mean_token_accuracy": 0.6687712669372559,
      "num_tokens": 382873172.0,
      "step": 2280
    },
    {
      "entropy": 1.7036446233590443,
      "epoch": 0.25058361484166874,
      "grad_norm": 0.5962554216384888,
      "learning_rate": 1.957564007015384e-05,
      "loss": 1.464,
      "mean_token_accuracy": 0.6451049596071243,
      "num_tokens": 383057241.0,
      "step": 2281
    },
    {
      "entropy": 1.771241287390391,
      "epoch": 0.2506934717530417,
      "grad_norm": 0.7492452263832092,
      "learning_rate": 1.9575154079617535e-05,
      "loss": 1.3027,
      "mean_token_accuracy": 0.6861212154229482,
      "num_tokens": 383177887.0,
      "step": 2282
    },
    {
      "entropy": 1.6081528663635254,
      "epoch": 0.2508033286644146,
      "grad_norm": 0.6222009062767029,
      "learning_rate": 1.957466781768147e-05,
      "loss": 1.3991,
      "mean_token_accuracy": 0.6638480375210444,
      "num_tokens": 383382040.0,
      "step": 2283
    },
    {
      "entropy": 1.736664613087972,
      "epoch": 0.2509131855757875,
      "grad_norm": 0.7736158967018127,
      "learning_rate": 1.957418128436103e-05,
      "loss": 1.3175,
      "mean_token_accuracy": 0.672918826341629,
      "num_tokens": 383497583.0,
      "step": 2284
    },
    {
      "entropy": 1.7848374644915264,
      "epoch": 0.25102304248716045,
      "grad_norm": 0.70754075050354,
      "learning_rate": 1.957369447967162e-05,
      "loss": 1.3359,
      "mean_token_accuracy": 0.6519061873356501,
      "num_tokens": 383651660.0,
      "step": 2285
    },
    {
      "entropy": 1.7001720269521077,
      "epoch": 0.2511328993985334,
      "grad_norm": 0.6765170693397522,
      "learning_rate": 1.9573207403628638e-05,
      "loss": 1.2694,
      "mean_token_accuracy": 0.6806812932093939,
      "num_tokens": 383782790.0,
      "step": 2286
    },
    {
      "entropy": 1.723912199338277,
      "epoch": 0.25124275630990633,
      "grad_norm": 0.6241678595542908,
      "learning_rate": 1.957272005624751e-05,
      "loss": 1.4251,
      "mean_token_accuracy": 0.6483699729045233,
      "num_tokens": 383980808.0,
      "step": 2287
    },
    {
      "entropy": 1.7109817663828533,
      "epoch": 0.2513526132212793,
      "grad_norm": 0.6277598142623901,
      "learning_rate": 1.957223243754365e-05,
      "loss": 1.3538,
      "mean_token_accuracy": 0.6669852336247762,
      "num_tokens": 384136251.0,
      "step": 2288
    },
    {
      "entropy": 1.7253372172514598,
      "epoch": 0.2514624701326522,
      "grad_norm": 0.6478981375694275,
      "learning_rate": 1.95717445475325e-05,
      "loss": 1.3742,
      "mean_token_accuracy": 0.6614843010902405,
      "num_tokens": 384350465.0,
      "step": 2289
    },
    {
      "entropy": 1.7166267931461334,
      "epoch": 0.25157232704402516,
      "grad_norm": 0.8400107026100159,
      "learning_rate": 1.9571256386229494e-05,
      "loss": 1.3264,
      "mean_token_accuracy": 0.6640830139319102,
      "num_tokens": 384468885.0,
      "step": 2290
    },
    {
      "entropy": 1.663007269303004,
      "epoch": 0.2516821839553981,
      "grad_norm": 0.6767208576202393,
      "learning_rate": 1.9570767953650088e-05,
      "loss": 1.4499,
      "mean_token_accuracy": 0.6597578575213751,
      "num_tokens": 384655353.0,
      "step": 2291
    },
    {
      "entropy": 1.7039824028809865,
      "epoch": 0.25179204086677104,
      "grad_norm": 0.6444749236106873,
      "learning_rate": 1.957027924980974e-05,
      "loss": 1.2652,
      "mean_token_accuracy": 0.6771525144577026,
      "num_tokens": 384792003.0,
      "step": 2292
    },
    {
      "entropy": 1.7554666300614674,
      "epoch": 0.251901897778144,
      "grad_norm": 0.6999207139015198,
      "learning_rate": 1.956979027472391e-05,
      "loss": 1.4989,
      "mean_token_accuracy": 0.6585345417261124,
      "num_tokens": 384962519.0,
      "step": 2293
    },
    {
      "entropy": 1.7081598440806072,
      "epoch": 0.2520117546895169,
      "grad_norm": 0.6971555352210999,
      "learning_rate": 1.9569301028408084e-05,
      "loss": 1.5249,
      "mean_token_accuracy": 0.6455909609794617,
      "num_tokens": 385179673.0,
      "step": 2294
    },
    {
      "entropy": 1.7678824067115784,
      "epoch": 0.25212161160088986,
      "grad_norm": 0.6623879075050354,
      "learning_rate": 1.9568811510877742e-05,
      "loss": 1.461,
      "mean_token_accuracy": 0.6422907660404841,
      "num_tokens": 385361347.0,
      "step": 2295
    },
    {
      "entropy": 1.7030884822209675,
      "epoch": 0.2522314685122628,
      "grad_norm": 0.6273277401924133,
      "learning_rate": 1.9568321722148376e-05,
      "loss": 1.3993,
      "mean_token_accuracy": 0.6431881437699,
      "num_tokens": 385552421.0,
      "step": 2296
    },
    {
      "entropy": 1.710710922876994,
      "epoch": 0.2523413254236357,
      "grad_norm": 0.633685290813446,
      "learning_rate": 1.9567831662235485e-05,
      "loss": 1.4126,
      "mean_token_accuracy": 0.6471965213616689,
      "num_tokens": 385726239.0,
      "step": 2297
    },
    {
      "entropy": 1.7225467264652252,
      "epoch": 0.25245118233500863,
      "grad_norm": 0.6174577474594116,
      "learning_rate": 1.956734133115459e-05,
      "loss": 1.5379,
      "mean_token_accuracy": 0.618008534113566,
      "num_tokens": 386036858.0,
      "step": 2298
    },
    {
      "entropy": 1.6922851900259654,
      "epoch": 0.25256103924638157,
      "grad_norm": 0.6310000419616699,
      "learning_rate": 1.9566850728921196e-05,
      "loss": 1.5632,
      "mean_token_accuracy": 0.6343136032422384,
      "num_tokens": 386284124.0,
      "step": 2299
    },
    {
      "entropy": 1.7784220079580944,
      "epoch": 0.2526708961577545,
      "grad_norm": 0.6629165410995483,
      "learning_rate": 1.9566359855550837e-05,
      "loss": 1.4848,
      "mean_token_accuracy": 0.642065703868866,
      "num_tokens": 386461755.0,
      "step": 2300
    },
    {
      "entropy": 1.7046751876672108,
      "epoch": 0.25278075306912745,
      "grad_norm": 0.6529744863510132,
      "learning_rate": 1.9565868711059054e-05,
      "loss": 1.319,
      "mean_token_accuracy": 0.675203874707222,
      "num_tokens": 386579521.0,
      "step": 2301
    },
    {
      "entropy": 1.7891161839167278,
      "epoch": 0.2528906099805004,
      "grad_norm": 0.7346999645233154,
      "learning_rate": 1.956537729546138e-05,
      "loss": 1.3972,
      "mean_token_accuracy": 0.6581176420052847,
      "num_tokens": 386772847.0,
      "step": 2302
    },
    {
      "entropy": 1.6651329696178436,
      "epoch": 0.25300046689187333,
      "grad_norm": 0.7511558532714844,
      "learning_rate": 1.956488560877338e-05,
      "loss": 1.5864,
      "mean_token_accuracy": 0.6338248377044996,
      "num_tokens": 386982952.0,
      "step": 2303
    },
    {
      "entropy": 1.7310482561588287,
      "epoch": 0.2531103238032463,
      "grad_norm": 0.788306713104248,
      "learning_rate": 1.9564393651010603e-05,
      "loss": 1.5,
      "mean_token_accuracy": 0.6546668658653895,
      "num_tokens": 387175533.0,
      "step": 2304
    },
    {
      "entropy": 1.7673071126143138,
      "epoch": 0.2532201807146192,
      "grad_norm": 0.6239743828773499,
      "learning_rate": 1.9563901422188635e-05,
      "loss": 1.3626,
      "mean_token_accuracy": 0.6721245894829432,
      "num_tokens": 387353943.0,
      "step": 2305
    },
    {
      "entropy": 1.7524100144704182,
      "epoch": 0.25333003762599215,
      "grad_norm": 0.7127106189727783,
      "learning_rate": 1.956340892232304e-05,
      "loss": 1.4402,
      "mean_token_accuracy": 0.6585116336743037,
      "num_tokens": 387549620.0,
      "step": 2306
    },
    {
      "entropy": 1.7112055122852325,
      "epoch": 0.2534398945373651,
      "grad_norm": 0.8389919400215149,
      "learning_rate": 1.956291615142941e-05,
      "loss": 1.4082,
      "mean_token_accuracy": 0.6524738470713297,
      "num_tokens": 387680799.0,
      "step": 2307
    },
    {
      "entropy": 1.698311318953832,
      "epoch": 0.25354975144873804,
      "grad_norm": 0.7265674471855164,
      "learning_rate": 1.9562423109523346e-05,
      "loss": 1.3202,
      "mean_token_accuracy": 0.6675619333982468,
      "num_tokens": 387830972.0,
      "step": 2308
    },
    {
      "entropy": 1.741395463546117,
      "epoch": 0.253659608360111,
      "grad_norm": 0.7003577351570129,
      "learning_rate": 1.956192979662045e-05,
      "loss": 1.4395,
      "mean_token_accuracy": 0.6541390617688497,
      "num_tokens": 387975525.0,
      "step": 2309
    },
    {
      "entropy": 1.7452284097671509,
      "epoch": 0.2537694652714839,
      "grad_norm": 0.6919611096382141,
      "learning_rate": 1.956143621273633e-05,
      "loss": 1.4696,
      "mean_token_accuracy": 0.6432512650887171,
      "num_tokens": 388168464.0,
      "step": 2310
    },
    {
      "entropy": 1.7431021829446156,
      "epoch": 0.2538793221828568,
      "grad_norm": 0.7462813854217529,
      "learning_rate": 1.9560942357886612e-05,
      "loss": 1.4758,
      "mean_token_accuracy": 0.6642291049162546,
      "num_tokens": 388318737.0,
      "step": 2311
    },
    {
      "entropy": 1.7515191932519276,
      "epoch": 0.25398917909422974,
      "grad_norm": 0.7343306541442871,
      "learning_rate": 1.9560448232086927e-05,
      "loss": 1.2869,
      "mean_token_accuracy": 0.6709674050410589,
      "num_tokens": 388467029.0,
      "step": 2312
    },
    {
      "entropy": 1.7023037274678547,
      "epoch": 0.2540990360056027,
      "grad_norm": 0.7146450281143188,
      "learning_rate": 1.9559953835352916e-05,
      "loss": 1.2726,
      "mean_token_accuracy": 0.6788142820199331,
      "num_tokens": 388662606.0,
      "step": 2313
    },
    {
      "entropy": 1.755051185687383,
      "epoch": 0.2542088929169756,
      "grad_norm": 0.7248855233192444,
      "learning_rate": 1.955945916770022e-05,
      "loss": 1.36,
      "mean_token_accuracy": 0.6611029158035914,
      "num_tokens": 388797070.0,
      "step": 2314
    },
    {
      "entropy": 1.7301162481307983,
      "epoch": 0.25431874982834857,
      "grad_norm": 0.6761884689331055,
      "learning_rate": 1.9558964229144498e-05,
      "loss": 1.2911,
      "mean_token_accuracy": 0.6739692836999893,
      "num_tokens": 388932368.0,
      "step": 2315
    },
    {
      "entropy": 1.7212721010049183,
      "epoch": 0.2544286067397215,
      "grad_norm": 0.9040817022323608,
      "learning_rate": 1.9558469019701415e-05,
      "loss": 1.2838,
      "mean_token_accuracy": 0.6708403180042902,
      "num_tokens": 389061358.0,
      "step": 2316
    },
    {
      "entropy": 1.6814491947491963,
      "epoch": 0.25453846365109445,
      "grad_norm": 0.5825700759887695,
      "learning_rate": 1.9557973539386648e-05,
      "loss": 1.1823,
      "mean_token_accuracy": 0.6723542312781016,
      "num_tokens": 389254558.0,
      "step": 2317
    },
    {
      "entropy": 1.7602062424023945,
      "epoch": 0.2546483205624674,
      "grad_norm": 0.8323972821235657,
      "learning_rate": 1.955747778821587e-05,
      "loss": 1.5388,
      "mean_token_accuracy": 0.636329710483551,
      "num_tokens": 389451108.0,
      "step": 2318
    },
    {
      "entropy": 1.7078562676906586,
      "epoch": 0.25475817747384033,
      "grad_norm": 0.6664144992828369,
      "learning_rate": 1.9556981766204778e-05,
      "loss": 1.4438,
      "mean_token_accuracy": 0.6484460184971491,
      "num_tokens": 389610942.0,
      "step": 2319
    },
    {
      "entropy": 1.7442236840724945,
      "epoch": 0.25486803438521327,
      "grad_norm": 0.7855071425437927,
      "learning_rate": 1.955648547336907e-05,
      "loss": 1.4623,
      "mean_token_accuracy": 0.660668358206749,
      "num_tokens": 389720189.0,
      "step": 2320
    },
    {
      "entropy": 1.7352332770824432,
      "epoch": 0.2549778912965862,
      "grad_norm": 0.7771610021591187,
      "learning_rate": 1.9555988909724452e-05,
      "loss": 1.3173,
      "mean_token_accuracy": 0.65856105585893,
      "num_tokens": 389873275.0,
      "step": 2321
    },
    {
      "entropy": 1.7454373637835185,
      "epoch": 0.25508774820795915,
      "grad_norm": 0.8752892017364502,
      "learning_rate": 1.9555492075286637e-05,
      "loss": 1.2962,
      "mean_token_accuracy": 0.6755866954723994,
      "num_tokens": 389978431.0,
      "step": 2322
    },
    {
      "entropy": 1.752275397380193,
      "epoch": 0.2551976051193321,
      "grad_norm": 0.7649509906768799,
      "learning_rate": 1.955499497007136e-05,
      "loss": 1.5054,
      "mean_token_accuracy": 0.6548398286104202,
      "num_tokens": 390126888.0,
      "step": 2323
    },
    {
      "entropy": 1.7507530748844147,
      "epoch": 0.255307462030705,
      "grad_norm": 0.9283920526504517,
      "learning_rate": 1.955449759409434e-05,
      "loss": 1.5272,
      "mean_token_accuracy": 0.6637701342503229,
      "num_tokens": 390347120.0,
      "step": 2324
    },
    {
      "entropy": 1.7015658716360729,
      "epoch": 0.2554173189420779,
      "grad_norm": 0.6118226647377014,
      "learning_rate": 1.955399994737133e-05,
      "loss": 1.3858,
      "mean_token_accuracy": 0.6548377076784769,
      "num_tokens": 390538791.0,
      "step": 2325
    },
    {
      "entropy": 1.6828657388687134,
      "epoch": 0.25552717585345086,
      "grad_norm": 0.7431015968322754,
      "learning_rate": 1.9553502029918075e-05,
      "loss": 1.2795,
      "mean_token_accuracy": 0.67412897447745,
      "num_tokens": 390704930.0,
      "step": 2326
    },
    {
      "entropy": 1.7173655331134796,
      "epoch": 0.2556370327648238,
      "grad_norm": 0.6374660730361938,
      "learning_rate": 1.9553003841750334e-05,
      "loss": 1.4074,
      "mean_token_accuracy": 0.6585131883621216,
      "num_tokens": 390836480.0,
      "step": 2327
    },
    {
      "entropy": 1.6791688601175945,
      "epoch": 0.25574688967619674,
      "grad_norm": 0.6104090213775635,
      "learning_rate": 1.9552505382883876e-05,
      "loss": 1.4401,
      "mean_token_accuracy": 0.6437318821748098,
      "num_tokens": 391014632.0,
      "step": 2328
    },
    {
      "entropy": 1.7703735729058583,
      "epoch": 0.2558567465875697,
      "grad_norm": 0.7664080858230591,
      "learning_rate": 1.9552006653334478e-05,
      "loss": 1.3211,
      "mean_token_accuracy": 0.6642909646034241,
      "num_tokens": 391148660.0,
      "step": 2329
    },
    {
      "entropy": 1.6809141437212627,
      "epoch": 0.2559666034989426,
      "grad_norm": 0.5534673929214478,
      "learning_rate": 1.955150765311792e-05,
      "loss": 1.346,
      "mean_token_accuracy": 0.6547142614920934,
      "num_tokens": 391358170.0,
      "step": 2330
    },
    {
      "entropy": 1.7062424222628276,
      "epoch": 0.25607646041031557,
      "grad_norm": 0.7570271492004395,
      "learning_rate": 1.9551008382250002e-05,
      "loss": 1.435,
      "mean_token_accuracy": 0.671400730808576,
      "num_tokens": 391484679.0,
      "step": 2331
    },
    {
      "entropy": 1.7625846366087596,
      "epoch": 0.2561863173216885,
      "grad_norm": 0.7675605416297913,
      "learning_rate": 1.955050884074652e-05,
      "loss": 1.2715,
      "mean_token_accuracy": 0.6735413372516632,
      "num_tokens": 391603471.0,
      "step": 2332
    },
    {
      "entropy": 1.7328182061513264,
      "epoch": 0.25629617423306145,
      "grad_norm": 0.6863852739334106,
      "learning_rate": 1.955000902862329e-05,
      "loss": 1.4326,
      "mean_token_accuracy": 0.6669427951176962,
      "num_tokens": 391764718.0,
      "step": 2333
    },
    {
      "entropy": 1.685337871313095,
      "epoch": 0.2564060311444344,
      "grad_norm": 0.8060728311538696,
      "learning_rate": 1.954950894589612e-05,
      "loss": 1.3938,
      "mean_token_accuracy": 0.658026655515035,
      "num_tokens": 391928953.0,
      "step": 2334
    },
    {
      "entropy": 1.705341676870982,
      "epoch": 0.25651588805580733,
      "grad_norm": 0.7532424330711365,
      "learning_rate": 1.9549008592580845e-05,
      "loss": 1.3471,
      "mean_token_accuracy": 0.6698052088419596,
      "num_tokens": 392067702.0,
      "step": 2335
    },
    {
      "entropy": 1.6493215759595234,
      "epoch": 0.25662574496718027,
      "grad_norm": 0.715596616268158,
      "learning_rate": 1.9548507968693306e-05,
      "loss": 1.4487,
      "mean_token_accuracy": 0.655690461397171,
      "num_tokens": 392257962.0,
      "step": 2336
    },
    {
      "entropy": 1.6872890889644623,
      "epoch": 0.2567356018785532,
      "grad_norm": 0.8979227542877197,
      "learning_rate": 1.954800707424934e-05,
      "loss": 1.3481,
      "mean_token_accuracy": 0.6613185554742813,
      "num_tokens": 392388267.0,
      "step": 2337
    },
    {
      "entropy": 1.7475295166174571,
      "epoch": 0.2568454587899261,
      "grad_norm": 0.6289818286895752,
      "learning_rate": 1.95475059092648e-05,
      "loss": 1.3003,
      "mean_token_accuracy": 0.6711251934369405,
      "num_tokens": 392512381.0,
      "step": 2338
    },
    {
      "entropy": 1.7208695312341054,
      "epoch": 0.25695531570129904,
      "grad_norm": 0.6243081092834473,
      "learning_rate": 1.9547004473755548e-05,
      "loss": 1.4753,
      "mean_token_accuracy": 0.6438407252232233,
      "num_tokens": 392734191.0,
      "step": 2339
    },
    {
      "entropy": 1.715543230374654,
      "epoch": 0.257065172612672,
      "grad_norm": 0.5962228775024414,
      "learning_rate": 1.954650276773746e-05,
      "loss": 1.3443,
      "mean_token_accuracy": 0.6543434709310532,
      "num_tokens": 392910062.0,
      "step": 2340
    },
    {
      "entropy": 1.763334850470225,
      "epoch": 0.2571750295240449,
      "grad_norm": 0.7142077684402466,
      "learning_rate": 1.9546000791226407e-05,
      "loss": 1.4651,
      "mean_token_accuracy": 0.634983961780866,
      "num_tokens": 393052254.0,
      "step": 2341
    },
    {
      "entropy": 1.6993257999420166,
      "epoch": 0.25728488643541786,
      "grad_norm": 0.6107556819915771,
      "learning_rate": 1.954549854423828e-05,
      "loss": 1.3589,
      "mean_token_accuracy": 0.6691757639249166,
      "num_tokens": 393172773.0,
      "step": 2342
    },
    {
      "entropy": 1.6871144970258076,
      "epoch": 0.2573947433467908,
      "grad_norm": 0.8920505046844482,
      "learning_rate": 1.9544996026788978e-05,
      "loss": 1.2929,
      "mean_token_accuracy": 0.6790098696947098,
      "num_tokens": 393294814.0,
      "step": 2343
    },
    {
      "entropy": 1.7936709821224213,
      "epoch": 0.25750460025816374,
      "grad_norm": 0.8346240520477295,
      "learning_rate": 1.95444932388944e-05,
      "loss": 1.4746,
      "mean_token_accuracy": 0.6549756973981857,
      "num_tokens": 393466030.0,
      "step": 2344
    },
    {
      "entropy": 1.613057146469752,
      "epoch": 0.2576144571695367,
      "grad_norm": 0.8011279106140137,
      "learning_rate": 1.9543990180570464e-05,
      "loss": 1.2318,
      "mean_token_accuracy": 0.6732364992300669,
      "num_tokens": 393633963.0,
      "step": 2345
    },
    {
      "entropy": 1.6945912341276805,
      "epoch": 0.2577243140809096,
      "grad_norm": 0.6898323893547058,
      "learning_rate": 1.9543486851833085e-05,
      "loss": 1.3876,
      "mean_token_accuracy": 0.6581351061662039,
      "num_tokens": 393811077.0,
      "step": 2346
    },
    {
      "entropy": 1.7314487596352894,
      "epoch": 0.25783417099228256,
      "grad_norm": 0.6320956945419312,
      "learning_rate": 1.9542983252698198e-05,
      "loss": 1.4795,
      "mean_token_accuracy": 0.627448558807373,
      "num_tokens": 394006293.0,
      "step": 2347
    },
    {
      "entropy": 1.7345199584960938,
      "epoch": 0.2579440279036555,
      "grad_norm": 0.864216148853302,
      "learning_rate": 1.954247938318174e-05,
      "loss": 1.5121,
      "mean_token_accuracy": 0.6495955387751261,
      "num_tokens": 394196329.0,
      "step": 2348
    },
    {
      "entropy": 1.692550351222356,
      "epoch": 0.25805388481502844,
      "grad_norm": 2.546358108520508,
      "learning_rate": 1.954197524329966e-05,
      "loss": 1.189,
      "mean_token_accuracy": 0.6847096085548401,
      "num_tokens": 394355250.0,
      "step": 2349
    },
    {
      "entropy": 1.738300661245982,
      "epoch": 0.2581637417264014,
      "grad_norm": 0.6396709680557251,
      "learning_rate": 1.9541470833067916e-05,
      "loss": 1.3458,
      "mean_token_accuracy": 0.6599492281675339,
      "num_tokens": 394485210.0,
      "step": 2350
    },
    {
      "entropy": 1.7182751496632893,
      "epoch": 0.2582735986377743,
      "grad_norm": 0.7549358606338501,
      "learning_rate": 1.9540966152502463e-05,
      "loss": 1.2255,
      "mean_token_accuracy": 0.6786756366491318,
      "num_tokens": 394596219.0,
      "step": 2351
    },
    {
      "entropy": 1.7194179395834606,
      "epoch": 0.2583834555491472,
      "grad_norm": 0.6862432956695557,
      "learning_rate": 1.9540461201619283e-05,
      "loss": 1.223,
      "mean_token_accuracy": 0.680388276775678,
      "num_tokens": 394749092.0,
      "step": 2352
    },
    {
      "entropy": 1.72928582628568,
      "epoch": 0.25849331246052015,
      "grad_norm": 0.6295669078826904,
      "learning_rate": 1.9539955980434354e-05,
      "loss": 1.4289,
      "mean_token_accuracy": 0.6479186564683914,
      "num_tokens": 394905639.0,
      "step": 2353
    },
    {
      "entropy": 1.7089947859446208,
      "epoch": 0.2586031693718931,
      "grad_norm": 0.6928002238273621,
      "learning_rate": 1.9539450488963665e-05,
      "loss": 1.5692,
      "mean_token_accuracy": 0.6375485310951868,
      "num_tokens": 395055391.0,
      "step": 2354
    },
    {
      "entropy": 1.7104221880435944,
      "epoch": 0.25871302628326603,
      "grad_norm": 0.7009070515632629,
      "learning_rate": 1.953894472722322e-05,
      "loss": 1.4035,
      "mean_token_accuracy": 0.6675273527701696,
      "num_tokens": 395197551.0,
      "step": 2355
    },
    {
      "entropy": 1.6930966973304749,
      "epoch": 0.258822883194639,
      "grad_norm": 0.6557918787002563,
      "learning_rate": 1.9538438695229017e-05,
      "loss": 1.5066,
      "mean_token_accuracy": 0.657018855214119,
      "num_tokens": 395393178.0,
      "step": 2356
    },
    {
      "entropy": 1.7057071129480998,
      "epoch": 0.2589327401060119,
      "grad_norm": 0.6957089900970459,
      "learning_rate": 1.9537932392997083e-05,
      "loss": 1.4734,
      "mean_token_accuracy": 0.6418667435646057,
      "num_tokens": 395564794.0,
      "step": 2357
    },
    {
      "entropy": 1.766910860935847,
      "epoch": 0.25904259701738486,
      "grad_norm": 0.6810352802276611,
      "learning_rate": 1.9537425820543427e-05,
      "loss": 1.5344,
      "mean_token_accuracy": 0.6410610576470693,
      "num_tokens": 395751580.0,
      "step": 2358
    },
    {
      "entropy": 1.6266848941644032,
      "epoch": 0.2591524539287578,
      "grad_norm": 0.6686707139015198,
      "learning_rate": 1.95369189778841e-05,
      "loss": 1.2843,
      "mean_token_accuracy": 0.6765497128168741,
      "num_tokens": 395922802.0,
      "step": 2359
    },
    {
      "entropy": 1.7174728314081829,
      "epoch": 0.25926231084013074,
      "grad_norm": 0.6954838633537292,
      "learning_rate": 1.9536411865035126e-05,
      "loss": 1.5106,
      "mean_token_accuracy": 0.6519478385647138,
      "num_tokens": 396112141.0,
      "step": 2360
    },
    {
      "entropy": 1.7171052594979603,
      "epoch": 0.2593721677515037,
      "grad_norm": 0.715525209903717,
      "learning_rate": 1.953590448201257e-05,
      "loss": 1.3681,
      "mean_token_accuracy": 0.6634097794691721,
      "num_tokens": 396273450.0,
      "step": 2361
    },
    {
      "entropy": 1.7169589797655742,
      "epoch": 0.2594820246628766,
      "grad_norm": 0.7676208019256592,
      "learning_rate": 1.953539682883248e-05,
      "loss": 1.4953,
      "mean_token_accuracy": 0.6550164272387823,
      "num_tokens": 396436428.0,
      "step": 2362
    },
    {
      "entropy": 1.7600337266921997,
      "epoch": 0.25959188157424956,
      "grad_norm": 0.665710985660553,
      "learning_rate": 1.953488890551093e-05,
      "loss": 1.4444,
      "mean_token_accuracy": 0.6462709407011668,
      "num_tokens": 396612360.0,
      "step": 2363
    },
    {
      "entropy": 1.772403875986735,
      "epoch": 0.2597017384856225,
      "grad_norm": 0.7826092839241028,
      "learning_rate": 1.953438071206399e-05,
      "loss": 1.6427,
      "mean_token_accuracy": 0.607773964603742,
      "num_tokens": 396858383.0,
      "step": 2364
    },
    {
      "entropy": 1.7608717381954193,
      "epoch": 0.2598115953969954,
      "grad_norm": 0.7619585990905762,
      "learning_rate": 1.9533872248507743e-05,
      "loss": 1.4618,
      "mean_token_accuracy": 0.6620588004589081,
      "num_tokens": 396976485.0,
      "step": 2365
    },
    {
      "entropy": 1.7266217470169067,
      "epoch": 0.25992145230836833,
      "grad_norm": 0.7657930850982666,
      "learning_rate": 1.9533363514858285e-05,
      "loss": 1.4424,
      "mean_token_accuracy": 0.655510276556015,
      "num_tokens": 397162060.0,
      "step": 2366
    },
    {
      "entropy": 1.7765484750270844,
      "epoch": 0.26003130921974127,
      "grad_norm": 0.827907145023346,
      "learning_rate": 1.9532854511131723e-05,
      "loss": 1.4477,
      "mean_token_accuracy": 0.6488782366116842,
      "num_tokens": 397310390.0,
      "step": 2367
    },
    {
      "entropy": 1.7494306067625682,
      "epoch": 0.2601411661311142,
      "grad_norm": 0.808404803276062,
      "learning_rate": 1.9532345237344154e-05,
      "loss": 1.6514,
      "mean_token_accuracy": 0.637022852897644,
      "num_tokens": 397545166.0,
      "step": 2368
    },
    {
      "entropy": 1.7077105244000752,
      "epoch": 0.26025102304248715,
      "grad_norm": 0.6834400296211243,
      "learning_rate": 1.9531835693511706e-05,
      "loss": 1.4438,
      "mean_token_accuracy": 0.6453288247187933,
      "num_tokens": 397702370.0,
      "step": 2369
    },
    {
      "entropy": 1.7838773429393768,
      "epoch": 0.2603608799538601,
      "grad_norm": 0.6579210758209229,
      "learning_rate": 1.95313258796505e-05,
      "loss": 1.5525,
      "mean_token_accuracy": 0.6188159386316935,
      "num_tokens": 397913924.0,
      "step": 2370
    },
    {
      "entropy": 1.6815649668375652,
      "epoch": 0.26047073686523303,
      "grad_norm": 0.6755560636520386,
      "learning_rate": 1.953081579577668e-05,
      "loss": 1.3892,
      "mean_token_accuracy": 0.6632423549890518,
      "num_tokens": 398065506.0,
      "step": 2371
    },
    {
      "entropy": 1.7138336102167766,
      "epoch": 0.260580593776606,
      "grad_norm": 0.6806965470314026,
      "learning_rate": 1.9530305441906384e-05,
      "loss": 1.5041,
      "mean_token_accuracy": 0.634550929069519,
      "num_tokens": 398251769.0,
      "step": 2372
    },
    {
      "entropy": 1.7888704140981038,
      "epoch": 0.2606904506879789,
      "grad_norm": 0.7154719829559326,
      "learning_rate": 1.952979481805576e-05,
      "loss": 1.3385,
      "mean_token_accuracy": 0.6612465778986613,
      "num_tokens": 398355980.0,
      "step": 2373
    },
    {
      "entropy": 1.6614461243152618,
      "epoch": 0.26080030759935185,
      "grad_norm": 0.6078544855117798,
      "learning_rate": 1.9529283924240976e-05,
      "loss": 1.362,
      "mean_token_accuracy": 0.660592312614123,
      "num_tokens": 398553184.0,
      "step": 2374
    },
    {
      "entropy": 1.6379695137341816,
      "epoch": 0.2609101645107248,
      "grad_norm": 0.6618489623069763,
      "learning_rate": 1.95287727604782e-05,
      "loss": 1.3702,
      "mean_token_accuracy": 0.6538491994142532,
      "num_tokens": 398771887.0,
      "step": 2375
    },
    {
      "entropy": 1.7040774722894032,
      "epoch": 0.26102002142209774,
      "grad_norm": 0.6134635806083679,
      "learning_rate": 1.9528261326783608e-05,
      "loss": 1.2476,
      "mean_token_accuracy": 0.6677992393573126,
      "num_tokens": 398964496.0,
      "step": 2376
    },
    {
      "entropy": 1.6660463015238445,
      "epoch": 0.2611298783334707,
      "grad_norm": 0.8864745497703552,
      "learning_rate": 1.9527749623173388e-05,
      "loss": 1.2948,
      "mean_token_accuracy": 0.6655771185954412,
      "num_tokens": 399113614.0,
      "step": 2377
    },
    {
      "entropy": 1.721436192591985,
      "epoch": 0.2612397352448436,
      "grad_norm": 0.7737887501716614,
      "learning_rate": 1.9527237649663736e-05,
      "loss": 1.3916,
      "mean_token_accuracy": 0.655788873632749,
      "num_tokens": 399281508.0,
      "step": 2378
    },
    {
      "entropy": 1.6972166001796722,
      "epoch": 0.2613495921562165,
      "grad_norm": 0.6834520697593689,
      "learning_rate": 1.952672540627085e-05,
      "loss": 1.2625,
      "mean_token_accuracy": 0.6793500383694967,
      "num_tokens": 399438374.0,
      "step": 2379
    },
    {
      "entropy": 1.718246688445409,
      "epoch": 0.26145944906758944,
      "grad_norm": 0.5676518082618713,
      "learning_rate": 1.9526212893010955e-05,
      "loss": 1.4461,
      "mean_token_accuracy": 0.6427881369988123,
      "num_tokens": 399631632.0,
      "step": 2380
    },
    {
      "entropy": 1.731793224811554,
      "epoch": 0.2615693059789624,
      "grad_norm": 0.6785540580749512,
      "learning_rate": 1.9525700109900257e-05,
      "loss": 1.6035,
      "mean_token_accuracy": 0.6242391665776571,
      "num_tokens": 399854358.0,
      "step": 2381
    },
    {
      "entropy": 1.729330152273178,
      "epoch": 0.2616791628903353,
      "grad_norm": 0.675688624382019,
      "learning_rate": 1.9525187056955e-05,
      "loss": 1.428,
      "mean_token_accuracy": 0.6407847801844279,
      "num_tokens": 400026748.0,
      "step": 2382
    },
    {
      "entropy": 1.7342185775438945,
      "epoch": 0.26178901980170827,
      "grad_norm": 0.6857423782348633,
      "learning_rate": 1.9524673734191407e-05,
      "loss": 1.5219,
      "mean_token_accuracy": 0.6373167236646017,
      "num_tokens": 400228664.0,
      "step": 2383
    },
    {
      "entropy": 1.71209650238355,
      "epoch": 0.2618988767130812,
      "grad_norm": 0.8391352891921997,
      "learning_rate": 1.952416014162573e-05,
      "loss": 1.3521,
      "mean_token_accuracy": 0.6658279597759247,
      "num_tokens": 400383096.0,
      "step": 2384
    },
    {
      "entropy": 1.6978493134180705,
      "epoch": 0.26200873362445415,
      "grad_norm": 0.6963003873825073,
      "learning_rate": 1.952364627927423e-05,
      "loss": 1.3041,
      "mean_token_accuracy": 0.6771473834911982,
      "num_tokens": 400554043.0,
      "step": 2385
    },
    {
      "entropy": 1.7559028963247936,
      "epoch": 0.2621185905358271,
      "grad_norm": 0.6737483739852905,
      "learning_rate": 1.9523132147153167e-05,
      "loss": 1.3949,
      "mean_token_accuracy": 0.6481351753075918,
      "num_tokens": 400803149.0,
      "step": 2386
    },
    {
      "entropy": 1.7359568774700165,
      "epoch": 0.26222844744720003,
      "grad_norm": 0.8350893259048462,
      "learning_rate": 1.952261774527881e-05,
      "loss": 1.5246,
      "mean_token_accuracy": 0.6469388355811437,
      "num_tokens": 400981816.0,
      "step": 2387
    },
    {
      "entropy": 1.6978191137313843,
      "epoch": 0.26233830435857297,
      "grad_norm": 0.5784783959388733,
      "learning_rate": 1.9522103073667444e-05,
      "loss": 1.3718,
      "mean_token_accuracy": 0.6644446154435476,
      "num_tokens": 401135137.0,
      "step": 2388
    },
    {
      "entropy": 1.7019244929154713,
      "epoch": 0.2624481612699459,
      "grad_norm": 0.6432830095291138,
      "learning_rate": 1.9521588132335352e-05,
      "loss": 1.303,
      "mean_token_accuracy": 0.6735948820908865,
      "num_tokens": 401289759.0,
      "step": 2389
    },
    {
      "entropy": 1.7148842712243397,
      "epoch": 0.26255801818131885,
      "grad_norm": 0.7368968725204468,
      "learning_rate": 1.952107292129884e-05,
      "loss": 1.4875,
      "mean_token_accuracy": 0.6443512886762619,
      "num_tokens": 401476228.0,
      "step": 2390
    },
    {
      "entropy": 1.6623288591702778,
      "epoch": 0.2626678750926918,
      "grad_norm": 0.6117868423461914,
      "learning_rate": 1.952055744057421e-05,
      "loss": 1.316,
      "mean_token_accuracy": 0.6717942307392756,
      "num_tokens": 401697757.0,
      "step": 2391
    },
    {
      "entropy": 1.7370295623938243,
      "epoch": 0.2627777320040647,
      "grad_norm": 0.5878593921661377,
      "learning_rate": 1.9520041690177775e-05,
      "loss": 1.3522,
      "mean_token_accuracy": 0.6460974911848704,
      "num_tokens": 401882412.0,
      "step": 2392
    },
    {
      "entropy": 1.7986371119817097,
      "epoch": 0.2628875889154376,
      "grad_norm": 0.6486433744430542,
      "learning_rate": 1.9519525670125857e-05,
      "loss": 1.3154,
      "mean_token_accuracy": 0.6704276005427042,
      "num_tokens": 402013794.0,
      "step": 2393
    },
    {
      "entropy": 1.6841194530328114,
      "epoch": 0.26299744582681056,
      "grad_norm": 0.5892508625984192,
      "learning_rate": 1.951900938043479e-05,
      "loss": 1.4242,
      "mean_token_accuracy": 0.6558033525943756,
      "num_tokens": 402207088.0,
      "step": 2394
    },
    {
      "entropy": 1.7395052810509999,
      "epoch": 0.2631073027381835,
      "grad_norm": 0.7096725106239319,
      "learning_rate": 1.951849282112092e-05,
      "loss": 1.4639,
      "mean_token_accuracy": 0.6478641132513682,
      "num_tokens": 402393514.0,
      "step": 2395
    },
    {
      "entropy": 1.7166326642036438,
      "epoch": 0.26321715964955644,
      "grad_norm": 0.6767532229423523,
      "learning_rate": 1.9517975992200588e-05,
      "loss": 1.4591,
      "mean_token_accuracy": 0.6498099068800608,
      "num_tokens": 402598639.0,
      "step": 2396
    },
    {
      "entropy": 1.679230511188507,
      "epoch": 0.2633270165609294,
      "grad_norm": 0.6896412372589111,
      "learning_rate": 1.9517458893690154e-05,
      "loss": 1.4353,
      "mean_token_accuracy": 0.6464412113030752,
      "num_tokens": 402787828.0,
      "step": 2397
    },
    {
      "entropy": 1.7297282814979553,
      "epoch": 0.2634368734723023,
      "grad_norm": 0.8391108512878418,
      "learning_rate": 1.9516941525605985e-05,
      "loss": 1.5188,
      "mean_token_accuracy": 0.6511440972487131,
      "num_tokens": 402958227.0,
      "step": 2398
    },
    {
      "entropy": 1.7749987840652466,
      "epoch": 0.26354673038367527,
      "grad_norm": 0.7650160193443298,
      "learning_rate": 1.9516423887964454e-05,
      "loss": 1.3217,
      "mean_token_accuracy": 0.6643730302651724,
      "num_tokens": 403099927.0,
      "step": 2399
    },
    {
      "entropy": 1.6371342937151592,
      "epoch": 0.2636565872950482,
      "grad_norm": 0.6480301022529602,
      "learning_rate": 1.9515905980781944e-05,
      "loss": 1.3876,
      "mean_token_accuracy": 0.6590510805447897,
      "num_tokens": 403265885.0,
      "step": 2400
    },
    {
      "entropy": 1.686698744694392,
      "epoch": 0.26376644420642115,
      "grad_norm": 0.6983146667480469,
      "learning_rate": 1.9515387804074845e-05,
      "loss": 1.4885,
      "mean_token_accuracy": 0.6543626685937246,
      "num_tokens": 403427044.0,
      "step": 2401
    },
    {
      "entropy": 1.7273488442103069,
      "epoch": 0.2638763011177941,
      "grad_norm": 0.7281332015991211,
      "learning_rate": 1.9514869357859565e-05,
      "loss": 1.4179,
      "mean_token_accuracy": 0.651305079460144,
      "num_tokens": 403589146.0,
      "step": 2402
    },
    {
      "entropy": 1.6473909517129262,
      "epoch": 0.26398615802916703,
      "grad_norm": 0.6067411303520203,
      "learning_rate": 1.95143506421525e-05,
      "loss": 1.4189,
      "mean_token_accuracy": 0.6576470931371053,
      "num_tokens": 403788427.0,
      "step": 2403
    },
    {
      "entropy": 1.6839656432469685,
      "epoch": 0.26409601494053997,
      "grad_norm": 0.7861200571060181,
      "learning_rate": 1.9513831656970078e-05,
      "loss": 1.2481,
      "mean_token_accuracy": 0.6709416210651398,
      "num_tokens": 403935089.0,
      "step": 2404
    },
    {
      "entropy": 1.656613161166509,
      "epoch": 0.2642058718519129,
      "grad_norm": 0.5541518926620483,
      "learning_rate": 1.951331240232872e-05,
      "loss": 1.5037,
      "mean_token_accuracy": 0.6444850116968155,
      "num_tokens": 404176482.0,
      "step": 2405
    },
    {
      "entropy": 1.6887876590092976,
      "epoch": 0.2643157287632858,
      "grad_norm": 0.6820752620697021,
      "learning_rate": 1.9512792878244863e-05,
      "loss": 1.3964,
      "mean_token_accuracy": 0.6626077542702357,
      "num_tokens": 404329820.0,
      "step": 2406
    },
    {
      "entropy": 1.681986967722575,
      "epoch": 0.26442558567465874,
      "grad_norm": 0.6239963173866272,
      "learning_rate": 1.9512273084734942e-05,
      "loss": 1.3412,
      "mean_token_accuracy": 0.6608551541964213,
      "num_tokens": 404576812.0,
      "step": 2407
    },
    {
      "entropy": 1.695441444714864,
      "epoch": 0.2645354425860317,
      "grad_norm": 0.8196799755096436,
      "learning_rate": 1.9511753021815418e-05,
      "loss": 1.53,
      "mean_token_accuracy": 0.6412807106971741,
      "num_tokens": 404766940.0,
      "step": 2408
    },
    {
      "entropy": 1.6683510939280193,
      "epoch": 0.2646452994974046,
      "grad_norm": 0.6213725805282593,
      "learning_rate": 1.9511232689502744e-05,
      "loss": 1.403,
      "mean_token_accuracy": 0.6513712704181671,
      "num_tokens": 404960575.0,
      "step": 2409
    },
    {
      "entropy": 1.6807579199473064,
      "epoch": 0.26475515640877756,
      "grad_norm": 0.6994633078575134,
      "learning_rate": 1.9510712087813392e-05,
      "loss": 1.4742,
      "mean_token_accuracy": 0.6587166041135788,
      "num_tokens": 405117547.0,
      "step": 2410
    },
    {
      "entropy": 1.7289150754610698,
      "epoch": 0.2648650133201505,
      "grad_norm": 0.7993577122688293,
      "learning_rate": 1.9510191216763836e-05,
      "loss": 1.4124,
      "mean_token_accuracy": 0.6584879656632742,
      "num_tokens": 405246798.0,
      "step": 2411
    },
    {
      "entropy": 1.664443125327428,
      "epoch": 0.26497487023152344,
      "grad_norm": 0.6626906991004944,
      "learning_rate": 1.9509670076370563e-05,
      "loss": 1.3149,
      "mean_token_accuracy": 0.6721779108047485,
      "num_tokens": 405377290.0,
      "step": 2412
    },
    {
      "entropy": 1.7044403950373332,
      "epoch": 0.2650847271428964,
      "grad_norm": 0.7034863829612732,
      "learning_rate": 1.9509148666650065e-05,
      "loss": 1.3123,
      "mean_token_accuracy": 0.6630191802978516,
      "num_tokens": 405550836.0,
      "step": 2413
    },
    {
      "entropy": 1.7661688923835754,
      "epoch": 0.2651945840542693,
      "grad_norm": 0.7401782274246216,
      "learning_rate": 1.9508626987618847e-05,
      "loss": 1.3626,
      "mean_token_accuracy": 0.6758743226528168,
      "num_tokens": 405714724.0,
      "step": 2414
    },
    {
      "entropy": 1.65723983446757,
      "epoch": 0.26530444096564226,
      "grad_norm": 0.7574884295463562,
      "learning_rate": 1.9508105039293422e-05,
      "loss": 1.385,
      "mean_token_accuracy": 0.6691581656535467,
      "num_tokens": 405882381.0,
      "step": 2415
    },
    {
      "entropy": 1.7135234475135803,
      "epoch": 0.2654142978770152,
      "grad_norm": 0.670354425907135,
      "learning_rate": 1.9507582821690308e-05,
      "loss": 1.3597,
      "mean_token_accuracy": 0.6573469589153925,
      "num_tokens": 406058875.0,
      "step": 2416
    },
    {
      "entropy": 1.6622610290845234,
      "epoch": 0.26552415478838814,
      "grad_norm": 0.6127861142158508,
      "learning_rate": 1.9507060334826024e-05,
      "loss": 1.3034,
      "mean_token_accuracy": 0.6667560587326685,
      "num_tokens": 406201318.0,
      "step": 2417
    },
    {
      "entropy": 1.692472666501999,
      "epoch": 0.2656340116997611,
      "grad_norm": 0.6307097673416138,
      "learning_rate": 1.9506537578717116e-05,
      "loss": 1.3596,
      "mean_token_accuracy": 0.6713347236315409,
      "num_tokens": 406390930.0,
      "step": 2418
    },
    {
      "entropy": 1.7068506876627605,
      "epoch": 0.26574386861113397,
      "grad_norm": 0.6524941325187683,
      "learning_rate": 1.9506014553380134e-05,
      "loss": 1.3678,
      "mean_token_accuracy": 0.6618810991446177,
      "num_tokens": 406554961.0,
      "step": 2419
    },
    {
      "entropy": 1.7632996737957,
      "epoch": 0.2658537255225069,
      "grad_norm": 0.5874424576759338,
      "learning_rate": 1.9505491258831615e-05,
      "loss": 1.4096,
      "mean_token_accuracy": 0.6508981684843699,
      "num_tokens": 406756062.0,
      "step": 2420
    },
    {
      "entropy": 1.6941703458627064,
      "epoch": 0.26596358243387985,
      "grad_norm": 0.7010703086853027,
      "learning_rate": 1.9504967695088135e-05,
      "loss": 1.2203,
      "mean_token_accuracy": 0.6803840696811676,
      "num_tokens": 406885417.0,
      "step": 2421
    },
    {
      "entropy": 1.6123863955338795,
      "epoch": 0.2660734393452528,
      "grad_norm": 0.7297987341880798,
      "learning_rate": 1.9504443862166258e-05,
      "loss": 1.3876,
      "mean_token_accuracy": 0.664091577132543,
      "num_tokens": 407036264.0,
      "step": 2422
    },
    {
      "entropy": 1.6742206513881683,
      "epoch": 0.26618329625662573,
      "grad_norm": 0.6762830018997192,
      "learning_rate": 1.9503919760082566e-05,
      "loss": 1.4989,
      "mean_token_accuracy": 0.6637553547819456,
      "num_tokens": 407194733.0,
      "step": 2423
    },
    {
      "entropy": 1.6779598693052928,
      "epoch": 0.2662931531679987,
      "grad_norm": 0.6086080074310303,
      "learning_rate": 1.9503395388853646e-05,
      "loss": 1.3268,
      "mean_token_accuracy": 0.6625054279963175,
      "num_tokens": 407344026.0,
      "step": 2424
    },
    {
      "entropy": 1.7654085954030354,
      "epoch": 0.2664030100793716,
      "grad_norm": 0.7018662691116333,
      "learning_rate": 1.950287074849609e-05,
      "loss": 1.5278,
      "mean_token_accuracy": 0.6402523169914881,
      "num_tokens": 407520433.0,
      "step": 2425
    },
    {
      "entropy": 1.6793859700361888,
      "epoch": 0.26651286699074456,
      "grad_norm": 0.7431981563568115,
      "learning_rate": 1.9502345839026508e-05,
      "loss": 1.4142,
      "mean_token_accuracy": 0.6648030032714208,
      "num_tokens": 407670492.0,
      "step": 2426
    },
    {
      "entropy": 1.7211259802182515,
      "epoch": 0.2666227239021175,
      "grad_norm": 0.7325606346130371,
      "learning_rate": 1.9501820660461515e-05,
      "loss": 1.377,
      "mean_token_accuracy": 0.6672718872626623,
      "num_tokens": 407799323.0,
      "step": 2427
    },
    {
      "entropy": 1.6678573687871296,
      "epoch": 0.26673258081349044,
      "grad_norm": 0.7462669014930725,
      "learning_rate": 1.9501295212817725e-05,
      "loss": 1.3763,
      "mean_token_accuracy": 0.6571807414293289,
      "num_tokens": 408006005.0,
      "step": 2428
    },
    {
      "entropy": 1.7572451035181682,
      "epoch": 0.2668424377248634,
      "grad_norm": 0.5830179452896118,
      "learning_rate": 1.9500769496111774e-05,
      "loss": 1.5124,
      "mean_token_accuracy": 0.640462522705396,
      "num_tokens": 408199992.0,
      "step": 2429
    },
    {
      "entropy": 1.6478756566842396,
      "epoch": 0.2669522946362363,
      "grad_norm": 0.8301806449890137,
      "learning_rate": 1.95002435103603e-05,
      "loss": 1.2939,
      "mean_token_accuracy": 0.6621855149666468,
      "num_tokens": 408334984.0,
      "step": 2430
    },
    {
      "entropy": 1.7445407410462697,
      "epoch": 0.26706215154760926,
      "grad_norm": 0.67365562915802,
      "learning_rate": 1.949971725557995e-05,
      "loss": 1.3452,
      "mean_token_accuracy": 0.6596545328696569,
      "num_tokens": 408455952.0,
      "step": 2431
    },
    {
      "entropy": 1.6797068814436595,
      "epoch": 0.2671720084589822,
      "grad_norm": 0.7494860291481018,
      "learning_rate": 1.9499190731787376e-05,
      "loss": 1.4513,
      "mean_token_accuracy": 0.6530092904965082,
      "num_tokens": 408607105.0,
      "step": 2432
    },
    {
      "entropy": 1.7337973912556965,
      "epoch": 0.2672818653703551,
      "grad_norm": 0.6328655481338501,
      "learning_rate": 1.9498663938999244e-05,
      "loss": 1.4147,
      "mean_token_accuracy": 0.6540708690881729,
      "num_tokens": 408779812.0,
      "step": 2433
    },
    {
      "entropy": 1.7009416421254475,
      "epoch": 0.26739172228172803,
      "grad_norm": 0.6963172554969788,
      "learning_rate": 1.949813687723223e-05,
      "loss": 1.2986,
      "mean_token_accuracy": 0.6816080609957377,
      "num_tokens": 408938627.0,
      "step": 2434
    },
    {
      "entropy": 1.693843275308609,
      "epoch": 0.26750157919310097,
      "grad_norm": 0.7338165640830994,
      "learning_rate": 1.9497609546503017e-05,
      "loss": 1.2886,
      "mean_token_accuracy": 0.6752390662829081,
      "num_tokens": 409084769.0,
      "step": 2435
    },
    {
      "entropy": 1.7020284434159596,
      "epoch": 0.2676114361044739,
      "grad_norm": 0.6143628358840942,
      "learning_rate": 1.9497081946828287e-05,
      "loss": 1.5255,
      "mean_token_accuracy": 0.648758257428805,
      "num_tokens": 409265453.0,
      "step": 2436
    },
    {
      "entropy": 1.727043906847636,
      "epoch": 0.26772129301584685,
      "grad_norm": 0.5915109515190125,
      "learning_rate": 1.9496554078224743e-05,
      "loss": 1.5126,
      "mean_token_accuracy": 0.6246416866779327,
      "num_tokens": 409486969.0,
      "step": 2437
    },
    {
      "entropy": 1.6795673767725627,
      "epoch": 0.2678311499272198,
      "grad_norm": 0.6236563920974731,
      "learning_rate": 1.949602594070909e-05,
      "loss": 1.4403,
      "mean_token_accuracy": 0.6531639695167542,
      "num_tokens": 409666706.0,
      "step": 2438
    },
    {
      "entropy": 1.6891235609849293,
      "epoch": 0.26794100683859273,
      "grad_norm": 0.774161696434021,
      "learning_rate": 1.949549753429804e-05,
      "loss": 1.3583,
      "mean_token_accuracy": 0.6626383264859518,
      "num_tokens": 409838047.0,
      "step": 2439
    },
    {
      "entropy": 1.737920731306076,
      "epoch": 0.2680508637499657,
      "grad_norm": 0.9070193767547607,
      "learning_rate": 1.949496885900833e-05,
      "loss": 1.4545,
      "mean_token_accuracy": 0.6440466195344925,
      "num_tokens": 410038258.0,
      "step": 2440
    },
    {
      "entropy": 1.6907021900018055,
      "epoch": 0.2681607206613386,
      "grad_norm": 0.7839999198913574,
      "learning_rate": 1.949443991485668e-05,
      "loss": 1.2923,
      "mean_token_accuracy": 0.6767375022172928,
      "num_tokens": 410213875.0,
      "step": 2441
    },
    {
      "entropy": 1.6959629952907562,
      "epoch": 0.26827057757271155,
      "grad_norm": 0.7793353199958801,
      "learning_rate": 1.9493910701859832e-05,
      "loss": 1.2393,
      "mean_token_accuracy": 0.6860839327176412,
      "num_tokens": 410367133.0,
      "step": 2442
    },
    {
      "entropy": 1.7073424855868022,
      "epoch": 0.2683804344840845,
      "grad_norm": 0.688703179359436,
      "learning_rate": 1.949338122003454e-05,
      "loss": 1.4447,
      "mean_token_accuracy": 0.6503096967935562,
      "num_tokens": 410551050.0,
      "step": 2443
    },
    {
      "entropy": 1.7885093291600545,
      "epoch": 0.26849029139545744,
      "grad_norm": 0.6733722686767578,
      "learning_rate": 1.949285146939756e-05,
      "loss": 1.5393,
      "mean_token_accuracy": 0.6366397589445114,
      "num_tokens": 410772639.0,
      "step": 2444
    },
    {
      "entropy": 1.7265475789705913,
      "epoch": 0.2686001483068304,
      "grad_norm": 0.7780793905258179,
      "learning_rate": 1.9492321449965657e-05,
      "loss": 1.3903,
      "mean_token_accuracy": 0.6643284608920416,
      "num_tokens": 410931367.0,
      "step": 2445
    },
    {
      "entropy": 1.6977720061937969,
      "epoch": 0.26871000521820326,
      "grad_norm": 0.7139464020729065,
      "learning_rate": 1.949179116175561e-05,
      "loss": 1.3582,
      "mean_token_accuracy": 0.6607271184523901,
      "num_tokens": 411120350.0,
      "step": 2446
    },
    {
      "entropy": 1.7429304122924805,
      "epoch": 0.2688198621295762,
      "grad_norm": 0.7446684241294861,
      "learning_rate": 1.9491260604784196e-05,
      "loss": 1.5354,
      "mean_token_accuracy": 0.6431114623943964,
      "num_tokens": 411333636.0,
      "step": 2447
    },
    {
      "entropy": 1.6738013923168182,
      "epoch": 0.26892971904094914,
      "grad_norm": 0.7107298970222473,
      "learning_rate": 1.949072977906821e-05,
      "loss": 1.3707,
      "mean_token_accuracy": 0.6652788172165552,
      "num_tokens": 411496037.0,
      "step": 2448
    },
    {
      "entropy": 1.7873223821322124,
      "epoch": 0.2690395759523221,
      "grad_norm": 0.749606728553772,
      "learning_rate": 1.9490198684624456e-05,
      "loss": 1.5195,
      "mean_token_accuracy": 0.6423113072911898,
      "num_tokens": 411652722.0,
      "step": 2449
    },
    {
      "entropy": 1.7064524590969086,
      "epoch": 0.269149432863695,
      "grad_norm": 0.6809104084968567,
      "learning_rate": 1.9489667321469733e-05,
      "loss": 1.492,
      "mean_token_accuracy": 0.6354218969742457,
      "num_tokens": 411817928.0,
      "step": 2450
    },
    {
      "entropy": 1.6833800375461578,
      "epoch": 0.26925928977506797,
      "grad_norm": 0.7017293572425842,
      "learning_rate": 1.948913568962087e-05,
      "loss": 1.4219,
      "mean_token_accuracy": 0.6560679723819097,
      "num_tokens": 411959682.0,
      "step": 2451
    },
    {
      "entropy": 1.7220069666703541,
      "epoch": 0.2693691466864409,
      "grad_norm": 0.7343468070030212,
      "learning_rate": 1.9488603789094687e-05,
      "loss": 1.1667,
      "mean_token_accuracy": 0.6866755535205206,
      "num_tokens": 412080212.0,
      "step": 2452
    },
    {
      "entropy": 1.694863756497701,
      "epoch": 0.26947900359781385,
      "grad_norm": 0.5863001942634583,
      "learning_rate": 1.9488071619908016e-05,
      "loss": 1.3702,
      "mean_token_accuracy": 0.6538634697596232,
      "num_tokens": 412248760.0,
      "step": 2453
    },
    {
      "entropy": 1.7061160604159038,
      "epoch": 0.2695888605091868,
      "grad_norm": 0.6747974753379822,
      "learning_rate": 1.9487539182077707e-05,
      "loss": 1.4749,
      "mean_token_accuracy": 0.6355902552604675,
      "num_tokens": 412431548.0,
      "step": 2454
    },
    {
      "entropy": 1.7680587371190388,
      "epoch": 0.26969871742055973,
      "grad_norm": 0.6596987843513489,
      "learning_rate": 1.9487006475620606e-05,
      "loss": 1.4807,
      "mean_token_accuracy": 0.6433413873116175,
      "num_tokens": 412608344.0,
      "step": 2455
    },
    {
      "entropy": 1.6938173572222393,
      "epoch": 0.26980857433193267,
      "grad_norm": 0.6757233738899231,
      "learning_rate": 1.9486473500553575e-05,
      "loss": 1.4271,
      "mean_token_accuracy": 0.6577209134896597,
      "num_tokens": 412769029.0,
      "step": 2456
    },
    {
      "entropy": 1.666108379761378,
      "epoch": 0.2699184312433056,
      "grad_norm": 0.8024738430976868,
      "learning_rate": 1.9485940256893477e-05,
      "loss": 1.4351,
      "mean_token_accuracy": 0.6482095420360565,
      "num_tokens": 412906545.0,
      "step": 2457
    },
    {
      "entropy": 1.7094764014085133,
      "epoch": 0.27002828815467855,
      "grad_norm": 0.6070849299430847,
      "learning_rate": 1.94854067446572e-05,
      "loss": 1.3914,
      "mean_token_accuracy": 0.658433347940445,
      "num_tokens": 413051352.0,
      "step": 2458
    },
    {
      "entropy": 1.740122099717458,
      "epoch": 0.2701381450660515,
      "grad_norm": 0.7562992572784424,
      "learning_rate": 1.948487296386162e-05,
      "loss": 1.4434,
      "mean_token_accuracy": 0.664603571097056,
      "num_tokens": 413255124.0,
      "step": 2459
    },
    {
      "entropy": 1.7619945506254833,
      "epoch": 0.2702480019774244,
      "grad_norm": 0.6791596412658691,
      "learning_rate": 1.9484338914523634e-05,
      "loss": 1.4725,
      "mean_token_accuracy": 0.6506190747022629,
      "num_tokens": 413466529.0,
      "step": 2460
    },
    {
      "entropy": 1.6560695469379425,
      "epoch": 0.2703578588887973,
      "grad_norm": 0.6612438559532166,
      "learning_rate": 1.9483804596660144e-05,
      "loss": 1.2345,
      "mean_token_accuracy": 0.6793079773585001,
      "num_tokens": 413646644.0,
      "step": 2461
    },
    {
      "entropy": 1.7678084075450897,
      "epoch": 0.27046771580017026,
      "grad_norm": 0.7152573466300964,
      "learning_rate": 1.9483270010288064e-05,
      "loss": 1.5106,
      "mean_token_accuracy": 0.6360708425442377,
      "num_tokens": 413830566.0,
      "step": 2462
    },
    {
      "entropy": 1.715853621562322,
      "epoch": 0.2705775727115432,
      "grad_norm": 0.700097382068634,
      "learning_rate": 1.948273515542431e-05,
      "loss": 1.4053,
      "mean_token_accuracy": 0.6485730955998102,
      "num_tokens": 413993907.0,
      "step": 2463
    },
    {
      "entropy": 1.741620510816574,
      "epoch": 0.27068742962291614,
      "grad_norm": 0.6623098850250244,
      "learning_rate": 1.948220003208581e-05,
      "loss": 1.5757,
      "mean_token_accuracy": 0.6438944588104883,
      "num_tokens": 414233249.0,
      "step": 2464
    },
    {
      "entropy": 1.755933254957199,
      "epoch": 0.2707972865342891,
      "grad_norm": 0.7296027541160583,
      "learning_rate": 1.9481664640289503e-05,
      "loss": 1.6268,
      "mean_token_accuracy": 0.628890261054039,
      "num_tokens": 414414584.0,
      "step": 2465
    },
    {
      "entropy": 1.784269521633784,
      "epoch": 0.270907143445662,
      "grad_norm": 0.6351885795593262,
      "learning_rate": 1.9481128980052328e-05,
      "loss": 1.4174,
      "mean_token_accuracy": 0.6424904266993204,
      "num_tokens": 414551766.0,
      "step": 2466
    },
    {
      "entropy": 1.6945275962352753,
      "epoch": 0.27101700035703497,
      "grad_norm": 0.7583399415016174,
      "learning_rate": 1.948059305139125e-05,
      "loss": 1.2475,
      "mean_token_accuracy": 0.6736636360486349,
      "num_tokens": 414688590.0,
      "step": 2467
    },
    {
      "entropy": 1.7745845814545949,
      "epoch": 0.2711268572684079,
      "grad_norm": 0.7532066106796265,
      "learning_rate": 1.9480056854323214e-05,
      "loss": 1.3369,
      "mean_token_accuracy": 0.6628710478544235,
      "num_tokens": 414788942.0,
      "step": 2468
    },
    {
      "entropy": 1.6538518170515697,
      "epoch": 0.27123671417978085,
      "grad_norm": 0.5937896370887756,
      "learning_rate": 1.9479520388865206e-05,
      "loss": 1.4212,
      "mean_token_accuracy": 0.6629629383484522,
      "num_tokens": 414982964.0,
      "step": 2469
    },
    {
      "entropy": 1.7156404356161754,
      "epoch": 0.2713465710911538,
      "grad_norm": 0.7552958726882935,
      "learning_rate": 1.9478983655034195e-05,
      "loss": 1.4249,
      "mean_token_accuracy": 0.6556862344344457,
      "num_tokens": 415179129.0,
      "step": 2470
    },
    {
      "entropy": 1.677052636941274,
      "epoch": 0.27145642800252673,
      "grad_norm": 0.6952337622642517,
      "learning_rate": 1.9478446652847177e-05,
      "loss": 1.404,
      "mean_token_accuracy": 0.6581928680340449,
      "num_tokens": 415343003.0,
      "step": 2471
    },
    {
      "entropy": 1.7252871096134186,
      "epoch": 0.27156628491389967,
      "grad_norm": 0.6775010824203491,
      "learning_rate": 1.9477909382321138e-05,
      "loss": 1.2959,
      "mean_token_accuracy": 0.6630641867717108,
      "num_tokens": 415454975.0,
      "step": 2472
    },
    {
      "entropy": 1.7001695533593495,
      "epoch": 0.2716761418252726,
      "grad_norm": 0.6910304427146912,
      "learning_rate": 1.947737184347309e-05,
      "loss": 1.4267,
      "mean_token_accuracy": 0.6569666018088659,
      "num_tokens": 415659032.0,
      "step": 2473
    },
    {
      "entropy": 1.6541123191515605,
      "epoch": 0.2717859987366455,
      "grad_norm": 0.6405661106109619,
      "learning_rate": 1.9476834036320044e-05,
      "loss": 1.3477,
      "mean_token_accuracy": 0.6658432185649872,
      "num_tokens": 415812784.0,
      "step": 2474
    },
    {
      "entropy": 1.6903918882211049,
      "epoch": 0.27189585564801844,
      "grad_norm": 0.6007583141326904,
      "learning_rate": 1.9476295960879015e-05,
      "loss": 1.4172,
      "mean_token_accuracy": 0.6355639646450678,
      "num_tokens": 416109941.0,
      "step": 2475
    },
    {
      "entropy": 1.7218912939230602,
      "epoch": 0.2720057125593914,
      "grad_norm": 0.693682074546814,
      "learning_rate": 1.947575761716704e-05,
      "loss": 1.3423,
      "mean_token_accuracy": 0.6594141821066538,
      "num_tokens": 416216952.0,
      "step": 2476
    },
    {
      "entropy": 1.699045052131017,
      "epoch": 0.2721155694707643,
      "grad_norm": 0.884042501449585,
      "learning_rate": 1.947521900520116e-05,
      "loss": 1.4059,
      "mean_token_accuracy": 0.6671479294697443,
      "num_tokens": 416341238.0,
      "step": 2477
    },
    {
      "entropy": 1.7600041528542836,
      "epoch": 0.27222542638213726,
      "grad_norm": 0.7523099184036255,
      "learning_rate": 1.9474680124998414e-05,
      "loss": 1.4538,
      "mean_token_accuracy": 0.645432690779368,
      "num_tokens": 416550006.0,
      "step": 2478
    },
    {
      "entropy": 1.7305284440517426,
      "epoch": 0.2723352832935102,
      "grad_norm": 0.8291406631469727,
      "learning_rate": 1.9474140976575862e-05,
      "loss": 1.4125,
      "mean_token_accuracy": 0.6581102510293325,
      "num_tokens": 416699068.0,
      "step": 2479
    },
    {
      "entropy": 1.7285153965155284,
      "epoch": 0.27244514020488314,
      "grad_norm": 0.6339166164398193,
      "learning_rate": 1.9473601559950566e-05,
      "loss": 1.3232,
      "mean_token_accuracy": 0.6745259314775467,
      "num_tokens": 416836056.0,
      "step": 2480
    },
    {
      "entropy": 1.6818051934242249,
      "epoch": 0.2725549971162561,
      "grad_norm": 0.6953151226043701,
      "learning_rate": 1.9473061875139603e-05,
      "loss": 1.3799,
      "mean_token_accuracy": 0.6700175007184347,
      "num_tokens": 417010817.0,
      "step": 2481
    },
    {
      "entropy": 1.744279553492864,
      "epoch": 0.272664854027629,
      "grad_norm": 0.6217046976089478,
      "learning_rate": 1.9472521922160044e-05,
      "loss": 1.395,
      "mean_token_accuracy": 0.6566085666418076,
      "num_tokens": 417189250.0,
      "step": 2482
    },
    {
      "entropy": 1.7224168479442596,
      "epoch": 0.27277471093900196,
      "grad_norm": 0.6365125775337219,
      "learning_rate": 1.9471981701028988e-05,
      "loss": 1.4695,
      "mean_token_accuracy": 0.6413618673880895,
      "num_tokens": 417406226.0,
      "step": 2483
    },
    {
      "entropy": 1.7924610773722331,
      "epoch": 0.2728845678503749,
      "grad_norm": 0.9400225281715393,
      "learning_rate": 1.9471441211763526e-05,
      "loss": 1.4758,
      "mean_token_accuracy": 0.6626063287258148,
      "num_tokens": 417552783.0,
      "step": 2484
    },
    {
      "entropy": 1.718948523203532,
      "epoch": 0.27299442476174784,
      "grad_norm": 0.7052686214447021,
      "learning_rate": 1.947090045438077e-05,
      "loss": 1.418,
      "mean_token_accuracy": 0.6460021386543909,
      "num_tokens": 417764247.0,
      "step": 2485
    },
    {
      "entropy": 1.7755232155323029,
      "epoch": 0.2731042816731208,
      "grad_norm": 0.8216487169265747,
      "learning_rate": 1.9470359428897827e-05,
      "loss": 1.4258,
      "mean_token_accuracy": 0.6543919444084167,
      "num_tokens": 417922392.0,
      "step": 2486
    },
    {
      "entropy": 1.6645058989524841,
      "epoch": 0.27321413858449367,
      "grad_norm": 0.5918928980827332,
      "learning_rate": 1.946981813533183e-05,
      "loss": 1.449,
      "mean_token_accuracy": 0.6550898949305216,
      "num_tokens": 418126736.0,
      "step": 2487
    },
    {
      "entropy": 1.7120232780774434,
      "epoch": 0.2733239954958666,
      "grad_norm": 0.6520063877105713,
      "learning_rate": 1.9469276573699902e-05,
      "loss": 1.5254,
      "mean_token_accuracy": 0.6442107409238815,
      "num_tokens": 418302170.0,
      "step": 2488
    },
    {
      "entropy": 1.690334975719452,
      "epoch": 0.27343385240723955,
      "grad_norm": 0.6218593120574951,
      "learning_rate": 1.9468734744019187e-05,
      "loss": 1.5628,
      "mean_token_accuracy": 0.6418820967276891,
      "num_tokens": 418522765.0,
      "step": 2489
    },
    {
      "entropy": 1.771299680074056,
      "epoch": 0.2735437093186125,
      "grad_norm": 0.6886900663375854,
      "learning_rate": 1.9468192646306836e-05,
      "loss": 1.4371,
      "mean_token_accuracy": 0.6507747322320938,
      "num_tokens": 418675411.0,
      "step": 2490
    },
    {
      "entropy": 1.7038741906483967,
      "epoch": 0.27365356622998543,
      "grad_norm": 0.7144287824630737,
      "learning_rate": 1.9467650280580002e-05,
      "loss": 1.5871,
      "mean_token_accuracy": 0.6539332419633865,
      "num_tokens": 418883702.0,
      "step": 2491
    },
    {
      "entropy": 1.6580975651741028,
      "epoch": 0.2737634231413584,
      "grad_norm": 0.6173264384269714,
      "learning_rate": 1.946710764685585e-05,
      "loss": 1.4252,
      "mean_token_accuracy": 0.6434942533572515,
      "num_tokens": 419136995.0,
      "step": 2492
    },
    {
      "entropy": 1.6869386335213978,
      "epoch": 0.2738732800527313,
      "grad_norm": 8.725295066833496,
      "learning_rate": 1.946656474515156e-05,
      "loss": 1.3962,
      "mean_token_accuracy": 0.6559255520502726,
      "num_tokens": 419314327.0,
      "step": 2493
    },
    {
      "entropy": 1.664640615383784,
      "epoch": 0.27398313696410426,
      "grad_norm": 0.7240090370178223,
      "learning_rate": 1.946602157548431e-05,
      "loss": 1.2949,
      "mean_token_accuracy": 0.6713322947422663,
      "num_tokens": 419461578.0,
      "step": 2494
    },
    {
      "entropy": 1.6624565223852794,
      "epoch": 0.2740929938754772,
      "grad_norm": 1.0136929750442505,
      "learning_rate": 1.946547813787129e-05,
      "loss": 1.3312,
      "mean_token_accuracy": 0.6643867244323095,
      "num_tokens": 419636649.0,
      "step": 2495
    },
    {
      "entropy": 1.6829350888729095,
      "epoch": 0.27420285078685014,
      "grad_norm": 0.6138503551483154,
      "learning_rate": 1.9464934432329706e-05,
      "loss": 1.4834,
      "mean_token_accuracy": 0.6375181674957275,
      "num_tokens": 419815875.0,
      "step": 2496
    },
    {
      "entropy": 1.7264296412467957,
      "epoch": 0.2743127076982231,
      "grad_norm": 0.6041257977485657,
      "learning_rate": 1.9464390458876757e-05,
      "loss": 1.3408,
      "mean_token_accuracy": 0.6562155981858572,
      "num_tokens": 419975058.0,
      "step": 2497
    },
    {
      "entropy": 1.7106037835280101,
      "epoch": 0.274422564609596,
      "grad_norm": 0.7350174784660339,
      "learning_rate": 1.9463846217529666e-05,
      "loss": 1.4776,
      "mean_token_accuracy": 0.6583420137564341,
      "num_tokens": 420145254.0,
      "step": 2498
    },
    {
      "entropy": 1.7087813913822174,
      "epoch": 0.27453242152096896,
      "grad_norm": 0.652927577495575,
      "learning_rate": 1.9463301708305654e-05,
      "loss": 1.3691,
      "mean_token_accuracy": 0.6640399495760599,
      "num_tokens": 420326840.0,
      "step": 2499
    },
    {
      "entropy": 1.702909102042516,
      "epoch": 0.2746422784323419,
      "grad_norm": 0.6692368984222412,
      "learning_rate": 1.946275693122196e-05,
      "loss": 1.3357,
      "mean_token_accuracy": 0.6595581869284312,
      "num_tokens": 420463074.0,
      "step": 2500
    },
    {
      "entropy": 1.7041659752527873,
      "epoch": 0.2747521353437148,
      "grad_norm": 0.8389718532562256,
      "learning_rate": 1.9462211886295823e-05,
      "loss": 1.4709,
      "mean_token_accuracy": 0.6703790177901586,
      "num_tokens": 420626300.0,
      "step": 2501
    },
    {
      "entropy": 1.750393122434616,
      "epoch": 0.27486199225508773,
      "grad_norm": 0.6642520427703857,
      "learning_rate": 1.9461666573544488e-05,
      "loss": 1.3781,
      "mean_token_accuracy": 0.6633904526631037,
      "num_tokens": 420765456.0,
      "step": 2502
    },
    {
      "entropy": 1.7149128119150798,
      "epoch": 0.27497184916646067,
      "grad_norm": 0.6768452525138855,
      "learning_rate": 1.9461120992985222e-05,
      "loss": 1.4081,
      "mean_token_accuracy": 0.6513208548227946,
      "num_tokens": 420919832.0,
      "step": 2503
    },
    {
      "entropy": 1.7376088599363964,
      "epoch": 0.2750817060778336,
      "grad_norm": 0.6658154129981995,
      "learning_rate": 1.946057514463529e-05,
      "loss": 1.3253,
      "mean_token_accuracy": 0.6688035577535629,
      "num_tokens": 421060527.0,
      "step": 2504
    },
    {
      "entropy": 1.7594562570254009,
      "epoch": 0.27519156298920655,
      "grad_norm": 0.7218078374862671,
      "learning_rate": 1.9460029028511965e-05,
      "loss": 1.3467,
      "mean_token_accuracy": 0.6551917244990667,
      "num_tokens": 421228365.0,
      "step": 2505
    },
    {
      "entropy": 1.7568883796532948,
      "epoch": 0.2753014199005795,
      "grad_norm": 0.9153607487678528,
      "learning_rate": 1.9459482644632537e-05,
      "loss": 1.4104,
      "mean_token_accuracy": 0.6578507423400879,
      "num_tokens": 421371677.0,
      "step": 2506
    },
    {
      "entropy": 1.6713534692923229,
      "epoch": 0.27541127681195243,
      "grad_norm": 0.782477617263794,
      "learning_rate": 1.9458935993014292e-05,
      "loss": 1.219,
      "mean_token_accuracy": 0.680430273214976,
      "num_tokens": 421521194.0,
      "step": 2507
    },
    {
      "entropy": 1.7415608565012615,
      "epoch": 0.2755211337233254,
      "grad_norm": 0.8416798710823059,
      "learning_rate": 1.9458389073674536e-05,
      "loss": 1.3152,
      "mean_token_accuracy": 0.6562491556008657,
      "num_tokens": 421672704.0,
      "step": 2508
    },
    {
      "entropy": 1.6363226175308228,
      "epoch": 0.2756309906346983,
      "grad_norm": 0.730694055557251,
      "learning_rate": 1.9457841886630576e-05,
      "loss": 1.3778,
      "mean_token_accuracy": 0.6615554342667261,
      "num_tokens": 421828497.0,
      "step": 2509
    },
    {
      "entropy": 1.6957507530848186,
      "epoch": 0.27574084754607125,
      "grad_norm": 0.6770949363708496,
      "learning_rate": 1.9457294431899733e-05,
      "loss": 1.3599,
      "mean_token_accuracy": 0.6570597738027573,
      "num_tokens": 421983856.0,
      "step": 2510
    },
    {
      "entropy": 1.6833610932032268,
      "epoch": 0.2758507044574442,
      "grad_norm": 0.7206348776817322,
      "learning_rate": 1.9456746709499332e-05,
      "loss": 1.2937,
      "mean_token_accuracy": 0.6710290809472402,
      "num_tokens": 422128478.0,
      "step": 2511
    },
    {
      "entropy": 1.6595212817192078,
      "epoch": 0.27596056136881714,
      "grad_norm": 0.6251102685928345,
      "learning_rate": 1.945619871944671e-05,
      "loss": 1.3831,
      "mean_token_accuracy": 0.6632163723309835,
      "num_tokens": 422334158.0,
      "step": 2512
    },
    {
      "entropy": 1.7431277732054393,
      "epoch": 0.2760704182801901,
      "grad_norm": 0.7098563313484192,
      "learning_rate": 1.9455650461759202e-05,
      "loss": 1.3254,
      "mean_token_accuracy": 0.6785684078931808,
      "num_tokens": 422495092.0,
      "step": 2513
    },
    {
      "entropy": 1.7170985639095306,
      "epoch": 0.27618027519156296,
      "grad_norm": 0.6277499198913574,
      "learning_rate": 1.9455101936454174e-05,
      "loss": 1.2778,
      "mean_token_accuracy": 0.6751286735137304,
      "num_tokens": 422625201.0,
      "step": 2514
    },
    {
      "entropy": 1.7012461324532826,
      "epoch": 0.2762901321029359,
      "grad_norm": 0.608238697052002,
      "learning_rate": 1.9454553143548977e-05,
      "loss": 1.3602,
      "mean_token_accuracy": 0.6591375966866811,
      "num_tokens": 422785134.0,
      "step": 2515
    },
    {
      "entropy": 1.729185124238332,
      "epoch": 0.27639998901430884,
      "grad_norm": 0.6700869202613831,
      "learning_rate": 1.945400408306098e-05,
      "loss": 1.4432,
      "mean_token_accuracy": 0.6543838481108347,
      "num_tokens": 422931936.0,
      "step": 2516
    },
    {
      "entropy": 1.747061401605606,
      "epoch": 0.2765098459256818,
      "grad_norm": 0.9989476203918457,
      "learning_rate": 1.945345475500757e-05,
      "loss": 1.1749,
      "mean_token_accuracy": 0.6789939254522324,
      "num_tokens": 423050412.0,
      "step": 2517
    },
    {
      "entropy": 1.7638193666934967,
      "epoch": 0.2766197028370547,
      "grad_norm": 0.7275906205177307,
      "learning_rate": 1.9452905159406124e-05,
      "loss": 1.4777,
      "mean_token_accuracy": 0.641241709391276,
      "num_tokens": 423224244.0,
      "step": 2518
    },
    {
      "entropy": 1.686012178659439,
      "epoch": 0.27672955974842767,
      "grad_norm": 0.7584397792816162,
      "learning_rate": 1.9452355296274036e-05,
      "loss": 1.363,
      "mean_token_accuracy": 0.6610731234153112,
      "num_tokens": 423354122.0,
      "step": 2519
    },
    {
      "entropy": 1.7558989524841309,
      "epoch": 0.2768394166598006,
      "grad_norm": 0.8733357787132263,
      "learning_rate": 1.9451805165628713e-05,
      "loss": 1.4204,
      "mean_token_accuracy": 0.6505479166905085,
      "num_tokens": 423498784.0,
      "step": 2520
    },
    {
      "entropy": 1.7407618463039398,
      "epoch": 0.27694927357117355,
      "grad_norm": 0.6735062599182129,
      "learning_rate": 1.9451254767487564e-05,
      "loss": 1.3931,
      "mean_token_accuracy": 0.6727576404809952,
      "num_tokens": 423624180.0,
      "step": 2521
    },
    {
      "entropy": 1.7527087032794952,
      "epoch": 0.2770591304825465,
      "grad_norm": 0.7081560492515564,
      "learning_rate": 1.9450704101868012e-05,
      "loss": 1.3928,
      "mean_token_accuracy": 0.652918224533399,
      "num_tokens": 423776308.0,
      "step": 2522
    },
    {
      "entropy": 1.7728693286577861,
      "epoch": 0.27716898739391943,
      "grad_norm": 0.706057071685791,
      "learning_rate": 1.945015316878748e-05,
      "loss": 1.4191,
      "mean_token_accuracy": 0.6447743972142538,
      "num_tokens": 423957168.0,
      "step": 2523
    },
    {
      "entropy": 1.718264530102412,
      "epoch": 0.27727884430529237,
      "grad_norm": 0.666571319103241,
      "learning_rate": 1.9449601968263413e-05,
      "loss": 1.4477,
      "mean_token_accuracy": 0.6623519708712896,
      "num_tokens": 424136873.0,
      "step": 2524
    },
    {
      "entropy": 1.753323624531428,
      "epoch": 0.2773887012166653,
      "grad_norm": 0.7180684208869934,
      "learning_rate": 1.9449050500313247e-05,
      "loss": 1.2229,
      "mean_token_accuracy": 0.680413618683815,
      "num_tokens": 424229190.0,
      "step": 2525
    },
    {
      "entropy": 1.6851735214392345,
      "epoch": 0.27749855812803825,
      "grad_norm": 0.8312351703643799,
      "learning_rate": 1.944849876495444e-05,
      "loss": 1.318,
      "mean_token_accuracy": 0.6703576147556305,
      "num_tokens": 424367123.0,
      "step": 2526
    },
    {
      "entropy": 1.6827231248219807,
      "epoch": 0.2776084150394112,
      "grad_norm": 0.6143300533294678,
      "learning_rate": 1.9447946762204454e-05,
      "loss": 1.4498,
      "mean_token_accuracy": 0.634101668993632,
      "num_tokens": 424587988.0,
      "step": 2527
    },
    {
      "entropy": 1.6629830300807953,
      "epoch": 0.2777182719507841,
      "grad_norm": 0.6683552265167236,
      "learning_rate": 1.944739449208076e-05,
      "loss": 1.4396,
      "mean_token_accuracy": 0.6639639983574549,
      "num_tokens": 424786286.0,
      "step": 2528
    },
    {
      "entropy": 1.6775904496510823,
      "epoch": 0.277828128862157,
      "grad_norm": 0.6482076048851013,
      "learning_rate": 1.944684195460084e-05,
      "loss": 1.4997,
      "mean_token_accuracy": 0.6430053263902664,
      "num_tokens": 424967840.0,
      "step": 2529
    },
    {
      "entropy": 1.7745787998040516,
      "epoch": 0.27793798577352996,
      "grad_norm": 0.6843352913856506,
      "learning_rate": 1.9446289149782175e-05,
      "loss": 1.4148,
      "mean_token_accuracy": 0.6597040891647339,
      "num_tokens": 425137083.0,
      "step": 2530
    },
    {
      "entropy": 1.6696482102076213,
      "epoch": 0.2780478426849029,
      "grad_norm": 0.6596343517303467,
      "learning_rate": 1.9445736077642266e-05,
      "loss": 1.1965,
      "mean_token_accuracy": 0.6828029155731201,
      "num_tokens": 425253600.0,
      "step": 2531
    },
    {
      "entropy": 1.7446503738562267,
      "epoch": 0.27815769959627584,
      "grad_norm": 0.6544666290283203,
      "learning_rate": 1.9445182738198614e-05,
      "loss": 1.4899,
      "mean_token_accuracy": 0.6364033321539561,
      "num_tokens": 425425203.0,
      "step": 2532
    },
    {
      "entropy": 1.674493948618571,
      "epoch": 0.2782675565076488,
      "grad_norm": 0.6259612441062927,
      "learning_rate": 1.944462913146874e-05,
      "loss": 1.2664,
      "mean_token_accuracy": 0.6673529297113419,
      "num_tokens": 425549724.0,
      "step": 2533
    },
    {
      "entropy": 1.7295575936635335,
      "epoch": 0.2783774134190217,
      "grad_norm": 0.7398607730865479,
      "learning_rate": 1.944407525747015e-05,
      "loss": 1.4909,
      "mean_token_accuracy": 0.6412216623624166,
      "num_tokens": 425749328.0,
      "step": 2534
    },
    {
      "entropy": 1.759381393591563,
      "epoch": 0.27848727033039467,
      "grad_norm": 0.7434036135673523,
      "learning_rate": 1.9443521116220386e-05,
      "loss": 1.4622,
      "mean_token_accuracy": 0.6621341158946356,
      "num_tokens": 425963889.0,
      "step": 2535
    },
    {
      "entropy": 1.7146111925443013,
      "epoch": 0.2785971272417676,
      "grad_norm": 0.6938877105712891,
      "learning_rate": 1.9442966707736987e-05,
      "loss": 1.355,
      "mean_token_accuracy": 0.657206580042839,
      "num_tokens": 426114600.0,
      "step": 2536
    },
    {
      "entropy": 1.7992856403191884,
      "epoch": 0.27870698415314055,
      "grad_norm": 0.7209751009941101,
      "learning_rate": 1.944241203203749e-05,
      "loss": 1.5263,
      "mean_token_accuracy": 0.6411692102750143,
      "num_tokens": 426320358.0,
      "step": 2537
    },
    {
      "entropy": 1.688951204220454,
      "epoch": 0.2788168410645135,
      "grad_norm": 1.081633448600769,
      "learning_rate": 1.9441857089139464e-05,
      "loss": 1.2315,
      "mean_token_accuracy": 0.6716073205073675,
      "num_tokens": 426498576.0,
      "step": 2538
    },
    {
      "entropy": 1.7655569116274517,
      "epoch": 0.27892669797588643,
      "grad_norm": 0.8024057745933533,
      "learning_rate": 1.944130187906046e-05,
      "loss": 1.389,
      "mean_token_accuracy": 0.6557512134313583,
      "num_tokens": 426645970.0,
      "step": 2539
    },
    {
      "entropy": 1.6769147912661235,
      "epoch": 0.27903655488725937,
      "grad_norm": 0.7822548151016235,
      "learning_rate": 1.944074640181806e-05,
      "loss": 1.4512,
      "mean_token_accuracy": 0.646538108587265,
      "num_tokens": 426806650.0,
      "step": 2540
    },
    {
      "entropy": 1.7401223282019298,
      "epoch": 0.27914641179863225,
      "grad_norm": 0.753135085105896,
      "learning_rate": 1.9440190657429833e-05,
      "loss": 1.392,
      "mean_token_accuracy": 0.661638930439949,
      "num_tokens": 426943210.0,
      "step": 2541
    },
    {
      "entropy": 1.792117138703664,
      "epoch": 0.2792562687100052,
      "grad_norm": 1.012791633605957,
      "learning_rate": 1.943963464591338e-05,
      "loss": 1.4671,
      "mean_token_accuracy": 0.6386220256487528,
      "num_tokens": 427126900.0,
      "step": 2542
    },
    {
      "entropy": 1.6871282557646434,
      "epoch": 0.27936612562137814,
      "grad_norm": 0.6758045554161072,
      "learning_rate": 1.943907836728629e-05,
      "loss": 1.5413,
      "mean_token_accuracy": 0.6594254424174627,
      "num_tokens": 427294304.0,
      "step": 2543
    },
    {
      "entropy": 1.7226394315560658,
      "epoch": 0.2794759825327511,
      "grad_norm": 0.6298893094062805,
      "learning_rate": 1.9438521821566178e-05,
      "loss": 1.4598,
      "mean_token_accuracy": 0.635049377878507,
      "num_tokens": 427491263.0,
      "step": 2544
    },
    {
      "entropy": 1.7836333811283112,
      "epoch": 0.279585839444124,
      "grad_norm": 0.8018297553062439,
      "learning_rate": 1.9437965008770647e-05,
      "loss": 1.6433,
      "mean_token_accuracy": 0.625967395802339,
      "num_tokens": 427671894.0,
      "step": 2545
    },
    {
      "entropy": 1.731053650379181,
      "epoch": 0.27969569635549696,
      "grad_norm": 0.6557754278182983,
      "learning_rate": 1.9437407928917327e-05,
      "loss": 1.4259,
      "mean_token_accuracy": 0.6569652110338211,
      "num_tokens": 427880951.0,
      "step": 2546
    },
    {
      "entropy": 1.7691397269566853,
      "epoch": 0.2798055532668699,
      "grad_norm": 0.717713475227356,
      "learning_rate": 1.943685058202385e-05,
      "loss": 1.5615,
      "mean_token_accuracy": 0.6480028629302979,
      "num_tokens": 428026306.0,
      "step": 2547
    },
    {
      "entropy": 1.722131739060084,
      "epoch": 0.27991541017824284,
      "grad_norm": 0.706473708152771,
      "learning_rate": 1.9436292968107854e-05,
      "loss": 1.4702,
      "mean_token_accuracy": 0.6523783256610235,
      "num_tokens": 428229212.0,
      "step": 2548
    },
    {
      "entropy": 1.7450311680634816,
      "epoch": 0.2800252670896158,
      "grad_norm": 0.6654791831970215,
      "learning_rate": 1.9435735087186985e-05,
      "loss": 1.2768,
      "mean_token_accuracy": 0.6689060380061468,
      "num_tokens": 428410903.0,
      "step": 2549
    },
    {
      "entropy": 1.7161929905414581,
      "epoch": 0.2801351240009887,
      "grad_norm": 0.722743570804596,
      "learning_rate": 1.9435176939278902e-05,
      "loss": 1.4746,
      "mean_token_accuracy": 0.6436196118593216,
      "num_tokens": 428586998.0,
      "step": 2550
    },
    {
      "entropy": 1.7112940152486165,
      "epoch": 0.28024498091236166,
      "grad_norm": 0.6534221172332764,
      "learning_rate": 1.9434618524401273e-05,
      "loss": 1.3635,
      "mean_token_accuracy": 0.654671644171079,
      "num_tokens": 428723631.0,
      "step": 2551
    },
    {
      "entropy": 1.741028368473053,
      "epoch": 0.2803548378237346,
      "grad_norm": 0.763145387172699,
      "learning_rate": 1.9434059842571766e-05,
      "loss": 1.5508,
      "mean_token_accuracy": 0.635222981373469,
      "num_tokens": 428984871.0,
      "step": 2552
    },
    {
      "entropy": 1.7181775569915771,
      "epoch": 0.28046469473510754,
      "grad_norm": 0.6733216047286987,
      "learning_rate": 1.9433500893808064e-05,
      "loss": 1.3059,
      "mean_token_accuracy": 0.6693119158347448,
      "num_tokens": 429135765.0,
      "step": 2553
    },
    {
      "entropy": 1.7046631177266438,
      "epoch": 0.2805745516464805,
      "grad_norm": 0.7447198629379272,
      "learning_rate": 1.9432941678127863e-05,
      "loss": 1.2777,
      "mean_token_accuracy": 0.6620823442935944,
      "num_tokens": 429255761.0,
      "step": 2554
    },
    {
      "entropy": 1.7015548547108967,
      "epoch": 0.28068440855785337,
      "grad_norm": 0.7502123117446899,
      "learning_rate": 1.943238219554885e-05,
      "loss": 1.3332,
      "mean_token_accuracy": 0.6637969613075256,
      "num_tokens": 429404829.0,
      "step": 2555
    },
    {
      "entropy": 1.6994233131408691,
      "epoch": 0.2807942654692263,
      "grad_norm": 0.5920188426971436,
      "learning_rate": 1.943182244608875e-05,
      "loss": 1.4957,
      "mean_token_accuracy": 0.6309523532787958,
      "num_tokens": 429608954.0,
      "step": 2556
    },
    {
      "entropy": 1.6985510190327961,
      "epoch": 0.28090412238059925,
      "grad_norm": 0.6346762180328369,
      "learning_rate": 1.943126242976526e-05,
      "loss": 1.4234,
      "mean_token_accuracy": 0.6668014178673426,
      "num_tokens": 429760077.0,
      "step": 2557
    },
    {
      "entropy": 1.716838429371516,
      "epoch": 0.2810139792919722,
      "grad_norm": 0.6307840347290039,
      "learning_rate": 1.943070214659612e-05,
      "loss": 1.3829,
      "mean_token_accuracy": 0.6482276519139608,
      "num_tokens": 429933647.0,
      "step": 2558
    },
    {
      "entropy": 1.7555852731068928,
      "epoch": 0.28112383620334513,
      "grad_norm": 0.7939680218696594,
      "learning_rate": 1.9430141596599055e-05,
      "loss": 1.5112,
      "mean_token_accuracy": 0.6550355777144432,
      "num_tokens": 430065355.0,
      "step": 2559
    },
    {
      "entropy": 1.7047178248564403,
      "epoch": 0.2812336931147181,
      "grad_norm": 0.6013801097869873,
      "learning_rate": 1.9429580779791806e-05,
      "loss": 1.4673,
      "mean_token_accuracy": 0.6566463013490041,
      "num_tokens": 430241848.0,
      "step": 2560
    },
    {
      "entropy": 1.7068589230378468,
      "epoch": 0.281343550026091,
      "grad_norm": 0.6323118209838867,
      "learning_rate": 1.9429019696192122e-05,
      "loss": 1.5224,
      "mean_token_accuracy": 0.6419420739014944,
      "num_tokens": 430428484.0,
      "step": 2561
    },
    {
      "entropy": 1.6809816559155781,
      "epoch": 0.28145340693746396,
      "grad_norm": 0.754179060459137,
      "learning_rate": 1.9428458345817762e-05,
      "loss": 1.4271,
      "mean_token_accuracy": 0.6452597826719284,
      "num_tokens": 430591922.0,
      "step": 2562
    },
    {
      "entropy": 1.652672717968623,
      "epoch": 0.2815632638488369,
      "grad_norm": 0.7418878674507141,
      "learning_rate": 1.94278967286865e-05,
      "loss": 1.1637,
      "mean_token_accuracy": 0.6897034098704656,
      "num_tokens": 430712080.0,
      "step": 2563
    },
    {
      "entropy": 1.6429332792758942,
      "epoch": 0.28167312076020984,
      "grad_norm": 0.6739898324012756,
      "learning_rate": 1.94273348448161e-05,
      "loss": 1.3419,
      "mean_token_accuracy": 0.6748927334944407,
      "num_tokens": 430883503.0,
      "step": 2564
    },
    {
      "entropy": 1.697869877020518,
      "epoch": 0.2817829776715828,
      "grad_norm": 0.6139808297157288,
      "learning_rate": 1.9426772694224346e-05,
      "loss": 1.37,
      "mean_token_accuracy": 0.656757061680158,
      "num_tokens": 431038787.0,
      "step": 2565
    },
    {
      "entropy": 1.8296188414096832,
      "epoch": 0.2818928345829557,
      "grad_norm": 0.6441859006881714,
      "learning_rate": 1.9426210276929038e-05,
      "loss": 1.6558,
      "mean_token_accuracy": 0.6172501345475515,
      "num_tokens": 431232258.0,
      "step": 2566
    },
    {
      "entropy": 1.729474276304245,
      "epoch": 0.28200269149432866,
      "grad_norm": 0.6634087562561035,
      "learning_rate": 1.942564759294797e-05,
      "loss": 1.5779,
      "mean_token_accuracy": 0.6198930492003759,
      "num_tokens": 431501611.0,
      "step": 2567
    },
    {
      "entropy": 1.693379670381546,
      "epoch": 0.28211254840570155,
      "grad_norm": 0.7475607395172119,
      "learning_rate": 1.9425084642298956e-05,
      "loss": 1.3763,
      "mean_token_accuracy": 0.668298656741778,
      "num_tokens": 431651634.0,
      "step": 2568
    },
    {
      "entropy": 1.7199491361776988,
      "epoch": 0.2822224053170745,
      "grad_norm": 0.6126656532287598,
      "learning_rate": 1.9424521424999805e-05,
      "loss": 1.3842,
      "mean_token_accuracy": 0.6540129085381826,
      "num_tokens": 431811528.0,
      "step": 2569
    },
    {
      "entropy": 1.711053987344106,
      "epoch": 0.28233226222844743,
      "grad_norm": 0.8134360909461975,
      "learning_rate": 1.942395794106835e-05,
      "loss": 1.2594,
      "mean_token_accuracy": 0.6801566729942957,
      "num_tokens": 431973926.0,
      "step": 2570
    },
    {
      "entropy": 1.715971678495407,
      "epoch": 0.28244211913982037,
      "grad_norm": 0.623103678226471,
      "learning_rate": 1.942339419052242e-05,
      "loss": 1.5081,
      "mean_token_accuracy": 0.6435102721055349,
      "num_tokens": 432176408.0,
      "step": 2571
    },
    {
      "entropy": 1.6517931123574574,
      "epoch": 0.2825519760511933,
      "grad_norm": 0.7378969192504883,
      "learning_rate": 1.942283017337986e-05,
      "loss": 1.3061,
      "mean_token_accuracy": 0.6691179027160009,
      "num_tokens": 432306283.0,
      "step": 2572
    },
    {
      "entropy": 1.671871801217397,
      "epoch": 0.28266183296256625,
      "grad_norm": 0.6152805685997009,
      "learning_rate": 1.942226588965852e-05,
      "loss": 1.2702,
      "mean_token_accuracy": 0.6683402210474014,
      "num_tokens": 432466149.0,
      "step": 2573
    },
    {
      "entropy": 1.7728142738342285,
      "epoch": 0.2827716898739392,
      "grad_norm": 0.6616373658180237,
      "learning_rate": 1.9421701339376263e-05,
      "loss": 1.407,
      "mean_token_accuracy": 0.6552805304527283,
      "num_tokens": 432602942.0,
      "step": 2574
    },
    {
      "entropy": 1.7376613914966583,
      "epoch": 0.28288154678531213,
      "grad_norm": 0.6483553647994995,
      "learning_rate": 1.942113652255095e-05,
      "loss": 1.432,
      "mean_token_accuracy": 0.6605344464381536,
      "num_tokens": 432771571.0,
      "step": 2575
    },
    {
      "entropy": 1.67216690381368,
      "epoch": 0.2829914036966851,
      "grad_norm": 0.6230313181877136,
      "learning_rate": 1.9420571439200463e-05,
      "loss": 1.4043,
      "mean_token_accuracy": 0.6436713586250941,
      "num_tokens": 432970686.0,
      "step": 2576
    },
    {
      "entropy": 1.6591029067834218,
      "epoch": 0.283101260608058,
      "grad_norm": 0.6028016209602356,
      "learning_rate": 1.942000608934268e-05,
      "loss": 1.3898,
      "mean_token_accuracy": 0.6501336942116419,
      "num_tokens": 433158122.0,
      "step": 2577
    },
    {
      "entropy": 1.756819248199463,
      "epoch": 0.28321111751943095,
      "grad_norm": 0.6819401979446411,
      "learning_rate": 1.9419440472995502e-05,
      "loss": 1.2936,
      "mean_token_accuracy": 0.6685625910758972,
      "num_tokens": 433336335.0,
      "step": 2578
    },
    {
      "entropy": 1.7187687456607819,
      "epoch": 0.2833209744308039,
      "grad_norm": 0.8300583362579346,
      "learning_rate": 1.9418874590176827e-05,
      "loss": 1.5282,
      "mean_token_accuracy": 0.6508554766575495,
      "num_tokens": 433457129.0,
      "step": 2579
    },
    {
      "entropy": 1.6912387907505035,
      "epoch": 0.28343083134217684,
      "grad_norm": 0.8252399563789368,
      "learning_rate": 1.9418308440904564e-05,
      "loss": 1.4709,
      "mean_token_accuracy": 0.6553937296072642,
      "num_tokens": 433624991.0,
      "step": 2580
    },
    {
      "entropy": 1.7515579263369243,
      "epoch": 0.2835406882535498,
      "grad_norm": 0.7480166554450989,
      "learning_rate": 1.9417742025196635e-05,
      "loss": 1.5038,
      "mean_token_accuracy": 0.6306808292865753,
      "num_tokens": 433839600.0,
      "step": 2581
    },
    {
      "entropy": 1.724341442187627,
      "epoch": 0.28365054516492266,
      "grad_norm": 0.8125796914100647,
      "learning_rate": 1.9417175343070962e-05,
      "loss": 1.3742,
      "mean_token_accuracy": 0.6564011871814728,
      "num_tokens": 433995970.0,
      "step": 2582
    },
    {
      "entropy": 1.6599280138810475,
      "epoch": 0.2837604020762956,
      "grad_norm": 0.6576691269874573,
      "learning_rate": 1.941660839454548e-05,
      "loss": 1.365,
      "mean_token_accuracy": 0.6600429564714432,
      "num_tokens": 434197426.0,
      "step": 2583
    },
    {
      "entropy": 1.659876714150111,
      "epoch": 0.28387025898766854,
      "grad_norm": 0.6102942824363708,
      "learning_rate": 1.9416041179638138e-05,
      "loss": 1.3061,
      "mean_token_accuracy": 0.67480997244517,
      "num_tokens": 434399328.0,
      "step": 2584
    },
    {
      "entropy": 1.6985367238521576,
      "epoch": 0.2839801158990415,
      "grad_norm": 0.6151925921440125,
      "learning_rate": 1.941547369836688e-05,
      "loss": 1.2711,
      "mean_token_accuracy": 0.6702224761247635,
      "num_tokens": 434537957.0,
      "step": 2585
    },
    {
      "entropy": 1.673358827829361,
      "epoch": 0.2840899728104144,
      "grad_norm": 0.6189048886299133,
      "learning_rate": 1.941490595074968e-05,
      "loss": 1.3391,
      "mean_token_accuracy": 0.6615988264481226,
      "num_tokens": 434758718.0,
      "step": 2586
    },
    {
      "entropy": 1.7454047600428264,
      "epoch": 0.28419982972178737,
      "grad_norm": 0.6552925109863281,
      "learning_rate": 1.941433793680449e-05,
      "loss": 1.4267,
      "mean_token_accuracy": 0.6499452342589697,
      "num_tokens": 434917375.0,
      "step": 2587
    },
    {
      "entropy": 1.7055931588013966,
      "epoch": 0.2843096866331603,
      "grad_norm": 0.8626599311828613,
      "learning_rate": 1.94137696565493e-05,
      "loss": 1.4959,
      "mean_token_accuracy": 0.6463074237108231,
      "num_tokens": 435103637.0,
      "step": 2588
    },
    {
      "entropy": 1.7163316309452057,
      "epoch": 0.28441954354453325,
      "grad_norm": 0.6372457146644592,
      "learning_rate": 1.9413201110002094e-05,
      "loss": 1.5373,
      "mean_token_accuracy": 0.6396234631538391,
      "num_tokens": 435295478.0,
      "step": 2589
    },
    {
      "entropy": 1.7566253244876862,
      "epoch": 0.2845294004559062,
      "grad_norm": 0.6608404517173767,
      "learning_rate": 1.941263229718086e-05,
      "loss": 1.4931,
      "mean_token_accuracy": 0.6418844411770502,
      "num_tokens": 435479005.0,
      "step": 2590
    },
    {
      "entropy": 1.6568923095862071,
      "epoch": 0.28463925736727913,
      "grad_norm": 0.7189907431602478,
      "learning_rate": 1.9412063218103607e-05,
      "loss": 1.2423,
      "mean_token_accuracy": 0.6729675034681956,
      "num_tokens": 435628265.0,
      "step": 2591
    },
    {
      "entropy": 1.6527254382769268,
      "epoch": 0.28474911427865207,
      "grad_norm": 0.6984722018241882,
      "learning_rate": 1.9411493872788342e-05,
      "loss": 1.4279,
      "mean_token_accuracy": 0.6531344701846441,
      "num_tokens": 435898622.0,
      "step": 2592
    },
    {
      "entropy": 1.7152815461158752,
      "epoch": 0.284858971190025,
      "grad_norm": 0.7125999331474304,
      "learning_rate": 1.941092426125309e-05,
      "loss": 1.5202,
      "mean_token_accuracy": 0.6567995101213455,
      "num_tokens": 436075360.0,
      "step": 2593
    },
    {
      "entropy": 1.6898160974184673,
      "epoch": 0.28496882810139795,
      "grad_norm": 0.6797850728034973,
      "learning_rate": 1.9410354383515872e-05,
      "loss": 1.3609,
      "mean_token_accuracy": 0.667990709344546,
      "num_tokens": 436269293.0,
      "step": 2594
    },
    {
      "entropy": 1.6990408897399902,
      "epoch": 0.28507868501277084,
      "grad_norm": 0.6356927752494812,
      "learning_rate": 1.9409784239594726e-05,
      "loss": 1.4249,
      "mean_token_accuracy": 0.659389058748881,
      "num_tokens": 436420010.0,
      "step": 2595
    },
    {
      "entropy": 1.7738368213176727,
      "epoch": 0.2851885419241438,
      "grad_norm": 0.5506088137626648,
      "learning_rate": 1.94092138295077e-05,
      "loss": 1.5087,
      "mean_token_accuracy": 0.621019164721171,
      "num_tokens": 436673612.0,
      "step": 2596
    },
    {
      "entropy": 1.7091120680173237,
      "epoch": 0.2852983988355167,
      "grad_norm": 0.6980639100074768,
      "learning_rate": 1.9408643153272845e-05,
      "loss": 1.3243,
      "mean_token_accuracy": 0.6670518765846888,
      "num_tokens": 436835491.0,
      "step": 2597
    },
    {
      "entropy": 1.779990682999293,
      "epoch": 0.28540825574688966,
      "grad_norm": 0.6934612393379211,
      "learning_rate": 1.9408072210908224e-05,
      "loss": 1.4711,
      "mean_token_accuracy": 0.6409854739904404,
      "num_tokens": 437001428.0,
      "step": 2598
    },
    {
      "entropy": 1.6988802353541057,
      "epoch": 0.2855181126582626,
      "grad_norm": 0.7314718961715698,
      "learning_rate": 1.9407501002431906e-05,
      "loss": 1.5671,
      "mean_token_accuracy": 0.6539310614267985,
      "num_tokens": 437139054.0,
      "step": 2599
    },
    {
      "entropy": 1.7167824109395344,
      "epoch": 0.28562796956963554,
      "grad_norm": 0.8039875030517578,
      "learning_rate": 1.940692952786197e-05,
      "loss": 1.4672,
      "mean_token_accuracy": 0.6653132339318594,
      "num_tokens": 437270459.0,
      "step": 2600
    },
    {
      "entropy": 1.6449208458264668,
      "epoch": 0.2857378264810085,
      "grad_norm": 0.7214610576629639,
      "learning_rate": 1.9406357787216504e-05,
      "loss": 1.4112,
      "mean_token_accuracy": 0.6606322924296061,
      "num_tokens": 437421392.0,
      "step": 2601
    },
    {
      "entropy": 1.680547167857488,
      "epoch": 0.2858476833923814,
      "grad_norm": 0.7055097222328186,
      "learning_rate": 1.94057857805136e-05,
      "loss": 1.3738,
      "mean_token_accuracy": 0.6694934616486231,
      "num_tokens": 437561791.0,
      "step": 2602
    },
    {
      "entropy": 1.6792938709259033,
      "epoch": 0.28595754030375437,
      "grad_norm": 0.6724585890769958,
      "learning_rate": 1.9405213507771363e-05,
      "loss": 1.4334,
      "mean_token_accuracy": 0.6348255177338918,
      "num_tokens": 437791784.0,
      "step": 2603
    },
    {
      "entropy": 1.6977178752422333,
      "epoch": 0.2860673972151273,
      "grad_norm": 0.8410064578056335,
      "learning_rate": 1.9404640969007907e-05,
      "loss": 1.6249,
      "mean_token_accuracy": 0.6277847041686376,
      "num_tokens": 437997002.0,
      "step": 2604
    },
    {
      "entropy": 1.7250556250413258,
      "epoch": 0.28617725412650025,
      "grad_norm": 0.7040321230888367,
      "learning_rate": 1.9404068164241354e-05,
      "loss": 1.3341,
      "mean_token_accuracy": 0.6668216039737066,
      "num_tokens": 438129008.0,
      "step": 2605
    },
    {
      "entropy": 1.6219845215479534,
      "epoch": 0.2862871110378732,
      "grad_norm": 0.5418662428855896,
      "learning_rate": 1.940349509348983e-05,
      "loss": 1.3108,
      "mean_token_accuracy": 0.6690922429164251,
      "num_tokens": 438323789.0,
      "step": 2606
    },
    {
      "entropy": 1.6409521003564198,
      "epoch": 0.28639696794924613,
      "grad_norm": 0.6410753130912781,
      "learning_rate": 1.9402921756771467e-05,
      "loss": 1.3104,
      "mean_token_accuracy": 0.6703230490287145,
      "num_tokens": 438483486.0,
      "step": 2607
    },
    {
      "entropy": 1.7267462313175201,
      "epoch": 0.28650682486061907,
      "grad_norm": 0.8248845338821411,
      "learning_rate": 1.940234815410442e-05,
      "loss": 1.2461,
      "mean_token_accuracy": 0.6791750093301138,
      "num_tokens": 438633786.0,
      "step": 2608
    },
    {
      "entropy": 1.7135661741097767,
      "epoch": 0.28661668177199195,
      "grad_norm": 0.6371444463729858,
      "learning_rate": 1.9401774285506844e-05,
      "loss": 1.4584,
      "mean_token_accuracy": 0.6644980758428574,
      "num_tokens": 438804168.0,
      "step": 2609
    },
    {
      "entropy": 1.73434716463089,
      "epoch": 0.2867265386833649,
      "grad_norm": 0.7363563179969788,
      "learning_rate": 1.9401200150996897e-05,
      "loss": 1.4111,
      "mean_token_accuracy": 0.6546731541554133,
      "num_tokens": 439014763.0,
      "step": 2610
    },
    {
      "entropy": 1.6565505663553874,
      "epoch": 0.28683639559473784,
      "grad_norm": 0.9262635111808777,
      "learning_rate": 1.940062575059275e-05,
      "loss": 1.4191,
      "mean_token_accuracy": 0.6618759582440058,
      "num_tokens": 439230751.0,
      "step": 2611
    },
    {
      "entropy": 1.6508768200874329,
      "epoch": 0.2869462525061108,
      "grad_norm": 0.8240963220596313,
      "learning_rate": 1.9400051084312582e-05,
      "loss": 1.2587,
      "mean_token_accuracy": 0.6758377949396769,
      "num_tokens": 439369696.0,
      "step": 2612
    },
    {
      "entropy": 1.7037352323532104,
      "epoch": 0.2870561094174837,
      "grad_norm": 0.6460655927658081,
      "learning_rate": 1.9399476152174582e-05,
      "loss": 1.3585,
      "mean_token_accuracy": 0.6592906763156255,
      "num_tokens": 439513162.0,
      "step": 2613
    },
    {
      "entropy": 1.689726283152898,
      "epoch": 0.28716596632885666,
      "grad_norm": 0.621805727481842,
      "learning_rate": 1.939890095419695e-05,
      "loss": 1.5793,
      "mean_token_accuracy": 0.6374916980663935,
      "num_tokens": 439714986.0,
      "step": 2614
    },
    {
      "entropy": 1.7064528862635295,
      "epoch": 0.2872758232402296,
      "grad_norm": 0.6384214162826538,
      "learning_rate": 1.9398325490397882e-05,
      "loss": 1.3932,
      "mean_token_accuracy": 0.6516889532407125,
      "num_tokens": 439906645.0,
      "step": 2615
    },
    {
      "entropy": 1.80901434024175,
      "epoch": 0.28738568015160254,
      "grad_norm": 0.7344052195549011,
      "learning_rate": 1.93977497607956e-05,
      "loss": 1.3694,
      "mean_token_accuracy": 0.6523802032073339,
      "num_tokens": 440005633.0,
      "step": 2616
    },
    {
      "entropy": 1.7248846590518951,
      "epoch": 0.2874955370629755,
      "grad_norm": 0.7670570611953735,
      "learning_rate": 1.939717376540832e-05,
      "loss": 1.5491,
      "mean_token_accuracy": 0.6424847940603892,
      "num_tokens": 440210280.0,
      "step": 2617
    },
    {
      "entropy": 1.7063851058483124,
      "epoch": 0.2876053939743484,
      "grad_norm": 0.8078677654266357,
      "learning_rate": 1.939659750425428e-05,
      "loss": 1.4602,
      "mean_token_accuracy": 0.6642357558012009,
      "num_tokens": 440382539.0,
      "step": 2618
    },
    {
      "entropy": 1.7136432727177937,
      "epoch": 0.28771525088572136,
      "grad_norm": 0.6970177888870239,
      "learning_rate": 1.9396020977351707e-05,
      "loss": 1.456,
      "mean_token_accuracy": 0.6549165745576223,
      "num_tokens": 440542147.0,
      "step": 2619
    },
    {
      "entropy": 1.769452879826228,
      "epoch": 0.2878251077970943,
      "grad_norm": 0.6893923282623291,
      "learning_rate": 1.9395444184718856e-05,
      "loss": 1.361,
      "mean_token_accuracy": 0.6599644472201666,
      "num_tokens": 440687660.0,
      "step": 2620
    },
    {
      "entropy": 1.730559726556142,
      "epoch": 0.28793496470846724,
      "grad_norm": 0.6542354822158813,
      "learning_rate": 1.9394867126373978e-05,
      "loss": 1.473,
      "mean_token_accuracy": 0.639530157049497,
      "num_tokens": 440882125.0,
      "step": 2621
    },
    {
      "entropy": 1.7187020281950633,
      "epoch": 0.2880448216198402,
      "grad_norm": 0.6793704628944397,
      "learning_rate": 1.939428980233534e-05,
      "loss": 1.3705,
      "mean_token_accuracy": 0.6617551843325297,
      "num_tokens": 441024849.0,
      "step": 2622
    },
    {
      "entropy": 1.8135265906651814,
      "epoch": 0.28815467853121307,
      "grad_norm": 0.9341657757759094,
      "learning_rate": 1.939371221262121e-05,
      "loss": 1.4504,
      "mean_token_accuracy": 0.6392282346884409,
      "num_tokens": 441207195.0,
      "step": 2623
    },
    {
      "entropy": 1.705136905113856,
      "epoch": 0.288264535442586,
      "grad_norm": 0.623195469379425,
      "learning_rate": 1.9393134357249873e-05,
      "loss": 1.5089,
      "mean_token_accuracy": 0.6382016837596893,
      "num_tokens": 441406980.0,
      "step": 2624
    },
    {
      "entropy": 1.7127378980318706,
      "epoch": 0.28837439235395895,
      "grad_norm": 0.8345064520835876,
      "learning_rate": 1.939255623623961e-05,
      "loss": 1.4068,
      "mean_token_accuracy": 0.6660717676083246,
      "num_tokens": 441559825.0,
      "step": 2625
    },
    {
      "entropy": 1.658822198708852,
      "epoch": 0.2884842492653319,
      "grad_norm": 0.7187853455543518,
      "learning_rate": 1.939197784960873e-05,
      "loss": 1.3836,
      "mean_token_accuracy": 0.6508085081974665,
      "num_tokens": 441766932.0,
      "step": 2626
    },
    {
      "entropy": 1.704751859108607,
      "epoch": 0.28859410617670483,
      "grad_norm": 0.6862353682518005,
      "learning_rate": 1.9391399197375532e-05,
      "loss": 1.3871,
      "mean_token_accuracy": 0.6600909431775411,
      "num_tokens": 441913413.0,
      "step": 2627
    },
    {
      "entropy": 1.6826223929723103,
      "epoch": 0.2887039630880778,
      "grad_norm": 0.6673212647438049,
      "learning_rate": 1.939082027955833e-05,
      "loss": 1.3096,
      "mean_token_accuracy": 0.6611541360616684,
      "num_tokens": 442074956.0,
      "step": 2628
    },
    {
      "entropy": 1.7774581213792164,
      "epoch": 0.2888138199994507,
      "grad_norm": 0.7454673051834106,
      "learning_rate": 1.9390241096175446e-05,
      "loss": 1.3841,
      "mean_token_accuracy": 0.6583873877922694,
      "num_tokens": 442194901.0,
      "step": 2629
    },
    {
      "entropy": 1.7498468160629272,
      "epoch": 0.28892367691082366,
      "grad_norm": 0.6279725432395935,
      "learning_rate": 1.9389661647245216e-05,
      "loss": 1.4632,
      "mean_token_accuracy": 0.6340119491020838,
      "num_tokens": 442375203.0,
      "step": 2630
    },
    {
      "entropy": 1.6489406327406566,
      "epoch": 0.2890335338221966,
      "grad_norm": 2.050079345703125,
      "learning_rate": 1.9389081932785972e-05,
      "loss": 1.1596,
      "mean_token_accuracy": 0.6808596501747767,
      "num_tokens": 442579070.0,
      "step": 2631
    },
    {
      "entropy": 1.6880771319071453,
      "epoch": 0.28914339073356954,
      "grad_norm": 0.7001965045928955,
      "learning_rate": 1.9388501952816065e-05,
      "loss": 1.4539,
      "mean_token_accuracy": 0.6618387450774511,
      "num_tokens": 442764662.0,
      "step": 2632
    },
    {
      "entropy": 1.7235000828901927,
      "epoch": 0.2892532476449425,
      "grad_norm": 0.7411707639694214,
      "learning_rate": 1.9387921707353852e-05,
      "loss": 1.3913,
      "mean_token_accuracy": 0.661471888422966,
      "num_tokens": 442937159.0,
      "step": 2633
    },
    {
      "entropy": 1.7213360567887623,
      "epoch": 0.2893631045563154,
      "grad_norm": 0.7139886021614075,
      "learning_rate": 1.9387341196417693e-05,
      "loss": 1.369,
      "mean_token_accuracy": 0.6659169793128967,
      "num_tokens": 443095204.0,
      "step": 2634
    },
    {
      "entropy": 1.7081999878088634,
      "epoch": 0.28947296146768836,
      "grad_norm": 0.6855827569961548,
      "learning_rate": 1.938676042002597e-05,
      "loss": 1.4566,
      "mean_token_accuracy": 0.6534863263368607,
      "num_tokens": 443244399.0,
      "step": 2635
    },
    {
      "entropy": 1.732550968726476,
      "epoch": 0.28958281837906125,
      "grad_norm": 0.7183929681777954,
      "learning_rate": 1.9386179378197057e-05,
      "loss": 1.4231,
      "mean_token_accuracy": 0.6524986227353414,
      "num_tokens": 443443407.0,
      "step": 2636
    },
    {
      "entropy": 1.7156991362571716,
      "epoch": 0.2896926752904342,
      "grad_norm": 0.8171935677528381,
      "learning_rate": 1.9385598070949344e-05,
      "loss": 1.2888,
      "mean_token_accuracy": 0.6588062097628912,
      "num_tokens": 443554465.0,
      "step": 2637
    },
    {
      "entropy": 1.7135216891765594,
      "epoch": 0.28980253220180713,
      "grad_norm": 0.6728255748748779,
      "learning_rate": 1.938501649830123e-05,
      "loss": 1.5447,
      "mean_token_accuracy": 0.6269475817680359,
      "num_tokens": 443758902.0,
      "step": 2638
    },
    {
      "entropy": 1.6548403700192769,
      "epoch": 0.28991238911318007,
      "grad_norm": 0.5925636887550354,
      "learning_rate": 1.9384434660271127e-05,
      "loss": 1.4282,
      "mean_token_accuracy": 0.6455462525288264,
      "num_tokens": 443975978.0,
      "step": 2639
    },
    {
      "entropy": 1.6577099462350209,
      "epoch": 0.290022246024553,
      "grad_norm": 0.6581486463546753,
      "learning_rate": 1.9383852556877442e-05,
      "loss": 1.4118,
      "mean_token_accuracy": 0.6570763885974884,
      "num_tokens": 444185925.0,
      "step": 2640
    },
    {
      "entropy": 1.6643743515014648,
      "epoch": 0.29013210293592595,
      "grad_norm": 0.581012487411499,
      "learning_rate": 1.93832701881386e-05,
      "loss": 1.2362,
      "mean_token_accuracy": 0.6839745144049326,
      "num_tokens": 444347755.0,
      "step": 2641
    },
    {
      "entropy": 1.6794247229894002,
      "epoch": 0.2902419598472989,
      "grad_norm": 0.6780709028244019,
      "learning_rate": 1.9382687554073037e-05,
      "loss": 1.494,
      "mean_token_accuracy": 0.6450832734505335,
      "num_tokens": 444602974.0,
      "step": 2642
    },
    {
      "entropy": 1.732841948668162,
      "epoch": 0.29035181675867183,
      "grad_norm": 0.6316855549812317,
      "learning_rate": 1.9382104654699188e-05,
      "loss": 1.4737,
      "mean_token_accuracy": 0.6366277585426966,
      "num_tokens": 444861153.0,
      "step": 2643
    },
    {
      "entropy": 1.7282691299915314,
      "epoch": 0.2904616736700448,
      "grad_norm": 0.6324109435081482,
      "learning_rate": 1.9381521490035507e-05,
      "loss": 1.4287,
      "mean_token_accuracy": 0.64259501794974,
      "num_tokens": 445064095.0,
      "step": 2644
    },
    {
      "entropy": 1.7289496064186096,
      "epoch": 0.2905715305814177,
      "grad_norm": 0.6488730311393738,
      "learning_rate": 1.9380938060100444e-05,
      "loss": 1.4234,
      "mean_token_accuracy": 0.6523800839980444,
      "num_tokens": 445277916.0,
      "step": 2645
    },
    {
      "entropy": 1.7048724194367726,
      "epoch": 0.29068138749279065,
      "grad_norm": 0.8301265835762024,
      "learning_rate": 1.938035436491247e-05,
      "loss": 1.4233,
      "mean_token_accuracy": 0.6592496484518051,
      "num_tokens": 445421134.0,
      "step": 2646
    },
    {
      "entropy": 1.6666546662648518,
      "epoch": 0.2907912444041636,
      "grad_norm": 0.6903906464576721,
      "learning_rate": 1.9379770404490055e-05,
      "loss": 1.434,
      "mean_token_accuracy": 0.6567947318156561,
      "num_tokens": 445598132.0,
      "step": 2647
    },
    {
      "entropy": 1.6847756405671437,
      "epoch": 0.29090110131553654,
      "grad_norm": 0.7805249691009521,
      "learning_rate": 1.9379186178851682e-05,
      "loss": 1.56,
      "mean_token_accuracy": 0.6398202478885651,
      "num_tokens": 445778211.0,
      "step": 2648
    },
    {
      "entropy": 1.7226019004980724,
      "epoch": 0.2910109582269095,
      "grad_norm": 0.7891348004341125,
      "learning_rate": 1.9378601688015844e-05,
      "loss": 1.3392,
      "mean_token_accuracy": 0.6544974197944006,
      "num_tokens": 445908005.0,
      "step": 2649
    },
    {
      "entropy": 1.7356652915477753,
      "epoch": 0.29112081513828236,
      "grad_norm": 0.6843798160552979,
      "learning_rate": 1.9378016932001038e-05,
      "loss": 1.4653,
      "mean_token_accuracy": 0.6467985957860947,
      "num_tokens": 446039417.0,
      "step": 2650
    },
    {
      "entropy": 1.6962276101112366,
      "epoch": 0.2912306720496553,
      "grad_norm": 0.8159408569335938,
      "learning_rate": 1.937743191082577e-05,
      "loss": 1.2746,
      "mean_token_accuracy": 0.6776145696640015,
      "num_tokens": 446183804.0,
      "step": 2651
    },
    {
      "entropy": 1.6974614063898723,
      "epoch": 0.29134052896102824,
      "grad_norm": 0.6378005743026733,
      "learning_rate": 1.937684662450856e-05,
      "loss": 1.4558,
      "mean_token_accuracy": 0.6375326613585154,
      "num_tokens": 446395323.0,
      "step": 2652
    },
    {
      "entropy": 1.708219935496648,
      "epoch": 0.2914503858724012,
      "grad_norm": 0.6746168732643127,
      "learning_rate": 1.9376261073067924e-05,
      "loss": 1.4131,
      "mean_token_accuracy": 0.6394032041231791,
      "num_tokens": 446585024.0,
      "step": 2653
    },
    {
      "entropy": 1.7100668549537659,
      "epoch": 0.2915602427837741,
      "grad_norm": 0.7768794298171997,
      "learning_rate": 1.9375675256522407e-05,
      "loss": 1.4283,
      "mean_token_accuracy": 0.6499427556991577,
      "num_tokens": 446745055.0,
      "step": 2654
    },
    {
      "entropy": 1.6924604872862499,
      "epoch": 0.29167009969514707,
      "grad_norm": 0.8306671977043152,
      "learning_rate": 1.9375089174890535e-05,
      "loss": 1.3603,
      "mean_token_accuracy": 0.6594620595375696,
      "num_tokens": 446914924.0,
      "step": 2655
    },
    {
      "entropy": 1.7755940457185109,
      "epoch": 0.29177995660652,
      "grad_norm": 0.7717196941375732,
      "learning_rate": 1.937450282819087e-05,
      "loss": 1.485,
      "mean_token_accuracy": 0.6404218624035517,
      "num_tokens": 447059653.0,
      "step": 2656
    },
    {
      "entropy": 1.7116881906986237,
      "epoch": 0.29188981351789295,
      "grad_norm": 0.7639763951301575,
      "learning_rate": 1.937391621644196e-05,
      "loss": 1.3773,
      "mean_token_accuracy": 0.653444285194079,
      "num_tokens": 447200194.0,
      "step": 2657
    },
    {
      "entropy": 1.6779767175515492,
      "epoch": 0.2919996704292659,
      "grad_norm": 0.6334971189498901,
      "learning_rate": 1.9373329339662376e-05,
      "loss": 1.4107,
      "mean_token_accuracy": 0.6518335590759913,
      "num_tokens": 447396983.0,
      "step": 2658
    },
    {
      "entropy": 1.682463566462199,
      "epoch": 0.29210952734063883,
      "grad_norm": 0.673891007900238,
      "learning_rate": 1.9372742197870694e-05,
      "loss": 1.3052,
      "mean_token_accuracy": 0.6681603988011678,
      "num_tokens": 447551504.0,
      "step": 2659
    },
    {
      "entropy": 1.6600935558478038,
      "epoch": 0.29221938425201177,
      "grad_norm": 0.6958986520767212,
      "learning_rate": 1.9372154791085494e-05,
      "loss": 1.3451,
      "mean_token_accuracy": 0.6691215733687083,
      "num_tokens": 447691507.0,
      "step": 2660
    },
    {
      "entropy": 1.6572713057200115,
      "epoch": 0.2923292411633847,
      "grad_norm": 0.6040387153625488,
      "learning_rate": 1.9371567119325366e-05,
      "loss": 1.4619,
      "mean_token_accuracy": 0.641932855049769,
      "num_tokens": 447887087.0,
      "step": 2661
    },
    {
      "entropy": 1.6765493253866832,
      "epoch": 0.29243909807475765,
      "grad_norm": 0.6503280401229858,
      "learning_rate": 1.937097918260891e-05,
      "loss": 1.3431,
      "mean_token_accuracy": 0.6661610007286072,
      "num_tokens": 448043292.0,
      "step": 2662
    },
    {
      "entropy": 1.681261380513509,
      "epoch": 0.29254895498613054,
      "grad_norm": 0.7642120718955994,
      "learning_rate": 1.9370390980954734e-05,
      "loss": 1.4735,
      "mean_token_accuracy": 0.653852661450704,
      "num_tokens": 448207574.0,
      "step": 2663
    },
    {
      "entropy": 1.6833062370618184,
      "epoch": 0.2926588118975035,
      "grad_norm": 0.670602023601532,
      "learning_rate": 1.936980251438146e-05,
      "loss": 1.3351,
      "mean_token_accuracy": 0.6685332159201304,
      "num_tokens": 448357135.0,
      "step": 2664
    },
    {
      "entropy": 1.7469529509544373,
      "epoch": 0.2927686688088764,
      "grad_norm": 0.7529553771018982,
      "learning_rate": 1.9369213782907704e-05,
      "loss": 1.5406,
      "mean_token_accuracy": 0.6347383807102839,
      "num_tokens": 448561405.0,
      "step": 2665
    },
    {
      "entropy": 1.7639080087343852,
      "epoch": 0.29287852572024936,
      "grad_norm": 0.7545667290687561,
      "learning_rate": 1.9368624786552103e-05,
      "loss": 1.5237,
      "mean_token_accuracy": 0.6413746724526087,
      "num_tokens": 448745327.0,
      "step": 2666
    },
    {
      "entropy": 1.694331020116806,
      "epoch": 0.2929883826316223,
      "grad_norm": 0.6679127216339111,
      "learning_rate": 1.93680355253333e-05,
      "loss": 1.3199,
      "mean_token_accuracy": 0.6663316388924917,
      "num_tokens": 448887664.0,
      "step": 2667
    },
    {
      "entropy": 1.7083205878734589,
      "epoch": 0.29309823954299524,
      "grad_norm": 0.6043710708618164,
      "learning_rate": 1.9367445999269942e-05,
      "loss": 1.3662,
      "mean_token_accuracy": 0.6552055925130844,
      "num_tokens": 449053784.0,
      "step": 2668
    },
    {
      "entropy": 1.7981708248456318,
      "epoch": 0.2932080964543682,
      "grad_norm": 0.5984474420547485,
      "learning_rate": 1.9366856208380692e-05,
      "loss": 1.3922,
      "mean_token_accuracy": 0.6492073982954025,
      "num_tokens": 449226912.0,
      "step": 2669
    },
    {
      "entropy": 1.7615818778673809,
      "epoch": 0.2933179533657411,
      "grad_norm": 0.7663693428039551,
      "learning_rate": 1.936626615268421e-05,
      "loss": 1.2619,
      "mean_token_accuracy": 0.6588031202554703,
      "num_tokens": 449331942.0,
      "step": 2670
    },
    {
      "entropy": 1.7315702736377716,
      "epoch": 0.29342781027711407,
      "grad_norm": 0.7021830677986145,
      "learning_rate": 1.9365675832199173e-05,
      "loss": 1.3047,
      "mean_token_accuracy": 0.6822420656681061,
      "num_tokens": 449455287.0,
      "step": 2671
    },
    {
      "entropy": 1.6805367469787598,
      "epoch": 0.293537667188487,
      "grad_norm": 0.5745053887367249,
      "learning_rate": 1.936508524694427e-05,
      "loss": 1.3666,
      "mean_token_accuracy": 0.6640961915254593,
      "num_tokens": 449670325.0,
      "step": 2672
    },
    {
      "entropy": 1.6514671444892883,
      "epoch": 0.29364752409985995,
      "grad_norm": 0.727182924747467,
      "learning_rate": 1.9364494396938183e-05,
      "loss": 1.2007,
      "mean_token_accuracy": 0.6855193028847376,
      "num_tokens": 449786535.0,
      "step": 2673
    },
    {
      "entropy": 1.7635166545708973,
      "epoch": 0.2937573810112329,
      "grad_norm": 0.7026004791259766,
      "learning_rate": 1.9363903282199622e-05,
      "loss": 1.5577,
      "mean_token_accuracy": 0.6341749678055445,
      "num_tokens": 449959641.0,
      "step": 2674
    },
    {
      "entropy": 1.6938972075780232,
      "epoch": 0.29386723792260583,
      "grad_norm": 0.7433229088783264,
      "learning_rate": 1.936331190274729e-05,
      "loss": 1.4235,
      "mean_token_accuracy": 0.6720124930143356,
      "num_tokens": 450131900.0,
      "step": 2675
    },
    {
      "entropy": 1.683308909336726,
      "epoch": 0.29397709483397877,
      "grad_norm": 0.7515206933021545,
      "learning_rate": 1.9362720258599906e-05,
      "loss": 1.433,
      "mean_token_accuracy": 0.6503423452377319,
      "num_tokens": 450296861.0,
      "step": 2676
    },
    {
      "entropy": 1.6832621296246846,
      "epoch": 0.29408695174535165,
      "grad_norm": 0.7027547955513,
      "learning_rate": 1.936212834977619e-05,
      "loss": 1.2631,
      "mean_token_accuracy": 0.6792778372764587,
      "num_tokens": 450446299.0,
      "step": 2677
    },
    {
      "entropy": 1.7150346239407857,
      "epoch": 0.2941968086567246,
      "grad_norm": 0.6275519132614136,
      "learning_rate": 1.9361536176294884e-05,
      "loss": 1.4966,
      "mean_token_accuracy": 0.6483021924893061,
      "num_tokens": 450598627.0,
      "step": 2678
    },
    {
      "entropy": 1.7051092684268951,
      "epoch": 0.29430666556809754,
      "grad_norm": 0.7069133520126343,
      "learning_rate": 1.9360943738174723e-05,
      "loss": 1.4622,
      "mean_token_accuracy": 0.6559437364339828,
      "num_tokens": 450730927.0,
      "step": 2679
    },
    {
      "entropy": 1.684261292219162,
      "epoch": 0.2944165224794705,
      "grad_norm": 1.7670702934265137,
      "learning_rate": 1.9360351035434462e-05,
      "loss": 1.3459,
      "mean_token_accuracy": 0.6596929530302683,
      "num_tokens": 450949743.0,
      "step": 2680
    },
    {
      "entropy": 1.711377779642741,
      "epoch": 0.2945263793908434,
      "grad_norm": 0.6422090530395508,
      "learning_rate": 1.9359758068092856e-05,
      "loss": 1.4483,
      "mean_token_accuracy": 0.6548082033793131,
      "num_tokens": 451108520.0,
      "step": 2681
    },
    {
      "entropy": 1.6563451290130615,
      "epoch": 0.29463623630221636,
      "grad_norm": 0.7376955151557922,
      "learning_rate": 1.9359164836168673e-05,
      "loss": 1.1897,
      "mean_token_accuracy": 0.6866026818752289,
      "num_tokens": 451255541.0,
      "step": 2682
    },
    {
      "entropy": 1.7390979429086049,
      "epoch": 0.2947460932135893,
      "grad_norm": 0.78875732421875,
      "learning_rate": 1.9358571339680695e-05,
      "loss": 1.3601,
      "mean_token_accuracy": 0.6453971515099207,
      "num_tokens": 451456051.0,
      "step": 2683
    },
    {
      "entropy": 1.7441952129205067,
      "epoch": 0.29485595012496224,
      "grad_norm": 0.7171877026557922,
      "learning_rate": 1.93579775786477e-05,
      "loss": 1.4548,
      "mean_token_accuracy": 0.6368372937043508,
      "num_tokens": 451669627.0,
      "step": 2684
    },
    {
      "entropy": 1.75757697224617,
      "epoch": 0.2949658070363352,
      "grad_norm": 0.7782573103904724,
      "learning_rate": 1.9357383553088475e-05,
      "loss": 1.4544,
      "mean_token_accuracy": 0.645165205001831,
      "num_tokens": 451796991.0,
      "step": 2685
    },
    {
      "entropy": 1.6625976363817851,
      "epoch": 0.2950756639477081,
      "grad_norm": 0.8164569735527039,
      "learning_rate": 1.935678926302183e-05,
      "loss": 1.3995,
      "mean_token_accuracy": 0.6670281787713369,
      "num_tokens": 451954998.0,
      "step": 2686
    },
    {
      "entropy": 1.7122354706128438,
      "epoch": 0.29518552085908106,
      "grad_norm": 0.6264376044273376,
      "learning_rate": 1.935619470846657e-05,
      "loss": 1.3778,
      "mean_token_accuracy": 0.6613652606805166,
      "num_tokens": 452135263.0,
      "step": 2687
    },
    {
      "entropy": 1.7165345946947734,
      "epoch": 0.295295377770454,
      "grad_norm": 0.6703044176101685,
      "learning_rate": 1.9355599889441514e-05,
      "loss": 1.3914,
      "mean_token_accuracy": 0.6461621175209681,
      "num_tokens": 452312831.0,
      "step": 2688
    },
    {
      "entropy": 1.6509647866090138,
      "epoch": 0.29540523468182694,
      "grad_norm": 0.6027291417121887,
      "learning_rate": 1.9355004805965488e-05,
      "loss": 1.4686,
      "mean_token_accuracy": 0.6490070174137751,
      "num_tokens": 452490265.0,
      "step": 2689
    },
    {
      "entropy": 1.7152677079041798,
      "epoch": 0.29551509159319983,
      "grad_norm": 0.6414744257926941,
      "learning_rate": 1.935440945805732e-05,
      "loss": 1.4622,
      "mean_token_accuracy": 0.6658103515704473,
      "num_tokens": 452695410.0,
      "step": 2690
    },
    {
      "entropy": 1.7520911594231923,
      "epoch": 0.29562494850457277,
      "grad_norm": 0.701274037361145,
      "learning_rate": 1.935381384573586e-05,
      "loss": 1.3646,
      "mean_token_accuracy": 0.6607696761687597,
      "num_tokens": 452872274.0,
      "step": 2691
    },
    {
      "entropy": 1.646621435880661,
      "epoch": 0.2957348054159457,
      "grad_norm": 0.6311284303665161,
      "learning_rate": 1.9353217969019955e-05,
      "loss": 1.3512,
      "mean_token_accuracy": 0.6649795571962992,
      "num_tokens": 453021211.0,
      "step": 2692
    },
    {
      "entropy": 1.7599443395932515,
      "epoch": 0.29584466232731865,
      "grad_norm": 0.6941083073616028,
      "learning_rate": 1.9352621827928467e-05,
      "loss": 1.3329,
      "mean_token_accuracy": 0.6627233326435089,
      "num_tokens": 453146565.0,
      "step": 2693
    },
    {
      "entropy": 1.7353703478972118,
      "epoch": 0.2959545192386916,
      "grad_norm": 0.659747838973999,
      "learning_rate": 1.9352025422480263e-05,
      "loss": 1.4226,
      "mean_token_accuracy": 0.6492767333984375,
      "num_tokens": 453362565.0,
      "step": 2694
    },
    {
      "entropy": 1.7668009400367737,
      "epoch": 0.29606437615006453,
      "grad_norm": 0.6181442737579346,
      "learning_rate": 1.9351428752694215e-05,
      "loss": 1.4072,
      "mean_token_accuracy": 0.6527328540881475,
      "num_tokens": 453547775.0,
      "step": 2695
    },
    {
      "entropy": 1.7386986712614696,
      "epoch": 0.2961742330614375,
      "grad_norm": 0.7841033339500427,
      "learning_rate": 1.9350831818589207e-05,
      "loss": 1.4427,
      "mean_token_accuracy": 0.6478182226419449,
      "num_tokens": 453707336.0,
      "step": 2696
    },
    {
      "entropy": 1.7775764167308807,
      "epoch": 0.2962840899728104,
      "grad_norm": 0.7095794081687927,
      "learning_rate": 1.935023462018414e-05,
      "loss": 1.3005,
      "mean_token_accuracy": 0.6672998617092768,
      "num_tokens": 453824420.0,
      "step": 2697
    },
    {
      "entropy": 1.6585584084192913,
      "epoch": 0.29639394688418336,
      "grad_norm": 0.6653675436973572,
      "learning_rate": 1.9349637157497912e-05,
      "loss": 1.4212,
      "mean_token_accuracy": 0.6473642687002817,
      "num_tokens": 454019843.0,
      "step": 2698
    },
    {
      "entropy": 1.6676256358623505,
      "epoch": 0.2965038037955563,
      "grad_norm": 0.5587428212165833,
      "learning_rate": 1.934903943054943e-05,
      "loss": 1.3297,
      "mean_token_accuracy": 0.6603167007366816,
      "num_tokens": 454209292.0,
      "step": 2699
    },
    {
      "entropy": 1.7065544823805492,
      "epoch": 0.29661366070692924,
      "grad_norm": 0.6772942543029785,
      "learning_rate": 1.9348441439357607e-05,
      "loss": 1.3898,
      "mean_token_accuracy": 0.6574710955222448,
      "num_tokens": 454350359.0,
      "step": 2700
    },
    {
      "entropy": 1.7034912804762523,
      "epoch": 0.2967235176183022,
      "grad_norm": 0.8810101747512817,
      "learning_rate": 1.9347843183941376e-05,
      "loss": 1.2346,
      "mean_token_accuracy": 0.6790671199560165,
      "num_tokens": 454487540.0,
      "step": 2701
    },
    {
      "entropy": 1.791587918996811,
      "epoch": 0.2968333745296751,
      "grad_norm": 0.707517147064209,
      "learning_rate": 1.9347244664319674e-05,
      "loss": 1.4353,
      "mean_token_accuracy": 0.637357547879219,
      "num_tokens": 454670144.0,
      "step": 2702
    },
    {
      "entropy": 1.65616970260938,
      "epoch": 0.29694323144104806,
      "grad_norm": 0.6979170441627502,
      "learning_rate": 1.9346645880511435e-05,
      "loss": 1.3765,
      "mean_token_accuracy": 0.6787627389033636,
      "num_tokens": 454805453.0,
      "step": 2703
    },
    {
      "entropy": 1.7858235935370128,
      "epoch": 0.29705308835242095,
      "grad_norm": 0.7254014015197754,
      "learning_rate": 1.9346046832535616e-05,
      "loss": 1.3475,
      "mean_token_accuracy": 0.6682693660259247,
      "num_tokens": 454926309.0,
      "step": 2704
    },
    {
      "entropy": 1.7087645729382832,
      "epoch": 0.2971629452637939,
      "grad_norm": 0.6836649775505066,
      "learning_rate": 1.9345447520411176e-05,
      "loss": 1.4221,
      "mean_token_accuracy": 0.6326878815889359,
      "num_tokens": 455124796.0,
      "step": 2705
    },
    {
      "entropy": 1.6126576364040375,
      "epoch": 0.29727280217516683,
      "grad_norm": 0.6172579526901245,
      "learning_rate": 1.9344847944157082e-05,
      "loss": 1.4618,
      "mean_token_accuracy": 0.6497344275315603,
      "num_tokens": 455349822.0,
      "step": 2706
    },
    {
      "entropy": 1.6935412486394246,
      "epoch": 0.29738265908653977,
      "grad_norm": 0.7592183351516724,
      "learning_rate": 1.9344248103792312e-05,
      "loss": 1.5196,
      "mean_token_accuracy": 0.6431877315044403,
      "num_tokens": 455536405.0,
      "step": 2707
    },
    {
      "entropy": 1.8123325010140736,
      "epoch": 0.2974925159979127,
      "grad_norm": 0.6768981218338013,
      "learning_rate": 1.9343647999335852e-05,
      "loss": 1.5576,
      "mean_token_accuracy": 0.6386434634526571,
      "num_tokens": 455720583.0,
      "step": 2708
    },
    {
      "entropy": 1.7398807009061177,
      "epoch": 0.29760237290928565,
      "grad_norm": 0.5949780941009521,
      "learning_rate": 1.9343047630806686e-05,
      "loss": 1.4819,
      "mean_token_accuracy": 0.6428021887938181,
      "num_tokens": 455956692.0,
      "step": 2709
    },
    {
      "entropy": 1.7306031584739685,
      "epoch": 0.2977122298206586,
      "grad_norm": 0.7073639035224915,
      "learning_rate": 1.9342446998223828e-05,
      "loss": 1.4921,
      "mean_token_accuracy": 0.6601720154285431,
      "num_tokens": 456096324.0,
      "step": 2710
    },
    {
      "entropy": 1.6887525916099548,
      "epoch": 0.29782208673203153,
      "grad_norm": 0.7725453972816467,
      "learning_rate": 1.934184610160628e-05,
      "loss": 1.2753,
      "mean_token_accuracy": 0.6711432288090388,
      "num_tokens": 456218859.0,
      "step": 2711
    },
    {
      "entropy": 1.6401757498582203,
      "epoch": 0.2979319436434045,
      "grad_norm": 0.7324026823043823,
      "learning_rate": 1.934124494097306e-05,
      "loss": 1.3085,
      "mean_token_accuracy": 0.6673613637685776,
      "num_tokens": 456346809.0,
      "step": 2712
    },
    {
      "entropy": 1.734503875176112,
      "epoch": 0.2980418005547774,
      "grad_norm": 0.7018632888793945,
      "learning_rate": 1.9340643516343197e-05,
      "loss": 1.3471,
      "mean_token_accuracy": 0.6849260876576105,
      "num_tokens": 456517652.0,
      "step": 2713
    },
    {
      "entropy": 1.6619239548842113,
      "epoch": 0.29815165746615035,
      "grad_norm": 0.7496260404586792,
      "learning_rate": 1.9340041827735724e-05,
      "loss": 1.3782,
      "mean_token_accuracy": 0.6606259942054749,
      "num_tokens": 456674429.0,
      "step": 2714
    },
    {
      "entropy": 1.7683907647927601,
      "epoch": 0.2982615143775233,
      "grad_norm": 0.7211847305297852,
      "learning_rate": 1.9339439875169688e-05,
      "loss": 1.3487,
      "mean_token_accuracy": 0.6543639997641245,
      "num_tokens": 456820642.0,
      "step": 2715
    },
    {
      "entropy": 1.6940323412418365,
      "epoch": 0.29837137128889624,
      "grad_norm": 0.8029798865318298,
      "learning_rate": 1.933883765866414e-05,
      "loss": 1.284,
      "mean_token_accuracy": 0.6674282451470693,
      "num_tokens": 456965638.0,
      "step": 2716
    },
    {
      "entropy": 1.7033016582330067,
      "epoch": 0.2984812282002691,
      "grad_norm": 0.6672521829605103,
      "learning_rate": 1.933823517823813e-05,
      "loss": 1.416,
      "mean_token_accuracy": 0.6518148928880692,
      "num_tokens": 457158175.0,
      "step": 2717
    },
    {
      "entropy": 1.7121039628982544,
      "epoch": 0.29859108511164206,
      "grad_norm": 0.9051281213760376,
      "learning_rate": 1.933763243391074e-05,
      "loss": 1.4112,
      "mean_token_accuracy": 0.666137158870697,
      "num_tokens": 457327515.0,
      "step": 2718
    },
    {
      "entropy": 1.699680785338084,
      "epoch": 0.298700942023015,
      "grad_norm": 0.6100730299949646,
      "learning_rate": 1.933702942570104e-05,
      "loss": 1.2842,
      "mean_token_accuracy": 0.6708463281393051,
      "num_tokens": 457486212.0,
      "step": 2719
    },
    {
      "entropy": 1.7419918080170949,
      "epoch": 0.29881079893438794,
      "grad_norm": 0.711141049861908,
      "learning_rate": 1.9336426153628112e-05,
      "loss": 1.4956,
      "mean_token_accuracy": 0.6444249103466669,
      "num_tokens": 457693330.0,
      "step": 2720
    },
    {
      "entropy": 1.6464999218781788,
      "epoch": 0.2989206558457609,
      "grad_norm": 0.8733800649642944,
      "learning_rate": 1.9335822617711054e-05,
      "loss": 1.2148,
      "mean_token_accuracy": 0.6803951313098272,
      "num_tokens": 457821397.0,
      "step": 2721
    },
    {
      "entropy": 1.6942930221557617,
      "epoch": 0.2990305127571338,
      "grad_norm": 0.7114554643630981,
      "learning_rate": 1.9335218817968967e-05,
      "loss": 1.3726,
      "mean_token_accuracy": 0.664305662115415,
      "num_tokens": 457983544.0,
      "step": 2722
    },
    {
      "entropy": 1.6836686829725902,
      "epoch": 0.29914036966850677,
      "grad_norm": 0.708476722240448,
      "learning_rate": 1.9334614754420958e-05,
      "loss": 1.2791,
      "mean_token_accuracy": 0.6689166078964869,
      "num_tokens": 458134039.0,
      "step": 2723
    },
    {
      "entropy": 1.7399452825387318,
      "epoch": 0.2992502265798797,
      "grad_norm": 0.7190913558006287,
      "learning_rate": 1.9334010427086154e-05,
      "loss": 1.3825,
      "mean_token_accuracy": 0.6503856033086777,
      "num_tokens": 458282778.0,
      "step": 2724
    },
    {
      "entropy": 1.752762794494629,
      "epoch": 0.29936008349125265,
      "grad_norm": 0.6258200407028198,
      "learning_rate": 1.933340583598367e-05,
      "loss": 1.4285,
      "mean_token_accuracy": 0.6458547860383987,
      "num_tokens": 458475221.0,
      "step": 2725
    },
    {
      "entropy": 1.732886830965678,
      "epoch": 0.2994699404026256,
      "grad_norm": 0.6532291769981384,
      "learning_rate": 1.9332800981132648e-05,
      "loss": 1.3873,
      "mean_token_accuracy": 0.6579280296961466,
      "num_tokens": 458642845.0,
      "step": 2726
    },
    {
      "entropy": 1.7705637713273366,
      "epoch": 0.29957979731399853,
      "grad_norm": 0.7122387290000916,
      "learning_rate": 1.933219586255223e-05,
      "loss": 1.574,
      "mean_token_accuracy": 0.6305630256732305,
      "num_tokens": 458841123.0,
      "step": 2727
    },
    {
      "entropy": 1.736388514439265,
      "epoch": 0.29968965422537147,
      "grad_norm": 0.6985000967979431,
      "learning_rate": 1.9331590480261568e-05,
      "loss": 1.3021,
      "mean_token_accuracy": 0.6691931088765463,
      "num_tokens": 458985028.0,
      "step": 2728
    },
    {
      "entropy": 1.7540164987246196,
      "epoch": 0.2997995111367444,
      "grad_norm": 0.7186359763145447,
      "learning_rate": 1.933098483427982e-05,
      "loss": 1.5224,
      "mean_token_accuracy": 0.6380279958248138,
      "num_tokens": 459144300.0,
      "step": 2729
    },
    {
      "entropy": 1.7715636988480885,
      "epoch": 0.29990936804811735,
      "grad_norm": 0.8147019147872925,
      "learning_rate": 1.9330378924626156e-05,
      "loss": 1.4505,
      "mean_token_accuracy": 0.6575749566157659,
      "num_tokens": 459280365.0,
      "step": 2730
    },
    {
      "entropy": 1.6673146188259125,
      "epoch": 0.30001922495949024,
      "grad_norm": 0.6811074018478394,
      "learning_rate": 1.9329772751319755e-05,
      "loss": 1.4948,
      "mean_token_accuracy": 0.6632718841234843,
      "num_tokens": 459456372.0,
      "step": 2731
    },
    {
      "entropy": 1.7491925756136577,
      "epoch": 0.3001290818708632,
      "grad_norm": 0.7324425578117371,
      "learning_rate": 1.93291663143798e-05,
      "loss": 1.4991,
      "mean_token_accuracy": 0.652273048957189,
      "num_tokens": 459617699.0,
      "step": 2732
    },
    {
      "entropy": 1.6765054762363434,
      "epoch": 0.3002389387822361,
      "grad_norm": 0.7338621616363525,
      "learning_rate": 1.9328559613825483e-05,
      "loss": 1.2981,
      "mean_token_accuracy": 0.6762462556362152,
      "num_tokens": 459785217.0,
      "step": 2733
    },
    {
      "entropy": 1.648837725321452,
      "epoch": 0.30034879569360906,
      "grad_norm": 0.6431924104690552,
      "learning_rate": 1.9327952649676006e-05,
      "loss": 1.2079,
      "mean_token_accuracy": 0.676081563035647,
      "num_tokens": 459913674.0,
      "step": 2734
    },
    {
      "entropy": 1.6991098026434581,
      "epoch": 0.300458652604982,
      "grad_norm": 0.6374147534370422,
      "learning_rate": 1.932734542195058e-05,
      "loss": 1.4266,
      "mean_token_accuracy": 0.6573264350493749,
      "num_tokens": 460110173.0,
      "step": 2735
    },
    {
      "entropy": 1.6661823689937592,
      "epoch": 0.30056850951635494,
      "grad_norm": 3.0219857692718506,
      "learning_rate": 1.9326737930668425e-05,
      "loss": 1.3622,
      "mean_token_accuracy": 0.6620204945405325,
      "num_tokens": 460326181.0,
      "step": 2736
    },
    {
      "entropy": 1.769929716984431,
      "epoch": 0.3006783664277279,
      "grad_norm": 0.822551429271698,
      "learning_rate": 1.932613017584877e-05,
      "loss": 1.4545,
      "mean_token_accuracy": 0.6456111868222555,
      "num_tokens": 460473005.0,
      "step": 2737
    },
    {
      "entropy": 1.7742596765359242,
      "epoch": 0.3007882233391008,
      "grad_norm": 0.6372090578079224,
      "learning_rate": 1.9325522157510842e-05,
      "loss": 1.5462,
      "mean_token_accuracy": 0.6321751674016317,
      "num_tokens": 460711663.0,
      "step": 2738
    },
    {
      "entropy": 1.7386666536331177,
      "epoch": 0.30089808025047377,
      "grad_norm": 0.7106104493141174,
      "learning_rate": 1.9324913875673893e-05,
      "loss": 1.48,
      "mean_token_accuracy": 0.6593476285537084,
      "num_tokens": 460896697.0,
      "step": 2739
    },
    {
      "entropy": 1.6937275826931,
      "epoch": 0.3010079371618467,
      "grad_norm": 0.654400646686554,
      "learning_rate": 1.932430533035717e-05,
      "loss": 1.5314,
      "mean_token_accuracy": 0.627138485511144,
      "num_tokens": 461179979.0,
      "step": 2740
    },
    {
      "entropy": 1.6967305839061737,
      "epoch": 0.30111779407321965,
      "grad_norm": 0.7618654370307922,
      "learning_rate": 1.9323696521579933e-05,
      "loss": 1.3714,
      "mean_token_accuracy": 0.6593584269285202,
      "num_tokens": 461381167.0,
      "step": 2741
    },
    {
      "entropy": 1.7463171482086182,
      "epoch": 0.3012276509845926,
      "grad_norm": 0.7259137034416199,
      "learning_rate": 1.932308744936145e-05,
      "loss": 1.3643,
      "mean_token_accuracy": 0.6586255977551142,
      "num_tokens": 461596991.0,
      "step": 2742
    },
    {
      "entropy": 1.7076434095700581,
      "epoch": 0.30133750789596553,
      "grad_norm": 0.6767429709434509,
      "learning_rate": 1.9322478113721e-05,
      "loss": 1.3569,
      "mean_token_accuracy": 0.670208474000295,
      "num_tokens": 461746827.0,
      "step": 2743
    },
    {
      "entropy": 1.6913744111855824,
      "epoch": 0.30144736480733847,
      "grad_norm": 0.7813226580619812,
      "learning_rate": 1.9321868514677874e-05,
      "loss": 1.3386,
      "mean_token_accuracy": 0.6839630007743835,
      "num_tokens": 461894088.0,
      "step": 2744
    },
    {
      "entropy": 1.7275190949440002,
      "epoch": 0.30155722171871135,
      "grad_norm": 0.7166203856468201,
      "learning_rate": 1.9321258652251354e-05,
      "loss": 1.2261,
      "mean_token_accuracy": 0.6746133218208948,
      "num_tokens": 462015371.0,
      "step": 2745
    },
    {
      "entropy": 1.7810499270757039,
      "epoch": 0.3016670786300843,
      "grad_norm": 0.6879790425300598,
      "learning_rate": 1.932064852646075e-05,
      "loss": 1.4334,
      "mean_token_accuracy": 0.6484188586473465,
      "num_tokens": 462235970.0,
      "step": 2746
    },
    {
      "entropy": 1.7113142510255177,
      "epoch": 0.30177693554145724,
      "grad_norm": 0.9017158150672913,
      "learning_rate": 1.9320038137325364e-05,
      "loss": 1.4883,
      "mean_token_accuracy": 0.6399280428886414,
      "num_tokens": 462409137.0,
      "step": 2747
    },
    {
      "entropy": 1.7389302551746368,
      "epoch": 0.3018867924528302,
      "grad_norm": 0.7917147874832153,
      "learning_rate": 1.9319427484864526e-05,
      "loss": 1.3114,
      "mean_token_accuracy": 0.6665030618508657,
      "num_tokens": 462590216.0,
      "step": 2748
    },
    {
      "entropy": 1.6455481847127278,
      "epoch": 0.3019966493642031,
      "grad_norm": 0.7206093072891235,
      "learning_rate": 1.9318816569097557e-05,
      "loss": 1.3726,
      "mean_token_accuracy": 0.6634992212057114,
      "num_tokens": 462764694.0,
      "step": 2749
    },
    {
      "entropy": 1.6946881413459778,
      "epoch": 0.30210650627557606,
      "grad_norm": 0.6624197959899902,
      "learning_rate": 1.9318205390043786e-05,
      "loss": 1.3401,
      "mean_token_accuracy": 0.6626093486944834,
      "num_tokens": 462918633.0,
      "step": 2750
    },
    {
      "entropy": 1.754339079062144,
      "epoch": 0.302216363186949,
      "grad_norm": 0.6414199471473694,
      "learning_rate": 1.931759394772257e-05,
      "loss": 1.3364,
      "mean_token_accuracy": 0.6651070167620977,
      "num_tokens": 463065938.0,
      "step": 2751
    },
    {
      "entropy": 1.7131946782271068,
      "epoch": 0.30232622009832194,
      "grad_norm": 0.7476382255554199,
      "learning_rate": 1.931698224215325e-05,
      "loss": 1.3628,
      "mean_token_accuracy": 0.6677864193916321,
      "num_tokens": 463202521.0,
      "step": 2752
    },
    {
      "entropy": 1.6731769144535065,
      "epoch": 0.3024360770096949,
      "grad_norm": 1.3017513751983643,
      "learning_rate": 1.931637027335519e-05,
      "loss": 1.1589,
      "mean_token_accuracy": 0.6780026058355967,
      "num_tokens": 463403149.0,
      "step": 2753
    },
    {
      "entropy": 1.6853074034055073,
      "epoch": 0.3025459339210678,
      "grad_norm": 0.5546422600746155,
      "learning_rate": 1.9315758041347758e-05,
      "loss": 1.3004,
      "mean_token_accuracy": 0.6725151340166727,
      "num_tokens": 463590458.0,
      "step": 2754
    },
    {
      "entropy": 1.6593196491400402,
      "epoch": 0.30265579083244076,
      "grad_norm": 0.699647843837738,
      "learning_rate": 1.931514554615033e-05,
      "loss": 1.31,
      "mean_token_accuracy": 0.6586611072222391,
      "num_tokens": 463747655.0,
      "step": 2755
    },
    {
      "entropy": 1.6894031167030334,
      "epoch": 0.3027656477438137,
      "grad_norm": 0.6589730978012085,
      "learning_rate": 1.9314532787782295e-05,
      "loss": 1.3531,
      "mean_token_accuracy": 0.6681742072105408,
      "num_tokens": 463913959.0,
      "step": 2756
    },
    {
      "entropy": 1.7593967119852703,
      "epoch": 0.30287550465518664,
      "grad_norm": 0.6436064839363098,
      "learning_rate": 1.9313919766263043e-05,
      "loss": 1.3402,
      "mean_token_accuracy": 0.6659826586643854,
      "num_tokens": 464060668.0,
      "step": 2757
    },
    {
      "entropy": 1.746421605348587,
      "epoch": 0.30298536156655953,
      "grad_norm": 0.7272017598152161,
      "learning_rate": 1.9313306481611977e-05,
      "loss": 1.3655,
      "mean_token_accuracy": 0.661940743525823,
      "num_tokens": 464204000.0,
      "step": 2758
    },
    {
      "entropy": 1.710692157347997,
      "epoch": 0.30309521847793247,
      "grad_norm": 0.6198656558990479,
      "learning_rate": 1.9312692933848505e-05,
      "loss": 1.3947,
      "mean_token_accuracy": 0.6594121058781942,
      "num_tokens": 464384758.0,
      "step": 2759
    },
    {
      "entropy": 1.7099157869815826,
      "epoch": 0.3032050753893054,
      "grad_norm": 0.5952613353729248,
      "learning_rate": 1.931207912299205e-05,
      "loss": 1.44,
      "mean_token_accuracy": 0.6447249750296274,
      "num_tokens": 464582558.0,
      "step": 2760
    },
    {
      "entropy": 1.6782328983147938,
      "epoch": 0.30331493230067835,
      "grad_norm": 0.7183821201324463,
      "learning_rate": 1.9311465049062036e-05,
      "loss": 1.2911,
      "mean_token_accuracy": 0.6735262523094813,
      "num_tokens": 464715667.0,
      "step": 2761
    },
    {
      "entropy": 1.6694311400254567,
      "epoch": 0.3034247892120513,
      "grad_norm": 0.8863995671272278,
      "learning_rate": 1.9310850712077897e-05,
      "loss": 1.1808,
      "mean_token_accuracy": 0.6926176349322001,
      "num_tokens": 464851884.0,
      "step": 2762
    },
    {
      "entropy": 1.6931216617425282,
      "epoch": 0.30353464612342423,
      "grad_norm": 0.6631143689155579,
      "learning_rate": 1.9310236112059076e-05,
      "loss": 1.5559,
      "mean_token_accuracy": 0.6472532153129578,
      "num_tokens": 465012783.0,
      "step": 2763
    },
    {
      "entropy": 1.7171483039855957,
      "epoch": 0.3036445030347972,
      "grad_norm": 0.8214719295501709,
      "learning_rate": 1.9309621249025033e-05,
      "loss": 1.4744,
      "mean_token_accuracy": 0.6650175104538599,
      "num_tokens": 465166374.0,
      "step": 2764
    },
    {
      "entropy": 1.6988566915194194,
      "epoch": 0.3037543599461701,
      "grad_norm": 0.7386065125465393,
      "learning_rate": 1.930900612299522e-05,
      "loss": 1.5162,
      "mean_token_accuracy": 0.6555062482754389,
      "num_tokens": 465343817.0,
      "step": 2765
    },
    {
      "entropy": 1.721668581167857,
      "epoch": 0.30386421685754306,
      "grad_norm": 0.6086675524711609,
      "learning_rate": 1.93083907339891e-05,
      "loss": 1.3695,
      "mean_token_accuracy": 0.6555673032999039,
      "num_tokens": 465495475.0,
      "step": 2766
    },
    {
      "entropy": 1.7061657309532166,
      "epoch": 0.303974073768916,
      "grad_norm": 0.9607113599777222,
      "learning_rate": 1.930777508202617e-05,
      "loss": 1.294,
      "mean_token_accuracy": 0.6664957702159882,
      "num_tokens": 465650381.0,
      "step": 2767
    },
    {
      "entropy": 1.6989998122056325,
      "epoch": 0.30408393068028894,
      "grad_norm": 0.7101160883903503,
      "learning_rate": 1.9307159167125887e-05,
      "loss": 1.3634,
      "mean_token_accuracy": 0.6705865065256754,
      "num_tokens": 465802895.0,
      "step": 2768
    },
    {
      "entropy": 1.7586182653903961,
      "epoch": 0.3041937875916619,
      "grad_norm": 0.7714918851852417,
      "learning_rate": 1.9306542989307774e-05,
      "loss": 1.5817,
      "mean_token_accuracy": 0.6417257438103358,
      "num_tokens": 465991579.0,
      "step": 2769
    },
    {
      "entropy": 1.6654569506645203,
      "epoch": 0.3043036445030348,
      "grad_norm": 0.7866225242614746,
      "learning_rate": 1.930592654859131e-05,
      "loss": 1.5116,
      "mean_token_accuracy": 0.6589531550804774,
      "num_tokens": 466160734.0,
      "step": 2770
    },
    {
      "entropy": 1.7186169922351837,
      "epoch": 0.30441350141440776,
      "grad_norm": 0.8639843463897705,
      "learning_rate": 1.9305309844996014e-05,
      "loss": 1.4303,
      "mean_token_accuracy": 0.6495883216460546,
      "num_tokens": 466326061.0,
      "step": 2771
    },
    {
      "entropy": 1.7337853809197743,
      "epoch": 0.30452335832578065,
      "grad_norm": 0.7233784794807434,
      "learning_rate": 1.9304692878541407e-05,
      "loss": 1.3016,
      "mean_token_accuracy": 0.6698676447073618,
      "num_tokens": 466463745.0,
      "step": 2772
    },
    {
      "entropy": 1.6232518255710602,
      "epoch": 0.3046332152371536,
      "grad_norm": 0.6475121378898621,
      "learning_rate": 1.930407564924701e-05,
      "loss": 1.4022,
      "mean_token_accuracy": 0.6630886395772299,
      "num_tokens": 466593450.0,
      "step": 2773
    },
    {
      "entropy": 1.6947415073712666,
      "epoch": 0.30474307214852653,
      "grad_norm": 0.6529332399368286,
      "learning_rate": 1.930345815713236e-05,
      "loss": 1.489,
      "mean_token_accuracy": 0.6480614195267359,
      "num_tokens": 466750956.0,
      "step": 2774
    },
    {
      "entropy": 1.7117355068524678,
      "epoch": 0.30485292905989947,
      "grad_norm": 0.7926428914070129,
      "learning_rate": 1.9302840402217004e-05,
      "loss": 1.5965,
      "mean_token_accuracy": 0.638613685965538,
      "num_tokens": 466927278.0,
      "step": 2775
    },
    {
      "entropy": 1.6899478038152058,
      "epoch": 0.3049627859712724,
      "grad_norm": 0.7616437673568726,
      "learning_rate": 1.930222238452049e-05,
      "loss": 1.4495,
      "mean_token_accuracy": 0.6520648350318273,
      "num_tokens": 467105233.0,
      "step": 2776
    },
    {
      "entropy": 1.6401771505673726,
      "epoch": 0.30507264288264535,
      "grad_norm": 0.6086208820343018,
      "learning_rate": 1.9301604104062378e-05,
      "loss": 1.383,
      "mean_token_accuracy": 0.6533524294694265,
      "num_tokens": 467265754.0,
      "step": 2777
    },
    {
      "entropy": 1.6210876603921254,
      "epoch": 0.3051824997940183,
      "grad_norm": 0.717979907989502,
      "learning_rate": 1.9300985560862235e-05,
      "loss": 1.3769,
      "mean_token_accuracy": 0.6591470589240392,
      "num_tokens": 467411535.0,
      "step": 2778
    },
    {
      "entropy": 1.7154032389322917,
      "epoch": 0.30529235670539123,
      "grad_norm": 0.6699005365371704,
      "learning_rate": 1.9300366754939642e-05,
      "loss": 1.4056,
      "mean_token_accuracy": 0.639826089143753,
      "num_tokens": 467624066.0,
      "step": 2779
    },
    {
      "entropy": 1.7107741832733154,
      "epoch": 0.3054022136167642,
      "grad_norm": 0.6464679837226868,
      "learning_rate": 1.9299747686314178e-05,
      "loss": 1.3999,
      "mean_token_accuracy": 0.6531073401371638,
      "num_tokens": 467762610.0,
      "step": 2780
    },
    {
      "entropy": 1.723695029815038,
      "epoch": 0.3055120705281371,
      "grad_norm": 0.645092785358429,
      "learning_rate": 1.9299128355005443e-05,
      "loss": 1.2986,
      "mean_token_accuracy": 0.6608155220746994,
      "num_tokens": 467932748.0,
      "step": 2781
    },
    {
      "entropy": 1.7858980596065521,
      "epoch": 0.30562192743951005,
      "grad_norm": 0.7578333020210266,
      "learning_rate": 1.9298508761033035e-05,
      "loss": 1.4476,
      "mean_token_accuracy": 0.6441960881153742,
      "num_tokens": 468085168.0,
      "step": 2782
    },
    {
      "entropy": 1.6949599981307983,
      "epoch": 0.305731784350883,
      "grad_norm": 0.7087303400039673,
      "learning_rate": 1.929788890441656e-05,
      "loss": 1.324,
      "mean_token_accuracy": 0.6659413874149323,
      "num_tokens": 468243090.0,
      "step": 2783
    },
    {
      "entropy": 1.7236262162526448,
      "epoch": 0.30584164126225594,
      "grad_norm": 0.652289628982544,
      "learning_rate": 1.9297268785175647e-05,
      "loss": 1.3338,
      "mean_token_accuracy": 0.66497070590655,
      "num_tokens": 468357807.0,
      "step": 2784
    },
    {
      "entropy": 1.7121999263763428,
      "epoch": 0.3059514981736288,
      "grad_norm": 0.7053149938583374,
      "learning_rate": 1.9296648403329915e-05,
      "loss": 1.5589,
      "mean_token_accuracy": 0.6464631706476212,
      "num_tokens": 468557805.0,
      "step": 2785
    },
    {
      "entropy": 1.7528938154379528,
      "epoch": 0.30606135508500176,
      "grad_norm": 0.8355051279067993,
      "learning_rate": 1.9296027758898993e-05,
      "loss": 1.5363,
      "mean_token_accuracy": 0.6388404369354248,
      "num_tokens": 468705510.0,
      "step": 2786
    },
    {
      "entropy": 1.6805029014746349,
      "epoch": 0.3061712119963747,
      "grad_norm": 0.7608030438423157,
      "learning_rate": 1.9295406851902538e-05,
      "loss": 1.4483,
      "mean_token_accuracy": 0.6516820987065634,
      "num_tokens": 468892051.0,
      "step": 2787
    },
    {
      "entropy": 1.6512704094250996,
      "epoch": 0.30628106890774764,
      "grad_norm": 0.789167046546936,
      "learning_rate": 1.929478568236019e-05,
      "loss": 1.2027,
      "mean_token_accuracy": 0.6777097682158152,
      "num_tokens": 469054572.0,
      "step": 2788
    },
    {
      "entropy": 1.6551719705263774,
      "epoch": 0.3063909258191206,
      "grad_norm": 0.6679402589797974,
      "learning_rate": 1.9294164250291613e-05,
      "loss": 1.4609,
      "mean_token_accuracy": 0.6612751533587774,
      "num_tokens": 469218937.0,
      "step": 2789
    },
    {
      "entropy": 1.6761693557103474,
      "epoch": 0.3065007827304935,
      "grad_norm": 0.6211634278297424,
      "learning_rate": 1.9293542555716476e-05,
      "loss": 1.3792,
      "mean_token_accuracy": 0.6515985727310181,
      "num_tokens": 469472537.0,
      "step": 2790
    },
    {
      "entropy": 1.685540109872818,
      "epoch": 0.30661063964186647,
      "grad_norm": 0.7555694580078125,
      "learning_rate": 1.9292920598654455e-05,
      "loss": 1.2874,
      "mean_token_accuracy": 0.6632583638032278,
      "num_tokens": 469610592.0,
      "step": 2791
    },
    {
      "entropy": 1.760539670785268,
      "epoch": 0.3067204965532394,
      "grad_norm": 0.6980460286140442,
      "learning_rate": 1.9292298379125235e-05,
      "loss": 1.3597,
      "mean_token_accuracy": 0.6550954182942709,
      "num_tokens": 469752029.0,
      "step": 2792
    },
    {
      "entropy": 1.7144795854886372,
      "epoch": 0.30683035346461235,
      "grad_norm": 0.6551751494407654,
      "learning_rate": 1.9291675897148504e-05,
      "loss": 1.3658,
      "mean_token_accuracy": 0.6568573415279388,
      "num_tokens": 469937147.0,
      "step": 2793
    },
    {
      "entropy": 1.7677671909332275,
      "epoch": 0.3069402103759853,
      "grad_norm": 0.7456969618797302,
      "learning_rate": 1.9291053152743968e-05,
      "loss": 1.5226,
      "mean_token_accuracy": 0.6467147767543793,
      "num_tokens": 470105109.0,
      "step": 2794
    },
    {
      "entropy": 1.7279229164123535,
      "epoch": 0.30705006728735823,
      "grad_norm": 0.7341436743736267,
      "learning_rate": 1.929043014593134e-05,
      "loss": 1.3933,
      "mean_token_accuracy": 0.6459408948818842,
      "num_tokens": 470253996.0,
      "step": 2795
    },
    {
      "entropy": 1.7426668008168538,
      "epoch": 0.30715992419873117,
      "grad_norm": 0.7237141132354736,
      "learning_rate": 1.9289806876730328e-05,
      "loss": 1.3304,
      "mean_token_accuracy": 0.6563834051291147,
      "num_tokens": 470407684.0,
      "step": 2796
    },
    {
      "entropy": 1.7966994444529216,
      "epoch": 0.3072697811101041,
      "grad_norm": 0.6734642386436462,
      "learning_rate": 1.9289183345160666e-05,
      "loss": 1.368,
      "mean_token_accuracy": 0.6494917968908945,
      "num_tokens": 470537389.0,
      "step": 2797
    },
    {
      "entropy": 1.7864558796087902,
      "epoch": 0.30737963802147705,
      "grad_norm": 0.7371609210968018,
      "learning_rate": 1.9288559551242084e-05,
      "loss": 1.4408,
      "mean_token_accuracy": 0.651896004875501,
      "num_tokens": 470702673.0,
      "step": 2798
    },
    {
      "entropy": 1.7101215819517772,
      "epoch": 0.30748949493284994,
      "grad_norm": 0.9700989127159119,
      "learning_rate": 1.9287935494994333e-05,
      "loss": 1.4321,
      "mean_token_accuracy": 0.6406466712554296,
      "num_tokens": 470848334.0,
      "step": 2799
    },
    {
      "entropy": 1.66282253464063,
      "epoch": 0.3075993518442229,
      "grad_norm": 0.6381438970565796,
      "learning_rate": 1.9287311176437154e-05,
      "loss": 1.3278,
      "mean_token_accuracy": 0.6706396341323853,
      "num_tokens": 470980854.0,
      "step": 2800
    },
    {
      "entropy": 1.7123548885186513,
      "epoch": 0.3077092087555958,
      "grad_norm": 0.6777034401893616,
      "learning_rate": 1.928668659559031e-05,
      "loss": 1.2528,
      "mean_token_accuracy": 0.6732690334320068,
      "num_tokens": 471106170.0,
      "step": 2801
    },
    {
      "entropy": 1.6131497025489807,
      "epoch": 0.30781906566696876,
      "grad_norm": 0.6792572736740112,
      "learning_rate": 1.9286061752473575e-05,
      "loss": 1.3078,
      "mean_token_accuracy": 0.6727622449398041,
      "num_tokens": 471244822.0,
      "step": 2802
    },
    {
      "entropy": 1.731354941924413,
      "epoch": 0.3079289225783417,
      "grad_norm": 0.6826562881469727,
      "learning_rate": 1.9285436647106716e-05,
      "loss": 1.4002,
      "mean_token_accuracy": 0.6561285803715388,
      "num_tokens": 471422667.0,
      "step": 2803
    },
    {
      "entropy": 1.6713635822137196,
      "epoch": 0.30803877948971464,
      "grad_norm": 0.592697262763977,
      "learning_rate": 1.9284811279509518e-05,
      "loss": 1.46,
      "mean_token_accuracy": 0.649135539929072,
      "num_tokens": 471606192.0,
      "step": 2804
    },
    {
      "entropy": 1.702138513326645,
      "epoch": 0.3081486364010876,
      "grad_norm": 0.8116854429244995,
      "learning_rate": 1.928418564970178e-05,
      "loss": 1.2933,
      "mean_token_accuracy": 0.6709979226191839,
      "num_tokens": 471749051.0,
      "step": 2805
    },
    {
      "entropy": 1.6859862705071766,
      "epoch": 0.3082584933124605,
      "grad_norm": 0.670845091342926,
      "learning_rate": 1.9283559757703295e-05,
      "loss": 1.2985,
      "mean_token_accuracy": 0.6729146291812261,
      "num_tokens": 471883696.0,
      "step": 2806
    },
    {
      "entropy": 1.7104649444421132,
      "epoch": 0.30836835022383347,
      "grad_norm": 0.7185712456703186,
      "learning_rate": 1.928293360353388e-05,
      "loss": 1.4908,
      "mean_token_accuracy": 0.6591552595297495,
      "num_tokens": 472068070.0,
      "step": 2807
    },
    {
      "entropy": 1.6668047904968262,
      "epoch": 0.3084782071352064,
      "grad_norm": 0.6307313442230225,
      "learning_rate": 1.9282307187213346e-05,
      "loss": 1.2885,
      "mean_token_accuracy": 0.6734770586093267,
      "num_tokens": 472204796.0,
      "step": 2808
    },
    {
      "entropy": 1.756018191576004,
      "epoch": 0.30858806404657935,
      "grad_norm": 0.6855459213256836,
      "learning_rate": 1.928168050876152e-05,
      "loss": 1.4125,
      "mean_token_accuracy": 0.6466716329256693,
      "num_tokens": 472354680.0,
      "step": 2809
    },
    {
      "entropy": 1.7116002043088276,
      "epoch": 0.3086979209579523,
      "grad_norm": 0.7074426412582397,
      "learning_rate": 1.9281053568198245e-05,
      "loss": 1.3565,
      "mean_token_accuracy": 0.6588050077358881,
      "num_tokens": 472525501.0,
      "step": 2810
    },
    {
      "entropy": 1.6833085417747498,
      "epoch": 0.30880777786932523,
      "grad_norm": 0.7049890160560608,
      "learning_rate": 1.928042636554335e-05,
      "loss": 1.3164,
      "mean_token_accuracy": 0.6683538804451624,
      "num_tokens": 472719716.0,
      "step": 2811
    },
    {
      "entropy": 1.6787909964720409,
      "epoch": 0.3089176347806981,
      "grad_norm": 0.703137218952179,
      "learning_rate": 1.9279798900816696e-05,
      "loss": 1.3727,
      "mean_token_accuracy": 0.6661172757546107,
      "num_tokens": 472881173.0,
      "step": 2812
    },
    {
      "entropy": 1.7261568506558735,
      "epoch": 0.30902749169207105,
      "grad_norm": 0.6603509783744812,
      "learning_rate": 1.9279171174038132e-05,
      "loss": 1.3456,
      "mean_token_accuracy": 0.6602363437414169,
      "num_tokens": 473034728.0,
      "step": 2813
    },
    {
      "entropy": 1.685040682554245,
      "epoch": 0.309137348603444,
      "grad_norm": 0.743989109992981,
      "learning_rate": 1.9278543185227535e-05,
      "loss": 1.3698,
      "mean_token_accuracy": 0.6495349953571955,
      "num_tokens": 473229426.0,
      "step": 2814
    },
    {
      "entropy": 1.7586186130841572,
      "epoch": 0.30924720551481694,
      "grad_norm": 0.7787970900535583,
      "learning_rate": 1.9277914934404774e-05,
      "loss": 1.4331,
      "mean_token_accuracy": 0.6600687354803085,
      "num_tokens": 473377396.0,
      "step": 2815
    },
    {
      "entropy": 1.6828500429789226,
      "epoch": 0.3093570624261899,
      "grad_norm": 0.6871913075447083,
      "learning_rate": 1.927728642158974e-05,
      "loss": 1.3833,
      "mean_token_accuracy": 0.6608909120162328,
      "num_tokens": 473539223.0,
      "step": 2816
    },
    {
      "entropy": 1.749051849047343,
      "epoch": 0.3094669193375628,
      "grad_norm": 0.7910235524177551,
      "learning_rate": 1.9276657646802318e-05,
      "loss": 1.4661,
      "mean_token_accuracy": 0.6595475325981776,
      "num_tokens": 473693265.0,
      "step": 2817
    },
    {
      "entropy": 1.6784795920054119,
      "epoch": 0.30957677624893576,
      "grad_norm": 0.5966885089874268,
      "learning_rate": 1.9276028610062412e-05,
      "loss": 1.3034,
      "mean_token_accuracy": 0.6713368693987528,
      "num_tokens": 473845058.0,
      "step": 2818
    },
    {
      "entropy": 1.662716676791509,
      "epoch": 0.3096866331603087,
      "grad_norm": 0.6432068347930908,
      "learning_rate": 1.927539931138993e-05,
      "loss": 1.3785,
      "mean_token_accuracy": 0.6545740862687429,
      "num_tokens": 474043963.0,
      "step": 2819
    },
    {
      "entropy": 1.7873293658097584,
      "epoch": 0.30979649007168164,
      "grad_norm": 0.733140766620636,
      "learning_rate": 1.9274769750804786e-05,
      "loss": 1.4616,
      "mean_token_accuracy": 0.6570829351743063,
      "num_tokens": 474264410.0,
      "step": 2820
    },
    {
      "entropy": 1.6941826542218525,
      "epoch": 0.3099063469830546,
      "grad_norm": 0.6925363540649414,
      "learning_rate": 1.9274139928326913e-05,
      "loss": 1.206,
      "mean_token_accuracy": 0.6815744390090307,
      "num_tokens": 474365234.0,
      "step": 2821
    },
    {
      "entropy": 1.690369079510371,
      "epoch": 0.3100162038944275,
      "grad_norm": 0.5778855681419373,
      "learning_rate": 1.927350984397623e-05,
      "loss": 1.3985,
      "mean_token_accuracy": 0.655535156528155,
      "num_tokens": 474574557.0,
      "step": 2822
    },
    {
      "entropy": 1.639299343029658,
      "epoch": 0.31012606080580046,
      "grad_norm": 0.6779983639717102,
      "learning_rate": 1.92728794977727e-05,
      "loss": 1.3839,
      "mean_token_accuracy": 0.6478785822788874,
      "num_tokens": 474785559.0,
      "step": 2823
    },
    {
      "entropy": 1.6963231166203816,
      "epoch": 0.3102359177171734,
      "grad_norm": 0.6037493944168091,
      "learning_rate": 1.9272248889736255e-05,
      "loss": 1.4553,
      "mean_token_accuracy": 0.6422694027423859,
      "num_tokens": 474970243.0,
      "step": 2824
    },
    {
      "entropy": 1.7773303886254628,
      "epoch": 0.31034577462854634,
      "grad_norm": 0.6794271469116211,
      "learning_rate": 1.927161801988686e-05,
      "loss": 1.454,
      "mean_token_accuracy": 0.6485249102115631,
      "num_tokens": 475167904.0,
      "step": 2825
    },
    {
      "entropy": 1.7010780572891235,
      "epoch": 0.31045563153991923,
      "grad_norm": 0.7082254886627197,
      "learning_rate": 1.9270986888244486e-05,
      "loss": 1.3759,
      "mean_token_accuracy": 0.6544408549865087,
      "num_tokens": 475314141.0,
      "step": 2826
    },
    {
      "entropy": 1.7761707603931427,
      "epoch": 0.31056548845129217,
      "grad_norm": 0.6975213289260864,
      "learning_rate": 1.92703554948291e-05,
      "loss": 1.5001,
      "mean_token_accuracy": 0.6315238277117411,
      "num_tokens": 475504348.0,
      "step": 2827
    },
    {
      "entropy": 1.7582517365614574,
      "epoch": 0.3106753453626651,
      "grad_norm": 0.7386556267738342,
      "learning_rate": 1.926972383966069e-05,
      "loss": 1.548,
      "mean_token_accuracy": 0.6362548967202505,
      "num_tokens": 475668498.0,
      "step": 2828
    },
    {
      "entropy": 1.7129935026168823,
      "epoch": 0.31078520227403805,
      "grad_norm": 0.6855206489562988,
      "learning_rate": 1.9269091922759248e-05,
      "loss": 1.4024,
      "mean_token_accuracy": 0.6538207034269968,
      "num_tokens": 475810430.0,
      "step": 2829
    },
    {
      "entropy": 1.6759546200434368,
      "epoch": 0.310895059185411,
      "grad_norm": 0.7332449555397034,
      "learning_rate": 1.9268459744144775e-05,
      "loss": 1.3902,
      "mean_token_accuracy": 0.6686356763044993,
      "num_tokens": 476027236.0,
      "step": 2830
    },
    {
      "entropy": 1.7742613156636555,
      "epoch": 0.31100491609678393,
      "grad_norm": 0.6197798252105713,
      "learning_rate": 1.9267827303837277e-05,
      "loss": 1.4344,
      "mean_token_accuracy": 0.6507979234059652,
      "num_tokens": 476190360.0,
      "step": 2831
    },
    {
      "entropy": 1.6519160469373066,
      "epoch": 0.3111147730081569,
      "grad_norm": 0.5655571818351746,
      "learning_rate": 1.9267194601856765e-05,
      "loss": 1.3515,
      "mean_token_accuracy": 0.6520318339268366,
      "num_tokens": 476376327.0,
      "step": 2832
    },
    {
      "entropy": 1.7403542399406433,
      "epoch": 0.3112246299195298,
      "grad_norm": 0.7627872228622437,
      "learning_rate": 1.9266561638223272e-05,
      "loss": 1.2572,
      "mean_token_accuracy": 0.6759726454814275,
      "num_tokens": 476486395.0,
      "step": 2833
    },
    {
      "entropy": 1.767777254184087,
      "epoch": 0.31133448683090276,
      "grad_norm": 0.7002077102661133,
      "learning_rate": 1.926592841295683e-05,
      "loss": 1.4234,
      "mean_token_accuracy": 0.6400815695524216,
      "num_tokens": 476665343.0,
      "step": 2834
    },
    {
      "entropy": 1.6697245140870411,
      "epoch": 0.3114443437422757,
      "grad_norm": 0.6324102282524109,
      "learning_rate": 1.9265294926077476e-05,
      "loss": 1.4785,
      "mean_token_accuracy": 0.6443575223286947,
      "num_tokens": 476858023.0,
      "step": 2835
    },
    {
      "entropy": 1.6648296117782593,
      "epoch": 0.31155420065364864,
      "grad_norm": 0.6571188569068909,
      "learning_rate": 1.9264661177605264e-05,
      "loss": 1.281,
      "mean_token_accuracy": 0.6755544741948446,
      "num_tokens": 477049028.0,
      "step": 2836
    },
    {
      "entropy": 1.7388223707675934,
      "epoch": 0.3116640575650216,
      "grad_norm": 0.7424740195274353,
      "learning_rate": 1.926402716756025e-05,
      "loss": 1.4497,
      "mean_token_accuracy": 0.6438274731238683,
      "num_tokens": 477173446.0,
      "step": 2837
    },
    {
      "entropy": 1.7497480809688568,
      "epoch": 0.3117739144763945,
      "grad_norm": 0.7240679860115051,
      "learning_rate": 1.9263392895962497e-05,
      "loss": 1.4083,
      "mean_token_accuracy": 0.6496013253927231,
      "num_tokens": 477314695.0,
      "step": 2838
    },
    {
      "entropy": 1.6946297883987427,
      "epoch": 0.3118837713877674,
      "grad_norm": 0.680553674697876,
      "learning_rate": 1.9262758362832082e-05,
      "loss": 1.272,
      "mean_token_accuracy": 0.6792226930459341,
      "num_tokens": 477478810.0,
      "step": 2839
    },
    {
      "entropy": 1.7206788162390392,
      "epoch": 0.31199362829914035,
      "grad_norm": 0.7550413012504578,
      "learning_rate": 1.9262123568189094e-05,
      "loss": 1.4304,
      "mean_token_accuracy": 0.6598779608805975,
      "num_tokens": 477598456.0,
      "step": 2840
    },
    {
      "entropy": 1.655482719341914,
      "epoch": 0.3121034852105133,
      "grad_norm": 0.6688495874404907,
      "learning_rate": 1.9261488512053615e-05,
      "loss": 1.2902,
      "mean_token_accuracy": 0.667375867565473,
      "num_tokens": 477733015.0,
      "step": 2841
    },
    {
      "entropy": 1.727291077375412,
      "epoch": 0.31221334212188623,
      "grad_norm": 0.7079230546951294,
      "learning_rate": 1.9260853194445743e-05,
      "loss": 1.4079,
      "mean_token_accuracy": 0.6517117569843928,
      "num_tokens": 477897769.0,
      "step": 2842
    },
    {
      "entropy": 1.7456689874331157,
      "epoch": 0.31232319903325917,
      "grad_norm": 0.6888191103935242,
      "learning_rate": 1.9260217615385593e-05,
      "loss": 1.5706,
      "mean_token_accuracy": 0.6395171880722046,
      "num_tokens": 478082329.0,
      "step": 2843
    },
    {
      "entropy": 1.7743544578552246,
      "epoch": 0.3124330559446321,
      "grad_norm": 0.7306809425354004,
      "learning_rate": 1.9259581774893278e-05,
      "loss": 1.3308,
      "mean_token_accuracy": 0.660937691728274,
      "num_tokens": 478250478.0,
      "step": 2844
    },
    {
      "entropy": 1.7033919493357341,
      "epoch": 0.31254291285600505,
      "grad_norm": 0.7696589827537537,
      "learning_rate": 1.9258945672988926e-05,
      "loss": 1.3718,
      "mean_token_accuracy": 0.6629279802242914,
      "num_tokens": 478402917.0,
      "step": 2845
    },
    {
      "entropy": 1.6651720503966014,
      "epoch": 0.312652769767378,
      "grad_norm": 0.7585199475288391,
      "learning_rate": 1.925830930969266e-05,
      "loss": 1.2988,
      "mean_token_accuracy": 0.675694132844607,
      "num_tokens": 478585743.0,
      "step": 2846
    },
    {
      "entropy": 1.7346419990062714,
      "epoch": 0.31276262667875093,
      "grad_norm": 0.7175132036209106,
      "learning_rate": 1.9257672685024625e-05,
      "loss": 1.5035,
      "mean_token_accuracy": 0.6487277994553248,
      "num_tokens": 478737605.0,
      "step": 2847
    },
    {
      "entropy": 1.714732418457667,
      "epoch": 0.3128724835901239,
      "grad_norm": 0.7112360596656799,
      "learning_rate": 1.9257035799004974e-05,
      "loss": 1.5867,
      "mean_token_accuracy": 0.6398107608159384,
      "num_tokens": 478931966.0,
      "step": 2848
    },
    {
      "entropy": 1.6614445745944977,
      "epoch": 0.3129823405014968,
      "grad_norm": 0.6705912351608276,
      "learning_rate": 1.925639865165386e-05,
      "loss": 1.2835,
      "mean_token_accuracy": 0.67622738579909,
      "num_tokens": 479049933.0,
      "step": 2849
    },
    {
      "entropy": 1.7204997936884563,
      "epoch": 0.31309219741286975,
      "grad_norm": 0.5869386196136475,
      "learning_rate": 1.9255761242991445e-05,
      "loss": 1.4058,
      "mean_token_accuracy": 0.6542830715576807,
      "num_tokens": 479252205.0,
      "step": 2850
    },
    {
      "entropy": 1.7119795382022858,
      "epoch": 0.3132020543242427,
      "grad_norm": 0.6954273581504822,
      "learning_rate": 1.925512357303791e-05,
      "loss": 1.3548,
      "mean_token_accuracy": 0.6612391769886017,
      "num_tokens": 479422251.0,
      "step": 2851
    },
    {
      "entropy": 1.6646559834480286,
      "epoch": 0.31331191123561564,
      "grad_norm": 0.8026860952377319,
      "learning_rate": 1.9254485641813434e-05,
      "loss": 1.4965,
      "mean_token_accuracy": 0.6526677558819453,
      "num_tokens": 479628173.0,
      "step": 2852
    },
    {
      "entropy": 1.7153493762016296,
      "epoch": 0.3134217681469885,
      "grad_norm": 0.6951051950454712,
      "learning_rate": 1.9253847449338202e-05,
      "loss": 1.3979,
      "mean_token_accuracy": 0.6515944103399912,
      "num_tokens": 479815276.0,
      "step": 2853
    },
    {
      "entropy": 1.6854738493760426,
      "epoch": 0.31353162505836146,
      "grad_norm": 0.6943417191505432,
      "learning_rate": 1.9253208995632426e-05,
      "loss": 1.3106,
      "mean_token_accuracy": 0.6591322422027588,
      "num_tokens": 480010470.0,
      "step": 2854
    },
    {
      "entropy": 1.7210654417673747,
      "epoch": 0.3136414819697344,
      "grad_norm": 0.7324227690696716,
      "learning_rate": 1.9252570280716298e-05,
      "loss": 1.2533,
      "mean_token_accuracy": 0.6761431097984314,
      "num_tokens": 480149477.0,
      "step": 2855
    },
    {
      "entropy": 1.7122070292631786,
      "epoch": 0.31375133888110734,
      "grad_norm": 0.723173975944519,
      "learning_rate": 1.9251931304610042e-05,
      "loss": 1.3591,
      "mean_token_accuracy": 0.6570076793432236,
      "num_tokens": 480358379.0,
      "step": 2856
    },
    {
      "entropy": 1.7481829424699147,
      "epoch": 0.3138611957924803,
      "grad_norm": 0.7296705842018127,
      "learning_rate": 1.925129206733388e-05,
      "loss": 1.352,
      "mean_token_accuracy": 0.6633712897698084,
      "num_tokens": 480463609.0,
      "step": 2857
    },
    {
      "entropy": 1.6913323799769084,
      "epoch": 0.3139710527038532,
      "grad_norm": 0.6928101181983948,
      "learning_rate": 1.925065256890804e-05,
      "loss": 1.4533,
      "mean_token_accuracy": 0.6504810303449631,
      "num_tokens": 480692043.0,
      "step": 2858
    },
    {
      "entropy": 1.6184549927711487,
      "epoch": 0.31408090961522617,
      "grad_norm": 0.6742601990699768,
      "learning_rate": 1.9250012809352764e-05,
      "loss": 1.2693,
      "mean_token_accuracy": 0.6729711244503657,
      "num_tokens": 480841939.0,
      "step": 2859
    },
    {
      "entropy": 1.763518790404002,
      "epoch": 0.3141907665265991,
      "grad_norm": 0.9082183241844177,
      "learning_rate": 1.92493727886883e-05,
      "loss": 1.4003,
      "mean_token_accuracy": 0.6487570206324259,
      "num_tokens": 480978037.0,
      "step": 2860
    },
    {
      "entropy": 1.6946383118629456,
      "epoch": 0.31430062343797205,
      "grad_norm": 0.613614559173584,
      "learning_rate": 1.9248732506934902e-05,
      "loss": 1.3008,
      "mean_token_accuracy": 0.6719754189252853,
      "num_tokens": 481144692.0,
      "step": 2861
    },
    {
      "entropy": 1.6866445640722911,
      "epoch": 0.314410480349345,
      "grad_norm": 0.6680022478103638,
      "learning_rate": 1.924809196411284e-05,
      "loss": 1.3679,
      "mean_token_accuracy": 0.6613704959551493,
      "num_tokens": 481335314.0,
      "step": 2862
    },
    {
      "entropy": 1.710518628358841,
      "epoch": 0.31452033726071793,
      "grad_norm": 0.5925086140632629,
      "learning_rate": 1.9247451160242385e-05,
      "loss": 1.4802,
      "mean_token_accuracy": 0.6449962158997854,
      "num_tokens": 481534394.0,
      "step": 2863
    },
    {
      "entropy": 1.7207396229108174,
      "epoch": 0.31463019417209087,
      "grad_norm": 0.7651747465133667,
      "learning_rate": 1.9246810095343815e-05,
      "loss": 1.5563,
      "mean_token_accuracy": 0.6396962677439054,
      "num_tokens": 481754072.0,
      "step": 2864
    },
    {
      "entropy": 1.6443149745464325,
      "epoch": 0.3147400510834638,
      "grad_norm": 0.6283020973205566,
      "learning_rate": 1.9246168769437426e-05,
      "loss": 1.2379,
      "mean_token_accuracy": 0.6734432826439539,
      "num_tokens": 481925605.0,
      "step": 2865
    },
    {
      "entropy": 1.7003800670305889,
      "epoch": 0.3148499079948367,
      "grad_norm": 0.6588708162307739,
      "learning_rate": 1.9245527182543506e-05,
      "loss": 1.4739,
      "mean_token_accuracy": 0.6499484032392502,
      "num_tokens": 482134082.0,
      "step": 2866
    },
    {
      "entropy": 1.6552692552407582,
      "epoch": 0.31495976490620964,
      "grad_norm": 0.7375697493553162,
      "learning_rate": 1.9244885334682367e-05,
      "loss": 1.2952,
      "mean_token_accuracy": 0.6863390256961187,
      "num_tokens": 482280461.0,
      "step": 2867
    },
    {
      "entropy": 1.682984471321106,
      "epoch": 0.3150696218175826,
      "grad_norm": 0.6565489172935486,
      "learning_rate": 1.9244243225874328e-05,
      "loss": 1.321,
      "mean_token_accuracy": 0.6630292187134424,
      "num_tokens": 482426569.0,
      "step": 2868
    },
    {
      "entropy": 1.7070794304211934,
      "epoch": 0.3151794787289555,
      "grad_norm": 0.6953569650650024,
      "learning_rate": 1.92436008561397e-05,
      "loss": 1.2777,
      "mean_token_accuracy": 0.6620368659496307,
      "num_tokens": 482561769.0,
      "step": 2869
    },
    {
      "entropy": 1.7198736766974132,
      "epoch": 0.31528933564032846,
      "grad_norm": 0.6899498701095581,
      "learning_rate": 1.924295822549882e-05,
      "loss": 1.3307,
      "mean_token_accuracy": 0.6546566337347031,
      "num_tokens": 482694606.0,
      "step": 2870
    },
    {
      "entropy": 1.7433649897575378,
      "epoch": 0.3153991925517014,
      "grad_norm": 0.624694287776947,
      "learning_rate": 1.9242315333972028e-05,
      "loss": 1.464,
      "mean_token_accuracy": 0.6367517908414205,
      "num_tokens": 482880755.0,
      "step": 2871
    },
    {
      "entropy": 1.6819024284680684,
      "epoch": 0.31550904946307434,
      "grad_norm": 1.0012410879135132,
      "learning_rate": 1.924167218157967e-05,
      "loss": 1.3411,
      "mean_token_accuracy": 0.6579955021540324,
      "num_tokens": 483037033.0,
      "step": 2872
    },
    {
      "entropy": 1.7648041447003682,
      "epoch": 0.3156189063744473,
      "grad_norm": 0.772260844707489,
      "learning_rate": 1.9241028768342097e-05,
      "loss": 1.4098,
      "mean_token_accuracy": 0.6752532223860422,
      "num_tokens": 483178611.0,
      "step": 2873
    },
    {
      "entropy": 1.741791735092799,
      "epoch": 0.3157287632858202,
      "grad_norm": 0.6674953103065491,
      "learning_rate": 1.9240385094279682e-05,
      "loss": 1.3883,
      "mean_token_accuracy": 0.6550341794888178,
      "num_tokens": 483365090.0,
      "step": 2874
    },
    {
      "entropy": 1.7017056147257488,
      "epoch": 0.31583862019719317,
      "grad_norm": 0.7384848594665527,
      "learning_rate": 1.923974115941279e-05,
      "loss": 1.4,
      "mean_token_accuracy": 0.6497112860282263,
      "num_tokens": 483590442.0,
      "step": 2875
    },
    {
      "entropy": 1.7605169018109639,
      "epoch": 0.3159484771085661,
      "grad_norm": 0.6867170929908752,
      "learning_rate": 1.92390969637618e-05,
      "loss": 1.4002,
      "mean_token_accuracy": 0.6571317712465922,
      "num_tokens": 483711913.0,
      "step": 2876
    },
    {
      "entropy": 1.7703985174496968,
      "epoch": 0.31605833401993905,
      "grad_norm": 0.7674762010574341,
      "learning_rate": 1.9238452507347112e-05,
      "loss": 1.3849,
      "mean_token_accuracy": 0.659190704425176,
      "num_tokens": 483868222.0,
      "step": 2877
    },
    {
      "entropy": 1.7050415376822154,
      "epoch": 0.316168190931312,
      "grad_norm": 0.69243985414505,
      "learning_rate": 1.9237807790189108e-05,
      "loss": 1.4312,
      "mean_token_accuracy": 0.6475951820611954,
      "num_tokens": 484031399.0,
      "step": 2878
    },
    {
      "entropy": 1.6624840299288433,
      "epoch": 0.31627804784268493,
      "grad_norm": 0.670750617980957,
      "learning_rate": 1.9237162812308204e-05,
      "loss": 1.3691,
      "mean_token_accuracy": 0.657655676205953,
      "num_tokens": 484182873.0,
      "step": 2879
    },
    {
      "entropy": 1.748474011818568,
      "epoch": 0.3163879047540578,
      "grad_norm": 0.7633766531944275,
      "learning_rate": 1.9236517573724808e-05,
      "loss": 1.4173,
      "mean_token_accuracy": 0.6639850089947382,
      "num_tokens": 484326382.0,
      "step": 2880
    },
    {
      "entropy": 1.7452166378498077,
      "epoch": 0.31649776166543075,
      "grad_norm": 0.6374519467353821,
      "learning_rate": 1.923587207445934e-05,
      "loss": 1.428,
      "mean_token_accuracy": 0.643037294348081,
      "num_tokens": 484478175.0,
      "step": 2881
    },
    {
      "entropy": 1.7703827420870464,
      "epoch": 0.3166076185768037,
      "grad_norm": 0.6338856816291809,
      "learning_rate": 1.923522631453223e-05,
      "loss": 1.4608,
      "mean_token_accuracy": 0.6400000900030136,
      "num_tokens": 484684598.0,
      "step": 2882
    },
    {
      "entropy": 1.6763095458348591,
      "epoch": 0.31671747548817664,
      "grad_norm": 0.7417557835578918,
      "learning_rate": 1.9234580293963922e-05,
      "loss": 1.377,
      "mean_token_accuracy": 0.6634032080570856,
      "num_tokens": 484851276.0,
      "step": 2883
    },
    {
      "entropy": 1.7742979725201924,
      "epoch": 0.3168273323995496,
      "grad_norm": 0.8382861018180847,
      "learning_rate": 1.9233934012774855e-05,
      "loss": 1.3599,
      "mean_token_accuracy": 0.6617914984623591,
      "num_tokens": 485027045.0,
      "step": 2884
    },
    {
      "entropy": 1.6628169218699138,
      "epoch": 0.3169371893109225,
      "grad_norm": 0.6727002263069153,
      "learning_rate": 1.923328747098549e-05,
      "loss": 1.2461,
      "mean_token_accuracy": 0.6721131453911463,
      "num_tokens": 485188142.0,
      "step": 2885
    },
    {
      "entropy": 1.6688977181911469,
      "epoch": 0.31704704622229546,
      "grad_norm": 0.6404067277908325,
      "learning_rate": 1.9232640668616284e-05,
      "loss": 1.4282,
      "mean_token_accuracy": 0.6530584941307703,
      "num_tokens": 485375508.0,
      "step": 2886
    },
    {
      "entropy": 1.717422644297282,
      "epoch": 0.3171569031336684,
      "grad_norm": 0.6284343004226685,
      "learning_rate": 1.923199360568771e-05,
      "loss": 1.3367,
      "mean_token_accuracy": 0.6689218978087107,
      "num_tokens": 485534089.0,
      "step": 2887
    },
    {
      "entropy": 1.6929986675580342,
      "epoch": 0.31726676004504134,
      "grad_norm": 0.6857246160507202,
      "learning_rate": 1.923134628222025e-05,
      "loss": 1.357,
      "mean_token_accuracy": 0.663006509343783,
      "num_tokens": 485680262.0,
      "step": 2888
    },
    {
      "entropy": 1.680146853129069,
      "epoch": 0.3173766169564143,
      "grad_norm": 0.6327770352363586,
      "learning_rate": 1.923069869823439e-05,
      "loss": 1.4815,
      "mean_token_accuracy": 0.6378313849369684,
      "num_tokens": 485910473.0,
      "step": 2889
    },
    {
      "entropy": 1.752420961856842,
      "epoch": 0.3174864738677872,
      "grad_norm": 0.7673040628433228,
      "learning_rate": 1.9230050853750624e-05,
      "loss": 1.4938,
      "mean_token_accuracy": 0.6509816845258077,
      "num_tokens": 486064919.0,
      "step": 2890
    },
    {
      "entropy": 1.7698513368765514,
      "epoch": 0.31759633077916016,
      "grad_norm": 0.9164318442344666,
      "learning_rate": 1.9229402748789456e-05,
      "loss": 1.2388,
      "mean_token_accuracy": 0.6785450875759125,
      "num_tokens": 486196513.0,
      "step": 2891
    },
    {
      "entropy": 1.7393431663513184,
      "epoch": 0.3177061876905331,
      "grad_norm": 0.6718737483024597,
      "learning_rate": 1.92287543833714e-05,
      "loss": 1.3484,
      "mean_token_accuracy": 0.6540123621622721,
      "num_tokens": 486378261.0,
      "step": 2892
    },
    {
      "entropy": 1.707463949918747,
      "epoch": 0.31781604460190604,
      "grad_norm": 0.8465375304222107,
      "learning_rate": 1.9228105757516974e-05,
      "loss": 1.3403,
      "mean_token_accuracy": 0.6693908423185349,
      "num_tokens": 486592874.0,
      "step": 2893
    },
    {
      "entropy": 1.6605522235234578,
      "epoch": 0.31792590151327893,
      "grad_norm": 0.6796486377716064,
      "learning_rate": 1.9227456871246714e-05,
      "loss": 1.3849,
      "mean_token_accuracy": 0.6787869185209274,
      "num_tokens": 486712525.0,
      "step": 2894
    },
    {
      "entropy": 1.7513254880905151,
      "epoch": 0.31803575842465187,
      "grad_norm": 0.7111853957176208,
      "learning_rate": 1.9226807724581148e-05,
      "loss": 1.4619,
      "mean_token_accuracy": 0.6655588646729788,
      "num_tokens": 486866331.0,
      "step": 2895
    },
    {
      "entropy": 1.7475620210170746,
      "epoch": 0.3181456153360248,
      "grad_norm": 0.737848699092865,
      "learning_rate": 1.922615831754082e-05,
      "loss": 1.3467,
      "mean_token_accuracy": 0.6666428198417028,
      "num_tokens": 487025593.0,
      "step": 2896
    },
    {
      "entropy": 1.6630546947320302,
      "epoch": 0.31825547224739775,
      "grad_norm": 0.8860530853271484,
      "learning_rate": 1.9225508650146294e-05,
      "loss": 1.5313,
      "mean_token_accuracy": 0.6354395796855291,
      "num_tokens": 487258804.0,
      "step": 2897
    },
    {
      "entropy": 1.753849446773529,
      "epoch": 0.3183653291587707,
      "grad_norm": 0.8779124617576599,
      "learning_rate": 1.9224858722418122e-05,
      "loss": 1.581,
      "mean_token_accuracy": 0.6377290387948354,
      "num_tokens": 487413807.0,
      "step": 2898
    },
    {
      "entropy": 1.6524033447106679,
      "epoch": 0.31847518607014363,
      "grad_norm": 0.7529869079589844,
      "learning_rate": 1.922420853437688e-05,
      "loss": 1.1943,
      "mean_token_accuracy": 0.679450144370397,
      "num_tokens": 487517690.0,
      "step": 2899
    },
    {
      "entropy": 1.6763293743133545,
      "epoch": 0.3185850429815166,
      "grad_norm": 0.656287670135498,
      "learning_rate": 1.9223558086043147e-05,
      "loss": 1.3652,
      "mean_token_accuracy": 0.6669528832038244,
      "num_tokens": 487677299.0,
      "step": 2900
    },
    {
      "entropy": 1.6773990790049236,
      "epoch": 0.3186948998928895,
      "grad_norm": 0.7613338828086853,
      "learning_rate": 1.92229073774375e-05,
      "loss": 1.5412,
      "mean_token_accuracy": 0.6458795020977656,
      "num_tokens": 487835814.0,
      "step": 2901
    },
    {
      "entropy": 1.736249138911565,
      "epoch": 0.31880475680426246,
      "grad_norm": 0.5995625853538513,
      "learning_rate": 1.9222256408580545e-05,
      "loss": 1.3598,
      "mean_token_accuracy": 0.6582354704538981,
      "num_tokens": 487995593.0,
      "step": 2902
    },
    {
      "entropy": 1.715472271045049,
      "epoch": 0.3189146137156354,
      "grad_norm": 0.6768810153007507,
      "learning_rate": 1.9221605179492878e-05,
      "loss": 1.3586,
      "mean_token_accuracy": 0.6697869201501211,
      "num_tokens": 488186812.0,
      "step": 2903
    },
    {
      "entropy": 1.7300209204355876,
      "epoch": 0.31902447062700834,
      "grad_norm": 0.7611496448516846,
      "learning_rate": 1.922095369019511e-05,
      "loss": 1.4155,
      "mean_token_accuracy": 0.6667229980230331,
      "num_tokens": 488359701.0,
      "step": 2904
    },
    {
      "entropy": 1.7256126403808594,
      "epoch": 0.3191343275383813,
      "grad_norm": 0.6969589591026306,
      "learning_rate": 1.922030194070786e-05,
      "loss": 1.4225,
      "mean_token_accuracy": 0.6631851394971212,
      "num_tokens": 488511590.0,
      "step": 2905
    },
    {
      "entropy": 1.678377350171407,
      "epoch": 0.3192441844497542,
      "grad_norm": 0.6946367025375366,
      "learning_rate": 1.9219649931051764e-05,
      "loss": 1.3259,
      "mean_token_accuracy": 0.6693602552016577,
      "num_tokens": 488646530.0,
      "step": 2906
    },
    {
      "entropy": 1.6788996458053589,
      "epoch": 0.3193540413611271,
      "grad_norm": 0.5399008989334106,
      "learning_rate": 1.9218997661247446e-05,
      "loss": 1.3327,
      "mean_token_accuracy": 0.6513966371615728,
      "num_tokens": 488871769.0,
      "step": 2907
    },
    {
      "entropy": 1.695472886164983,
      "epoch": 0.31946389827250005,
      "grad_norm": 0.7106685638427734,
      "learning_rate": 1.921834513131556e-05,
      "loss": 1.3448,
      "mean_token_accuracy": 0.6767653375864029,
      "num_tokens": 489036941.0,
      "step": 2908
    },
    {
      "entropy": 1.750376472870509,
      "epoch": 0.319573755183873,
      "grad_norm": 0.6660662889480591,
      "learning_rate": 1.921769234127675e-05,
      "loss": 1.3957,
      "mean_token_accuracy": 0.6495022475719452,
      "num_tokens": 489212402.0,
      "step": 2909
    },
    {
      "entropy": 1.6709170639514923,
      "epoch": 0.31968361209524593,
      "grad_norm": 0.6726402044296265,
      "learning_rate": 1.9217039291151684e-05,
      "loss": 1.2903,
      "mean_token_accuracy": 0.6766814192136129,
      "num_tokens": 489359701.0,
      "step": 2910
    },
    {
      "entropy": 1.772289474805196,
      "epoch": 0.31979346900661887,
      "grad_norm": 0.8132745027542114,
      "learning_rate": 1.9216385980961027e-05,
      "loss": 1.3114,
      "mean_token_accuracy": 0.6673167099555334,
      "num_tokens": 489509117.0,
      "step": 2911
    },
    {
      "entropy": 1.6465057233969371,
      "epoch": 0.3199033259179918,
      "grad_norm": 0.6829494833946228,
      "learning_rate": 1.9215732410725453e-05,
      "loss": 1.4098,
      "mean_token_accuracy": 0.6528383443752924,
      "num_tokens": 489687106.0,
      "step": 2912
    },
    {
      "entropy": 1.6819744805494945,
      "epoch": 0.32001318282936475,
      "grad_norm": 0.6408959031105042,
      "learning_rate": 1.9215078580465653e-05,
      "loss": 1.3749,
      "mean_token_accuracy": 0.6629981398582458,
      "num_tokens": 489879747.0,
      "step": 2913
    },
    {
      "entropy": 1.7291929125785828,
      "epoch": 0.3201230397407377,
      "grad_norm": 0.7077094912528992,
      "learning_rate": 1.9214424490202316e-05,
      "loss": 1.4732,
      "mean_token_accuracy": 0.6318852504094442,
      "num_tokens": 490037336.0,
      "step": 2914
    },
    {
      "entropy": 1.7284752825895946,
      "epoch": 0.32023289665211063,
      "grad_norm": 0.6826415657997131,
      "learning_rate": 1.9213770139956145e-05,
      "loss": 1.413,
      "mean_token_accuracy": 0.6539119978745779,
      "num_tokens": 490202718.0,
      "step": 2915
    },
    {
      "entropy": 1.6593516568342845,
      "epoch": 0.3203427535634836,
      "grad_norm": 0.6397992372512817,
      "learning_rate": 1.921311552974785e-05,
      "loss": 1.3014,
      "mean_token_accuracy": 0.6723136901855469,
      "num_tokens": 490349621.0,
      "step": 2916
    },
    {
      "entropy": 1.7860759397347767,
      "epoch": 0.3204526104748565,
      "grad_norm": 0.6551001071929932,
      "learning_rate": 1.9212460659598153e-05,
      "loss": 1.3407,
      "mean_token_accuracy": 0.6589092761278152,
      "num_tokens": 490457337.0,
      "step": 2917
    },
    {
      "entropy": 1.730087826649348,
      "epoch": 0.32056246738622945,
      "grad_norm": 0.7016686201095581,
      "learning_rate": 1.9211805529527775e-05,
      "loss": 1.484,
      "mean_token_accuracy": 0.6437141746282578,
      "num_tokens": 490669111.0,
      "step": 2918
    },
    {
      "entropy": 1.6922438045342763,
      "epoch": 0.3206723242976024,
      "grad_norm": 0.7173215746879578,
      "learning_rate": 1.921115013955745e-05,
      "loss": 1.4722,
      "mean_token_accuracy": 0.6466464251279831,
      "num_tokens": 490849927.0,
      "step": 2919
    },
    {
      "entropy": 1.7310430804888408,
      "epoch": 0.32078218120897534,
      "grad_norm": 0.7087364196777344,
      "learning_rate": 1.9210494489707926e-05,
      "loss": 1.3491,
      "mean_token_accuracy": 0.66358715792497,
      "num_tokens": 490961402.0,
      "step": 2920
    },
    {
      "entropy": 1.6876995464166005,
      "epoch": 0.3208920381203482,
      "grad_norm": 0.697143018245697,
      "learning_rate": 1.9209838579999947e-05,
      "loss": 1.3488,
      "mean_token_accuracy": 0.6534036248922348,
      "num_tokens": 491129298.0,
      "step": 2921
    },
    {
      "entropy": 1.680976579586665,
      "epoch": 0.32100189503172116,
      "grad_norm": 0.7552234530448914,
      "learning_rate": 1.920918241045428e-05,
      "loss": 1.5304,
      "mean_token_accuracy": 0.6349671731392542,
      "num_tokens": 491341947.0,
      "step": 2922
    },
    {
      "entropy": 1.6714160442352295,
      "epoch": 0.3211117519430941,
      "grad_norm": 0.6923167109489441,
      "learning_rate": 1.920852598109169e-05,
      "loss": 1.2721,
      "mean_token_accuracy": 0.678156390786171,
      "num_tokens": 491468492.0,
      "step": 2923
    },
    {
      "entropy": 1.7526885271072388,
      "epoch": 0.32122160885446704,
      "grad_norm": 0.6262015700340271,
      "learning_rate": 1.920786929193295e-05,
      "loss": 1.4856,
      "mean_token_accuracy": 0.6357933630545934,
      "num_tokens": 491655738.0,
      "step": 2924
    },
    {
      "entropy": 1.799785594145457,
      "epoch": 0.32133146576584,
      "grad_norm": 0.7483623623847961,
      "learning_rate": 1.920721234299884e-05,
      "loss": 1.4297,
      "mean_token_accuracy": 0.645599807302157,
      "num_tokens": 491883634.0,
      "step": 2925
    },
    {
      "entropy": 1.6690879464149475,
      "epoch": 0.3214413226772129,
      "grad_norm": 0.7060349583625793,
      "learning_rate": 1.9206555134310166e-05,
      "loss": 1.2896,
      "mean_token_accuracy": 0.6781369696060816,
      "num_tokens": 492049115.0,
      "step": 2926
    },
    {
      "entropy": 1.7402922709782918,
      "epoch": 0.32155117958858587,
      "grad_norm": 0.8359885215759277,
      "learning_rate": 1.9205897665887718e-05,
      "loss": 1.5249,
      "mean_token_accuracy": 0.644447940091292,
      "num_tokens": 492183166.0,
      "step": 2927
    },
    {
      "entropy": 1.7350502908229828,
      "epoch": 0.3216610364999588,
      "grad_norm": 0.7333374619483948,
      "learning_rate": 1.9205239937752304e-05,
      "loss": 1.3024,
      "mean_token_accuracy": 0.6708205292622248,
      "num_tokens": 492369207.0,
      "step": 2928
    },
    {
      "entropy": 1.665328135093053,
      "epoch": 0.32177089341133175,
      "grad_norm": 0.7489623427391052,
      "learning_rate": 1.9204581949924744e-05,
      "loss": 1.2896,
      "mean_token_accuracy": 0.6738118877013525,
      "num_tokens": 492533237.0,
      "step": 2929
    },
    {
      "entropy": 1.7022863527139027,
      "epoch": 0.3218807503227047,
      "grad_norm": 0.7714312076568604,
      "learning_rate": 1.9203923702425863e-05,
      "loss": 1.4599,
      "mean_token_accuracy": 0.6606474220752716,
      "num_tokens": 492733024.0,
      "step": 2930
    },
    {
      "entropy": 1.732410063346227,
      "epoch": 0.32199060723407763,
      "grad_norm": 0.7454637885093689,
      "learning_rate": 1.9203265195276494e-05,
      "loss": 1.2414,
      "mean_token_accuracy": 0.6792856454849243,
      "num_tokens": 492879920.0,
      "step": 2931
    },
    {
      "entropy": 1.6901346445083618,
      "epoch": 0.32210046414545057,
      "grad_norm": 0.6151790618896484,
      "learning_rate": 1.9202606428497476e-05,
      "loss": 1.3307,
      "mean_token_accuracy": 0.6711449126402537,
      "num_tokens": 493008404.0,
      "step": 2932
    },
    {
      "entropy": 1.7341221272945404,
      "epoch": 0.3222103210568235,
      "grad_norm": 0.6119834780693054,
      "learning_rate": 1.9201947402109663e-05,
      "loss": 1.5834,
      "mean_token_accuracy": 0.6300620784362158,
      "num_tokens": 493215482.0,
      "step": 2933
    },
    {
      "entropy": 1.6682228247324626,
      "epoch": 0.3223201779681964,
      "grad_norm": 0.6601076722145081,
      "learning_rate": 1.920128811613391e-05,
      "loss": 1.4085,
      "mean_token_accuracy": 0.651889776190122,
      "num_tokens": 493409342.0,
      "step": 2934
    },
    {
      "entropy": 1.701788494984309,
      "epoch": 0.32243003487956934,
      "grad_norm": 0.7248215079307556,
      "learning_rate": 1.9200628570591084e-05,
      "loss": 1.3979,
      "mean_token_accuracy": 0.6579019526640574,
      "num_tokens": 493560199.0,
      "step": 2935
    },
    {
      "entropy": 1.684028019507726,
      "epoch": 0.3225398917909423,
      "grad_norm": 0.6509939432144165,
      "learning_rate": 1.919996876550206e-05,
      "loss": 1.4448,
      "mean_token_accuracy": 0.6362205495436987,
      "num_tokens": 493753256.0,
      "step": 2936
    },
    {
      "entropy": 1.720295896132787,
      "epoch": 0.3226497487023152,
      "grad_norm": 0.7366635203361511,
      "learning_rate": 1.919930870088772e-05,
      "loss": 1.5125,
      "mean_token_accuracy": 0.6424083262681961,
      "num_tokens": 493932673.0,
      "step": 2937
    },
    {
      "entropy": 1.6438338458538055,
      "epoch": 0.32275960561368816,
      "grad_norm": 0.6553351879119873,
      "learning_rate": 1.919864837676895e-05,
      "loss": 1.2257,
      "mean_token_accuracy": 0.6853679070870081,
      "num_tokens": 494050760.0,
      "step": 2938
    },
    {
      "entropy": 1.7294786274433136,
      "epoch": 0.3228694625250611,
      "grad_norm": 0.655874490737915,
      "learning_rate": 1.9197987793166655e-05,
      "loss": 1.3517,
      "mean_token_accuracy": 0.658056045571963,
      "num_tokens": 494240349.0,
      "step": 2939
    },
    {
      "entropy": 1.7637418508529663,
      "epoch": 0.32297931943643404,
      "grad_norm": 0.7153424620628357,
      "learning_rate": 1.9197326950101744e-05,
      "loss": 1.4253,
      "mean_token_accuracy": 0.655969480673472,
      "num_tokens": 494379250.0,
      "step": 2940
    },
    {
      "entropy": 1.696879784266154,
      "epoch": 0.323089176347807,
      "grad_norm": 0.6477358937263489,
      "learning_rate": 1.9196665847595126e-05,
      "loss": 1.3708,
      "mean_token_accuracy": 0.6583545009295145,
      "num_tokens": 494535109.0,
      "step": 2941
    },
    {
      "entropy": 1.716434359550476,
      "epoch": 0.3231990332591799,
      "grad_norm": 0.6917335987091064,
      "learning_rate": 1.9196004485667728e-05,
      "loss": 1.5066,
      "mean_token_accuracy": 0.6468228300412496,
      "num_tokens": 494667235.0,
      "step": 2942
    },
    {
      "entropy": 1.7584334413210552,
      "epoch": 0.32330889017055287,
      "grad_norm": 0.6509451866149902,
      "learning_rate": 1.9195342864340477e-05,
      "loss": 1.4719,
      "mean_token_accuracy": 0.6429315656423569,
      "num_tokens": 494841807.0,
      "step": 2943
    },
    {
      "entropy": 1.7075772682825725,
      "epoch": 0.3234187470819258,
      "grad_norm": 0.682874858379364,
      "learning_rate": 1.9194680983634323e-05,
      "loss": 1.3857,
      "mean_token_accuracy": 0.6495272219181061,
      "num_tokens": 494983967.0,
      "step": 2944
    },
    {
      "entropy": 1.6379812856515248,
      "epoch": 0.32352860399329875,
      "grad_norm": 0.8594545722007751,
      "learning_rate": 1.9194018843570208e-05,
      "loss": 1.3222,
      "mean_token_accuracy": 0.6915220071872076,
      "num_tokens": 495111243.0,
      "step": 2945
    },
    {
      "entropy": 1.6541229287783306,
      "epoch": 0.3236384609046717,
      "grad_norm": 0.6572254300117493,
      "learning_rate": 1.9193356444169086e-05,
      "loss": 1.3144,
      "mean_token_accuracy": 0.6642016619443893,
      "num_tokens": 495250273.0,
      "step": 2946
    },
    {
      "entropy": 1.721500555674235,
      "epoch": 0.32374831781604463,
      "grad_norm": 0.643337070941925,
      "learning_rate": 1.9192693785451925e-05,
      "loss": 1.388,
      "mean_token_accuracy": 0.6487238456805547,
      "num_tokens": 495413516.0,
      "step": 2947
    },
    {
      "entropy": 1.6922288636366527,
      "epoch": 0.3238581747274175,
      "grad_norm": 0.6867654919624329,
      "learning_rate": 1.91920308674397e-05,
      "loss": 1.4196,
      "mean_token_accuracy": 0.6719547808170319,
      "num_tokens": 495576233.0,
      "step": 2948
    },
    {
      "entropy": 1.6915934085845947,
      "epoch": 0.32396803163879045,
      "grad_norm": 0.680091142654419,
      "learning_rate": 1.919136769015339e-05,
      "loss": 1.3689,
      "mean_token_accuracy": 0.6606242706378301,
      "num_tokens": 495789140.0,
      "step": 2949
    },
    {
      "entropy": 1.6307895680268605,
      "epoch": 0.3240778885501634,
      "grad_norm": 0.650629460811615,
      "learning_rate": 1.919070425361398e-05,
      "loss": 1.2485,
      "mean_token_accuracy": 0.678497518102328,
      "num_tokens": 495930360.0,
      "step": 2950
    },
    {
      "entropy": 1.7259167035420735,
      "epoch": 0.32418774546153634,
      "grad_norm": 0.8071044683456421,
      "learning_rate": 1.9190040557842472e-05,
      "loss": 1.4053,
      "mean_token_accuracy": 0.6503327190876007,
      "num_tokens": 496059841.0,
      "step": 2951
    },
    {
      "entropy": 1.6474729379018147,
      "epoch": 0.3242976023729093,
      "grad_norm": 0.6372878551483154,
      "learning_rate": 1.918937660285987e-05,
      "loss": 1.3471,
      "mean_token_accuracy": 0.673143744468689,
      "num_tokens": 496224948.0,
      "step": 2952
    },
    {
      "entropy": 1.6423666775226593,
      "epoch": 0.3244074592842822,
      "grad_norm": 0.6071237325668335,
      "learning_rate": 1.918871238868719e-05,
      "loss": 1.4078,
      "mean_token_accuracy": 0.6574894885222117,
      "num_tokens": 496408432.0,
      "step": 2953
    },
    {
      "entropy": 1.7058760623137157,
      "epoch": 0.32451731619565516,
      "grad_norm": 0.7525854706764221,
      "learning_rate": 1.9188047915345455e-05,
      "loss": 1.3487,
      "mean_token_accuracy": 0.6681368251641592,
      "num_tokens": 496548095.0,
      "step": 2954
    },
    {
      "entropy": 1.6724230746428173,
      "epoch": 0.3246271731070281,
      "grad_norm": 0.615999698638916,
      "learning_rate": 1.9187383182855693e-05,
      "loss": 1.5475,
      "mean_token_accuracy": 0.65153868496418,
      "num_tokens": 496777867.0,
      "step": 2955
    },
    {
      "entropy": 1.7171376744906108,
      "epoch": 0.32473703001840104,
      "grad_norm": 0.5861404538154602,
      "learning_rate": 1.918671819123894e-05,
      "loss": 1.2934,
      "mean_token_accuracy": 0.6681883285442988,
      "num_tokens": 496927140.0,
      "step": 2956
    },
    {
      "entropy": 1.7224361499150593,
      "epoch": 0.324846886929774,
      "grad_norm": 0.6110925674438477,
      "learning_rate": 1.9186052940516245e-05,
      "loss": 1.3695,
      "mean_token_accuracy": 0.6483077257871628,
      "num_tokens": 497121766.0,
      "step": 2957
    },
    {
      "entropy": 1.7283575534820557,
      "epoch": 0.3249567438411469,
      "grad_norm": 0.6756021976470947,
      "learning_rate": 1.9185387430708663e-05,
      "loss": 1.3304,
      "mean_token_accuracy": 0.6640335768461227,
      "num_tokens": 497257864.0,
      "step": 2958
    },
    {
      "entropy": 1.6929436028003693,
      "epoch": 0.32506660075251986,
      "grad_norm": 0.6733092069625854,
      "learning_rate": 1.918472166183726e-05,
      "loss": 1.5546,
      "mean_token_accuracy": 0.6462220996618271,
      "num_tokens": 497457514.0,
      "step": 2959
    },
    {
      "entropy": 1.7729289134343464,
      "epoch": 0.3251764576638928,
      "grad_norm": 0.7560225129127502,
      "learning_rate": 1.9184055633923105e-05,
      "loss": 1.3431,
      "mean_token_accuracy": 0.6635515093803406,
      "num_tokens": 497622838.0,
      "step": 2960
    },
    {
      "entropy": 1.7306861976782482,
      "epoch": 0.3252863145752657,
      "grad_norm": 0.6715700626373291,
      "learning_rate": 1.9183389346987274e-05,
      "loss": 1.3844,
      "mean_token_accuracy": 0.6618200093507767,
      "num_tokens": 497773384.0,
      "step": 2961
    },
    {
      "entropy": 1.664503941933314,
      "epoch": 0.32539617148663863,
      "grad_norm": 0.6396395564079285,
      "learning_rate": 1.9182722801050858e-05,
      "loss": 1.3481,
      "mean_token_accuracy": 0.6635024050871531,
      "num_tokens": 497959238.0,
      "step": 2962
    },
    {
      "entropy": 1.6557064652442932,
      "epoch": 0.32550602839801157,
      "grad_norm": 0.6370712518692017,
      "learning_rate": 1.9182055996134955e-05,
      "loss": 1.4172,
      "mean_token_accuracy": 0.6532147924105326,
      "num_tokens": 498113737.0,
      "step": 2963
    },
    {
      "entropy": 1.7849931518236797,
      "epoch": 0.3256158853093845,
      "grad_norm": 0.7333866357803345,
      "learning_rate": 1.9181388932260663e-05,
      "loss": 1.4514,
      "mean_token_accuracy": 0.6394390016794205,
      "num_tokens": 498298336.0,
      "step": 2964
    },
    {
      "entropy": 1.697540670633316,
      "epoch": 0.32572574222075745,
      "grad_norm": 0.6613360047340393,
      "learning_rate": 1.91807216094491e-05,
      "loss": 1.3528,
      "mean_token_accuracy": 0.6626348445812861,
      "num_tokens": 498469831.0,
      "step": 2965
    },
    {
      "entropy": 1.788981705904007,
      "epoch": 0.3258355991321304,
      "grad_norm": 0.7449756264686584,
      "learning_rate": 1.9180054027721386e-05,
      "loss": 1.3713,
      "mean_token_accuracy": 0.6606344183286031,
      "num_tokens": 498594651.0,
      "step": 2966
    },
    {
      "entropy": 1.749136467774709,
      "epoch": 0.32594545604350333,
      "grad_norm": 0.7143117785453796,
      "learning_rate": 1.9179386187098648e-05,
      "loss": 1.3748,
      "mean_token_accuracy": 0.6651021838188171,
      "num_tokens": 498725535.0,
      "step": 2967
    },
    {
      "entropy": 1.714682827393214,
      "epoch": 0.3260553129548763,
      "grad_norm": 0.7331691980361938,
      "learning_rate": 1.917871808760202e-05,
      "loss": 1.4736,
      "mean_token_accuracy": 0.664309561252594,
      "num_tokens": 498953694.0,
      "step": 2968
    },
    {
      "entropy": 1.630650371313095,
      "epoch": 0.3261651698662492,
      "grad_norm": 0.7111721038818359,
      "learning_rate": 1.917804972925265e-05,
      "loss": 1.3526,
      "mean_token_accuracy": 0.6674729784329733,
      "num_tokens": 499166088.0,
      "step": 2969
    },
    {
      "entropy": 1.695541262626648,
      "epoch": 0.32627502677762216,
      "grad_norm": 0.5924942493438721,
      "learning_rate": 1.9177381112071693e-05,
      "loss": 1.3686,
      "mean_token_accuracy": 0.6531450500090917,
      "num_tokens": 499373411.0,
      "step": 2970
    },
    {
      "entropy": 1.6883581181367238,
      "epoch": 0.3263848836889951,
      "grad_norm": 0.6998016834259033,
      "learning_rate": 1.917671223608031e-05,
      "loss": 1.3799,
      "mean_token_accuracy": 0.6497906893491745,
      "num_tokens": 499509178.0,
      "step": 2971
    },
    {
      "entropy": 1.7307297984759014,
      "epoch": 0.32649474060036804,
      "grad_norm": 0.6792302131652832,
      "learning_rate": 1.9176043101299664e-05,
      "loss": 1.4943,
      "mean_token_accuracy": 0.6375556737184525,
      "num_tokens": 499681437.0,
      "step": 2972
    },
    {
      "entropy": 1.7387321988741558,
      "epoch": 0.326604597511741,
      "grad_norm": 0.7723334431648254,
      "learning_rate": 1.917537370775094e-05,
      "loss": 1.5843,
      "mean_token_accuracy": 0.6392184148232142,
      "num_tokens": 499865905.0,
      "step": 2973
    },
    {
      "entropy": 1.7423201700051625,
      "epoch": 0.3267144544231139,
      "grad_norm": 0.721889853477478,
      "learning_rate": 1.9174704055455327e-05,
      "loss": 1.4046,
      "mean_token_accuracy": 0.6562129308780035,
      "num_tokens": 499992743.0,
      "step": 2974
    },
    {
      "entropy": 1.711453249057134,
      "epoch": 0.3268243113344868,
      "grad_norm": 0.6114857196807861,
      "learning_rate": 1.917403414443401e-05,
      "loss": 1.4313,
      "mean_token_accuracy": 0.6468845208485922,
      "num_tokens": 500185819.0,
      "step": 2975
    },
    {
      "entropy": 1.6875855922698975,
      "epoch": 0.32693416824585975,
      "grad_norm": 0.6063688397407532,
      "learning_rate": 1.9173363974708196e-05,
      "loss": 1.4764,
      "mean_token_accuracy": 0.6517787824074427,
      "num_tokens": 500420510.0,
      "step": 2976
    },
    {
      "entropy": 1.6635367274284363,
      "epoch": 0.3270440251572327,
      "grad_norm": 0.7195242047309875,
      "learning_rate": 1.9172693546299094e-05,
      "loss": 1.296,
      "mean_token_accuracy": 0.6765902439753214,
      "num_tokens": 500555525.0,
      "step": 2977
    },
    {
      "entropy": 1.717705875635147,
      "epoch": 0.32715388206860563,
      "grad_norm": 0.6923717856407166,
      "learning_rate": 1.9172022859227927e-05,
      "loss": 1.5837,
      "mean_token_accuracy": 0.6424253235260645,
      "num_tokens": 500746134.0,
      "step": 2978
    },
    {
      "entropy": 1.7490998009840648,
      "epoch": 0.32726373897997857,
      "grad_norm": 0.747678279876709,
      "learning_rate": 1.9171351913515916e-05,
      "loss": 1.4725,
      "mean_token_accuracy": 0.6539937580625216,
      "num_tokens": 500921039.0,
      "step": 2979
    },
    {
      "entropy": 1.6731195151805878,
      "epoch": 0.3273735958913515,
      "grad_norm": 0.8201509118080139,
      "learning_rate": 1.91706807091843e-05,
      "loss": 1.4356,
      "mean_token_accuracy": 0.6559693316618601,
      "num_tokens": 501079984.0,
      "step": 2980
    },
    {
      "entropy": 1.7330588301022847,
      "epoch": 0.32748345280272445,
      "grad_norm": 0.777803897857666,
      "learning_rate": 1.9170009246254323e-05,
      "loss": 1.3363,
      "mean_token_accuracy": 0.6543682813644409,
      "num_tokens": 501218988.0,
      "step": 2981
    },
    {
      "entropy": 1.7402281661828358,
      "epoch": 0.3275933097140974,
      "grad_norm": 0.7554537653923035,
      "learning_rate": 1.9169337524747232e-05,
      "loss": 1.3441,
      "mean_token_accuracy": 0.6577061663071314,
      "num_tokens": 501333041.0,
      "step": 2982
    },
    {
      "entropy": 1.794272631406784,
      "epoch": 0.32770316662547033,
      "grad_norm": 0.6783401966094971,
      "learning_rate": 1.9168665544684292e-05,
      "loss": 1.568,
      "mean_token_accuracy": 0.6587167580922445,
      "num_tokens": 501481324.0,
      "step": 2983
    },
    {
      "entropy": 1.822703331708908,
      "epoch": 0.3278130235368433,
      "grad_norm": 0.7269600629806519,
      "learning_rate": 1.9167993306086768e-05,
      "loss": 1.6219,
      "mean_token_accuracy": 0.613858292500178,
      "num_tokens": 501706864.0,
      "step": 2984
    },
    {
      "entropy": 1.7719651063283284,
      "epoch": 0.3279228804482162,
      "grad_norm": 0.6666971445083618,
      "learning_rate": 1.9167320808975936e-05,
      "loss": 1.4524,
      "mean_token_accuracy": 0.6489970783392588,
      "num_tokens": 501867433.0,
      "step": 2985
    },
    {
      "entropy": 1.6982284088929493,
      "epoch": 0.32803273735958915,
      "grad_norm": 0.655606210231781,
      "learning_rate": 1.916664805337308e-05,
      "loss": 1.4744,
      "mean_token_accuracy": 0.6488128999869028,
      "num_tokens": 502050616.0,
      "step": 2986
    },
    {
      "entropy": 1.676661233107249,
      "epoch": 0.3281425942709621,
      "grad_norm": 1.2920039892196655,
      "learning_rate": 1.9165975039299497e-05,
      "loss": 1.41,
      "mean_token_accuracy": 0.6578782151142756,
      "num_tokens": 502183884.0,
      "step": 2987
    },
    {
      "entropy": 1.7440513372421265,
      "epoch": 0.328252451182335,
      "grad_norm": 0.6458728909492493,
      "learning_rate": 1.9165301766776478e-05,
      "loss": 1.3387,
      "mean_token_accuracy": 0.6633184005816778,
      "num_tokens": 502312558.0,
      "step": 2988
    },
    {
      "entropy": 1.7916107575098674,
      "epoch": 0.3283623080937079,
      "grad_norm": 0.6091529130935669,
      "learning_rate": 1.916462823582534e-05,
      "loss": 1.4744,
      "mean_token_accuracy": 0.6307684083779653,
      "num_tokens": 502501943.0,
      "step": 2989
    },
    {
      "entropy": 1.7316680351893108,
      "epoch": 0.32847216500508086,
      "grad_norm": 0.8422166705131531,
      "learning_rate": 1.9163954446467396e-05,
      "loss": 1.4116,
      "mean_token_accuracy": 0.6442118336757024,
      "num_tokens": 502643511.0,
      "step": 2990
    },
    {
      "entropy": 1.7342032194137573,
      "epoch": 0.3285820219164538,
      "grad_norm": 0.7511305212974548,
      "learning_rate": 1.9163280398723974e-05,
      "loss": 1.497,
      "mean_token_accuracy": 0.6555758366982142,
      "num_tokens": 502797590.0,
      "step": 2991
    },
    {
      "entropy": 1.7133084932963054,
      "epoch": 0.32869187882782674,
      "grad_norm": 0.6199161410331726,
      "learning_rate": 1.9162606092616407e-05,
      "loss": 1.4054,
      "mean_token_accuracy": 0.6550638278325399,
      "num_tokens": 503013251.0,
      "step": 2992
    },
    {
      "entropy": 1.6971174776554108,
      "epoch": 0.3288017357391997,
      "grad_norm": 0.7281301617622375,
      "learning_rate": 1.9161931528166034e-05,
      "loss": 1.4092,
      "mean_token_accuracy": 0.6583978980779648,
      "num_tokens": 503184291.0,
      "step": 2993
    },
    {
      "entropy": 1.6845273971557617,
      "epoch": 0.3289115926505726,
      "grad_norm": 0.720726728439331,
      "learning_rate": 1.9161256705394204e-05,
      "loss": 1.3414,
      "mean_token_accuracy": 0.6659517834583918,
      "num_tokens": 503315433.0,
      "step": 2994
    },
    {
      "entropy": 1.729546884695689,
      "epoch": 0.32902144956194557,
      "grad_norm": 0.7851258516311646,
      "learning_rate": 1.916058162432228e-05,
      "loss": 1.2136,
      "mean_token_accuracy": 0.6868036687374115,
      "num_tokens": 503460120.0,
      "step": 2995
    },
    {
      "entropy": 1.6761589348316193,
      "epoch": 0.3291313064733185,
      "grad_norm": 0.742510974407196,
      "learning_rate": 1.9159906284971627e-05,
      "loss": 1.2834,
      "mean_token_accuracy": 0.6747480084498724,
      "num_tokens": 503610117.0,
      "step": 2996
    },
    {
      "entropy": 1.7127369443575542,
      "epoch": 0.32924116338469145,
      "grad_norm": 0.6928642392158508,
      "learning_rate": 1.915923068736361e-05,
      "loss": 1.3747,
      "mean_token_accuracy": 0.6500995755195618,
      "num_tokens": 503752043.0,
      "step": 2997
    },
    {
      "entropy": 1.7473743855953217,
      "epoch": 0.3293510202960644,
      "grad_norm": 0.7999443411827087,
      "learning_rate": 1.915855483151962e-05,
      "loss": 1.3799,
      "mean_token_accuracy": 0.6510451088349024,
      "num_tokens": 503902442.0,
      "step": 2998
    },
    {
      "entropy": 1.7298793097337086,
      "epoch": 0.32946087720743733,
      "grad_norm": 0.7435027956962585,
      "learning_rate": 1.9157878717461048e-05,
      "loss": 1.362,
      "mean_token_accuracy": 0.6558040330807368,
      "num_tokens": 504050985.0,
      "step": 2999
    },
    {
      "entropy": 1.752679854631424,
      "epoch": 0.32957073411881027,
      "grad_norm": 0.7258424758911133,
      "learning_rate": 1.9157202345209293e-05,
      "loss": 1.3282,
      "mean_token_accuracy": 0.6720992128054301,
      "num_tokens": 504192687.0,
      "step": 3000
    },
    {
      "entropy": 1.7436956961949666,
      "epoch": 0.3296805910301832,
      "grad_norm": 0.7615739703178406,
      "learning_rate": 1.9156525714785758e-05,
      "loss": 1.5075,
      "mean_token_accuracy": 0.6405996978282928,
      "num_tokens": 504369108.0,
      "step": 3001
    },
    {
      "entropy": 1.6998974084854126,
      "epoch": 0.3297904479415561,
      "grad_norm": 0.6445051431655884,
      "learning_rate": 1.9155848826211856e-05,
      "loss": 1.3417,
      "mean_token_accuracy": 0.6661799550056458,
      "num_tokens": 504538330.0,
      "step": 3002
    },
    {
      "entropy": 1.7470042010148366,
      "epoch": 0.32990030485292904,
      "grad_norm": 0.729354202747345,
      "learning_rate": 1.915517167950902e-05,
      "loss": 1.3582,
      "mean_token_accuracy": 0.669076090057691,
      "num_tokens": 504667747.0,
      "step": 3003
    },
    {
      "entropy": 1.7464979787667592,
      "epoch": 0.330010161764302,
      "grad_norm": 0.61955326795578,
      "learning_rate": 1.9154494274698668e-05,
      "loss": 1.6182,
      "mean_token_accuracy": 0.6314500818649927,
      "num_tokens": 504866089.0,
      "step": 3004
    },
    {
      "entropy": 1.7116199831167858,
      "epoch": 0.3301200186756749,
      "grad_norm": 0.675858736038208,
      "learning_rate": 1.9153816611802252e-05,
      "loss": 1.438,
      "mean_token_accuracy": 0.652592346072197,
      "num_tokens": 505020897.0,
      "step": 3005
    },
    {
      "entropy": 1.7077987988789876,
      "epoch": 0.33022987558704786,
      "grad_norm": 0.674115002155304,
      "learning_rate": 1.9153138690841212e-05,
      "loss": 1.3522,
      "mean_token_accuracy": 0.6594054301579794,
      "num_tokens": 505194598.0,
      "step": 3006
    },
    {
      "entropy": 1.7043022612730663,
      "epoch": 0.3303397324984208,
      "grad_norm": 0.8764580488204956,
      "learning_rate": 1.9152460511837006e-05,
      "loss": 1.4887,
      "mean_token_accuracy": 0.6579779237508774,
      "num_tokens": 505360115.0,
      "step": 3007
    },
    {
      "entropy": 1.6655643979708354,
      "epoch": 0.33044958940979374,
      "grad_norm": 0.7459789514541626,
      "learning_rate": 1.9151782074811098e-05,
      "loss": 1.2533,
      "mean_token_accuracy": 0.6698919186989466,
      "num_tokens": 505487058.0,
      "step": 3008
    },
    {
      "entropy": 1.6778320570786793,
      "epoch": 0.3305594463211667,
      "grad_norm": 0.6878098845481873,
      "learning_rate": 1.9151103379784964e-05,
      "loss": 1.2724,
      "mean_token_accuracy": 0.6792107174793879,
      "num_tokens": 505668993.0,
      "step": 3009
    },
    {
      "entropy": 1.7397213677565257,
      "epoch": 0.3306693032325396,
      "grad_norm": 0.6972684264183044,
      "learning_rate": 1.915042442678008e-05,
      "loss": 1.4157,
      "mean_token_accuracy": 0.6579104761282603,
      "num_tokens": 505806107.0,
      "step": 3010
    },
    {
      "entropy": 1.790239155292511,
      "epoch": 0.33077916014391257,
      "grad_norm": 0.6503934264183044,
      "learning_rate": 1.914974521581793e-05,
      "loss": 1.4499,
      "mean_token_accuracy": 0.6496985306342443,
      "num_tokens": 505975483.0,
      "step": 3011
    },
    {
      "entropy": 1.7129294872283936,
      "epoch": 0.3308890170552855,
      "grad_norm": 0.6534547805786133,
      "learning_rate": 1.9149065746920023e-05,
      "loss": 1.6048,
      "mean_token_accuracy": 0.640040377775828,
      "num_tokens": 506158617.0,
      "step": 3012
    },
    {
      "entropy": 1.7680010497570038,
      "epoch": 0.33099887396665845,
      "grad_norm": 0.6420508027076721,
      "learning_rate": 1.9148386020107857e-05,
      "loss": 1.422,
      "mean_token_accuracy": 0.6478531509637833,
      "num_tokens": 506352143.0,
      "step": 3013
    },
    {
      "entropy": 1.693307230869929,
      "epoch": 0.3311087308780314,
      "grad_norm": 0.6774839758872986,
      "learning_rate": 1.914770603540294e-05,
      "loss": 1.4863,
      "mean_token_accuracy": 0.6670309404532114,
      "num_tokens": 506573320.0,
      "step": 3014
    },
    {
      "entropy": 1.6939273178577423,
      "epoch": 0.33121858778940433,
      "grad_norm": 0.6691749691963196,
      "learning_rate": 1.9147025792826803e-05,
      "loss": 1.4095,
      "mean_token_accuracy": 0.6504554947217306,
      "num_tokens": 506733027.0,
      "step": 3015
    },
    {
      "entropy": 1.7147826254367828,
      "epoch": 0.3313284447007772,
      "grad_norm": 0.6580132246017456,
      "learning_rate": 1.914634529240097e-05,
      "loss": 1.3658,
      "mean_token_accuracy": 0.6597993324200312,
      "num_tokens": 506878473.0,
      "step": 3016
    },
    {
      "entropy": 1.6655152241388957,
      "epoch": 0.33143830161215015,
      "grad_norm": 0.6758162379264832,
      "learning_rate": 1.914566453414698e-05,
      "loss": 1.2672,
      "mean_token_accuracy": 0.6674109697341919,
      "num_tokens": 507007095.0,
      "step": 3017
    },
    {
      "entropy": 1.6784224609533946,
      "epoch": 0.3315481585235231,
      "grad_norm": 0.7197324633598328,
      "learning_rate": 1.9144983518086378e-05,
      "loss": 1.41,
      "mean_token_accuracy": 0.6585833777983984,
      "num_tokens": 507154336.0,
      "step": 3018
    },
    {
      "entropy": 1.6712388892968495,
      "epoch": 0.33165801543489604,
      "grad_norm": 0.7722300887107849,
      "learning_rate": 1.9144302244240715e-05,
      "loss": 1.4964,
      "mean_token_accuracy": 0.6578239550193151,
      "num_tokens": 507338056.0,
      "step": 3019
    },
    {
      "entropy": 1.6774245699246724,
      "epoch": 0.331767872346269,
      "grad_norm": 0.7282935976982117,
      "learning_rate": 1.9143620712631555e-05,
      "loss": 1.2622,
      "mean_token_accuracy": 0.6662948727607727,
      "num_tokens": 507455716.0,
      "step": 3020
    },
    {
      "entropy": 1.6499692300955455,
      "epoch": 0.3318777292576419,
      "grad_norm": 0.6513247489929199,
      "learning_rate": 1.914293892328047e-05,
      "loss": 1.4438,
      "mean_token_accuracy": 0.6459585577249527,
      "num_tokens": 507658074.0,
      "step": 3021
    },
    {
      "entropy": 1.7383529146512349,
      "epoch": 0.33198758616901486,
      "grad_norm": 0.629367470741272,
      "learning_rate": 1.9142256876209046e-05,
      "loss": 1.308,
      "mean_token_accuracy": 0.666439284880956,
      "num_tokens": 507828153.0,
      "step": 3022
    },
    {
      "entropy": 1.732998142639796,
      "epoch": 0.3320974430803878,
      "grad_norm": 0.890418529510498,
      "learning_rate": 1.914157457143885e-05,
      "loss": 1.2594,
      "mean_token_accuracy": 0.6755412022272745,
      "num_tokens": 507958961.0,
      "step": 3023
    },
    {
      "entropy": 1.7181305587291718,
      "epoch": 0.33220729999176074,
      "grad_norm": 0.6836814880371094,
      "learning_rate": 1.914089200899149e-05,
      "loss": 1.4408,
      "mean_token_accuracy": 0.6476282527049383,
      "num_tokens": 508133687.0,
      "step": 3024
    },
    {
      "entropy": 1.7462326188882191,
      "epoch": 0.3323171569031337,
      "grad_norm": 0.6367360949516296,
      "learning_rate": 1.914020918888857e-05,
      "loss": 1.4157,
      "mean_token_accuracy": 0.6456411679585775,
      "num_tokens": 508330078.0,
      "step": 3025
    },
    {
      "entropy": 1.611125926176707,
      "epoch": 0.3324270138145066,
      "grad_norm": 0.5883477330207825,
      "learning_rate": 1.9139526111151695e-05,
      "loss": 1.3606,
      "mean_token_accuracy": 0.6693080514669418,
      "num_tokens": 508519565.0,
      "step": 3026
    },
    {
      "entropy": 1.7090338071187336,
      "epoch": 0.33253687072587956,
      "grad_norm": 0.7724202275276184,
      "learning_rate": 1.9138842775802483e-05,
      "loss": 1.3513,
      "mean_token_accuracy": 0.6597883005936941,
      "num_tokens": 508705625.0,
      "step": 3027
    },
    {
      "entropy": 1.6161086161931355,
      "epoch": 0.3326467276372525,
      "grad_norm": 0.6500586867332458,
      "learning_rate": 1.913815918286257e-05,
      "loss": 1.2911,
      "mean_token_accuracy": 0.6685569137334824,
      "num_tokens": 508844283.0,
      "step": 3028
    },
    {
      "entropy": 1.7713151176770527,
      "epoch": 0.3327565845486254,
      "grad_norm": 0.8597967624664307,
      "learning_rate": 1.9137475332353586e-05,
      "loss": 1.5667,
      "mean_token_accuracy": 0.6257463147242864,
      "num_tokens": 509093149.0,
      "step": 3029
    },
    {
      "entropy": 1.6782112022240956,
      "epoch": 0.33286644145999833,
      "grad_norm": 0.6756134033203125,
      "learning_rate": 1.913679122429717e-05,
      "loss": 1.592,
      "mean_token_accuracy": 0.6362019727627436,
      "num_tokens": 509269750.0,
      "step": 3030
    },
    {
      "entropy": 1.7369333803653717,
      "epoch": 0.33297629837137127,
      "grad_norm": 0.5684821605682373,
      "learning_rate": 1.9136106858714983e-05,
      "loss": 1.4523,
      "mean_token_accuracy": 0.6342654128869375,
      "num_tokens": 509476830.0,
      "step": 3031
    },
    {
      "entropy": 1.7342596749464672,
      "epoch": 0.3330861552827442,
      "grad_norm": 0.6759097576141357,
      "learning_rate": 1.9135422235628676e-05,
      "loss": 1.1854,
      "mean_token_accuracy": 0.6867292175690333,
      "num_tokens": 509569400.0,
      "step": 3032
    },
    {
      "entropy": 1.671131859223048,
      "epoch": 0.33319601219411715,
      "grad_norm": 0.7441453337669373,
      "learning_rate": 1.913473735505992e-05,
      "loss": 1.5021,
      "mean_token_accuracy": 0.6428874333699545,
      "num_tokens": 509764136.0,
      "step": 3033
    },
    {
      "entropy": 1.7323594490687053,
      "epoch": 0.3333058691054901,
      "grad_norm": 0.6669164299964905,
      "learning_rate": 1.91340522170304e-05,
      "loss": 1.3045,
      "mean_token_accuracy": 0.6643939961989721,
      "num_tokens": 509890442.0,
      "step": 3034
    },
    {
      "entropy": 1.7155201435089111,
      "epoch": 0.33341572601686303,
      "grad_norm": 0.6839675307273865,
      "learning_rate": 1.9133366821561788e-05,
      "loss": 1.3481,
      "mean_token_accuracy": 0.6636628260215124,
      "num_tokens": 510052207.0,
      "step": 3035
    },
    {
      "entropy": 1.7188059786955516,
      "epoch": 0.333525582928236,
      "grad_norm": 0.7544474601745605,
      "learning_rate": 1.9132681168675778e-05,
      "loss": 1.4636,
      "mean_token_accuracy": 0.6669894407192866,
      "num_tokens": 510227328.0,
      "step": 3036
    },
    {
      "entropy": 1.6821933786074321,
      "epoch": 0.3336354398396089,
      "grad_norm": 0.6986051797866821,
      "learning_rate": 1.9131995258394077e-05,
      "loss": 1.3955,
      "mean_token_accuracy": 0.6599144538243612,
      "num_tokens": 510424924.0,
      "step": 3037
    },
    {
      "entropy": 1.7697338461875916,
      "epoch": 0.33374529675098186,
      "grad_norm": 0.6908696293830872,
      "learning_rate": 1.913130909073839e-05,
      "loss": 1.2912,
      "mean_token_accuracy": 0.6725708792606989,
      "num_tokens": 510524846.0,
      "step": 3038
    },
    {
      "entropy": 1.7425800959269206,
      "epoch": 0.3338551536623548,
      "grad_norm": 0.6675323247909546,
      "learning_rate": 1.9130622665730434e-05,
      "loss": 1.5795,
      "mean_token_accuracy": 0.6429319083690643,
      "num_tokens": 510715188.0,
      "step": 3039
    },
    {
      "entropy": 1.6848439772923787,
      "epoch": 0.33396501057372774,
      "grad_norm": 0.6058026552200317,
      "learning_rate": 1.9129935983391933e-05,
      "loss": 1.435,
      "mean_token_accuracy": 0.6421783665815989,
      "num_tokens": 510913269.0,
      "step": 3040
    },
    {
      "entropy": 1.718187967936198,
      "epoch": 0.3340748674851007,
      "grad_norm": 0.6798617839813232,
      "learning_rate": 1.9129249043744627e-05,
      "loss": 1.4205,
      "mean_token_accuracy": 0.6531337300936381,
      "num_tokens": 511088529.0,
      "step": 3041
    },
    {
      "entropy": 1.7231755753358204,
      "epoch": 0.3341847243964736,
      "grad_norm": 0.821942150592804,
      "learning_rate": 1.9128561846810247e-05,
      "loss": 1.4694,
      "mean_token_accuracy": 0.6571696201960245,
      "num_tokens": 511284719.0,
      "step": 3042
    },
    {
      "entropy": 1.722469339768092,
      "epoch": 0.3342945813078465,
      "grad_norm": 0.6946660876274109,
      "learning_rate": 1.9127874392610548e-05,
      "loss": 1.4006,
      "mean_token_accuracy": 0.6625101615985235,
      "num_tokens": 511411692.0,
      "step": 3043
    },
    {
      "entropy": 1.7435683111349742,
      "epoch": 0.33440443821921945,
      "grad_norm": 0.7410975098609924,
      "learning_rate": 1.9127186681167288e-05,
      "loss": 1.4159,
      "mean_token_accuracy": 0.6528633783260981,
      "num_tokens": 511551200.0,
      "step": 3044
    },
    {
      "entropy": 1.7684580485026042,
      "epoch": 0.3345142951305924,
      "grad_norm": 0.7469737529754639,
      "learning_rate": 1.912649871250223e-05,
      "loss": 1.4624,
      "mean_token_accuracy": 0.6433129956324896,
      "num_tokens": 511779579.0,
      "step": 3045
    },
    {
      "entropy": 1.7564850250879924,
      "epoch": 0.33462415204196533,
      "grad_norm": 0.6813525557518005,
      "learning_rate": 1.9125810486637152e-05,
      "loss": 1.3189,
      "mean_token_accuracy": 0.6654183914264044,
      "num_tokens": 511907802.0,
      "step": 3046
    },
    {
      "entropy": 1.739985744158427,
      "epoch": 0.33473400895333827,
      "grad_norm": 0.7431362271308899,
      "learning_rate": 1.9125122003593833e-05,
      "loss": 1.3795,
      "mean_token_accuracy": 0.6528779665629069,
      "num_tokens": 512047494.0,
      "step": 3047
    },
    {
      "entropy": 1.7247369190057118,
      "epoch": 0.3348438658647112,
      "grad_norm": 0.6911116242408752,
      "learning_rate": 1.9124433263394063e-05,
      "loss": 1.6181,
      "mean_token_accuracy": 0.6445044080416361,
      "num_tokens": 512268944.0,
      "step": 3048
    },
    {
      "entropy": 1.7096697489420574,
      "epoch": 0.33495372277608415,
      "grad_norm": 0.7822225689888,
      "learning_rate": 1.9123744266059644e-05,
      "loss": 1.3366,
      "mean_token_accuracy": 0.6592263529698054,
      "num_tokens": 512381190.0,
      "step": 3049
    },
    {
      "entropy": 1.7738013366858165,
      "epoch": 0.3350635796874571,
      "grad_norm": 0.9529100656509399,
      "learning_rate": 1.9123055011612375e-05,
      "loss": 1.4496,
      "mean_token_accuracy": 0.6615629196166992,
      "num_tokens": 512579620.0,
      "step": 3050
    },
    {
      "entropy": 1.7056050995985668,
      "epoch": 0.33517343659883003,
      "grad_norm": 0.7717422842979431,
      "learning_rate": 1.912236550007408e-05,
      "loss": 1.4488,
      "mean_token_accuracy": 0.6731387178103129,
      "num_tokens": 512725425.0,
      "step": 3051
    },
    {
      "entropy": 1.7472182114919026,
      "epoch": 0.335283293510203,
      "grad_norm": 0.687759518623352,
      "learning_rate": 1.9121675731466572e-05,
      "loss": 1.4012,
      "mean_token_accuracy": 0.6478379468123118,
      "num_tokens": 512904679.0,
      "step": 3052
    },
    {
      "entropy": 1.7227794031302135,
      "epoch": 0.3353931504215759,
      "grad_norm": 0.6436380743980408,
      "learning_rate": 1.912098570581169e-05,
      "loss": 1.3285,
      "mean_token_accuracy": 0.6682673941055933,
      "num_tokens": 513037137.0,
      "step": 3053
    },
    {
      "entropy": 1.7546689013640087,
      "epoch": 0.33550300733294885,
      "grad_norm": 0.7144925594329834,
      "learning_rate": 1.912029542313127e-05,
      "loss": 1.5938,
      "mean_token_accuracy": 0.6321324606736501,
      "num_tokens": 513241089.0,
      "step": 3054
    },
    {
      "entropy": 1.7048328717549641,
      "epoch": 0.3356128642443218,
      "grad_norm": 0.5735582709312439,
      "learning_rate": 1.9119604883447155e-05,
      "loss": 1.4212,
      "mean_token_accuracy": 0.644182562828064,
      "num_tokens": 513485301.0,
      "step": 3055
    },
    {
      "entropy": 1.710164765516917,
      "epoch": 0.3357227211556947,
      "grad_norm": 0.6873478293418884,
      "learning_rate": 1.9118914086781208e-05,
      "loss": 1.3381,
      "mean_token_accuracy": 0.6514832923809687,
      "num_tokens": 513653369.0,
      "step": 3056
    },
    {
      "entropy": 1.6649628281593323,
      "epoch": 0.3358325780670676,
      "grad_norm": 0.573425829410553,
      "learning_rate": 1.911822303315529e-05,
      "loss": 1.4072,
      "mean_token_accuracy": 0.6597304493188858,
      "num_tokens": 513852950.0,
      "step": 3057
    },
    {
      "entropy": 1.686522215604782,
      "epoch": 0.33594243497844056,
      "grad_norm": 0.62139493227005,
      "learning_rate": 1.9117531722591267e-05,
      "loss": 1.4055,
      "mean_token_accuracy": 0.6543814688920975,
      "num_tokens": 513995038.0,
      "step": 3058
    },
    {
      "entropy": 1.6593074301878612,
      "epoch": 0.3360522918898135,
      "grad_norm": 0.7323905229568481,
      "learning_rate": 1.9116840155111024e-05,
      "loss": 1.2915,
      "mean_token_accuracy": 0.6618063052495321,
      "num_tokens": 514138366.0,
      "step": 3059
    },
    {
      "entropy": 1.738914539416631,
      "epoch": 0.33616214880118644,
      "grad_norm": 0.6564517021179199,
      "learning_rate": 1.911614833073645e-05,
      "loss": 1.4708,
      "mean_token_accuracy": 0.657853235801061,
      "num_tokens": 514286217.0,
      "step": 3060
    },
    {
      "entropy": 1.7365315755208333,
      "epoch": 0.3362720057125594,
      "grad_norm": 0.7343533039093018,
      "learning_rate": 1.9115456249489438e-05,
      "loss": 1.368,
      "mean_token_accuracy": 0.6527054756879807,
      "num_tokens": 514488524.0,
      "step": 3061
    },
    {
      "entropy": 1.6972340444723766,
      "epoch": 0.3363818626239323,
      "grad_norm": 0.705672562122345,
      "learning_rate": 1.911476391139189e-05,
      "loss": 1.3701,
      "mean_token_accuracy": 0.6614405562480291,
      "num_tokens": 514625795.0,
      "step": 3062
    },
    {
      "entropy": 1.729969580968221,
      "epoch": 0.33649171953530527,
      "grad_norm": 0.7283251881599426,
      "learning_rate": 1.9114071316465724e-05,
      "loss": 1.3981,
      "mean_token_accuracy": 0.6484886904557546,
      "num_tokens": 514758846.0,
      "step": 3063
    },
    {
      "entropy": 1.7162734270095825,
      "epoch": 0.3366015764466782,
      "grad_norm": 0.7314303517341614,
      "learning_rate": 1.9113378464732855e-05,
      "loss": 1.3198,
      "mean_token_accuracy": 0.6710415830214819,
      "num_tokens": 514886650.0,
      "step": 3064
    },
    {
      "entropy": 1.7744275629520416,
      "epoch": 0.33671143335805115,
      "grad_norm": 0.6890711784362793,
      "learning_rate": 1.9112685356215213e-05,
      "loss": 1.5018,
      "mean_token_accuracy": 0.6435980846484503,
      "num_tokens": 515096800.0,
      "step": 3065
    },
    {
      "entropy": 1.7427007655302684,
      "epoch": 0.3368212902694241,
      "grad_norm": 0.8294128775596619,
      "learning_rate": 1.9111991990934736e-05,
      "loss": 1.2624,
      "mean_token_accuracy": 0.668077364563942,
      "num_tokens": 515220739.0,
      "step": 3066
    },
    {
      "entropy": 1.7589279413223267,
      "epoch": 0.33693114718079703,
      "grad_norm": 0.6529168486595154,
      "learning_rate": 1.9111298368913368e-05,
      "loss": 1.4271,
      "mean_token_accuracy": 0.6581545720497767,
      "num_tokens": 515409312.0,
      "step": 3067
    },
    {
      "entropy": 1.7398897409439087,
      "epoch": 0.33704100409216997,
      "grad_norm": 0.705767035484314,
      "learning_rate": 1.9110604490173065e-05,
      "loss": 1.4301,
      "mean_token_accuracy": 0.6575960069894791,
      "num_tokens": 515532475.0,
      "step": 3068
    },
    {
      "entropy": 1.6691156526406605,
      "epoch": 0.3371508610035429,
      "grad_norm": 0.6828332543373108,
      "learning_rate": 1.9109910354735778e-05,
      "loss": 1.2612,
      "mean_token_accuracy": 0.6719839175542196,
      "num_tokens": 515668637.0,
      "step": 3069
    },
    {
      "entropy": 1.7897346119085948,
      "epoch": 0.3372607179149158,
      "grad_norm": 0.7696541547775269,
      "learning_rate": 1.910921596262349e-05,
      "loss": 1.5465,
      "mean_token_accuracy": 0.6406855061650276,
      "num_tokens": 515800127.0,
      "step": 3070
    },
    {
      "entropy": 1.7390386561552684,
      "epoch": 0.33737057482628874,
      "grad_norm": 0.8148576617240906,
      "learning_rate": 1.9108521313858164e-05,
      "loss": 1.5137,
      "mean_token_accuracy": 0.640427882472674,
      "num_tokens": 516004144.0,
      "step": 3071
    },
    {
      "entropy": 1.645291765530904,
      "epoch": 0.3374804317376617,
      "grad_norm": 0.7999487519264221,
      "learning_rate": 1.9107826408461796e-05,
      "loss": 1.3468,
      "mean_token_accuracy": 0.668777272105217,
      "num_tokens": 516178099.0,
      "step": 3072
    },
    {
      "entropy": 1.7338153024514515,
      "epoch": 0.3375902886490346,
      "grad_norm": 0.6503975987434387,
      "learning_rate": 1.9107131246456372e-05,
      "loss": 1.4304,
      "mean_token_accuracy": 0.6472113927205404,
      "num_tokens": 516343512.0,
      "step": 3073
    },
    {
      "entropy": 1.7268471519152324,
      "epoch": 0.33770014556040756,
      "grad_norm": 0.8366050124168396,
      "learning_rate": 1.9106435827863903e-05,
      "loss": 1.372,
      "mean_token_accuracy": 0.6583438813686371,
      "num_tokens": 516489688.0,
      "step": 3074
    },
    {
      "entropy": 1.7441972096761067,
      "epoch": 0.3378100024717805,
      "grad_norm": 0.6372826099395752,
      "learning_rate": 1.9105740152706388e-05,
      "loss": 1.4328,
      "mean_token_accuracy": 0.6417555212974548,
      "num_tokens": 516658774.0,
      "step": 3075
    },
    {
      "entropy": 1.660355657339096,
      "epoch": 0.33791985938315344,
      "grad_norm": 0.6428292989730835,
      "learning_rate": 1.9105044221005852e-05,
      "loss": 1.3697,
      "mean_token_accuracy": 0.6568067520856857,
      "num_tokens": 516796670.0,
      "step": 3076
    },
    {
      "entropy": 1.69850026567777,
      "epoch": 0.3380297162945264,
      "grad_norm": 0.7151433825492859,
      "learning_rate": 1.910434803278432e-05,
      "loss": 1.3114,
      "mean_token_accuracy": 0.6674358497063319,
      "num_tokens": 516955225.0,
      "step": 3077
    },
    {
      "entropy": 1.6989915072917938,
      "epoch": 0.3381395732058993,
      "grad_norm": 0.7246211767196655,
      "learning_rate": 1.9103651588063822e-05,
      "loss": 1.3039,
      "mean_token_accuracy": 0.6708632856607437,
      "num_tokens": 517099008.0,
      "step": 3078
    },
    {
      "entropy": 1.7012667655944824,
      "epoch": 0.33824943011727227,
      "grad_norm": 0.8172794580459595,
      "learning_rate": 1.9102954886866404e-05,
      "loss": 1.3946,
      "mean_token_accuracy": 0.6592543323834738,
      "num_tokens": 517245097.0,
      "step": 3079
    },
    {
      "entropy": 1.7260870933532715,
      "epoch": 0.3383592870286452,
      "grad_norm": 0.8274314999580383,
      "learning_rate": 1.9102257929214114e-05,
      "loss": 1.4324,
      "mean_token_accuracy": 0.6518008708953857,
      "num_tokens": 517406042.0,
      "step": 3080
    },
    {
      "entropy": 1.7201440036296844,
      "epoch": 0.33846914394001815,
      "grad_norm": 0.7528727054595947,
      "learning_rate": 1.9101560715129013e-05,
      "loss": 1.4812,
      "mean_token_accuracy": 0.6550854941209158,
      "num_tokens": 517555565.0,
      "step": 3081
    },
    {
      "entropy": 1.6386935810248058,
      "epoch": 0.3385790008513911,
      "grad_norm": 0.6425924897193909,
      "learning_rate": 1.9100863244633165e-05,
      "loss": 1.3557,
      "mean_token_accuracy": 0.6622224648793539,
      "num_tokens": 517724677.0,
      "step": 3082
    },
    {
      "entropy": 1.7015309532483418,
      "epoch": 0.338688857762764,
      "grad_norm": 0.6084007620811462,
      "learning_rate": 1.9100165517748647e-05,
      "loss": 1.4147,
      "mean_token_accuracy": 0.6466822971900305,
      "num_tokens": 517907631.0,
      "step": 3083
    },
    {
      "entropy": 1.7300503849983215,
      "epoch": 0.3387987146741369,
      "grad_norm": 0.6377536058425903,
      "learning_rate": 1.909946753449754e-05,
      "loss": 1.5793,
      "mean_token_accuracy": 0.641609787940979,
      "num_tokens": 518073726.0,
      "step": 3084
    },
    {
      "entropy": 1.7079397439956665,
      "epoch": 0.33890857158550985,
      "grad_norm": 0.6480128169059753,
      "learning_rate": 1.9098769294901933e-05,
      "loss": 1.3289,
      "mean_token_accuracy": 0.661668727795283,
      "num_tokens": 518225623.0,
      "step": 3085
    },
    {
      "entropy": 1.7619627118110657,
      "epoch": 0.3390184284968828,
      "grad_norm": 0.8301718831062317,
      "learning_rate": 1.909807079898393e-05,
      "loss": 1.5109,
      "mean_token_accuracy": 0.644140308101972,
      "num_tokens": 518415989.0,
      "step": 3086
    },
    {
      "entropy": 1.7237402101357777,
      "epoch": 0.33912828540825574,
      "grad_norm": 0.7291299104690552,
      "learning_rate": 1.9097372046765632e-05,
      "loss": 1.3323,
      "mean_token_accuracy": 0.6596636722485224,
      "num_tokens": 518567833.0,
      "step": 3087
    },
    {
      "entropy": 1.7579568723837535,
      "epoch": 0.3392381423196287,
      "grad_norm": 0.9242023825645447,
      "learning_rate": 1.909667303826916e-05,
      "loss": 1.3778,
      "mean_token_accuracy": 0.6666527688503265,
      "num_tokens": 518740218.0,
      "step": 3088
    },
    {
      "entropy": 1.7019338707129161,
      "epoch": 0.3393479992310016,
      "grad_norm": 0.7077080607414246,
      "learning_rate": 1.9095973773516634e-05,
      "loss": 1.407,
      "mean_token_accuracy": 0.6584417273600897,
      "num_tokens": 518915130.0,
      "step": 3089
    },
    {
      "entropy": 1.8156996667385101,
      "epoch": 0.33945785614237456,
      "grad_norm": 0.7829475998878479,
      "learning_rate": 1.9095274252530187e-05,
      "loss": 1.42,
      "mean_token_accuracy": 0.65616142253081,
      "num_tokens": 519088777.0,
      "step": 3090
    },
    {
      "entropy": 1.7283440331617992,
      "epoch": 0.3395677130537475,
      "grad_norm": 0.7416720986366272,
      "learning_rate": 1.9094574475331956e-05,
      "loss": 1.2568,
      "mean_token_accuracy": 0.6756617377201716,
      "num_tokens": 519255742.0,
      "step": 3091
    },
    {
      "entropy": 1.6994885007540386,
      "epoch": 0.33967756996512044,
      "grad_norm": 0.6388126611709595,
      "learning_rate": 1.9093874441944095e-05,
      "loss": 1.3153,
      "mean_token_accuracy": 0.6684769292672476,
      "num_tokens": 519396522.0,
      "step": 3092
    },
    {
      "entropy": 1.7258747617403667,
      "epoch": 0.3397874268764934,
      "grad_norm": 0.7206714153289795,
      "learning_rate": 1.909317415238875e-05,
      "loss": 1.4058,
      "mean_token_accuracy": 0.6619496643543243,
      "num_tokens": 519590462.0,
      "step": 3093
    },
    {
      "entropy": 1.7497619986534119,
      "epoch": 0.3398972837878663,
      "grad_norm": 0.7609780430793762,
      "learning_rate": 1.909247360668809e-05,
      "loss": 1.3087,
      "mean_token_accuracy": 0.6699084391196569,
      "num_tokens": 519720103.0,
      "step": 3094
    },
    {
      "entropy": 1.6820762356122334,
      "epoch": 0.34000714069923926,
      "grad_norm": 0.8035679459571838,
      "learning_rate": 1.9091772804864292e-05,
      "loss": 1.4856,
      "mean_token_accuracy": 0.6475498353441557,
      "num_tokens": 519923412.0,
      "step": 3095
    },
    {
      "entropy": 1.6931442022323608,
      "epoch": 0.3401169976106122,
      "grad_norm": 0.6897434592247009,
      "learning_rate": 1.9091071746939526e-05,
      "loss": 1.3514,
      "mean_token_accuracy": 0.6593603193759918,
      "num_tokens": 520072967.0,
      "step": 3096
    },
    {
      "entropy": 1.7068798343340557,
      "epoch": 0.3402268545219851,
      "grad_norm": 0.6774353981018066,
      "learning_rate": 1.909037043293599e-05,
      "loss": 1.4233,
      "mean_token_accuracy": 0.6536633421977361,
      "num_tokens": 520255988.0,
      "step": 3097
    },
    {
      "entropy": 1.7121065855026245,
      "epoch": 0.34033671143335803,
      "grad_norm": 0.7132356762886047,
      "learning_rate": 1.908966886287587e-05,
      "loss": 1.3878,
      "mean_token_accuracy": 0.6654232740402222,
      "num_tokens": 520488918.0,
      "step": 3098
    },
    {
      "entropy": 1.6239934662977855,
      "epoch": 0.34044656834473097,
      "grad_norm": 0.8887202739715576,
      "learning_rate": 1.908896703678138e-05,
      "loss": 1.4214,
      "mean_token_accuracy": 0.6726511965195338,
      "num_tokens": 520660679.0,
      "step": 3099
    },
    {
      "entropy": 1.7160980502764385,
      "epoch": 0.3405564252561039,
      "grad_norm": 0.6955882906913757,
      "learning_rate": 1.9088264954674724e-05,
      "loss": 1.3324,
      "mean_token_accuracy": 0.6596625298261642,
      "num_tokens": 520838220.0,
      "step": 3100
    },
    {
      "entropy": 1.6648767292499542,
      "epoch": 0.34066628216747685,
      "grad_norm": 0.6133254170417786,
      "learning_rate": 1.908756261657813e-05,
      "loss": 1.4626,
      "mean_token_accuracy": 0.6427382330099741,
      "num_tokens": 521036582.0,
      "step": 3101
    },
    {
      "entropy": 1.7698853611946106,
      "epoch": 0.3407761390788498,
      "grad_norm": 0.7591292262077332,
      "learning_rate": 1.9086860022513823e-05,
      "loss": 1.3989,
      "mean_token_accuracy": 0.646201545993487,
      "num_tokens": 521195519.0,
      "step": 3102
    },
    {
      "entropy": 1.6912595828374226,
      "epoch": 0.34088599599022273,
      "grad_norm": 0.6244848966598511,
      "learning_rate": 1.9086157172504036e-05,
      "loss": 1.4302,
      "mean_token_accuracy": 0.6519865940014521,
      "num_tokens": 521348443.0,
      "step": 3103
    },
    {
      "entropy": 1.7508087356885274,
      "epoch": 0.3409958529015957,
      "grad_norm": 0.6853779554367065,
      "learning_rate": 1.9085454066571023e-05,
      "loss": 1.4347,
      "mean_token_accuracy": 0.6526261965433756,
      "num_tokens": 521505284.0,
      "step": 3104
    },
    {
      "entropy": 1.6787457764148712,
      "epoch": 0.3411057098129686,
      "grad_norm": 0.7456424236297607,
      "learning_rate": 1.908475070473703e-05,
      "loss": 1.3914,
      "mean_token_accuracy": 0.6657826354106268,
      "num_tokens": 521671735.0,
      "step": 3105
    },
    {
      "entropy": 1.7271059552828472,
      "epoch": 0.34121556672434156,
      "grad_norm": 0.7938264608383179,
      "learning_rate": 1.9084047087024325e-05,
      "loss": 1.4352,
      "mean_token_accuracy": 0.657663548986117,
      "num_tokens": 521839358.0,
      "step": 3106
    },
    {
      "entropy": 1.6707509557406108,
      "epoch": 0.3413254236357145,
      "grad_norm": 0.6704132556915283,
      "learning_rate": 1.9083343213455167e-05,
      "loss": 1.4081,
      "mean_token_accuracy": 0.655000850558281,
      "num_tokens": 522070055.0,
      "step": 3107
    },
    {
      "entropy": 1.6707326571146648,
      "epoch": 0.34143528054708744,
      "grad_norm": 0.7726478576660156,
      "learning_rate": 1.908263908405184e-05,
      "loss": 1.1888,
      "mean_token_accuracy": 0.6913275470336279,
      "num_tokens": 522186687.0,
      "step": 3108
    },
    {
      "entropy": 1.7188027401765187,
      "epoch": 0.3415451374584604,
      "grad_norm": 0.673206627368927,
      "learning_rate": 1.908193469883663e-05,
      "loss": 1.3749,
      "mean_token_accuracy": 0.6531964292128881,
      "num_tokens": 522337959.0,
      "step": 3109
    },
    {
      "entropy": 1.7751700381437938,
      "epoch": 0.34165499436983326,
      "grad_norm": 0.6284109950065613,
      "learning_rate": 1.9081230057831827e-05,
      "loss": 1.3603,
      "mean_token_accuracy": 0.6515864779551824,
      "num_tokens": 522509221.0,
      "step": 3110
    },
    {
      "entropy": 1.66496338446935,
      "epoch": 0.3417648512812062,
      "grad_norm": 0.7413091063499451,
      "learning_rate": 1.9080525161059737e-05,
      "loss": 1.3669,
      "mean_token_accuracy": 0.6810042262077332,
      "num_tokens": 522637505.0,
      "step": 3111
    },
    {
      "entropy": 1.7317347327868144,
      "epoch": 0.34187470819257915,
      "grad_norm": 0.7235397100448608,
      "learning_rate": 1.907982000854266e-05,
      "loss": 1.2779,
      "mean_token_accuracy": 0.6744700570901235,
      "num_tokens": 522731744.0,
      "step": 3112
    },
    {
      "entropy": 1.6716107825438182,
      "epoch": 0.3419845651039521,
      "grad_norm": 0.7283676266670227,
      "learning_rate": 1.9079114600302926e-05,
      "loss": 1.3479,
      "mean_token_accuracy": 0.6658121645450592,
      "num_tokens": 522907464.0,
      "step": 3113
    },
    {
      "entropy": 1.6335497895876567,
      "epoch": 0.34209442201532503,
      "grad_norm": 0.7072910070419312,
      "learning_rate": 1.9078408936362857e-05,
      "loss": 1.2444,
      "mean_token_accuracy": 0.6787208517392477,
      "num_tokens": 523057454.0,
      "step": 3114
    },
    {
      "entropy": 1.7214987377325695,
      "epoch": 0.34220427892669797,
      "grad_norm": 0.7019241452217102,
      "learning_rate": 1.907770301674478e-05,
      "loss": 1.3578,
      "mean_token_accuracy": 0.6487798243761063,
      "num_tokens": 523240620.0,
      "step": 3115
    },
    {
      "entropy": 1.646393616994222,
      "epoch": 0.3423141358380709,
      "grad_norm": 0.7203688621520996,
      "learning_rate": 1.9076996841471047e-05,
      "loss": 1.3311,
      "mean_token_accuracy": 0.6660736699899038,
      "num_tokens": 523391299.0,
      "step": 3116
    },
    {
      "entropy": 1.7005057732264202,
      "epoch": 0.34242399274944385,
      "grad_norm": 0.636923611164093,
      "learning_rate": 1.9076290410564e-05,
      "loss": 1.4847,
      "mean_token_accuracy": 0.6475814878940582,
      "num_tokens": 523564225.0,
      "step": 3117
    },
    {
      "entropy": 1.7076924443244934,
      "epoch": 0.3425338496608168,
      "grad_norm": 0.7187374234199524,
      "learning_rate": 1.9075583724046004e-05,
      "loss": 1.4605,
      "mean_token_accuracy": 0.6543427258729935,
      "num_tokens": 523745353.0,
      "step": 3118
    },
    {
      "entropy": 1.7326221863428752,
      "epoch": 0.34264370657218973,
      "grad_norm": 0.6638636589050293,
      "learning_rate": 1.907487678193942e-05,
      "loss": 1.432,
      "mean_token_accuracy": 0.6483491808176041,
      "num_tokens": 523914991.0,
      "step": 3119
    },
    {
      "entropy": 1.692298283179601,
      "epoch": 0.3427535634835627,
      "grad_norm": 0.7324991822242737,
      "learning_rate": 1.9074169584266627e-05,
      "loss": 1.4448,
      "mean_token_accuracy": 0.6582270761330923,
      "num_tokens": 524095746.0,
      "step": 3120
    },
    {
      "entropy": 1.733394632736842,
      "epoch": 0.3428634203949356,
      "grad_norm": 0.7477669715881348,
      "learning_rate": 1.9073462131050002e-05,
      "loss": 1.5347,
      "mean_token_accuracy": 0.6465493490298589,
      "num_tokens": 524332980.0,
      "step": 3121
    },
    {
      "entropy": 1.7090126971403758,
      "epoch": 0.34297327730630855,
      "grad_norm": 0.6135408878326416,
      "learning_rate": 1.9072754422311937e-05,
      "loss": 1.3248,
      "mean_token_accuracy": 0.6581533948580424,
      "num_tokens": 524465802.0,
      "step": 3122
    },
    {
      "entropy": 1.715635746717453,
      "epoch": 0.3430831342176815,
      "grad_norm": 0.5586002469062805,
      "learning_rate": 1.9072046458074834e-05,
      "loss": 1.5206,
      "mean_token_accuracy": 0.6238716145356497,
      "num_tokens": 524743379.0,
      "step": 3123
    },
    {
      "entropy": 1.7447759707768757,
      "epoch": 0.3431929911290544,
      "grad_norm": 0.8412876129150391,
      "learning_rate": 1.90713382383611e-05,
      "loss": 1.4483,
      "mean_token_accuracy": 0.6630438417196274,
      "num_tokens": 524892897.0,
      "step": 3124
    },
    {
      "entropy": 1.7658887306849163,
      "epoch": 0.3433028480404273,
      "grad_norm": 0.7582389116287231,
      "learning_rate": 1.9070629763193148e-05,
      "loss": 1.5115,
      "mean_token_accuracy": 0.6470319529374441,
      "num_tokens": 525073268.0,
      "step": 3125
    },
    {
      "entropy": 1.7027207911014557,
      "epoch": 0.34341270495180026,
      "grad_norm": 0.7003147006034851,
      "learning_rate": 1.90699210325934e-05,
      "loss": 1.3185,
      "mean_token_accuracy": 0.6545501202344894,
      "num_tokens": 525223000.0,
      "step": 3126
    },
    {
      "entropy": 1.6880733569463093,
      "epoch": 0.3435225618631732,
      "grad_norm": 0.8535897731781006,
      "learning_rate": 1.9069212046584288e-05,
      "loss": 1.2261,
      "mean_token_accuracy": 0.6908506006002426,
      "num_tokens": 525346110.0,
      "step": 3127
    },
    {
      "entropy": 1.6838291088740032,
      "epoch": 0.34363241877454614,
      "grad_norm": 0.7103913426399231,
      "learning_rate": 1.9068502805188247e-05,
      "loss": 1.4846,
      "mean_token_accuracy": 0.6660540848970413,
      "num_tokens": 525510089.0,
      "step": 3128
    },
    {
      "entropy": 1.6504852771759033,
      "epoch": 0.3437422756859191,
      "grad_norm": 0.6084645390510559,
      "learning_rate": 1.9067793308427734e-05,
      "loss": 1.3674,
      "mean_token_accuracy": 0.6550189206997553,
      "num_tokens": 525680601.0,
      "step": 3129
    },
    {
      "entropy": 1.66959352294604,
      "epoch": 0.343852132597292,
      "grad_norm": 0.9643108248710632,
      "learning_rate": 1.906708355632519e-05,
      "loss": 1.186,
      "mean_token_accuracy": 0.684942439198494,
      "num_tokens": 525819677.0,
      "step": 3130
    },
    {
      "entropy": 1.7390025953451793,
      "epoch": 0.34396198950866497,
      "grad_norm": 0.8256139755249023,
      "learning_rate": 1.9066373548903097e-05,
      "loss": 1.4807,
      "mean_token_accuracy": 0.6392683138449987,
      "num_tokens": 526016590.0,
      "step": 3131
    },
    {
      "entropy": 1.6989341179529827,
      "epoch": 0.3440718464200379,
      "grad_norm": 0.6582311987876892,
      "learning_rate": 1.906566328618391e-05,
      "loss": 1.3251,
      "mean_token_accuracy": 0.6610842347145081,
      "num_tokens": 526146630.0,
      "step": 3132
    },
    {
      "entropy": 1.6985157827536266,
      "epoch": 0.34418170333141085,
      "grad_norm": 0.7080286741256714,
      "learning_rate": 1.9064952768190114e-05,
      "loss": 1.2785,
      "mean_token_accuracy": 0.6769105891386668,
      "num_tokens": 526281535.0,
      "step": 3133
    },
    {
      "entropy": 1.7005742291609447,
      "epoch": 0.3442915602427838,
      "grad_norm": 0.741958737373352,
      "learning_rate": 1.9064241994944197e-05,
      "loss": 1.2767,
      "mean_token_accuracy": 0.6701702376206716,
      "num_tokens": 526426500.0,
      "step": 3134
    },
    {
      "entropy": 1.6816225151220958,
      "epoch": 0.34440141715415673,
      "grad_norm": 0.6872779130935669,
      "learning_rate": 1.9063530966468655e-05,
      "loss": 1.4314,
      "mean_token_accuracy": 0.6407319158315659,
      "num_tokens": 526647271.0,
      "step": 3135
    },
    {
      "entropy": 1.6521427631378174,
      "epoch": 0.34451127406552967,
      "grad_norm": 0.7281518578529358,
      "learning_rate": 1.9062819682785993e-05,
      "loss": 1.3395,
      "mean_token_accuracy": 0.6678001085917155,
      "num_tokens": 526775519.0,
      "step": 3136
    },
    {
      "entropy": 1.6584477225939434,
      "epoch": 0.3446211309769026,
      "grad_norm": 0.7105032205581665,
      "learning_rate": 1.906210814391872e-05,
      "loss": 1.5403,
      "mean_token_accuracy": 0.6434331585963567,
      "num_tokens": 526960781.0,
      "step": 3137
    },
    {
      "entropy": 1.7096496224403381,
      "epoch": 0.3447309878882755,
      "grad_norm": 1.1132054328918457,
      "learning_rate": 1.9061396349889357e-05,
      "loss": 1.3313,
      "mean_token_accuracy": 0.6592603524525961,
      "num_tokens": 527077059.0,
      "step": 3138
    },
    {
      "entropy": 1.7816942930221558,
      "epoch": 0.34484084479964844,
      "grad_norm": 0.623199462890625,
      "learning_rate": 1.9060684300720435e-05,
      "loss": 1.4786,
      "mean_token_accuracy": 0.6451230843861898,
      "num_tokens": 527242392.0,
      "step": 3139
    },
    {
      "entropy": 1.7357947031656902,
      "epoch": 0.3449507017110214,
      "grad_norm": 0.6942022442817688,
      "learning_rate": 1.9059971996434483e-05,
      "loss": 1.6755,
      "mean_token_accuracy": 0.6327243894338608,
      "num_tokens": 527421563.0,
      "step": 3140
    },
    {
      "entropy": 1.719354470570882,
      "epoch": 0.3450605586223943,
      "grad_norm": 0.6363817453384399,
      "learning_rate": 1.9059259437054052e-05,
      "loss": 1.2542,
      "mean_token_accuracy": 0.6765570292870203,
      "num_tokens": 527542290.0,
      "step": 3141
    },
    {
      "entropy": 1.6994706292947133,
      "epoch": 0.34517041553376726,
      "grad_norm": 0.6537553071975708,
      "learning_rate": 1.9058546622601688e-05,
      "loss": 1.522,
      "mean_token_accuracy": 0.6443347980578741,
      "num_tokens": 527721230.0,
      "step": 3142
    },
    {
      "entropy": 1.7906754612922668,
      "epoch": 0.3452802724451402,
      "grad_norm": 0.7728573679924011,
      "learning_rate": 1.9057833553099957e-05,
      "loss": 1.444,
      "mean_token_accuracy": 0.6405621866385142,
      "num_tokens": 527925672.0,
      "step": 3143
    },
    {
      "entropy": 1.635061929623286,
      "epoch": 0.34539012935651314,
      "grad_norm": 0.7225202918052673,
      "learning_rate": 1.9057120228571426e-05,
      "loss": 1.2604,
      "mean_token_accuracy": 0.6803568998972574,
      "num_tokens": 528045373.0,
      "step": 3144
    },
    {
      "entropy": 1.7567674815654755,
      "epoch": 0.3454999862678861,
      "grad_norm": 0.7282200455665588,
      "learning_rate": 1.905640664903867e-05,
      "loss": 1.6159,
      "mean_token_accuracy": 0.6386793802181879,
      "num_tokens": 528235110.0,
      "step": 3145
    },
    {
      "entropy": 1.6713021596272786,
      "epoch": 0.345609843179259,
      "grad_norm": 0.6087730526924133,
      "learning_rate": 1.9055692814524273e-05,
      "loss": 1.2903,
      "mean_token_accuracy": 0.6718141039212545,
      "num_tokens": 528415004.0,
      "step": 3146
    },
    {
      "entropy": 1.6759739617506664,
      "epoch": 0.34571970009063197,
      "grad_norm": 0.8467540144920349,
      "learning_rate": 1.9054978725050827e-05,
      "loss": 1.3079,
      "mean_token_accuracy": 0.6630802005529404,
      "num_tokens": 528553683.0,
      "step": 3147
    },
    {
      "entropy": 1.709736426671346,
      "epoch": 0.3458295570020049,
      "grad_norm": 0.6705769896507263,
      "learning_rate": 1.9054264380640936e-05,
      "loss": 1.3064,
      "mean_token_accuracy": 0.6646785189708074,
      "num_tokens": 528671808.0,
      "step": 3148
    },
    {
      "entropy": 1.747974932193756,
      "epoch": 0.34593941391337785,
      "grad_norm": 0.7119439244270325,
      "learning_rate": 1.9053549781317208e-05,
      "loss": 1.2835,
      "mean_token_accuracy": 0.6721477657556534,
      "num_tokens": 528778625.0,
      "step": 3149
    },
    {
      "entropy": 1.741389234860738,
      "epoch": 0.3460492708247508,
      "grad_norm": 0.6632856130599976,
      "learning_rate": 1.9052834927102255e-05,
      "loss": 1.3884,
      "mean_token_accuracy": 0.6711229979991913,
      "num_tokens": 528918469.0,
      "step": 3150
    },
    {
      "entropy": 1.7209580143292744,
      "epoch": 0.3461591277361237,
      "grad_norm": 0.6064859628677368,
      "learning_rate": 1.905211981801871e-05,
      "loss": 1.2897,
      "mean_token_accuracy": 0.6677672813336054,
      "num_tokens": 529046367.0,
      "step": 3151
    },
    {
      "entropy": 1.7029893298943837,
      "epoch": 0.3462689846474966,
      "grad_norm": 0.6776720285415649,
      "learning_rate": 1.9051404454089196e-05,
      "loss": 1.473,
      "mean_token_accuracy": 0.6507180581490198,
      "num_tokens": 529254785.0,
      "step": 3152
    },
    {
      "entropy": 1.699689010779063,
      "epoch": 0.34637884155886955,
      "grad_norm": 0.7268986701965332,
      "learning_rate": 1.9050688835336358e-05,
      "loss": 1.3269,
      "mean_token_accuracy": 0.674399678905805,
      "num_tokens": 529399490.0,
      "step": 3153
    },
    {
      "entropy": 1.7162836492061615,
      "epoch": 0.3464886984702425,
      "grad_norm": 0.7248696088790894,
      "learning_rate": 1.904997296178285e-05,
      "loss": 1.3693,
      "mean_token_accuracy": 0.6586166570583979,
      "num_tokens": 529527378.0,
      "step": 3154
    },
    {
      "entropy": 1.6862310767173767,
      "epoch": 0.34659855538161544,
      "grad_norm": 0.7161970138549805,
      "learning_rate": 1.9049256833451327e-05,
      "loss": 1.481,
      "mean_token_accuracy": 0.6531454250216484,
      "num_tokens": 529734726.0,
      "step": 3155
    },
    {
      "entropy": 1.6877350012461345,
      "epoch": 0.3467084122929884,
      "grad_norm": 0.6686804294586182,
      "learning_rate": 1.904854045036445e-05,
      "loss": 1.3981,
      "mean_token_accuracy": 0.65309705833594,
      "num_tokens": 529949884.0,
      "step": 3156
    },
    {
      "entropy": 1.7140614589055378,
      "epoch": 0.3468182692043613,
      "grad_norm": 0.6998611092567444,
      "learning_rate": 1.9047823812544893e-05,
      "loss": 1.2816,
      "mean_token_accuracy": 0.6777733812729517,
      "num_tokens": 530095707.0,
      "step": 3157
    },
    {
      "entropy": 1.7329360047976177,
      "epoch": 0.34692812611573426,
      "grad_norm": 0.7617079615592957,
      "learning_rate": 1.904710692001534e-05,
      "loss": 1.27,
      "mean_token_accuracy": 0.6669184813896815,
      "num_tokens": 530233076.0,
      "step": 3158
    },
    {
      "entropy": 1.7423981527487438,
      "epoch": 0.3470379830271072,
      "grad_norm": 0.7219134569168091,
      "learning_rate": 1.904638977279848e-05,
      "loss": 1.4189,
      "mean_token_accuracy": 0.6537288725376129,
      "num_tokens": 530361395.0,
      "step": 3159
    },
    {
      "entropy": 1.7932091653347015,
      "epoch": 0.34714783993848014,
      "grad_norm": 0.7211331129074097,
      "learning_rate": 1.9045672370917008e-05,
      "loss": 1.3775,
      "mean_token_accuracy": 0.6503029266993204,
      "num_tokens": 530476029.0,
      "step": 3160
    },
    {
      "entropy": 1.6707605421543121,
      "epoch": 0.3472576968498531,
      "grad_norm": 0.6406380534172058,
      "learning_rate": 1.904495471439363e-05,
      "loss": 1.2947,
      "mean_token_accuracy": 0.6745659758647283,
      "num_tokens": 530620082.0,
      "step": 3161
    },
    {
      "entropy": 1.635949860016505,
      "epoch": 0.347367553761226,
      "grad_norm": 0.5812481641769409,
      "learning_rate": 1.9044236803251063e-05,
      "loss": 1.318,
      "mean_token_accuracy": 0.6674651255210241,
      "num_tokens": 530800009.0,
      "step": 3162
    },
    {
      "entropy": 1.686038355032603,
      "epoch": 0.34747741067259896,
      "grad_norm": 0.65413898229599,
      "learning_rate": 1.9043518637512027e-05,
      "loss": 1.39,
      "mean_token_accuracy": 0.6651994735002518,
      "num_tokens": 530939319.0,
      "step": 3163
    },
    {
      "entropy": 1.7452342510223389,
      "epoch": 0.3475872675839719,
      "grad_norm": 0.711044192314148,
      "learning_rate": 1.9042800217199248e-05,
      "loss": 1.3807,
      "mean_token_accuracy": 0.6522654493649801,
      "num_tokens": 531069878.0,
      "step": 3164
    },
    {
      "entropy": 1.672851413488388,
      "epoch": 0.3476971244953448,
      "grad_norm": 0.5760392546653748,
      "learning_rate": 1.9042081542335467e-05,
      "loss": 1.4053,
      "mean_token_accuracy": 0.6590311825275421,
      "num_tokens": 531295489.0,
      "step": 3165
    },
    {
      "entropy": 1.7025360067685444,
      "epoch": 0.34780698140671773,
      "grad_norm": 0.6651199460029602,
      "learning_rate": 1.9041362612943432e-05,
      "loss": 1.4792,
      "mean_token_accuracy": 0.6444245874881744,
      "num_tokens": 531499724.0,
      "step": 3166
    },
    {
      "entropy": 1.7628304362297058,
      "epoch": 0.34791683831809067,
      "grad_norm": 0.6585642099380493,
      "learning_rate": 1.9040643429045887e-05,
      "loss": 1.4042,
      "mean_token_accuracy": 0.6575342814127604,
      "num_tokens": 531731480.0,
      "step": 3167
    },
    {
      "entropy": 1.740038514137268,
      "epoch": 0.3480266952294636,
      "grad_norm": 0.7570586800575256,
      "learning_rate": 1.9039923990665605e-05,
      "loss": 1.439,
      "mean_token_accuracy": 0.6459324061870575,
      "num_tokens": 531912616.0,
      "step": 3168
    },
    {
      "entropy": 1.7111516793568928,
      "epoch": 0.34813655214083655,
      "grad_norm": 0.6636490225791931,
      "learning_rate": 1.903920429782535e-05,
      "loss": 1.3603,
      "mean_token_accuracy": 0.6567764480908712,
      "num_tokens": 532036362.0,
      "step": 3169
    },
    {
      "entropy": 1.7178413569927216,
      "epoch": 0.3482464090522095,
      "grad_norm": 0.8525426387786865,
      "learning_rate": 1.9038484350547903e-05,
      "loss": 1.3025,
      "mean_token_accuracy": 0.6610483030478159,
      "num_tokens": 532188392.0,
      "step": 3170
    },
    {
      "entropy": 1.7293661733468373,
      "epoch": 0.34835626596358243,
      "grad_norm": 0.7002199292182922,
      "learning_rate": 1.903776414885605e-05,
      "loss": 1.4114,
      "mean_token_accuracy": 0.6590321709712347,
      "num_tokens": 532327314.0,
      "step": 3171
    },
    {
      "entropy": 1.691053032875061,
      "epoch": 0.3484661228749554,
      "grad_norm": 0.7545453310012817,
      "learning_rate": 1.903704369277258e-05,
      "loss": 1.336,
      "mean_token_accuracy": 0.6653313388427099,
      "num_tokens": 532475041.0,
      "step": 3172
    },
    {
      "entropy": 1.7258902490139008,
      "epoch": 0.3485759797863283,
      "grad_norm": 0.7080891132354736,
      "learning_rate": 1.90363229823203e-05,
      "loss": 1.3609,
      "mean_token_accuracy": 0.6499852339426676,
      "num_tokens": 532608570.0,
      "step": 3173
    },
    {
      "entropy": 1.7066673735777538,
      "epoch": 0.34868583669770126,
      "grad_norm": 0.7277325391769409,
      "learning_rate": 1.9035602017522018e-05,
      "loss": 1.3951,
      "mean_token_accuracy": 0.6554910639921824,
      "num_tokens": 532771155.0,
      "step": 3174
    },
    {
      "entropy": 1.6777300437291462,
      "epoch": 0.3487956936090742,
      "grad_norm": 0.6466101408004761,
      "learning_rate": 1.9034880798400556e-05,
      "loss": 1.5736,
      "mean_token_accuracy": 0.6363010754187902,
      "num_tokens": 532958303.0,
      "step": 3175
    },
    {
      "entropy": 1.7415178914864857,
      "epoch": 0.34890555052044714,
      "grad_norm": 0.7584067583084106,
      "learning_rate": 1.9034159324978735e-05,
      "loss": 1.2576,
      "mean_token_accuracy": 0.6761174450318018,
      "num_tokens": 533125729.0,
      "step": 3176
    },
    {
      "entropy": 1.7105094691117604,
      "epoch": 0.3490154074318201,
      "grad_norm": 0.7372577786445618,
      "learning_rate": 1.9033437597279392e-05,
      "loss": 1.3823,
      "mean_token_accuracy": 0.6669119844834009,
      "num_tokens": 533287732.0,
      "step": 3177
    },
    {
      "entropy": 1.6837959190209706,
      "epoch": 0.34912526434319296,
      "grad_norm": 0.8528002500534058,
      "learning_rate": 1.903271561532537e-05,
      "loss": 1.3608,
      "mean_token_accuracy": 0.6598199556271235,
      "num_tokens": 533488739.0,
      "step": 3178
    },
    {
      "entropy": 1.7475207646687825,
      "epoch": 0.3492351212545659,
      "grad_norm": 0.7588545083999634,
      "learning_rate": 1.9031993379139517e-05,
      "loss": 1.4702,
      "mean_token_accuracy": 0.6513977944850922,
      "num_tokens": 533632736.0,
      "step": 3179
    },
    {
      "entropy": 1.676239550113678,
      "epoch": 0.34934497816593885,
      "grad_norm": 0.6096740365028381,
      "learning_rate": 1.903127088874469e-05,
      "loss": 1.221,
      "mean_token_accuracy": 0.6817640314499537,
      "num_tokens": 533766233.0,
      "step": 3180
    },
    {
      "entropy": 1.734337071577708,
      "epoch": 0.3494548350773118,
      "grad_norm": 0.6904963850975037,
      "learning_rate": 1.9030548144163766e-05,
      "loss": 1.4203,
      "mean_token_accuracy": 0.6599701891342798,
      "num_tokens": 533970894.0,
      "step": 3181
    },
    {
      "entropy": 1.7419179677963257,
      "epoch": 0.34956469198868473,
      "grad_norm": 0.8853073120117188,
      "learning_rate": 1.9029825145419606e-05,
      "loss": 1.3835,
      "mean_token_accuracy": 0.6622406442960104,
      "num_tokens": 534094496.0,
      "step": 3182
    },
    {
      "entropy": 1.6786328554153442,
      "epoch": 0.34967454890005767,
      "grad_norm": 0.6363751292228699,
      "learning_rate": 1.90291018925351e-05,
      "loss": 1.4218,
      "mean_token_accuracy": 0.661681205034256,
      "num_tokens": 534283850.0,
      "step": 3183
    },
    {
      "entropy": 1.6927332083384197,
      "epoch": 0.3497844058114306,
      "grad_norm": 0.6172245144844055,
      "learning_rate": 1.902837838553314e-05,
      "loss": 1.3543,
      "mean_token_accuracy": 0.6617726981639862,
      "num_tokens": 534467200.0,
      "step": 3184
    },
    {
      "entropy": 1.7397380471229553,
      "epoch": 0.34989426272280355,
      "grad_norm": 0.7281948328018188,
      "learning_rate": 1.9027654624436617e-05,
      "loss": 1.3724,
      "mean_token_accuracy": 0.6596235682566961,
      "num_tokens": 534630747.0,
      "step": 3185
    },
    {
      "entropy": 1.7327102224032085,
      "epoch": 0.3500041196341765,
      "grad_norm": 0.6819478869438171,
      "learning_rate": 1.9026930609268445e-05,
      "loss": 1.3829,
      "mean_token_accuracy": 0.6533329288164774,
      "num_tokens": 534801851.0,
      "step": 3186
    },
    {
      "entropy": 1.630759596824646,
      "epoch": 0.35011397654554943,
      "grad_norm": 0.6898466944694519,
      "learning_rate": 1.9026206340051535e-05,
      "loss": 1.2503,
      "mean_token_accuracy": 0.6898584812879562,
      "num_tokens": 534974937.0,
      "step": 3187
    },
    {
      "entropy": 1.7490450243155162,
      "epoch": 0.3502238334569224,
      "grad_norm": 0.6831504106521606,
      "learning_rate": 1.902548181680881e-05,
      "loss": 1.3835,
      "mean_token_accuracy": 0.6639950623114904,
      "num_tokens": 535144941.0,
      "step": 3188
    },
    {
      "entropy": 1.7011112074057262,
      "epoch": 0.3503336903682953,
      "grad_norm": 0.6328549385070801,
      "learning_rate": 1.902475703956321e-05,
      "loss": 1.4859,
      "mean_token_accuracy": 0.6441772828499476,
      "num_tokens": 535306022.0,
      "step": 3189
    },
    {
      "entropy": 1.7117084761460621,
      "epoch": 0.35044354727966825,
      "grad_norm": 0.6839233040809631,
      "learning_rate": 1.9024032008337654e-05,
      "loss": 1.3128,
      "mean_token_accuracy": 0.6650984783967336,
      "num_tokens": 535457085.0,
      "step": 3190
    },
    {
      "entropy": 1.639816661675771,
      "epoch": 0.3505534041910412,
      "grad_norm": 0.6154528856277466,
      "learning_rate": 1.9023306723155108e-05,
      "loss": 1.4108,
      "mean_token_accuracy": 0.645085021853447,
      "num_tokens": 535644965.0,
      "step": 3191
    },
    {
      "entropy": 1.7268753548463185,
      "epoch": 0.3506632611024141,
      "grad_norm": 0.7392616271972656,
      "learning_rate": 1.902258118403852e-05,
      "loss": 1.5011,
      "mean_token_accuracy": 0.6435932318369547,
      "num_tokens": 535819854.0,
      "step": 3192
    },
    {
      "entropy": 1.7294295032819111,
      "epoch": 0.350773118013787,
      "grad_norm": 0.750583827495575,
      "learning_rate": 1.9021855391010848e-05,
      "loss": 1.4695,
      "mean_token_accuracy": 0.6535586913426717,
      "num_tokens": 535986320.0,
      "step": 3193
    },
    {
      "entropy": 1.6876760522524517,
      "epoch": 0.35088297492515996,
      "grad_norm": 0.733034610748291,
      "learning_rate": 1.902112934409507e-05,
      "loss": 1.5651,
      "mean_token_accuracy": 0.6665263374646505,
      "num_tokens": 536133774.0,
      "step": 3194
    },
    {
      "entropy": 1.724027395248413,
      "epoch": 0.3509928318365329,
      "grad_norm": 0.705089271068573,
      "learning_rate": 1.9020403043314165e-05,
      "loss": 1.3844,
      "mean_token_accuracy": 0.6622153123219808,
      "num_tokens": 536301152.0,
      "step": 3195
    },
    {
      "entropy": 1.6385993957519531,
      "epoch": 0.35110268874790584,
      "grad_norm": 0.6220270991325378,
      "learning_rate": 1.9019676488691113e-05,
      "loss": 1.3943,
      "mean_token_accuracy": 0.6637493073940277,
      "num_tokens": 536466359.0,
      "step": 3196
    },
    {
      "entropy": 1.647113859653473,
      "epoch": 0.3512125456592788,
      "grad_norm": 0.6425076723098755,
      "learning_rate": 1.9018949680248913e-05,
      "loss": 1.2825,
      "mean_token_accuracy": 0.6719297617673874,
      "num_tokens": 536602915.0,
      "step": 3197
    },
    {
      "entropy": 1.6742305755615234,
      "epoch": 0.3513224025706517,
      "grad_norm": 0.683866024017334,
      "learning_rate": 1.9018222618010577e-05,
      "loss": 1.3446,
      "mean_token_accuracy": 0.6559995263814926,
      "num_tokens": 536785708.0,
      "step": 3198
    },
    {
      "entropy": 1.6582418382167816,
      "epoch": 0.35143225948202467,
      "grad_norm": 0.5620256066322327,
      "learning_rate": 1.90174953019991e-05,
      "loss": 1.3776,
      "mean_token_accuracy": 0.6558230916659037,
      "num_tokens": 537010057.0,
      "step": 3199
    },
    {
      "entropy": 1.7322443127632141,
      "epoch": 0.3515421163933976,
      "grad_norm": 0.7158662676811218,
      "learning_rate": 1.9016767732237517e-05,
      "loss": 1.4791,
      "mean_token_accuracy": 0.6457269241412481,
      "num_tokens": 537170570.0,
      "step": 3200
    },
    {
      "entropy": 1.7214918732643127,
      "epoch": 0.35165197330477055,
      "grad_norm": 0.7073965072631836,
      "learning_rate": 1.901603990874884e-05,
      "loss": 1.3967,
      "mean_token_accuracy": 0.6600227405627569,
      "num_tokens": 537366594.0,
      "step": 3201
    },
    {
      "entropy": 1.6927407383918762,
      "epoch": 0.3517618302161435,
      "grad_norm": 0.6808587312698364,
      "learning_rate": 1.9015311831556115e-05,
      "loss": 1.326,
      "mean_token_accuracy": 0.6713967969020208,
      "num_tokens": 537506637.0,
      "step": 3202
    },
    {
      "entropy": 1.719231108824412,
      "epoch": 0.35187168712751643,
      "grad_norm": 0.8534165024757385,
      "learning_rate": 1.9014583500682384e-05,
      "loss": 1.3823,
      "mean_token_accuracy": 0.6730857292811075,
      "num_tokens": 537656682.0,
      "step": 3203
    },
    {
      "entropy": 1.684444894393285,
      "epoch": 0.35198154403888937,
      "grad_norm": 0.74547278881073,
      "learning_rate": 1.90138549161507e-05,
      "loss": 1.2741,
      "mean_token_accuracy": 0.670419305562973,
      "num_tokens": 537803818.0,
      "step": 3204
    },
    {
      "entropy": 1.7365160286426544,
      "epoch": 0.35209140095026226,
      "grad_norm": 0.8732142448425293,
      "learning_rate": 1.901312607798411e-05,
      "loss": 1.5498,
      "mean_token_accuracy": 0.6439683735370636,
      "num_tokens": 537990938.0,
      "step": 3205
    },
    {
      "entropy": 1.7507870495319366,
      "epoch": 0.3522012578616352,
      "grad_norm": 0.7832520008087158,
      "learning_rate": 1.9012396986205695e-05,
      "loss": 1.5008,
      "mean_token_accuracy": 0.6420899679263433,
      "num_tokens": 538123491.0,
      "step": 3206
    },
    {
      "entropy": 1.6451840698719025,
      "epoch": 0.35231111477300814,
      "grad_norm": 0.6481114029884338,
      "learning_rate": 1.9011667640838527e-05,
      "loss": 1.4059,
      "mean_token_accuracy": 0.6524686167637507,
      "num_tokens": 538325290.0,
      "step": 3207
    },
    {
      "entropy": 1.645903656880061,
      "epoch": 0.3524209716843811,
      "grad_norm": 0.6290945410728455,
      "learning_rate": 1.901093804190569e-05,
      "loss": 1.3211,
      "mean_token_accuracy": 0.6677955438693365,
      "num_tokens": 538458740.0,
      "step": 3208
    },
    {
      "entropy": 1.7137588659922283,
      "epoch": 0.352530828595754,
      "grad_norm": 0.6638056635856628,
      "learning_rate": 1.901020818943027e-05,
      "loss": 1.2841,
      "mean_token_accuracy": 0.6764950404564539,
      "num_tokens": 538596800.0,
      "step": 3209
    },
    {
      "entropy": 1.7618902027606964,
      "epoch": 0.35264068550712696,
      "grad_norm": 0.7724607586860657,
      "learning_rate": 1.9009478083435372e-05,
      "loss": 1.473,
      "mean_token_accuracy": 0.6430220901966095,
      "num_tokens": 538746035.0,
      "step": 3210
    },
    {
      "entropy": 1.6959488193194072,
      "epoch": 0.3527505424184999,
      "grad_norm": 0.7325376272201538,
      "learning_rate": 1.90087477239441e-05,
      "loss": 1.4151,
      "mean_token_accuracy": 0.6453822106122971,
      "num_tokens": 538922341.0,
      "step": 3211
    },
    {
      "entropy": 1.743853767712911,
      "epoch": 0.35286039932987284,
      "grad_norm": 0.7420296669006348,
      "learning_rate": 1.9008017110979573e-05,
      "loss": 1.4575,
      "mean_token_accuracy": 0.6492985039949417,
      "num_tokens": 539055514.0,
      "step": 3212
    },
    {
      "entropy": 1.6643742322921753,
      "epoch": 0.3529702562412458,
      "grad_norm": 0.616858959197998,
      "learning_rate": 1.9007286244564912e-05,
      "loss": 1.3077,
      "mean_token_accuracy": 0.6636150479316711,
      "num_tokens": 539195690.0,
      "step": 3213
    },
    {
      "entropy": 1.7134017944335938,
      "epoch": 0.3530801131526187,
      "grad_norm": 0.6087394952774048,
      "learning_rate": 1.900655512472325e-05,
      "loss": 1.4671,
      "mean_token_accuracy": 0.642287035783132,
      "num_tokens": 539452254.0,
      "step": 3214
    },
    {
      "entropy": 1.6220239003499348,
      "epoch": 0.35318997006399167,
      "grad_norm": 0.6543572545051575,
      "learning_rate": 1.9005823751477727e-05,
      "loss": 1.4195,
      "mean_token_accuracy": 0.6753101100524267,
      "num_tokens": 539651551.0,
      "step": 3215
    },
    {
      "entropy": 1.7377901673316956,
      "epoch": 0.3532998269753646,
      "grad_norm": 0.6597190499305725,
      "learning_rate": 1.9005092124851488e-05,
      "loss": 1.4769,
      "mean_token_accuracy": 0.6341644277175268,
      "num_tokens": 539839472.0,
      "step": 3216
    },
    {
      "entropy": 1.636192907889684,
      "epoch": 0.35340968388673755,
      "grad_norm": 0.7926854491233826,
      "learning_rate": 1.9004360244867692e-05,
      "loss": 1.4022,
      "mean_token_accuracy": 0.6752565801143646,
      "num_tokens": 539974405.0,
      "step": 3217
    },
    {
      "entropy": 1.7549065450827281,
      "epoch": 0.3535195407981105,
      "grad_norm": 0.733349621295929,
      "learning_rate": 1.90036281115495e-05,
      "loss": 1.309,
      "mean_token_accuracy": 0.6662448445955912,
      "num_tokens": 540115247.0,
      "step": 3218
    },
    {
      "entropy": 1.7415490448474884,
      "epoch": 0.3536293977094834,
      "grad_norm": 0.6571947336196899,
      "learning_rate": 1.9002895724920084e-05,
      "loss": 1.4145,
      "mean_token_accuracy": 0.6497042328119278,
      "num_tokens": 540260715.0,
      "step": 3219
    },
    {
      "entropy": 1.7305750052134197,
      "epoch": 0.3537392546208563,
      "grad_norm": 0.6744175553321838,
      "learning_rate": 1.9002163085002627e-05,
      "loss": 1.2965,
      "mean_token_accuracy": 0.6661575684944788,
      "num_tokens": 540413230.0,
      "step": 3220
    },
    {
      "entropy": 1.7879510422547658,
      "epoch": 0.35384911153222925,
      "grad_norm": 0.7192217707633972,
      "learning_rate": 1.900143019182031e-05,
      "loss": 1.5031,
      "mean_token_accuracy": 0.6537016083796819,
      "num_tokens": 540599645.0,
      "step": 3221
    },
    {
      "entropy": 1.7366569141546886,
      "epoch": 0.3539589684436022,
      "grad_norm": 0.728387713432312,
      "learning_rate": 1.9000697045396335e-05,
      "loss": 1.6104,
      "mean_token_accuracy": 0.6425615598758062,
      "num_tokens": 540770142.0,
      "step": 3222
    },
    {
      "entropy": 1.6701840062936146,
      "epoch": 0.35406882535497514,
      "grad_norm": 0.6737568974494934,
      "learning_rate": 1.8999963645753907e-05,
      "loss": 1.4392,
      "mean_token_accuracy": 0.6645657767852148,
      "num_tokens": 540924432.0,
      "step": 3223
    },
    {
      "entropy": 1.7021212875843048,
      "epoch": 0.3541786822663481,
      "grad_norm": 1.4555866718292236,
      "learning_rate": 1.8999229992916234e-05,
      "loss": 1.2265,
      "mean_token_accuracy": 0.688769077261289,
      "num_tokens": 541139968.0,
      "step": 3224
    },
    {
      "entropy": 1.6931440830230713,
      "epoch": 0.354288539177721,
      "grad_norm": 0.7598428726196289,
      "learning_rate": 1.8998496086906536e-05,
      "loss": 1.415,
      "mean_token_accuracy": 0.6580548882484436,
      "num_tokens": 541332213.0,
      "step": 3225
    },
    {
      "entropy": 1.7305771907170613,
      "epoch": 0.35439839608909396,
      "grad_norm": 0.6824182271957397,
      "learning_rate": 1.8997761927748038e-05,
      "loss": 1.3613,
      "mean_token_accuracy": 0.6714488168557485,
      "num_tokens": 541503362.0,
      "step": 3226
    },
    {
      "entropy": 1.7079228858153026,
      "epoch": 0.3545082530004669,
      "grad_norm": 0.663765013217926,
      "learning_rate": 1.8997027515463982e-05,
      "loss": 1.5137,
      "mean_token_accuracy": 0.6328500509262085,
      "num_tokens": 541703771.0,
      "step": 3227
    },
    {
      "entropy": 1.7136943340301514,
      "epoch": 0.35461810991183984,
      "grad_norm": 0.6330761313438416,
      "learning_rate": 1.8996292850077605e-05,
      "loss": 1.3637,
      "mean_token_accuracy": 0.6594545394182205,
      "num_tokens": 541901051.0,
      "step": 3228
    },
    {
      "entropy": 1.6656453013420105,
      "epoch": 0.3547279668232128,
      "grad_norm": 0.7125634551048279,
      "learning_rate": 1.8995557931612162e-05,
      "loss": 1.4978,
      "mean_token_accuracy": 0.6360595971345901,
      "num_tokens": 542105364.0,
      "step": 3229
    },
    {
      "entropy": 1.6696421404679616,
      "epoch": 0.3548378237345857,
      "grad_norm": 0.6307772994041443,
      "learning_rate": 1.8994822760090917e-05,
      "loss": 1.3209,
      "mean_token_accuracy": 0.6642138212919235,
      "num_tokens": 542278837.0,
      "step": 3230
    },
    {
      "entropy": 1.7220669488112132,
      "epoch": 0.35494768064595866,
      "grad_norm": 0.6235775947570801,
      "learning_rate": 1.8994087335537136e-05,
      "loss": 1.4231,
      "mean_token_accuracy": 0.6583664764960607,
      "num_tokens": 542477234.0,
      "step": 3231
    },
    {
      "entropy": 1.767273376385371,
      "epoch": 0.35505753755733155,
      "grad_norm": 0.75313800573349,
      "learning_rate": 1.8993351657974088e-05,
      "loss": 1.3379,
      "mean_token_accuracy": 0.6546075393756231,
      "num_tokens": 542579859.0,
      "step": 3232
    },
    {
      "entropy": 1.7123860716819763,
      "epoch": 0.3551673944687045,
      "grad_norm": 0.7081466317176819,
      "learning_rate": 1.8992615727425064e-05,
      "loss": 1.4038,
      "mean_token_accuracy": 0.6437129030625025,
      "num_tokens": 542748402.0,
      "step": 3233
    },
    {
      "entropy": 1.7314150631427765,
      "epoch": 0.35527725138007743,
      "grad_norm": 0.7206461429595947,
      "learning_rate": 1.8991879543913353e-05,
      "loss": 1.4612,
      "mean_token_accuracy": 0.6518258800109228,
      "num_tokens": 542947728.0,
      "step": 3234
    },
    {
      "entropy": 1.7437797288099925,
      "epoch": 0.35538710829145037,
      "grad_norm": 0.6989411115646362,
      "learning_rate": 1.8991143107462256e-05,
      "loss": 1.4143,
      "mean_token_accuracy": 0.6447295347849528,
      "num_tokens": 543108539.0,
      "step": 3235
    },
    {
      "entropy": 1.739637513955434,
      "epoch": 0.3554969652028233,
      "grad_norm": 0.8311676979064941,
      "learning_rate": 1.8990406418095083e-05,
      "loss": 1.3188,
      "mean_token_accuracy": 0.6700087090333303,
      "num_tokens": 543256908.0,
      "step": 3236
    },
    {
      "entropy": 1.6945122977097828,
      "epoch": 0.35560682211419625,
      "grad_norm": 0.7516961097717285,
      "learning_rate": 1.8989669475835145e-05,
      "loss": 1.3135,
      "mean_token_accuracy": 0.6661293009916941,
      "num_tokens": 543373158.0,
      "step": 3237
    },
    {
      "entropy": 1.7841602961222331,
      "epoch": 0.3557166790255692,
      "grad_norm": 0.8799614310264587,
      "learning_rate": 1.898893228070577e-05,
      "loss": 1.2702,
      "mean_token_accuracy": 0.6760559976100922,
      "num_tokens": 543513318.0,
      "step": 3238
    },
    {
      "entropy": 1.7264136672019958,
      "epoch": 0.35582653593694213,
      "grad_norm": 0.7641453742980957,
      "learning_rate": 1.8988194832730283e-05,
      "loss": 1.301,
      "mean_token_accuracy": 0.6664343724648157,
      "num_tokens": 543645245.0,
      "step": 3239
    },
    {
      "entropy": 1.6593830386797588,
      "epoch": 0.3559363928483151,
      "grad_norm": 0.7157340049743652,
      "learning_rate": 1.8987457131932036e-05,
      "loss": 1.4008,
      "mean_token_accuracy": 0.6607535431782404,
      "num_tokens": 543795740.0,
      "step": 3240
    },
    {
      "entropy": 1.7583003342151642,
      "epoch": 0.356046249759688,
      "grad_norm": 0.8725547194480896,
      "learning_rate": 1.898671917833437e-05,
      "loss": 1.5383,
      "mean_token_accuracy": 0.6420815885066986,
      "num_tokens": 543958970.0,
      "step": 3241
    },
    {
      "entropy": 1.6769887109597523,
      "epoch": 0.35615610667106096,
      "grad_norm": 0.6710975766181946,
      "learning_rate": 1.8985980971960637e-05,
      "loss": 1.5089,
      "mean_token_accuracy": 0.6415905406077703,
      "num_tokens": 544152972.0,
      "step": 3242
    },
    {
      "entropy": 1.6808498601118724,
      "epoch": 0.3562659635824339,
      "grad_norm": 0.6576784253120422,
      "learning_rate": 1.8985242512834205e-05,
      "loss": 1.4222,
      "mean_token_accuracy": 0.6540278444687525,
      "num_tokens": 544305414.0,
      "step": 3243
    },
    {
      "entropy": 1.7014685571193695,
      "epoch": 0.35637582049380684,
      "grad_norm": 0.67486572265625,
      "learning_rate": 1.8984503800978444e-05,
      "loss": 1.4781,
      "mean_token_accuracy": 0.6487467388312022,
      "num_tokens": 544497707.0,
      "step": 3244
    },
    {
      "entropy": 1.7330358525117238,
      "epoch": 0.3564856774051798,
      "grad_norm": 0.6918492317199707,
      "learning_rate": 1.898376483641674e-05,
      "loss": 1.3808,
      "mean_token_accuracy": 0.6515394548575083,
      "num_tokens": 544661597.0,
      "step": 3245
    },
    {
      "entropy": 1.7030868232250214,
      "epoch": 0.35659553431655266,
      "grad_norm": 0.6160433292388916,
      "learning_rate": 1.898302561917247e-05,
      "loss": 1.3579,
      "mean_token_accuracy": 0.662481889128685,
      "num_tokens": 544814617.0,
      "step": 3246
    },
    {
      "entropy": 1.7345664103825886,
      "epoch": 0.3567053912279256,
      "grad_norm": 0.7806865572929382,
      "learning_rate": 1.8982286149269043e-05,
      "loss": 1.505,
      "mean_token_accuracy": 0.6493661950031916,
      "num_tokens": 544950318.0,
      "step": 3247
    },
    {
      "entropy": 1.7066125174363453,
      "epoch": 0.35681524813929855,
      "grad_norm": 0.6025816202163696,
      "learning_rate": 1.8981546426729856e-05,
      "loss": 1.3322,
      "mean_token_accuracy": 0.6618035733699799,
      "num_tokens": 545107729.0,
      "step": 3248
    },
    {
      "entropy": 1.7195513546466827,
      "epoch": 0.3569251050506715,
      "grad_norm": 0.7217980027198792,
      "learning_rate": 1.898080645157832e-05,
      "loss": 1.4037,
      "mean_token_accuracy": 0.6431277443965276,
      "num_tokens": 545338954.0,
      "step": 3249
    },
    {
      "entropy": 1.6746398607889812,
      "epoch": 0.35703496196204443,
      "grad_norm": 0.5947571992874146,
      "learning_rate": 1.8980066223837857e-05,
      "loss": 1.3889,
      "mean_token_accuracy": 0.6642505377531052,
      "num_tokens": 545502181.0,
      "step": 3250
    },
    {
      "entropy": 1.782493571440379,
      "epoch": 0.35714481887341737,
      "grad_norm": 0.6762712001800537,
      "learning_rate": 1.8979325743531892e-05,
      "loss": 1.3322,
      "mean_token_accuracy": 0.6563690652449926,
      "num_tokens": 545647976.0,
      "step": 3251
    },
    {
      "entropy": 1.6596081058184307,
      "epoch": 0.3572546757847903,
      "grad_norm": 0.665545642375946,
      "learning_rate": 1.897858501068386e-05,
      "loss": 1.3157,
      "mean_token_accuracy": 0.6745046228170395,
      "num_tokens": 545789298.0,
      "step": 3252
    },
    {
      "entropy": 1.7242101629575093,
      "epoch": 0.35736453269616325,
      "grad_norm": 0.6829879879951477,
      "learning_rate": 1.8977844025317212e-05,
      "loss": 1.4886,
      "mean_token_accuracy": 0.645786871512731,
      "num_tokens": 546005021.0,
      "step": 3253
    },
    {
      "entropy": 1.6587198774019878,
      "epoch": 0.3574743896075362,
      "grad_norm": 0.645124614238739,
      "learning_rate": 1.897710278745539e-05,
      "loss": 1.4629,
      "mean_token_accuracy": 0.6476227790117264,
      "num_tokens": 546211606.0,
      "step": 3254
    },
    {
      "entropy": 1.77561150987943,
      "epoch": 0.35758424651890913,
      "grad_norm": 0.7814483642578125,
      "learning_rate": 1.897636129712187e-05,
      "loss": 1.5806,
      "mean_token_accuracy": 0.6428438226381937,
      "num_tokens": 546374799.0,
      "step": 3255
    },
    {
      "entropy": 1.6502399047215779,
      "epoch": 0.3576941034302821,
      "grad_norm": 0.6323907971382141,
      "learning_rate": 1.8975619554340103e-05,
      "loss": 1.3035,
      "mean_token_accuracy": 0.6714171419541041,
      "num_tokens": 546556026.0,
      "step": 3256
    },
    {
      "entropy": 1.622281789779663,
      "epoch": 0.357803960341655,
      "grad_norm": 0.6249427795410156,
      "learning_rate": 1.8974877559133568e-05,
      "loss": 1.4739,
      "mean_token_accuracy": 0.6602053095897039,
      "num_tokens": 546763855.0,
      "step": 3257
    },
    {
      "entropy": 1.7764336963494618,
      "epoch": 0.35791381725302795,
      "grad_norm": 0.7319939136505127,
      "learning_rate": 1.8974135311525756e-05,
      "loss": 1.3925,
      "mean_token_accuracy": 0.6508530924717585,
      "num_tokens": 546905288.0,
      "step": 3258
    },
    {
      "entropy": 1.6988587478796642,
      "epoch": 0.35802367416440084,
      "grad_norm": 0.5522320866584778,
      "learning_rate": 1.897339281154015e-05,
      "loss": 1.3956,
      "mean_token_accuracy": 0.6408476581176122,
      "num_tokens": 547116190.0,
      "step": 3259
    },
    {
      "entropy": 1.717311978340149,
      "epoch": 0.3581335310757738,
      "grad_norm": 0.6752801537513733,
      "learning_rate": 1.897265005920026e-05,
      "loss": 1.4233,
      "mean_token_accuracy": 0.6433817644913992,
      "num_tokens": 547287521.0,
      "step": 3260
    },
    {
      "entropy": 1.65370711684227,
      "epoch": 0.3582433879871467,
      "grad_norm": 0.6644560098648071,
      "learning_rate": 1.8971907054529585e-05,
      "loss": 1.5168,
      "mean_token_accuracy": 0.6519752393166224,
      "num_tokens": 547490966.0,
      "step": 3261
    },
    {
      "entropy": 1.7368830641110737,
      "epoch": 0.35835324489851966,
      "grad_norm": 0.6558582782745361,
      "learning_rate": 1.8971163797551645e-05,
      "loss": 1.4857,
      "mean_token_accuracy": 0.6533776869376501,
      "num_tokens": 547688075.0,
      "step": 3262
    },
    {
      "entropy": 1.6827348172664642,
      "epoch": 0.3584631018098926,
      "grad_norm": 0.6018016934394836,
      "learning_rate": 1.8970420288289963e-05,
      "loss": 1.4116,
      "mean_token_accuracy": 0.6425057997306188,
      "num_tokens": 547881243.0,
      "step": 3263
    },
    {
      "entropy": 1.7337345282236736,
      "epoch": 0.35857295872126554,
      "grad_norm": 0.6800892353057861,
      "learning_rate": 1.8969676526768072e-05,
      "loss": 1.4148,
      "mean_token_accuracy": 0.6537298361460367,
      "num_tokens": 548022572.0,
      "step": 3264
    },
    {
      "entropy": 1.7320611973603566,
      "epoch": 0.3586828156326385,
      "grad_norm": 0.6835919618606567,
      "learning_rate": 1.8968932513009507e-05,
      "loss": 1.4243,
      "mean_token_accuracy": 0.65031631787618,
      "num_tokens": 548206869.0,
      "step": 3265
    },
    {
      "entropy": 1.6919034918149312,
      "epoch": 0.3587926725440114,
      "grad_norm": 0.703696608543396,
      "learning_rate": 1.8968188247037823e-05,
      "loss": 1.411,
      "mean_token_accuracy": 0.655804713567098,
      "num_tokens": 548390855.0,
      "step": 3266
    },
    {
      "entropy": 1.7181176046530406,
      "epoch": 0.35890252945538437,
      "grad_norm": 0.7795320153236389,
      "learning_rate": 1.8967443728876566e-05,
      "loss": 1.2687,
      "mean_token_accuracy": 0.6653892497221628,
      "num_tokens": 548546869.0,
      "step": 3267
    },
    {
      "entropy": 1.7424982289473216,
      "epoch": 0.3590123863667573,
      "grad_norm": 0.7345746755599976,
      "learning_rate": 1.896669895854931e-05,
      "loss": 1.6389,
      "mean_token_accuracy": 0.6303468098243078,
      "num_tokens": 548770908.0,
      "step": 3268
    },
    {
      "entropy": 1.7184557716051738,
      "epoch": 0.35912224327813025,
      "grad_norm": 0.7089744806289673,
      "learning_rate": 1.8965953936079616e-05,
      "loss": 1.5394,
      "mean_token_accuracy": 0.6407269140084585,
      "num_tokens": 548980049.0,
      "step": 3269
    },
    {
      "entropy": 1.768985648949941,
      "epoch": 0.3592321001895032,
      "grad_norm": 0.7779526114463806,
      "learning_rate": 1.8965208661491073e-05,
      "loss": 1.452,
      "mean_token_accuracy": 0.6549462129672369,
      "num_tokens": 549138218.0,
      "step": 3270
    },
    {
      "entropy": 1.734433690706889,
      "epoch": 0.35934195710087613,
      "grad_norm": 0.67804354429245,
      "learning_rate": 1.8964463134807265e-05,
      "loss": 1.4667,
      "mean_token_accuracy": 0.6576692014932632,
      "num_tokens": 549297807.0,
      "step": 3271
    },
    {
      "entropy": 1.6583465834458668,
      "epoch": 0.35945181401224907,
      "grad_norm": 0.6600108742713928,
      "learning_rate": 1.896371735605179e-05,
      "loss": 1.442,
      "mean_token_accuracy": 0.651568760474523,
      "num_tokens": 549471832.0,
      "step": 3272
    },
    {
      "entropy": 1.7016997933387756,
      "epoch": 0.35956167092362196,
      "grad_norm": 0.5997833013534546,
      "learning_rate": 1.8962971325248246e-05,
      "loss": 1.5253,
      "mean_token_accuracy": 0.6380040893952051,
      "num_tokens": 549645821.0,
      "step": 3273
    },
    {
      "entropy": 1.728733738263448,
      "epoch": 0.3596715278349949,
      "grad_norm": 0.7934627532958984,
      "learning_rate": 1.8962225042420248e-05,
      "loss": 1.5075,
      "mean_token_accuracy": 0.6416665812333425,
      "num_tokens": 549809498.0,
      "step": 3274
    },
    {
      "entropy": 1.7281453907489777,
      "epoch": 0.35978138474636784,
      "grad_norm": 0.6657528877258301,
      "learning_rate": 1.8961478507591417e-05,
      "loss": 1.3891,
      "mean_token_accuracy": 0.6498565276463827,
      "num_tokens": 549995261.0,
      "step": 3275
    },
    {
      "entropy": 1.7271487216154735,
      "epoch": 0.3598912416577408,
      "grad_norm": 0.6277911067008972,
      "learning_rate": 1.8960731720785378e-05,
      "loss": 1.3812,
      "mean_token_accuracy": 0.6533424854278564,
      "num_tokens": 550156327.0,
      "step": 3276
    },
    {
      "entropy": 1.7464400331179302,
      "epoch": 0.3600010985691137,
      "grad_norm": 0.6984190940856934,
      "learning_rate": 1.8959984682025767e-05,
      "loss": 1.3108,
      "mean_token_accuracy": 0.6629662662744522,
      "num_tokens": 550289813.0,
      "step": 3277
    },
    {
      "entropy": 1.7461791435877483,
      "epoch": 0.36011095548048666,
      "grad_norm": 0.8859475255012512,
      "learning_rate": 1.8959237391336226e-05,
      "loss": 1.3565,
      "mean_token_accuracy": 0.6585030903418859,
      "num_tokens": 550433398.0,
      "step": 3278
    },
    {
      "entropy": 1.7174023687839508,
      "epoch": 0.3602208123918596,
      "grad_norm": 0.6496213674545288,
      "learning_rate": 1.895848984874041e-05,
      "loss": 1.3238,
      "mean_token_accuracy": 0.6703794449567795,
      "num_tokens": 550571694.0,
      "step": 3279
    },
    {
      "entropy": 1.6957313120365143,
      "epoch": 0.36033066930323254,
      "grad_norm": 0.7161815762519836,
      "learning_rate": 1.8957742054261976e-05,
      "loss": 1.4328,
      "mean_token_accuracy": 0.6538204352060953,
      "num_tokens": 550742742.0,
      "step": 3280
    },
    {
      "entropy": 1.7091784179210663,
      "epoch": 0.3604405262146055,
      "grad_norm": 0.6954407095909119,
      "learning_rate": 1.8956994007924595e-05,
      "loss": 1.4701,
      "mean_token_accuracy": 0.6483365694681803,
      "num_tokens": 550915669.0,
      "step": 3281
    },
    {
      "entropy": 1.759674459695816,
      "epoch": 0.3605503831259784,
      "grad_norm": 0.8163644671440125,
      "learning_rate": 1.8956245709751932e-05,
      "loss": 1.4494,
      "mean_token_accuracy": 0.6482079128424326,
      "num_tokens": 551072402.0,
      "step": 3282
    },
    {
      "entropy": 1.6610101958115895,
      "epoch": 0.36066024003735137,
      "grad_norm": 0.6455697417259216,
      "learning_rate": 1.8955497159767683e-05,
      "loss": 1.3841,
      "mean_token_accuracy": 0.6573386738697687,
      "num_tokens": 551243907.0,
      "step": 3283
    },
    {
      "entropy": 1.765950342019399,
      "epoch": 0.3607700969487243,
      "grad_norm": 0.6208654046058655,
      "learning_rate": 1.8954748357995532e-05,
      "loss": 1.472,
      "mean_token_accuracy": 0.6405810018380483,
      "num_tokens": 551437093.0,
      "step": 3284
    },
    {
      "entropy": 1.6940280695756276,
      "epoch": 0.36087995386009725,
      "grad_norm": 0.7773803472518921,
      "learning_rate": 1.8953999304459182e-05,
      "loss": 1.306,
      "mean_token_accuracy": 0.670986607670784,
      "num_tokens": 551578647.0,
      "step": 3285
    },
    {
      "entropy": 1.7210556169350941,
      "epoch": 0.3609898107714702,
      "grad_norm": 0.6685793399810791,
      "learning_rate": 1.8953249999182336e-05,
      "loss": 1.3721,
      "mean_token_accuracy": 0.6593438486258189,
      "num_tokens": 551716346.0,
      "step": 3286
    },
    {
      "entropy": 1.7289181451002757,
      "epoch": 0.3610996676828431,
      "grad_norm": 0.6698284149169922,
      "learning_rate": 1.895250044218871e-05,
      "loss": 1.4681,
      "mean_token_accuracy": 0.6375825703144073,
      "num_tokens": 551901315.0,
      "step": 3287
    },
    {
      "entropy": 1.7202289899190266,
      "epoch": 0.361209524594216,
      "grad_norm": 0.7790493369102478,
      "learning_rate": 1.895175063350203e-05,
      "loss": 1.4252,
      "mean_token_accuracy": 0.6556966801484426,
      "num_tokens": 552055231.0,
      "step": 3288
    },
    {
      "entropy": 1.638626625140508,
      "epoch": 0.36131938150558895,
      "grad_norm": 0.6459670662879944,
      "learning_rate": 1.8951000573146028e-05,
      "loss": 1.1587,
      "mean_token_accuracy": 0.6860545178254446,
      "num_tokens": 552154538.0,
      "step": 3289
    },
    {
      "entropy": 1.7047406236330669,
      "epoch": 0.3614292384169619,
      "grad_norm": 0.6823393702507019,
      "learning_rate": 1.895025026114444e-05,
      "loss": 1.3642,
      "mean_token_accuracy": 0.6609081079562505,
      "num_tokens": 552306200.0,
      "step": 3290
    },
    {
      "entropy": 1.7296662827332814,
      "epoch": 0.36153909532833484,
      "grad_norm": 0.6827804446220398,
      "learning_rate": 1.8949499697521013e-05,
      "loss": 1.5255,
      "mean_token_accuracy": 0.6456420173247656,
      "num_tokens": 552495063.0,
      "step": 3291
    },
    {
      "entropy": 1.7409346004327138,
      "epoch": 0.3616489522397078,
      "grad_norm": 0.6589847803115845,
      "learning_rate": 1.89487488822995e-05,
      "loss": 1.569,
      "mean_token_accuracy": 0.6369834740956625,
      "num_tokens": 552680325.0,
      "step": 3292
    },
    {
      "entropy": 1.7292551795641582,
      "epoch": 0.3617588091510807,
      "grad_norm": 0.683055579662323,
      "learning_rate": 1.8947997815503668e-05,
      "loss": 1.3601,
      "mean_token_accuracy": 0.6582022855679194,
      "num_tokens": 552842160.0,
      "step": 3293
    },
    {
      "entropy": 1.6185003022352855,
      "epoch": 0.36186866606245366,
      "grad_norm": 0.5870607495307922,
      "learning_rate": 1.8947246497157287e-05,
      "loss": 1.2843,
      "mean_token_accuracy": 0.6818203230698904,
      "num_tokens": 553002411.0,
      "step": 3294
    },
    {
      "entropy": 1.7373617390791576,
      "epoch": 0.3619785229738266,
      "grad_norm": 0.8702647089958191,
      "learning_rate": 1.8946494927284134e-05,
      "loss": 1.4134,
      "mean_token_accuracy": 0.6574988017479578,
      "num_tokens": 553134679.0,
      "step": 3295
    },
    {
      "entropy": 1.6635343730449677,
      "epoch": 0.36208837988519954,
      "grad_norm": 0.6780598163604736,
      "learning_rate": 1.8945743105908004e-05,
      "loss": 1.2698,
      "mean_token_accuracy": 0.672525574763616,
      "num_tokens": 553279210.0,
      "step": 3296
    },
    {
      "entropy": 1.7142191926638286,
      "epoch": 0.3621982367965725,
      "grad_norm": 0.6832349896430969,
      "learning_rate": 1.894499103305268e-05,
      "loss": 1.388,
      "mean_token_accuracy": 0.6695650964975357,
      "num_tokens": 553454135.0,
      "step": 3297
    },
    {
      "entropy": 1.7063461641470592,
      "epoch": 0.3623080937079454,
      "grad_norm": 0.6330212354660034,
      "learning_rate": 1.894423870874197e-05,
      "loss": 1.4071,
      "mean_token_accuracy": 0.6505293697118759,
      "num_tokens": 553628489.0,
      "step": 3298
    },
    {
      "entropy": 1.705621709426244,
      "epoch": 0.36241795061931836,
      "grad_norm": 0.732349693775177,
      "learning_rate": 1.894348613299968e-05,
      "loss": 1.3747,
      "mean_token_accuracy": 0.6729957262674967,
      "num_tokens": 553793405.0,
      "step": 3299
    },
    {
      "entropy": 1.7087404429912567,
      "epoch": 0.36252780753069125,
      "grad_norm": 0.6913777589797974,
      "learning_rate": 1.8942733305849643e-05,
      "loss": 1.4367,
      "mean_token_accuracy": 0.6505131224791209,
      "num_tokens": 554019155.0,
      "step": 3300
    },
    {
      "entropy": 1.723453958829244,
      "epoch": 0.3626376644420642,
      "grad_norm": 0.6385790705680847,
      "learning_rate": 1.8941980227315672e-05,
      "loss": 1.3893,
      "mean_token_accuracy": 0.6500000605980555,
      "num_tokens": 554154296.0,
      "step": 3301
    },
    {
      "entropy": 1.7123183111349742,
      "epoch": 0.36274752135343713,
      "grad_norm": 0.7006135582923889,
      "learning_rate": 1.89412268974216e-05,
      "loss": 1.368,
      "mean_token_accuracy": 0.6440122773249944,
      "num_tokens": 554283476.0,
      "step": 3302
    },
    {
      "entropy": 1.7936599254608154,
      "epoch": 0.36285737826481007,
      "grad_norm": 0.6872299909591675,
      "learning_rate": 1.8940473316191282e-05,
      "loss": 1.4587,
      "mean_token_accuracy": 0.646611750125885,
      "num_tokens": 554451283.0,
      "step": 3303
    },
    {
      "entropy": 1.69118133187294,
      "epoch": 0.362967235176183,
      "grad_norm": 0.6158702969551086,
      "learning_rate": 1.893971948364856e-05,
      "loss": 1.3139,
      "mean_token_accuracy": 0.6713261753320694,
      "num_tokens": 554591528.0,
      "step": 3304
    },
    {
      "entropy": 1.707411030928294,
      "epoch": 0.36307709208755595,
      "grad_norm": 0.7171065807342529,
      "learning_rate": 1.8938965399817295e-05,
      "loss": 1.4017,
      "mean_token_accuracy": 0.6603502780199051,
      "num_tokens": 554776939.0,
      "step": 3305
    },
    {
      "entropy": 1.6777910987536113,
      "epoch": 0.3631869489989289,
      "grad_norm": 0.7720420360565186,
      "learning_rate": 1.8938211064721348e-05,
      "loss": 1.3903,
      "mean_token_accuracy": 0.67117311557134,
      "num_tokens": 554967794.0,
      "step": 3306
    },
    {
      "entropy": 1.745880534251531,
      "epoch": 0.36329680591030183,
      "grad_norm": 0.7731246948242188,
      "learning_rate": 1.89374564783846e-05,
      "loss": 1.5085,
      "mean_token_accuracy": 0.6443192313114802,
      "num_tokens": 555120674.0,
      "step": 3307
    },
    {
      "entropy": 1.7017800112565358,
      "epoch": 0.3634066628216748,
      "grad_norm": 0.6351495981216431,
      "learning_rate": 1.8936701640830932e-05,
      "loss": 1.3872,
      "mean_token_accuracy": 0.6458842406670252,
      "num_tokens": 555372792.0,
      "step": 3308
    },
    {
      "entropy": 1.731082151333491,
      "epoch": 0.3635165197330477,
      "grad_norm": 0.6268585324287415,
      "learning_rate": 1.8935946552084235e-05,
      "loss": 1.3286,
      "mean_token_accuracy": 0.6559985081354777,
      "num_tokens": 555557204.0,
      "step": 3309
    },
    {
      "entropy": 1.7254813611507416,
      "epoch": 0.36362637664442066,
      "grad_norm": 0.7122596502304077,
      "learning_rate": 1.8935191212168404e-05,
      "loss": 1.3135,
      "mean_token_accuracy": 0.6687471518913904,
      "num_tokens": 555714696.0,
      "step": 3310
    },
    {
      "entropy": 1.7088161011536915,
      "epoch": 0.3637362335557936,
      "grad_norm": 0.6561578512191772,
      "learning_rate": 1.8934435621107348e-05,
      "loss": 1.4729,
      "mean_token_accuracy": 0.6405731240908304,
      "num_tokens": 555929585.0,
      "step": 3311
    },
    {
      "entropy": 1.6857821742693584,
      "epoch": 0.36384609046716654,
      "grad_norm": 0.6950667500495911,
      "learning_rate": 1.8933679778924977e-05,
      "loss": 1.4068,
      "mean_token_accuracy": 0.6570146431525549,
      "num_tokens": 556083537.0,
      "step": 3312
    },
    {
      "entropy": 1.6994845469792683,
      "epoch": 0.3639559473785395,
      "grad_norm": 0.6382138133049011,
      "learning_rate": 1.8932923685645218e-05,
      "loss": 1.5331,
      "mean_token_accuracy": 0.6430691679318746,
      "num_tokens": 556268816.0,
      "step": 3313
    },
    {
      "entropy": 1.7211009760697682,
      "epoch": 0.36406580428991236,
      "grad_norm": 0.753278911113739,
      "learning_rate": 1.8932167341291998e-05,
      "loss": 1.416,
      "mean_token_accuracy": 0.6640914579232534,
      "num_tokens": 556411187.0,
      "step": 3314
    },
    {
      "entropy": 1.7074837684631348,
      "epoch": 0.3641756612012853,
      "grad_norm": 0.7115225195884705,
      "learning_rate": 1.893141074588926e-05,
      "loss": 1.2538,
      "mean_token_accuracy": 0.6794544955094656,
      "num_tokens": 556560154.0,
      "step": 3315
    },
    {
      "entropy": 1.6474250952402751,
      "epoch": 0.36428551811265825,
      "grad_norm": 0.6773630976676941,
      "learning_rate": 1.893065389946094e-05,
      "loss": 1.4965,
      "mean_token_accuracy": 0.6429052402575811,
      "num_tokens": 556758287.0,
      "step": 3316
    },
    {
      "entropy": 1.7411263982454936,
      "epoch": 0.3643953750240312,
      "grad_norm": 0.7541442513465881,
      "learning_rate": 1.8929896802031e-05,
      "loss": 1.3983,
      "mean_token_accuracy": 0.6654303272565206,
      "num_tokens": 556906714.0,
      "step": 3317
    },
    {
      "entropy": 1.6828208565711975,
      "epoch": 0.36450523193540413,
      "grad_norm": 0.5869950652122498,
      "learning_rate": 1.89291394536234e-05,
      "loss": 1.5068,
      "mean_token_accuracy": 0.638722355167071,
      "num_tokens": 557114352.0,
      "step": 3318
    },
    {
      "entropy": 1.6942188839117687,
      "epoch": 0.36461508884677707,
      "grad_norm": 0.7280264496803284,
      "learning_rate": 1.8928381854262107e-05,
      "loss": 1.4158,
      "mean_token_accuracy": 0.6560780803362528,
      "num_tokens": 557283476.0,
      "step": 3319
    },
    {
      "entropy": 1.7298544545968373,
      "epoch": 0.36472494575815,
      "grad_norm": 0.6916755437850952,
      "learning_rate": 1.8927624003971104e-05,
      "loss": 1.4664,
      "mean_token_accuracy": 0.6391513794660568,
      "num_tokens": 557482545.0,
      "step": 3320
    },
    {
      "entropy": 1.6934645175933838,
      "epoch": 0.36483480266952295,
      "grad_norm": 0.6088461875915527,
      "learning_rate": 1.892686590277437e-05,
      "loss": 1.3194,
      "mean_token_accuracy": 0.6680668840805689,
      "num_tokens": 557629627.0,
      "step": 3321
    },
    {
      "entropy": 1.7159304022789001,
      "epoch": 0.3649446595808959,
      "grad_norm": 0.6701193451881409,
      "learning_rate": 1.8926107550695907e-05,
      "loss": 1.4102,
      "mean_token_accuracy": 0.661454955736796,
      "num_tokens": 557788278.0,
      "step": 3322
    },
    {
      "entropy": 1.6919244428475697,
      "epoch": 0.36505451649226883,
      "grad_norm": 0.606071949005127,
      "learning_rate": 1.892534894775971e-05,
      "loss": 1.3828,
      "mean_token_accuracy": 0.6501694321632385,
      "num_tokens": 557979234.0,
      "step": 3323
    },
    {
      "entropy": 1.7174591918786366,
      "epoch": 0.3651643734036418,
      "grad_norm": 0.6546566486358643,
      "learning_rate": 1.892459009398979e-05,
      "loss": 1.3609,
      "mean_token_accuracy": 0.6671615242958069,
      "num_tokens": 558163091.0,
      "step": 3324
    },
    {
      "entropy": 1.7426952123641968,
      "epoch": 0.3652742303150147,
      "grad_norm": 0.6608150005340576,
      "learning_rate": 1.8923830989410165e-05,
      "loss": 1.4249,
      "mean_token_accuracy": 0.6464882989724478,
      "num_tokens": 558294742.0,
      "step": 3325
    },
    {
      "entropy": 1.7673422197500865,
      "epoch": 0.36538408722638765,
      "grad_norm": 0.5727324485778809,
      "learning_rate": 1.8923071634044855e-05,
      "loss": 1.4988,
      "mean_token_accuracy": 0.6281411349773407,
      "num_tokens": 558479560.0,
      "step": 3326
    },
    {
      "entropy": 1.7090481917063396,
      "epoch": 0.36549394413776054,
      "grad_norm": 0.7117367386817932,
      "learning_rate": 1.89223120279179e-05,
      "loss": 1.3147,
      "mean_token_accuracy": 0.6621511876583099,
      "num_tokens": 558594005.0,
      "step": 3327
    },
    {
      "entropy": 1.6214572985967,
      "epoch": 0.3656038010491335,
      "grad_norm": 0.8425611853599548,
      "learning_rate": 1.8921552171053344e-05,
      "loss": 1.4351,
      "mean_token_accuracy": 0.6586425652106603,
      "num_tokens": 558773354.0,
      "step": 3328
    },
    {
      "entropy": 1.6668421924114227,
      "epoch": 0.3657136579605064,
      "grad_norm": 0.6190313100814819,
      "learning_rate": 1.8920792063475228e-05,
      "loss": 1.3001,
      "mean_token_accuracy": 0.6651297012964884,
      "num_tokens": 558940163.0,
      "step": 3329
    },
    {
      "entropy": 1.7648253838221233,
      "epoch": 0.36582351487187936,
      "grad_norm": 0.7122219204902649,
      "learning_rate": 1.892003170520761e-05,
      "loss": 1.3979,
      "mean_token_accuracy": 0.6517335921525955,
      "num_tokens": 559094548.0,
      "step": 3330
    },
    {
      "entropy": 1.738343745470047,
      "epoch": 0.3659333717832523,
      "grad_norm": 0.6885458827018738,
      "learning_rate": 1.8919271096274562e-05,
      "loss": 1.3878,
      "mean_token_accuracy": 0.6585352619489034,
      "num_tokens": 559293154.0,
      "step": 3331
    },
    {
      "entropy": 1.7013998627662659,
      "epoch": 0.36604322869462524,
      "grad_norm": 0.5736583471298218,
      "learning_rate": 1.8918510236700148e-05,
      "loss": 1.4884,
      "mean_token_accuracy": 0.6527662177880605,
      "num_tokens": 559486360.0,
      "step": 3332
    },
    {
      "entropy": 1.7290991048018138,
      "epoch": 0.3661530856059982,
      "grad_norm": 0.6130762100219727,
      "learning_rate": 1.8917749126508454e-05,
      "loss": 1.3987,
      "mean_token_accuracy": 0.649641344944636,
      "num_tokens": 559646780.0,
      "step": 3333
    },
    {
      "entropy": 1.665138175090154,
      "epoch": 0.3662629425173711,
      "grad_norm": 0.7527748346328735,
      "learning_rate": 1.891698776572357e-05,
      "loss": 1.4943,
      "mean_token_accuracy": 0.6480821569760641,
      "num_tokens": 559842312.0,
      "step": 3334
    },
    {
      "entropy": 1.7401958505312602,
      "epoch": 0.36637279942874407,
      "grad_norm": 0.7090706825256348,
      "learning_rate": 1.891622615436959e-05,
      "loss": 1.5787,
      "mean_token_accuracy": 0.6238933056592941,
      "num_tokens": 560034055.0,
      "step": 3335
    },
    {
      "entropy": 1.6688226958115895,
      "epoch": 0.366482656340117,
      "grad_norm": 0.6134145259857178,
      "learning_rate": 1.891546429247062e-05,
      "loss": 1.443,
      "mean_token_accuracy": 0.6504640529553095,
      "num_tokens": 560205068.0,
      "step": 3336
    },
    {
      "entropy": 1.5998762051264446,
      "epoch": 0.36659251325148995,
      "grad_norm": 0.5931162238121033,
      "learning_rate": 1.891470218005077e-05,
      "loss": 1.2993,
      "mean_token_accuracy": 0.6780025462309519,
      "num_tokens": 560354488.0,
      "step": 3337
    },
    {
      "entropy": 1.6810278395811717,
      "epoch": 0.3667023701628629,
      "grad_norm": 0.7367040514945984,
      "learning_rate": 1.8913939817134167e-05,
      "loss": 1.4098,
      "mean_token_accuracy": 0.6589592695236206,
      "num_tokens": 560507374.0,
      "step": 3338
    },
    {
      "entropy": 1.6817876795927684,
      "epoch": 0.36681222707423583,
      "grad_norm": 0.8555600047111511,
      "learning_rate": 1.8913177203744927e-05,
      "loss": 1.3993,
      "mean_token_accuracy": 0.6524364600578944,
      "num_tokens": 560662070.0,
      "step": 3339
    },
    {
      "entropy": 1.6980493466059368,
      "epoch": 0.36692208398560877,
      "grad_norm": 0.6242254972457886,
      "learning_rate": 1.89124143399072e-05,
      "loss": 1.3962,
      "mean_token_accuracy": 0.6619236518939337,
      "num_tokens": 560866103.0,
      "step": 3340
    },
    {
      "entropy": 1.676784485578537,
      "epoch": 0.36703194089698166,
      "grad_norm": 0.633709192276001,
      "learning_rate": 1.891165122564512e-05,
      "loss": 1.386,
      "mean_token_accuracy": 0.6684582183758417,
      "num_tokens": 561025085.0,
      "step": 3341
    },
    {
      "entropy": 1.6602611144383748,
      "epoch": 0.3671417978083546,
      "grad_norm": 0.5967673659324646,
      "learning_rate": 1.891088786098285e-05,
      "loss": 1.3113,
      "mean_token_accuracy": 0.6616858939329783,
      "num_tokens": 561194282.0,
      "step": 3342
    },
    {
      "entropy": 1.7069261968135834,
      "epoch": 0.36725165471972754,
      "grad_norm": 0.7268139719963074,
      "learning_rate": 1.8910124245944544e-05,
      "loss": 1.4762,
      "mean_token_accuracy": 0.641165554523468,
      "num_tokens": 561399006.0,
      "step": 3343
    },
    {
      "entropy": 1.640328695376714,
      "epoch": 0.3673615116311005,
      "grad_norm": 0.6956763863563538,
      "learning_rate": 1.8909360380554366e-05,
      "loss": 1.1811,
      "mean_token_accuracy": 0.6891622543334961,
      "num_tokens": 561511064.0,
      "step": 3344
    },
    {
      "entropy": 1.7172695597012837,
      "epoch": 0.3674713685424734,
      "grad_norm": 0.6288443207740784,
      "learning_rate": 1.8908596264836496e-05,
      "loss": 1.3749,
      "mean_token_accuracy": 0.6524456491072973,
      "num_tokens": 561693661.0,
      "step": 3345
    },
    {
      "entropy": 1.7315253218015034,
      "epoch": 0.36758122545384636,
      "grad_norm": 0.6713343858718872,
      "learning_rate": 1.8907831898815118e-05,
      "loss": 1.5466,
      "mean_token_accuracy": 0.6562629292408625,
      "num_tokens": 561882529.0,
      "step": 3346
    },
    {
      "entropy": 1.7233446737130482,
      "epoch": 0.3676910823652193,
      "grad_norm": 0.6376742124557495,
      "learning_rate": 1.8907067282514426e-05,
      "loss": 1.4229,
      "mean_token_accuracy": 0.6561285456021627,
      "num_tokens": 562071206.0,
      "step": 3347
    },
    {
      "entropy": 1.775407483180364,
      "epoch": 0.36780093927659224,
      "grad_norm": 0.7270674705505371,
      "learning_rate": 1.8906302415958617e-05,
      "loss": 1.4222,
      "mean_token_accuracy": 0.6504105776548386,
      "num_tokens": 562217092.0,
      "step": 3348
    },
    {
      "entropy": 1.6748477617899578,
      "epoch": 0.3679107961879652,
      "grad_norm": 0.7032795548439026,
      "learning_rate": 1.89055372991719e-05,
      "loss": 1.4193,
      "mean_token_accuracy": 0.6519673566023508,
      "num_tokens": 562405459.0,
      "step": 3349
    },
    {
      "entropy": 1.694932798544566,
      "epoch": 0.3680206530993381,
      "grad_norm": 0.5827463269233704,
      "learning_rate": 1.8904771932178484e-05,
      "loss": 1.3895,
      "mean_token_accuracy": 0.6607838769753774,
      "num_tokens": 562585278.0,
      "step": 3350
    },
    {
      "entropy": 1.7321241994698842,
      "epoch": 0.36813051001071107,
      "grad_norm": 0.7316332459449768,
      "learning_rate": 1.8904006315002605e-05,
      "loss": 1.4072,
      "mean_token_accuracy": 0.6589037328958511,
      "num_tokens": 562743792.0,
      "step": 3351
    },
    {
      "entropy": 1.7170052528381348,
      "epoch": 0.368240366922084,
      "grad_norm": 0.9120453596115112,
      "learning_rate": 1.8903240447668485e-05,
      "loss": 1.4018,
      "mean_token_accuracy": 0.6695507715145746,
      "num_tokens": 562855638.0,
      "step": 3352
    },
    {
      "entropy": 1.7425238887468975,
      "epoch": 0.36835022383345695,
      "grad_norm": 0.6906775832176208,
      "learning_rate": 1.8902474330200368e-05,
      "loss": 1.4636,
      "mean_token_accuracy": 0.6504637797673544,
      "num_tokens": 563050942.0,
      "step": 3353
    },
    {
      "entropy": 1.7821686168511708,
      "epoch": 0.36846008074482983,
      "grad_norm": 0.7374799847602844,
      "learning_rate": 1.8901707962622497e-05,
      "loss": 1.4039,
      "mean_token_accuracy": 0.6607334365447363,
      "num_tokens": 563186855.0,
      "step": 3354
    },
    {
      "entropy": 1.6392212013403575,
      "epoch": 0.3685699376562028,
      "grad_norm": 0.5854918360710144,
      "learning_rate": 1.890094134495913e-05,
      "loss": 1.4505,
      "mean_token_accuracy": 0.6548234969377518,
      "num_tokens": 563366408.0,
      "step": 3355
    },
    {
      "entropy": 1.7537512481212616,
      "epoch": 0.3686797945675757,
      "grad_norm": 0.6592661738395691,
      "learning_rate": 1.890017447723453e-05,
      "loss": 1.3427,
      "mean_token_accuracy": 0.6637191027402878,
      "num_tokens": 563500860.0,
      "step": 3356
    },
    {
      "entropy": 1.7331876854101818,
      "epoch": 0.36878965147894865,
      "grad_norm": 0.7768663763999939,
      "learning_rate": 1.8899407359472966e-05,
      "loss": 1.4831,
      "mean_token_accuracy": 0.6461548010508219,
      "num_tokens": 563724218.0,
      "step": 3357
    },
    {
      "entropy": 1.7273361086845398,
      "epoch": 0.3688995083903216,
      "grad_norm": 0.6514448523521423,
      "learning_rate": 1.8898639991698723e-05,
      "loss": 1.5468,
      "mean_token_accuracy": 0.6472266266743342,
      "num_tokens": 563920710.0,
      "step": 3358
    },
    {
      "entropy": 1.7227802574634552,
      "epoch": 0.36900936530169454,
      "grad_norm": 0.753607988357544,
      "learning_rate": 1.889787237393608e-05,
      "loss": 1.3811,
      "mean_token_accuracy": 0.6565194974342982,
      "num_tokens": 564108660.0,
      "step": 3359
    },
    {
      "entropy": 1.6839437087376912,
      "epoch": 0.3691192222130675,
      "grad_norm": 0.7818706631660461,
      "learning_rate": 1.8897104506209336e-05,
      "loss": 1.5772,
      "mean_token_accuracy": 0.6447829628984133,
      "num_tokens": 564274275.0,
      "step": 3360
    },
    {
      "entropy": 1.6813337802886963,
      "epoch": 0.3692290791244404,
      "grad_norm": 0.6889169812202454,
      "learning_rate": 1.8896336388542794e-05,
      "loss": 1.503,
      "mean_token_accuracy": 0.6593608756860098,
      "num_tokens": 564465967.0,
      "step": 3361
    },
    {
      "entropy": 1.6902830203374226,
      "epoch": 0.36933893603581336,
      "grad_norm": 0.6168293952941895,
      "learning_rate": 1.889556802096076e-05,
      "loss": 1.4396,
      "mean_token_accuracy": 0.6531057059764862,
      "num_tokens": 564676289.0,
      "step": 3362
    },
    {
      "entropy": 1.7228737076123555,
      "epoch": 0.3694487929471863,
      "grad_norm": 0.7138974666595459,
      "learning_rate": 1.889479940348756e-05,
      "loss": 1.3175,
      "mean_token_accuracy": 0.6605416287978491,
      "num_tokens": 564820337.0,
      "step": 3363
    },
    {
      "entropy": 1.6877204477787018,
      "epoch": 0.36955864985855924,
      "grad_norm": 0.8381320834159851,
      "learning_rate": 1.8894030536147513e-05,
      "loss": 1.5089,
      "mean_token_accuracy": 0.658082976937294,
      "num_tokens": 564968781.0,
      "step": 3364
    },
    {
      "entropy": 1.7128780285517375,
      "epoch": 0.3696685067699322,
      "grad_norm": 0.6636347770690918,
      "learning_rate": 1.889326141896496e-05,
      "loss": 1.4628,
      "mean_token_accuracy": 0.6563326021035513,
      "num_tokens": 565162237.0,
      "step": 3365
    },
    {
      "entropy": 1.6565657357374828,
      "epoch": 0.3697783636813051,
      "grad_norm": 0.7915597558021545,
      "learning_rate": 1.889249205196424e-05,
      "loss": 1.4628,
      "mean_token_accuracy": 0.6564295887947083,
      "num_tokens": 565318530.0,
      "step": 3366
    },
    {
      "entropy": 1.7151463528474171,
      "epoch": 0.36988822059267806,
      "grad_norm": 0.647465169429779,
      "learning_rate": 1.8891722435169703e-05,
      "loss": 1.4666,
      "mean_token_accuracy": 0.656380852063497,
      "num_tokens": 565493389.0,
      "step": 3367
    },
    {
      "entropy": 1.7164535621802013,
      "epoch": 0.36999807750405095,
      "grad_norm": 0.7960186004638672,
      "learning_rate": 1.8890952568605704e-05,
      "loss": 1.6024,
      "mean_token_accuracy": 0.6565567404031754,
      "num_tokens": 565649508.0,
      "step": 3368
    },
    {
      "entropy": 1.7425066431363423,
      "epoch": 0.3701079344154239,
      "grad_norm": 0.7645494937896729,
      "learning_rate": 1.8890182452296612e-05,
      "loss": 1.5191,
      "mean_token_accuracy": 0.6238025277853012,
      "num_tokens": 565856767.0,
      "step": 3369
    },
    {
      "entropy": 1.7707313100496929,
      "epoch": 0.37021779132679683,
      "grad_norm": 0.7492119669914246,
      "learning_rate": 1.88894120862668e-05,
      "loss": 1.4832,
      "mean_token_accuracy": 0.649360736211141,
      "num_tokens": 566027002.0,
      "step": 3370
    },
    {
      "entropy": 1.67772110303243,
      "epoch": 0.37032764823816977,
      "grad_norm": 0.6959682106971741,
      "learning_rate": 1.8888641470540652e-05,
      "loss": 1.4024,
      "mean_token_accuracy": 0.6710788160562515,
      "num_tokens": 566189471.0,
      "step": 3371
    },
    {
      "entropy": 1.7469698985417683,
      "epoch": 0.3704375051495427,
      "grad_norm": 0.6655913591384888,
      "learning_rate": 1.8887870605142557e-05,
      "loss": 1.3536,
      "mean_token_accuracy": 0.6533726006746292,
      "num_tokens": 566349741.0,
      "step": 3372
    },
    {
      "entropy": 1.6737736264864604,
      "epoch": 0.37054736206091565,
      "grad_norm": 0.7479509115219116,
      "learning_rate": 1.8887099490096914e-05,
      "loss": 1.2131,
      "mean_token_accuracy": 0.6783681710561117,
      "num_tokens": 566478311.0,
      "step": 3373
    },
    {
      "entropy": 1.6851101120313008,
      "epoch": 0.3706572189722886,
      "grad_norm": 0.6885315179824829,
      "learning_rate": 1.8886328125428123e-05,
      "loss": 1.3959,
      "mean_token_accuracy": 0.6712721387545267,
      "num_tokens": 566626451.0,
      "step": 3374
    },
    {
      "entropy": 1.6743651628494263,
      "epoch": 0.37076707588366153,
      "grad_norm": 0.6012775897979736,
      "learning_rate": 1.88855565111606e-05,
      "loss": 1.4005,
      "mean_token_accuracy": 0.650342067082723,
      "num_tokens": 566793333.0,
      "step": 3375
    },
    {
      "entropy": 1.6919374863306682,
      "epoch": 0.3708769327950345,
      "grad_norm": 0.6600878238677979,
      "learning_rate": 1.888478464731877e-05,
      "loss": 1.2489,
      "mean_token_accuracy": 0.6797458678483963,
      "num_tokens": 566944348.0,
      "step": 3376
    },
    {
      "entropy": 1.6906745433807373,
      "epoch": 0.3709867897064074,
      "grad_norm": 0.6562890410423279,
      "learning_rate": 1.8884012533927056e-05,
      "loss": 1.2859,
      "mean_token_accuracy": 0.6720538040002187,
      "num_tokens": 567083801.0,
      "step": 3377
    },
    {
      "entropy": 1.7041854957739513,
      "epoch": 0.37109664661778036,
      "grad_norm": 0.6055631637573242,
      "learning_rate": 1.88832401710099e-05,
      "loss": 1.4635,
      "mean_token_accuracy": 0.652542233467102,
      "num_tokens": 567280452.0,
      "step": 3378
    },
    {
      "entropy": 1.7743679384390514,
      "epoch": 0.3712065035291533,
      "grad_norm": 0.7774965763092041,
      "learning_rate": 1.8882467558591744e-05,
      "loss": 1.3845,
      "mean_token_accuracy": 0.656991238395373,
      "num_tokens": 567482039.0,
      "step": 3379
    },
    {
      "entropy": 1.6754270593325298,
      "epoch": 0.37131636044052624,
      "grad_norm": 0.8339126110076904,
      "learning_rate": 1.8881694696697043e-05,
      "loss": 1.4245,
      "mean_token_accuracy": 0.6630517592032751,
      "num_tokens": 567662177.0,
      "step": 3380
    },
    {
      "entropy": 1.7435904542605083,
      "epoch": 0.3714262173518991,
      "grad_norm": 0.591063916683197,
      "learning_rate": 1.888092158535025e-05,
      "loss": 1.4174,
      "mean_token_accuracy": 0.6464981784423193,
      "num_tokens": 567855805.0,
      "step": 3381
    },
    {
      "entropy": 1.6988468567530315,
      "epoch": 0.37153607426327206,
      "grad_norm": 0.6442577242851257,
      "learning_rate": 1.8880148224575845e-05,
      "loss": 1.2865,
      "mean_token_accuracy": 0.6738250454266866,
      "num_tokens": 567992063.0,
      "step": 3382
    },
    {
      "entropy": 1.7117958962917328,
      "epoch": 0.371645931174645,
      "grad_norm": 0.663324236869812,
      "learning_rate": 1.8879374614398302e-05,
      "loss": 1.4257,
      "mean_token_accuracy": 0.6571160405874252,
      "num_tokens": 568189030.0,
      "step": 3383
    },
    {
      "entropy": 1.7384320894877117,
      "epoch": 0.37175578808601795,
      "grad_norm": 0.6145911812782288,
      "learning_rate": 1.8878600754842097e-05,
      "loss": 1.4549,
      "mean_token_accuracy": 0.6452573786179224,
      "num_tokens": 568426788.0,
      "step": 3384
    },
    {
      "entropy": 1.746810535589854,
      "epoch": 0.3718656449973909,
      "grad_norm": 0.7367507815361023,
      "learning_rate": 1.8877826645931735e-05,
      "loss": 1.4924,
      "mean_token_accuracy": 0.6439058085282644,
      "num_tokens": 568575666.0,
      "step": 3385
    },
    {
      "entropy": 1.7746360798676808,
      "epoch": 0.37197550190876383,
      "grad_norm": 0.6903072595596313,
      "learning_rate": 1.8877052287691703e-05,
      "loss": 1.3686,
      "mean_token_accuracy": 0.6597933818896612,
      "num_tokens": 568727841.0,
      "step": 3386
    },
    {
      "entropy": 1.7943654855092366,
      "epoch": 0.37208535882013677,
      "grad_norm": 0.7477875351905823,
      "learning_rate": 1.887627768014652e-05,
      "loss": 1.5748,
      "mean_token_accuracy": 0.6329491684834162,
      "num_tokens": 568951489.0,
      "step": 3387
    },
    {
      "entropy": 1.6621526181697845,
      "epoch": 0.3721952157315097,
      "grad_norm": 0.694236159324646,
      "learning_rate": 1.8875502823320695e-05,
      "loss": 1.3952,
      "mean_token_accuracy": 0.661028265953064,
      "num_tokens": 569116054.0,
      "step": 3388
    },
    {
      "entropy": 1.72781902551651,
      "epoch": 0.37230507264288265,
      "grad_norm": 0.7133349180221558,
      "learning_rate": 1.8874727717238756e-05,
      "loss": 1.4526,
      "mean_token_accuracy": 0.6458436846733093,
      "num_tokens": 569290226.0,
      "step": 3389
    },
    {
      "entropy": 1.7413524389266968,
      "epoch": 0.3724149295542556,
      "grad_norm": 0.6716554164886475,
      "learning_rate": 1.8873952361925233e-05,
      "loss": 1.3317,
      "mean_token_accuracy": 0.6584653854370117,
      "num_tokens": 569445157.0,
      "step": 3390
    },
    {
      "entropy": 1.676645815372467,
      "epoch": 0.37252478646562853,
      "grad_norm": 0.6800124645233154,
      "learning_rate": 1.8873176757404666e-05,
      "loss": 1.5388,
      "mean_token_accuracy": 0.6283597896496455,
      "num_tokens": 569724434.0,
      "step": 3391
    },
    {
      "entropy": 1.6982823014259338,
      "epoch": 0.3726346433770015,
      "grad_norm": 0.6546007394790649,
      "learning_rate": 1.8872400903701602e-05,
      "loss": 1.3469,
      "mean_token_accuracy": 0.6600322326024374,
      "num_tokens": 569872986.0,
      "step": 3392
    },
    {
      "entropy": 1.716494898001353,
      "epoch": 0.3727445002883744,
      "grad_norm": 0.711789608001709,
      "learning_rate": 1.8871624800840595e-05,
      "loss": 1.3059,
      "mean_token_accuracy": 0.664145290851593,
      "num_tokens": 569984629.0,
      "step": 3393
    },
    {
      "entropy": 1.723552147547404,
      "epoch": 0.37285435719974735,
      "grad_norm": 0.7755283713340759,
      "learning_rate": 1.887084844884621e-05,
      "loss": 1.3659,
      "mean_token_accuracy": 0.6677046219507853,
      "num_tokens": 570215230.0,
      "step": 3394
    },
    {
      "entropy": 1.7178972562154133,
      "epoch": 0.37296421411112024,
      "grad_norm": 0.7582644820213318,
      "learning_rate": 1.8870071847743023e-05,
      "loss": 1.395,
      "mean_token_accuracy": 0.65921584268411,
      "num_tokens": 570419958.0,
      "step": 3395
    },
    {
      "entropy": 1.7200748125712078,
      "epoch": 0.3730740710224932,
      "grad_norm": 0.9002476930618286,
      "learning_rate": 1.8869294997555604e-05,
      "loss": 1.3866,
      "mean_token_accuracy": 0.6646259625752767,
      "num_tokens": 570546912.0,
      "step": 3396
    },
    {
      "entropy": 1.6706381837526958,
      "epoch": 0.3731839279338661,
      "grad_norm": 0.820124626159668,
      "learning_rate": 1.8868517898308548e-05,
      "loss": 1.4343,
      "mean_token_accuracy": 0.6535915782054266,
      "num_tokens": 570738384.0,
      "step": 3397
    },
    {
      "entropy": 1.700315882762273,
      "epoch": 0.37329378484523906,
      "grad_norm": 0.6420239210128784,
      "learning_rate": 1.8867740550026443e-05,
      "loss": 1.4069,
      "mean_token_accuracy": 0.6586662083864212,
      "num_tokens": 570966515.0,
      "step": 3398
    },
    {
      "entropy": 1.7011422216892242,
      "epoch": 0.373403641756612,
      "grad_norm": 0.774379312992096,
      "learning_rate": 1.8866962952733898e-05,
      "loss": 1.4374,
      "mean_token_accuracy": 0.6431511243184408,
      "num_tokens": 571157353.0,
      "step": 3399
    },
    {
      "entropy": 1.7771065930525463,
      "epoch": 0.37351349866798494,
      "grad_norm": 0.6903269290924072,
      "learning_rate": 1.886618510645552e-05,
      "loss": 1.2827,
      "mean_token_accuracy": 0.6651173532009125,
      "num_tokens": 571271399.0,
      "step": 3400
    },
    {
      "entropy": 1.7323172986507416,
      "epoch": 0.3736233555793579,
      "grad_norm": 0.5979676246643066,
      "learning_rate": 1.8865407011215922e-05,
      "loss": 1.3776,
      "mean_token_accuracy": 0.6612506260474523,
      "num_tokens": 571452904.0,
      "step": 3401
    },
    {
      "entropy": 1.7338752647240956,
      "epoch": 0.3737332124907308,
      "grad_norm": 0.7211189270019531,
      "learning_rate": 1.8864628667039742e-05,
      "loss": 1.3743,
      "mean_token_accuracy": 0.658988431096077,
      "num_tokens": 571594720.0,
      "step": 3402
    },
    {
      "entropy": 1.6841518382231395,
      "epoch": 0.37384306940210377,
      "grad_norm": 0.5563689470291138,
      "learning_rate": 1.8863850073951608e-05,
      "loss": 1.3286,
      "mean_token_accuracy": 0.6501269191503525,
      "num_tokens": 571787515.0,
      "step": 3403
    },
    {
      "entropy": 1.7327661911646526,
      "epoch": 0.3739529263134767,
      "grad_norm": 0.6619580984115601,
      "learning_rate": 1.886307123197616e-05,
      "loss": 1.5635,
      "mean_token_accuracy": 0.6362739006678263,
      "num_tokens": 571974947.0,
      "step": 3404
    },
    {
      "entropy": 1.7072784701983135,
      "epoch": 0.37406278322484965,
      "grad_norm": 0.6384603381156921,
      "learning_rate": 1.8862292141138053e-05,
      "loss": 1.3928,
      "mean_token_accuracy": 0.6528366059064865,
      "num_tokens": 572153036.0,
      "step": 3405
    },
    {
      "entropy": 1.7138684292634327,
      "epoch": 0.3741726401362226,
      "grad_norm": 0.6947295069694519,
      "learning_rate": 1.8861512801461943e-05,
      "loss": 1.3127,
      "mean_token_accuracy": 0.6598065594832102,
      "num_tokens": 572292952.0,
      "step": 3406
    },
    {
      "entropy": 1.7150700986385345,
      "epoch": 0.37428249704759553,
      "grad_norm": 0.711796760559082,
      "learning_rate": 1.8860733212972497e-05,
      "loss": 1.3518,
      "mean_token_accuracy": 0.6606613347927729,
      "num_tokens": 572445917.0,
      "step": 3407
    },
    {
      "entropy": 1.7485672036806743,
      "epoch": 0.37439235395896847,
      "grad_norm": 0.6744566559791565,
      "learning_rate": 1.8859953375694383e-05,
      "loss": 1.4157,
      "mean_token_accuracy": 0.6547067513068517,
      "num_tokens": 572594708.0,
      "step": 3408
    },
    {
      "entropy": 1.7242934902509053,
      "epoch": 0.37450221087034136,
      "grad_norm": 0.7786602973937988,
      "learning_rate": 1.8859173289652288e-05,
      "loss": 1.4001,
      "mean_token_accuracy": 0.6599243432283401,
      "num_tokens": 572783684.0,
      "step": 3409
    },
    {
      "entropy": 1.606506069501241,
      "epoch": 0.3746120677817143,
      "grad_norm": 0.6144716143608093,
      "learning_rate": 1.88583929548709e-05,
      "loss": 1.3857,
      "mean_token_accuracy": 0.6582548320293427,
      "num_tokens": 573015722.0,
      "step": 3410
    },
    {
      "entropy": 1.774994472662608,
      "epoch": 0.37472192469308724,
      "grad_norm": 0.6956934332847595,
      "learning_rate": 1.8857612371374914e-05,
      "loss": 1.4739,
      "mean_token_accuracy": 0.6409755696853002,
      "num_tokens": 573214915.0,
      "step": 3411
    },
    {
      "entropy": 1.7437300086021423,
      "epoch": 0.3748317816044602,
      "grad_norm": 0.7915884852409363,
      "learning_rate": 1.885683153918904e-05,
      "loss": 1.4826,
      "mean_token_accuracy": 0.6374993075927099,
      "num_tokens": 573455789.0,
      "step": 3412
    },
    {
      "entropy": 1.663759668668111,
      "epoch": 0.3749416385158331,
      "grad_norm": 0.7212685942649841,
      "learning_rate": 1.8856050458337985e-05,
      "loss": 1.3996,
      "mean_token_accuracy": 0.6592791775862376,
      "num_tokens": 573633232.0,
      "step": 3413
    },
    {
      "entropy": 1.7127246956030528,
      "epoch": 0.37505149542720606,
      "grad_norm": 0.5660611391067505,
      "learning_rate": 1.885526912884648e-05,
      "loss": 1.4225,
      "mean_token_accuracy": 0.6511427859465281,
      "num_tokens": 573834729.0,
      "step": 3414
    },
    {
      "entropy": 1.7536275585492451,
      "epoch": 0.375161352338579,
      "grad_norm": 0.6715665459632874,
      "learning_rate": 1.885448755073924e-05,
      "loss": 1.2663,
      "mean_token_accuracy": 0.6831430196762085,
      "num_tokens": 573966929.0,
      "step": 3415
    },
    {
      "entropy": 1.6836529274781544,
      "epoch": 0.37527120924995194,
      "grad_norm": 0.6396788358688354,
      "learning_rate": 1.8853705724041008e-05,
      "loss": 1.5899,
      "mean_token_accuracy": 0.6472560266653696,
      "num_tokens": 574171428.0,
      "step": 3416
    },
    {
      "entropy": 1.701483239730199,
      "epoch": 0.3753810661613249,
      "grad_norm": 0.6624711155891418,
      "learning_rate": 1.8852923648776534e-05,
      "loss": 1.3481,
      "mean_token_accuracy": 0.6699345856904984,
      "num_tokens": 574356626.0,
      "step": 3417
    },
    {
      "entropy": 1.7148587902386982,
      "epoch": 0.3754909230726978,
      "grad_norm": 0.6820365786552429,
      "learning_rate": 1.885214132497056e-05,
      "loss": 1.3628,
      "mean_token_accuracy": 0.6586700628201166,
      "num_tokens": 574479005.0,
      "step": 3418
    },
    {
      "entropy": 1.6891990701357524,
      "epoch": 0.37560077998407077,
      "grad_norm": 0.8026529550552368,
      "learning_rate": 1.8851358752647855e-05,
      "loss": 1.483,
      "mean_token_accuracy": 0.6601535677909851,
      "num_tokens": 574600042.0,
      "step": 3419
    },
    {
      "entropy": 1.6742752293745677,
      "epoch": 0.3757106368954437,
      "grad_norm": 0.7593013048171997,
      "learning_rate": 1.885057593183318e-05,
      "loss": 1.2939,
      "mean_token_accuracy": 0.6685616920391718,
      "num_tokens": 574733331.0,
      "step": 3420
    },
    {
      "entropy": 1.6507653097311656,
      "epoch": 0.37582049380681665,
      "grad_norm": 0.5844452977180481,
      "learning_rate": 1.8849792862551318e-05,
      "loss": 1.3512,
      "mean_token_accuracy": 0.6571490665276846,
      "num_tokens": 574935739.0,
      "step": 3421
    },
    {
      "entropy": 1.739424576361974,
      "epoch": 0.37593035071818953,
      "grad_norm": 0.6515421867370605,
      "learning_rate": 1.8849009544827048e-05,
      "loss": 1.5581,
      "mean_token_accuracy": 0.6339648912350336,
      "num_tokens": 575141640.0,
      "step": 3422
    },
    {
      "entropy": 1.7240214546521504,
      "epoch": 0.3760402076295625,
      "grad_norm": 0.8800962567329407,
      "learning_rate": 1.8848225978685163e-05,
      "loss": 1.4257,
      "mean_token_accuracy": 0.6527638087670008,
      "num_tokens": 575274148.0,
      "step": 3423
    },
    {
      "entropy": 1.728806068499883,
      "epoch": 0.3761500645409354,
      "grad_norm": 0.6778604388237,
      "learning_rate": 1.884744216415046e-05,
      "loss": 1.4071,
      "mean_token_accuracy": 0.6551901549100876,
      "num_tokens": 575411261.0,
      "step": 3424
    },
    {
      "entropy": 1.6978506247202556,
      "epoch": 0.37625992145230835,
      "grad_norm": 0.7038581967353821,
      "learning_rate": 1.8846658101247748e-05,
      "loss": 1.3712,
      "mean_token_accuracy": 0.6615935812393824,
      "num_tokens": 575587362.0,
      "step": 3425
    },
    {
      "entropy": 1.6618886888027191,
      "epoch": 0.3763697783636813,
      "grad_norm": 0.6956599354743958,
      "learning_rate": 1.8845873790001848e-05,
      "loss": 1.308,
      "mean_token_accuracy": 0.6621120274066925,
      "num_tokens": 575763635.0,
      "step": 3426
    },
    {
      "entropy": 1.7019036809603374,
      "epoch": 0.37647963527505424,
      "grad_norm": 0.7013808488845825,
      "learning_rate": 1.8845089230437573e-05,
      "loss": 1.3993,
      "mean_token_accuracy": 0.6591120461622874,
      "num_tokens": 575906834.0,
      "step": 3427
    },
    {
      "entropy": 1.6568001906077068,
      "epoch": 0.3765894921864272,
      "grad_norm": 0.654579758644104,
      "learning_rate": 1.8844304422579756e-05,
      "loss": 1.4497,
      "mean_token_accuracy": 0.6660924007495245,
      "num_tokens": 576101135.0,
      "step": 3428
    },
    {
      "entropy": 1.734635551770528,
      "epoch": 0.3766993490978001,
      "grad_norm": 0.7906395792961121,
      "learning_rate": 1.884351936645325e-05,
      "loss": 1.3475,
      "mean_token_accuracy": 0.6772653212149938,
      "num_tokens": 576231678.0,
      "step": 3429
    },
    {
      "entropy": 1.6919464965661366,
      "epoch": 0.37680920600917306,
      "grad_norm": 0.7029792666435242,
      "learning_rate": 1.8842734062082878e-05,
      "loss": 1.5751,
      "mean_token_accuracy": 0.6377601400017738,
      "num_tokens": 576394578.0,
      "step": 3430
    },
    {
      "entropy": 1.74019859234492,
      "epoch": 0.376919062920546,
      "grad_norm": 0.6424586772918701,
      "learning_rate": 1.8841948509493517e-05,
      "loss": 1.4304,
      "mean_token_accuracy": 0.6536309023698171,
      "num_tokens": 576599050.0,
      "step": 3431
    },
    {
      "entropy": 1.7083908418814342,
      "epoch": 0.37702891983191894,
      "grad_norm": 0.6925437450408936,
      "learning_rate": 1.8841162708710015e-05,
      "loss": 1.4701,
      "mean_token_accuracy": 0.6461886862913767,
      "num_tokens": 576788717.0,
      "step": 3432
    },
    {
      "entropy": 1.7433116436004639,
      "epoch": 0.3771387767432919,
      "grad_norm": 0.6714274287223816,
      "learning_rate": 1.8840376659757247e-05,
      "loss": 1.4304,
      "mean_token_accuracy": 0.6540505588054657,
      "num_tokens": 576958988.0,
      "step": 3433
    },
    {
      "entropy": 1.765092372894287,
      "epoch": 0.3772486336546648,
      "grad_norm": 0.7673705220222473,
      "learning_rate": 1.8839590362660088e-05,
      "loss": 1.5501,
      "mean_token_accuracy": 0.6285836895306905,
      "num_tokens": 577128512.0,
      "step": 3434
    },
    {
      "entropy": 1.7895864645640056,
      "epoch": 0.37735849056603776,
      "grad_norm": 0.6441873908042908,
      "learning_rate": 1.8838803817443428e-05,
      "loss": 1.5039,
      "mean_token_accuracy": 0.6534687529007593,
      "num_tokens": 577271620.0,
      "step": 3435
    },
    {
      "entropy": 1.6606577336788177,
      "epoch": 0.37746834747741065,
      "grad_norm": 0.6333370804786682,
      "learning_rate": 1.8838017024132163e-05,
      "loss": 1.4591,
      "mean_token_accuracy": 0.6549960821866989,
      "num_tokens": 577514456.0,
      "step": 3436
    },
    {
      "entropy": 1.6238328516483307,
      "epoch": 0.3775782043887836,
      "grad_norm": 0.6960654854774475,
      "learning_rate": 1.883722998275119e-05,
      "loss": 1.5595,
      "mean_token_accuracy": 0.6362607727448145,
      "num_tokens": 577746103.0,
      "step": 3437
    },
    {
      "entropy": 1.7373960614204407,
      "epoch": 0.37768806130015653,
      "grad_norm": 0.7334326505661011,
      "learning_rate": 1.8836442693325415e-05,
      "loss": 1.2604,
      "mean_token_accuracy": 0.6687419414520264,
      "num_tokens": 577906176.0,
      "step": 3438
    },
    {
      "entropy": 1.651681274175644,
      "epoch": 0.37779791821152947,
      "grad_norm": 0.6971881985664368,
      "learning_rate": 1.8835655155879765e-05,
      "loss": 1.3592,
      "mean_token_accuracy": 0.6670136153697968,
      "num_tokens": 578070962.0,
      "step": 3439
    },
    {
      "entropy": 1.7302599747975667,
      "epoch": 0.3779077751229024,
      "grad_norm": 0.6110210418701172,
      "learning_rate": 1.8834867370439158e-05,
      "loss": 1.3591,
      "mean_token_accuracy": 0.6587302833795547,
      "num_tokens": 578248089.0,
      "step": 3440
    },
    {
      "entropy": 1.7012074490388234,
      "epoch": 0.37801763203427535,
      "grad_norm": 0.5965494513511658,
      "learning_rate": 1.883407933702853e-05,
      "loss": 1.4663,
      "mean_token_accuracy": 0.6482534607251486,
      "num_tokens": 578431091.0,
      "step": 3441
    },
    {
      "entropy": 1.7487133642037709,
      "epoch": 0.3781274889456483,
      "grad_norm": 0.7280961275100708,
      "learning_rate": 1.8833291055672823e-05,
      "loss": 1.3637,
      "mean_token_accuracy": 0.6615277727444967,
      "num_tokens": 578597636.0,
      "step": 3442
    },
    {
      "entropy": 1.6576574742794037,
      "epoch": 0.37823734585702123,
      "grad_norm": 0.7443664073944092,
      "learning_rate": 1.883250252639698e-05,
      "loss": 1.508,
      "mean_token_accuracy": 0.6484198073546091,
      "num_tokens": 578781033.0,
      "step": 3443
    },
    {
      "entropy": 1.7675111095110576,
      "epoch": 0.3783472027683942,
      "grad_norm": 0.818128228187561,
      "learning_rate": 1.883171374922596e-05,
      "loss": 1.4656,
      "mean_token_accuracy": 0.6324175000190735,
      "num_tokens": 578991493.0,
      "step": 3444
    },
    {
      "entropy": 1.7102212806542714,
      "epoch": 0.3784570596797671,
      "grad_norm": 0.5803321599960327,
      "learning_rate": 1.8830924724184735e-05,
      "loss": 1.5241,
      "mean_token_accuracy": 0.6512432843446732,
      "num_tokens": 579180046.0,
      "step": 3445
    },
    {
      "entropy": 1.6907643973827362,
      "epoch": 0.37856691659114006,
      "grad_norm": 0.6002610921859741,
      "learning_rate": 1.8830135451298267e-05,
      "loss": 1.3832,
      "mean_token_accuracy": 0.6592213263114294,
      "num_tokens": 579369176.0,
      "step": 3446
    },
    {
      "entropy": 1.6708094378312428,
      "epoch": 0.378676773502513,
      "grad_norm": 0.7741876840591431,
      "learning_rate": 1.882934593059154e-05,
      "loss": 1.3733,
      "mean_token_accuracy": 0.6698874334494272,
      "num_tokens": 579516065.0,
      "step": 3447
    },
    {
      "entropy": 1.6863604684670765,
      "epoch": 0.37878663041388594,
      "grad_norm": 0.5927191972732544,
      "learning_rate": 1.8828556162089544e-05,
      "loss": 1.3393,
      "mean_token_accuracy": 0.6622706055641174,
      "num_tokens": 579667258.0,
      "step": 3448
    },
    {
      "entropy": 1.6480213006337483,
      "epoch": 0.3788964873252588,
      "grad_norm": 0.6203927397727966,
      "learning_rate": 1.882776614581727e-05,
      "loss": 1.3284,
      "mean_token_accuracy": 0.6719114383061727,
      "num_tokens": 579833662.0,
      "step": 3449
    },
    {
      "entropy": 1.6983853876590729,
      "epoch": 0.37900634423663176,
      "grad_norm": 0.7154219150543213,
      "learning_rate": 1.882697588179973e-05,
      "loss": 1.2398,
      "mean_token_accuracy": 0.6767720828453699,
      "num_tokens": 579961516.0,
      "step": 3450
    },
    {
      "entropy": 1.6762764751911163,
      "epoch": 0.3791162011480047,
      "grad_norm": 0.8314480781555176,
      "learning_rate": 1.882618537006193e-05,
      "loss": 1.331,
      "mean_token_accuracy": 0.6671194086472193,
      "num_tokens": 580068709.0,
      "step": 3451
    },
    {
      "entropy": 1.6201636294523876,
      "epoch": 0.37922605805937765,
      "grad_norm": 0.666167676448822,
      "learning_rate": 1.8825394610628885e-05,
      "loss": 1.2919,
      "mean_token_accuracy": 0.6708478977282842,
      "num_tokens": 580270556.0,
      "step": 3452
    },
    {
      "entropy": 1.6574621001879375,
      "epoch": 0.3793359149707506,
      "grad_norm": 0.6271048188209534,
      "learning_rate": 1.882460360352563e-05,
      "loss": 1.4808,
      "mean_token_accuracy": 0.6487952421108881,
      "num_tokens": 580449275.0,
      "step": 3453
    },
    {
      "entropy": 1.6838637391726177,
      "epoch": 0.37944577188212353,
      "grad_norm": 0.7442733645439148,
      "learning_rate": 1.8823812348777194e-05,
      "loss": 1.4904,
      "mean_token_accuracy": 0.6588171670834223,
      "num_tokens": 580589870.0,
      "step": 3454
    },
    {
      "entropy": 1.7033161123593648,
      "epoch": 0.37955562879349647,
      "grad_norm": 0.6353382468223572,
      "learning_rate": 1.8823020846408624e-05,
      "loss": 1.3264,
      "mean_token_accuracy": 0.6653269082307816,
      "num_tokens": 580750981.0,
      "step": 3455
    },
    {
      "entropy": 1.6577220559120178,
      "epoch": 0.3796654857048694,
      "grad_norm": 0.7376974821090698,
      "learning_rate": 1.8822229096444974e-05,
      "loss": 1.3135,
      "mean_token_accuracy": 0.6758194168408712,
      "num_tokens": 580903947.0,
      "step": 3456
    },
    {
      "entropy": 1.713914414246877,
      "epoch": 0.37977534261624235,
      "grad_norm": 0.6808127164840698,
      "learning_rate": 1.882143709891129e-05,
      "loss": 1.4825,
      "mean_token_accuracy": 0.6571186631917953,
      "num_tokens": 581099884.0,
      "step": 3457
    },
    {
      "entropy": 1.7346510489781697,
      "epoch": 0.3798851995276153,
      "grad_norm": 0.8213891983032227,
      "learning_rate": 1.882064485383265e-05,
      "loss": 1.656,
      "mean_token_accuracy": 0.6358093395829201,
      "num_tokens": 581266800.0,
      "step": 3458
    },
    {
      "entropy": 1.6873709658781688,
      "epoch": 0.37999505643898823,
      "grad_norm": 0.6150254607200623,
      "learning_rate": 1.8819852361234122e-05,
      "loss": 1.3555,
      "mean_token_accuracy": 0.6584896544615427,
      "num_tokens": 581444967.0,
      "step": 3459
    },
    {
      "entropy": 1.65604763229688,
      "epoch": 0.3801049133503612,
      "grad_norm": 0.6561197638511658,
      "learning_rate": 1.8819059621140795e-05,
      "loss": 1.2817,
      "mean_token_accuracy": 0.6694964021444321,
      "num_tokens": 581564226.0,
      "step": 3460
    },
    {
      "entropy": 1.727463076512019,
      "epoch": 0.3802147702617341,
      "grad_norm": 0.8681771159172058,
      "learning_rate": 1.8818266633577754e-05,
      "loss": 1.505,
      "mean_token_accuracy": 0.633656973640124,
      "num_tokens": 581760317.0,
      "step": 3461
    },
    {
      "entropy": 1.6862981617450714,
      "epoch": 0.38032462717310705,
      "grad_norm": 0.7154708504676819,
      "learning_rate": 1.8817473398570093e-05,
      "loss": 1.3987,
      "mean_token_accuracy": 0.6559828768173853,
      "num_tokens": 581924558.0,
      "step": 3462
    },
    {
      "entropy": 1.7164887289206188,
      "epoch": 0.38043448408447994,
      "grad_norm": 0.6370391249656677,
      "learning_rate": 1.8816679916142926e-05,
      "loss": 1.4157,
      "mean_token_accuracy": 0.6538357237974802,
      "num_tokens": 582107450.0,
      "step": 3463
    },
    {
      "entropy": 1.7019615570704143,
      "epoch": 0.3805443409958529,
      "grad_norm": 0.6402043700218201,
      "learning_rate": 1.881588618632136e-05,
      "loss": 1.3387,
      "mean_token_accuracy": 0.6574279069900513,
      "num_tokens": 582239856.0,
      "step": 3464
    },
    {
      "entropy": 1.7193419933319092,
      "epoch": 0.3806541979072258,
      "grad_norm": 0.6499764323234558,
      "learning_rate": 1.8815092209130517e-05,
      "loss": 1.3768,
      "mean_token_accuracy": 0.6483793556690216,
      "num_tokens": 582387148.0,
      "step": 3465
    },
    {
      "entropy": 1.7380633453528087,
      "epoch": 0.38076405481859876,
      "grad_norm": 0.637168824672699,
      "learning_rate": 1.881429798459553e-05,
      "loss": 1.549,
      "mean_token_accuracy": 0.6460103044907252,
      "num_tokens": 582581215.0,
      "step": 3466
    },
    {
      "entropy": 1.7223777274290721,
      "epoch": 0.3808739117299717,
      "grad_norm": 0.8232377171516418,
      "learning_rate": 1.881350351274153e-05,
      "loss": 1.4829,
      "mean_token_accuracy": 0.6414266675710678,
      "num_tokens": 582737460.0,
      "step": 3467
    },
    {
      "entropy": 1.715603917837143,
      "epoch": 0.38098376864134464,
      "grad_norm": 0.7367724776268005,
      "learning_rate": 1.8812708793593665e-05,
      "loss": 1.4147,
      "mean_token_accuracy": 0.6520026822884878,
      "num_tokens": 582887078.0,
      "step": 3468
    },
    {
      "entropy": 1.6945099035898845,
      "epoch": 0.3810936255527176,
      "grad_norm": 0.7187338471412659,
      "learning_rate": 1.8811913827177086e-05,
      "loss": 1.3723,
      "mean_token_accuracy": 0.6605968276659647,
      "num_tokens": 583095650.0,
      "step": 3469
    },
    {
      "entropy": 1.7937320371468861,
      "epoch": 0.3812034824640905,
      "grad_norm": 0.7050454020500183,
      "learning_rate": 1.8811118613516958e-05,
      "loss": 1.3214,
      "mean_token_accuracy": 0.6556558360656103,
      "num_tokens": 583233702.0,
      "step": 3470
    },
    {
      "entropy": 1.739583859841029,
      "epoch": 0.38131333937546347,
      "grad_norm": 4.8021721839904785,
      "learning_rate": 1.8810323152638442e-05,
      "loss": 1.2322,
      "mean_token_accuracy": 0.657580296198527,
      "num_tokens": 583395812.0,
      "step": 3471
    },
    {
      "entropy": 1.6864960491657257,
      "epoch": 0.3814231962868364,
      "grad_norm": 0.767795979976654,
      "learning_rate": 1.8809527444566724e-05,
      "loss": 1.4271,
      "mean_token_accuracy": 0.6574305593967438,
      "num_tokens": 583581686.0,
      "step": 3472
    },
    {
      "entropy": 1.7561549345652263,
      "epoch": 0.38153305319820935,
      "grad_norm": 0.7138762474060059,
      "learning_rate": 1.8808731489326976e-05,
      "loss": 1.4787,
      "mean_token_accuracy": 0.6449342767397562,
      "num_tokens": 583820312.0,
      "step": 3473
    },
    {
      "entropy": 1.7409043808778126,
      "epoch": 0.3816429101095823,
      "grad_norm": 0.6710432171821594,
      "learning_rate": 1.8807935286944397e-05,
      "loss": 1.5292,
      "mean_token_accuracy": 0.6325879693031311,
      "num_tokens": 584045229.0,
      "step": 3474
    },
    {
      "entropy": 1.7295817732810974,
      "epoch": 0.38175276702095523,
      "grad_norm": 0.7256639003753662,
      "learning_rate": 1.880713883744418e-05,
      "loss": 1.5294,
      "mean_token_accuracy": 0.6477811336517334,
      "num_tokens": 584199841.0,
      "step": 3475
    },
    {
      "entropy": 1.6922647754351299,
      "epoch": 0.3818626239323281,
      "grad_norm": 0.7137476801872253,
      "learning_rate": 1.8806342140851545e-05,
      "loss": 1.2719,
      "mean_token_accuracy": 0.6746822595596313,
      "num_tokens": 584302842.0,
      "step": 3476
    },
    {
      "entropy": 1.741408884525299,
      "epoch": 0.38197248084370106,
      "grad_norm": 0.6547417044639587,
      "learning_rate": 1.880554519719169e-05,
      "loss": 1.4459,
      "mean_token_accuracy": 0.6518658250570297,
      "num_tokens": 584533354.0,
      "step": 3477
    },
    {
      "entropy": 1.6792203883330028,
      "epoch": 0.382082337755074,
      "grad_norm": 0.6794640421867371,
      "learning_rate": 1.8804748006489852e-05,
      "loss": 1.4004,
      "mean_token_accuracy": 0.6527031362056732,
      "num_tokens": 584699604.0,
      "step": 3478
    },
    {
      "entropy": 1.7532505889733632,
      "epoch": 0.38219219466644694,
      "grad_norm": 0.7683124542236328,
      "learning_rate": 1.880395056877126e-05,
      "loss": 1.4457,
      "mean_token_accuracy": 0.6515724509954453,
      "num_tokens": 584869532.0,
      "step": 3479
    },
    {
      "entropy": 1.7253733774026234,
      "epoch": 0.3823020515778199,
      "grad_norm": 0.6482527256011963,
      "learning_rate": 1.880315288406114e-05,
      "loss": 1.5189,
      "mean_token_accuracy": 0.6325220863024393,
      "num_tokens": 585042675.0,
      "step": 3480
    },
    {
      "entropy": 1.7039113640785217,
      "epoch": 0.3824119084891928,
      "grad_norm": 0.6514295935630798,
      "learning_rate": 1.8802354952384753e-05,
      "loss": 1.4191,
      "mean_token_accuracy": 0.6613591512044271,
      "num_tokens": 585205823.0,
      "step": 3481
    },
    {
      "entropy": 1.6615497569243114,
      "epoch": 0.38252176540056576,
      "grad_norm": 0.7592434883117676,
      "learning_rate": 1.8801556773767348e-05,
      "loss": 1.2488,
      "mean_token_accuracy": 0.6740445991357168,
      "num_tokens": 585359134.0,
      "step": 3482
    },
    {
      "entropy": 1.730480541785558,
      "epoch": 0.3826316223119387,
      "grad_norm": 0.7494388818740845,
      "learning_rate": 1.8800758348234184e-05,
      "loss": 1.4356,
      "mean_token_accuracy": 0.6558689872423807,
      "num_tokens": 585562435.0,
      "step": 3483
    },
    {
      "entropy": 1.7431610922018688,
      "epoch": 0.38274147922331164,
      "grad_norm": 0.6161172986030579,
      "learning_rate": 1.8799959675810537e-05,
      "loss": 1.3557,
      "mean_token_accuracy": 0.655944844086965,
      "num_tokens": 585766828.0,
      "step": 3484
    },
    {
      "entropy": 1.7082973023255665,
      "epoch": 0.3828513361346846,
      "grad_norm": 1.0127819776535034,
      "learning_rate": 1.8799160756521678e-05,
      "loss": 1.2512,
      "mean_token_accuracy": 0.6891203025976816,
      "num_tokens": 585899197.0,
      "step": 3485
    },
    {
      "entropy": 1.7385966678460438,
      "epoch": 0.3829611930460575,
      "grad_norm": 0.7442635893821716,
      "learning_rate": 1.8798361590392894e-05,
      "loss": 1.4916,
      "mean_token_accuracy": 0.6403134316205978,
      "num_tokens": 586067153.0,
      "step": 3486
    },
    {
      "entropy": 1.72092600663503,
      "epoch": 0.38307104995743047,
      "grad_norm": 0.6867280006408691,
      "learning_rate": 1.8797562177449483e-05,
      "loss": 1.3125,
      "mean_token_accuracy": 0.6737407147884369,
      "num_tokens": 586200744.0,
      "step": 3487
    },
    {
      "entropy": 1.6985297699769337,
      "epoch": 0.3831809068688034,
      "grad_norm": 0.6545002460479736,
      "learning_rate": 1.879676251771674e-05,
      "loss": 1.5108,
      "mean_token_accuracy": 0.632008487979571,
      "num_tokens": 586382656.0,
      "step": 3488
    },
    {
      "entropy": 1.665940374135971,
      "epoch": 0.38329076378017635,
      "grad_norm": 0.7648383975028992,
      "learning_rate": 1.879596261121998e-05,
      "loss": 1.4246,
      "mean_token_accuracy": 0.6555665085713068,
      "num_tokens": 586614246.0,
      "step": 3489
    },
    {
      "entropy": 1.6751268605391185,
      "epoch": 0.38340062069154923,
      "grad_norm": 0.6534166932106018,
      "learning_rate": 1.8795162457984516e-05,
      "loss": 1.4129,
      "mean_token_accuracy": 0.6518707672754923,
      "num_tokens": 586793947.0,
      "step": 3490
    },
    {
      "entropy": 1.6860232551892598,
      "epoch": 0.3835104776029222,
      "grad_norm": 0.697482705116272,
      "learning_rate": 1.8794362058035665e-05,
      "loss": 1.1756,
      "mean_token_accuracy": 0.6882057338953018,
      "num_tokens": 586907081.0,
      "step": 3491
    },
    {
      "entropy": 1.6990710695584614,
      "epoch": 0.3836203345142951,
      "grad_norm": 0.559978187084198,
      "learning_rate": 1.879356141139878e-05,
      "loss": 1.5079,
      "mean_token_accuracy": 0.6403456131617228,
      "num_tokens": 587108420.0,
      "step": 3492
    },
    {
      "entropy": 1.7045027613639832,
      "epoch": 0.38373019142566805,
      "grad_norm": 0.6749347448348999,
      "learning_rate": 1.879276051809918e-05,
      "loss": 1.3578,
      "mean_token_accuracy": 0.6670193572839102,
      "num_tokens": 587270046.0,
      "step": 3493
    },
    {
      "entropy": 1.6886097590128581,
      "epoch": 0.383840048337041,
      "grad_norm": 0.7157772779464722,
      "learning_rate": 1.879195937816222e-05,
      "loss": 1.3459,
      "mean_token_accuracy": 0.6764027178287506,
      "num_tokens": 587451691.0,
      "step": 3494
    },
    {
      "entropy": 1.696417550245921,
      "epoch": 0.38394990524841394,
      "grad_norm": 0.7377708554267883,
      "learning_rate": 1.8791157991613258e-05,
      "loss": 1.506,
      "mean_token_accuracy": 0.6467360059420267,
      "num_tokens": 587615528.0,
      "step": 3495
    },
    {
      "entropy": 1.7199425995349884,
      "epoch": 0.3840597621597869,
      "grad_norm": 0.7708967328071594,
      "learning_rate": 1.879035635847766e-05,
      "loss": 1.4605,
      "mean_token_accuracy": 0.6508774061997732,
      "num_tokens": 587779213.0,
      "step": 3496
    },
    {
      "entropy": 1.719101478656133,
      "epoch": 0.3841696190711598,
      "grad_norm": 0.7188828587532043,
      "learning_rate": 1.878955447878079e-05,
      "loss": 1.6502,
      "mean_token_accuracy": 0.6291324868798256,
      "num_tokens": 587963491.0,
      "step": 3497
    },
    {
      "entropy": 1.6726809938748677,
      "epoch": 0.38427947598253276,
      "grad_norm": 0.8379467725753784,
      "learning_rate": 1.8788752352548032e-05,
      "loss": 1.4745,
      "mean_token_accuracy": 0.6412243594725927,
      "num_tokens": 588138029.0,
      "step": 3498
    },
    {
      "entropy": 1.7113063037395477,
      "epoch": 0.3843893328939057,
      "grad_norm": 0.6474940180778503,
      "learning_rate": 1.8787949979804773e-05,
      "loss": 1.4364,
      "mean_token_accuracy": 0.6462200383345286,
      "num_tokens": 588299515.0,
      "step": 3499
    },
    {
      "entropy": 1.7047918836275737,
      "epoch": 0.38449918980527864,
      "grad_norm": 0.8152151703834534,
      "learning_rate": 1.8787147360576407e-05,
      "loss": 1.421,
      "mean_token_accuracy": 0.6530329436063766,
      "num_tokens": 588460227.0,
      "step": 3500
    },
    {
      "entropy": 1.68595157066981,
      "epoch": 0.3846090467166516,
      "grad_norm": 0.6358811855316162,
      "learning_rate": 1.8786344494888334e-05,
      "loss": 1.3389,
      "mean_token_accuracy": 0.6701284398635229,
      "num_tokens": 588603997.0,
      "step": 3501
    },
    {
      "entropy": 1.6604685087998707,
      "epoch": 0.3847189036280245,
      "grad_norm": 0.6849839091300964,
      "learning_rate": 1.8785541382765963e-05,
      "loss": 1.2876,
      "mean_token_accuracy": 0.6715737382570902,
      "num_tokens": 588756310.0,
      "step": 3502
    },
    {
      "entropy": 1.7432369391123455,
      "epoch": 0.3848287605393974,
      "grad_norm": 0.7382224202156067,
      "learning_rate": 1.8784738024234724e-05,
      "loss": 1.335,
      "mean_token_accuracy": 0.6696681876977285,
      "num_tokens": 588952647.0,
      "step": 3503
    },
    {
      "entropy": 1.7226824462413788,
      "epoch": 0.38493861745077035,
      "grad_norm": 0.7350408434867859,
      "learning_rate": 1.8783934419320026e-05,
      "loss": 1.4502,
      "mean_token_accuracy": 0.652747223774592,
      "num_tokens": 589164790.0,
      "step": 3504
    },
    {
      "entropy": 1.7092638711134593,
      "epoch": 0.3850484743621433,
      "grad_norm": 0.7419540286064148,
      "learning_rate": 1.8783130568047317e-05,
      "loss": 1.2935,
      "mean_token_accuracy": 0.6710209945837656,
      "num_tokens": 589299732.0,
      "step": 3505
    },
    {
      "entropy": 1.7275305191675823,
      "epoch": 0.38515833127351623,
      "grad_norm": 0.6263718008995056,
      "learning_rate": 1.878232647044203e-05,
      "loss": 1.395,
      "mean_token_accuracy": 0.6440123667319616,
      "num_tokens": 589477221.0,
      "step": 3506
    },
    {
      "entropy": 1.691060076157252,
      "epoch": 0.38526818818488917,
      "grad_norm": 0.6086033582687378,
      "learning_rate": 1.8781522126529615e-05,
      "loss": 1.3346,
      "mean_token_accuracy": 0.6638441930214564,
      "num_tokens": 589632490.0,
      "step": 3507
    },
    {
      "entropy": 1.7170771658420563,
      "epoch": 0.3853780450962621,
      "grad_norm": 0.6135653853416443,
      "learning_rate": 1.8780717536335534e-05,
      "loss": 1.3926,
      "mean_token_accuracy": 0.6520104904969534,
      "num_tokens": 589837072.0,
      "step": 3508
    },
    {
      "entropy": 1.7135487794876099,
      "epoch": 0.38548790200763505,
      "grad_norm": 0.8644580841064453,
      "learning_rate": 1.877991269988525e-05,
      "loss": 1.5439,
      "mean_token_accuracy": 0.6479515383640925,
      "num_tokens": 590037145.0,
      "step": 3509
    },
    {
      "entropy": 1.656055251757304,
      "epoch": 0.385597758919008,
      "grad_norm": 0.6589810252189636,
      "learning_rate": 1.8779107617204232e-05,
      "loss": 1.3376,
      "mean_token_accuracy": 0.6675926595926285,
      "num_tokens": 590181728.0,
      "step": 3510
    },
    {
      "entropy": 1.6446336209774017,
      "epoch": 0.38570761583038093,
      "grad_norm": 0.7715820074081421,
      "learning_rate": 1.8778302288317965e-05,
      "loss": 1.42,
      "mean_token_accuracy": 0.6649827063083649,
      "num_tokens": 590345528.0,
      "step": 3511
    },
    {
      "entropy": 1.7644979854424794,
      "epoch": 0.3858174727417539,
      "grad_norm": 0.6795924305915833,
      "learning_rate": 1.8777496713251937e-05,
      "loss": 1.5448,
      "mean_token_accuracy": 0.6330472528934479,
      "num_tokens": 590543297.0,
      "step": 3512
    },
    {
      "entropy": 1.7632849017779033,
      "epoch": 0.3859273296531268,
      "grad_norm": 0.8066057562828064,
      "learning_rate": 1.8776690892031642e-05,
      "loss": 1.2179,
      "mean_token_accuracy": 0.6771250069141388,
      "num_tokens": 590649907.0,
      "step": 3513
    },
    {
      "entropy": 1.6934345563252766,
      "epoch": 0.38603718656449976,
      "grad_norm": 0.6281071901321411,
      "learning_rate": 1.877588482468258e-05,
      "loss": 1.3695,
      "mean_token_accuracy": 0.6520146181186041,
      "num_tokens": 590816034.0,
      "step": 3514
    },
    {
      "entropy": 1.711225817600886,
      "epoch": 0.3861470434758727,
      "grad_norm": 0.8094905614852905,
      "learning_rate": 1.8775078511230275e-05,
      "loss": 1.3598,
      "mean_token_accuracy": 0.6714527507623037,
      "num_tokens": 590967779.0,
      "step": 3515
    },
    {
      "entropy": 1.7611852586269379,
      "epoch": 0.38625690038724564,
      "grad_norm": 0.7497817873954773,
      "learning_rate": 1.877427195170023e-05,
      "loss": 1.4466,
      "mean_token_accuracy": 0.6378799378871918,
      "num_tokens": 591115206.0,
      "step": 3516
    },
    {
      "entropy": 1.7012092570463817,
      "epoch": 0.3863667572986185,
      "grad_norm": 0.7083910703659058,
      "learning_rate": 1.8773465146117988e-05,
      "loss": 1.3734,
      "mean_token_accuracy": 0.6618959506352743,
      "num_tokens": 591263829.0,
      "step": 3517
    },
    {
      "entropy": 1.697861025730769,
      "epoch": 0.38647661420999146,
      "grad_norm": 0.6678640842437744,
      "learning_rate": 1.8772658094509072e-05,
      "loss": 1.419,
      "mean_token_accuracy": 0.6634480754534403,
      "num_tokens": 591459207.0,
      "step": 3518
    },
    {
      "entropy": 1.7712201476097107,
      "epoch": 0.3865864711213644,
      "grad_norm": 0.7492165565490723,
      "learning_rate": 1.8771850796899034e-05,
      "loss": 1.2713,
      "mean_token_accuracy": 0.6765512228012085,
      "num_tokens": 591593988.0,
      "step": 3519
    },
    {
      "entropy": 1.6945832471052806,
      "epoch": 0.38669632803273735,
      "grad_norm": 0.7029894590377808,
      "learning_rate": 1.877104325331342e-05,
      "loss": 1.4178,
      "mean_token_accuracy": 0.6622582574685415,
      "num_tokens": 591758058.0,
      "step": 3520
    },
    {
      "entropy": 1.6844372848669689,
      "epoch": 0.3868061849441103,
      "grad_norm": 0.6502472758293152,
      "learning_rate": 1.8770235463777784e-05,
      "loss": 1.3107,
      "mean_token_accuracy": 0.6579713672399521,
      "num_tokens": 591902067.0,
      "step": 3521
    },
    {
      "entropy": 1.698314368724823,
      "epoch": 0.38691604185548323,
      "grad_norm": 0.8369100093841553,
      "learning_rate": 1.87694274283177e-05,
      "loss": 1.3315,
      "mean_token_accuracy": 0.6667650043964386,
      "num_tokens": 592026730.0,
      "step": 3522
    },
    {
      "entropy": 1.6990590989589691,
      "epoch": 0.38702589876685617,
      "grad_norm": 0.757598876953125,
      "learning_rate": 1.8768619146958736e-05,
      "loss": 1.3108,
      "mean_token_accuracy": 0.6711003084977468,
      "num_tokens": 592159351.0,
      "step": 3523
    },
    {
      "entropy": 1.6836991906166077,
      "epoch": 0.3871357556782291,
      "grad_norm": 0.6812123656272888,
      "learning_rate": 1.8767810619726486e-05,
      "loss": 1.5014,
      "mean_token_accuracy": 0.6574613849322001,
      "num_tokens": 592313020.0,
      "step": 3524
    },
    {
      "entropy": 1.6621138453483582,
      "epoch": 0.38724561258960205,
      "grad_norm": 0.7579445242881775,
      "learning_rate": 1.8767001846646522e-05,
      "loss": 1.3334,
      "mean_token_accuracy": 0.6703773736953735,
      "num_tokens": 592465715.0,
      "step": 3525
    },
    {
      "entropy": 1.7132685979207356,
      "epoch": 0.387355469500975,
      "grad_norm": 0.683297872543335,
      "learning_rate": 1.876619282774445e-05,
      "loss": 1.5687,
      "mean_token_accuracy": 0.6472751895586649,
      "num_tokens": 592714454.0,
      "step": 3526
    },
    {
      "entropy": 1.6917611062526703,
      "epoch": 0.38746532641234793,
      "grad_norm": 0.7978048920631409,
      "learning_rate": 1.876538356304588e-05,
      "loss": 1.4326,
      "mean_token_accuracy": 0.6595585942268372,
      "num_tokens": 592855814.0,
      "step": 3527
    },
    {
      "entropy": 1.7584986786047618,
      "epoch": 0.3875751833237209,
      "grad_norm": 0.6933776140213013,
      "learning_rate": 1.876457405257641e-05,
      "loss": 1.2829,
      "mean_token_accuracy": 0.6754846076170603,
      "num_tokens": 592996822.0,
      "step": 3528
    },
    {
      "entropy": 1.679332544406255,
      "epoch": 0.3876850402350938,
      "grad_norm": 0.6294096112251282,
      "learning_rate": 1.8763764296361676e-05,
      "loss": 1.2627,
      "mean_token_accuracy": 0.6760277499755224,
      "num_tokens": 593154964.0,
      "step": 3529
    },
    {
      "entropy": 1.704353282848994,
      "epoch": 0.3877948971464667,
      "grad_norm": 0.65788334608078,
      "learning_rate": 1.8762954294427298e-05,
      "loss": 1.41,
      "mean_token_accuracy": 0.6482875148455302,
      "num_tokens": 593295801.0,
      "step": 3530
    },
    {
      "entropy": 1.7058403293291728,
      "epoch": 0.38790475405783964,
      "grad_norm": 0.7336824536323547,
      "learning_rate": 1.8762144046798917e-05,
      "loss": 1.4683,
      "mean_token_accuracy": 0.6580928464730581,
      "num_tokens": 593505141.0,
      "step": 3531
    },
    {
      "entropy": 1.7358074982961018,
      "epoch": 0.3880146109692126,
      "grad_norm": 0.7603702545166016,
      "learning_rate": 1.8761333553502173e-05,
      "loss": 1.3445,
      "mean_token_accuracy": 0.6589676340421041,
      "num_tokens": 593635482.0,
      "step": 3532
    },
    {
      "entropy": 1.7584581673145294,
      "epoch": 0.3881244678805855,
      "grad_norm": 0.6100241541862488,
      "learning_rate": 1.8760522814562723e-05,
      "loss": 1.5353,
      "mean_token_accuracy": 0.6196905672550201,
      "num_tokens": 593889864.0,
      "step": 3533
    },
    {
      "entropy": 1.709738661845525,
      "epoch": 0.38823432479195846,
      "grad_norm": 0.6657153964042664,
      "learning_rate": 1.875971183000622e-05,
      "loss": 1.3076,
      "mean_token_accuracy": 0.6685143858194351,
      "num_tokens": 594063330.0,
      "step": 3534
    },
    {
      "entropy": 1.6752463181813557,
      "epoch": 0.3883441817033314,
      "grad_norm": 0.62481689453125,
      "learning_rate": 1.8758900599858333e-05,
      "loss": 1.299,
      "mean_token_accuracy": 0.6609266599019369,
      "num_tokens": 594265034.0,
      "step": 3535
    },
    {
      "entropy": 1.7667845884958904,
      "epoch": 0.38845403861470434,
      "grad_norm": 0.7150773406028748,
      "learning_rate": 1.875808912414474e-05,
      "loss": 1.4817,
      "mean_token_accuracy": 0.6347835808992386,
      "num_tokens": 594428055.0,
      "step": 3536
    },
    {
      "entropy": 1.74485116203626,
      "epoch": 0.3885638955260773,
      "grad_norm": 0.6251989006996155,
      "learning_rate": 1.8757277402891118e-05,
      "loss": 1.405,
      "mean_token_accuracy": 0.6552664488554001,
      "num_tokens": 594605592.0,
      "step": 3537
    },
    {
      "entropy": 1.7133037547270458,
      "epoch": 0.3886737524374502,
      "grad_norm": 0.695165753364563,
      "learning_rate": 1.8756465436123167e-05,
      "loss": 1.3105,
      "mean_token_accuracy": 0.670314704378446,
      "num_tokens": 594744857.0,
      "step": 3538
    },
    {
      "entropy": 1.7227947811285655,
      "epoch": 0.38878360934882317,
      "grad_norm": 0.7755094766616821,
      "learning_rate": 1.875565322386658e-05,
      "loss": 1.3068,
      "mean_token_accuracy": 0.6800702015558878,
      "num_tokens": 594938776.0,
      "step": 3539
    },
    {
      "entropy": 1.6865267256895702,
      "epoch": 0.3888934662601961,
      "grad_norm": 0.671947181224823,
      "learning_rate": 1.875484076614706e-05,
      "loss": 1.4058,
      "mean_token_accuracy": 0.6469751199086508,
      "num_tokens": 595122731.0,
      "step": 3540
    },
    {
      "entropy": 1.6733566025892894,
      "epoch": 0.38900332317156905,
      "grad_norm": 0.6642799377441406,
      "learning_rate": 1.8754028062990327e-05,
      "loss": 1.3554,
      "mean_token_accuracy": 0.6744746913512548,
      "num_tokens": 595306659.0,
      "step": 3541
    },
    {
      "entropy": 1.7339465618133545,
      "epoch": 0.389113180082942,
      "grad_norm": 0.7320308089256287,
      "learning_rate": 1.8753215114422096e-05,
      "loss": 1.3023,
      "mean_token_accuracy": 0.6688550561666489,
      "num_tokens": 595470855.0,
      "step": 3542
    },
    {
      "entropy": 1.7501880327860515,
      "epoch": 0.38922303699431493,
      "grad_norm": 0.8129941821098328,
      "learning_rate": 1.8752401920468105e-05,
      "loss": 1.4079,
      "mean_token_accuracy": 0.656624640027682,
      "num_tokens": 595645644.0,
      "step": 3543
    },
    {
      "entropy": 1.7234038313229878,
      "epoch": 0.3893328939056878,
      "grad_norm": 0.6668652892112732,
      "learning_rate": 1.8751588481154083e-05,
      "loss": 1.4884,
      "mean_token_accuracy": 0.6411069482564926,
      "num_tokens": 595842197.0,
      "step": 3544
    },
    {
      "entropy": 1.6663442055384319,
      "epoch": 0.38944275081706076,
      "grad_norm": 0.6142482757568359,
      "learning_rate": 1.875077479650578e-05,
      "loss": 1.4848,
      "mean_token_accuracy": 0.6513569702704748,
      "num_tokens": 596060521.0,
      "step": 3545
    },
    {
      "entropy": 1.6824649969736736,
      "epoch": 0.3895526077284337,
      "grad_norm": 0.6500999331474304,
      "learning_rate": 1.8749960866548948e-05,
      "loss": 1.3553,
      "mean_token_accuracy": 0.6778768996397654,
      "num_tokens": 596237180.0,
      "step": 3546
    },
    {
      "entropy": 1.6939981679121654,
      "epoch": 0.38966246463980664,
      "grad_norm": 0.6637330055236816,
      "learning_rate": 1.8749146691309347e-05,
      "loss": 1.4655,
      "mean_token_accuracy": 0.6524067719777426,
      "num_tokens": 596402651.0,
      "step": 3547
    },
    {
      "entropy": 1.7055251995722454,
      "epoch": 0.3897723215511796,
      "grad_norm": 0.7360928058624268,
      "learning_rate": 1.8748332270812746e-05,
      "loss": 1.3932,
      "mean_token_accuracy": 0.6488986412684122,
      "num_tokens": 596604743.0,
      "step": 3548
    },
    {
      "entropy": 1.7154695093631744,
      "epoch": 0.3898821784625525,
      "grad_norm": 0.7440617084503174,
      "learning_rate": 1.8747517605084914e-05,
      "loss": 1.3314,
      "mean_token_accuracy": 0.6643383254607519,
      "num_tokens": 596728567.0,
      "step": 3549
    },
    {
      "entropy": 1.6730522513389587,
      "epoch": 0.38999203537392546,
      "grad_norm": 0.6638359427452087,
      "learning_rate": 1.8746702694151645e-05,
      "loss": 1.3219,
      "mean_token_accuracy": 0.6653886139392853,
      "num_tokens": 596933860.0,
      "step": 3550
    },
    {
      "entropy": 1.6828788320223491,
      "epoch": 0.3901018922852984,
      "grad_norm": 0.6851414442062378,
      "learning_rate": 1.8745887538038727e-05,
      "loss": 1.3891,
      "mean_token_accuracy": 0.6566885908444723,
      "num_tokens": 597094207.0,
      "step": 3551
    },
    {
      "entropy": 1.7113615274429321,
      "epoch": 0.39021174919667134,
      "grad_norm": 0.7445501089096069,
      "learning_rate": 1.874507213677196e-05,
      "loss": 1.3147,
      "mean_token_accuracy": 0.6675726721684138,
      "num_tokens": 597232948.0,
      "step": 3552
    },
    {
      "entropy": 1.7263106803099315,
      "epoch": 0.3903216061080443,
      "grad_norm": 0.5610165596008301,
      "learning_rate": 1.8744256490377147e-05,
      "loss": 1.4161,
      "mean_token_accuracy": 0.6461490740378698,
      "num_tokens": 597413908.0,
      "step": 3553
    },
    {
      "entropy": 1.6911349991957347,
      "epoch": 0.3904314630194172,
      "grad_norm": 0.7104760408401489,
      "learning_rate": 1.874344059888011e-05,
      "loss": 1.433,
      "mean_token_accuracy": 0.6454216440518697,
      "num_tokens": 597659679.0,
      "step": 3554
    },
    {
      "entropy": 1.7260303298632305,
      "epoch": 0.39054131993079017,
      "grad_norm": 0.7172141671180725,
      "learning_rate": 1.874262446230666e-05,
      "loss": 1.295,
      "mean_token_accuracy": 0.6699913293123245,
      "num_tokens": 597778281.0,
      "step": 3555
    },
    {
      "entropy": 1.6977204084396362,
      "epoch": 0.3906511768421631,
      "grad_norm": 0.636026918888092,
      "learning_rate": 1.8741808080682642e-05,
      "loss": 1.3092,
      "mean_token_accuracy": 0.6655734032392502,
      "num_tokens": 597910822.0,
      "step": 3556
    },
    {
      "entropy": 1.7228349049886067,
      "epoch": 0.39076103375353605,
      "grad_norm": 0.7579364776611328,
      "learning_rate": 1.8740991454033883e-05,
      "loss": 1.45,
      "mean_token_accuracy": 0.6555042515198389,
      "num_tokens": 598051246.0,
      "step": 3557
    },
    {
      "entropy": 1.715238094329834,
      "epoch": 0.39087089066490893,
      "grad_norm": 0.7158708572387695,
      "learning_rate": 1.8740174582386234e-05,
      "loss": 1.3264,
      "mean_token_accuracy": 0.6576440383990606,
      "num_tokens": 598170261.0,
      "step": 3558
    },
    {
      "entropy": 1.7376553813616435,
      "epoch": 0.3909807475762819,
      "grad_norm": 0.8242320418357849,
      "learning_rate": 1.8739357465765547e-05,
      "loss": 1.3275,
      "mean_token_accuracy": 0.6688285072644552,
      "num_tokens": 598289904.0,
      "step": 3559
    },
    {
      "entropy": 1.6719888945420582,
      "epoch": 0.3910906044876548,
      "grad_norm": 0.603971004486084,
      "learning_rate": 1.8738540104197683e-05,
      "loss": 1.5734,
      "mean_token_accuracy": 0.6278845717509588,
      "num_tokens": 598516225.0,
      "step": 3560
    },
    {
      "entropy": 1.697850485642751,
      "epoch": 0.39120046139902775,
      "grad_norm": 0.61806720495224,
      "learning_rate": 1.873772249770851e-05,
      "loss": 1.5395,
      "mean_token_accuracy": 0.6368564814329147,
      "num_tokens": 598787097.0,
      "step": 3561
    },
    {
      "entropy": 1.6998209357261658,
      "epoch": 0.3913103183104007,
      "grad_norm": 0.6823562979698181,
      "learning_rate": 1.873690464632391e-05,
      "loss": 1.4176,
      "mean_token_accuracy": 0.6531643867492676,
      "num_tokens": 598950071.0,
      "step": 3562
    },
    {
      "entropy": 1.7084301312764485,
      "epoch": 0.39142017522177364,
      "grad_norm": 0.7508410811424255,
      "learning_rate": 1.8736086550069766e-05,
      "loss": 1.5139,
      "mean_token_accuracy": 0.6545840700467428,
      "num_tokens": 599121424.0,
      "step": 3563
    },
    {
      "entropy": 1.7422731916109722,
      "epoch": 0.3915300321331466,
      "grad_norm": 0.6909976601600647,
      "learning_rate": 1.8735268208971965e-05,
      "loss": 1.496,
      "mean_token_accuracy": 0.639715259273847,
      "num_tokens": 599284329.0,
      "step": 3564
    },
    {
      "entropy": 1.6988299985726674,
      "epoch": 0.3916398890445195,
      "grad_norm": 0.728016197681427,
      "learning_rate": 1.873444962305641e-05,
      "loss": 1.274,
      "mean_token_accuracy": 0.6804704517126083,
      "num_tokens": 599418243.0,
      "step": 3565
    },
    {
      "entropy": 1.7136310239632924,
      "epoch": 0.39174974595589246,
      "grad_norm": 0.623084545135498,
      "learning_rate": 1.8733630792349014e-05,
      "loss": 1.5038,
      "mean_token_accuracy": 0.6375333170096079,
      "num_tokens": 599602975.0,
      "step": 3566
    },
    {
      "entropy": 1.686454842487971,
      "epoch": 0.3918596028672654,
      "grad_norm": 0.6495208144187927,
      "learning_rate": 1.8732811716875684e-05,
      "loss": 1.4385,
      "mean_token_accuracy": 0.6662272214889526,
      "num_tokens": 599821930.0,
      "step": 3567
    },
    {
      "entropy": 1.7124264140923817,
      "epoch": 0.39196945977863834,
      "grad_norm": 0.7537272572517395,
      "learning_rate": 1.873199239666235e-05,
      "loss": 1.5257,
      "mean_token_accuracy": 0.6516513874133428,
      "num_tokens": 600017465.0,
      "step": 3568
    },
    {
      "entropy": 1.6850533187389374,
      "epoch": 0.3920793166900113,
      "grad_norm": 0.6643959879875183,
      "learning_rate": 1.8731172831734937e-05,
      "loss": 1.2957,
      "mean_token_accuracy": 0.6703493893146515,
      "num_tokens": 600164676.0,
      "step": 3569
    },
    {
      "entropy": 1.699459304412206,
      "epoch": 0.3921891736013842,
      "grad_norm": 0.6547852754592896,
      "learning_rate": 1.8730353022119392e-05,
      "loss": 1.4598,
      "mean_token_accuracy": 0.652552917599678,
      "num_tokens": 600314512.0,
      "step": 3570
    },
    {
      "entropy": 1.6793744961420696,
      "epoch": 0.3922990305127571,
      "grad_norm": 0.7872046828269958,
      "learning_rate": 1.8729532967841657e-05,
      "loss": 1.5209,
      "mean_token_accuracy": 0.6407067527373632,
      "num_tokens": 600560727.0,
      "step": 3571
    },
    {
      "entropy": 1.7016756534576416,
      "epoch": 0.39240888742413005,
      "grad_norm": 0.804166853427887,
      "learning_rate": 1.8728712668927684e-05,
      "loss": 1.5712,
      "mean_token_accuracy": 0.6527331074078878,
      "num_tokens": 600701171.0,
      "step": 3572
    },
    {
      "entropy": 1.6971095005671184,
      "epoch": 0.392518744335503,
      "grad_norm": 0.6559096574783325,
      "learning_rate": 1.8727892125403437e-05,
      "loss": 1.4343,
      "mean_token_accuracy": 0.6504131704568863,
      "num_tokens": 600853204.0,
      "step": 3573
    },
    {
      "entropy": 1.740959644317627,
      "epoch": 0.39262860124687593,
      "grad_norm": 0.7399430871009827,
      "learning_rate": 1.8727071337294892e-05,
      "loss": 1.404,
      "mean_token_accuracy": 0.6460892607768377,
      "num_tokens": 601018363.0,
      "step": 3574
    },
    {
      "entropy": 1.70658544699351,
      "epoch": 0.39273845815824887,
      "grad_norm": 0.6616029143333435,
      "learning_rate": 1.8726250304628017e-05,
      "loss": 1.4447,
      "mean_token_accuracy": 0.6470039238532385,
      "num_tokens": 601166522.0,
      "step": 3575
    },
    {
      "entropy": 1.7305179238319397,
      "epoch": 0.3928483150696218,
      "grad_norm": 0.693975031375885,
      "learning_rate": 1.8725429027428802e-05,
      "loss": 1.3161,
      "mean_token_accuracy": 0.6667521148920059,
      "num_tokens": 601345354.0,
      "step": 3576
    },
    {
      "entropy": 1.7331166168053944,
      "epoch": 0.39295817198099475,
      "grad_norm": 0.6473891139030457,
      "learning_rate": 1.8724607505723236e-05,
      "loss": 1.3952,
      "mean_token_accuracy": 0.6563832859198252,
      "num_tokens": 601489345.0,
      "step": 3577
    },
    {
      "entropy": 1.7098148167133331,
      "epoch": 0.3930680288923677,
      "grad_norm": 0.7081977725028992,
      "learning_rate": 1.8723785739537328e-05,
      "loss": 1.4453,
      "mean_token_accuracy": 0.6467587898174921,
      "num_tokens": 601633917.0,
      "step": 3578
    },
    {
      "entropy": 1.6743212342262268,
      "epoch": 0.39317788580374063,
      "grad_norm": 0.7473645210266113,
      "learning_rate": 1.8722963728897078e-05,
      "loss": 1.2851,
      "mean_token_accuracy": 0.6733796795209249,
      "num_tokens": 601771977.0,
      "step": 3579
    },
    {
      "entropy": 1.6344492137432098,
      "epoch": 0.3932877427151136,
      "grad_norm": 0.6567934155464172,
      "learning_rate": 1.872214147382851e-05,
      "loss": 1.2201,
      "mean_token_accuracy": 0.6826841433842977,
      "num_tokens": 601917258.0,
      "step": 3580
    },
    {
      "entropy": 1.7242592175801594,
      "epoch": 0.3933975996264865,
      "grad_norm": 0.7916681170463562,
      "learning_rate": 1.872131897435764e-05,
      "loss": 1.4052,
      "mean_token_accuracy": 0.6629040241241455,
      "num_tokens": 602070528.0,
      "step": 3581
    },
    {
      "entropy": 1.7825438876946766,
      "epoch": 0.39350745653785946,
      "grad_norm": 0.6252172589302063,
      "learning_rate": 1.872049623051051e-05,
      "loss": 1.5612,
      "mean_token_accuracy": 0.6375692586104075,
      "num_tokens": 602269702.0,
      "step": 3582
    },
    {
      "entropy": 1.7129474182923634,
      "epoch": 0.3936173134492324,
      "grad_norm": 0.6330097913742065,
      "learning_rate": 1.871967324231315e-05,
      "loss": 1.3636,
      "mean_token_accuracy": 0.6603029817342758,
      "num_tokens": 602439795.0,
      "step": 3583
    },
    {
      "entropy": 1.7473669946193695,
      "epoch": 0.39372717036060534,
      "grad_norm": 0.6051161885261536,
      "learning_rate": 1.871885000979161e-05,
      "loss": 1.4629,
      "mean_token_accuracy": 0.6398325165112814,
      "num_tokens": 602620971.0,
      "step": 3584
    },
    {
      "entropy": 1.6432409286499023,
      "epoch": 0.3938370272719782,
      "grad_norm": 0.7886459231376648,
      "learning_rate": 1.8718026532971945e-05,
      "loss": 1.4551,
      "mean_token_accuracy": 0.6793592671553293,
      "num_tokens": 602787338.0,
      "step": 3585
    },
    {
      "entropy": 1.696602314710617,
      "epoch": 0.39394688418335116,
      "grad_norm": 0.7194052338600159,
      "learning_rate": 1.871720281188022e-05,
      "loss": 1.3187,
      "mean_token_accuracy": 0.6622123072544733,
      "num_tokens": 602910036.0,
      "step": 3586
    },
    {
      "entropy": 1.6780929962793987,
      "epoch": 0.3940567410947241,
      "grad_norm": 1.4930285215377808,
      "learning_rate": 1.87163788465425e-05,
      "loss": 1.5072,
      "mean_token_accuracy": 0.6442895332972208,
      "num_tokens": 603118858.0,
      "step": 3587
    },
    {
      "entropy": 1.6930700143178303,
      "epoch": 0.39416659800609705,
      "grad_norm": 0.7970458269119263,
      "learning_rate": 1.8715554636984868e-05,
      "loss": 1.3497,
      "mean_token_accuracy": 0.6615445464849472,
      "num_tokens": 603300138.0,
      "step": 3588
    },
    {
      "entropy": 1.676286409298579,
      "epoch": 0.39427645491747,
      "grad_norm": 0.7440655827522278,
      "learning_rate": 1.871473018323341e-05,
      "loss": 1.5556,
      "mean_token_accuracy": 0.6397054543097814,
      "num_tokens": 603524712.0,
      "step": 3589
    },
    {
      "entropy": 1.677784413099289,
      "epoch": 0.39438631182884293,
      "grad_norm": 0.6356014609336853,
      "learning_rate": 1.8713905485314216e-05,
      "loss": 1.3834,
      "mean_token_accuracy": 0.6559326549371084,
      "num_tokens": 603680062.0,
      "step": 3590
    },
    {
      "entropy": 1.7333962221940358,
      "epoch": 0.39449616874021587,
      "grad_norm": 0.7091386914253235,
      "learning_rate": 1.871308054325339e-05,
      "loss": 1.3963,
      "mean_token_accuracy": 0.6534087806940079,
      "num_tokens": 603863458.0,
      "step": 3591
    },
    {
      "entropy": 1.6834155718485515,
      "epoch": 0.3946060256515888,
      "grad_norm": 0.6516834497451782,
      "learning_rate": 1.871225535707704e-05,
      "loss": 1.3878,
      "mean_token_accuracy": 0.6710058401028315,
      "num_tokens": 603994946.0,
      "step": 3592
    },
    {
      "entropy": 1.645541141430537,
      "epoch": 0.39471588256296175,
      "grad_norm": 0.6310259103775024,
      "learning_rate": 1.8711429926811285e-05,
      "loss": 1.2944,
      "mean_token_accuracy": 0.6635814557472864,
      "num_tokens": 604168355.0,
      "step": 3593
    },
    {
      "entropy": 1.7525591452916462,
      "epoch": 0.3948257394743347,
      "grad_norm": 0.7263670563697815,
      "learning_rate": 1.8710604252482244e-05,
      "loss": 1.2925,
      "mean_token_accuracy": 0.667170450091362,
      "num_tokens": 604272321.0,
      "step": 3594
    },
    {
      "entropy": 1.673738161722819,
      "epoch": 0.39493559638570763,
      "grad_norm": 0.6252807378768921,
      "learning_rate": 1.8709778334116057e-05,
      "loss": 1.3787,
      "mean_token_accuracy": 0.6551141440868378,
      "num_tokens": 604478407.0,
      "step": 3595
    },
    {
      "entropy": 1.7633110185464222,
      "epoch": 0.3950454532970806,
      "grad_norm": 0.6537090539932251,
      "learning_rate": 1.8708952171738856e-05,
      "loss": 1.5101,
      "mean_token_accuracy": 0.6308721353610357,
      "num_tokens": 604695750.0,
      "step": 3596
    },
    {
      "entropy": 1.7199938992659252,
      "epoch": 0.3951553102084535,
      "grad_norm": 0.7916152477264404,
      "learning_rate": 1.87081257653768e-05,
      "loss": 1.4183,
      "mean_token_accuracy": 0.6466862559318542,
      "num_tokens": 604842866.0,
      "step": 3597
    },
    {
      "entropy": 1.6832565764586132,
      "epoch": 0.3952651671198264,
      "grad_norm": 0.6747387051582336,
      "learning_rate": 1.870729911505603e-05,
      "loss": 1.2859,
      "mean_token_accuracy": 0.6659845014413198,
      "num_tokens": 604984494.0,
      "step": 3598
    },
    {
      "entropy": 1.7077111999193828,
      "epoch": 0.39537502403119934,
      "grad_norm": 0.6704530715942383,
      "learning_rate": 1.8706472220802717e-05,
      "loss": 1.4066,
      "mean_token_accuracy": 0.6525115470091502,
      "num_tokens": 605147587.0,
      "step": 3599
    },
    {
      "entropy": 1.6967969636122386,
      "epoch": 0.3954848809425723,
      "grad_norm": 0.7108339071273804,
      "learning_rate": 1.8705645082643032e-05,
      "loss": 1.3964,
      "mean_token_accuracy": 0.6673119068145752,
      "num_tokens": 605284305.0,
      "step": 3600
    },
    {
      "entropy": 1.6884620984395344,
      "epoch": 0.3955947378539452,
      "grad_norm": 0.6969875693321228,
      "learning_rate": 1.8704817700603154e-05,
      "loss": 1.406,
      "mean_token_accuracy": 0.6541502624750137,
      "num_tokens": 605428461.0,
      "step": 3601
    },
    {
      "entropy": 1.6805487771828969,
      "epoch": 0.39570459476531816,
      "grad_norm": 0.6379789710044861,
      "learning_rate": 1.8703990074709263e-05,
      "loss": 1.4033,
      "mean_token_accuracy": 0.6565418342749277,
      "num_tokens": 605654217.0,
      "step": 3602
    },
    {
      "entropy": 1.6334502398967743,
      "epoch": 0.3958144516766911,
      "grad_norm": 0.7022704482078552,
      "learning_rate": 1.870316220498756e-05,
      "loss": 1.3101,
      "mean_token_accuracy": 0.6683827390273412,
      "num_tokens": 605810204.0,
      "step": 3603
    },
    {
      "entropy": 1.6775756180286407,
      "epoch": 0.39592430858806404,
      "grad_norm": 0.6165929436683655,
      "learning_rate": 1.8702334091464246e-05,
      "loss": 1.4418,
      "mean_token_accuracy": 0.6538349191347758,
      "num_tokens": 605976026.0,
      "step": 3604
    },
    {
      "entropy": 1.6821360886096954,
      "epoch": 0.396034165499437,
      "grad_norm": 0.6474902033805847,
      "learning_rate": 1.8701505734165527e-05,
      "loss": 1.3874,
      "mean_token_accuracy": 0.6578802863756815,
      "num_tokens": 606145063.0,
      "step": 3605
    },
    {
      "entropy": 1.6627052525679271,
      "epoch": 0.3961440224108099,
      "grad_norm": 0.6694169044494629,
      "learning_rate": 1.870067713311762e-05,
      "loss": 1.4774,
      "mean_token_accuracy": 0.6556628793478012,
      "num_tokens": 606323836.0,
      "step": 3606
    },
    {
      "entropy": 1.7426823377609253,
      "epoch": 0.39625387932218287,
      "grad_norm": 0.7143035531044006,
      "learning_rate": 1.8699848288346754e-05,
      "loss": 1.5342,
      "mean_token_accuracy": 0.6395404686530431,
      "num_tokens": 606527328.0,
      "step": 3607
    },
    {
      "entropy": 1.6447638769944508,
      "epoch": 0.3963637362335558,
      "grad_norm": 0.6995284557342529,
      "learning_rate": 1.869901919987916e-05,
      "loss": 1.2323,
      "mean_token_accuracy": 0.681049590309461,
      "num_tokens": 606652449.0,
      "step": 3608
    },
    {
      "entropy": 1.7393419643243153,
      "epoch": 0.39647359314492875,
      "grad_norm": 0.7996697425842285,
      "learning_rate": 1.8698189867741076e-05,
      "loss": 1.312,
      "mean_token_accuracy": 0.6633258064587911,
      "num_tokens": 606786412.0,
      "step": 3609
    },
    {
      "entropy": 1.7173935075600941,
      "epoch": 0.3965834500563017,
      "grad_norm": 0.8304112553596497,
      "learning_rate": 1.8697360291958754e-05,
      "loss": 1.3365,
      "mean_token_accuracy": 0.6675741821527481,
      "num_tokens": 606941342.0,
      "step": 3610
    },
    {
      "entropy": 1.699825793504715,
      "epoch": 0.39669330696767463,
      "grad_norm": 0.6240324378013611,
      "learning_rate": 1.8696530472558443e-05,
      "loss": 1.5215,
      "mean_token_accuracy": 0.641850084066391,
      "num_tokens": 607137523.0,
      "step": 3611
    },
    {
      "entropy": 1.7180300255616505,
      "epoch": 0.3968031638790475,
      "grad_norm": 0.730658769607544,
      "learning_rate": 1.8695700409566415e-05,
      "loss": 1.4504,
      "mean_token_accuracy": 0.6601553956667582,
      "num_tokens": 607275218.0,
      "step": 3612
    },
    {
      "entropy": 1.7043689092000325,
      "epoch": 0.39691302079042046,
      "grad_norm": 0.7190737128257751,
      "learning_rate": 1.8694870103008935e-05,
      "loss": 1.3154,
      "mean_token_accuracy": 0.6722518901030222,
      "num_tokens": 607422791.0,
      "step": 3613
    },
    {
      "entropy": 1.710739016532898,
      "epoch": 0.3970228777017934,
      "grad_norm": 0.6662858128547668,
      "learning_rate": 1.8694039552912284e-05,
      "loss": 1.3454,
      "mean_token_accuracy": 0.6655974884827932,
      "num_tokens": 607574450.0,
      "step": 3614
    },
    {
      "entropy": 1.7331662873427074,
      "epoch": 0.39713273461316634,
      "grad_norm": 0.6620702743530273,
      "learning_rate": 1.8693208759302747e-05,
      "loss": 1.3848,
      "mean_token_accuracy": 0.64388441046079,
      "num_tokens": 607709925.0,
      "step": 3615
    },
    {
      "entropy": 1.6359326243400574,
      "epoch": 0.3972425915245393,
      "grad_norm": 0.6715786457061768,
      "learning_rate": 1.869237772220662e-05,
      "loss": 1.32,
      "mean_token_accuracy": 0.6786454369624456,
      "num_tokens": 607877472.0,
      "step": 3616
    },
    {
      "entropy": 1.742279092470805,
      "epoch": 0.3973524484359122,
      "grad_norm": 0.7671318054199219,
      "learning_rate": 1.8691546441650207e-05,
      "loss": 1.5367,
      "mean_token_accuracy": 0.6638617217540741,
      "num_tokens": 608006491.0,
      "step": 3617
    },
    {
      "entropy": 1.6939302285512288,
      "epoch": 0.39746230534728516,
      "grad_norm": 0.7670230269432068,
      "learning_rate": 1.8690714917659814e-05,
      "loss": 1.3973,
      "mean_token_accuracy": 0.6581595738728842,
      "num_tokens": 608179437.0,
      "step": 3618
    },
    {
      "entropy": 1.6857011218865712,
      "epoch": 0.3975721622586581,
      "grad_norm": 0.787647008895874,
      "learning_rate": 1.8689883150261757e-05,
      "loss": 1.3985,
      "mean_token_accuracy": 0.6678627133369446,
      "num_tokens": 608310733.0,
      "step": 3619
    },
    {
      "entropy": 1.623725155989329,
      "epoch": 0.39768201917003104,
      "grad_norm": 0.8164381980895996,
      "learning_rate": 1.8689051139482365e-05,
      "loss": 1.5179,
      "mean_token_accuracy": 0.6581759800513586,
      "num_tokens": 608498736.0,
      "step": 3620
    },
    {
      "entropy": 1.6751043697198231,
      "epoch": 0.397791876081404,
      "grad_norm": 0.652132511138916,
      "learning_rate": 1.8688218885347965e-05,
      "loss": 1.2893,
      "mean_token_accuracy": 0.6741900146007538,
      "num_tokens": 608661402.0,
      "step": 3621
    },
    {
      "entropy": 1.7041152914365132,
      "epoch": 0.3979017329927769,
      "grad_norm": 0.7432838082313538,
      "learning_rate": 1.868738638788491e-05,
      "loss": 1.4467,
      "mean_token_accuracy": 0.6503884643316269,
      "num_tokens": 608825180.0,
      "step": 3622
    },
    {
      "entropy": 1.737585683663686,
      "epoch": 0.39801158990414987,
      "grad_norm": 0.6796532869338989,
      "learning_rate": 1.868655364711953e-05,
      "loss": 1.4838,
      "mean_token_accuracy": 0.6391591926415762,
      "num_tokens": 609006138.0,
      "step": 3623
    },
    {
      "entropy": 1.7053319811820984,
      "epoch": 0.3981214468155228,
      "grad_norm": 0.7604497671127319,
      "learning_rate": 1.86857206630782e-05,
      "loss": 1.6561,
      "mean_token_accuracy": 0.6299934685230255,
      "num_tokens": 609212521.0,
      "step": 3624
    },
    {
      "entropy": 1.6852892835934956,
      "epoch": 0.3982313037268957,
      "grad_norm": 0.6800695061683655,
      "learning_rate": 1.868488743578727e-05,
      "loss": 1.2921,
      "mean_token_accuracy": 0.6707666118939718,
      "num_tokens": 609346073.0,
      "step": 3625
    },
    {
      "entropy": 1.667622039715449,
      "epoch": 0.39834116063826863,
      "grad_norm": 0.7599472403526306,
      "learning_rate": 1.8684053965273113e-05,
      "loss": 1.3797,
      "mean_token_accuracy": 0.6550516585508982,
      "num_tokens": 609528585.0,
      "step": 3626
    },
    {
      "entropy": 1.7041009267171223,
      "epoch": 0.3984510175496416,
      "grad_norm": 0.6519821882247925,
      "learning_rate": 1.8683220251562116e-05,
      "loss": 1.4673,
      "mean_token_accuracy": 0.649181400736173,
      "num_tokens": 609699624.0,
      "step": 3627
    },
    {
      "entropy": 1.7341491381327312,
      "epoch": 0.3985608744610145,
      "grad_norm": 0.6558710932731628,
      "learning_rate": 1.8682386294680656e-05,
      "loss": 1.4285,
      "mean_token_accuracy": 0.6576865861813227,
      "num_tokens": 609851288.0,
      "step": 3628
    },
    {
      "entropy": 1.6496534844239552,
      "epoch": 0.39867073137238745,
      "grad_norm": 0.7691988348960876,
      "learning_rate": 1.8681552094655132e-05,
      "loss": 1.4595,
      "mean_token_accuracy": 0.6498380750417709,
      "num_tokens": 610005266.0,
      "step": 3629
    },
    {
      "entropy": 1.7265863120555878,
      "epoch": 0.3987805882837604,
      "grad_norm": 0.683956503868103,
      "learning_rate": 1.8680717651511948e-05,
      "loss": 1.3603,
      "mean_token_accuracy": 0.6562889615694681,
      "num_tokens": 610131391.0,
      "step": 3630
    },
    {
      "entropy": 1.6970125834147136,
      "epoch": 0.39889044519513334,
      "grad_norm": 1.811918020248413,
      "learning_rate": 1.8679882965277508e-05,
      "loss": 1.1718,
      "mean_token_accuracy": 0.6783278286457062,
      "num_tokens": 610327332.0,
      "step": 3631
    },
    {
      "entropy": 1.7868920266628265,
      "epoch": 0.3990003021065063,
      "grad_norm": 0.8308510184288025,
      "learning_rate": 1.8679048035978236e-05,
      "loss": 1.4282,
      "mean_token_accuracy": 0.6506891945997874,
      "num_tokens": 610455251.0,
      "step": 3632
    },
    {
      "entropy": 1.6640632251898448,
      "epoch": 0.3991101590178792,
      "grad_norm": 0.6303699612617493,
      "learning_rate": 1.8678212863640552e-05,
      "loss": 1.4084,
      "mean_token_accuracy": 0.6633955190579096,
      "num_tokens": 610614206.0,
      "step": 3633
    },
    {
      "entropy": 1.6598373850186665,
      "epoch": 0.39922001592925216,
      "grad_norm": 0.5654789209365845,
      "learning_rate": 1.8677377448290892e-05,
      "loss": 1.2886,
      "mean_token_accuracy": 0.6726368019978205,
      "num_tokens": 610776600.0,
      "step": 3634
    },
    {
      "entropy": 1.771477371454239,
      "epoch": 0.3993298728406251,
      "grad_norm": 0.6862777471542358,
      "learning_rate": 1.8676541789955692e-05,
      "loss": 1.4854,
      "mean_token_accuracy": 0.6504343748092651,
      "num_tokens": 610950858.0,
      "step": 3635
    },
    {
      "entropy": 1.7534089088439941,
      "epoch": 0.39943972975199804,
      "grad_norm": 0.7172439098358154,
      "learning_rate": 1.867570588866141e-05,
      "loss": 1.5362,
      "mean_token_accuracy": 0.6323390305042267,
      "num_tokens": 611180246.0,
      "step": 3636
    },
    {
      "entropy": 1.6689714988072712,
      "epoch": 0.399549586663371,
      "grad_norm": 0.5847604870796204,
      "learning_rate": 1.867486974443449e-05,
      "loss": 1.394,
      "mean_token_accuracy": 0.6602125515540441,
      "num_tokens": 611354464.0,
      "step": 3637
    },
    {
      "entropy": 1.7680908838907878,
      "epoch": 0.3996594435747439,
      "grad_norm": 0.7248014807701111,
      "learning_rate": 1.8674033357301402e-05,
      "loss": 1.4446,
      "mean_token_accuracy": 0.6542030622561773,
      "num_tokens": 611522664.0,
      "step": 3638
    },
    {
      "entropy": 1.714485635360082,
      "epoch": 0.3997693004861168,
      "grad_norm": 0.6951132416725159,
      "learning_rate": 1.8673196727288616e-05,
      "loss": 1.2956,
      "mean_token_accuracy": 0.6643576820691427,
      "num_tokens": 611647329.0,
      "step": 3639
    },
    {
      "entropy": 1.6996821860472362,
      "epoch": 0.39987915739748975,
      "grad_norm": 0.7710621953010559,
      "learning_rate": 1.8672359854422614e-05,
      "loss": 1.4314,
      "mean_token_accuracy": 0.6488352914651235,
      "num_tokens": 611814510.0,
      "step": 3640
    },
    {
      "entropy": 1.680074393749237,
      "epoch": 0.3999890143088627,
      "grad_norm": 0.7552538514137268,
      "learning_rate": 1.867152273872988e-05,
      "loss": 1.3634,
      "mean_token_accuracy": 0.662238617738088,
      "num_tokens": 611955456.0,
      "step": 3641
    },
    {
      "entropy": 1.715712159872055,
      "epoch": 0.40009887122023563,
      "grad_norm": 0.612894594669342,
      "learning_rate": 1.86706853802369e-05,
      "loss": 1.387,
      "mean_token_accuracy": 0.6484750012556711,
      "num_tokens": 612145076.0,
      "step": 3642
    },
    {
      "entropy": 1.7193404138088226,
      "epoch": 0.40020872813160857,
      "grad_norm": 0.6383233070373535,
      "learning_rate": 1.866984777897019e-05,
      "loss": 1.3055,
      "mean_token_accuracy": 0.6797666301329931,
      "num_tokens": 612270224.0,
      "step": 3643
    },
    {
      "entropy": 1.6991442839304607,
      "epoch": 0.4003185850429815,
      "grad_norm": 0.6264839172363281,
      "learning_rate": 1.8669009934956256e-05,
      "loss": 1.376,
      "mean_token_accuracy": 0.6612722476323446,
      "num_tokens": 612439048.0,
      "step": 3644
    },
    {
      "entropy": 1.700903097788493,
      "epoch": 0.40042844195435445,
      "grad_norm": 0.7194094061851501,
      "learning_rate": 1.866817184822161e-05,
      "loss": 1.4956,
      "mean_token_accuracy": 0.6383681247631708,
      "num_tokens": 612610609.0,
      "step": 3645
    },
    {
      "entropy": 1.6729531685511272,
      "epoch": 0.4005382988657274,
      "grad_norm": 0.6744722127914429,
      "learning_rate": 1.8667333518792786e-05,
      "loss": 1.3917,
      "mean_token_accuracy": 0.674171636501948,
      "num_tokens": 612762506.0,
      "step": 3646
    },
    {
      "entropy": 1.7685239613056183,
      "epoch": 0.40064815577710033,
      "grad_norm": 0.7136297821998596,
      "learning_rate": 1.8666494946696306e-05,
      "loss": 1.5135,
      "mean_token_accuracy": 0.6325026253859202,
      "num_tokens": 612936758.0,
      "step": 3647
    },
    {
      "entropy": 1.702545295159022,
      "epoch": 0.4007580126884733,
      "grad_norm": 0.6659870147705078,
      "learning_rate": 1.8665656131958717e-05,
      "loss": 1.3334,
      "mean_token_accuracy": 0.6652649194002151,
      "num_tokens": 613057363.0,
      "step": 3648
    },
    {
      "entropy": 1.7028338809808095,
      "epoch": 0.4008678695998462,
      "grad_norm": 0.6186485290527344,
      "learning_rate": 1.8664817074606565e-05,
      "loss": 1.6413,
      "mean_token_accuracy": 0.6314787616332372,
      "num_tokens": 613307099.0,
      "step": 3649
    },
    {
      "entropy": 1.7399461170037587,
      "epoch": 0.40097772651121916,
      "grad_norm": 0.7118646502494812,
      "learning_rate": 1.8663977774666403e-05,
      "loss": 1.3848,
      "mean_token_accuracy": 0.6634780565897623,
      "num_tokens": 613478548.0,
      "step": 3650
    },
    {
      "entropy": 1.7087344527244568,
      "epoch": 0.4010875834225921,
      "grad_norm": 0.6944850087165833,
      "learning_rate": 1.8663138232164804e-05,
      "loss": 1.5035,
      "mean_token_accuracy": 0.6449535042047501,
      "num_tokens": 613651212.0,
      "step": 3651
    },
    {
      "entropy": 1.679858426253001,
      "epoch": 0.401197440333965,
      "grad_norm": 0.7054488062858582,
      "learning_rate": 1.866229844712833e-05,
      "loss": 1.3144,
      "mean_token_accuracy": 0.6721477111180624,
      "num_tokens": 613780246.0,
      "step": 3652
    },
    {
      "entropy": 1.715953419605891,
      "epoch": 0.4013072972453379,
      "grad_norm": 0.7255501747131348,
      "learning_rate": 1.8661458419583563e-05,
      "loss": 1.3845,
      "mean_token_accuracy": 0.6507025410731634,
      "num_tokens": 613943278.0,
      "step": 3653
    },
    {
      "entropy": 1.7305433750152588,
      "epoch": 0.40141715415671086,
      "grad_norm": 0.6626403331756592,
      "learning_rate": 1.866061814955709e-05,
      "loss": 1.5169,
      "mean_token_accuracy": 0.6476994504531225,
      "num_tokens": 614082100.0,
      "step": 3654
    },
    {
      "entropy": 1.7705755233764648,
      "epoch": 0.4015270110680838,
      "grad_norm": 0.8271293640136719,
      "learning_rate": 1.8659777637075503e-05,
      "loss": 1.6316,
      "mean_token_accuracy": 0.6363982160886129,
      "num_tokens": 614323862.0,
      "step": 3655
    },
    {
      "entropy": 1.7688746849695842,
      "epoch": 0.40163686797945675,
      "grad_norm": 0.6675280928611755,
      "learning_rate": 1.8658936882165408e-05,
      "loss": 1.4183,
      "mean_token_accuracy": 0.6585695048173269,
      "num_tokens": 614479973.0,
      "step": 3656
    },
    {
      "entropy": 1.6870961685975392,
      "epoch": 0.4017467248908297,
      "grad_norm": 0.7141885161399841,
      "learning_rate": 1.8658095884853412e-05,
      "loss": 1.369,
      "mean_token_accuracy": 0.6499126503864924,
      "num_tokens": 614624882.0,
      "step": 3657
    },
    {
      "entropy": 1.7352818648020427,
      "epoch": 0.40185658180220263,
      "grad_norm": 0.8047354221343994,
      "learning_rate": 1.865725464516613e-05,
      "loss": 1.3427,
      "mean_token_accuracy": 0.6598058293263117,
      "num_tokens": 614770100.0,
      "step": 3658
    },
    {
      "entropy": 1.702322781085968,
      "epoch": 0.40196643871357557,
      "grad_norm": 0.5614283680915833,
      "learning_rate": 1.865641316313019e-05,
      "loss": 1.3603,
      "mean_token_accuracy": 0.6561979601780573,
      "num_tokens": 614947375.0,
      "step": 3659
    },
    {
      "entropy": 1.68387637535731,
      "epoch": 0.4020762956249485,
      "grad_norm": 0.6392550468444824,
      "learning_rate": 1.865557143877222e-05,
      "loss": 1.3327,
      "mean_token_accuracy": 0.6635664403438568,
      "num_tokens": 615118931.0,
      "step": 3660
    },
    {
      "entropy": 1.8135263323783875,
      "epoch": 0.40218615253632145,
      "grad_norm": 0.586390495300293,
      "learning_rate": 1.8654729472118867e-05,
      "loss": 1.3753,
      "mean_token_accuracy": 0.6475066045920054,
      "num_tokens": 615330975.0,
      "step": 3661
    },
    {
      "entropy": 1.6571489373842876,
      "epoch": 0.4022960094476944,
      "grad_norm": 0.6854637861251831,
      "learning_rate": 1.8653887263196775e-05,
      "loss": 1.4143,
      "mean_token_accuracy": 0.6672212878863016,
      "num_tokens": 615511217.0,
      "step": 3662
    },
    {
      "entropy": 1.7072084446748097,
      "epoch": 0.40240586635906733,
      "grad_norm": 0.6002740859985352,
      "learning_rate": 1.86530448120326e-05,
      "loss": 1.3311,
      "mean_token_accuracy": 0.6561245868603388,
      "num_tokens": 615670287.0,
      "step": 3663
    },
    {
      "entropy": 1.709785560766856,
      "epoch": 0.4025157232704403,
      "grad_norm": 0.6385271549224854,
      "learning_rate": 1.8652202118653005e-05,
      "loss": 1.4953,
      "mean_token_accuracy": 0.6401058932145437,
      "num_tokens": 615857571.0,
      "step": 3664
    },
    {
      "entropy": 1.6435896158218384,
      "epoch": 0.4026255801818132,
      "grad_norm": 0.66823810338974,
      "learning_rate": 1.8651359183084664e-05,
      "loss": 1.3375,
      "mean_token_accuracy": 0.6652998874584833,
      "num_tokens": 616018039.0,
      "step": 3665
    },
    {
      "entropy": 1.6801452438036601,
      "epoch": 0.4027354370931861,
      "grad_norm": 0.5973647832870483,
      "learning_rate": 1.8650516005354245e-05,
      "loss": 1.44,
      "mean_token_accuracy": 0.6624323775370916,
      "num_tokens": 616182931.0,
      "step": 3666
    },
    {
      "entropy": 1.7209701438744862,
      "epoch": 0.40284529400455904,
      "grad_norm": 0.7251614332199097,
      "learning_rate": 1.864967258548845e-05,
      "loss": 1.3669,
      "mean_token_accuracy": 0.6691777855157852,
      "num_tokens": 616300469.0,
      "step": 3667
    },
    {
      "entropy": 1.7649596532185872,
      "epoch": 0.402955150915932,
      "grad_norm": 0.7085322737693787,
      "learning_rate": 1.864882892351396e-05,
      "loss": 1.4425,
      "mean_token_accuracy": 0.6525527884562811,
      "num_tokens": 616507234.0,
      "step": 3668
    },
    {
      "entropy": 1.7601352433363597,
      "epoch": 0.4030650078273049,
      "grad_norm": 0.8236812353134155,
      "learning_rate": 1.8647985019457482e-05,
      "loss": 1.3432,
      "mean_token_accuracy": 0.6626549661159515,
      "num_tokens": 616629147.0,
      "step": 3669
    },
    {
      "entropy": 1.6714808940887451,
      "epoch": 0.40317486473867786,
      "grad_norm": 0.7395771145820618,
      "learning_rate": 1.8647140873345727e-05,
      "loss": 1.3773,
      "mean_token_accuracy": 0.6534648189942042,
      "num_tokens": 616778411.0,
      "step": 3670
    },
    {
      "entropy": 1.6952777008215587,
      "epoch": 0.4032847216500508,
      "grad_norm": 0.6873879432678223,
      "learning_rate": 1.864629648520541e-05,
      "loss": 1.3186,
      "mean_token_accuracy": 0.66050224006176,
      "num_tokens": 616922969.0,
      "step": 3671
    },
    {
      "entropy": 1.6377867658933003,
      "epoch": 0.40339457856142374,
      "grad_norm": 0.6935714483261108,
      "learning_rate": 1.8645451855063252e-05,
      "loss": 1.3697,
      "mean_token_accuracy": 0.662156730890274,
      "num_tokens": 617068169.0,
      "step": 3672
    },
    {
      "entropy": 1.704243501027425,
      "epoch": 0.4035044354727967,
      "grad_norm": 1.5501242876052856,
      "learning_rate": 1.8644606982945988e-05,
      "loss": 1.2649,
      "mean_token_accuracy": 0.6755559096733729,
      "num_tokens": 617234636.0,
      "step": 3673
    },
    {
      "entropy": 1.7551777064800262,
      "epoch": 0.4036142923841696,
      "grad_norm": 0.7300415635108948,
      "learning_rate": 1.8643761868880356e-05,
      "loss": 1.531,
      "mean_token_accuracy": 0.6428199609120687,
      "num_tokens": 617415408.0,
      "step": 3674
    },
    {
      "entropy": 1.7334574957688649,
      "epoch": 0.40372414929554257,
      "grad_norm": 0.6666220426559448,
      "learning_rate": 1.8642916512893108e-05,
      "loss": 1.4268,
      "mean_token_accuracy": 0.6364853282769521,
      "num_tokens": 617605330.0,
      "step": 3675
    },
    {
      "entropy": 1.766120086113612,
      "epoch": 0.4038340062069155,
      "grad_norm": 0.8933466076850891,
      "learning_rate": 1.8642070915010994e-05,
      "loss": 1.5728,
      "mean_token_accuracy": 0.6363476316134135,
      "num_tokens": 617780089.0,
      "step": 3676
    },
    {
      "entropy": 1.730029950539271,
      "epoch": 0.40394386311828845,
      "grad_norm": 0.7603272795677185,
      "learning_rate": 1.8641225075260784e-05,
      "loss": 1.3936,
      "mean_token_accuracy": 0.6469805290301641,
      "num_tokens": 617927420.0,
      "step": 3677
    },
    {
      "entropy": 1.689517339070638,
      "epoch": 0.4040537200296614,
      "grad_norm": 0.6826215386390686,
      "learning_rate": 1.864037899366924e-05,
      "loss": 1.4607,
      "mean_token_accuracy": 0.6500324904918671,
      "num_tokens": 618092883.0,
      "step": 3678
    },
    {
      "entropy": 1.663270503282547,
      "epoch": 0.40416357694103433,
      "grad_norm": 0.7083759307861328,
      "learning_rate": 1.8639532670263142e-05,
      "loss": 1.3416,
      "mean_token_accuracy": 0.663003941377004,
      "num_tokens": 618253174.0,
      "step": 3679
    },
    {
      "entropy": 1.6893990735212963,
      "epoch": 0.4042734338524072,
      "grad_norm": 0.6897298693656921,
      "learning_rate": 1.863868610506928e-05,
      "loss": 1.3883,
      "mean_token_accuracy": 0.6646070778369904,
      "num_tokens": 618398292.0,
      "step": 3680
    },
    {
      "entropy": 1.7317078014214833,
      "epoch": 0.40438329076378016,
      "grad_norm": 0.7244861721992493,
      "learning_rate": 1.8637839298114445e-05,
      "loss": 1.3297,
      "mean_token_accuracy": 0.6592196226119995,
      "num_tokens": 618534629.0,
      "step": 3681
    },
    {
      "entropy": 1.7509274383385975,
      "epoch": 0.4044931476751531,
      "grad_norm": 0.7792545557022095,
      "learning_rate": 1.8636992249425436e-05,
      "loss": 1.2519,
      "mean_token_accuracy": 0.6701816469430923,
      "num_tokens": 618627524.0,
      "step": 3682
    },
    {
      "entropy": 1.659875859816869,
      "epoch": 0.40460300458652604,
      "grad_norm": 0.7609748244285583,
      "learning_rate": 1.8636144959029063e-05,
      "loss": 1.4746,
      "mean_token_accuracy": 0.6501151074965795,
      "num_tokens": 618774107.0,
      "step": 3683
    },
    {
      "entropy": 1.7485106388727825,
      "epoch": 0.404712861497899,
      "grad_norm": 0.8140855431556702,
      "learning_rate": 1.8635297426952147e-05,
      "loss": 1.4954,
      "mean_token_accuracy": 0.6546749224265417,
      "num_tokens": 618906293.0,
      "step": 3684
    },
    {
      "entropy": 1.6669574677944183,
      "epoch": 0.4048227184092719,
      "grad_norm": 0.6584160923957825,
      "learning_rate": 1.8634449653221505e-05,
      "loss": 1.3567,
      "mean_token_accuracy": 0.6570019920667013,
      "num_tokens": 619075570.0,
      "step": 3685
    },
    {
      "entropy": 1.6605021357536316,
      "epoch": 0.40493257532064486,
      "grad_norm": 0.5621921420097351,
      "learning_rate": 1.863360163786397e-05,
      "loss": 1.4514,
      "mean_token_accuracy": 0.6414414793252945,
      "num_tokens": 619360684.0,
      "step": 3686
    },
    {
      "entropy": 1.6636900802453358,
      "epoch": 0.4050424322320178,
      "grad_norm": 0.6727263331413269,
      "learning_rate": 1.8632753380906387e-05,
      "loss": 1.3516,
      "mean_token_accuracy": 0.6557752440373102,
      "num_tokens": 619555666.0,
      "step": 3687
    },
    {
      "entropy": 1.7114156087239583,
      "epoch": 0.40515228914339074,
      "grad_norm": 0.6485511064529419,
      "learning_rate": 1.8631904882375595e-05,
      "loss": 1.5021,
      "mean_token_accuracy": 0.6425280173619589,
      "num_tokens": 619733822.0,
      "step": 3688
    },
    {
      "entropy": 1.6890954673290253,
      "epoch": 0.4052621460547637,
      "grad_norm": 0.6665855646133423,
      "learning_rate": 1.8631056142298457e-05,
      "loss": 1.3798,
      "mean_token_accuracy": 0.6521730422973633,
      "num_tokens": 619927481.0,
      "step": 3689
    },
    {
      "entropy": 1.6435322761535645,
      "epoch": 0.4053720029661366,
      "grad_norm": 0.6213128566741943,
      "learning_rate": 1.8630207160701827e-05,
      "loss": 1.3392,
      "mean_token_accuracy": 0.6614899933338165,
      "num_tokens": 620096992.0,
      "step": 3690
    },
    {
      "entropy": 1.7578924596309662,
      "epoch": 0.40548185987750957,
      "grad_norm": 0.7708293795585632,
      "learning_rate": 1.862935793761258e-05,
      "loss": 1.1762,
      "mean_token_accuracy": 0.6814229289690653,
      "num_tokens": 620243412.0,
      "step": 3691
    },
    {
      "entropy": 1.7739320397377014,
      "epoch": 0.4055917167888825,
      "grad_norm": 0.8655069470405579,
      "learning_rate": 1.8628508473057592e-05,
      "loss": 1.5393,
      "mean_token_accuracy": 0.648578479886055,
      "num_tokens": 620390926.0,
      "step": 3692
    },
    {
      "entropy": 1.70758917927742,
      "epoch": 0.4057015737002554,
      "grad_norm": 1.9093140363693237,
      "learning_rate": 1.862765876706375e-05,
      "loss": 1.098,
      "mean_token_accuracy": 0.6809806078672409,
      "num_tokens": 620557421.0,
      "step": 3693
    },
    {
      "entropy": 1.6794420282046,
      "epoch": 0.40581143061162833,
      "grad_norm": 0.679584801197052,
      "learning_rate": 1.862680881965794e-05,
      "loss": 1.3353,
      "mean_token_accuracy": 0.6540734767913818,
      "num_tokens": 620718410.0,
      "step": 3694
    },
    {
      "entropy": 1.73444531361262,
      "epoch": 0.4059212875230013,
      "grad_norm": 0.6241161227226257,
      "learning_rate": 1.8625958630867072e-05,
      "loss": 1.3099,
      "mean_token_accuracy": 0.6632533123095831,
      "num_tokens": 620863809.0,
      "step": 3695
    },
    {
      "entropy": 1.7056554555892944,
      "epoch": 0.4060311444343742,
      "grad_norm": 0.7893586158752441,
      "learning_rate": 1.862510820071805e-05,
      "loss": 1.3113,
      "mean_token_accuracy": 0.6655853390693665,
      "num_tokens": 620989409.0,
      "step": 3696
    },
    {
      "entropy": 1.6801581581433613,
      "epoch": 0.40614100134574715,
      "grad_norm": 0.7889465689659119,
      "learning_rate": 1.862425752923779e-05,
      "loss": 1.4217,
      "mean_token_accuracy": 0.6615896672010422,
      "num_tokens": 621155720.0,
      "step": 3697
    },
    {
      "entropy": 1.7147592107454936,
      "epoch": 0.4062508582571201,
      "grad_norm": 0.7899035215377808,
      "learning_rate": 1.8623406616453213e-05,
      "loss": 1.271,
      "mean_token_accuracy": 0.6728020161390305,
      "num_tokens": 621271342.0,
      "step": 3698
    },
    {
      "entropy": 1.707566757996877,
      "epoch": 0.40636071516849304,
      "grad_norm": 0.7400942444801331,
      "learning_rate": 1.862255546239125e-05,
      "loss": 1.2851,
      "mean_token_accuracy": 0.6638195067644119,
      "num_tokens": 621403853.0,
      "step": 3699
    },
    {
      "entropy": 1.7490671475728352,
      "epoch": 0.406470572079866,
      "grad_norm": 0.6932427287101746,
      "learning_rate": 1.8621704067078842e-05,
      "loss": 1.3392,
      "mean_token_accuracy": 0.6685472031434377,
      "num_tokens": 621515651.0,
      "step": 3700
    },
    {
      "entropy": 1.7084580659866333,
      "epoch": 0.4065804289912389,
      "grad_norm": 0.6444189548492432,
      "learning_rate": 1.8620852430542936e-05,
      "loss": 1.3692,
      "mean_token_accuracy": 0.6660451342662176,
      "num_tokens": 621678160.0,
      "step": 3701
    },
    {
      "entropy": 1.734459678332011,
      "epoch": 0.40669028590261186,
      "grad_norm": 0.7342776656150818,
      "learning_rate": 1.8620000552810488e-05,
      "loss": 1.3653,
      "mean_token_accuracy": 0.6498020191987356,
      "num_tokens": 621814935.0,
      "step": 3702
    },
    {
      "entropy": 1.642607440551122,
      "epoch": 0.4068001428139848,
      "grad_norm": 0.6483259201049805,
      "learning_rate": 1.861914843390845e-05,
      "loss": 1.3316,
      "mean_token_accuracy": 0.6714847981929779,
      "num_tokens": 621967804.0,
      "step": 3703
    },
    {
      "entropy": 1.7405053277810414,
      "epoch": 0.40690999972535774,
      "grad_norm": 0.6480836868286133,
      "learning_rate": 1.86182960738638e-05,
      "loss": 1.459,
      "mean_token_accuracy": 0.6403814305861791,
      "num_tokens": 622156492.0,
      "step": 3704
    },
    {
      "entropy": 1.6267158389091492,
      "epoch": 0.4070198566367307,
      "grad_norm": 0.7061080932617188,
      "learning_rate": 1.8617443472703514e-05,
      "loss": 1.2146,
      "mean_token_accuracy": 0.684728279709816,
      "num_tokens": 622266394.0,
      "step": 3705
    },
    {
      "entropy": 1.7066716353098552,
      "epoch": 0.4071297135481036,
      "grad_norm": 0.8183558583259583,
      "learning_rate": 1.861659063045457e-05,
      "loss": 1.4803,
      "mean_token_accuracy": 0.6585542360941569,
      "num_tokens": 622446280.0,
      "step": 3706
    },
    {
      "entropy": 1.7405121624469757,
      "epoch": 0.4072395704594765,
      "grad_norm": 0.7175570726394653,
      "learning_rate": 1.8615737547143968e-05,
      "loss": 1.5347,
      "mean_token_accuracy": 0.6411835898955663,
      "num_tokens": 622610924.0,
      "step": 3707
    },
    {
      "entropy": 1.7092544833819072,
      "epoch": 0.40734942737084945,
      "grad_norm": 0.9672302007675171,
      "learning_rate": 1.8614884222798705e-05,
      "loss": 1.4165,
      "mean_token_accuracy": 0.6539698441823324,
      "num_tokens": 622775599.0,
      "step": 3708
    },
    {
      "entropy": 1.7085430522759755,
      "epoch": 0.4074592842822224,
      "grad_norm": 0.6571292281150818,
      "learning_rate": 1.8614030657445785e-05,
      "loss": 1.4122,
      "mean_token_accuracy": 0.6727810104688009,
      "num_tokens": 622962845.0,
      "step": 3709
    },
    {
      "entropy": 1.7726508279641469,
      "epoch": 0.40756914119359533,
      "grad_norm": 0.6792343854904175,
      "learning_rate": 1.861317685111223e-05,
      "loss": 1.5236,
      "mean_token_accuracy": 0.6427791565656662,
      "num_tokens": 623157911.0,
      "step": 3710
    },
    {
      "entropy": 1.7251368661721547,
      "epoch": 0.40767899810496827,
      "grad_norm": 0.7350800037384033,
      "learning_rate": 1.8612322803825053e-05,
      "loss": 1.2582,
      "mean_token_accuracy": 0.678009644150734,
      "num_tokens": 623285497.0,
      "step": 3711
    },
    {
      "entropy": 1.6766076783339183,
      "epoch": 0.4077888550163412,
      "grad_norm": 0.6149843335151672,
      "learning_rate": 1.861146851561129e-05,
      "loss": 1.51,
      "mean_token_accuracy": 0.6478391562898954,
      "num_tokens": 623448272.0,
      "step": 3712
    },
    {
      "entropy": 1.6991031368573506,
      "epoch": 0.40789871192771415,
      "grad_norm": 0.6349066495895386,
      "learning_rate": 1.861061398649798e-05,
      "loss": 1.2536,
      "mean_token_accuracy": 0.6752463430166245,
      "num_tokens": 623590450.0,
      "step": 3713
    },
    {
      "entropy": 1.7172236144542694,
      "epoch": 0.4080085688390871,
      "grad_norm": 0.6747751832008362,
      "learning_rate": 1.860975921651217e-05,
      "loss": 1.5217,
      "mean_token_accuracy": 0.6311314900716146,
      "num_tokens": 623802101.0,
      "step": 3714
    },
    {
      "entropy": 1.7139861385027568,
      "epoch": 0.40811842575046003,
      "grad_norm": 0.6247215270996094,
      "learning_rate": 1.8608904205680906e-05,
      "loss": 1.4003,
      "mean_token_accuracy": 0.6497706820567449,
      "num_tokens": 623950911.0,
      "step": 3715
    },
    {
      "entropy": 1.749284307161967,
      "epoch": 0.408228282661833,
      "grad_norm": 0.5963855981826782,
      "learning_rate": 1.8608048954031254e-05,
      "loss": 1.4282,
      "mean_token_accuracy": 0.6429949502150217,
      "num_tokens": 624154271.0,
      "step": 3716
    },
    {
      "entropy": 1.7446833749612172,
      "epoch": 0.4083381395732059,
      "grad_norm": 0.6486496925354004,
      "learning_rate": 1.8607193461590277e-05,
      "loss": 1.3916,
      "mean_token_accuracy": 0.6541141470273336,
      "num_tokens": 624326903.0,
      "step": 3717
    },
    {
      "entropy": 1.6626928846041362,
      "epoch": 0.40844799648457886,
      "grad_norm": 0.7017315030097961,
      "learning_rate": 1.860633772838506e-05,
      "loss": 1.3665,
      "mean_token_accuracy": 0.6529461542765299,
      "num_tokens": 624533835.0,
      "step": 3718
    },
    {
      "entropy": 1.6866288880507152,
      "epoch": 0.4085578533959518,
      "grad_norm": 0.7589619159698486,
      "learning_rate": 1.860548175444268e-05,
      "loss": 1.3975,
      "mean_token_accuracy": 0.6569940547148386,
      "num_tokens": 624695576.0,
      "step": 3719
    },
    {
      "entropy": 1.7539471586545308,
      "epoch": 0.4086677103073247,
      "grad_norm": 0.7970021963119507,
      "learning_rate": 1.8604625539790228e-05,
      "loss": 1.6079,
      "mean_token_accuracy": 0.640375425418218,
      "num_tokens": 624842347.0,
      "step": 3720
    },
    {
      "entropy": 1.6378857394059498,
      "epoch": 0.4087775672186976,
      "grad_norm": 0.7092182040214539,
      "learning_rate": 1.8603769084454804e-05,
      "loss": 1.4028,
      "mean_token_accuracy": 0.6625880300998688,
      "num_tokens": 625027646.0,
      "step": 3721
    },
    {
      "entropy": 1.618373692035675,
      "epoch": 0.40888742413007056,
      "grad_norm": 0.6855277419090271,
      "learning_rate": 1.8602912388463517e-05,
      "loss": 1.4195,
      "mean_token_accuracy": 0.6505888452132543,
      "num_tokens": 625206719.0,
      "step": 3722
    },
    {
      "entropy": 1.674377828836441,
      "epoch": 0.4089972810414435,
      "grad_norm": 0.6490065455436707,
      "learning_rate": 1.8602055451843478e-05,
      "loss": 1.2185,
      "mean_token_accuracy": 0.6873969038327535,
      "num_tokens": 625327376.0,
      "step": 3723
    },
    {
      "entropy": 1.664337585369746,
      "epoch": 0.40910713795281645,
      "grad_norm": 0.7654528021812439,
      "learning_rate": 1.860119827462181e-05,
      "loss": 1.4033,
      "mean_token_accuracy": 0.6536544114351273,
      "num_tokens": 625505992.0,
      "step": 3724
    },
    {
      "entropy": 1.7024443646272023,
      "epoch": 0.4092169948641894,
      "grad_norm": 0.6893821954727173,
      "learning_rate": 1.860034085682564e-05,
      "loss": 1.437,
      "mean_token_accuracy": 0.6580548087755839,
      "num_tokens": 625700752.0,
      "step": 3725
    },
    {
      "entropy": 1.6648207604885101,
      "epoch": 0.40932685177556233,
      "grad_norm": 0.7746477723121643,
      "learning_rate": 1.859948319848211e-05,
      "loss": 1.1891,
      "mean_token_accuracy": 0.6822925706704458,
      "num_tokens": 625814896.0,
      "step": 3726
    },
    {
      "entropy": 1.7079435586929321,
      "epoch": 0.40943670868693527,
      "grad_norm": 0.6155371069908142,
      "learning_rate": 1.859862529961836e-05,
      "loss": 1.3543,
      "mean_token_accuracy": 0.668289711078008,
      "num_tokens": 625962535.0,
      "step": 3727
    },
    {
      "entropy": 1.7189550697803497,
      "epoch": 0.4095465655983082,
      "grad_norm": 0.7430447936058044,
      "learning_rate": 1.859776716026154e-05,
      "loss": 1.3355,
      "mean_token_accuracy": 0.6572021146615347,
      "num_tokens": 626096526.0,
      "step": 3728
    },
    {
      "entropy": 1.6810458799203236,
      "epoch": 0.40965642250968115,
      "grad_norm": 1.085142731666565,
      "learning_rate": 1.8596908780438814e-05,
      "loss": 1.0983,
      "mean_token_accuracy": 0.6744260291258494,
      "num_tokens": 626249920.0,
      "step": 3729
    },
    {
      "entropy": 1.7445210615793865,
      "epoch": 0.4097662794210541,
      "grad_norm": 0.7419488430023193,
      "learning_rate": 1.8596050160177352e-05,
      "loss": 1.3508,
      "mean_token_accuracy": 0.66064981619517,
      "num_tokens": 626378039.0,
      "step": 3730
    },
    {
      "entropy": 1.760192632675171,
      "epoch": 0.40987613633242703,
      "grad_norm": 0.6193534135818481,
      "learning_rate": 1.859519129950432e-05,
      "loss": 1.3936,
      "mean_token_accuracy": 0.6515404631694158,
      "num_tokens": 626544591.0,
      "step": 3731
    },
    {
      "entropy": 1.7204260925451915,
      "epoch": 0.4099859932438,
      "grad_norm": 1.0320173501968384,
      "learning_rate": 1.859433219844691e-05,
      "loss": 1.5482,
      "mean_token_accuracy": 0.6566920280456543,
      "num_tokens": 626683443.0,
      "step": 3732
    },
    {
      "entropy": 1.7170347174008687,
      "epoch": 0.4100958501551729,
      "grad_norm": 0.747575044631958,
      "learning_rate": 1.8593472857032308e-05,
      "loss": 1.4343,
      "mean_token_accuracy": 0.6497025390466055,
      "num_tokens": 626814527.0,
      "step": 3733
    },
    {
      "entropy": 1.6637854278087616,
      "epoch": 0.4102057070665458,
      "grad_norm": 0.6838406324386597,
      "learning_rate": 1.859261327528771e-05,
      "loss": 1.3744,
      "mean_token_accuracy": 0.6690096110105515,
      "num_tokens": 626996166.0,
      "step": 3734
    },
    {
      "entropy": 1.6826592286427815,
      "epoch": 0.41031556397791874,
      "grad_norm": 0.6222158670425415,
      "learning_rate": 1.8591753453240325e-05,
      "loss": 1.4596,
      "mean_token_accuracy": 0.6647855440775553,
      "num_tokens": 627196669.0,
      "step": 3735
    },
    {
      "entropy": 1.678474356730779,
      "epoch": 0.4104254208892917,
      "grad_norm": 0.6561827659606934,
      "learning_rate": 1.8590893390917363e-05,
      "loss": 1.3236,
      "mean_token_accuracy": 0.6612599492073059,
      "num_tokens": 627341643.0,
      "step": 3736
    },
    {
      "entropy": 1.6994609435399373,
      "epoch": 0.4105352778006646,
      "grad_norm": 0.6723978519439697,
      "learning_rate": 1.8590033088346045e-05,
      "loss": 1.4024,
      "mean_token_accuracy": 0.6625661303599676,
      "num_tokens": 627504221.0,
      "step": 3737
    },
    {
      "entropy": 1.7354566156864166,
      "epoch": 0.41064513471203756,
      "grad_norm": 0.6468124985694885,
      "learning_rate": 1.85891725455536e-05,
      "loss": 1.3671,
      "mean_token_accuracy": 0.6559626658757528,
      "num_tokens": 627629476.0,
      "step": 3738
    },
    {
      "entropy": 1.7572604417800903,
      "epoch": 0.4107549916234105,
      "grad_norm": 0.6548281908035278,
      "learning_rate": 1.8588311762567265e-05,
      "loss": 1.4999,
      "mean_token_accuracy": 0.649440790216128,
      "num_tokens": 627838130.0,
      "step": 3739
    },
    {
      "entropy": 1.6867552896340687,
      "epoch": 0.41086484853478344,
      "grad_norm": 0.6936057806015015,
      "learning_rate": 1.8587450739414282e-05,
      "loss": 1.3552,
      "mean_token_accuracy": 0.6642784823973974,
      "num_tokens": 628019384.0,
      "step": 3740
    },
    {
      "entropy": 1.7941297590732574,
      "epoch": 0.4109747054461564,
      "grad_norm": 0.6662188768386841,
      "learning_rate": 1.85865894761219e-05,
      "loss": 1.4409,
      "mean_token_accuracy": 0.6453611056009928,
      "num_tokens": 628160091.0,
      "step": 3741
    },
    {
      "entropy": 1.677331139643987,
      "epoch": 0.4110845623575293,
      "grad_norm": 0.7274539470672607,
      "learning_rate": 1.858572797271738e-05,
      "loss": 1.2365,
      "mean_token_accuracy": 0.6719293495019277,
      "num_tokens": 628273375.0,
      "step": 3742
    },
    {
      "entropy": 1.7725926240285237,
      "epoch": 0.41119441926890227,
      "grad_norm": 0.7785374522209167,
      "learning_rate": 1.8584866229227992e-05,
      "loss": 1.2674,
      "mean_token_accuracy": 0.6794732809066772,
      "num_tokens": 628386434.0,
      "step": 3743
    },
    {
      "entropy": 1.7157474358876545,
      "epoch": 0.4113042761802752,
      "grad_norm": 0.6738847494125366,
      "learning_rate": 1.8584004245681e-05,
      "loss": 1.3154,
      "mean_token_accuracy": 0.6582375268141428,
      "num_tokens": 628503456.0,
      "step": 3744
    },
    {
      "entropy": 1.6891884605089824,
      "epoch": 0.41141413309164815,
      "grad_norm": 0.706418514251709,
      "learning_rate": 1.8583142022103694e-05,
      "loss": 1.5105,
      "mean_token_accuracy": 0.6367523421843847,
      "num_tokens": 628722141.0,
      "step": 3745
    },
    {
      "entropy": 1.771670550107956,
      "epoch": 0.4115239900030211,
      "grad_norm": 0.8060712814331055,
      "learning_rate": 1.858227955852336e-05,
      "loss": 1.3965,
      "mean_token_accuracy": 0.6502161224683126,
      "num_tokens": 628870665.0,
      "step": 3746
    },
    {
      "entropy": 1.6912760337193806,
      "epoch": 0.411633846914394,
      "grad_norm": 0.6966044902801514,
      "learning_rate": 1.8581416854967293e-05,
      "loss": 1.4553,
      "mean_token_accuracy": 0.6377379248539606,
      "num_tokens": 629086050.0,
      "step": 3747
    },
    {
      "entropy": 1.7380321621894836,
      "epoch": 0.4117437038257669,
      "grad_norm": 0.6073872447013855,
      "learning_rate": 1.85805539114628e-05,
      "loss": 1.4282,
      "mean_token_accuracy": 0.6448562443256378,
      "num_tokens": 629258009.0,
      "step": 3748
    },
    {
      "entropy": 1.6827170252799988,
      "epoch": 0.41185356073713986,
      "grad_norm": 0.6829259395599365,
      "learning_rate": 1.8579690728037195e-05,
      "loss": 1.3912,
      "mean_token_accuracy": 0.6493991017341614,
      "num_tokens": 629397477.0,
      "step": 3749
    },
    {
      "entropy": 1.72429492076238,
      "epoch": 0.4119634176485128,
      "grad_norm": 0.6729731559753418,
      "learning_rate": 1.857882730471779e-05,
      "loss": 1.3648,
      "mean_token_accuracy": 0.6580958614746729,
      "num_tokens": 629596068.0,
      "step": 3750
    },
    {
      "entropy": 1.7216622432072957,
      "epoch": 0.41207327455988574,
      "grad_norm": 0.7398632764816284,
      "learning_rate": 1.8577963641531915e-05,
      "loss": 1.2278,
      "mean_token_accuracy": 0.6858376761277517,
      "num_tokens": 629741637.0,
      "step": 3751
    },
    {
      "entropy": 1.7678700387477875,
      "epoch": 0.4121831314712587,
      "grad_norm": 1.0076205730438232,
      "learning_rate": 1.857709973850691e-05,
      "loss": 1.4064,
      "mean_token_accuracy": 0.6636515309413274,
      "num_tokens": 629853316.0,
      "step": 3752
    },
    {
      "entropy": 1.7365649839242299,
      "epoch": 0.4122929883826316,
      "grad_norm": 0.673788845539093,
      "learning_rate": 1.8576235595670105e-05,
      "loss": 1.2618,
      "mean_token_accuracy": 0.6891842633485794,
      "num_tokens": 629972831.0,
      "step": 3753
    },
    {
      "entropy": 1.7559735278288524,
      "epoch": 0.41240284529400456,
      "grad_norm": 0.9235732555389404,
      "learning_rate": 1.8575371213048867e-05,
      "loss": 1.4149,
      "mean_token_accuracy": 0.6592928121487299,
      "num_tokens": 630109076.0,
      "step": 3754
    },
    {
      "entropy": 1.7470454176266987,
      "epoch": 0.4125127022053775,
      "grad_norm": 0.6771215796470642,
      "learning_rate": 1.8574506590670534e-05,
      "loss": 1.4049,
      "mean_token_accuracy": 0.6512129505475363,
      "num_tokens": 630262653.0,
      "step": 3755
    },
    {
      "entropy": 1.6346890528996785,
      "epoch": 0.41262255911675044,
      "grad_norm": 0.6646851897239685,
      "learning_rate": 1.8573641728562488e-05,
      "loss": 1.5104,
      "mean_token_accuracy": 0.64119320611159,
      "num_tokens": 630444943.0,
      "step": 3756
    },
    {
      "entropy": 1.7178200781345367,
      "epoch": 0.4127324160281234,
      "grad_norm": 0.6681410670280457,
      "learning_rate": 1.8572776626752092e-05,
      "loss": 1.3195,
      "mean_token_accuracy": 0.6758150657018026,
      "num_tokens": 630608705.0,
      "step": 3757
    },
    {
      "entropy": 1.7018628120422363,
      "epoch": 0.4128422729394963,
      "grad_norm": 0.8846207857131958,
      "learning_rate": 1.857191128526673e-05,
      "loss": 1.5712,
      "mean_token_accuracy": 0.6433374732732773,
      "num_tokens": 630828140.0,
      "step": 3758
    },
    {
      "entropy": 1.7014219065507252,
      "epoch": 0.41295212985086927,
      "grad_norm": 0.6484429836273193,
      "learning_rate": 1.857104570413378e-05,
      "loss": 1.342,
      "mean_token_accuracy": 0.692674994468689,
      "num_tokens": 630979788.0,
      "step": 3759
    },
    {
      "entropy": 1.6751723786195118,
      "epoch": 0.4130619867622422,
      "grad_norm": 0.6921824812889099,
      "learning_rate": 1.8570179883380652e-05,
      "loss": 1.4416,
      "mean_token_accuracy": 0.6488529096047083,
      "num_tokens": 631180442.0,
      "step": 3760
    },
    {
      "entropy": 1.680382361014684,
      "epoch": 0.4131718436736151,
      "grad_norm": 0.7185025215148926,
      "learning_rate": 1.8569313823034743e-05,
      "loss": 1.4073,
      "mean_token_accuracy": 0.6465843468904495,
      "num_tokens": 631387922.0,
      "step": 3761
    },
    {
      "entropy": 1.6748826801776886,
      "epoch": 0.41328170058498803,
      "grad_norm": 0.592786967754364,
      "learning_rate": 1.8568447523123457e-05,
      "loss": 1.5418,
      "mean_token_accuracy": 0.6322498073180517,
      "num_tokens": 631598046.0,
      "step": 3762
    },
    {
      "entropy": 1.7133816381295521,
      "epoch": 0.413391557496361,
      "grad_norm": 0.7715355157852173,
      "learning_rate": 1.856758098367422e-05,
      "loss": 1.2644,
      "mean_token_accuracy": 0.6847187926371893,
      "num_tokens": 631744350.0,
      "step": 3763
    },
    {
      "entropy": 1.7190758188565571,
      "epoch": 0.4135014144077339,
      "grad_norm": 0.7023261189460754,
      "learning_rate": 1.8566714204714454e-05,
      "loss": 1.3741,
      "mean_token_accuracy": 0.6586879988511404,
      "num_tokens": 631894493.0,
      "step": 3764
    },
    {
      "entropy": 1.7163704931735992,
      "epoch": 0.41361127131910685,
      "grad_norm": 0.8502719402313232,
      "learning_rate": 1.8565847186271594e-05,
      "loss": 1.5034,
      "mean_token_accuracy": 0.6552699059247971,
      "num_tokens": 632056905.0,
      "step": 3765
    },
    {
      "entropy": 1.679179718097051,
      "epoch": 0.4137211282304798,
      "grad_norm": 0.7581773400306702,
      "learning_rate": 1.8564979928373083e-05,
      "loss": 1.2715,
      "mean_token_accuracy": 0.6689160714546839,
      "num_tokens": 632218501.0,
      "step": 3766
    },
    {
      "entropy": 1.6978221833705902,
      "epoch": 0.41383098514185274,
      "grad_norm": 0.7345089316368103,
      "learning_rate": 1.856411243104636e-05,
      "loss": 1.345,
      "mean_token_accuracy": 0.6770609468221664,
      "num_tokens": 632370942.0,
      "step": 3767
    },
    {
      "entropy": 1.727396120627721,
      "epoch": 0.4139408420532257,
      "grad_norm": 0.6835429072380066,
      "learning_rate": 1.856324469431889e-05,
      "loss": 1.2722,
      "mean_token_accuracy": 0.6730792969465256,
      "num_tokens": 632518943.0,
      "step": 3768
    },
    {
      "entropy": 1.7132271230220795,
      "epoch": 0.4140506989645986,
      "grad_norm": 0.7705096006393433,
      "learning_rate": 1.8562376718218133e-05,
      "loss": 1.3787,
      "mean_token_accuracy": 0.6688175052404404,
      "num_tokens": 632642148.0,
      "step": 3769
    },
    {
      "entropy": 1.6458029548327129,
      "epoch": 0.41416055587597156,
      "grad_norm": 0.5635362267494202,
      "learning_rate": 1.856150850277156e-05,
      "loss": 1.4653,
      "mean_token_accuracy": 0.6459923932949702,
      "num_tokens": 632871437.0,
      "step": 3770
    },
    {
      "entropy": 1.7273524105548859,
      "epoch": 0.4142704127873445,
      "grad_norm": 0.7517685890197754,
      "learning_rate": 1.8560640048006652e-05,
      "loss": 1.347,
      "mean_token_accuracy": 0.6664700706799825,
      "num_tokens": 633005488.0,
      "step": 3771
    },
    {
      "entropy": 1.6999563177426655,
      "epoch": 0.41438026969871744,
      "grad_norm": 0.6293025016784668,
      "learning_rate": 1.8559771353950893e-05,
      "loss": 1.385,
      "mean_token_accuracy": 0.6580439954996109,
      "num_tokens": 633211034.0,
      "step": 3772
    },
    {
      "entropy": 1.737761527299881,
      "epoch": 0.4144901266100904,
      "grad_norm": 0.7360339164733887,
      "learning_rate": 1.8558902420631776e-05,
      "loss": 1.4929,
      "mean_token_accuracy": 0.6542394310235977,
      "num_tokens": 633363034.0,
      "step": 3773
    },
    {
      "entropy": 1.7658338248729706,
      "epoch": 0.41459998352146327,
      "grad_norm": 0.6309468150138855,
      "learning_rate": 1.85580332480768e-05,
      "loss": 1.3943,
      "mean_token_accuracy": 0.6525468230247498,
      "num_tokens": 633528700.0,
      "step": 3774
    },
    {
      "entropy": 1.677381157875061,
      "epoch": 0.4147098404328362,
      "grad_norm": 0.8243128657341003,
      "learning_rate": 1.8557163836313486e-05,
      "loss": 1.4033,
      "mean_token_accuracy": 0.660991777976354,
      "num_tokens": 633681640.0,
      "step": 3775
    },
    {
      "entropy": 1.7099827925364177,
      "epoch": 0.41481969734420915,
      "grad_norm": 0.5814919471740723,
      "learning_rate": 1.8556294185369336e-05,
      "loss": 1.3706,
      "mean_token_accuracy": 0.6490457753340403,
      "num_tokens": 633876385.0,
      "step": 3776
    },
    {
      "entropy": 1.7081574300924938,
      "epoch": 0.4149295542555821,
      "grad_norm": 0.7149261236190796,
      "learning_rate": 1.855542429527188e-05,
      "loss": 1.3391,
      "mean_token_accuracy": 0.6678998519976934,
      "num_tokens": 634025843.0,
      "step": 3777
    },
    {
      "entropy": 1.743098219235738,
      "epoch": 0.41503941116695503,
      "grad_norm": 0.6656703352928162,
      "learning_rate": 1.8554554166048654e-05,
      "loss": 1.4263,
      "mean_token_accuracy": 0.6521339118480682,
      "num_tokens": 634164379.0,
      "step": 3778
    },
    {
      "entropy": 1.7285428146521251,
      "epoch": 0.41514926807832797,
      "grad_norm": 0.6746429800987244,
      "learning_rate": 1.8553683797727188e-05,
      "loss": 1.4432,
      "mean_token_accuracy": 0.6566011756658554,
      "num_tokens": 634307434.0,
      "step": 3779
    },
    {
      "entropy": 1.6698183516661327,
      "epoch": 0.4152591249897009,
      "grad_norm": 0.8133582472801208,
      "learning_rate": 1.8552813190335034e-05,
      "loss": 1.301,
      "mean_token_accuracy": 0.6644681245088577,
      "num_tokens": 634444248.0,
      "step": 3780
    },
    {
      "entropy": 1.699441949526469,
      "epoch": 0.41536898190107385,
      "grad_norm": 0.8208682537078857,
      "learning_rate": 1.855194234389975e-05,
      "loss": 1.2526,
      "mean_token_accuracy": 0.6720673541227976,
      "num_tokens": 634586931.0,
      "step": 3781
    },
    {
      "entropy": 1.7422561248143513,
      "epoch": 0.4154788388124468,
      "grad_norm": 0.6837664246559143,
      "learning_rate": 1.8551071258448892e-05,
      "loss": 1.6275,
      "mean_token_accuracy": 0.6357202082872391,
      "num_tokens": 634794197.0,
      "step": 3782
    },
    {
      "entropy": 1.6618089973926544,
      "epoch": 0.41558869572381973,
      "grad_norm": 0.7491135001182556,
      "learning_rate": 1.855019993401003e-05,
      "loss": 1.3817,
      "mean_token_accuracy": 0.6542213608821233,
      "num_tokens": 634995369.0,
      "step": 3783
    },
    {
      "entropy": 1.7044015129407246,
      "epoch": 0.4156985526351927,
      "grad_norm": 0.613198459148407,
      "learning_rate": 1.854932837061074e-05,
      "loss": 1.4134,
      "mean_token_accuracy": 0.6356542706489563,
      "num_tokens": 635184727.0,
      "step": 3784
    },
    {
      "entropy": 1.671468476454417,
      "epoch": 0.4158084095465656,
      "grad_norm": 0.6908861994743347,
      "learning_rate": 1.8548456568278616e-05,
      "loss": 1.4499,
      "mean_token_accuracy": 0.6709446410338084,
      "num_tokens": 635343732.0,
      "step": 3785
    },
    {
      "entropy": 1.723008821407954,
      "epoch": 0.41591826645793856,
      "grad_norm": 0.6988131403923035,
      "learning_rate": 1.8547584527041235e-05,
      "loss": 1.4046,
      "mean_token_accuracy": 0.6638121704260508,
      "num_tokens": 635507468.0,
      "step": 3786
    },
    {
      "entropy": 1.6880267560482025,
      "epoch": 0.4160281233693115,
      "grad_norm": 0.6676950454711914,
      "learning_rate": 1.8546712246926207e-05,
      "loss": 1.2988,
      "mean_token_accuracy": 0.6631821393966675,
      "num_tokens": 635649868.0,
      "step": 3787
    },
    {
      "entropy": 1.7301316161950429,
      "epoch": 0.4161379802806844,
      "grad_norm": 0.7677087783813477,
      "learning_rate": 1.854583972796114e-05,
      "loss": 1.5427,
      "mean_token_accuracy": 0.652143269777298,
      "num_tokens": 635819810.0,
      "step": 3788
    },
    {
      "entropy": 1.6811153590679169,
      "epoch": 0.4162478371920573,
      "grad_norm": 0.6712203621864319,
      "learning_rate": 1.8544966970173645e-05,
      "loss": 1.3512,
      "mean_token_accuracy": 0.6549779176712036,
      "num_tokens": 635984503.0,
      "step": 3789
    },
    {
      "entropy": 1.7444909314314525,
      "epoch": 0.41635769410343026,
      "grad_norm": 0.6587154865264893,
      "learning_rate": 1.8544093973591343e-05,
      "loss": 1.4814,
      "mean_token_accuracy": 0.6409175097942352,
      "num_tokens": 636134931.0,
      "step": 3790
    },
    {
      "entropy": 1.6592991352081299,
      "epoch": 0.4164675510148032,
      "grad_norm": 0.5977832078933716,
      "learning_rate": 1.854322073824187e-05,
      "loss": 1.4304,
      "mean_token_accuracy": 0.6406304885943731,
      "num_tokens": 636318464.0,
      "step": 3791
    },
    {
      "entropy": 1.6651886999607086,
      "epoch": 0.41657740792617615,
      "grad_norm": 0.6955407857894897,
      "learning_rate": 1.8542347264152855e-05,
      "loss": 1.3467,
      "mean_token_accuracy": 0.6668408364057541,
      "num_tokens": 636459849.0,
      "step": 3792
    },
    {
      "entropy": 1.7133266230424244,
      "epoch": 0.4166872648375491,
      "grad_norm": 0.7298943996429443,
      "learning_rate": 1.854147355135195e-05,
      "loss": 1.569,
      "mean_token_accuracy": 0.6349954207738241,
      "num_tokens": 636634478.0,
      "step": 3793
    },
    {
      "entropy": 1.6949812173843384,
      "epoch": 0.41679712174892203,
      "grad_norm": 0.9010490775108337,
      "learning_rate": 1.8540599599866806e-05,
      "loss": 1.3849,
      "mean_token_accuracy": 0.6672961960236231,
      "num_tokens": 636753414.0,
      "step": 3794
    },
    {
      "entropy": 1.700540026028951,
      "epoch": 0.41690697866029497,
      "grad_norm": 0.7625768184661865,
      "learning_rate": 1.853972540972508e-05,
      "loss": 1.1909,
      "mean_token_accuracy": 0.6855234503746033,
      "num_tokens": 636855409.0,
      "step": 3795
    },
    {
      "entropy": 1.790819029013316,
      "epoch": 0.4170168355716679,
      "grad_norm": 0.6526350975036621,
      "learning_rate": 1.8538850980954446e-05,
      "loss": 1.5692,
      "mean_token_accuracy": 0.6258653302987417,
      "num_tokens": 637050334.0,
      "step": 3796
    },
    {
      "entropy": 1.7093652784824371,
      "epoch": 0.41712669248304085,
      "grad_norm": 0.5973331332206726,
      "learning_rate": 1.8537976313582573e-05,
      "loss": 1.5218,
      "mean_token_accuracy": 0.6466895639896393,
      "num_tokens": 637235606.0,
      "step": 3797
    },
    {
      "entropy": 1.6295418043931325,
      "epoch": 0.4172365493944138,
      "grad_norm": 0.6998474597930908,
      "learning_rate": 1.853710140763715e-05,
      "loss": 1.4507,
      "mean_token_accuracy": 0.6505574633677801,
      "num_tokens": 637439394.0,
      "step": 3798
    },
    {
      "entropy": 1.7180461982885997,
      "epoch": 0.41734640630578673,
      "grad_norm": 0.6476940512657166,
      "learning_rate": 1.8536226263145857e-05,
      "loss": 1.6517,
      "mean_token_accuracy": 0.6157064388195673,
      "num_tokens": 637652827.0,
      "step": 3799
    },
    {
      "entropy": 1.7250114878018696,
      "epoch": 0.4174562632171597,
      "grad_norm": 0.7295282483100891,
      "learning_rate": 1.8535350880136403e-05,
      "loss": 1.4413,
      "mean_token_accuracy": 0.6517095665136973,
      "num_tokens": 637839760.0,
      "step": 3800
    },
    {
      "entropy": 1.7239097158114116,
      "epoch": 0.41756612012853256,
      "grad_norm": 0.6322441697120667,
      "learning_rate": 1.8534475258636488e-05,
      "loss": 1.4804,
      "mean_token_accuracy": 0.6419643859068552,
      "num_tokens": 638075885.0,
      "step": 3801
    },
    {
      "entropy": 1.6781774560610454,
      "epoch": 0.4176759770399055,
      "grad_norm": 0.6442082524299622,
      "learning_rate": 1.8533599398673826e-05,
      "loss": 1.5032,
      "mean_token_accuracy": 0.6423897991577784,
      "num_tokens": 638270735.0,
      "step": 3802
    },
    {
      "entropy": 1.713065505027771,
      "epoch": 0.41778583395127844,
      "grad_norm": 0.5872926712036133,
      "learning_rate": 1.853272330027614e-05,
      "loss": 1.4092,
      "mean_token_accuracy": 0.645249143242836,
      "num_tokens": 638459204.0,
      "step": 3803
    },
    {
      "entropy": 1.6904393831888835,
      "epoch": 0.4178956908626514,
      "grad_norm": 0.6932823061943054,
      "learning_rate": 1.8531846963471155e-05,
      "loss": 1.2647,
      "mean_token_accuracy": 0.674810583392779,
      "num_tokens": 638574639.0,
      "step": 3804
    },
    {
      "entropy": 1.7162601053714752,
      "epoch": 0.4180055477740243,
      "grad_norm": 0.716964840888977,
      "learning_rate": 1.8530970388286605e-05,
      "loss": 1.4352,
      "mean_token_accuracy": 0.6317101766665777,
      "num_tokens": 638765017.0,
      "step": 3805
    },
    {
      "entropy": 1.6731017033259075,
      "epoch": 0.41811540468539726,
      "grad_norm": 0.6435312628746033,
      "learning_rate": 1.853009357475024e-05,
      "loss": 1.3129,
      "mean_token_accuracy": 0.6804841359456381,
      "num_tokens": 638896095.0,
      "step": 3806
    },
    {
      "entropy": 1.7432553172111511,
      "epoch": 0.4182252615967702,
      "grad_norm": 0.668488621711731,
      "learning_rate": 1.8529216522889802e-05,
      "loss": 1.2866,
      "mean_token_accuracy": 0.6711077938477198,
      "num_tokens": 639039152.0,
      "step": 3807
    },
    {
      "entropy": 1.715178112188975,
      "epoch": 0.41833511850814314,
      "grad_norm": 0.8195774555206299,
      "learning_rate": 1.852833923273306e-05,
      "loss": 1.3363,
      "mean_token_accuracy": 0.664946511387825,
      "num_tokens": 639171512.0,
      "step": 3808
    },
    {
      "entropy": 1.6638068159421284,
      "epoch": 0.4184449754195161,
      "grad_norm": 0.6470533013343811,
      "learning_rate": 1.852746170430777e-05,
      "loss": 1.2879,
      "mean_token_accuracy": 0.6690946668386459,
      "num_tokens": 639301924.0,
      "step": 3809
    },
    {
      "entropy": 1.7037453750769298,
      "epoch": 0.418554832330889,
      "grad_norm": 0.6436436772346497,
      "learning_rate": 1.8526583937641708e-05,
      "loss": 1.3852,
      "mean_token_accuracy": 0.6688676526149114,
      "num_tokens": 639463966.0,
      "step": 3810
    },
    {
      "entropy": 1.7554031908512115,
      "epoch": 0.41866468924226197,
      "grad_norm": 0.736873984336853,
      "learning_rate": 1.8525705932762658e-05,
      "loss": 1.6376,
      "mean_token_accuracy": 0.6553641508022944,
      "num_tokens": 639647344.0,
      "step": 3811
    },
    {
      "entropy": 1.7499909301598866,
      "epoch": 0.4187745461536349,
      "grad_norm": 0.6630018949508667,
      "learning_rate": 1.8524827689698403e-05,
      "loss": 1.3634,
      "mean_token_accuracy": 0.6541923681894938,
      "num_tokens": 639786116.0,
      "step": 3812
    },
    {
      "entropy": 1.65069513519605,
      "epoch": 0.41888440306500785,
      "grad_norm": 0.5848079919815063,
      "learning_rate": 1.8523949208476744e-05,
      "loss": 1.3979,
      "mean_token_accuracy": 0.6475146114826202,
      "num_tokens": 640023361.0,
      "step": 3813
    },
    {
      "entropy": 1.7403970857461293,
      "epoch": 0.4189942599763808,
      "grad_norm": 0.7221378684043884,
      "learning_rate": 1.8523070489125484e-05,
      "loss": 1.3454,
      "mean_token_accuracy": 0.6649908721446991,
      "num_tokens": 640193104.0,
      "step": 3814
    },
    {
      "entropy": 1.700227975845337,
      "epoch": 0.4191041168877537,
      "grad_norm": 0.6060642004013062,
      "learning_rate": 1.8522191531672433e-05,
      "loss": 1.2714,
      "mean_token_accuracy": 0.6907776196797689,
      "num_tokens": 640348073.0,
      "step": 3815
    },
    {
      "entropy": 1.7109603087107341,
      "epoch": 0.4192139737991266,
      "grad_norm": 0.650009036064148,
      "learning_rate": 1.8521312336145406e-05,
      "loss": 1.4307,
      "mean_token_accuracy": 0.6513733565807343,
      "num_tokens": 640537136.0,
      "step": 3816
    },
    {
      "entropy": 1.7343104382356007,
      "epoch": 0.41932383071049956,
      "grad_norm": 0.6624605655670166,
      "learning_rate": 1.8520432902572238e-05,
      "loss": 1.5207,
      "mean_token_accuracy": 0.6583341757456461,
      "num_tokens": 640755737.0,
      "step": 3817
    },
    {
      "entropy": 1.6712620953718822,
      "epoch": 0.4194336876218725,
      "grad_norm": 0.8070269823074341,
      "learning_rate": 1.8519553230980755e-05,
      "loss": 1.5578,
      "mean_token_accuracy": 0.6397651135921478,
      "num_tokens": 640971967.0,
      "step": 3818
    },
    {
      "entropy": 1.6985514958699544,
      "epoch": 0.41954354453324544,
      "grad_norm": 0.7821574211120605,
      "learning_rate": 1.85186733213988e-05,
      "loss": 1.2669,
      "mean_token_accuracy": 0.6710014641284943,
      "num_tokens": 641114791.0,
      "step": 3819
    },
    {
      "entropy": 1.7274354596932728,
      "epoch": 0.4196534014446184,
      "grad_norm": 0.7574983835220337,
      "learning_rate": 1.8517793173854222e-05,
      "loss": 1.4655,
      "mean_token_accuracy": 0.6479006856679916,
      "num_tokens": 641240015.0,
      "step": 3820
    },
    {
      "entropy": 1.773825873931249,
      "epoch": 0.4197632583559913,
      "grad_norm": 0.8301964998245239,
      "learning_rate": 1.851691278837488e-05,
      "loss": 1.3614,
      "mean_token_accuracy": 0.6692739625771841,
      "num_tokens": 641334970.0,
      "step": 3821
    },
    {
      "entropy": 1.6614450514316559,
      "epoch": 0.41987311526736426,
      "grad_norm": 0.6518927216529846,
      "learning_rate": 1.8516032164988633e-05,
      "loss": 1.4603,
      "mean_token_accuracy": 0.6561418920755386,
      "num_tokens": 641505654.0,
      "step": 3822
    },
    {
      "entropy": 1.7007905542850494,
      "epoch": 0.4199829721787372,
      "grad_norm": 0.6501317024230957,
      "learning_rate": 1.8515151303723356e-05,
      "loss": 1.4902,
      "mean_token_accuracy": 0.6453222384055456,
      "num_tokens": 641729379.0,
      "step": 3823
    },
    {
      "entropy": 1.7722167372703552,
      "epoch": 0.42009282909011014,
      "grad_norm": 0.7290734648704529,
      "learning_rate": 1.851427020460693e-05,
      "loss": 1.3669,
      "mean_token_accuracy": 0.6568130205074946,
      "num_tokens": 641850231.0,
      "step": 3824
    },
    {
      "entropy": 1.6922112007935841,
      "epoch": 0.4202026860014831,
      "grad_norm": 0.6940089464187622,
      "learning_rate": 1.851338886766723e-05,
      "loss": 1.3394,
      "mean_token_accuracy": 0.6545537859201431,
      "num_tokens": 642018167.0,
      "step": 3825
    },
    {
      "entropy": 1.7041266858577728,
      "epoch": 0.420312542912856,
      "grad_norm": 0.6359767317771912,
      "learning_rate": 1.8512507292932164e-05,
      "loss": 1.3692,
      "mean_token_accuracy": 0.6600731213887533,
      "num_tokens": 642225951.0,
      "step": 3826
    },
    {
      "entropy": 1.7149433890978496,
      "epoch": 0.42042239982422897,
      "grad_norm": 0.7300947308540344,
      "learning_rate": 1.8511625480429626e-05,
      "loss": 1.3976,
      "mean_token_accuracy": 0.6626198341449102,
      "num_tokens": 642380453.0,
      "step": 3827
    },
    {
      "entropy": 1.6327539483706157,
      "epoch": 0.4205322567356019,
      "grad_norm": 0.9952742457389832,
      "learning_rate": 1.851074343018753e-05,
      "loss": 1.2784,
      "mean_token_accuracy": 0.6821300486723582,
      "num_tokens": 642539722.0,
      "step": 3828
    },
    {
      "entropy": 1.700599084297816,
      "epoch": 0.4206421136469748,
      "grad_norm": 0.7428448796272278,
      "learning_rate": 1.8509861142233783e-05,
      "loss": 1.4237,
      "mean_token_accuracy": 0.6547687749067942,
      "num_tokens": 642698818.0,
      "step": 3829
    },
    {
      "entropy": 1.7721853852272034,
      "epoch": 0.42075197055834773,
      "grad_norm": 0.6790313124656677,
      "learning_rate": 1.8508978616596318e-05,
      "loss": 1.3894,
      "mean_token_accuracy": 0.6521950215101242,
      "num_tokens": 642883257.0,
      "step": 3830
    },
    {
      "entropy": 1.6714214185873668,
      "epoch": 0.4208618274697207,
      "grad_norm": 0.6689066290855408,
      "learning_rate": 1.8508095853303064e-05,
      "loss": 1.2784,
      "mean_token_accuracy": 0.6672136187553406,
      "num_tokens": 643011025.0,
      "step": 3831
    },
    {
      "entropy": 1.7504200140635173,
      "epoch": 0.4209716843810936,
      "grad_norm": 0.6306473016738892,
      "learning_rate": 1.8507212852381958e-05,
      "loss": 1.3652,
      "mean_token_accuracy": 0.6601114968458811,
      "num_tokens": 643175908.0,
      "step": 3832
    },
    {
      "entropy": 1.6559196809927623,
      "epoch": 0.42108154129246655,
      "grad_norm": 0.6528786420822144,
      "learning_rate": 1.8506329613860944e-05,
      "loss": 1.3326,
      "mean_token_accuracy": 0.664582168062528,
      "num_tokens": 643328930.0,
      "step": 3833
    },
    {
      "entropy": 1.7539990444978077,
      "epoch": 0.4211913982038395,
      "grad_norm": 0.910399854183197,
      "learning_rate": 1.8505446137767984e-05,
      "loss": 1.4594,
      "mean_token_accuracy": 0.6541984180609385,
      "num_tokens": 643510121.0,
      "step": 3834
    },
    {
      "entropy": 1.7388847768306732,
      "epoch": 0.42130125511521244,
      "grad_norm": 0.6952354907989502,
      "learning_rate": 1.8504562424131035e-05,
      "loss": 1.5782,
      "mean_token_accuracy": 0.6242658942937851,
      "num_tokens": 643682378.0,
      "step": 3835
    },
    {
      "entropy": 1.7046812276045482,
      "epoch": 0.4214111120265854,
      "grad_norm": 0.7153732180595398,
      "learning_rate": 1.8503678472978072e-05,
      "loss": 1.5552,
      "mean_token_accuracy": 0.6502560079097748,
      "num_tokens": 643904701.0,
      "step": 3836
    },
    {
      "entropy": 1.7115220228830974,
      "epoch": 0.4215209689379583,
      "grad_norm": 0.7493833899497986,
      "learning_rate": 1.8502794284337063e-05,
      "loss": 1.3032,
      "mean_token_accuracy": 0.6713364919026693,
      "num_tokens": 644010789.0,
      "step": 3837
    },
    {
      "entropy": 1.7032727301120758,
      "epoch": 0.42163082584933126,
      "grad_norm": 0.7664533257484436,
      "learning_rate": 1.8501909858235996e-05,
      "loss": 1.2455,
      "mean_token_accuracy": 0.6849518169959387,
      "num_tokens": 644123734.0,
      "step": 3838
    },
    {
      "entropy": 1.7397787670294445,
      "epoch": 0.4217406827607042,
      "grad_norm": 0.5922208428382874,
      "learning_rate": 1.850102519470286e-05,
      "loss": 1.3723,
      "mean_token_accuracy": 0.6501923749844233,
      "num_tokens": 644283398.0,
      "step": 3839
    },
    {
      "entropy": 1.6781314810117085,
      "epoch": 0.42185053967207714,
      "grad_norm": 0.6052653193473816,
      "learning_rate": 1.8500140293765655e-05,
      "loss": 1.4668,
      "mean_token_accuracy": 0.6537490636110306,
      "num_tokens": 644454020.0,
      "step": 3840
    },
    {
      "entropy": 1.6567552785078685,
      "epoch": 0.4219603965834501,
      "grad_norm": 0.5396919846534729,
      "learning_rate": 1.8499255155452397e-05,
      "loss": 1.5281,
      "mean_token_accuracy": 0.6358696967363358,
      "num_tokens": 644708504.0,
      "step": 3841
    },
    {
      "entropy": 1.7547682126363118,
      "epoch": 0.42207025349482297,
      "grad_norm": 0.6936992406845093,
      "learning_rate": 1.8498369779791085e-05,
      "loss": 1.3401,
      "mean_token_accuracy": 0.6526836852232615,
      "num_tokens": 644878677.0,
      "step": 3842
    },
    {
      "entropy": 1.693197379509608,
      "epoch": 0.4221801104061959,
      "grad_norm": 0.7279648780822754,
      "learning_rate": 1.8497484166809752e-05,
      "loss": 1.3146,
      "mean_token_accuracy": 0.6758704036474228,
      "num_tokens": 645019940.0,
      "step": 3843
    },
    {
      "entropy": 1.69556125998497,
      "epoch": 0.42228996731756885,
      "grad_norm": 0.6791149377822876,
      "learning_rate": 1.8496598316536425e-05,
      "loss": 1.3299,
      "mean_token_accuracy": 0.6537687480449677,
      "num_tokens": 645159667.0,
      "step": 3844
    },
    {
      "entropy": 1.6956780850887299,
      "epoch": 0.4223998242289418,
      "grad_norm": 0.782292902469635,
      "learning_rate": 1.8495712228999138e-05,
      "loss": 1.3682,
      "mean_token_accuracy": 0.6713423679272333,
      "num_tokens": 645279821.0,
      "step": 3845
    },
    {
      "entropy": 1.728989193836848,
      "epoch": 0.42250968114031473,
      "grad_norm": 0.6862851977348328,
      "learning_rate": 1.8494825904225933e-05,
      "loss": 1.3393,
      "mean_token_accuracy": 0.663465549548467,
      "num_tokens": 645414111.0,
      "step": 3846
    },
    {
      "entropy": 1.7368880609671276,
      "epoch": 0.42261953805168767,
      "grad_norm": 1.014003872871399,
      "learning_rate": 1.8493939342244868e-05,
      "loss": 1.394,
      "mean_token_accuracy": 0.6592635711034139,
      "num_tokens": 645560546.0,
      "step": 3847
    },
    {
      "entropy": 1.675550679365794,
      "epoch": 0.4227293949630606,
      "grad_norm": 0.7420448660850525,
      "learning_rate": 1.8493052543084e-05,
      "loss": 1.2888,
      "mean_token_accuracy": 0.6641269127527872,
      "num_tokens": 645690733.0,
      "step": 3848
    },
    {
      "entropy": 1.6391872266928356,
      "epoch": 0.42283925187443355,
      "grad_norm": 0.7968411445617676,
      "learning_rate": 1.84921655067714e-05,
      "loss": 1.3562,
      "mean_token_accuracy": 0.6737810671329498,
      "num_tokens": 645852109.0,
      "step": 3849
    },
    {
      "entropy": 1.6818280915419261,
      "epoch": 0.4229491087858065,
      "grad_norm": 0.7735076546669006,
      "learning_rate": 1.849127823333513e-05,
      "loss": 1.4612,
      "mean_token_accuracy": 0.6462418337663015,
      "num_tokens": 646007934.0,
      "step": 3850
    },
    {
      "entropy": 1.7462623516718547,
      "epoch": 0.42305896569717943,
      "grad_norm": 0.7541219592094421,
      "learning_rate": 1.849039072280328e-05,
      "loss": 1.4529,
      "mean_token_accuracy": 0.6520050664742788,
      "num_tokens": 646170910.0,
      "step": 3851
    },
    {
      "entropy": 1.6965330342451732,
      "epoch": 0.4231688226085524,
      "grad_norm": 0.7076205611228943,
      "learning_rate": 1.8489502975203945e-05,
      "loss": 1.6429,
      "mean_token_accuracy": 0.6315357536077499,
      "num_tokens": 646372868.0,
      "step": 3852
    },
    {
      "entropy": 1.6979803641637166,
      "epoch": 0.4232786795199253,
      "grad_norm": 0.7357332706451416,
      "learning_rate": 1.8488614990565214e-05,
      "loss": 1.3529,
      "mean_token_accuracy": 0.6634115974108378,
      "num_tokens": 646543074.0,
      "step": 3853
    },
    {
      "entropy": 1.722920149564743,
      "epoch": 0.42338853643129826,
      "grad_norm": 0.8576663732528687,
      "learning_rate": 1.8487726768915192e-05,
      "loss": 1.5067,
      "mean_token_accuracy": 0.6446111053228378,
      "num_tokens": 646707309.0,
      "step": 3854
    },
    {
      "entropy": 1.7091480791568756,
      "epoch": 0.4234983933426712,
      "grad_norm": 0.6144663095474243,
      "learning_rate": 1.848683831028199e-05,
      "loss": 1.4944,
      "mean_token_accuracy": 0.6384020894765854,
      "num_tokens": 646886585.0,
      "step": 3855
    },
    {
      "entropy": 1.6747375428676605,
      "epoch": 0.4236082502540441,
      "grad_norm": 0.81898033618927,
      "learning_rate": 1.8485949614693727e-05,
      "loss": 1.1378,
      "mean_token_accuracy": 0.6897122313578924,
      "num_tokens": 647014518.0,
      "step": 3856
    },
    {
      "entropy": 1.7361929814020793,
      "epoch": 0.423718107165417,
      "grad_norm": 0.7163565158843994,
      "learning_rate": 1.8485060682178537e-05,
      "loss": 1.3322,
      "mean_token_accuracy": 0.6657196134328842,
      "num_tokens": 647213559.0,
      "step": 3857
    },
    {
      "entropy": 1.7410944600900014,
      "epoch": 0.42382796407678996,
      "grad_norm": 0.7472032904624939,
      "learning_rate": 1.848417151276455e-05,
      "loss": 1.3762,
      "mean_token_accuracy": 0.6659711500008901,
      "num_tokens": 647367678.0,
      "step": 3858
    },
    {
      "entropy": 1.681091417868932,
      "epoch": 0.4239378209881629,
      "grad_norm": 1.138753890991211,
      "learning_rate": 1.8483282106479902e-05,
      "loss": 1.4024,
      "mean_token_accuracy": 0.6617006063461304,
      "num_tokens": 647554358.0,
      "step": 3859
    },
    {
      "entropy": 1.7275851269563038,
      "epoch": 0.42404767789953585,
      "grad_norm": 0.6139320135116577,
      "learning_rate": 1.848239246335275e-05,
      "loss": 1.4733,
      "mean_token_accuracy": 0.6429044504960378,
      "num_tokens": 647728748.0,
      "step": 3860
    },
    {
      "entropy": 1.6915673911571503,
      "epoch": 0.4241575348109088,
      "grad_norm": 0.6831756234169006,
      "learning_rate": 1.8481502583411247e-05,
      "loss": 1.3334,
      "mean_token_accuracy": 0.6636428534984589,
      "num_tokens": 647878607.0,
      "step": 3861
    },
    {
      "entropy": 1.750975062449773,
      "epoch": 0.42426739172228173,
      "grad_norm": 0.7183418273925781,
      "learning_rate": 1.848061246668356e-05,
      "loss": 1.5977,
      "mean_token_accuracy": 0.6374113808075587,
      "num_tokens": 648024338.0,
      "step": 3862
    },
    {
      "entropy": 1.7088340322176616,
      "epoch": 0.42437724863365467,
      "grad_norm": 0.7100759744644165,
      "learning_rate": 1.847972211319786e-05,
      "loss": 1.3605,
      "mean_token_accuracy": 0.6605943193038305,
      "num_tokens": 648196447.0,
      "step": 3863
    },
    {
      "entropy": 1.6845079759756725,
      "epoch": 0.4244871055450276,
      "grad_norm": 0.687178909778595,
      "learning_rate": 1.8478831522982324e-05,
      "loss": 1.416,
      "mean_token_accuracy": 0.6500076999266943,
      "num_tokens": 648383053.0,
      "step": 3864
    },
    {
      "entropy": 1.7246264616648357,
      "epoch": 0.42459696245640055,
      "grad_norm": 0.7078330516815186,
      "learning_rate": 1.847794069606514e-05,
      "loss": 1.5448,
      "mean_token_accuracy": 0.6318613439798355,
      "num_tokens": 648584553.0,
      "step": 3865
    },
    {
      "entropy": 1.7536778251330059,
      "epoch": 0.4247068193677735,
      "grad_norm": 0.7490545511245728,
      "learning_rate": 1.8477049632474508e-05,
      "loss": 1.4708,
      "mean_token_accuracy": 0.6561292608579,
      "num_tokens": 648745917.0,
      "step": 3866
    },
    {
      "entropy": 1.6898792386054993,
      "epoch": 0.42481667627914643,
      "grad_norm": 0.7261310815811157,
      "learning_rate": 1.8476158332238617e-05,
      "loss": 1.3375,
      "mean_token_accuracy": 0.6690275917450587,
      "num_tokens": 648890450.0,
      "step": 3867
    },
    {
      "entropy": 1.710007667541504,
      "epoch": 0.4249265331905194,
      "grad_norm": 0.7561746835708618,
      "learning_rate": 1.8475266795385685e-05,
      "loss": 1.3708,
      "mean_token_accuracy": 0.6579129894574484,
      "num_tokens": 649015823.0,
      "step": 3868
    },
    {
      "entropy": 1.719689855972926,
      "epoch": 0.42503639010189226,
      "grad_norm": 0.7121495604515076,
      "learning_rate": 1.8474375021943932e-05,
      "loss": 1.2898,
      "mean_token_accuracy": 0.6680507610241572,
      "num_tokens": 649190115.0,
      "step": 3869
    },
    {
      "entropy": 1.7542536358038585,
      "epoch": 0.4251462470132652,
      "grad_norm": 0.7546373605728149,
      "learning_rate": 1.8473483011941574e-05,
      "loss": 1.3253,
      "mean_token_accuracy": 0.6552920093139013,
      "num_tokens": 649304401.0,
      "step": 3870
    },
    {
      "entropy": 1.716896414756775,
      "epoch": 0.42525610392463814,
      "grad_norm": 0.6879488825798035,
      "learning_rate": 1.8472590765406845e-05,
      "loss": 1.4352,
      "mean_token_accuracy": 0.6727662235498428,
      "num_tokens": 649459866.0,
      "step": 3871
    },
    {
      "entropy": 1.6816608607769012,
      "epoch": 0.4253659608360111,
      "grad_norm": 0.8443351984024048,
      "learning_rate": 1.847169828236799e-05,
      "loss": 1.3892,
      "mean_token_accuracy": 0.6620204697052637,
      "num_tokens": 649626901.0,
      "step": 3872
    },
    {
      "entropy": 1.740911195675532,
      "epoch": 0.425475817747384,
      "grad_norm": 0.7434075474739075,
      "learning_rate": 1.8470805562853244e-05,
      "loss": 1.5953,
      "mean_token_accuracy": 0.6165072818597158,
      "num_tokens": 649809343.0,
      "step": 3873
    },
    {
      "entropy": 1.7113256255785625,
      "epoch": 0.42558567465875696,
      "grad_norm": 0.8285733461380005,
      "learning_rate": 1.846991260689087e-05,
      "loss": 1.3399,
      "mean_token_accuracy": 0.665142834186554,
      "num_tokens": 649991640.0,
      "step": 3874
    },
    {
      "entropy": 1.6987220545609791,
      "epoch": 0.4256955315701299,
      "grad_norm": 0.6770405173301697,
      "learning_rate": 1.8469019414509136e-05,
      "loss": 1.4514,
      "mean_token_accuracy": 0.6441337664922079,
      "num_tokens": 650164246.0,
      "step": 3875
    },
    {
      "entropy": 1.7160173257191975,
      "epoch": 0.42580538848150284,
      "grad_norm": 0.7959917187690735,
      "learning_rate": 1.8468125985736295e-05,
      "loss": 1.5868,
      "mean_token_accuracy": 0.6459453006585439,
      "num_tokens": 650305891.0,
      "step": 3876
    },
    {
      "entropy": 1.6745306452115376,
      "epoch": 0.4259152453928758,
      "grad_norm": 0.6555696725845337,
      "learning_rate": 1.8467232320600638e-05,
      "loss": 1.4623,
      "mean_token_accuracy": 0.6556547085444132,
      "num_tokens": 650507562.0,
      "step": 3877
    },
    {
      "entropy": 1.7178467512130737,
      "epoch": 0.4260251023042487,
      "grad_norm": 0.6489704847335815,
      "learning_rate": 1.846633841913044e-05,
      "loss": 1.3224,
      "mean_token_accuracy": 0.6665374338626862,
      "num_tokens": 650667834.0,
      "step": 3878
    },
    {
      "entropy": 1.6714246372381847,
      "epoch": 0.42613495921562167,
      "grad_norm": 0.7068523168563843,
      "learning_rate": 1.8465444281353992e-05,
      "loss": 1.4546,
      "mean_token_accuracy": 0.6516213566064835,
      "num_tokens": 650840788.0,
      "step": 3879
    },
    {
      "entropy": 1.7186284760634105,
      "epoch": 0.4262448161269946,
      "grad_norm": 0.7457088828086853,
      "learning_rate": 1.84645499072996e-05,
      "loss": 1.2781,
      "mean_token_accuracy": 0.672358974814415,
      "num_tokens": 650941361.0,
      "step": 3880
    },
    {
      "entropy": 1.6859534084796906,
      "epoch": 0.42635467303836755,
      "grad_norm": 0.679847240447998,
      "learning_rate": 1.8463655296995567e-05,
      "loss": 1.3869,
      "mean_token_accuracy": 0.6544978270928065,
      "num_tokens": 651105965.0,
      "step": 3881
    },
    {
      "entropy": 1.7387334704399109,
      "epoch": 0.4264645299497405,
      "grad_norm": 0.8297735452651978,
      "learning_rate": 1.8462760450470207e-05,
      "loss": 1.4147,
      "mean_token_accuracy": 0.6685324857632319,
      "num_tokens": 651242560.0,
      "step": 3882
    },
    {
      "entropy": 1.808528443177541,
      "epoch": 0.4265743868611134,
      "grad_norm": 0.7231261730194092,
      "learning_rate": 1.846186536775184e-05,
      "loss": 1.5466,
      "mean_token_accuracy": 0.6377104272445043,
      "num_tokens": 651430287.0,
      "step": 3883
    },
    {
      "entropy": 1.7021079659461975,
      "epoch": 0.4266842437724863,
      "grad_norm": 0.7810244560241699,
      "learning_rate": 1.84609700488688e-05,
      "loss": 1.2778,
      "mean_token_accuracy": 0.6832303404808044,
      "num_tokens": 651559583.0,
      "step": 3884
    },
    {
      "entropy": 1.689590334892273,
      "epoch": 0.42679410068385926,
      "grad_norm": 0.6838991045951843,
      "learning_rate": 1.8460074493849416e-05,
      "loss": 1.2951,
      "mean_token_accuracy": 0.6713648786147436,
      "num_tokens": 651691973.0,
      "step": 3885
    },
    {
      "entropy": 1.714994877576828,
      "epoch": 0.4269039575952322,
      "grad_norm": 0.6699170470237732,
      "learning_rate": 1.8459178702722037e-05,
      "loss": 1.2707,
      "mean_token_accuracy": 0.6692277739445368,
      "num_tokens": 651816035.0,
      "step": 3886
    },
    {
      "entropy": 1.729461799065272,
      "epoch": 0.42701381450660514,
      "grad_norm": 0.6075051426887512,
      "learning_rate": 1.8458282675515016e-05,
      "loss": 1.3528,
      "mean_token_accuracy": 0.6616584012905756,
      "num_tokens": 652024333.0,
      "step": 3887
    },
    {
      "entropy": 1.6672471364339192,
      "epoch": 0.4271236714179781,
      "grad_norm": 0.6613723039627075,
      "learning_rate": 1.8457386412256704e-05,
      "loss": 1.3707,
      "mean_token_accuracy": 0.6597268283367157,
      "num_tokens": 652168775.0,
      "step": 3888
    },
    {
      "entropy": 1.662774880727132,
      "epoch": 0.427233528329351,
      "grad_norm": 0.7188613414764404,
      "learning_rate": 1.8456489912975477e-05,
      "loss": 1.4895,
      "mean_token_accuracy": 0.6598201990127563,
      "num_tokens": 652318630.0,
      "step": 3889
    },
    {
      "entropy": 1.7089114785194397,
      "epoch": 0.42734338524072396,
      "grad_norm": 0.7041028141975403,
      "learning_rate": 1.8455593177699704e-05,
      "loss": 1.4792,
      "mean_token_accuracy": 0.6515317956606547,
      "num_tokens": 652480939.0,
      "step": 3890
    },
    {
      "entropy": 1.706920713186264,
      "epoch": 0.4274532421520969,
      "grad_norm": 0.7197327613830566,
      "learning_rate": 1.845469620645776e-05,
      "loss": 1.441,
      "mean_token_accuracy": 0.6517567286888758,
      "num_tokens": 652646579.0,
      "step": 3891
    },
    {
      "entropy": 1.7612548073132832,
      "epoch": 0.42756309906346984,
      "grad_norm": 0.78521329164505,
      "learning_rate": 1.8453798999278047e-05,
      "loss": 1.5184,
      "mean_token_accuracy": 0.6430316617091497,
      "num_tokens": 652805441.0,
      "step": 3892
    },
    {
      "entropy": 1.711044450600942,
      "epoch": 0.4276729559748428,
      "grad_norm": 0.624224066734314,
      "learning_rate": 1.8452901556188952e-05,
      "loss": 1.4991,
      "mean_token_accuracy": 0.6483441591262817,
      "num_tokens": 652968733.0,
      "step": 3893
    },
    {
      "entropy": 1.7002309560775757,
      "epoch": 0.4277828128862157,
      "grad_norm": 0.6248944997787476,
      "learning_rate": 1.845200387721888e-05,
      "loss": 1.4019,
      "mean_token_accuracy": 0.6617890248696009,
      "num_tokens": 653141796.0,
      "step": 3894
    },
    {
      "entropy": 1.705695738395055,
      "epoch": 0.42789266979758867,
      "grad_norm": 0.6925023198127747,
      "learning_rate": 1.8451105962396247e-05,
      "loss": 1.3145,
      "mean_token_accuracy": 0.6632231523593267,
      "num_tokens": 653294696.0,
      "step": 3895
    },
    {
      "entropy": 1.751973956823349,
      "epoch": 0.42800252670896155,
      "grad_norm": 0.6819112300872803,
      "learning_rate": 1.845020781174947e-05,
      "loss": 1.3375,
      "mean_token_accuracy": 0.6607561757167181,
      "num_tokens": 653435104.0,
      "step": 3896
    },
    {
      "entropy": 1.686410774787267,
      "epoch": 0.4281123836203345,
      "grad_norm": 0.6627749800682068,
      "learning_rate": 1.8449309425306963e-05,
      "loss": 1.2681,
      "mean_token_accuracy": 0.6718742549419403,
      "num_tokens": 653540901.0,
      "step": 3897
    },
    {
      "entropy": 1.7340122958024342,
      "epoch": 0.42822224053170743,
      "grad_norm": 0.7688063979148865,
      "learning_rate": 1.8448410803097177e-05,
      "loss": 1.3647,
      "mean_token_accuracy": 0.6578405052423477,
      "num_tokens": 653723766.0,
      "step": 3898
    },
    {
      "entropy": 1.71702042222023,
      "epoch": 0.4283320974430804,
      "grad_norm": 0.7477086186408997,
      "learning_rate": 1.8447511945148544e-05,
      "loss": 1.3483,
      "mean_token_accuracy": 0.65413269897302,
      "num_tokens": 653885687.0,
      "step": 3899
    },
    {
      "entropy": 1.7188432812690735,
      "epoch": 0.4284419543544533,
      "grad_norm": 0.7725921273231506,
      "learning_rate": 1.8446612851489513e-05,
      "loss": 1.3839,
      "mean_token_accuracy": 0.6639880041281382,
      "num_tokens": 654016294.0,
      "step": 3900
    },
    {
      "entropy": 1.6381129622459412,
      "epoch": 0.42855181126582625,
      "grad_norm": 0.6253584027290344,
      "learning_rate": 1.844571352214854e-05,
      "loss": 1.3036,
      "mean_token_accuracy": 0.6645344942808151,
      "num_tokens": 654174210.0,
      "step": 3901
    },
    {
      "entropy": 1.7396024366219838,
      "epoch": 0.4286616681771992,
      "grad_norm": 0.6562190055847168,
      "learning_rate": 1.8444813957154094e-05,
      "loss": 1.4815,
      "mean_token_accuracy": 0.6449996630350748,
      "num_tokens": 654341703.0,
      "step": 3902
    },
    {
      "entropy": 1.7696809967358906,
      "epoch": 0.42877152508857214,
      "grad_norm": 0.7089744806289673,
      "learning_rate": 1.8443914156534636e-05,
      "loss": 1.338,
      "mean_token_accuracy": 0.664988378683726,
      "num_tokens": 654454220.0,
      "step": 3903
    },
    {
      "entropy": 1.7581712106863658,
      "epoch": 0.4288813819999451,
      "grad_norm": 0.7849205732345581,
      "learning_rate": 1.8443014120318653e-05,
      "loss": 1.2782,
      "mean_token_accuracy": 0.6888795097668966,
      "num_tokens": 654565966.0,
      "step": 3904
    },
    {
      "entropy": 1.6995848814646404,
      "epoch": 0.428991238911318,
      "grad_norm": 0.7430975437164307,
      "learning_rate": 1.844211384853462e-05,
      "loss": 1.5033,
      "mean_token_accuracy": 0.6458527992169062,
      "num_tokens": 654706153.0,
      "step": 3905
    },
    {
      "entropy": 1.7555510600407918,
      "epoch": 0.42910109582269096,
      "grad_norm": 0.6673111319541931,
      "learning_rate": 1.8441213341211042e-05,
      "loss": 1.3924,
      "mean_token_accuracy": 0.6652990728616714,
      "num_tokens": 654923563.0,
      "step": 3906
    },
    {
      "entropy": 1.6870744427045186,
      "epoch": 0.4292109527340639,
      "grad_norm": 0.6765327453613281,
      "learning_rate": 1.8440312598376417e-05,
      "loss": 1.4085,
      "mean_token_accuracy": 0.6474004884560903,
      "num_tokens": 655082747.0,
      "step": 3907
    },
    {
      "entropy": 1.8040563662846882,
      "epoch": 0.42932080964543684,
      "grad_norm": 0.7210556268692017,
      "learning_rate": 1.843941162005925e-05,
      "loss": 1.4306,
      "mean_token_accuracy": 0.648560548822085,
      "num_tokens": 655255550.0,
      "step": 3908
    },
    {
      "entropy": 1.730605661869049,
      "epoch": 0.4294306665568098,
      "grad_norm": 0.7293521165847778,
      "learning_rate": 1.8438510406288054e-05,
      "loss": 1.4941,
      "mean_token_accuracy": 0.6423317690690359,
      "num_tokens": 655410501.0,
      "step": 3909
    },
    {
      "entropy": 1.6763539016246796,
      "epoch": 0.42954052346818267,
      "grad_norm": 0.5762035250663757,
      "learning_rate": 1.8437608957091356e-05,
      "loss": 1.4347,
      "mean_token_accuracy": 0.6584045539299647,
      "num_tokens": 655612794.0,
      "step": 3910
    },
    {
      "entropy": 1.6941528419653575,
      "epoch": 0.4296503803795556,
      "grad_norm": 0.7608525156974792,
      "learning_rate": 1.8436707272497687e-05,
      "loss": 1.4372,
      "mean_token_accuracy": 0.6504789739847183,
      "num_tokens": 655775219.0,
      "step": 3911
    },
    {
      "entropy": 1.6654709080855052,
      "epoch": 0.42976023729092855,
      "grad_norm": 0.6557295918464661,
      "learning_rate": 1.8435805352535588e-05,
      "loss": 1.3395,
      "mean_token_accuracy": 0.6681905190149943,
      "num_tokens": 655919108.0,
      "step": 3912
    },
    {
      "entropy": 1.6901763478914897,
      "epoch": 0.4298700942023015,
      "grad_norm": 0.8068464994430542,
      "learning_rate": 1.8434903197233594e-05,
      "loss": 1.2511,
      "mean_token_accuracy": 0.6827605366706848,
      "num_tokens": 656042827.0,
      "step": 3913
    },
    {
      "entropy": 1.7511335114638011,
      "epoch": 0.42997995111367443,
      "grad_norm": 0.7122650146484375,
      "learning_rate": 1.843400080662027e-05,
      "loss": 1.4982,
      "mean_token_accuracy": 0.6384455660978953,
      "num_tokens": 656224813.0,
      "step": 3914
    },
    {
      "entropy": 1.7839158376057942,
      "epoch": 0.43008980802504737,
      "grad_norm": 0.581892192363739,
      "learning_rate": 1.8433098180724165e-05,
      "loss": 1.4154,
      "mean_token_accuracy": 0.6490354090929031,
      "num_tokens": 656425344.0,
      "step": 3915
    },
    {
      "entropy": 1.7053211430708568,
      "epoch": 0.4301996649364203,
      "grad_norm": 0.8363472819328308,
      "learning_rate": 1.8432195319573855e-05,
      "loss": 1.399,
      "mean_token_accuracy": 0.6475622256596884,
      "num_tokens": 656602663.0,
      "step": 3916
    },
    {
      "entropy": 1.711295525232951,
      "epoch": 0.43030952184779325,
      "grad_norm": 0.8222143054008484,
      "learning_rate": 1.843129222319791e-05,
      "loss": 1.5267,
      "mean_token_accuracy": 0.6486119305094084,
      "num_tokens": 656744412.0,
      "step": 3917
    },
    {
      "entropy": 1.703042854865392,
      "epoch": 0.4304193787591662,
      "grad_norm": 0.612709641456604,
      "learning_rate": 1.8430388891624915e-05,
      "loss": 1.505,
      "mean_token_accuracy": 0.6417644868294398,
      "num_tokens": 656950229.0,
      "step": 3918
    },
    {
      "entropy": 1.6889925201733906,
      "epoch": 0.43052923567053913,
      "grad_norm": 0.711890459060669,
      "learning_rate": 1.8429485324883464e-05,
      "loss": 1.4388,
      "mean_token_accuracy": 0.6587661306063334,
      "num_tokens": 657105618.0,
      "step": 3919
    },
    {
      "entropy": 1.688792844613393,
      "epoch": 0.4306390925819121,
      "grad_norm": 0.6642475128173828,
      "learning_rate": 1.8428581523002146e-05,
      "loss": 1.3509,
      "mean_token_accuracy": 0.6492424011230469,
      "num_tokens": 657267221.0,
      "step": 3920
    },
    {
      "entropy": 1.6864960094292958,
      "epoch": 0.430748949493285,
      "grad_norm": 0.6970334053039551,
      "learning_rate": 1.842767748600957e-05,
      "loss": 1.5943,
      "mean_token_accuracy": 0.6339181611935297,
      "num_tokens": 657467480.0,
      "step": 3921
    },
    {
      "entropy": 1.7039388716220856,
      "epoch": 0.43085880640465796,
      "grad_norm": 0.6595334410667419,
      "learning_rate": 1.842677321393435e-05,
      "loss": 1.4437,
      "mean_token_accuracy": 0.6527088582515717,
      "num_tokens": 657643535.0,
      "step": 3922
    },
    {
      "entropy": 1.7325763603051503,
      "epoch": 0.43096866331603084,
      "grad_norm": 0.7706548571586609,
      "learning_rate": 1.8425868706805103e-05,
      "loss": 1.5503,
      "mean_token_accuracy": 0.6559620996316274,
      "num_tokens": 657831508.0,
      "step": 3923
    },
    {
      "entropy": 1.6889927089214325,
      "epoch": 0.4310785202274038,
      "grad_norm": 0.8752990365028381,
      "learning_rate": 1.842496396465046e-05,
      "loss": 1.4015,
      "mean_token_accuracy": 0.6509895920753479,
      "num_tokens": 658002447.0,
      "step": 3924
    },
    {
      "entropy": 1.6617620189984639,
      "epoch": 0.4311883771387767,
      "grad_norm": 1.0145397186279297,
      "learning_rate": 1.842405898749905e-05,
      "loss": 1.3561,
      "mean_token_accuracy": 0.6678018321593603,
      "num_tokens": 658178958.0,
      "step": 3925
    },
    {
      "entropy": 1.7041081885496776,
      "epoch": 0.43129823405014966,
      "grad_norm": 0.8633971214294434,
      "learning_rate": 1.842315377537952e-05,
      "loss": 1.2597,
      "mean_token_accuracy": 0.6791882663965225,
      "num_tokens": 658312769.0,
      "step": 3926
    },
    {
      "entropy": 1.6727077662944794,
      "epoch": 0.4314080909615226,
      "grad_norm": 0.7873262166976929,
      "learning_rate": 1.842224832832052e-05,
      "loss": 1.3808,
      "mean_token_accuracy": 0.6544581105311712,
      "num_tokens": 658453178.0,
      "step": 3927
    },
    {
      "entropy": 1.7058905164400737,
      "epoch": 0.43151794787289555,
      "grad_norm": 0.6460711359977722,
      "learning_rate": 1.8421342646350704e-05,
      "loss": 1.36,
      "mean_token_accuracy": 0.6649837543567022,
      "num_tokens": 658667304.0,
      "step": 3928
    },
    {
      "entropy": 1.6966310739517212,
      "epoch": 0.4316278047842685,
      "grad_norm": 0.675844669342041,
      "learning_rate": 1.8420436729498736e-05,
      "loss": 1.4495,
      "mean_token_accuracy": 0.6551729142665863,
      "num_tokens": 658824408.0,
      "step": 3929
    },
    {
      "entropy": 1.7804734110832214,
      "epoch": 0.43173766169564143,
      "grad_norm": 0.5847294926643372,
      "learning_rate": 1.841953057779329e-05,
      "loss": 1.4555,
      "mean_token_accuracy": 0.6308817764123281,
      "num_tokens": 659070341.0,
      "step": 3930
    },
    {
      "entropy": 1.775219549735387,
      "epoch": 0.43184751860701437,
      "grad_norm": 0.6830585598945618,
      "learning_rate": 1.8418624191263047e-05,
      "loss": 1.552,
      "mean_token_accuracy": 0.6412175844113032,
      "num_tokens": 659256021.0,
      "step": 3931
    },
    {
      "entropy": 1.711199273665746,
      "epoch": 0.4319573755183873,
      "grad_norm": 0.7030532956123352,
      "learning_rate": 1.8417717569936688e-05,
      "loss": 1.4169,
      "mean_token_accuracy": 0.654847651720047,
      "num_tokens": 659433299.0,
      "step": 3932
    },
    {
      "entropy": 1.7225093841552734,
      "epoch": 0.43206723242976025,
      "grad_norm": 0.7642560601234436,
      "learning_rate": 1.841681071384291e-05,
      "loss": 1.5811,
      "mean_token_accuracy": 0.6175984516739845,
      "num_tokens": 659652811.0,
      "step": 3933
    },
    {
      "entropy": 1.6770412425200145,
      "epoch": 0.4321770893411332,
      "grad_norm": 0.634323000907898,
      "learning_rate": 1.8415903623010415e-05,
      "loss": 1.5018,
      "mean_token_accuracy": 0.6280664106210073,
      "num_tokens": 659865805.0,
      "step": 3934
    },
    {
      "entropy": 1.7322843472162883,
      "epoch": 0.43228694625250613,
      "grad_norm": 0.9006372094154358,
      "learning_rate": 1.8414996297467917e-05,
      "loss": 1.3899,
      "mean_token_accuracy": 0.6665350049734116,
      "num_tokens": 660052306.0,
      "step": 3935
    },
    {
      "entropy": 1.7359480261802673,
      "epoch": 0.4323968031638791,
      "grad_norm": 0.6146532297134399,
      "learning_rate": 1.841408873724412e-05,
      "loss": 1.5926,
      "mean_token_accuracy": 0.6407150129477183,
      "num_tokens": 660243568.0,
      "step": 3936
    },
    {
      "entropy": 1.7125855485598247,
      "epoch": 0.43250666007525196,
      "grad_norm": 0.718245267868042,
      "learning_rate": 1.841318094236776e-05,
      "loss": 1.4883,
      "mean_token_accuracy": 0.6494996398687363,
      "num_tokens": 660530282.0,
      "step": 3937
    },
    {
      "entropy": 1.749464641014735,
      "epoch": 0.4326165169866249,
      "grad_norm": 0.7096315622329712,
      "learning_rate": 1.8412272912867563e-05,
      "loss": 1.3765,
      "mean_token_accuracy": 0.6703631083170573,
      "num_tokens": 660667046.0,
      "step": 3938
    },
    {
      "entropy": 1.7773485879103343,
      "epoch": 0.43272637389799784,
      "grad_norm": 0.9372892379760742,
      "learning_rate": 1.8411364648772268e-05,
      "loss": 1.6595,
      "mean_token_accuracy": 0.6321366230646769,
      "num_tokens": 660833411.0,
      "step": 3939
    },
    {
      "entropy": 1.7520179847876232,
      "epoch": 0.4328362308093708,
      "grad_norm": 0.6285591721534729,
      "learning_rate": 1.841045615011062e-05,
      "loss": 1.3919,
      "mean_token_accuracy": 0.6557580778996149,
      "num_tokens": 661011775.0,
      "step": 3940
    },
    {
      "entropy": 1.736931214729945,
      "epoch": 0.4329460877207437,
      "grad_norm": 0.7110692262649536,
      "learning_rate": 1.8409547416911378e-05,
      "loss": 1.4228,
      "mean_token_accuracy": 0.6697671810785929,
      "num_tokens": 661139457.0,
      "step": 3941
    },
    {
      "entropy": 1.7010645965735118,
      "epoch": 0.43305594463211666,
      "grad_norm": 0.6413223743438721,
      "learning_rate": 1.8408638449203296e-05,
      "loss": 1.3613,
      "mean_token_accuracy": 0.6522543032964071,
      "num_tokens": 661303901.0,
      "step": 3942
    },
    {
      "entropy": 1.7435734967390697,
      "epoch": 0.4331658015434896,
      "grad_norm": 0.7069315910339355,
      "learning_rate": 1.8407729247015146e-05,
      "loss": 1.6427,
      "mean_token_accuracy": 0.619743749499321,
      "num_tokens": 661521048.0,
      "step": 3943
    },
    {
      "entropy": 1.6970693071683247,
      "epoch": 0.43327565845486254,
      "grad_norm": 0.7432729601860046,
      "learning_rate": 1.8406819810375706e-05,
      "loss": 1.4804,
      "mean_token_accuracy": 0.6531406243642172,
      "num_tokens": 661687623.0,
      "step": 3944
    },
    {
      "entropy": 1.770354559024175,
      "epoch": 0.4333855153662355,
      "grad_norm": 0.6008591651916504,
      "learning_rate": 1.840591013931375e-05,
      "loss": 1.3533,
      "mean_token_accuracy": 0.655795618891716,
      "num_tokens": 661876251.0,
      "step": 3945
    },
    {
      "entropy": 1.770843635002772,
      "epoch": 0.4334953722776084,
      "grad_norm": 0.7439899444580078,
      "learning_rate": 1.8405000233858083e-05,
      "loss": 1.4859,
      "mean_token_accuracy": 0.6457716375589371,
      "num_tokens": 662002220.0,
      "step": 3946
    },
    {
      "entropy": 1.7036712368329365,
      "epoch": 0.43360522918898137,
      "grad_norm": 0.6265702247619629,
      "learning_rate": 1.8404090094037488e-05,
      "loss": 1.536,
      "mean_token_accuracy": 0.6389161348342896,
      "num_tokens": 662199953.0,
      "step": 3947
    },
    {
      "entropy": 1.6811943848927815,
      "epoch": 0.4337150861003543,
      "grad_norm": 0.6257259249687195,
      "learning_rate": 1.8403179719880782e-05,
      "loss": 1.3708,
      "mean_token_accuracy": 0.6628421694040298,
      "num_tokens": 662393764.0,
      "step": 3948
    },
    {
      "entropy": 1.6686974863211315,
      "epoch": 0.43382494301172725,
      "grad_norm": 0.6457135081291199,
      "learning_rate": 1.8402269111416776e-05,
      "loss": 1.5583,
      "mean_token_accuracy": 0.6230059290925661,
      "num_tokens": 662600456.0,
      "step": 3949
    },
    {
      "entropy": 1.7240578730901082,
      "epoch": 0.4339347999231002,
      "grad_norm": 0.6716305017471313,
      "learning_rate": 1.8401358268674282e-05,
      "loss": 1.5154,
      "mean_token_accuracy": 0.6316413730382919,
      "num_tokens": 662798175.0,
      "step": 3950
    },
    {
      "entropy": 1.711452802022298,
      "epoch": 0.4340446568344731,
      "grad_norm": 0.7926602363586426,
      "learning_rate": 1.840044719168214e-05,
      "loss": 1.4417,
      "mean_token_accuracy": 0.6603543410698572,
      "num_tokens": 662943808.0,
      "step": 3951
    },
    {
      "entropy": 1.692206621170044,
      "epoch": 0.434154513745846,
      "grad_norm": 0.7351948022842407,
      "learning_rate": 1.8399535880469174e-05,
      "loss": 1.3929,
      "mean_token_accuracy": 0.6664231171210607,
      "num_tokens": 663096189.0,
      "step": 3952
    },
    {
      "entropy": 1.6513939301172893,
      "epoch": 0.43426437065721896,
      "grad_norm": 0.9081413149833679,
      "learning_rate": 1.8398624335064234e-05,
      "loss": 1.5123,
      "mean_token_accuracy": 0.6428524355093638,
      "num_tokens": 663262484.0,
      "step": 3953
    },
    {
      "entropy": 1.6838249266147614,
      "epoch": 0.4343742275685919,
      "grad_norm": 0.6735399961471558,
      "learning_rate": 1.839771255549617e-05,
      "loss": 1.3138,
      "mean_token_accuracy": 0.6686491419871649,
      "num_tokens": 663412036.0,
      "step": 3954
    },
    {
      "entropy": 1.705833335717519,
      "epoch": 0.43448408447996484,
      "grad_norm": 0.6810485124588013,
      "learning_rate": 1.8396800541793837e-05,
      "loss": 1.3139,
      "mean_token_accuracy": 0.6651433457930883,
      "num_tokens": 663526186.0,
      "step": 3955
    },
    {
      "entropy": 1.729738712310791,
      "epoch": 0.4345939413913378,
      "grad_norm": 0.7022128701210022,
      "learning_rate": 1.8395888293986096e-05,
      "loss": 1.3078,
      "mean_token_accuracy": 0.6703850577274958,
      "num_tokens": 663670981.0,
      "step": 3956
    },
    {
      "entropy": 1.701034019390742,
      "epoch": 0.4347037983027107,
      "grad_norm": 0.6978190541267395,
      "learning_rate": 1.8394975812101824e-05,
      "loss": 1.4422,
      "mean_token_accuracy": 0.6494102279345194,
      "num_tokens": 663868779.0,
      "step": 3957
    },
    {
      "entropy": 1.7295649846394856,
      "epoch": 0.43481365521408366,
      "grad_norm": 0.6927241683006287,
      "learning_rate": 1.8394063096169904e-05,
      "loss": 1.3859,
      "mean_token_accuracy": 0.6548526287078857,
      "num_tokens": 664041829.0,
      "step": 3958
    },
    {
      "entropy": 1.7171918253103893,
      "epoch": 0.4349235121254566,
      "grad_norm": 0.745561420917511,
      "learning_rate": 1.8393150146219214e-05,
      "loss": 1.4569,
      "mean_token_accuracy": 0.6500047942002615,
      "num_tokens": 664221934.0,
      "step": 3959
    },
    {
      "entropy": 1.6659683287143707,
      "epoch": 0.43503336903682954,
      "grad_norm": 0.6515949368476868,
      "learning_rate": 1.8392236962278656e-05,
      "loss": 1.3887,
      "mean_token_accuracy": 0.6540011912584305,
      "num_tokens": 664382086.0,
      "step": 3960
    },
    {
      "entropy": 1.6935789982477825,
      "epoch": 0.4351432259482025,
      "grad_norm": 0.6703075766563416,
      "learning_rate": 1.839132354437713e-05,
      "loss": 1.4385,
      "mean_token_accuracy": 0.6582238326470057,
      "num_tokens": 664527955.0,
      "step": 3961
    },
    {
      "entropy": 1.7064592937628429,
      "epoch": 0.4352530828595754,
      "grad_norm": 0.6275252103805542,
      "learning_rate": 1.839040989254354e-05,
      "loss": 1.346,
      "mean_token_accuracy": 0.6551967660586039,
      "num_tokens": 664697710.0,
      "step": 3962
    },
    {
      "entropy": 1.7683529754479725,
      "epoch": 0.43536293977094837,
      "grad_norm": 0.7211574912071228,
      "learning_rate": 1.838949600680681e-05,
      "loss": 1.374,
      "mean_token_accuracy": 0.6625560075044632,
      "num_tokens": 664850356.0,
      "step": 3963
    },
    {
      "entropy": 1.7406555513540904,
      "epoch": 0.43547279668232125,
      "grad_norm": 0.6910867094993591,
      "learning_rate": 1.838858188719586e-05,
      "loss": 1.2189,
      "mean_token_accuracy": 0.6768646488587061,
      "num_tokens": 664945901.0,
      "step": 3964
    },
    {
      "entropy": 1.746801644563675,
      "epoch": 0.4355826535936942,
      "grad_norm": 0.7130513787269592,
      "learning_rate": 1.8387667533739627e-05,
      "loss": 1.3185,
      "mean_token_accuracy": 0.6610147307316462,
      "num_tokens": 665097327.0,
      "step": 3965
    },
    {
      "entropy": 1.7367882827917736,
      "epoch": 0.43569251050506713,
      "grad_norm": 0.7409621477127075,
      "learning_rate": 1.8386752946467043e-05,
      "loss": 1.3773,
      "mean_token_accuracy": 0.6539178440968195,
      "num_tokens": 665328976.0,
      "step": 3966
    },
    {
      "entropy": 1.6604821781317394,
      "epoch": 0.4358023674164401,
      "grad_norm": 0.6217142343521118,
      "learning_rate": 1.8385838125407053e-05,
      "loss": 1.3066,
      "mean_token_accuracy": 0.6670824587345123,
      "num_tokens": 665484819.0,
      "step": 3967
    },
    {
      "entropy": 1.637445976336797,
      "epoch": 0.435912224327813,
      "grad_norm": 0.6176252365112305,
      "learning_rate": 1.838492307058862e-05,
      "loss": 1.409,
      "mean_token_accuracy": 0.6582680841286978,
      "num_tokens": 665638564.0,
      "step": 3968
    },
    {
      "entropy": 1.7330170969168346,
      "epoch": 0.43602208123918595,
      "grad_norm": 0.8453408479690552,
      "learning_rate": 1.8384007782040693e-05,
      "loss": 1.3667,
      "mean_token_accuracy": 0.6572331438461939,
      "num_tokens": 665789481.0,
      "step": 3969
    },
    {
      "entropy": 1.7294095953305562,
      "epoch": 0.4361319381505589,
      "grad_norm": 0.7358590960502625,
      "learning_rate": 1.8383092259792254e-05,
      "loss": 1.3653,
      "mean_token_accuracy": 0.6577903230985006,
      "num_tokens": 665932917.0,
      "step": 3970
    },
    {
      "entropy": 1.735178271929423,
      "epoch": 0.43624179506193184,
      "grad_norm": 0.6520756483078003,
      "learning_rate": 1.8382176503872266e-05,
      "loss": 1.3795,
      "mean_token_accuracy": 0.6685875505208969,
      "num_tokens": 666070750.0,
      "step": 3971
    },
    {
      "entropy": 1.7012029190858204,
      "epoch": 0.4363516519733048,
      "grad_norm": 0.640774130821228,
      "learning_rate": 1.8381260514309722e-05,
      "loss": 1.6331,
      "mean_token_accuracy": 0.6277043521404266,
      "num_tokens": 666299387.0,
      "step": 3972
    },
    {
      "entropy": 1.7609250446160634,
      "epoch": 0.4364615088846777,
      "grad_norm": 0.6770412921905518,
      "learning_rate": 1.838034429113361e-05,
      "loss": 1.3659,
      "mean_token_accuracy": 0.6573913991451263,
      "num_tokens": 666416424.0,
      "step": 3973
    },
    {
      "entropy": 1.7060511807600658,
      "epoch": 0.43657136579605066,
      "grad_norm": 0.7520270943641663,
      "learning_rate": 1.837942783437292e-05,
      "loss": 1.527,
      "mean_token_accuracy": 0.670257126291593,
      "num_tokens": 666584190.0,
      "step": 3974
    },
    {
      "entropy": 1.722565899292628,
      "epoch": 0.4366812227074236,
      "grad_norm": 0.6892067193984985,
      "learning_rate": 1.8378511144056673e-05,
      "loss": 1.4379,
      "mean_token_accuracy": 0.6610093315442404,
      "num_tokens": 666777502.0,
      "step": 3975
    },
    {
      "entropy": 1.7519932488600414,
      "epoch": 0.43679107961879654,
      "grad_norm": 0.701661229133606,
      "learning_rate": 1.8377594220213867e-05,
      "loss": 1.5047,
      "mean_token_accuracy": 0.6375877310832342,
      "num_tokens": 666962588.0,
      "step": 3976
    },
    {
      "entropy": 1.7207889755566914,
      "epoch": 0.4369009365301695,
      "grad_norm": 0.705245316028595,
      "learning_rate": 1.837667706287353e-05,
      "loss": 1.4913,
      "mean_token_accuracy": 0.6380893290042877,
      "num_tokens": 667138508.0,
      "step": 3977
    },
    {
      "entropy": 1.7350668410460155,
      "epoch": 0.43701079344154237,
      "grad_norm": 0.6259267330169678,
      "learning_rate": 1.837575967206469e-05,
      "loss": 1.3351,
      "mean_token_accuracy": 0.6648585498332977,
      "num_tokens": 667306171.0,
      "step": 3978
    },
    {
      "entropy": 1.6554445624351501,
      "epoch": 0.4371206503529153,
      "grad_norm": 0.7273040413856506,
      "learning_rate": 1.837484204781638e-05,
      "loss": 1.5635,
      "mean_token_accuracy": 0.639080340663592,
      "num_tokens": 667481940.0,
      "step": 3979
    },
    {
      "entropy": 1.6817783216635387,
      "epoch": 0.43723050726428825,
      "grad_norm": 0.6706110835075378,
      "learning_rate": 1.837392419015764e-05,
      "loss": 1.2797,
      "mean_token_accuracy": 0.6793971409400305,
      "num_tokens": 667638137.0,
      "step": 3980
    },
    {
      "entropy": 1.6714449326197307,
      "epoch": 0.4373403641756612,
      "grad_norm": 0.6944328546524048,
      "learning_rate": 1.837300609911752e-05,
      "loss": 1.4153,
      "mean_token_accuracy": 0.6490057408809662,
      "num_tokens": 667801298.0,
      "step": 3981
    },
    {
      "entropy": 1.7301402886708577,
      "epoch": 0.43745022108703413,
      "grad_norm": 0.6663272380828857,
      "learning_rate": 1.8372087774725086e-05,
      "loss": 1.3182,
      "mean_token_accuracy": 0.6672502309083939,
      "num_tokens": 667935582.0,
      "step": 3982
    },
    {
      "entropy": 1.6425547401110332,
      "epoch": 0.43756007799840707,
      "grad_norm": 0.6449568271636963,
      "learning_rate": 1.837116921700939e-05,
      "loss": 1.3805,
      "mean_token_accuracy": 0.6671392023563385,
      "num_tokens": 668108676.0,
      "step": 3983
    },
    {
      "entropy": 1.7166595160961151,
      "epoch": 0.43766993490978,
      "grad_norm": 0.7882794737815857,
      "learning_rate": 1.8370250425999513e-05,
      "loss": 1.5201,
      "mean_token_accuracy": 0.6302592655022939,
      "num_tokens": 668335947.0,
      "step": 3984
    },
    {
      "entropy": 1.6976383328437805,
      "epoch": 0.43777979182115295,
      "grad_norm": 0.7272980809211731,
      "learning_rate": 1.836933140172453e-05,
      "loss": 1.3725,
      "mean_token_accuracy": 0.6644467264413834,
      "num_tokens": 668487476.0,
      "step": 3985
    },
    {
      "entropy": 1.708019107580185,
      "epoch": 0.4378896487325259,
      "grad_norm": 0.6897531151771545,
      "learning_rate": 1.8368412144213527e-05,
      "loss": 1.3867,
      "mean_token_accuracy": 0.6588212251663208,
      "num_tokens": 668685652.0,
      "step": 3986
    },
    {
      "entropy": 1.7161248624324799,
      "epoch": 0.43799950564389883,
      "grad_norm": 0.6213241815567017,
      "learning_rate": 1.8367492653495603e-05,
      "loss": 1.3569,
      "mean_token_accuracy": 0.6537472208340963,
      "num_tokens": 668831434.0,
      "step": 3987
    },
    {
      "entropy": 1.6518361568450928,
      "epoch": 0.4381093625552718,
      "grad_norm": 0.6153174042701721,
      "learning_rate": 1.8366572929599853e-05,
      "loss": 1.418,
      "mean_token_accuracy": 0.6647394746541977,
      "num_tokens": 669014444.0,
      "step": 3988
    },
    {
      "entropy": 1.764929711818695,
      "epoch": 0.4382192194666447,
      "grad_norm": 0.789162278175354,
      "learning_rate": 1.8365652972555395e-05,
      "loss": 1.214,
      "mean_token_accuracy": 0.6773978173732758,
      "num_tokens": 669117485.0,
      "step": 3989
    },
    {
      "entropy": 1.732424944639206,
      "epoch": 0.43832907637801766,
      "grad_norm": 0.7520033121109009,
      "learning_rate": 1.836473278239133e-05,
      "loss": 1.3209,
      "mean_token_accuracy": 0.6744516342878342,
      "num_tokens": 669273942.0,
      "step": 3990
    },
    {
      "entropy": 1.7452230354150136,
      "epoch": 0.43843893328939054,
      "grad_norm": 1.1524012088775635,
      "learning_rate": 1.83638123591368e-05,
      "loss": 1.1884,
      "mean_token_accuracy": 0.662539561589559,
      "num_tokens": 669456919.0,
      "step": 3991
    },
    {
      "entropy": 1.7065231601397197,
      "epoch": 0.4385487902007635,
      "grad_norm": 0.8054308891296387,
      "learning_rate": 1.8362891702820928e-05,
      "loss": 1.4485,
      "mean_token_accuracy": 0.6653054704268774,
      "num_tokens": 669595872.0,
      "step": 3992
    },
    {
      "entropy": 1.6997679869333904,
      "epoch": 0.4386586471121364,
      "grad_norm": 0.6387143731117249,
      "learning_rate": 1.8361970813472847e-05,
      "loss": 1.4909,
      "mean_token_accuracy": 0.6452397058407465,
      "num_tokens": 669834698.0,
      "step": 3993
    },
    {
      "entropy": 1.6552885274092357,
      "epoch": 0.43876850402350936,
      "grad_norm": 0.659257173538208,
      "learning_rate": 1.8361049691121703e-05,
      "loss": 1.3508,
      "mean_token_accuracy": 0.6857950339714686,
      "num_tokens": 670012914.0,
      "step": 3994
    },
    {
      "entropy": 1.7258447209994,
      "epoch": 0.4388783609348823,
      "grad_norm": 0.6504175066947937,
      "learning_rate": 1.836012833579666e-05,
      "loss": 1.3421,
      "mean_token_accuracy": 0.6709899504979452,
      "num_tokens": 670167144.0,
      "step": 3995
    },
    {
      "entropy": 1.6821411649386089,
      "epoch": 0.43898821784625525,
      "grad_norm": 0.7438737750053406,
      "learning_rate": 1.835920674752687e-05,
      "loss": 1.4678,
      "mean_token_accuracy": 0.6426598926385244,
      "num_tokens": 670364528.0,
      "step": 3996
    },
    {
      "entropy": 1.6863566239674885,
      "epoch": 0.4390980747576282,
      "grad_norm": 0.6272345185279846,
      "learning_rate": 1.8358284926341502e-05,
      "loss": 1.3699,
      "mean_token_accuracy": 0.6651715586582819,
      "num_tokens": 670559676.0,
      "step": 3997
    },
    {
      "entropy": 1.7127248346805573,
      "epoch": 0.43920793166900113,
      "grad_norm": 0.7947668433189392,
      "learning_rate": 1.835736287226973e-05,
      "loss": 1.5277,
      "mean_token_accuracy": 0.6522035598754883,
      "num_tokens": 670751739.0,
      "step": 3998
    },
    {
      "entropy": 1.6697716514269512,
      "epoch": 0.43931778858037407,
      "grad_norm": 0.7031921744346619,
      "learning_rate": 1.835644058534074e-05,
      "loss": 1.4262,
      "mean_token_accuracy": 0.668352390329043,
      "num_tokens": 670926584.0,
      "step": 3999
    },
    {
      "entropy": 1.7474531829357147,
      "epoch": 0.439427645491747,
      "grad_norm": 0.8411499261856079,
      "learning_rate": 1.8355518065583725e-05,
      "loss": 1.3682,
      "mean_token_accuracy": 0.6587245215972265,
      "num_tokens": 671068877.0,
      "step": 4000
    },
    {
      "entropy": 1.7535376648108165,
      "epoch": 0.43953750240311995,
      "grad_norm": 0.6565456986427307,
      "learning_rate": 1.835459531302787e-05,
      "loss": 1.4578,
      "mean_token_accuracy": 0.636372705300649,
      "num_tokens": 671261086.0,
      "step": 4001
    },
    {
      "entropy": 1.7117730776468914,
      "epoch": 0.4396473593144929,
      "grad_norm": 0.7486881613731384,
      "learning_rate": 1.835367232770239e-05,
      "loss": 1.4796,
      "mean_token_accuracy": 0.6628977358341217,
      "num_tokens": 671432376.0,
      "step": 4002
    },
    {
      "entropy": 1.6681561470031738,
      "epoch": 0.43975721622586583,
      "grad_norm": 0.7439094185829163,
      "learning_rate": 1.8352749109636498e-05,
      "loss": 1.5121,
      "mean_token_accuracy": 0.6407729138930639,
      "num_tokens": 671633326.0,
      "step": 4003
    },
    {
      "entropy": 1.726431320110957,
      "epoch": 0.4398670731372388,
      "grad_norm": 0.6899568438529968,
      "learning_rate": 1.8351825658859405e-05,
      "loss": 1.3619,
      "mean_token_accuracy": 0.6614230573177338,
      "num_tokens": 671759712.0,
      "step": 4004
    },
    {
      "entropy": 1.7370514472325642,
      "epoch": 0.43997693004861166,
      "grad_norm": 0.6520119905471802,
      "learning_rate": 1.8350901975400347e-05,
      "loss": 1.3351,
      "mean_token_accuracy": 0.6576328774293264,
      "num_tokens": 671896888.0,
      "step": 4005
    },
    {
      "entropy": 1.6817982296148937,
      "epoch": 0.4400867869599846,
      "grad_norm": 0.6815257668495178,
      "learning_rate": 1.834997805928855e-05,
      "loss": 1.3744,
      "mean_token_accuracy": 0.6502506881952286,
      "num_tokens": 672042565.0,
      "step": 4006
    },
    {
      "entropy": 1.7248376111189525,
      "epoch": 0.44019664387135754,
      "grad_norm": 0.5518606901168823,
      "learning_rate": 1.8349053910553264e-05,
      "loss": 1.4485,
      "mean_token_accuracy": 0.6401482870181402,
      "num_tokens": 672283150.0,
      "step": 4007
    },
    {
      "entropy": 1.7700274089972179,
      "epoch": 0.4403065007827305,
      "grad_norm": 0.85428386926651,
      "learning_rate": 1.834812952922373e-05,
      "loss": 1.4366,
      "mean_token_accuracy": 0.64705158273379,
      "num_tokens": 672418954.0,
      "step": 4008
    },
    {
      "entropy": 1.574070413907369,
      "epoch": 0.4404163576941034,
      "grad_norm": 0.7439473867416382,
      "learning_rate": 1.8347204915329207e-05,
      "loss": 1.2231,
      "mean_token_accuracy": 0.6847544858853022,
      "num_tokens": 672559063.0,
      "step": 4009
    },
    {
      "entropy": 1.7344237864017487,
      "epoch": 0.44052621460547636,
      "grad_norm": 0.6516211628913879,
      "learning_rate": 1.834628006889896e-05,
      "loss": 1.3989,
      "mean_token_accuracy": 0.6455797751744589,
      "num_tokens": 672704524.0,
      "step": 4010
    },
    {
      "entropy": 1.7220177451769512,
      "epoch": 0.4406360715168493,
      "grad_norm": 0.6377677321434021,
      "learning_rate": 1.8345354989962262e-05,
      "loss": 1.4016,
      "mean_token_accuracy": 0.6649409184853236,
      "num_tokens": 672869556.0,
      "step": 4011
    },
    {
      "entropy": 1.7253966728846233,
      "epoch": 0.44074592842822224,
      "grad_norm": 0.7619969844818115,
      "learning_rate": 1.834442967854838e-05,
      "loss": 1.3548,
      "mean_token_accuracy": 0.6682330717643102,
      "num_tokens": 673023121.0,
      "step": 4012
    },
    {
      "entropy": 1.6592314541339874,
      "epoch": 0.4408557853395952,
      "grad_norm": 0.8172975778579712,
      "learning_rate": 1.834350413468662e-05,
      "loss": 1.3785,
      "mean_token_accuracy": 0.6685704290866852,
      "num_tokens": 673202298.0,
      "step": 4013
    },
    {
      "entropy": 1.6940802733103435,
      "epoch": 0.4409656422509681,
      "grad_norm": 0.8062915802001953,
      "learning_rate": 1.8342578358406253e-05,
      "loss": 1.446,
      "mean_token_accuracy": 0.6594598790009817,
      "num_tokens": 673377211.0,
      "step": 4014
    },
    {
      "entropy": 1.7303107678890228,
      "epoch": 0.44107549916234107,
      "grad_norm": 0.7482844591140747,
      "learning_rate": 1.8341652349736593e-05,
      "loss": 1.4081,
      "mean_token_accuracy": 0.6585040787855784,
      "num_tokens": 673529505.0,
      "step": 4015
    },
    {
      "entropy": 1.7489991386731465,
      "epoch": 0.441185356073714,
      "grad_norm": 0.7208905220031738,
      "learning_rate": 1.8340726108706948e-05,
      "loss": 1.4499,
      "mean_token_accuracy": 0.6458181291818619,
      "num_tokens": 673705981.0,
      "step": 4016
    },
    {
      "entropy": 1.708936224381129,
      "epoch": 0.44129521298508695,
      "grad_norm": 0.6100684404373169,
      "learning_rate": 1.8339799635346624e-05,
      "loss": 1.4808,
      "mean_token_accuracy": 0.6417776246865591,
      "num_tokens": 673975367.0,
      "step": 4017
    },
    {
      "entropy": 1.6850675543149312,
      "epoch": 0.44140506989645983,
      "grad_norm": 0.5926774740219116,
      "learning_rate": 1.8338872929684953e-05,
      "loss": 1.4223,
      "mean_token_accuracy": 0.651220291852951,
      "num_tokens": 674168873.0,
      "step": 4018
    },
    {
      "entropy": 1.709786633650462,
      "epoch": 0.4415149268078328,
      "grad_norm": 0.8183510899543762,
      "learning_rate": 1.833794599175126e-05,
      "loss": 1.3911,
      "mean_token_accuracy": 0.6542472541332245,
      "num_tokens": 674343048.0,
      "step": 4019
    },
    {
      "entropy": 1.7094794114430745,
      "epoch": 0.4416247837192057,
      "grad_norm": 0.7141227126121521,
      "learning_rate": 1.833701882157488e-05,
      "loss": 1.43,
      "mean_token_accuracy": 0.6631141652663549,
      "num_tokens": 674505930.0,
      "step": 4020
    },
    {
      "entropy": 1.7598174810409546,
      "epoch": 0.44173464063057866,
      "grad_norm": 0.6930931210517883,
      "learning_rate": 1.833609141918516e-05,
      "loss": 1.4248,
      "mean_token_accuracy": 0.6471636444330215,
      "num_tokens": 674681600.0,
      "step": 4021
    },
    {
      "entropy": 1.7052448689937592,
      "epoch": 0.4418444975419516,
      "grad_norm": 0.748052716255188,
      "learning_rate": 1.833516378461146e-05,
      "loss": 1.4185,
      "mean_token_accuracy": 0.6527615735928217,
      "num_tokens": 674852988.0,
      "step": 4022
    },
    {
      "entropy": 1.735913723707199,
      "epoch": 0.44195435445332454,
      "grad_norm": 0.8284699320793152,
      "learning_rate": 1.8334235917883124e-05,
      "loss": 1.5755,
      "mean_token_accuracy": 0.6278869633873304,
      "num_tokens": 675030743.0,
      "step": 4023
    },
    {
      "entropy": 1.718154142300288,
      "epoch": 0.4420642113646975,
      "grad_norm": 0.8008006811141968,
      "learning_rate": 1.833330781902953e-05,
      "loss": 1.258,
      "mean_token_accuracy": 0.6701284448305765,
      "num_tokens": 675149913.0,
      "step": 4024
    },
    {
      "entropy": 1.6997297902901967,
      "epoch": 0.4421740682760704,
      "grad_norm": 0.9283497929573059,
      "learning_rate": 1.8332379488080046e-05,
      "loss": 1.1681,
      "mean_token_accuracy": 0.6950256576140722,
      "num_tokens": 675290297.0,
      "step": 4025
    },
    {
      "entropy": 1.7370579838752747,
      "epoch": 0.44228392518744336,
      "grad_norm": 0.7015495896339417,
      "learning_rate": 1.8331450925064057e-05,
      "loss": 1.3353,
      "mean_token_accuracy": 0.6572895298401514,
      "num_tokens": 675441895.0,
      "step": 4026
    },
    {
      "entropy": 1.638562301794688,
      "epoch": 0.4423937820988163,
      "grad_norm": 0.6312068700790405,
      "learning_rate": 1.833052213001095e-05,
      "loss": 1.271,
      "mean_token_accuracy": 0.6829714129368464,
      "num_tokens": 675571939.0,
      "step": 4027
    },
    {
      "entropy": 1.763380487759908,
      "epoch": 0.44250363901018924,
      "grad_norm": 0.7643721699714661,
      "learning_rate": 1.8329593102950115e-05,
      "loss": 1.4964,
      "mean_token_accuracy": 0.6557734707991282,
      "num_tokens": 675760546.0,
      "step": 4028
    },
    {
      "entropy": 1.675294816493988,
      "epoch": 0.4426134959215622,
      "grad_norm": 0.7117913365364075,
      "learning_rate": 1.832866384391097e-05,
      "loss": 1.3794,
      "mean_token_accuracy": 0.6646661460399628,
      "num_tokens": 675909939.0,
      "step": 4029
    },
    {
      "entropy": 1.7222477793693542,
      "epoch": 0.4427233528329351,
      "grad_norm": 0.609602153301239,
      "learning_rate": 1.8327734352922912e-05,
      "loss": 1.385,
      "mean_token_accuracy": 0.6593077381451925,
      "num_tokens": 676074765.0,
      "step": 4030
    },
    {
      "entropy": 1.7006352543830872,
      "epoch": 0.44283320974430807,
      "grad_norm": 0.6742071509361267,
      "learning_rate": 1.8326804630015364e-05,
      "loss": 1.4513,
      "mean_token_accuracy": 0.6537482092777888,
      "num_tokens": 676233903.0,
      "step": 4031
    },
    {
      "entropy": 1.672971785068512,
      "epoch": 0.44294306665568095,
      "grad_norm": 0.7731028199195862,
      "learning_rate": 1.8325874675217747e-05,
      "loss": 1.293,
      "mean_token_accuracy": 0.6704902996619543,
      "num_tokens": 676397595.0,
      "step": 4032
    },
    {
      "entropy": 1.7384453018506367,
      "epoch": 0.4430529235670539,
      "grad_norm": 0.9834579825401306,
      "learning_rate": 1.8324944488559505e-05,
      "loss": 1.5189,
      "mean_token_accuracy": 0.6412886679172516,
      "num_tokens": 676566969.0,
      "step": 4033
    },
    {
      "entropy": 1.7224073906739552,
      "epoch": 0.44316278047842683,
      "grad_norm": 0.6622791290283203,
      "learning_rate": 1.8324014070070063e-05,
      "loss": 1.563,
      "mean_token_accuracy": 0.6388835261265436,
      "num_tokens": 676803944.0,
      "step": 4034
    },
    {
      "entropy": 1.7606834868590038,
      "epoch": 0.4432726373897998,
      "grad_norm": 0.6880962252616882,
      "learning_rate": 1.832308341977888e-05,
      "loss": 1.3521,
      "mean_token_accuracy": 0.6607374300559362,
      "num_tokens": 676954542.0,
      "step": 4035
    },
    {
      "entropy": 1.6744478940963745,
      "epoch": 0.4433824943011727,
      "grad_norm": 0.7972778081893921,
      "learning_rate": 1.8322152537715408e-05,
      "loss": 1.4395,
      "mean_token_accuracy": 0.6546510507663091,
      "num_tokens": 677134397.0,
      "step": 4036
    },
    {
      "entropy": 1.6546966234842937,
      "epoch": 0.44349235121254565,
      "grad_norm": 0.7038325667381287,
      "learning_rate": 1.8321221423909105e-05,
      "loss": 1.2629,
      "mean_token_accuracy": 0.6734778136014938,
      "num_tokens": 677303311.0,
      "step": 4037
    },
    {
      "entropy": 1.744826744000117,
      "epoch": 0.4436022081239186,
      "grad_norm": 0.739396333694458,
      "learning_rate": 1.8320290078389448e-05,
      "loss": 1.5118,
      "mean_token_accuracy": 0.65053657690684,
      "num_tokens": 677507834.0,
      "step": 4038
    },
    {
      "entropy": 1.6409766773382823,
      "epoch": 0.44371206503529154,
      "grad_norm": 0.7920038104057312,
      "learning_rate": 1.8319358501185903e-05,
      "loss": 1.5389,
      "mean_token_accuracy": 0.6472673763831457,
      "num_tokens": 677656509.0,
      "step": 4039
    },
    {
      "entropy": 1.7347593108812969,
      "epoch": 0.4438219219466645,
      "grad_norm": 0.7497395873069763,
      "learning_rate": 1.8318426692327958e-05,
      "loss": 1.5772,
      "mean_token_accuracy": 0.6470949848492941,
      "num_tokens": 677792553.0,
      "step": 4040
    },
    {
      "entropy": 1.7003744939963024,
      "epoch": 0.4439317788580374,
      "grad_norm": 0.6454471945762634,
      "learning_rate": 1.8317494651845113e-05,
      "loss": 1.3954,
      "mean_token_accuracy": 0.6603303998708725,
      "num_tokens": 677975581.0,
      "step": 4041
    },
    {
      "entropy": 1.724554717540741,
      "epoch": 0.44404163576941036,
      "grad_norm": 0.7715175747871399,
      "learning_rate": 1.8316562379766855e-05,
      "loss": 1.6706,
      "mean_token_accuracy": 0.6182306359211603,
      "num_tokens": 678156142.0,
      "step": 4042
    },
    {
      "entropy": 1.7756297886371613,
      "epoch": 0.4441514926807833,
      "grad_norm": 0.7351700663566589,
      "learning_rate": 1.83156298761227e-05,
      "loss": 1.5132,
      "mean_token_accuracy": 0.6380604902903239,
      "num_tokens": 678314615.0,
      "step": 4043
    },
    {
      "entropy": 1.6692375938097637,
      "epoch": 0.44426134959215624,
      "grad_norm": 0.7419458627700806,
      "learning_rate": 1.831469714094215e-05,
      "loss": 1.3315,
      "mean_token_accuracy": 0.6649828652540842,
      "num_tokens": 678494083.0,
      "step": 4044
    },
    {
      "entropy": 1.7391583820184071,
      "epoch": 0.4443712065035291,
      "grad_norm": 0.6613411903381348,
      "learning_rate": 1.831376417425473e-05,
      "loss": 1.4028,
      "mean_token_accuracy": 0.6531075437863668,
      "num_tokens": 678688690.0,
      "step": 4045
    },
    {
      "entropy": 1.7318035662174225,
      "epoch": 0.44448106341490207,
      "grad_norm": 0.6976780295372009,
      "learning_rate": 1.831283097608997e-05,
      "loss": 1.429,
      "mean_token_accuracy": 0.6665694663921992,
      "num_tokens": 678819678.0,
      "step": 4046
    },
    {
      "entropy": 1.6295676430066426,
      "epoch": 0.444590920326275,
      "grad_norm": 0.6185345649719238,
      "learning_rate": 1.8311897546477412e-05,
      "loss": 1.3514,
      "mean_token_accuracy": 0.6613521029551824,
      "num_tokens": 679001480.0,
      "step": 4047
    },
    {
      "entropy": 1.7244457403818767,
      "epoch": 0.44470077723764795,
      "grad_norm": 0.7285200953483582,
      "learning_rate": 1.831096388544659e-05,
      "loss": 1.5472,
      "mean_token_accuracy": 0.6468717704216639,
      "num_tokens": 679229552.0,
      "step": 4048
    },
    {
      "entropy": 1.6660625040531158,
      "epoch": 0.4448106341490209,
      "grad_norm": 0.7275331020355225,
      "learning_rate": 1.831002999302705e-05,
      "loss": 1.3838,
      "mean_token_accuracy": 0.6649215320746104,
      "num_tokens": 679408172.0,
      "step": 4049
    },
    {
      "entropy": 1.6905015210310619,
      "epoch": 0.44492049106039383,
      "grad_norm": 0.7201270461082458,
      "learning_rate": 1.8309095869248355e-05,
      "loss": 1.3025,
      "mean_token_accuracy": 0.671828548113505,
      "num_tokens": 679548700.0,
      "step": 4050
    },
    {
      "entropy": 1.6812767088413239,
      "epoch": 0.44503034797176677,
      "grad_norm": 0.666533887386322,
      "learning_rate": 1.8308161514140073e-05,
      "loss": 1.2311,
      "mean_token_accuracy": 0.6841448297103246,
      "num_tokens": 679682542.0,
      "step": 4051
    },
    {
      "entropy": 1.6990590194861095,
      "epoch": 0.4451402048831397,
      "grad_norm": 0.7694803476333618,
      "learning_rate": 1.8307226927731773e-05,
      "loss": 1.508,
      "mean_token_accuracy": 0.653964231411616,
      "num_tokens": 679890013.0,
      "step": 4052
    },
    {
      "entropy": 1.6936483283837636,
      "epoch": 0.44525006179451265,
      "grad_norm": 0.7189439535140991,
      "learning_rate": 1.830629211005303e-05,
      "loss": 1.3196,
      "mean_token_accuracy": 0.6643483489751816,
      "num_tokens": 680032399.0,
      "step": 4053
    },
    {
      "entropy": 1.7283145984013875,
      "epoch": 0.4453599187058856,
      "grad_norm": 0.6931325793266296,
      "learning_rate": 1.8305357061133432e-05,
      "loss": 1.2627,
      "mean_token_accuracy": 0.6824038575092951,
      "num_tokens": 680186468.0,
      "step": 4054
    },
    {
      "entropy": 1.7289324204126995,
      "epoch": 0.44546977561725853,
      "grad_norm": 0.7332465052604675,
      "learning_rate": 1.830442178100258e-05,
      "loss": 1.3448,
      "mean_token_accuracy": 0.6571111728747686,
      "num_tokens": 680332193.0,
      "step": 4055
    },
    {
      "entropy": 1.7295528848965962,
      "epoch": 0.4455796325286315,
      "grad_norm": 0.6440022587776184,
      "learning_rate": 1.830348626969007e-05,
      "loss": 1.3409,
      "mean_token_accuracy": 0.6647644688685735,
      "num_tokens": 680522384.0,
      "step": 4056
    },
    {
      "entropy": 1.6799738903840382,
      "epoch": 0.4456894894400044,
      "grad_norm": 0.6439666152000427,
      "learning_rate": 1.8302550527225507e-05,
      "loss": 1.4989,
      "mean_token_accuracy": 0.6489834437767664,
      "num_tokens": 680717915.0,
      "step": 4057
    },
    {
      "entropy": 1.7007416983445485,
      "epoch": 0.44579934635137736,
      "grad_norm": 0.5994968414306641,
      "learning_rate": 1.830161455363851e-05,
      "loss": 1.3362,
      "mean_token_accuracy": 0.6613183865944544,
      "num_tokens": 680932364.0,
      "step": 4058
    },
    {
      "entropy": 1.7307079831759136,
      "epoch": 0.44590920326275024,
      "grad_norm": 0.772515058517456,
      "learning_rate": 1.8300678348958708e-05,
      "loss": 1.5584,
      "mean_token_accuracy": 0.6598212644457817,
      "num_tokens": 681086770.0,
      "step": 4059
    },
    {
      "entropy": 1.7124249339103699,
      "epoch": 0.4460190601741232,
      "grad_norm": 0.6902133822441101,
      "learning_rate": 1.829974191321572e-05,
      "loss": 1.3396,
      "mean_token_accuracy": 0.6813353697458903,
      "num_tokens": 681208149.0,
      "step": 4060
    },
    {
      "entropy": 1.6109780669212341,
      "epoch": 0.4461289170854961,
      "grad_norm": 0.7003684639930725,
      "learning_rate": 1.8298805246439197e-05,
      "loss": 1.3003,
      "mean_token_accuracy": 0.6696944236755371,
      "num_tokens": 681407580.0,
      "step": 4061
    },
    {
      "entropy": 1.68620361884435,
      "epoch": 0.44623877399686906,
      "grad_norm": 0.8141494393348694,
      "learning_rate": 1.829786834865877e-05,
      "loss": 1.3527,
      "mean_token_accuracy": 0.6631912092367808,
      "num_tokens": 681612026.0,
      "step": 4062
    },
    {
      "entropy": 1.6939865350723267,
      "epoch": 0.446348630908242,
      "grad_norm": 0.75359046459198,
      "learning_rate": 1.82969312199041e-05,
      "loss": 1.34,
      "mean_token_accuracy": 0.6642651607592901,
      "num_tokens": 681769299.0,
      "step": 4063
    },
    {
      "entropy": 1.7100327412287395,
      "epoch": 0.44645848781961495,
      "grad_norm": 0.5752301812171936,
      "learning_rate": 1.8295993860204845e-05,
      "loss": 1.5232,
      "mean_token_accuracy": 0.6351617823044459,
      "num_tokens": 682005797.0,
      "step": 4064
    },
    {
      "entropy": 1.6280939678351085,
      "epoch": 0.4465683447309879,
      "grad_norm": 0.8501309156417847,
      "learning_rate": 1.8295056269590675e-05,
      "loss": 1.3887,
      "mean_token_accuracy": 0.6680960903565089,
      "num_tokens": 682239395.0,
      "step": 4065
    },
    {
      "entropy": 1.6829663415749867,
      "epoch": 0.44667820164236083,
      "grad_norm": 0.7033583521842957,
      "learning_rate": 1.8294118448091255e-05,
      "loss": 1.3061,
      "mean_token_accuracy": 0.6647171477476755,
      "num_tokens": 682383725.0,
      "step": 4066
    },
    {
      "entropy": 1.7133256395657857,
      "epoch": 0.44678805855373377,
      "grad_norm": 0.630029559135437,
      "learning_rate": 1.8293180395736278e-05,
      "loss": 1.5028,
      "mean_token_accuracy": 0.6593478719393412,
      "num_tokens": 682577842.0,
      "step": 4067
    },
    {
      "entropy": 1.6594026386737823,
      "epoch": 0.4468979154651067,
      "grad_norm": 0.7004885077476501,
      "learning_rate": 1.8292242112555428e-05,
      "loss": 1.4813,
      "mean_token_accuracy": 0.6722660760084788,
      "num_tokens": 682739696.0,
      "step": 4068
    },
    {
      "entropy": 1.6464967628320057,
      "epoch": 0.44700777237647965,
      "grad_norm": 0.6789165139198303,
      "learning_rate": 1.82913035985784e-05,
      "loss": 1.3377,
      "mean_token_accuracy": 0.6721230993668238,
      "num_tokens": 682906514.0,
      "step": 4069
    },
    {
      "entropy": 1.6850634415944417,
      "epoch": 0.4471176292878526,
      "grad_norm": 0.6883268356323242,
      "learning_rate": 1.8290364853834898e-05,
      "loss": 1.4961,
      "mean_token_accuracy": 0.6561469584703445,
      "num_tokens": 683089692.0,
      "step": 4070
    },
    {
      "entropy": 1.722246805826823,
      "epoch": 0.44722748619922553,
      "grad_norm": 0.7800368070602417,
      "learning_rate": 1.8289425878354633e-05,
      "loss": 1.495,
      "mean_token_accuracy": 0.6425358355045319,
      "num_tokens": 683271437.0,
      "step": 4071
    },
    {
      "entropy": 1.6442756354808807,
      "epoch": 0.4473373431105985,
      "grad_norm": 0.5757925510406494,
      "learning_rate": 1.8288486672167327e-05,
      "loss": 1.4154,
      "mean_token_accuracy": 0.6556447048981985,
      "num_tokens": 683521616.0,
      "step": 4072
    },
    {
      "entropy": 1.7113324999809265,
      "epoch": 0.44744720002197136,
      "grad_norm": 0.6120255589485168,
      "learning_rate": 1.82875472353027e-05,
      "loss": 1.3365,
      "mean_token_accuracy": 0.6572584211826324,
      "num_tokens": 683677858.0,
      "step": 4073
    },
    {
      "entropy": 1.756430298089981,
      "epoch": 0.4475570569333443,
      "grad_norm": 0.9076440334320068,
      "learning_rate": 1.8286607567790485e-05,
      "loss": 1.3104,
      "mean_token_accuracy": 0.6704193005959193,
      "num_tokens": 683788448.0,
      "step": 4074
    },
    {
      "entropy": 1.6399111052354176,
      "epoch": 0.44766691384471724,
      "grad_norm": 0.6672569513320923,
      "learning_rate": 1.8285667669660426e-05,
      "loss": 1.3935,
      "mean_token_accuracy": 0.6672036250432333,
      "num_tokens": 683930395.0,
      "step": 4075
    },
    {
      "entropy": 1.6177968084812164,
      "epoch": 0.4477767707560902,
      "grad_norm": 0.5370674729347229,
      "learning_rate": 1.8284727540942266e-05,
      "loss": 1.3163,
      "mean_token_accuracy": 0.6624527275562286,
      "num_tokens": 684129876.0,
      "step": 4076
    },
    {
      "entropy": 1.7107476492722828,
      "epoch": 0.4478866276674631,
      "grad_norm": 0.6975926756858826,
      "learning_rate": 1.8283787181665766e-05,
      "loss": 1.4658,
      "mean_token_accuracy": 0.6649006853501002,
      "num_tokens": 684294327.0,
      "step": 4077
    },
    {
      "entropy": 1.7037384510040283,
      "epoch": 0.44799648457883606,
      "grad_norm": 0.7005517482757568,
      "learning_rate": 1.828284659186068e-05,
      "loss": 1.2692,
      "mean_token_accuracy": 0.6762935618559519,
      "num_tokens": 684409485.0,
      "step": 4078
    },
    {
      "entropy": 1.7332588632901509,
      "epoch": 0.448106341490209,
      "grad_norm": 0.7170990109443665,
      "learning_rate": 1.828190577155678e-05,
      "loss": 1.3511,
      "mean_token_accuracy": 0.655609572927157,
      "num_tokens": 684573662.0,
      "step": 4079
    },
    {
      "entropy": 1.656719873348872,
      "epoch": 0.44821619840158194,
      "grad_norm": 0.7201644778251648,
      "learning_rate": 1.8280964720783847e-05,
      "loss": 1.4354,
      "mean_token_accuracy": 0.6612338771422704,
      "num_tokens": 684745344.0,
      "step": 4080
    },
    {
      "entropy": 1.6805977523326874,
      "epoch": 0.4483260553129549,
      "grad_norm": 0.6354820728302002,
      "learning_rate": 1.8280023439571662e-05,
      "loss": 1.5477,
      "mean_token_accuracy": 0.6504618128140768,
      "num_tokens": 684920877.0,
      "step": 4081
    },
    {
      "entropy": 1.6839341123898823,
      "epoch": 0.4484359122243278,
      "grad_norm": 0.6117289662361145,
      "learning_rate": 1.8279081927950012e-05,
      "loss": 1.3716,
      "mean_token_accuracy": 0.6628950238227844,
      "num_tokens": 685094960.0,
      "step": 4082
    },
    {
      "entropy": 1.6351311802864075,
      "epoch": 0.44854576913570077,
      "grad_norm": 0.8039343357086182,
      "learning_rate": 1.8278140185948706e-05,
      "loss": 1.4611,
      "mean_token_accuracy": 0.6522148499886194,
      "num_tokens": 685258463.0,
      "step": 4083
    },
    {
      "entropy": 1.7667676905790966,
      "epoch": 0.4486556260470737,
      "grad_norm": 0.9782058000564575,
      "learning_rate": 1.8277198213597535e-05,
      "loss": 1.3842,
      "mean_token_accuracy": 0.655416414141655,
      "num_tokens": 685386946.0,
      "step": 4084
    },
    {
      "entropy": 1.6758897999922435,
      "epoch": 0.44876548295844665,
      "grad_norm": 0.6297981142997742,
      "learning_rate": 1.8276256010926325e-05,
      "loss": 1.2551,
      "mean_token_accuracy": 0.6806664168834686,
      "num_tokens": 685520402.0,
      "step": 4085
    },
    {
      "entropy": 1.729985237121582,
      "epoch": 0.44887533986981953,
      "grad_norm": 0.7002821564674377,
      "learning_rate": 1.8275313577964885e-05,
      "loss": 1.2529,
      "mean_token_accuracy": 0.6838051875432333,
      "num_tokens": 685648637.0,
      "step": 4086
    },
    {
      "entropy": 1.7272369960943859,
      "epoch": 0.4489851967811925,
      "grad_norm": 0.5778807401657104,
      "learning_rate": 1.8274370914743054e-05,
      "loss": 1.3942,
      "mean_token_accuracy": 0.6614800641934077,
      "num_tokens": 685844253.0,
      "step": 4087
    },
    {
      "entropy": 1.717577338218689,
      "epoch": 0.4490950536925654,
      "grad_norm": 0.8240344524383545,
      "learning_rate": 1.8273428021290658e-05,
      "loss": 1.5095,
      "mean_token_accuracy": 0.6495123704274496,
      "num_tokens": 686028134.0,
      "step": 4088
    },
    {
      "entropy": 1.7241438726584117,
      "epoch": 0.44920491060393836,
      "grad_norm": 0.6883000731468201,
      "learning_rate": 1.8272484897637546e-05,
      "loss": 1.3816,
      "mean_token_accuracy": 0.6627028236786524,
      "num_tokens": 686191080.0,
      "step": 4089
    },
    {
      "entropy": 1.6412847638130188,
      "epoch": 0.4493147675153113,
      "grad_norm": 0.6836743950843811,
      "learning_rate": 1.827154154381356e-05,
      "loss": 1.5132,
      "mean_token_accuracy": 0.653800850113233,
      "num_tokens": 686350524.0,
      "step": 4090
    },
    {
      "entropy": 1.6573506991068523,
      "epoch": 0.44942462442668424,
      "grad_norm": 0.6218001246452332,
      "learning_rate": 1.8270597959848563e-05,
      "loss": 1.3456,
      "mean_token_accuracy": 0.6675258924563726,
      "num_tokens": 686518644.0,
      "step": 4091
    },
    {
      "entropy": 1.709700067838033,
      "epoch": 0.4495344813380572,
      "grad_norm": 0.6943197846412659,
      "learning_rate": 1.826965414577242e-05,
      "loss": 1.2814,
      "mean_token_accuracy": 0.6749483694632848,
      "num_tokens": 686666877.0,
      "step": 4092
    },
    {
      "entropy": 1.6798059542973836,
      "epoch": 0.4496443382494301,
      "grad_norm": 0.8047642707824707,
      "learning_rate": 1.8268710101614996e-05,
      "loss": 1.4749,
      "mean_token_accuracy": 0.6598973522583643,
      "num_tokens": 686831962.0,
      "step": 4093
    },
    {
      "entropy": 1.720873127381007,
      "epoch": 0.44975419516080306,
      "grad_norm": 0.7131839394569397,
      "learning_rate": 1.8267765827406173e-05,
      "loss": 1.3472,
      "mean_token_accuracy": 0.6661649147669474,
      "num_tokens": 686961662.0,
      "step": 4094
    },
    {
      "entropy": 1.7046670416990917,
      "epoch": 0.449864052072176,
      "grad_norm": 0.6924872398376465,
      "learning_rate": 1.8266821323175833e-05,
      "loss": 1.3393,
      "mean_token_accuracy": 0.6566531558831533,
      "num_tokens": 687125536.0,
      "step": 4095
    },
    {
      "entropy": 1.6233412722746532,
      "epoch": 0.44997390898354894,
      "grad_norm": 0.6866830587387085,
      "learning_rate": 1.826587658895388e-05,
      "loss": 1.3427,
      "mean_token_accuracy": 0.6586346874634424,
      "num_tokens": 687304023.0,
      "step": 4096
    },
    {
      "entropy": 1.659420023361842,
      "epoch": 0.4500837658949219,
      "grad_norm": 0.7031760811805725,
      "learning_rate": 1.8264931624770198e-05,
      "loss": 1.4316,
      "mean_token_accuracy": 0.6656246980031332,
      "num_tokens": 687457564.0,
      "step": 4097
    },
    {
      "entropy": 1.7746712168057759,
      "epoch": 0.4501936228062948,
      "grad_norm": 0.6770200729370117,
      "learning_rate": 1.8263986430654713e-05,
      "loss": 1.4262,
      "mean_token_accuracy": 0.654616062839826,
      "num_tokens": 687663560.0,
      "step": 4098
    },
    {
      "entropy": 1.6433165371418,
      "epoch": 0.45030347971766777,
      "grad_norm": 0.6647341251373291,
      "learning_rate": 1.8263041006637326e-05,
      "loss": 1.3283,
      "mean_token_accuracy": 0.6662708769241968,
      "num_tokens": 687804204.0,
      "step": 4099
    },
    {
      "entropy": 1.6864981253941853,
      "epoch": 0.45041333662904065,
      "grad_norm": 0.8306163549423218,
      "learning_rate": 1.8262095352747964e-05,
      "loss": 1.4174,
      "mean_token_accuracy": 0.673849806189537,
      "num_tokens": 687948844.0,
      "step": 4100
    },
    {
      "entropy": 1.6836271584033966,
      "epoch": 0.4505231935404136,
      "grad_norm": 0.712296187877655,
      "learning_rate": 1.8261149469016554e-05,
      "loss": 1.435,
      "mean_token_accuracy": 0.6426206976175308,
      "num_tokens": 688141646.0,
      "step": 4101
    },
    {
      "entropy": 1.702450027068456,
      "epoch": 0.45063305045178653,
      "grad_norm": 0.6855894923210144,
      "learning_rate": 1.826020335547304e-05,
      "loss": 1.4706,
      "mean_token_accuracy": 0.6506734440724055,
      "num_tokens": 688304546.0,
      "step": 4102
    },
    {
      "entropy": 1.7510944306850433,
      "epoch": 0.4507429073631595,
      "grad_norm": 0.7090582251548767,
      "learning_rate": 1.825925701214736e-05,
      "loss": 1.5314,
      "mean_token_accuracy": 0.6348803093036016,
      "num_tokens": 688491140.0,
      "step": 4103
    },
    {
      "entropy": 1.6313609679539998,
      "epoch": 0.4508527642745324,
      "grad_norm": 0.6523467898368835,
      "learning_rate": 1.8258310439069464e-05,
      "loss": 1.2844,
      "mean_token_accuracy": 0.6678755730390549,
      "num_tokens": 688670616.0,
      "step": 4104
    },
    {
      "entropy": 1.6910007297992706,
      "epoch": 0.45096262118590535,
      "grad_norm": 0.7028467655181885,
      "learning_rate": 1.8257363636269315e-05,
      "loss": 1.6276,
      "mean_token_accuracy": 0.622983917593956,
      "num_tokens": 688883798.0,
      "step": 4105
    },
    {
      "entropy": 1.735917756954829,
      "epoch": 0.4510724780972783,
      "grad_norm": 0.6216316819190979,
      "learning_rate": 1.825641660377688e-05,
      "loss": 1.39,
      "mean_token_accuracy": 0.643417959411939,
      "num_tokens": 689099236.0,
      "step": 4106
    },
    {
      "entropy": 1.7116466561953227,
      "epoch": 0.45118233500865124,
      "grad_norm": 0.639937698841095,
      "learning_rate": 1.8255469341622127e-05,
      "loss": 1.2285,
      "mean_token_accuracy": 0.6806729783614477,
      "num_tokens": 689222746.0,
      "step": 4107
    },
    {
      "entropy": 1.7362925708293915,
      "epoch": 0.4512921919200242,
      "grad_norm": 0.6595767140388489,
      "learning_rate": 1.8254521849835038e-05,
      "loss": 1.4364,
      "mean_token_accuracy": 0.6543554663658142,
      "num_tokens": 689427218.0,
      "step": 4108
    },
    {
      "entropy": 1.6418420473734539,
      "epoch": 0.4514020488313971,
      "grad_norm": 0.7125058770179749,
      "learning_rate": 1.82535741284456e-05,
      "loss": 1.4369,
      "mean_token_accuracy": 0.6766296525796255,
      "num_tokens": 689584306.0,
      "step": 4109
    },
    {
      "entropy": 1.709335704644521,
      "epoch": 0.45151190574277006,
      "grad_norm": 0.6635110974311829,
      "learning_rate": 1.825262617748381e-05,
      "loss": 1.3638,
      "mean_token_accuracy": 0.668940449754397,
      "num_tokens": 689719332.0,
      "step": 4110
    },
    {
      "entropy": 1.6440646350383759,
      "epoch": 0.451621762654143,
      "grad_norm": 0.6006796956062317,
      "learning_rate": 1.8251677996979674e-05,
      "loss": 1.3163,
      "mean_token_accuracy": 0.671658530831337,
      "num_tokens": 689892119.0,
      "step": 4111
    },
    {
      "entropy": 1.6859375437100728,
      "epoch": 0.45173161956551594,
      "grad_norm": 0.8752461075782776,
      "learning_rate": 1.825072958696319e-05,
      "loss": 1.4466,
      "mean_token_accuracy": 0.6580664763847986,
      "num_tokens": 690084462.0,
      "step": 4112
    },
    {
      "entropy": 1.6572500467300415,
      "epoch": 0.4518414764768888,
      "grad_norm": 0.7441008687019348,
      "learning_rate": 1.8249780947464388e-05,
      "loss": 1.2938,
      "mean_token_accuracy": 0.6691722124814987,
      "num_tokens": 690248438.0,
      "step": 4113
    },
    {
      "entropy": 1.738774597644806,
      "epoch": 0.45195133338826177,
      "grad_norm": 0.6293894648551941,
      "learning_rate": 1.8248832078513284e-05,
      "loss": 1.5194,
      "mean_token_accuracy": 0.6342577387889227,
      "num_tokens": 690441913.0,
      "step": 4114
    },
    {
      "entropy": 1.7527674436569214,
      "epoch": 0.4520611902996347,
      "grad_norm": 1.1343533992767334,
      "learning_rate": 1.824788298013991e-05,
      "loss": 1.3726,
      "mean_token_accuracy": 0.6623023301362991,
      "num_tokens": 690558299.0,
      "step": 4115
    },
    {
      "entropy": 1.6640233397483826,
      "epoch": 0.45217104721100765,
      "grad_norm": 0.6992958784103394,
      "learning_rate": 1.8246933652374307e-05,
      "loss": 1.2844,
      "mean_token_accuracy": 0.6788427929083506,
      "num_tokens": 690739947.0,
      "step": 4116
    },
    {
      "entropy": 1.7419516444206238,
      "epoch": 0.4522809041223806,
      "grad_norm": 0.5939506888389587,
      "learning_rate": 1.8245984095246518e-05,
      "loss": 1.4716,
      "mean_token_accuracy": 0.6305443296829859,
      "num_tokens": 690997943.0,
      "step": 4117
    },
    {
      "entropy": 1.748884916305542,
      "epoch": 0.45239076103375353,
      "grad_norm": 1.0354598760604858,
      "learning_rate": 1.8245034308786598e-05,
      "loss": 1.4619,
      "mean_token_accuracy": 0.6558974186579386,
      "num_tokens": 691153064.0,
      "step": 4118
    },
    {
      "entropy": 1.6696610649426777,
      "epoch": 0.45250061794512647,
      "grad_norm": 0.8129194974899292,
      "learning_rate": 1.8244084293024607e-05,
      "loss": 1.3371,
      "mean_token_accuracy": 0.6734591573476791,
      "num_tokens": 691283368.0,
      "step": 4119
    },
    {
      "entropy": 1.7136721312999725,
      "epoch": 0.4526104748564994,
      "grad_norm": 0.7549412250518799,
      "learning_rate": 1.8243134047990615e-05,
      "loss": 1.5517,
      "mean_token_accuracy": 0.6566175570090612,
      "num_tokens": 691452676.0,
      "step": 4120
    },
    {
      "entropy": 1.6813490390777588,
      "epoch": 0.45272033176787235,
      "grad_norm": 0.7577283978462219,
      "learning_rate": 1.824218357371469e-05,
      "loss": 1.2974,
      "mean_token_accuracy": 0.6722496549288431,
      "num_tokens": 691597131.0,
      "step": 4121
    },
    {
      "entropy": 1.713281015555064,
      "epoch": 0.4528301886792453,
      "grad_norm": 0.7372899651527405,
      "learning_rate": 1.824123287022692e-05,
      "loss": 1.4402,
      "mean_token_accuracy": 0.6518440991640091,
      "num_tokens": 691743841.0,
      "step": 4122
    },
    {
      "entropy": 1.6881952385107677,
      "epoch": 0.45294004559061823,
      "grad_norm": 0.5627362728118896,
      "learning_rate": 1.824028193755739e-05,
      "loss": 1.4554,
      "mean_token_accuracy": 0.6475944221019745,
      "num_tokens": 691960827.0,
      "step": 4123
    },
    {
      "entropy": 1.7053532501061757,
      "epoch": 0.4530499025019912,
      "grad_norm": 0.7508504986763,
      "learning_rate": 1.8239330775736208e-05,
      "loss": 1.4518,
      "mean_token_accuracy": 0.660346490641435,
      "num_tokens": 692117432.0,
      "step": 4124
    },
    {
      "entropy": 1.7332323094209034,
      "epoch": 0.4531597594133641,
      "grad_norm": 0.7479596734046936,
      "learning_rate": 1.823837938479346e-05,
      "loss": 1.3183,
      "mean_token_accuracy": 0.6600077897310257,
      "num_tokens": 692233378.0,
      "step": 4125
    },
    {
      "entropy": 1.7280583083629608,
      "epoch": 0.45326961632473706,
      "grad_norm": 0.7284284234046936,
      "learning_rate": 1.8237427764759268e-05,
      "loss": 1.2877,
      "mean_token_accuracy": 0.6728298515081406,
      "num_tokens": 692352078.0,
      "step": 4126
    },
    {
      "entropy": 1.733269860347112,
      "epoch": 0.45337947323610994,
      "grad_norm": 0.6703977584838867,
      "learning_rate": 1.823647591566375e-05,
      "loss": 1.318,
      "mean_token_accuracy": 0.6564703285694122,
      "num_tokens": 692524229.0,
      "step": 4127
    },
    {
      "entropy": 1.7730626364549,
      "epoch": 0.4534893301474829,
      "grad_norm": 0.720513105392456,
      "learning_rate": 1.823552383753703e-05,
      "loss": 1.5289,
      "mean_token_accuracy": 0.6443274269501368,
      "num_tokens": 692654697.0,
      "step": 4128
    },
    {
      "entropy": 1.6843830545743306,
      "epoch": 0.4535991870588558,
      "grad_norm": 0.6629505157470703,
      "learning_rate": 1.823457153040924e-05,
      "loss": 1.4347,
      "mean_token_accuracy": 0.6500236590703329,
      "num_tokens": 692822773.0,
      "step": 4129
    },
    {
      "entropy": 1.6885010202725728,
      "epoch": 0.45370904397022876,
      "grad_norm": 0.7359088659286499,
      "learning_rate": 1.823361899431052e-05,
      "loss": 1.1937,
      "mean_token_accuracy": 0.6897448152303696,
      "num_tokens": 692937863.0,
      "step": 4130
    },
    {
      "entropy": 1.6834450860818226,
      "epoch": 0.4538189008816017,
      "grad_norm": 0.6505681276321411,
      "learning_rate": 1.8232666229271022e-05,
      "loss": 1.4981,
      "mean_token_accuracy": 0.6411355634530386,
      "num_tokens": 693128486.0,
      "step": 4131
    },
    {
      "entropy": 1.67915278673172,
      "epoch": 0.45392875779297465,
      "grad_norm": 0.6337352991104126,
      "learning_rate": 1.8231713235320897e-05,
      "loss": 1.4664,
      "mean_token_accuracy": 0.6389060864845911,
      "num_tokens": 693290525.0,
      "step": 4132
    },
    {
      "entropy": 1.7464499572912853,
      "epoch": 0.4540386147043476,
      "grad_norm": 0.6891757249832153,
      "learning_rate": 1.8230760012490303e-05,
      "loss": 1.4274,
      "mean_token_accuracy": 0.6466375986735026,
      "num_tokens": 693428652.0,
      "step": 4133
    },
    {
      "entropy": 1.6625401278336842,
      "epoch": 0.45414847161572053,
      "grad_norm": 0.6760391592979431,
      "learning_rate": 1.8229806560809414e-05,
      "loss": 1.2088,
      "mean_token_accuracy": 0.6958808700243632,
      "num_tokens": 693542006.0,
      "step": 4134
    },
    {
      "entropy": 1.6763292451699574,
      "epoch": 0.45425832852709347,
      "grad_norm": 0.6257210373878479,
      "learning_rate": 1.8228852880308406e-05,
      "loss": 1.3335,
      "mean_token_accuracy": 0.655666912595431,
      "num_tokens": 693691484.0,
      "step": 4135
    },
    {
      "entropy": 1.6853256324927013,
      "epoch": 0.4543681854384664,
      "grad_norm": 0.7661891579627991,
      "learning_rate": 1.8227898971017463e-05,
      "loss": 1.3239,
      "mean_token_accuracy": 0.6566215753555298,
      "num_tokens": 693824382.0,
      "step": 4136
    },
    {
      "entropy": 1.7048971951007843,
      "epoch": 0.45447804234983935,
      "grad_norm": 0.5919292569160461,
      "learning_rate": 1.822694483296677e-05,
      "loss": 1.4844,
      "mean_token_accuracy": 0.6445303509632746,
      "num_tokens": 694012674.0,
      "step": 4137
    },
    {
      "entropy": 1.7726793487866719,
      "epoch": 0.4545878992612123,
      "grad_norm": 0.8488749265670776,
      "learning_rate": 1.8225990466186535e-05,
      "loss": 1.3119,
      "mean_token_accuracy": 0.6763729850451151,
      "num_tokens": 694131834.0,
      "step": 4138
    },
    {
      "entropy": 1.6792495449384053,
      "epoch": 0.45469775617258523,
      "grad_norm": 0.6812113523483276,
      "learning_rate": 1.8225035870706954e-05,
      "loss": 1.3836,
      "mean_token_accuracy": 0.6785061955451965,
      "num_tokens": 694265200.0,
      "step": 4139
    },
    {
      "entropy": 1.7176821033159893,
      "epoch": 0.4548076130839581,
      "grad_norm": 0.6587532162666321,
      "learning_rate": 1.8224081046558245e-05,
      "loss": 1.2966,
      "mean_token_accuracy": 0.6683917393287023,
      "num_tokens": 694386638.0,
      "step": 4140
    },
    {
      "entropy": 1.720909317334493,
      "epoch": 0.45491746999533106,
      "grad_norm": 0.6936853528022766,
      "learning_rate": 1.8223125993770628e-05,
      "loss": 1.2505,
      "mean_token_accuracy": 0.6704763223727545,
      "num_tokens": 694537910.0,
      "step": 4141
    },
    {
      "entropy": 1.616556574900945,
      "epoch": 0.455027326906704,
      "grad_norm": 0.6663881540298462,
      "learning_rate": 1.8222170712374324e-05,
      "loss": 1.4531,
      "mean_token_accuracy": 0.6384978145360947,
      "num_tokens": 694748185.0,
      "step": 4142
    },
    {
      "entropy": 1.7091066340605419,
      "epoch": 0.45513718381807694,
      "grad_norm": 0.6039077043533325,
      "learning_rate": 1.8221215202399575e-05,
      "loss": 1.4285,
      "mean_token_accuracy": 0.6513800273338953,
      "num_tokens": 694907770.0,
      "step": 4143
    },
    {
      "entropy": 1.7064509391784668,
      "epoch": 0.4552470407294499,
      "grad_norm": 0.6601234674453735,
      "learning_rate": 1.8220259463876618e-05,
      "loss": 1.4402,
      "mean_token_accuracy": 0.6421432644128799,
      "num_tokens": 695075241.0,
      "step": 4144
    },
    {
      "entropy": 1.7203948597113292,
      "epoch": 0.4553568976408228,
      "grad_norm": 1.0562800168991089,
      "learning_rate": 1.8219303496835698e-05,
      "loss": 1.3034,
      "mean_token_accuracy": 0.6741875658432642,
      "num_tokens": 695192463.0,
      "step": 4145
    },
    {
      "entropy": 1.7525762518246968,
      "epoch": 0.45546675455219576,
      "grad_norm": 0.6298994421958923,
      "learning_rate": 1.8218347301307082e-05,
      "loss": 1.4266,
      "mean_token_accuracy": 0.6470825970172882,
      "num_tokens": 695375939.0,
      "step": 4146
    },
    {
      "entropy": 1.7427566250165303,
      "epoch": 0.4555766114635687,
      "grad_norm": 0.5814052224159241,
      "learning_rate": 1.8217390877321025e-05,
      "loss": 1.3958,
      "mean_token_accuracy": 0.6584447820981344,
      "num_tokens": 695578543.0,
      "step": 4147
    },
    {
      "entropy": 1.7967002391815186,
      "epoch": 0.45568646837494164,
      "grad_norm": 0.8577557802200317,
      "learning_rate": 1.8216434224907797e-05,
      "loss": 1.36,
      "mean_token_accuracy": 0.6580723375082016,
      "num_tokens": 695749141.0,
      "step": 4148
    },
    {
      "entropy": 1.7214231391747792,
      "epoch": 0.4557963252863146,
      "grad_norm": 0.6104874610900879,
      "learning_rate": 1.8215477344097678e-05,
      "loss": 1.4512,
      "mean_token_accuracy": 0.6513601044813792,
      "num_tokens": 695926344.0,
      "step": 4149
    },
    {
      "entropy": 1.693449040253957,
      "epoch": 0.4559061821976875,
      "grad_norm": 0.5731639862060547,
      "learning_rate": 1.821452023492095e-05,
      "loss": 1.2681,
      "mean_token_accuracy": 0.6703798075517019,
      "num_tokens": 696083860.0,
      "step": 4150
    },
    {
      "entropy": 1.7001817524433136,
      "epoch": 0.45601603910906047,
      "grad_norm": 0.6833996176719666,
      "learning_rate": 1.8213562897407915e-05,
      "loss": 1.2219,
      "mean_token_accuracy": 0.6803639133771261,
      "num_tokens": 696195681.0,
      "step": 4151
    },
    {
      "entropy": 1.718630462884903,
      "epoch": 0.4561258960204334,
      "grad_norm": 0.6625598073005676,
      "learning_rate": 1.8212605331588858e-05,
      "loss": 1.4388,
      "mean_token_accuracy": 0.6539454261461893,
      "num_tokens": 696368212.0,
      "step": 4152
    },
    {
      "entropy": 1.7498544255892436,
      "epoch": 0.45623575293180635,
      "grad_norm": 0.6957936882972717,
      "learning_rate": 1.8211647537494093e-05,
      "loss": 1.2725,
      "mean_token_accuracy": 0.6697985430558523,
      "num_tokens": 696502071.0,
      "step": 4153
    },
    {
      "entropy": 1.6797556082407634,
      "epoch": 0.45634560984317923,
      "grad_norm": 0.8322230577468872,
      "learning_rate": 1.8210689515153934e-05,
      "loss": 1.4798,
      "mean_token_accuracy": 0.6528271933396658,
      "num_tokens": 696684855.0,
      "step": 4154
    },
    {
      "entropy": 1.7090383271376293,
      "epoch": 0.4564554667545522,
      "grad_norm": 0.6606098413467407,
      "learning_rate": 1.82097312645987e-05,
      "loss": 1.2863,
      "mean_token_accuracy": 0.6675911794106165,
      "num_tokens": 696875468.0,
      "step": 4155
    },
    {
      "entropy": 1.6464302639166515,
      "epoch": 0.4565653236659251,
      "grad_norm": 0.7480058670043945,
      "learning_rate": 1.8208772785858724e-05,
      "loss": 1.3633,
      "mean_token_accuracy": 0.6650909036397934,
      "num_tokens": 697063206.0,
      "step": 4156
    },
    {
      "entropy": 1.6582618256409962,
      "epoch": 0.45667518057729806,
      "grad_norm": 0.5773199796676636,
      "learning_rate": 1.8207814078964335e-05,
      "loss": 1.4054,
      "mean_token_accuracy": 0.6530261288086573,
      "num_tokens": 697347872.0,
      "step": 4157
    },
    {
      "entropy": 1.7507151464621227,
      "epoch": 0.456785037488671,
      "grad_norm": 0.6207919716835022,
      "learning_rate": 1.820685514394588e-05,
      "loss": 1.4224,
      "mean_token_accuracy": 0.6475935826698939,
      "num_tokens": 697519220.0,
      "step": 4158
    },
    {
      "entropy": 1.7405341863632202,
      "epoch": 0.45689489440004394,
      "grad_norm": 0.7598936557769775,
      "learning_rate": 1.8205895980833708e-05,
      "loss": 1.4921,
      "mean_token_accuracy": 0.6516546607017517,
      "num_tokens": 697663160.0,
      "step": 4159
    },
    {
      "entropy": 1.7247182031472523,
      "epoch": 0.4570047513114169,
      "grad_norm": 0.7689334750175476,
      "learning_rate": 1.8204936589658172e-05,
      "loss": 1.3283,
      "mean_token_accuracy": 0.6829536060492197,
      "num_tokens": 697796527.0,
      "step": 4160
    },
    {
      "entropy": 1.6589301824569702,
      "epoch": 0.4571146082227898,
      "grad_norm": 0.6805022358894348,
      "learning_rate": 1.820397697044964e-05,
      "loss": 1.3969,
      "mean_token_accuracy": 0.6660082787275314,
      "num_tokens": 698022883.0,
      "step": 4161
    },
    {
      "entropy": 1.7611735065778096,
      "epoch": 0.45722446513416276,
      "grad_norm": 0.774599015712738,
      "learning_rate": 1.8203017123238484e-05,
      "loss": 1.4106,
      "mean_token_accuracy": 0.6451850136121114,
      "num_tokens": 698259147.0,
      "step": 4162
    },
    {
      "entropy": 1.7202747464179993,
      "epoch": 0.4573343220455357,
      "grad_norm": 0.6693452000617981,
      "learning_rate": 1.820205704805508e-05,
      "loss": 1.3082,
      "mean_token_accuracy": 0.6705300956964493,
      "num_tokens": 698409150.0,
      "step": 4163
    },
    {
      "entropy": 1.6769547561804454,
      "epoch": 0.45744417895690864,
      "grad_norm": 0.5999146699905396,
      "learning_rate": 1.820109674492982e-05,
      "loss": 1.4154,
      "mean_token_accuracy": 0.6518602818250656,
      "num_tokens": 698583103.0,
      "step": 4164
    },
    {
      "entropy": 1.7415876587231953,
      "epoch": 0.4575540358682816,
      "grad_norm": 0.6980689167976379,
      "learning_rate": 1.820013621389309e-05,
      "loss": 1.4015,
      "mean_token_accuracy": 0.6452522526184717,
      "num_tokens": 698776410.0,
      "step": 4165
    },
    {
      "entropy": 1.7366366783777873,
      "epoch": 0.4576638927796545,
      "grad_norm": 0.6637096405029297,
      "learning_rate": 1.8199175454975293e-05,
      "loss": 1.3677,
      "mean_token_accuracy": 0.6576673090457916,
      "num_tokens": 698964243.0,
      "step": 4166
    },
    {
      "entropy": 1.7057179510593414,
      "epoch": 0.4577737496910274,
      "grad_norm": 1.1949498653411865,
      "learning_rate": 1.8198214468206836e-05,
      "loss": 1.3636,
      "mean_token_accuracy": 0.6599676311016083,
      "num_tokens": 699149054.0,
      "step": 4167
    },
    {
      "entropy": 1.6758360266685486,
      "epoch": 0.45788360660240035,
      "grad_norm": 0.6972344517707825,
      "learning_rate": 1.819725325361814e-05,
      "loss": 1.2711,
      "mean_token_accuracy": 0.6723342637221018,
      "num_tokens": 699279792.0,
      "step": 4168
    },
    {
      "entropy": 1.7160559793313344,
      "epoch": 0.4579934635137733,
      "grad_norm": 0.6513280868530273,
      "learning_rate": 1.8196291811239614e-05,
      "loss": 1.6112,
      "mean_token_accuracy": 0.6390035400787989,
      "num_tokens": 699483735.0,
      "step": 4169
    },
    {
      "entropy": 1.6684886713822682,
      "epoch": 0.45810332042514623,
      "grad_norm": 0.6418635249137878,
      "learning_rate": 1.81953301411017e-05,
      "loss": 1.4819,
      "mean_token_accuracy": 0.6575515071551005,
      "num_tokens": 699650354.0,
      "step": 4170
    },
    {
      "entropy": 1.7136259178320568,
      "epoch": 0.4582131773365192,
      "grad_norm": 0.8453693389892578,
      "learning_rate": 1.819436824323483e-05,
      "loss": 1.3379,
      "mean_token_accuracy": 0.6703378160794576,
      "num_tokens": 699778940.0,
      "step": 4171
    },
    {
      "entropy": 1.688475747903188,
      "epoch": 0.4583230342478921,
      "grad_norm": 0.6598884463310242,
      "learning_rate": 1.8193406117669442e-05,
      "loss": 1.3524,
      "mean_token_accuracy": 0.654664620757103,
      "num_tokens": 699941197.0,
      "step": 4172
    },
    {
      "entropy": 1.703117161989212,
      "epoch": 0.45843289115926505,
      "grad_norm": 0.6558519601821899,
      "learning_rate": 1.8192443764435996e-05,
      "loss": 1.3037,
      "mean_token_accuracy": 0.6665119081735611,
      "num_tokens": 700098267.0,
      "step": 4173
    },
    {
      "entropy": 1.699433147907257,
      "epoch": 0.458542748070638,
      "grad_norm": 0.7802864909172058,
      "learning_rate": 1.8191481183564947e-05,
      "loss": 1.5111,
      "mean_token_accuracy": 0.6549594352642695,
      "num_tokens": 700262148.0,
      "step": 4174
    },
    {
      "entropy": 1.7704039216041565,
      "epoch": 0.45865260498201094,
      "grad_norm": 0.8732252717018127,
      "learning_rate": 1.8190518375086756e-05,
      "loss": 1.4362,
      "mean_token_accuracy": 0.6573774913946787,
      "num_tokens": 700446932.0,
      "step": 4175
    },
    {
      "entropy": 1.6488378445307414,
      "epoch": 0.4587624618933839,
      "grad_norm": 0.702743649482727,
      "learning_rate": 1.81895553390319e-05,
      "loss": 1.3467,
      "mean_token_accuracy": 0.6733838816483816,
      "num_tokens": 700593036.0,
      "step": 4176
    },
    {
      "entropy": 1.73904745777448,
      "epoch": 0.4588723188047568,
      "grad_norm": 0.6903389096260071,
      "learning_rate": 1.8188592075430854e-05,
      "loss": 1.5451,
      "mean_token_accuracy": 0.6281401266654333,
      "num_tokens": 700807095.0,
      "step": 4177
    },
    {
      "entropy": 1.7598382830619812,
      "epoch": 0.45898217571612976,
      "grad_norm": 0.7444609999656677,
      "learning_rate": 1.8187628584314113e-05,
      "loss": 1.4259,
      "mean_token_accuracy": 0.6544857770204544,
      "num_tokens": 701000480.0,
      "step": 4178
    },
    {
      "entropy": 1.7172856330871582,
      "epoch": 0.4590920326275027,
      "grad_norm": 0.7468621134757996,
      "learning_rate": 1.8186664865712163e-05,
      "loss": 1.4648,
      "mean_token_accuracy": 0.6561927249034246,
      "num_tokens": 701148536.0,
      "step": 4179
    },
    {
      "entropy": 1.7054723699887593,
      "epoch": 0.45920188953887564,
      "grad_norm": 0.7430470585823059,
      "learning_rate": 1.818570091965551e-05,
      "loss": 1.3712,
      "mean_token_accuracy": 0.662121370434761,
      "num_tokens": 701303541.0,
      "step": 4180
    },
    {
      "entropy": 1.7247373064359028,
      "epoch": 0.4593117464502485,
      "grad_norm": 0.6628074645996094,
      "learning_rate": 1.8184736746174658e-05,
      "loss": 1.4219,
      "mean_token_accuracy": 0.6571998844544092,
      "num_tokens": 701471247.0,
      "step": 4181
    },
    {
      "entropy": 1.6875219146410625,
      "epoch": 0.45942160336162147,
      "grad_norm": 0.7151501178741455,
      "learning_rate": 1.818377234530013e-05,
      "loss": 1.3622,
      "mean_token_accuracy": 0.6559572865565618,
      "num_tokens": 701645326.0,
      "step": 4182
    },
    {
      "entropy": 1.7306556105613708,
      "epoch": 0.4595314602729944,
      "grad_norm": 0.6144996881484985,
      "learning_rate": 1.818280771706244e-05,
      "loss": 1.4024,
      "mean_token_accuracy": 0.6534335116545359,
      "num_tokens": 701805577.0,
      "step": 4183
    },
    {
      "entropy": 1.7050406138102214,
      "epoch": 0.45964131718436735,
      "grad_norm": 0.6486047506332397,
      "learning_rate": 1.8181842861492126e-05,
      "loss": 1.3204,
      "mean_token_accuracy": 0.6658004969358444,
      "num_tokens": 701938888.0,
      "step": 4184
    },
    {
      "entropy": 1.6983507772286732,
      "epoch": 0.4597511740957403,
      "grad_norm": 0.6919155716896057,
      "learning_rate": 1.818087777861972e-05,
      "loss": 1.4086,
      "mean_token_accuracy": 0.6503052040934563,
      "num_tokens": 702099604.0,
      "step": 4185
    },
    {
      "entropy": 1.6433574159940083,
      "epoch": 0.45986103100711323,
      "grad_norm": 0.8726625442504883,
      "learning_rate": 1.8179912468475768e-05,
      "loss": 1.2663,
      "mean_token_accuracy": 0.6762971927722295,
      "num_tokens": 702232628.0,
      "step": 4186
    },
    {
      "entropy": 1.6802456776301067,
      "epoch": 0.45997088791848617,
      "grad_norm": 0.8037099242210388,
      "learning_rate": 1.8178946931090822e-05,
      "loss": 1.3511,
      "mean_token_accuracy": 0.6654014339049658,
      "num_tokens": 702373194.0,
      "step": 4187
    },
    {
      "entropy": 1.6643012166023254,
      "epoch": 0.4600807448298591,
      "grad_norm": 0.794750452041626,
      "learning_rate": 1.817798116649544e-05,
      "loss": 1.3445,
      "mean_token_accuracy": 0.6783427347739538,
      "num_tokens": 702492194.0,
      "step": 4188
    },
    {
      "entropy": 1.7596985697746277,
      "epoch": 0.46019060174123205,
      "grad_norm": 0.6531470417976379,
      "learning_rate": 1.8177015174720186e-05,
      "loss": 1.5094,
      "mean_token_accuracy": 0.642010380824407,
      "num_tokens": 702706325.0,
      "step": 4189
    },
    {
      "entropy": 1.7269844611485798,
      "epoch": 0.460300458652605,
      "grad_norm": 0.7435563206672668,
      "learning_rate": 1.817604895579564e-05,
      "loss": 1.4141,
      "mean_token_accuracy": 0.6406523485978445,
      "num_tokens": 702871807.0,
      "step": 4190
    },
    {
      "entropy": 1.7121829390525818,
      "epoch": 0.46041031556397793,
      "grad_norm": 0.6904016137123108,
      "learning_rate": 1.817508250975238e-05,
      "loss": 1.4689,
      "mean_token_accuracy": 0.6557297557592392,
      "num_tokens": 703015510.0,
      "step": 4191
    },
    {
      "entropy": 1.6617660621802013,
      "epoch": 0.4605201724753509,
      "grad_norm": 0.5894798636436462,
      "learning_rate": 1.8174115836620985e-05,
      "loss": 1.385,
      "mean_token_accuracy": 0.6519947598377863,
      "num_tokens": 703225072.0,
      "step": 4192
    },
    {
      "entropy": 1.717599133650462,
      "epoch": 0.4606300293867238,
      "grad_norm": 0.6478140354156494,
      "learning_rate": 1.8173148936432062e-05,
      "loss": 1.4113,
      "mean_token_accuracy": 0.6411587198575338,
      "num_tokens": 703450060.0,
      "step": 4193
    },
    {
      "entropy": 1.69918089111646,
      "epoch": 0.4607398862980967,
      "grad_norm": 0.6551547050476074,
      "learning_rate": 1.8172181809216206e-05,
      "loss": 1.4039,
      "mean_token_accuracy": 0.6578977555036545,
      "num_tokens": 703686905.0,
      "step": 4194
    },
    {
      "entropy": 1.7954679628213246,
      "epoch": 0.46084974320946964,
      "grad_norm": 0.7491250038146973,
      "learning_rate": 1.8171214455004024e-05,
      "loss": 1.4899,
      "mean_token_accuracy": 0.6477667888005575,
      "num_tokens": 703859777.0,
      "step": 4195
    },
    {
      "entropy": 1.6918367048104603,
      "epoch": 0.4609596001208426,
      "grad_norm": 0.6992884874343872,
      "learning_rate": 1.817024687382614e-05,
      "loss": 1.3772,
      "mean_token_accuracy": 0.6759544163942337,
      "num_tokens": 703980670.0,
      "step": 4196
    },
    {
      "entropy": 1.6738916039466858,
      "epoch": 0.4610694570322155,
      "grad_norm": 0.9104806184768677,
      "learning_rate": 1.8169279065713173e-05,
      "loss": 1.3039,
      "mean_token_accuracy": 0.6699705421924591,
      "num_tokens": 704127133.0,
      "step": 4197
    },
    {
      "entropy": 1.731379359960556,
      "epoch": 0.46117931394358846,
      "grad_norm": 0.6715532541275024,
      "learning_rate": 1.8168311030695753e-05,
      "loss": 1.4613,
      "mean_token_accuracy": 0.6445593535900116,
      "num_tokens": 704309900.0,
      "step": 4198
    },
    {
      "entropy": 1.6891814172267914,
      "epoch": 0.4612891708549614,
      "grad_norm": 0.5850751399993896,
      "learning_rate": 1.8167342768804518e-05,
      "loss": 1.4346,
      "mean_token_accuracy": 0.6435820659001669,
      "num_tokens": 704530111.0,
      "step": 4199
    },
    {
      "entropy": 1.6919045945008595,
      "epoch": 0.46139902776633435,
      "grad_norm": 0.7237669825553894,
      "learning_rate": 1.8166374280070118e-05,
      "loss": 1.5484,
      "mean_token_accuracy": 0.627090315024058,
      "num_tokens": 704732824.0,
      "step": 4200
    },
    {
      "entropy": 1.7176773647467296,
      "epoch": 0.4615088846777073,
      "grad_norm": 0.7041877508163452,
      "learning_rate": 1.81654055645232e-05,
      "loss": 1.5581,
      "mean_token_accuracy": 0.6256896555423737,
      "num_tokens": 704992928.0,
      "step": 4201
    },
    {
      "entropy": 1.6486956278483074,
      "epoch": 0.46161874158908023,
      "grad_norm": 0.7475844621658325,
      "learning_rate": 1.8164436622194425e-05,
      "loss": 1.4561,
      "mean_token_accuracy": 0.6535168488820394,
      "num_tokens": 705157798.0,
      "step": 4202
    },
    {
      "entropy": 1.7114735345045726,
      "epoch": 0.46172859850045317,
      "grad_norm": 0.657800555229187,
      "learning_rate": 1.8163467453114454e-05,
      "loss": 1.2966,
      "mean_token_accuracy": 0.6700218071540197,
      "num_tokens": 705312195.0,
      "step": 4203
    },
    {
      "entropy": 1.7229937215646107,
      "epoch": 0.4618384554118261,
      "grad_norm": 0.6623897552490234,
      "learning_rate": 1.816249805731397e-05,
      "loss": 1.393,
      "mean_token_accuracy": 0.6550327589114507,
      "num_tokens": 705484259.0,
      "step": 4204
    },
    {
      "entropy": 1.7269688149293263,
      "epoch": 0.46194831232319905,
      "grad_norm": 0.6905580163002014,
      "learning_rate": 1.816152843482365e-05,
      "loss": 1.4828,
      "mean_token_accuracy": 0.6393428792556127,
      "num_tokens": 705693058.0,
      "step": 4205
    },
    {
      "entropy": 1.6766071319580078,
      "epoch": 0.462058169234572,
      "grad_norm": 0.6602928638458252,
      "learning_rate": 1.816055858567418e-05,
      "loss": 1.3148,
      "mean_token_accuracy": 0.6683008025089899,
      "num_tokens": 705870511.0,
      "step": 4206
    },
    {
      "entropy": 1.6405730545520782,
      "epoch": 0.46216802614594493,
      "grad_norm": 0.7517810463905334,
      "learning_rate": 1.8159588509896262e-05,
      "loss": 1.2918,
      "mean_token_accuracy": 0.6697532882293066,
      "num_tokens": 706068879.0,
      "step": 4207
    },
    {
      "entropy": 1.7424190441767375,
      "epoch": 0.4622778830573178,
      "grad_norm": 0.7065527439117432,
      "learning_rate": 1.815861820752059e-05,
      "loss": 1.3579,
      "mean_token_accuracy": 0.6661938230196635,
      "num_tokens": 706280061.0,
      "step": 4208
    },
    {
      "entropy": 1.648894727230072,
      "epoch": 0.46238773996869076,
      "grad_norm": 0.5504491925239563,
      "learning_rate": 1.815764767857788e-05,
      "loss": 1.3697,
      "mean_token_accuracy": 0.6563327610492706,
      "num_tokens": 706477220.0,
      "step": 4209
    },
    {
      "entropy": 1.6771936317284901,
      "epoch": 0.4624975968800637,
      "grad_norm": 0.6242183446884155,
      "learning_rate": 1.8156676923098847e-05,
      "loss": 1.435,
      "mean_token_accuracy": 0.6519751648108164,
      "num_tokens": 706659831.0,
      "step": 4210
    },
    {
      "entropy": 1.6414129038651784,
      "epoch": 0.46260745379143664,
      "grad_norm": 0.6485480070114136,
      "learning_rate": 1.815570594111421e-05,
      "loss": 1.2985,
      "mean_token_accuracy": 0.6742209245761236,
      "num_tokens": 706803926.0,
      "step": 4211
    },
    {
      "entropy": 1.7177407443523407,
      "epoch": 0.4627173107028096,
      "grad_norm": 0.6429049968719482,
      "learning_rate": 1.8154734732654708e-05,
      "loss": 1.4829,
      "mean_token_accuracy": 0.6438324997822443,
      "num_tokens": 707004084.0,
      "step": 4212
    },
    {
      "entropy": 1.7026935319105785,
      "epoch": 0.4628271676141825,
      "grad_norm": 0.5772531628608704,
      "learning_rate": 1.8153763297751072e-05,
      "loss": 1.3852,
      "mean_token_accuracy": 0.6560295174519221,
      "num_tokens": 707183877.0,
      "step": 4213
    },
    {
      "entropy": 1.7273212869962056,
      "epoch": 0.46293702452555546,
      "grad_norm": 0.6105433702468872,
      "learning_rate": 1.8152791636434057e-05,
      "loss": 1.596,
      "mean_token_accuracy": 0.6389935463666916,
      "num_tokens": 707371269.0,
      "step": 4214
    },
    {
      "entropy": 1.7505205670992534,
      "epoch": 0.4630468814369284,
      "grad_norm": 0.6398033499717712,
      "learning_rate": 1.8151819748734404e-05,
      "loss": 1.4717,
      "mean_token_accuracy": 0.6463633726040522,
      "num_tokens": 707525669.0,
      "step": 4215
    },
    {
      "entropy": 1.7202585935592651,
      "epoch": 0.46315673834830134,
      "grad_norm": 0.6473333835601807,
      "learning_rate": 1.8150847634682883e-05,
      "loss": 1.4063,
      "mean_token_accuracy": 0.643185963233312,
      "num_tokens": 707735780.0,
      "step": 4216
    },
    {
      "entropy": 1.7204928199450176,
      "epoch": 0.4632665952596743,
      "grad_norm": 0.7724722027778625,
      "learning_rate": 1.8149875294310253e-05,
      "loss": 1.4856,
      "mean_token_accuracy": 0.6558432877063751,
      "num_tokens": 707897505.0,
      "step": 4217
    },
    {
      "entropy": 1.7396677335103352,
      "epoch": 0.4633764521710472,
      "grad_norm": 0.7432756423950195,
      "learning_rate": 1.8148902727647293e-05,
      "loss": 1.3591,
      "mean_token_accuracy": 0.651182030638059,
      "num_tokens": 708040117.0,
      "step": 4218
    },
    {
      "entropy": 1.716854214668274,
      "epoch": 0.46348630908242017,
      "grad_norm": 0.7438036799430847,
      "learning_rate": 1.8147929934724783e-05,
      "loss": 1.4251,
      "mean_token_accuracy": 0.6668249318997065,
      "num_tokens": 708197909.0,
      "step": 4219
    },
    {
      "entropy": 1.770167201757431,
      "epoch": 0.4635961659937931,
      "grad_norm": 0.7183382511138916,
      "learning_rate": 1.8146956915573512e-05,
      "loss": 1.5752,
      "mean_token_accuracy": 0.6293011605739594,
      "num_tokens": 708386792.0,
      "step": 4220
    },
    {
      "entropy": 1.8206903139750164,
      "epoch": 0.46370602290516605,
      "grad_norm": 0.8068307638168335,
      "learning_rate": 1.8145983670224278e-05,
      "loss": 1.3832,
      "mean_token_accuracy": 0.6531219184398651,
      "num_tokens": 708535932.0,
      "step": 4221
    },
    {
      "entropy": 1.7339389224847157,
      "epoch": 0.46381587981653893,
      "grad_norm": 0.5660984516143799,
      "learning_rate": 1.8145010198707875e-05,
      "loss": 1.4435,
      "mean_token_accuracy": 0.6397424240907034,
      "num_tokens": 708781487.0,
      "step": 4222
    },
    {
      "entropy": 1.7772690852483113,
      "epoch": 0.4639257367279119,
      "grad_norm": 0.7798457145690918,
      "learning_rate": 1.8144036501055123e-05,
      "loss": 1.5243,
      "mean_token_accuracy": 0.6494849175214767,
      "num_tokens": 708920912.0,
      "step": 4223
    },
    {
      "entropy": 1.7303331792354584,
      "epoch": 0.4640355936392848,
      "grad_norm": 0.6171626448631287,
      "learning_rate": 1.8143062577296835e-05,
      "loss": 1.4185,
      "mean_token_accuracy": 0.6400276025136312,
      "num_tokens": 709104156.0,
      "step": 4224
    },
    {
      "entropy": 1.6459304491678874,
      "epoch": 0.46414545055065776,
      "grad_norm": 0.6023601293563843,
      "learning_rate": 1.814208842746383e-05,
      "loss": 1.3254,
      "mean_token_accuracy": 0.6633083323637644,
      "num_tokens": 709240703.0,
      "step": 4225
    },
    {
      "entropy": 1.6952888270219166,
      "epoch": 0.4642553074620307,
      "grad_norm": 0.7373741865158081,
      "learning_rate": 1.814111405158695e-05,
      "loss": 1.4096,
      "mean_token_accuracy": 0.641968791683515,
      "num_tokens": 709451932.0,
      "step": 4226
    },
    {
      "entropy": 1.745063195625941,
      "epoch": 0.46436516437340364,
      "grad_norm": 0.7500935792922974,
      "learning_rate": 1.8140139449697028e-05,
      "loss": 1.4981,
      "mean_token_accuracy": 0.65280049542586,
      "num_tokens": 709691349.0,
      "step": 4227
    },
    {
      "entropy": 1.8040038843949635,
      "epoch": 0.4644750212847766,
      "grad_norm": 0.8563746213912964,
      "learning_rate": 1.8139164621824907e-05,
      "loss": 1.4651,
      "mean_token_accuracy": 0.6291163365046183,
      "num_tokens": 709840840.0,
      "step": 4228
    },
    {
      "entropy": 1.665471722682317,
      "epoch": 0.4645848781961495,
      "grad_norm": 0.6224023103713989,
      "learning_rate": 1.8138189568001445e-05,
      "loss": 1.3097,
      "mean_token_accuracy": 0.6575134992599487,
      "num_tokens": 709985259.0,
      "step": 4229
    },
    {
      "entropy": 1.605366716782252,
      "epoch": 0.46469473510752246,
      "grad_norm": 0.6934778690338135,
      "learning_rate": 1.8137214288257497e-05,
      "loss": 1.352,
      "mean_token_accuracy": 0.6759183506170908,
      "num_tokens": 710148873.0,
      "step": 4230
    },
    {
      "entropy": 1.7328666150569916,
      "epoch": 0.4648045920188954,
      "grad_norm": 0.6883534789085388,
      "learning_rate": 1.8136238782623937e-05,
      "loss": 1.4765,
      "mean_token_accuracy": 0.6576277663310369,
      "num_tokens": 710287781.0,
      "step": 4231
    },
    {
      "entropy": 1.7534802854061127,
      "epoch": 0.46491444893026834,
      "grad_norm": 0.7432095408439636,
      "learning_rate": 1.813526305113163e-05,
      "loss": 1.386,
      "mean_token_accuracy": 0.6680583655834198,
      "num_tokens": 710462445.0,
      "step": 4232
    },
    {
      "entropy": 1.7207884788513184,
      "epoch": 0.4650243058416413,
      "grad_norm": 0.6437093615531921,
      "learning_rate": 1.813428709381147e-05,
      "loss": 1.2856,
      "mean_token_accuracy": 0.6679480870564779,
      "num_tokens": 710589866.0,
      "step": 4233
    },
    {
      "entropy": 1.667872816324234,
      "epoch": 0.4651341627530142,
      "grad_norm": 0.6963672637939453,
      "learning_rate": 1.813331091069433e-05,
      "loss": 1.3454,
      "mean_token_accuracy": 0.6745727012554804,
      "num_tokens": 710746216.0,
      "step": 4234
    },
    {
      "entropy": 1.7533026337623596,
      "epoch": 0.4652440196643871,
      "grad_norm": 0.9982355833053589,
      "learning_rate": 1.813233450181112e-05,
      "loss": 1.5738,
      "mean_token_accuracy": 0.6681816776593527,
      "num_tokens": 710904614.0,
      "step": 4235
    },
    {
      "entropy": 1.6505067149798076,
      "epoch": 0.46535387657576005,
      "grad_norm": 0.9331510066986084,
      "learning_rate": 1.8131357867192738e-05,
      "loss": 1.0794,
      "mean_token_accuracy": 0.6999476154645284,
      "num_tokens": 711051143.0,
      "step": 4236
    },
    {
      "entropy": 1.690159449974696,
      "epoch": 0.465463733487133,
      "grad_norm": 0.7899004817008972,
      "learning_rate": 1.8130381006870087e-05,
      "loss": 1.544,
      "mean_token_accuracy": 0.6387489885091782,
      "num_tokens": 711244954.0,
      "step": 4237
    },
    {
      "entropy": 1.726913332939148,
      "epoch": 0.46557359039850593,
      "grad_norm": 0.6733956933021545,
      "learning_rate": 1.8129403920874093e-05,
      "loss": 1.4999,
      "mean_token_accuracy": 0.6343253751595815,
      "num_tokens": 711452273.0,
      "step": 4238
    },
    {
      "entropy": 1.7664103507995605,
      "epoch": 0.4656834473098789,
      "grad_norm": 0.7927049398422241,
      "learning_rate": 1.8128426609235673e-05,
      "loss": 1.3575,
      "mean_token_accuracy": 0.6616076578696569,
      "num_tokens": 711585439.0,
      "step": 4239
    },
    {
      "entropy": 1.729611297448476,
      "epoch": 0.4657933042212518,
      "grad_norm": 0.7896009683609009,
      "learning_rate": 1.812744907198577e-05,
      "loss": 1.3908,
      "mean_token_accuracy": 0.6635908087094625,
      "num_tokens": 711773155.0,
      "step": 4240
    },
    {
      "entropy": 1.6715228458245595,
      "epoch": 0.46590316113262475,
      "grad_norm": 0.7059125304222107,
      "learning_rate": 1.8126471309155314e-05,
      "loss": 1.4095,
      "mean_token_accuracy": 0.6561342726151148,
      "num_tokens": 711914804.0,
      "step": 4241
    },
    {
      "entropy": 1.7312528987725575,
      "epoch": 0.4660130180439977,
      "grad_norm": 0.6025689244270325,
      "learning_rate": 1.812549332077525e-05,
      "loss": 1.546,
      "mean_token_accuracy": 0.6508001486460367,
      "num_tokens": 712129813.0,
      "step": 4242
    },
    {
      "entropy": 1.7039500772953033,
      "epoch": 0.46612287495537064,
      "grad_norm": 0.8072606921195984,
      "learning_rate": 1.8124515106876534e-05,
      "loss": 1.5661,
      "mean_token_accuracy": 0.6641567001740137,
      "num_tokens": 712276945.0,
      "step": 4243
    },
    {
      "entropy": 1.716274122397105,
      "epoch": 0.4662327318667436,
      "grad_norm": 0.7391960620880127,
      "learning_rate": 1.8123536667490127e-05,
      "loss": 1.2449,
      "mean_token_accuracy": 0.6780173579851786,
      "num_tokens": 712433226.0,
      "step": 4244
    },
    {
      "entropy": 1.7017336984475453,
      "epoch": 0.4663425887781165,
      "grad_norm": 0.6935653686523438,
      "learning_rate": 1.812255800264699e-05,
      "loss": 1.3873,
      "mean_token_accuracy": 0.6610340823729833,
      "num_tokens": 712584310.0,
      "step": 4245
    },
    {
      "entropy": 1.6905235250790913,
      "epoch": 0.46645244568948946,
      "grad_norm": 0.6185707449913025,
      "learning_rate": 1.8121579112378106e-05,
      "loss": 1.5186,
      "mean_token_accuracy": 0.6343037039041519,
      "num_tokens": 712824746.0,
      "step": 4246
    },
    {
      "entropy": 1.7747002641359966,
      "epoch": 0.4665623026008624,
      "grad_norm": 0.7528815269470215,
      "learning_rate": 1.812059999671445e-05,
      "loss": 1.5891,
      "mean_token_accuracy": 0.6364632795254389,
      "num_tokens": 713007981.0,
      "step": 4247
    },
    {
      "entropy": 1.7169700662295024,
      "epoch": 0.46667215951223534,
      "grad_norm": 0.6410589218139648,
      "learning_rate": 1.811962065568702e-05,
      "loss": 1.3224,
      "mean_token_accuracy": 0.6646380325158437,
      "num_tokens": 713151048.0,
      "step": 4248
    },
    {
      "entropy": 1.7213744620482128,
      "epoch": 0.4667820164236082,
      "grad_norm": 0.6539469957351685,
      "learning_rate": 1.8118641089326795e-05,
      "loss": 1.3819,
      "mean_token_accuracy": 0.6464784244696299,
      "num_tokens": 713338388.0,
      "step": 4249
    },
    {
      "entropy": 1.69509752591451,
      "epoch": 0.46689187333498117,
      "grad_norm": 0.6454856395721436,
      "learning_rate": 1.811766129766479e-05,
      "loss": 1.3495,
      "mean_token_accuracy": 0.663901224732399,
      "num_tokens": 713520267.0,
      "step": 4250
    },
    {
      "entropy": 1.7052615284919739,
      "epoch": 0.4670017302463541,
      "grad_norm": 0.6770211458206177,
      "learning_rate": 1.811668128073201e-05,
      "loss": 1.5541,
      "mean_token_accuracy": 0.6339400360981623,
      "num_tokens": 713708802.0,
      "step": 4251
    },
    {
      "entropy": 1.6545226871967316,
      "epoch": 0.46711158715772705,
      "grad_norm": 0.7631199359893799,
      "learning_rate": 1.811570103855948e-05,
      "loss": 1.1884,
      "mean_token_accuracy": 0.6902492394049963,
      "num_tokens": 713859057.0,
      "step": 4252
    },
    {
      "entropy": 1.755904217561086,
      "epoch": 0.4672214440691,
      "grad_norm": 0.7086718082427979,
      "learning_rate": 1.8114720571178215e-05,
      "loss": 1.3183,
      "mean_token_accuracy": 0.6702389965454737,
      "num_tokens": 713975952.0,
      "step": 4253
    },
    {
      "entropy": 1.7080712616443634,
      "epoch": 0.46733130098047293,
      "grad_norm": 0.7158058881759644,
      "learning_rate": 1.811373987861925e-05,
      "loss": 1.5163,
      "mean_token_accuracy": 0.649703840414683,
      "num_tokens": 714152247.0,
      "step": 4254
    },
    {
      "entropy": 1.6785069803396861,
      "epoch": 0.46744115789184587,
      "grad_norm": 0.8712213039398193,
      "learning_rate": 1.8112758960913622e-05,
      "loss": 1.4157,
      "mean_token_accuracy": 0.6431390146414439,
      "num_tokens": 714309228.0,
      "step": 4255
    },
    {
      "entropy": 1.6953572432200115,
      "epoch": 0.4675510148032188,
      "grad_norm": 0.7182803750038147,
      "learning_rate": 1.811177781809238e-05,
      "loss": 1.4312,
      "mean_token_accuracy": 0.6548483719428381,
      "num_tokens": 714477884.0,
      "step": 4256
    },
    {
      "entropy": 1.6632357239723206,
      "epoch": 0.46766087171459175,
      "grad_norm": 0.6293473839759827,
      "learning_rate": 1.8110796450186575e-05,
      "loss": 1.4182,
      "mean_token_accuracy": 0.6520185619592667,
      "num_tokens": 714659406.0,
      "step": 4257
    },
    {
      "entropy": 1.7589415311813354,
      "epoch": 0.4677707286259647,
      "grad_norm": 0.6381205916404724,
      "learning_rate": 1.810981485722727e-05,
      "loss": 1.3121,
      "mean_token_accuracy": 0.6649649838606516,
      "num_tokens": 714782279.0,
      "step": 4258
    },
    {
      "entropy": 1.7126728395620983,
      "epoch": 0.46788058553733763,
      "grad_norm": 0.7846829295158386,
      "learning_rate": 1.8108833039245522e-05,
      "loss": 1.3273,
      "mean_token_accuracy": 0.6554552515347799,
      "num_tokens": 714981056.0,
      "step": 4259
    },
    {
      "entropy": 1.702657401561737,
      "epoch": 0.4679904424487106,
      "grad_norm": 0.9136094450950623,
      "learning_rate": 1.8107850996272414e-05,
      "loss": 1.5338,
      "mean_token_accuracy": 0.654092272122701,
      "num_tokens": 715155260.0,
      "step": 4260
    },
    {
      "entropy": 1.6792535583178203,
      "epoch": 0.4681002993600835,
      "grad_norm": 0.6011461019515991,
      "learning_rate": 1.8106868728339024e-05,
      "loss": 1.3942,
      "mean_token_accuracy": 0.6538469940423965,
      "num_tokens": 715359586.0,
      "step": 4261
    },
    {
      "entropy": 1.7443041900793712,
      "epoch": 0.4682101562714564,
      "grad_norm": 0.8767224550247192,
      "learning_rate": 1.810588623547644e-05,
      "loss": 1.5,
      "mean_token_accuracy": 0.650155504544576,
      "num_tokens": 715519166.0,
      "step": 4262
    },
    {
      "entropy": 1.7525466084480286,
      "epoch": 0.46832001318282934,
      "grad_norm": 0.707300066947937,
      "learning_rate": 1.8104903517715765e-05,
      "loss": 1.4655,
      "mean_token_accuracy": 0.6447683721780777,
      "num_tokens": 715712649.0,
      "step": 4263
    },
    {
      "entropy": 1.756022532780965,
      "epoch": 0.4684298700942023,
      "grad_norm": 0.6850044131278992,
      "learning_rate": 1.8103920575088092e-05,
      "loss": 1.3964,
      "mean_token_accuracy": 0.6608478824297587,
      "num_tokens": 715836727.0,
      "step": 4264
    },
    {
      "entropy": 1.7747258146603901,
      "epoch": 0.4685397270055752,
      "grad_norm": 0.8568280935287476,
      "learning_rate": 1.810293740762453e-05,
      "loss": 1.3805,
      "mean_token_accuracy": 0.6580488632122675,
      "num_tokens": 715980752.0,
      "step": 4265
    },
    {
      "entropy": 1.7230225205421448,
      "epoch": 0.46864958391694816,
      "grad_norm": 0.7651719450950623,
      "learning_rate": 1.8101954015356204e-05,
      "loss": 1.3571,
      "mean_token_accuracy": 0.6602768997351328,
      "num_tokens": 716150567.0,
      "step": 4266
    },
    {
      "entropy": 1.6723913550376892,
      "epoch": 0.4687594408283211,
      "grad_norm": 0.9501248002052307,
      "learning_rate": 1.810097039831423e-05,
      "loss": 1.3772,
      "mean_token_accuracy": 0.6587880253791809,
      "num_tokens": 716307037.0,
      "step": 4267
    },
    {
      "entropy": 1.7002276877562206,
      "epoch": 0.46886929773969405,
      "grad_norm": 0.6281111836433411,
      "learning_rate": 1.8099986556529748e-05,
      "loss": 1.5066,
      "mean_token_accuracy": 0.630008652806282,
      "num_tokens": 716473812.0,
      "step": 4268
    },
    {
      "entropy": 1.7168980836868286,
      "epoch": 0.468979154651067,
      "grad_norm": 0.6951456665992737,
      "learning_rate": 1.8099002490033886e-05,
      "loss": 1.3071,
      "mean_token_accuracy": 0.6706042140722275,
      "num_tokens": 716625498.0,
      "step": 4269
    },
    {
      "entropy": 1.6649049123128254,
      "epoch": 0.46908901156243993,
      "grad_norm": 0.783587634563446,
      "learning_rate": 1.8098018198857797e-05,
      "loss": 1.5879,
      "mean_token_accuracy": 0.6355616301298141,
      "num_tokens": 716806833.0,
      "step": 4270
    },
    {
      "entropy": 1.6906762719154358,
      "epoch": 0.46919886847381287,
      "grad_norm": 0.7415374517440796,
      "learning_rate": 1.8097033683032627e-05,
      "loss": 1.2876,
      "mean_token_accuracy": 0.6685866812864939,
      "num_tokens": 716934086.0,
      "step": 4271
    },
    {
      "entropy": 1.6387253900369008,
      "epoch": 0.4693087253851858,
      "grad_norm": 0.7111901640892029,
      "learning_rate": 1.8096048942589545e-05,
      "loss": 1.4057,
      "mean_token_accuracy": 0.6655648052692413,
      "num_tokens": 717123686.0,
      "step": 4272
    },
    {
      "entropy": 1.7091521223386128,
      "epoch": 0.46941858229655875,
      "grad_norm": 0.8598929047584534,
      "learning_rate": 1.8095063977559706e-05,
      "loss": 1.4529,
      "mean_token_accuracy": 0.6519492069880167,
      "num_tokens": 717281760.0,
      "step": 4273
    },
    {
      "entropy": 1.7045681079228718,
      "epoch": 0.4695284392079317,
      "grad_norm": 0.6577821969985962,
      "learning_rate": 1.809407878797429e-05,
      "loss": 1.4014,
      "mean_token_accuracy": 0.6432823886473974,
      "num_tokens": 717548049.0,
      "step": 4274
    },
    {
      "entropy": 1.7074416081110637,
      "epoch": 0.46963829611930463,
      "grad_norm": 0.7430242300033569,
      "learning_rate": 1.809309337386448e-05,
      "loss": 1.216,
      "mean_token_accuracy": 0.6894436677296957,
      "num_tokens": 717666119.0,
      "step": 4275
    },
    {
      "entropy": 1.7699640194574993,
      "epoch": 0.4697481530306775,
      "grad_norm": 0.635347306728363,
      "learning_rate": 1.8092107735261456e-05,
      "loss": 1.3919,
      "mean_token_accuracy": 0.6452954411506653,
      "num_tokens": 717850472.0,
      "step": 4276
    },
    {
      "entropy": 1.6869786580403645,
      "epoch": 0.46985800994205046,
      "grad_norm": 0.6386687755584717,
      "learning_rate": 1.8091121872196424e-05,
      "loss": 1.396,
      "mean_token_accuracy": 0.6727607051531473,
      "num_tokens": 718040207.0,
      "step": 4277
    },
    {
      "entropy": 1.741450657447179,
      "epoch": 0.4699678668534234,
      "grad_norm": 0.6524372696876526,
      "learning_rate": 1.8090135784700573e-05,
      "loss": 1.4028,
      "mean_token_accuracy": 0.6533336142698923,
      "num_tokens": 718201275.0,
      "step": 4278
    },
    {
      "entropy": 1.712234725554784,
      "epoch": 0.47007772376479634,
      "grad_norm": 0.6172965168952942,
      "learning_rate": 1.8089149472805124e-05,
      "loss": 1.3392,
      "mean_token_accuracy": 0.6610304166873296,
      "num_tokens": 718387782.0,
      "step": 4279
    },
    {
      "entropy": 1.7065201203028362,
      "epoch": 0.4701875806761693,
      "grad_norm": 1.2049860954284668,
      "learning_rate": 1.808816293654129e-05,
      "loss": 1.3301,
      "mean_token_accuracy": 0.6645681808392206,
      "num_tokens": 718584128.0,
      "step": 4280
    },
    {
      "entropy": 1.7023885548114777,
      "epoch": 0.4702974375875422,
      "grad_norm": 0.7760981917381287,
      "learning_rate": 1.808717617594029e-05,
      "loss": 1.459,
      "mean_token_accuracy": 0.6542429427305857,
      "num_tokens": 718796876.0,
      "step": 4281
    },
    {
      "entropy": 1.6860670546690624,
      "epoch": 0.47040729449891516,
      "grad_norm": 0.5433915257453918,
      "learning_rate": 1.808618919103336e-05,
      "loss": 1.3945,
      "mean_token_accuracy": 0.6503080328305563,
      "num_tokens": 719018527.0,
      "step": 4282
    },
    {
      "entropy": 1.6572819451491039,
      "epoch": 0.4705171514102881,
      "grad_norm": 0.6897891759872437,
      "learning_rate": 1.8085201981851736e-05,
      "loss": 1.2418,
      "mean_token_accuracy": 0.6722082744042078,
      "num_tokens": 719147052.0,
      "step": 4283
    },
    {
      "entropy": 1.6799413760503132,
      "epoch": 0.47062700832166104,
      "grad_norm": 0.6752045154571533,
      "learning_rate": 1.8084214548426654e-05,
      "loss": 1.4649,
      "mean_token_accuracy": 0.6453558802604675,
      "num_tokens": 719329449.0,
      "step": 4284
    },
    {
      "entropy": 1.722192605336507,
      "epoch": 0.470736865233034,
      "grad_norm": 0.6820024847984314,
      "learning_rate": 1.808322689078938e-05,
      "loss": 1.4336,
      "mean_token_accuracy": 0.6577473928531011,
      "num_tokens": 719487213.0,
      "step": 4285
    },
    {
      "entropy": 1.74460373322169,
      "epoch": 0.4708467221444069,
      "grad_norm": 0.6988834142684937,
      "learning_rate": 1.808223900897117e-05,
      "loss": 1.4352,
      "mean_token_accuracy": 0.6543379972378413,
      "num_tokens": 719694255.0,
      "step": 4286
    },
    {
      "entropy": 1.7346366445223491,
      "epoch": 0.47095657905577987,
      "grad_norm": 0.583162248134613,
      "learning_rate": 1.808125090300328e-05,
      "loss": 1.5286,
      "mean_token_accuracy": 0.641033207376798,
      "num_tokens": 719893163.0,
      "step": 4287
    },
    {
      "entropy": 1.7112852732340496,
      "epoch": 0.4710664359671528,
      "grad_norm": 0.7566839456558228,
      "learning_rate": 1.8080262572916995e-05,
      "loss": 1.4578,
      "mean_token_accuracy": 0.6502961864074072,
      "num_tokens": 720100241.0,
      "step": 4288
    },
    {
      "entropy": 1.7262468834718068,
      "epoch": 0.4711762928785257,
      "grad_norm": 0.7071588039398193,
      "learning_rate": 1.8079274018743586e-05,
      "loss": 1.4254,
      "mean_token_accuracy": 0.6600110133488973,
      "num_tokens": 720246867.0,
      "step": 4289
    },
    {
      "entropy": 1.7163510620594025,
      "epoch": 0.47128614978989863,
      "grad_norm": 0.6831440925598145,
      "learning_rate": 1.8078285240514346e-05,
      "loss": 1.4533,
      "mean_token_accuracy": 0.6454131652911504,
      "num_tokens": 720458244.0,
      "step": 4290
    },
    {
      "entropy": 1.728024274110794,
      "epoch": 0.4713960067012716,
      "grad_norm": 0.7538992762565613,
      "learning_rate": 1.8077296238260566e-05,
      "loss": 1.411,
      "mean_token_accuracy": 0.6426265041033427,
      "num_tokens": 720649523.0,
      "step": 4291
    },
    {
      "entropy": 1.7086349626382191,
      "epoch": 0.4715058636126445,
      "grad_norm": 0.7316638231277466,
      "learning_rate": 1.807630701201355e-05,
      "loss": 1.5146,
      "mean_token_accuracy": 0.6412151654561361,
      "num_tokens": 720851857.0,
      "step": 4292
    },
    {
      "entropy": 1.7693568468093872,
      "epoch": 0.47161572052401746,
      "grad_norm": 0.632696807384491,
      "learning_rate": 1.8075317561804607e-05,
      "loss": 1.4909,
      "mean_token_accuracy": 0.6514314661423365,
      "num_tokens": 721060765.0,
      "step": 4293
    },
    {
      "entropy": 1.6974764168262482,
      "epoch": 0.4717255774353904,
      "grad_norm": 0.6965688467025757,
      "learning_rate": 1.8074327887665055e-05,
      "loss": 1.2898,
      "mean_token_accuracy": 0.6642700731754303,
      "num_tokens": 721194660.0,
      "step": 4294
    },
    {
      "entropy": 1.6968635221322377,
      "epoch": 0.47183543434676334,
      "grad_norm": 0.6898081302642822,
      "learning_rate": 1.8073337989626204e-05,
      "loss": 1.3322,
      "mean_token_accuracy": 0.6627618571122488,
      "num_tokens": 721383484.0,
      "step": 4295
    },
    {
      "entropy": 1.6964893241723378,
      "epoch": 0.4719452912581363,
      "grad_norm": 0.8017412424087524,
      "learning_rate": 1.80723478677194e-05,
      "loss": 1.5026,
      "mean_token_accuracy": 0.6530030220746994,
      "num_tokens": 721549670.0,
      "step": 4296
    },
    {
      "entropy": 1.6955971519152324,
      "epoch": 0.4720551481695092,
      "grad_norm": 0.6565828919410706,
      "learning_rate": 1.8071357521975973e-05,
      "loss": 1.3502,
      "mean_token_accuracy": 0.65217158695062,
      "num_tokens": 721745653.0,
      "step": 4297
    },
    {
      "entropy": 1.7536290884017944,
      "epoch": 0.47216500508088216,
      "grad_norm": 0.8173093795776367,
      "learning_rate": 1.8070366952427264e-05,
      "loss": 1.2962,
      "mean_token_accuracy": 0.6676636189222336,
      "num_tokens": 721858073.0,
      "step": 4298
    },
    {
      "entropy": 1.7875964442888896,
      "epoch": 0.4722748619922551,
      "grad_norm": 0.7748461961746216,
      "learning_rate": 1.8069376159104627e-05,
      "loss": 1.3616,
      "mean_token_accuracy": 0.6534435500701269,
      "num_tokens": 721959036.0,
      "step": 4299
    },
    {
      "entropy": 1.6941121816635132,
      "epoch": 0.47238471890362804,
      "grad_norm": 0.6175353527069092,
      "learning_rate": 1.8068385142039423e-05,
      "loss": 1.422,
      "mean_token_accuracy": 0.6544578274091085,
      "num_tokens": 722165019.0,
      "step": 4300
    },
    {
      "entropy": 1.7405302226543427,
      "epoch": 0.472494575815001,
      "grad_norm": 0.7650004625320435,
      "learning_rate": 1.8067393901263012e-05,
      "loss": 1.4173,
      "mean_token_accuracy": 0.6511756877104441,
      "num_tokens": 722308976.0,
      "step": 4301
    },
    {
      "entropy": 1.676590492328008,
      "epoch": 0.4726044327263739,
      "grad_norm": 0.6478630900382996,
      "learning_rate": 1.806640243680677e-05,
      "loss": 1.4806,
      "mean_token_accuracy": 0.6535717646280924,
      "num_tokens": 722469917.0,
      "step": 4302
    },
    {
      "entropy": 1.7782863477865856,
      "epoch": 0.4727142896377468,
      "grad_norm": 0.719274640083313,
      "learning_rate": 1.8065410748702074e-05,
      "loss": 1.2816,
      "mean_token_accuracy": 0.65965636074543,
      "num_tokens": 722610621.0,
      "step": 4303
    },
    {
      "entropy": 1.710064172744751,
      "epoch": 0.47282414654911975,
      "grad_norm": 0.7524754405021667,
      "learning_rate": 1.8064418836980308e-05,
      "loss": 1.309,
      "mean_token_accuracy": 0.6599444597959518,
      "num_tokens": 722755392.0,
      "step": 4304
    },
    {
      "entropy": 1.7238652805487316,
      "epoch": 0.4729340034604927,
      "grad_norm": 0.7304325699806213,
      "learning_rate": 1.8063426701672873e-05,
      "loss": 1.4739,
      "mean_token_accuracy": 0.6304669479529063,
      "num_tokens": 722957312.0,
      "step": 4305
    },
    {
      "entropy": 1.7300621767838795,
      "epoch": 0.47304386037186563,
      "grad_norm": 0.6810824275016785,
      "learning_rate": 1.8062434342811162e-05,
      "loss": 1.2365,
      "mean_token_accuracy": 0.676527221997579,
      "num_tokens": 723083250.0,
      "step": 4306
    },
    {
      "entropy": 1.6840552985668182,
      "epoch": 0.4731537172832386,
      "grad_norm": 0.6959050297737122,
      "learning_rate": 1.806144176042659e-05,
      "loss": 1.2747,
      "mean_token_accuracy": 0.6719006498654684,
      "num_tokens": 723200410.0,
      "step": 4307
    },
    {
      "entropy": 1.674494077761968,
      "epoch": 0.4732635741946115,
      "grad_norm": 0.821858823299408,
      "learning_rate": 1.806044895455057e-05,
      "loss": 1.5042,
      "mean_token_accuracy": 0.6550217668215433,
      "num_tokens": 723415334.0,
      "step": 4308
    },
    {
      "entropy": 1.7024798194567363,
      "epoch": 0.47337343110598445,
      "grad_norm": 0.6039428114891052,
      "learning_rate": 1.805945592521452e-05,
      "loss": 1.529,
      "mean_token_accuracy": 0.6412127415339152,
      "num_tokens": 723682772.0,
      "step": 4309
    },
    {
      "entropy": 1.6901743511358898,
      "epoch": 0.4734832880173574,
      "grad_norm": 0.6753347516059875,
      "learning_rate": 1.805846267244987e-05,
      "loss": 1.4604,
      "mean_token_accuracy": 0.6477407167355219,
      "num_tokens": 723833718.0,
      "step": 4310
    },
    {
      "entropy": 1.7576901117960613,
      "epoch": 0.47359314492873034,
      "grad_norm": 0.6248276233673096,
      "learning_rate": 1.805746919628806e-05,
      "loss": 1.4668,
      "mean_token_accuracy": 0.6350358178218206,
      "num_tokens": 724044003.0,
      "step": 4311
    },
    {
      "entropy": 1.8473595082759857,
      "epoch": 0.4737030018401033,
      "grad_norm": 0.74982750415802,
      "learning_rate": 1.805647549676053e-05,
      "loss": 1.3729,
      "mean_token_accuracy": 0.6502262949943542,
      "num_tokens": 724178065.0,
      "step": 4312
    },
    {
      "entropy": 1.701841801404953,
      "epoch": 0.4738128587514762,
      "grad_norm": 0.6254753470420837,
      "learning_rate": 1.805548157389873e-05,
      "loss": 1.4934,
      "mean_token_accuracy": 0.6539788742860159,
      "num_tokens": 724368669.0,
      "step": 4313
    },
    {
      "entropy": 1.706893652677536,
      "epoch": 0.47392271566284916,
      "grad_norm": 0.7036319971084595,
      "learning_rate": 1.8054487427734114e-05,
      "loss": 1.3255,
      "mean_token_accuracy": 0.6660927186409632,
      "num_tokens": 724504066.0,
      "step": 4314
    },
    {
      "entropy": 1.7539520064989726,
      "epoch": 0.4740325725742221,
      "grad_norm": 0.7536458373069763,
      "learning_rate": 1.805349305829815e-05,
      "loss": 1.4542,
      "mean_token_accuracy": 0.655565415819486,
      "num_tokens": 724665861.0,
      "step": 4315
    },
    {
      "entropy": 1.6917597552140553,
      "epoch": 0.474142429485595,
      "grad_norm": 0.7118553519248962,
      "learning_rate": 1.8052498465622314e-05,
      "loss": 1.3756,
      "mean_token_accuracy": 0.6556372493505478,
      "num_tokens": 724831820.0,
      "step": 4316
    },
    {
      "entropy": 1.6829906304677327,
      "epoch": 0.4742522863969679,
      "grad_norm": 0.6873073577880859,
      "learning_rate": 1.8051503649738072e-05,
      "loss": 1.2962,
      "mean_token_accuracy": 0.6665286769469579,
      "num_tokens": 724954659.0,
      "step": 4317
    },
    {
      "entropy": 1.7101400991280873,
      "epoch": 0.47436214330834087,
      "grad_norm": 0.6849009990692139,
      "learning_rate": 1.8050508610676922e-05,
      "loss": 1.3413,
      "mean_token_accuracy": 0.6543218890825907,
      "num_tokens": 725144933.0,
      "step": 4318
    },
    {
      "entropy": 1.7625108063220978,
      "epoch": 0.4744720002197138,
      "grad_norm": 0.6787395477294922,
      "learning_rate": 1.804951334847035e-05,
      "loss": 1.4429,
      "mean_token_accuracy": 0.6538337916135788,
      "num_tokens": 725328948.0,
      "step": 4319
    },
    {
      "entropy": 1.7518400251865387,
      "epoch": 0.47458185713108675,
      "grad_norm": 0.7725258469581604,
      "learning_rate": 1.804851786314986e-05,
      "loss": 1.4116,
      "mean_token_accuracy": 0.6575403213500977,
      "num_tokens": 725488681.0,
      "step": 4320
    },
    {
      "entropy": 1.7236202557881672,
      "epoch": 0.4746917140424597,
      "grad_norm": 0.6077833771705627,
      "learning_rate": 1.8047522154746953e-05,
      "loss": 1.5031,
      "mean_token_accuracy": 0.6396900862455368,
      "num_tokens": 725679245.0,
      "step": 4321
    },
    {
      "entropy": 1.6955150763193767,
      "epoch": 0.47480157095383263,
      "grad_norm": 0.628399670124054,
      "learning_rate": 1.8046526223293147e-05,
      "loss": 1.4053,
      "mean_token_accuracy": 0.6565594325462977,
      "num_tokens": 725865088.0,
      "step": 4322
    },
    {
      "entropy": 1.6883783340454102,
      "epoch": 0.47491142786520557,
      "grad_norm": 0.7310377359390259,
      "learning_rate": 1.804553006881996e-05,
      "loss": 1.479,
      "mean_token_accuracy": 0.6422811150550842,
      "num_tokens": 726050927.0,
      "step": 4323
    },
    {
      "entropy": 1.709149529536565,
      "epoch": 0.4750212847765785,
      "grad_norm": 0.683785080909729,
      "learning_rate": 1.8044533691358924e-05,
      "loss": 1.3372,
      "mean_token_accuracy": 0.655320425828298,
      "num_tokens": 726212417.0,
      "step": 4324
    },
    {
      "entropy": 1.694841782251994,
      "epoch": 0.47513114168795145,
      "grad_norm": 0.6588259339332581,
      "learning_rate": 1.8043537090941566e-05,
      "loss": 1.447,
      "mean_token_accuracy": 0.6471510380506516,
      "num_tokens": 726413076.0,
      "step": 4325
    },
    {
      "entropy": 1.632349779208501,
      "epoch": 0.4752409985993244,
      "grad_norm": 0.7610387802124023,
      "learning_rate": 1.8042540267599434e-05,
      "loss": 1.2092,
      "mean_token_accuracy": 0.6765281210343043,
      "num_tokens": 726564146.0,
      "step": 4326
    },
    {
      "entropy": 1.6315424640973408,
      "epoch": 0.47535085551069733,
      "grad_norm": 0.660910427570343,
      "learning_rate": 1.804154322136408e-05,
      "loss": 1.4702,
      "mean_token_accuracy": 0.652957613269488,
      "num_tokens": 726780422.0,
      "step": 4327
    },
    {
      "entropy": 1.766084998846054,
      "epoch": 0.4754607124220703,
      "grad_norm": 0.7246162295341492,
      "learning_rate": 1.8040545952267054e-05,
      "loss": 1.3591,
      "mean_token_accuracy": 0.6496909161408743,
      "num_tokens": 726905268.0,
      "step": 4328
    },
    {
      "entropy": 1.6654809912045796,
      "epoch": 0.4755705693334432,
      "grad_norm": 0.5605107545852661,
      "learning_rate": 1.803954846033992e-05,
      "loss": 1.4205,
      "mean_token_accuracy": 0.6426665484905243,
      "num_tokens": 727121679.0,
      "step": 4329
    },
    {
      "entropy": 1.651865929365158,
      "epoch": 0.4756804262448161,
      "grad_norm": 0.7960909605026245,
      "learning_rate": 1.803855074561425e-05,
      "loss": 1.4079,
      "mean_token_accuracy": 0.6638611356417338,
      "num_tokens": 727277692.0,
      "step": 4330
    },
    {
      "entropy": 1.6862823764483135,
      "epoch": 0.47579028315618904,
      "grad_norm": 0.7021883726119995,
      "learning_rate": 1.8037552808121623e-05,
      "loss": 1.3779,
      "mean_token_accuracy": 0.6561082353194555,
      "num_tokens": 727419140.0,
      "step": 4331
    },
    {
      "entropy": 1.6958340108394623,
      "epoch": 0.475900140067562,
      "grad_norm": 0.5929916501045227,
      "learning_rate": 1.8036554647893614e-05,
      "loss": 1.4561,
      "mean_token_accuracy": 0.6269871642192205,
      "num_tokens": 727672721.0,
      "step": 4332
    },
    {
      "entropy": 1.667265961567561,
      "epoch": 0.4760099969789349,
      "grad_norm": 0.7513339519500732,
      "learning_rate": 1.8035556264961827e-05,
      "loss": 1.4436,
      "mean_token_accuracy": 0.6567800442377726,
      "num_tokens": 727874717.0,
      "step": 4333
    },
    {
      "entropy": 1.768438736597697,
      "epoch": 0.47611985389030786,
      "grad_norm": 0.893416702747345,
      "learning_rate": 1.8034557659357854e-05,
      "loss": 1.3738,
      "mean_token_accuracy": 0.6622404058774313,
      "num_tokens": 728038303.0,
      "step": 4334
    },
    {
      "entropy": 1.6817525227864583,
      "epoch": 0.4762297108016808,
      "grad_norm": 0.6666687726974487,
      "learning_rate": 1.8033558831113296e-05,
      "loss": 1.4322,
      "mean_token_accuracy": 0.6520895212888718,
      "num_tokens": 728211654.0,
      "step": 4335
    },
    {
      "entropy": 1.7423338790734608,
      "epoch": 0.47633956771305375,
      "grad_norm": 0.7516040205955505,
      "learning_rate": 1.8032559780259777e-05,
      "loss": 1.4885,
      "mean_token_accuracy": 0.6466931303342184,
      "num_tokens": 728382033.0,
      "step": 4336
    },
    {
      "entropy": 1.714792827765147,
      "epoch": 0.4764494246244267,
      "grad_norm": 0.6818469762802124,
      "learning_rate": 1.803156050682891e-05,
      "loss": 1.4962,
      "mean_token_accuracy": 0.6401876310507456,
      "num_tokens": 728568806.0,
      "step": 4337
    },
    {
      "entropy": 1.6942576467990875,
      "epoch": 0.47655928153579963,
      "grad_norm": 0.7585091590881348,
      "learning_rate": 1.8030561010852318e-05,
      "loss": 1.417,
      "mean_token_accuracy": 0.6545371363560358,
      "num_tokens": 728696501.0,
      "step": 4338
    },
    {
      "entropy": 1.6838724116484325,
      "epoch": 0.47666913844717257,
      "grad_norm": 0.6353939771652222,
      "learning_rate": 1.8029561292361636e-05,
      "loss": 1.3464,
      "mean_token_accuracy": 0.6659842431545258,
      "num_tokens": 728827471.0,
      "step": 4339
    },
    {
      "entropy": 1.736908346414566,
      "epoch": 0.4767789953585455,
      "grad_norm": 0.6974917650222778,
      "learning_rate": 1.802856135138851e-05,
      "loss": 1.3136,
      "mean_token_accuracy": 0.6713606069485346,
      "num_tokens": 728948450.0,
      "step": 4340
    },
    {
      "entropy": 1.7290816803773243,
      "epoch": 0.47688885226991845,
      "grad_norm": 0.6494654417037964,
      "learning_rate": 1.8027561187964583e-05,
      "loss": 1.3931,
      "mean_token_accuracy": 0.6582505901654562,
      "num_tokens": 729130424.0,
      "step": 4341
    },
    {
      "entropy": 1.7498342792193096,
      "epoch": 0.4769987091812914,
      "grad_norm": 0.7365612983703613,
      "learning_rate": 1.8026560802121514e-05,
      "loss": 1.4257,
      "mean_token_accuracy": 0.656251793106397,
      "num_tokens": 729273974.0,
      "step": 4342
    },
    {
      "entropy": 1.6831127107143402,
      "epoch": 0.47710856609266433,
      "grad_norm": 0.6563628315925598,
      "learning_rate": 1.8025560193890957e-05,
      "loss": 1.2273,
      "mean_token_accuracy": 0.6860732932885488,
      "num_tokens": 729412026.0,
      "step": 4343
    },
    {
      "entropy": 1.7000919779141743,
      "epoch": 0.4772184230040372,
      "grad_norm": 0.6804105639457703,
      "learning_rate": 1.802455936330459e-05,
      "loss": 1.4399,
      "mean_token_accuracy": 0.6513183464606603,
      "num_tokens": 729599255.0,
      "step": 4344
    },
    {
      "entropy": 1.6972023944060008,
      "epoch": 0.47732827991541016,
      "grad_norm": 0.7301200032234192,
      "learning_rate": 1.8023558310394085e-05,
      "loss": 1.4833,
      "mean_token_accuracy": 0.6496182779471079,
      "num_tokens": 729748405.0,
      "step": 4345
    },
    {
      "entropy": 1.6879161496957142,
      "epoch": 0.4774381368267831,
      "grad_norm": 0.7359111309051514,
      "learning_rate": 1.802255703519112e-05,
      "loss": 1.3136,
      "mean_token_accuracy": 0.6658755342165629,
      "num_tokens": 729884748.0,
      "step": 4346
    },
    {
      "entropy": 1.6763985455036163,
      "epoch": 0.47754799373815604,
      "grad_norm": 0.6414416432380676,
      "learning_rate": 1.802155553772739e-05,
      "loss": 1.4129,
      "mean_token_accuracy": 0.6613647441069285,
      "num_tokens": 730055896.0,
      "step": 4347
    },
    {
      "entropy": 1.670947680870692,
      "epoch": 0.477657850649529,
      "grad_norm": 0.6289905905723572,
      "learning_rate": 1.8020553818034598e-05,
      "loss": 1.3287,
      "mean_token_accuracy": 0.6603012681007385,
      "num_tokens": 730249265.0,
      "step": 4348
    },
    {
      "entropy": 1.7056255042552948,
      "epoch": 0.4777677075609019,
      "grad_norm": 0.6382940411567688,
      "learning_rate": 1.801955187614443e-05,
      "loss": 1.288,
      "mean_token_accuracy": 0.6747541030248007,
      "num_tokens": 730391443.0,
      "step": 4349
    },
    {
      "entropy": 1.6851585308710735,
      "epoch": 0.47787756447227486,
      "grad_norm": 0.735909640789032,
      "learning_rate": 1.8018549712088616e-05,
      "loss": 1.4657,
      "mean_token_accuracy": 0.6491023351748785,
      "num_tokens": 730555554.0,
      "step": 4350
    },
    {
      "entropy": 1.7253076136112213,
      "epoch": 0.4779874213836478,
      "grad_norm": 0.6947519183158875,
      "learning_rate": 1.8017547325898867e-05,
      "loss": 1.5152,
      "mean_token_accuracy": 0.6418954481681188,
      "num_tokens": 730748007.0,
      "step": 4351
    },
    {
      "entropy": 1.7013379335403442,
      "epoch": 0.47809727829502074,
      "grad_norm": 0.7011768221855164,
      "learning_rate": 1.8016544717606902e-05,
      "loss": 1.4242,
      "mean_token_accuracy": 0.6465904712677002,
      "num_tokens": 730952979.0,
      "step": 4352
    },
    {
      "entropy": 1.6715512077013652,
      "epoch": 0.4782071352063937,
      "grad_norm": 0.7021841406822205,
      "learning_rate": 1.8015541887244464e-05,
      "loss": 1.5118,
      "mean_token_accuracy": 0.6352577755848566,
      "num_tokens": 731173855.0,
      "step": 4353
    },
    {
      "entropy": 1.6683913866678874,
      "epoch": 0.4783169921177666,
      "grad_norm": 0.8116162419319153,
      "learning_rate": 1.801453883484328e-05,
      "loss": 1.5141,
      "mean_token_accuracy": 0.6527464812000593,
      "num_tokens": 731356672.0,
      "step": 4354
    },
    {
      "entropy": 1.7470175723234813,
      "epoch": 0.47842684902913957,
      "grad_norm": 0.72096848487854,
      "learning_rate": 1.801353556043511e-05,
      "loss": 1.3687,
      "mean_token_accuracy": 0.653298462430636,
      "num_tokens": 731479511.0,
      "step": 4355
    },
    {
      "entropy": 1.6899640957514446,
      "epoch": 0.4785367059405125,
      "grad_norm": 0.7514692544937134,
      "learning_rate": 1.8012532064051695e-05,
      "loss": 1.4348,
      "mean_token_accuracy": 0.6547542959451675,
      "num_tokens": 731618070.0,
      "step": 4356
    },
    {
      "entropy": 1.7060795327027638,
      "epoch": 0.4786465628518854,
      "grad_norm": 0.6599856019020081,
      "learning_rate": 1.8011528345724804e-05,
      "loss": 1.4117,
      "mean_token_accuracy": 0.6612872232993444,
      "num_tokens": 731758018.0,
      "step": 4357
    },
    {
      "entropy": 1.7181631028652191,
      "epoch": 0.47875641976325833,
      "grad_norm": 0.8530781865119934,
      "learning_rate": 1.8010524405486197e-05,
      "loss": 1.6284,
      "mean_token_accuracy": 0.6449073478579521,
      "num_tokens": 731909530.0,
      "step": 4358
    },
    {
      "entropy": 1.7219158411026,
      "epoch": 0.4788662766746313,
      "grad_norm": 0.6865781545639038,
      "learning_rate": 1.8009520243367652e-05,
      "loss": 1.4611,
      "mean_token_accuracy": 0.6500067412853241,
      "num_tokens": 732098400.0,
      "step": 4359
    },
    {
      "entropy": 1.6570659577846527,
      "epoch": 0.4789761335860042,
      "grad_norm": 0.6869319677352905,
      "learning_rate": 1.800851585940095e-05,
      "loss": 1.4586,
      "mean_token_accuracy": 0.6624219765265783,
      "num_tokens": 732254430.0,
      "step": 4360
    },
    {
      "entropy": 1.719583551088969,
      "epoch": 0.47908599049737716,
      "grad_norm": 0.6726648807525635,
      "learning_rate": 1.800751125361788e-05,
      "loss": 1.5502,
      "mean_token_accuracy": 0.643532986442248,
      "num_tokens": 732476478.0,
      "step": 4361
    },
    {
      "entropy": 1.714612752199173,
      "epoch": 0.4791958474087501,
      "grad_norm": 0.654414713382721,
      "learning_rate": 1.8006506426050235e-05,
      "loss": 1.4203,
      "mean_token_accuracy": 0.6522560815016428,
      "num_tokens": 732620031.0,
      "step": 4362
    },
    {
      "entropy": 1.7117332716782887,
      "epoch": 0.47930570432012304,
      "grad_norm": 0.7520214319229126,
      "learning_rate": 1.8005501376729818e-05,
      "loss": 1.4046,
      "mean_token_accuracy": 0.6597649057706197,
      "num_tokens": 732780049.0,
      "step": 4363
    },
    {
      "entropy": 1.845967213312785,
      "epoch": 0.479415561231496,
      "grad_norm": 0.6956945061683655,
      "learning_rate": 1.800449610568844e-05,
      "loss": 1.525,
      "mean_token_accuracy": 0.6418049583832423,
      "num_tokens": 732964821.0,
      "step": 4364
    },
    {
      "entropy": 1.7225728332996368,
      "epoch": 0.4795254181428689,
      "grad_norm": 1.2998478412628174,
      "learning_rate": 1.800349061295792e-05,
      "loss": 1.3252,
      "mean_token_accuracy": 0.6638927906751633,
      "num_tokens": 733081631.0,
      "step": 4365
    },
    {
      "entropy": 1.6589208642641704,
      "epoch": 0.47963527505424186,
      "grad_norm": 0.5991522073745728,
      "learning_rate": 1.8002484898570073e-05,
      "loss": 1.4725,
      "mean_token_accuracy": 0.6591239819924036,
      "num_tokens": 733257026.0,
      "step": 4366
    },
    {
      "entropy": 1.6971391240755718,
      "epoch": 0.4797451319656148,
      "grad_norm": 0.6521365642547607,
      "learning_rate": 1.800147896255674e-05,
      "loss": 1.3539,
      "mean_token_accuracy": 0.6691495180130005,
      "num_tokens": 733446044.0,
      "step": 4367
    },
    {
      "entropy": 1.7168017029762268,
      "epoch": 0.47985498887698774,
      "grad_norm": 0.6156492233276367,
      "learning_rate": 1.800047280494975e-05,
      "loss": 1.4011,
      "mean_token_accuracy": 0.6625112245480219,
      "num_tokens": 733656891.0,
      "step": 4368
    },
    {
      "entropy": 1.7018579840660095,
      "epoch": 0.4799648457883607,
      "grad_norm": 0.7289679050445557,
      "learning_rate": 1.7999466425780948e-05,
      "loss": 1.1951,
      "mean_token_accuracy": 0.6875071277221044,
      "num_tokens": 733770636.0,
      "step": 4369
    },
    {
      "entropy": 1.71112060546875,
      "epoch": 0.4800747026997336,
      "grad_norm": 0.7808387279510498,
      "learning_rate": 1.7998459825082192e-05,
      "loss": 1.2365,
      "mean_token_accuracy": 0.6787021855513254,
      "num_tokens": 733883779.0,
      "step": 4370
    },
    {
      "entropy": 1.778799831867218,
      "epoch": 0.4801845596111065,
      "grad_norm": 0.736013650894165,
      "learning_rate": 1.799745300288533e-05,
      "loss": 1.5431,
      "mean_token_accuracy": 0.6357332865397135,
      "num_tokens": 734086295.0,
      "step": 4371
    },
    {
      "entropy": 1.648956149816513,
      "epoch": 0.48029441652247945,
      "grad_norm": 0.5882608294487,
      "learning_rate": 1.7996445959222237e-05,
      "loss": 1.4369,
      "mean_token_accuracy": 0.6544050325949987,
      "num_tokens": 734312987.0,
      "step": 4372
    },
    {
      "entropy": 1.6493046085039775,
      "epoch": 0.4804042734338524,
      "grad_norm": 0.7231053709983826,
      "learning_rate": 1.7995438694124782e-05,
      "loss": 1.2697,
      "mean_token_accuracy": 0.6721268246571223,
      "num_tokens": 734444526.0,
      "step": 4373
    },
    {
      "entropy": 1.7278722524642944,
      "epoch": 0.48051413034522533,
      "grad_norm": 0.7068110108375549,
      "learning_rate": 1.7994431207624845e-05,
      "loss": 1.4124,
      "mean_token_accuracy": 0.654108315706253,
      "num_tokens": 734630234.0,
      "step": 4374
    },
    {
      "entropy": 1.7103682061036427,
      "epoch": 0.4806239872565983,
      "grad_norm": 0.605778157711029,
      "learning_rate": 1.7993423499754314e-05,
      "loss": 1.372,
      "mean_token_accuracy": 0.6507877210776011,
      "num_tokens": 734822527.0,
      "step": 4375
    },
    {
      "entropy": 1.7161585489908855,
      "epoch": 0.4807338441679712,
      "grad_norm": 0.7217233777046204,
      "learning_rate": 1.7992415570545078e-05,
      "loss": 1.2415,
      "mean_token_accuracy": 0.6822354594866434,
      "num_tokens": 734943030.0,
      "step": 4376
    },
    {
      "entropy": 1.6399229069550831,
      "epoch": 0.48084370107934415,
      "grad_norm": 0.5977116823196411,
      "learning_rate": 1.799140742002904e-05,
      "loss": 1.3927,
      "mean_token_accuracy": 0.6513981918493906,
      "num_tokens": 735178947.0,
      "step": 4377
    },
    {
      "entropy": 1.6955311596393585,
      "epoch": 0.4809535579907171,
      "grad_norm": 0.8311605453491211,
      "learning_rate": 1.7990399048238107e-05,
      "loss": 1.3563,
      "mean_token_accuracy": 0.6646893272797266,
      "num_tokens": 735359480.0,
      "step": 4378
    },
    {
      "entropy": 1.7144683202107747,
      "epoch": 0.48106341490209004,
      "grad_norm": 0.6836698055267334,
      "learning_rate": 1.7989390455204193e-05,
      "loss": 1.3922,
      "mean_token_accuracy": 0.6572039127349854,
      "num_tokens": 735565677.0,
      "step": 4379
    },
    {
      "entropy": 1.7366363008817036,
      "epoch": 0.481173271813463,
      "grad_norm": 0.8185579180717468,
      "learning_rate": 1.7988381640959223e-05,
      "loss": 1.4593,
      "mean_token_accuracy": 0.6663338194290797,
      "num_tokens": 735749818.0,
      "step": 4380
    },
    {
      "entropy": 1.712560087442398,
      "epoch": 0.4812831287248359,
      "grad_norm": 0.7879271507263184,
      "learning_rate": 1.7987372605535123e-05,
      "loss": 1.5386,
      "mean_token_accuracy": 0.655731255809466,
      "num_tokens": 735916786.0,
      "step": 4381
    },
    {
      "entropy": 1.7204462985197704,
      "epoch": 0.48139298563620886,
      "grad_norm": 0.8967468738555908,
      "learning_rate": 1.798636334896383e-05,
      "loss": 1.3121,
      "mean_token_accuracy": 0.665294274687767,
      "num_tokens": 736095507.0,
      "step": 4382
    },
    {
      "entropy": 1.6719180544217427,
      "epoch": 0.4815028425475818,
      "grad_norm": 0.7155001163482666,
      "learning_rate": 1.7985353871277284e-05,
      "loss": 1.4705,
      "mean_token_accuracy": 0.6568170140186945,
      "num_tokens": 736227693.0,
      "step": 4383
    },
    {
      "entropy": 1.6862878203392029,
      "epoch": 0.4816126994589547,
      "grad_norm": 0.7051180601119995,
      "learning_rate": 1.798434417250743e-05,
      "loss": 1.4039,
      "mean_token_accuracy": 0.658642495671908,
      "num_tokens": 736398354.0,
      "step": 4384
    },
    {
      "entropy": 1.7053897380828857,
      "epoch": 0.4817225563703276,
      "grad_norm": 0.6290838122367859,
      "learning_rate": 1.7983334252686236e-05,
      "loss": 1.3671,
      "mean_token_accuracy": 0.6522834599018097,
      "num_tokens": 736528732.0,
      "step": 4385
    },
    {
      "entropy": 1.7519411742687225,
      "epoch": 0.48183241328170057,
      "grad_norm": 0.7291600704193115,
      "learning_rate": 1.798232411184566e-05,
      "loss": 1.3714,
      "mean_token_accuracy": 0.6766092479228973,
      "num_tokens": 736658095.0,
      "step": 4386
    },
    {
      "entropy": 1.6966538329919179,
      "epoch": 0.4819422701930735,
      "grad_norm": 0.8086454272270203,
      "learning_rate": 1.7981313750017672e-05,
      "loss": 1.405,
      "mean_token_accuracy": 0.6665053268273672,
      "num_tokens": 736795590.0,
      "step": 4387
    },
    {
      "entropy": 1.7400443057219188,
      "epoch": 0.48205212710444645,
      "grad_norm": 0.6428614854812622,
      "learning_rate": 1.798030316723425e-05,
      "loss": 1.4453,
      "mean_token_accuracy": 0.6424688597520193,
      "num_tokens": 736984070.0,
      "step": 4388
    },
    {
      "entropy": 1.6672666768232982,
      "epoch": 0.4821619840158194,
      "grad_norm": 0.7134124040603638,
      "learning_rate": 1.7979292363527375e-05,
      "loss": 1.469,
      "mean_token_accuracy": 0.6481978793938955,
      "num_tokens": 737202061.0,
      "step": 4389
    },
    {
      "entropy": 1.7022729615370433,
      "epoch": 0.48227184092719233,
      "grad_norm": 0.6730693578720093,
      "learning_rate": 1.7978281338929048e-05,
      "loss": 1.3695,
      "mean_token_accuracy": 0.655126636226972,
      "num_tokens": 737403611.0,
      "step": 4390
    },
    {
      "entropy": 1.6466123759746552,
      "epoch": 0.48238169783856527,
      "grad_norm": 0.7256969809532166,
      "learning_rate": 1.7977270093471254e-05,
      "loss": 1.4186,
      "mean_token_accuracy": 0.6552423536777496,
      "num_tokens": 737593766.0,
      "step": 4391
    },
    {
      "entropy": 1.7008427878220875,
      "epoch": 0.4824915547499382,
      "grad_norm": 0.9718957543373108,
      "learning_rate": 1.7976258627186008e-05,
      "loss": 1.2792,
      "mean_token_accuracy": 0.6838826090097427,
      "num_tokens": 737759579.0,
      "step": 4392
    },
    {
      "entropy": 1.7387726704279582,
      "epoch": 0.48260141166131115,
      "grad_norm": 0.8315878510475159,
      "learning_rate": 1.797524694010532e-05,
      "loss": 1.4845,
      "mean_token_accuracy": 0.658362532655398,
      "num_tokens": 737911150.0,
      "step": 4393
    },
    {
      "entropy": 1.7291166086991627,
      "epoch": 0.4827112685726841,
      "grad_norm": 0.6660434603691101,
      "learning_rate": 1.797423503226121e-05,
      "loss": 1.3869,
      "mean_token_accuracy": 0.642819325129191,
      "num_tokens": 738088880.0,
      "step": 4394
    },
    {
      "entropy": 1.772065391143163,
      "epoch": 0.48282112548405703,
      "grad_norm": 0.6660803556442261,
      "learning_rate": 1.7973222903685702e-05,
      "loss": 1.359,
      "mean_token_accuracy": 0.6438145389159521,
      "num_tokens": 738234766.0,
      "step": 4395
    },
    {
      "entropy": 1.731687754392624,
      "epoch": 0.48293098239543,
      "grad_norm": 0.6683153510093689,
      "learning_rate": 1.7972210554410834e-05,
      "loss": 1.2882,
      "mean_token_accuracy": 0.6693693796793619,
      "num_tokens": 738386427.0,
      "step": 4396
    },
    {
      "entropy": 1.710336794455846,
      "epoch": 0.4830408393068029,
      "grad_norm": 0.6479591727256775,
      "learning_rate": 1.797119798446864e-05,
      "loss": 1.4377,
      "mean_token_accuracy": 0.6659507850805918,
      "num_tokens": 738579020.0,
      "step": 4397
    },
    {
      "entropy": 1.7027187943458557,
      "epoch": 0.4831506962181758,
      "grad_norm": 0.6037660837173462,
      "learning_rate": 1.7970185193891176e-05,
      "loss": 1.439,
      "mean_token_accuracy": 0.6502730449040731,
      "num_tokens": 738777017.0,
      "step": 4398
    },
    {
      "entropy": 1.7039030492305756,
      "epoch": 0.48326055312954874,
      "grad_norm": 0.673244059085846,
      "learning_rate": 1.796917218271049e-05,
      "loss": 1.3637,
      "mean_token_accuracy": 0.6623422205448151,
      "num_tokens": 738963981.0,
      "step": 4399
    },
    {
      "entropy": 1.753426233927409,
      "epoch": 0.4833704100409217,
      "grad_norm": 0.706851065158844,
      "learning_rate": 1.7968158950958642e-05,
      "loss": 1.4578,
      "mean_token_accuracy": 0.6659545401732127,
      "num_tokens": 739139126.0,
      "step": 4400
    },
    {
      "entropy": 1.6917196214199066,
      "epoch": 0.4834802669522946,
      "grad_norm": 0.7611788511276245,
      "learning_rate": 1.7967145498667706e-05,
      "loss": 1.3534,
      "mean_token_accuracy": 0.6647525678078333,
      "num_tokens": 739309024.0,
      "step": 4401
    },
    {
      "entropy": 1.7070514857769012,
      "epoch": 0.48359012386366756,
      "grad_norm": 1.02863347530365,
      "learning_rate": 1.7966131825869753e-05,
      "loss": 1.5179,
      "mean_token_accuracy": 0.6395848045746485,
      "num_tokens": 739513763.0,
      "step": 4402
    },
    {
      "entropy": 1.6623660226662953,
      "epoch": 0.4836999807750405,
      "grad_norm": 0.628810703754425,
      "learning_rate": 1.7965117932596866e-05,
      "loss": 1.2627,
      "mean_token_accuracy": 0.6694687008857727,
      "num_tokens": 739651066.0,
      "step": 4403
    },
    {
      "entropy": 1.68434273203214,
      "epoch": 0.48380983768641345,
      "grad_norm": 0.7587992548942566,
      "learning_rate": 1.7964103818881138e-05,
      "loss": 1.3369,
      "mean_token_accuracy": 0.6658577223618826,
      "num_tokens": 739786817.0,
      "step": 4404
    },
    {
      "entropy": 1.664050579071045,
      "epoch": 0.4839196945977864,
      "grad_norm": 0.6519520878791809,
      "learning_rate": 1.7963089484754663e-05,
      "loss": 1.3324,
      "mean_token_accuracy": 0.6710617194573084,
      "num_tokens": 739941289.0,
      "step": 4405
    },
    {
      "entropy": 1.716511865456899,
      "epoch": 0.48402955150915933,
      "grad_norm": 0.659646213054657,
      "learning_rate": 1.7962074930249537e-05,
      "loss": 1.5393,
      "mean_token_accuracy": 0.6423588742812475,
      "num_tokens": 740142557.0,
      "step": 4406
    },
    {
      "entropy": 1.682478795448939,
      "epoch": 0.48413940842053227,
      "grad_norm": 0.5458212494850159,
      "learning_rate": 1.796106015539788e-05,
      "loss": 1.4259,
      "mean_token_accuracy": 0.637840062379837,
      "num_tokens": 740392429.0,
      "step": 4407
    },
    {
      "entropy": 1.7216579516728718,
      "epoch": 0.4842492653319052,
      "grad_norm": 0.66231369972229,
      "learning_rate": 1.796004516023181e-05,
      "loss": 1.4048,
      "mean_token_accuracy": 0.6517205735047659,
      "num_tokens": 740528700.0,
      "step": 4408
    },
    {
      "entropy": 1.7604460815588634,
      "epoch": 0.48435912224327815,
      "grad_norm": 0.6421491503715515,
      "learning_rate": 1.795902994478344e-05,
      "loss": 1.3674,
      "mean_token_accuracy": 0.6596113989750544,
      "num_tokens": 740723647.0,
      "step": 4409
    },
    {
      "entropy": 1.6752793689568837,
      "epoch": 0.4844689791546511,
      "grad_norm": 0.6714054346084595,
      "learning_rate": 1.7958014509084912e-05,
      "loss": 1.4342,
      "mean_token_accuracy": 0.6613290458917618,
      "num_tokens": 740917843.0,
      "step": 4410
    },
    {
      "entropy": 1.6832947333653767,
      "epoch": 0.484578836066024,
      "grad_norm": 0.7269577980041504,
      "learning_rate": 1.795699885316836e-05,
      "loss": 1.3856,
      "mean_token_accuracy": 0.6611769000689188,
      "num_tokens": 741057925.0,
      "step": 4411
    },
    {
      "entropy": 1.7017952899138133,
      "epoch": 0.4846886929773969,
      "grad_norm": 0.6696016788482666,
      "learning_rate": 1.7955982977065928e-05,
      "loss": 1.3691,
      "mean_token_accuracy": 0.6629203210274378,
      "num_tokens": 741243418.0,
      "step": 4412
    },
    {
      "entropy": 1.745782047510147,
      "epoch": 0.48479854988876986,
      "grad_norm": 1.2233498096466064,
      "learning_rate": 1.7954966880809772e-05,
      "loss": 1.5333,
      "mean_token_accuracy": 0.6656019041935602,
      "num_tokens": 741355751.0,
      "step": 4413
    },
    {
      "entropy": 1.6869251827398937,
      "epoch": 0.4849084068001428,
      "grad_norm": 0.7494601607322693,
      "learning_rate": 1.7953950564432044e-05,
      "loss": 1.4045,
      "mean_token_accuracy": 0.6549041916926702,
      "num_tokens": 741529089.0,
      "step": 4414
    },
    {
      "entropy": 1.6820165514945984,
      "epoch": 0.48501826371151574,
      "grad_norm": 0.7255376577377319,
      "learning_rate": 1.7952934027964917e-05,
      "loss": 1.2338,
      "mean_token_accuracy": 0.675830195347468,
      "num_tokens": 741679225.0,
      "step": 4415
    },
    {
      "entropy": 1.7140280703703563,
      "epoch": 0.4851281206228887,
      "grad_norm": 0.6368587613105774,
      "learning_rate": 1.795191727144056e-05,
      "loss": 1.3813,
      "mean_token_accuracy": 0.6670277963081995,
      "num_tokens": 741825088.0,
      "step": 4416
    },
    {
      "entropy": 1.6830491324265797,
      "epoch": 0.4852379775342616,
      "grad_norm": 0.6319524645805359,
      "learning_rate": 1.7950900294891154e-05,
      "loss": 1.3061,
      "mean_token_accuracy": 0.6556812673807144,
      "num_tokens": 742051866.0,
      "step": 4417
    },
    {
      "entropy": 1.7843901813030243,
      "epoch": 0.48534783444563456,
      "grad_norm": 0.6758350729942322,
      "learning_rate": 1.794988309834889e-05,
      "loss": 1.4969,
      "mean_token_accuracy": 0.637373631199201,
      "num_tokens": 742230190.0,
      "step": 4418
    },
    {
      "entropy": 1.6947405536969502,
      "epoch": 0.4854576913570075,
      "grad_norm": 0.5639503598213196,
      "learning_rate": 1.7948865681845952e-05,
      "loss": 1.3941,
      "mean_token_accuracy": 0.647869884967804,
      "num_tokens": 742475673.0,
      "step": 4419
    },
    {
      "entropy": 1.7732278009255726,
      "epoch": 0.48556754826838044,
      "grad_norm": 0.7282741665840149,
      "learning_rate": 1.7947848045414548e-05,
      "loss": 1.3657,
      "mean_token_accuracy": 0.6630784372488657,
      "num_tokens": 742612272.0,
      "step": 4420
    },
    {
      "entropy": 1.6553172965844472,
      "epoch": 0.4856774051797534,
      "grad_norm": 0.629048228263855,
      "learning_rate": 1.7946830189086883e-05,
      "loss": 1.5002,
      "mean_token_accuracy": 0.6393060237169266,
      "num_tokens": 742798477.0,
      "step": 4421
    },
    {
      "entropy": 1.7043809791405995,
      "epoch": 0.4857872620911263,
      "grad_norm": 0.7646244168281555,
      "learning_rate": 1.7945812112895177e-05,
      "loss": 1.2612,
      "mean_token_accuracy": 0.6775466799736023,
      "num_tokens": 742897713.0,
      "step": 4422
    },
    {
      "entropy": 1.7202276587486267,
      "epoch": 0.48589711900249927,
      "grad_norm": 0.7730578780174255,
      "learning_rate": 1.794479381687164e-05,
      "loss": 1.4446,
      "mean_token_accuracy": 0.6524418741464615,
      "num_tokens": 743076435.0,
      "step": 4423
    },
    {
      "entropy": 1.7322371204694111,
      "epoch": 0.4860069759138722,
      "grad_norm": 0.781139612197876,
      "learning_rate": 1.7943775301048517e-05,
      "loss": 1.4211,
      "mean_token_accuracy": 0.6420817424853643,
      "num_tokens": 743201684.0,
      "step": 4424
    },
    {
      "entropy": 1.6999266147613525,
      "epoch": 0.4861168328252451,
      "grad_norm": 0.7373039126396179,
      "learning_rate": 1.7942756565458027e-05,
      "loss": 1.4017,
      "mean_token_accuracy": 0.6548285136620203,
      "num_tokens": 743370658.0,
      "step": 4425
    },
    {
      "entropy": 1.6692801713943481,
      "epoch": 0.48622668973661803,
      "grad_norm": 0.7501516342163086,
      "learning_rate": 1.7941737610132424e-05,
      "loss": 1.1894,
      "mean_token_accuracy": 0.6914908140897751,
      "num_tokens": 743481925.0,
      "step": 4426
    },
    {
      "entropy": 1.6509476502736409,
      "epoch": 0.486336546647991,
      "grad_norm": 0.6218562126159668,
      "learning_rate": 1.7940718435103954e-05,
      "loss": 1.3426,
      "mean_token_accuracy": 0.6639609535535177,
      "num_tokens": 743628666.0,
      "step": 4427
    },
    {
      "entropy": 1.747880756855011,
      "epoch": 0.4864464035593639,
      "grad_norm": 0.6217747926712036,
      "learning_rate": 1.7939699040404875e-05,
      "loss": 1.4158,
      "mean_token_accuracy": 0.6518111626307169,
      "num_tokens": 743787470.0,
      "step": 4428
    },
    {
      "entropy": 1.756358911593755,
      "epoch": 0.48655626047073686,
      "grad_norm": 0.7568204402923584,
      "learning_rate": 1.7938679426067446e-05,
      "loss": 1.5833,
      "mean_token_accuracy": 0.6492966512838999,
      "num_tokens": 743928141.0,
      "step": 4429
    },
    {
      "entropy": 1.673755685488383,
      "epoch": 0.4866661173821098,
      "grad_norm": 0.7150989174842834,
      "learning_rate": 1.7937659592123935e-05,
      "loss": 1.3197,
      "mean_token_accuracy": 0.6532700707515081,
      "num_tokens": 744042694.0,
      "step": 4430
    },
    {
      "entropy": 1.7202748954296112,
      "epoch": 0.48677597429348274,
      "grad_norm": 0.636058509349823,
      "learning_rate": 1.7936639538606632e-05,
      "loss": 1.4411,
      "mean_token_accuracy": 0.6541072924931844,
      "num_tokens": 744207583.0,
      "step": 4431
    },
    {
      "entropy": 1.6693733135859172,
      "epoch": 0.4868858312048557,
      "grad_norm": 0.7030401229858398,
      "learning_rate": 1.793561926554781e-05,
      "loss": 1.2652,
      "mean_token_accuracy": 0.673239087065061,
      "num_tokens": 744323763.0,
      "step": 4432
    },
    {
      "entropy": 1.720289280017217,
      "epoch": 0.4869956881162286,
      "grad_norm": 0.7169565558433533,
      "learning_rate": 1.7934598772979764e-05,
      "loss": 1.375,
      "mean_token_accuracy": 0.6588334242502848,
      "num_tokens": 744476040.0,
      "step": 4433
    },
    {
      "entropy": 1.723343511422475,
      "epoch": 0.48710554502760156,
      "grad_norm": 0.6646847724914551,
      "learning_rate": 1.7933578060934788e-05,
      "loss": 1.405,
      "mean_token_accuracy": 0.645707756280899,
      "num_tokens": 744626251.0,
      "step": 4434
    },
    {
      "entropy": 1.7332356572151184,
      "epoch": 0.4872154019389745,
      "grad_norm": 0.7763069272041321,
      "learning_rate": 1.7932557129445195e-05,
      "loss": 1.3344,
      "mean_token_accuracy": 0.6678619384765625,
      "num_tokens": 744754753.0,
      "step": 4435
    },
    {
      "entropy": 1.6924299697081249,
      "epoch": 0.48732525885034744,
      "grad_norm": 0.7134109735488892,
      "learning_rate": 1.7931535978543295e-05,
      "loss": 1.3427,
      "mean_token_accuracy": 0.6666603734095892,
      "num_tokens": 744889940.0,
      "step": 4436
    },
    {
      "entropy": 1.6620939671993256,
      "epoch": 0.4874351157617204,
      "grad_norm": 0.5839754939079285,
      "learning_rate": 1.79305146082614e-05,
      "loss": 1.3568,
      "mean_token_accuracy": 0.6570223172505697,
      "num_tokens": 745065068.0,
      "step": 4437
    },
    {
      "entropy": 1.693219780921936,
      "epoch": 0.48754497267309327,
      "grad_norm": 0.7458364963531494,
      "learning_rate": 1.792949301863184e-05,
      "loss": 1.3768,
      "mean_token_accuracy": 0.6642978092034658,
      "num_tokens": 745247547.0,
      "step": 4438
    },
    {
      "entropy": 1.724270612001419,
      "epoch": 0.4876548295844662,
      "grad_norm": 0.7193183898925781,
      "learning_rate": 1.792847120968695e-05,
      "loss": 1.3431,
      "mean_token_accuracy": 0.6732023855050405,
      "num_tokens": 745370035.0,
      "step": 4439
    },
    {
      "entropy": 1.695033311843872,
      "epoch": 0.48776468649583915,
      "grad_norm": 0.6847495436668396,
      "learning_rate": 1.792744918145907e-05,
      "loss": 1.4098,
      "mean_token_accuracy": 0.6749068647623062,
      "num_tokens": 745555069.0,
      "step": 4440
    },
    {
      "entropy": 1.6993265946706135,
      "epoch": 0.4878745434072121,
      "grad_norm": 0.7159141302108765,
      "learning_rate": 1.7926426933980543e-05,
      "loss": 1.5518,
      "mean_token_accuracy": 0.6463808168967565,
      "num_tokens": 745735255.0,
      "step": 4441
    },
    {
      "entropy": 1.7386601070563,
      "epoch": 0.48798440031858503,
      "grad_norm": 0.7798255085945129,
      "learning_rate": 1.7925404467283727e-05,
      "loss": 1.5025,
      "mean_token_accuracy": 0.655009463429451,
      "num_tokens": 745875552.0,
      "step": 4442
    },
    {
      "entropy": 1.7042417724927266,
      "epoch": 0.488094257229958,
      "grad_norm": 0.6437844634056091,
      "learning_rate": 1.7924381781400978e-05,
      "loss": 1.4309,
      "mean_token_accuracy": 0.6641700814167658,
      "num_tokens": 746048420.0,
      "step": 4443
    },
    {
      "entropy": 1.7275199890136719,
      "epoch": 0.4882041141413309,
      "grad_norm": 0.7542555928230286,
      "learning_rate": 1.7923358876364665e-05,
      "loss": 1.5449,
      "mean_token_accuracy": 0.6298695877194405,
      "num_tokens": 746276936.0,
      "step": 4444
    },
    {
      "entropy": 1.7163825233777363,
      "epoch": 0.48831397105270385,
      "grad_norm": 0.6992437243461609,
      "learning_rate": 1.7922335752207164e-05,
      "loss": 1.3827,
      "mean_token_accuracy": 0.6514418671528498,
      "num_tokens": 746413460.0,
      "step": 4445
    },
    {
      "entropy": 1.75390621026357,
      "epoch": 0.4884238279640768,
      "grad_norm": 0.7331777811050415,
      "learning_rate": 1.792131240896086e-05,
      "loss": 1.3556,
      "mean_token_accuracy": 0.6733482579390208,
      "num_tokens": 746529153.0,
      "step": 4446
    },
    {
      "entropy": 1.6997243563334148,
      "epoch": 0.48853368487544974,
      "grad_norm": 0.763002336025238,
      "learning_rate": 1.792028884665813e-05,
      "loss": 1.4874,
      "mean_token_accuracy": 0.6523915976285934,
      "num_tokens": 746715032.0,
      "step": 4447
    },
    {
      "entropy": 1.6606244643529255,
      "epoch": 0.4886435417868227,
      "grad_norm": 0.5833660364151001,
      "learning_rate": 1.791926506533138e-05,
      "loss": 1.3891,
      "mean_token_accuracy": 0.6538758873939514,
      "num_tokens": 746927795.0,
      "step": 4448
    },
    {
      "entropy": 1.7194021840890248,
      "epoch": 0.4887533986981956,
      "grad_norm": 0.7860300540924072,
      "learning_rate": 1.791824106501301e-05,
      "loss": 1.5285,
      "mean_token_accuracy": 0.6494088371594747,
      "num_tokens": 747073603.0,
      "step": 4449
    },
    {
      "entropy": 1.7067668239275615,
      "epoch": 0.48886325560956856,
      "grad_norm": 0.6611225605010986,
      "learning_rate": 1.7917216845735427e-05,
      "loss": 1.4851,
      "mean_token_accuracy": 0.6474853207667669,
      "num_tokens": 747276179.0,
      "step": 4450
    },
    {
      "entropy": 1.6850255330403645,
      "epoch": 0.4889731125209415,
      "grad_norm": 0.8468097448348999,
      "learning_rate": 1.7916192407531045e-05,
      "loss": 1.3876,
      "mean_token_accuracy": 0.6508926798899969,
      "num_tokens": 747433017.0,
      "step": 4451
    },
    {
      "entropy": 1.7228013674418132,
      "epoch": 0.4890829694323144,
      "grad_norm": 0.6649202704429626,
      "learning_rate": 1.7915167750432293e-05,
      "loss": 1.4806,
      "mean_token_accuracy": 0.641407698392868,
      "num_tokens": 747595215.0,
      "step": 4452
    },
    {
      "entropy": 1.7136965990066528,
      "epoch": 0.4891928263436873,
      "grad_norm": 0.6682122945785522,
      "learning_rate": 1.7914142874471597e-05,
      "loss": 1.5594,
      "mean_token_accuracy": 0.642529770731926,
      "num_tokens": 747794900.0,
      "step": 4453
    },
    {
      "entropy": 1.7261795302232106,
      "epoch": 0.48930268325506027,
      "grad_norm": 0.634833037853241,
      "learning_rate": 1.7913117779681396e-05,
      "loss": 1.4382,
      "mean_token_accuracy": 0.6446546812852224,
      "num_tokens": 748022714.0,
      "step": 4454
    },
    {
      "entropy": 1.6885162591934204,
      "epoch": 0.4894125401664332,
      "grad_norm": 0.7759763598442078,
      "learning_rate": 1.791209246609413e-05,
      "loss": 1.2402,
      "mean_token_accuracy": 0.6778834859530131,
      "num_tokens": 748177827.0,
      "step": 4455
    },
    {
      "entropy": 1.6844123204549153,
      "epoch": 0.48952239707780615,
      "grad_norm": 0.7225537896156311,
      "learning_rate": 1.791106693374225e-05,
      "loss": 1.485,
      "mean_token_accuracy": 0.6536487142244974,
      "num_tokens": 748361870.0,
      "step": 4456
    },
    {
      "entropy": 1.6790739993254344,
      "epoch": 0.4896322539891791,
      "grad_norm": 0.728463351726532,
      "learning_rate": 1.791004118265822e-05,
      "loss": 1.5057,
      "mean_token_accuracy": 0.6347111016511917,
      "num_tokens": 748650354.0,
      "step": 4457
    },
    {
      "entropy": 1.695796012878418,
      "epoch": 0.48974211090055203,
      "grad_norm": 0.6192063689231873,
      "learning_rate": 1.79090152128745e-05,
      "loss": 1.4496,
      "mean_token_accuracy": 0.6385799000660578,
      "num_tokens": 748830552.0,
      "step": 4458
    },
    {
      "entropy": 1.7009925544261932,
      "epoch": 0.48985196781192497,
      "grad_norm": 0.6495517492294312,
      "learning_rate": 1.7907989024423557e-05,
      "loss": 1.2719,
      "mean_token_accuracy": 0.6756831457217535,
      "num_tokens": 748964018.0,
      "step": 4459
    },
    {
      "entropy": 1.7054378390312195,
      "epoch": 0.4899618247232979,
      "grad_norm": 0.6384367346763611,
      "learning_rate": 1.790696261733788e-05,
      "loss": 1.4366,
      "mean_token_accuracy": 0.6499034762382507,
      "num_tokens": 749180374.0,
      "step": 4460
    },
    {
      "entropy": 1.728455811738968,
      "epoch": 0.49007168163467085,
      "grad_norm": 0.6712200045585632,
      "learning_rate": 1.790593599164994e-05,
      "loss": 1.3554,
      "mean_token_accuracy": 0.658992608388265,
      "num_tokens": 749318103.0,
      "step": 4461
    },
    {
      "entropy": 1.7136681576569874,
      "epoch": 0.4901815385460438,
      "grad_norm": 0.6368706226348877,
      "learning_rate": 1.7904909147392247e-05,
      "loss": 1.3982,
      "mean_token_accuracy": 0.6673699120680491,
      "num_tokens": 749529503.0,
      "step": 4462
    },
    {
      "entropy": 1.6937820812066395,
      "epoch": 0.49029139545741673,
      "grad_norm": 0.6878102421760559,
      "learning_rate": 1.7903882084597287e-05,
      "loss": 1.4045,
      "mean_token_accuracy": 0.6586268643538157,
      "num_tokens": 749703151.0,
      "step": 4463
    },
    {
      "entropy": 1.7233433425426483,
      "epoch": 0.4904012523687897,
      "grad_norm": 0.7706781625747681,
      "learning_rate": 1.7902854803297575e-05,
      "loss": 1.45,
      "mean_token_accuracy": 0.6549730747938156,
      "num_tokens": 749851059.0,
      "step": 4464
    },
    {
      "entropy": 1.701189527908961,
      "epoch": 0.49051110928016256,
      "grad_norm": 0.7401324510574341,
      "learning_rate": 1.7901827303525613e-05,
      "loss": 1.3076,
      "mean_token_accuracy": 0.6692301680644354,
      "num_tokens": 749986623.0,
      "step": 4465
    },
    {
      "entropy": 1.7433607876300812,
      "epoch": 0.4906209661915355,
      "grad_norm": 0.8140077590942383,
      "learning_rate": 1.790079958531393e-05,
      "loss": 1.4647,
      "mean_token_accuracy": 0.6411833713452021,
      "num_tokens": 750134250.0,
      "step": 4466
    },
    {
      "entropy": 1.778177946805954,
      "epoch": 0.49073082310290844,
      "grad_norm": 0.6582893133163452,
      "learning_rate": 1.7899771648695048e-05,
      "loss": 1.3474,
      "mean_token_accuracy": 0.656017060081164,
      "num_tokens": 750276063.0,
      "step": 4467
    },
    {
      "entropy": 1.713607092698415,
      "epoch": 0.4908406800142814,
      "grad_norm": 0.7441067695617676,
      "learning_rate": 1.78987434937015e-05,
      "loss": 1.4452,
      "mean_token_accuracy": 0.6515307128429413,
      "num_tokens": 750403743.0,
      "step": 4468
    },
    {
      "entropy": 1.602983335653941,
      "epoch": 0.4909505369256543,
      "grad_norm": 0.59381502866745,
      "learning_rate": 1.7897715120365836e-05,
      "loss": 1.2882,
      "mean_token_accuracy": 0.6720236440499624,
      "num_tokens": 750542516.0,
      "step": 4469
    },
    {
      "entropy": 1.6924793124198914,
      "epoch": 0.49106039383702726,
      "grad_norm": 0.977676272392273,
      "learning_rate": 1.789668652872059e-05,
      "loss": 1.3781,
      "mean_token_accuracy": 0.6760386377573013,
      "num_tokens": 750699705.0,
      "step": 4470
    },
    {
      "entropy": 1.7474435865879059,
      "epoch": 0.4911702507484002,
      "grad_norm": 0.6933272480964661,
      "learning_rate": 1.7895657718798327e-05,
      "loss": 1.2821,
      "mean_token_accuracy": 0.6641086836655935,
      "num_tokens": 750805798.0,
      "step": 4471
    },
    {
      "entropy": 1.7326118846734364,
      "epoch": 0.49128010765977315,
      "grad_norm": 0.6269978880882263,
      "learning_rate": 1.7894628690631603e-05,
      "loss": 1.3857,
      "mean_token_accuracy": 0.6626192231973013,
      "num_tokens": 750959285.0,
      "step": 4472
    },
    {
      "entropy": 1.6883742014567058,
      "epoch": 0.4913899645711461,
      "grad_norm": 0.7878180146217346,
      "learning_rate": 1.7893599444252987e-05,
      "loss": 1.4636,
      "mean_token_accuracy": 0.6607634474833807,
      "num_tokens": 751144530.0,
      "step": 4473
    },
    {
      "entropy": 1.6989558438460033,
      "epoch": 0.49149982148251903,
      "grad_norm": 0.6729726195335388,
      "learning_rate": 1.789256997969506e-05,
      "loss": 1.4828,
      "mean_token_accuracy": 0.6353020220994949,
      "num_tokens": 751357135.0,
      "step": 4474
    },
    {
      "entropy": 1.7190554738044739,
      "epoch": 0.49160967839389197,
      "grad_norm": 0.6713739037513733,
      "learning_rate": 1.789154029699039e-05,
      "loss": 1.419,
      "mean_token_accuracy": 0.654554526011149,
      "num_tokens": 751494654.0,
      "step": 4475
    },
    {
      "entropy": 1.7132868468761444,
      "epoch": 0.4917195353052649,
      "grad_norm": 0.6637577414512634,
      "learning_rate": 1.7890510396171582e-05,
      "loss": 1.2547,
      "mean_token_accuracy": 0.6833054423332214,
      "num_tokens": 751625039.0,
      "step": 4476
    },
    {
      "entropy": 1.6934907635052998,
      "epoch": 0.49182939221663785,
      "grad_norm": 0.7464581727981567,
      "learning_rate": 1.788948027727122e-05,
      "loss": 1.3886,
      "mean_token_accuracy": 0.6680949032306671,
      "num_tokens": 751844906.0,
      "step": 4477
    },
    {
      "entropy": 1.7225241959095001,
      "epoch": 0.4919392491280108,
      "grad_norm": 0.6509267091751099,
      "learning_rate": 1.7888449940321917e-05,
      "loss": 1.3403,
      "mean_token_accuracy": 0.6601742456356684,
      "num_tokens": 751975242.0,
      "step": 4478
    },
    {
      "entropy": 1.6977383097012837,
      "epoch": 0.4920491060393837,
      "grad_norm": 0.6957575678825378,
      "learning_rate": 1.7887419385356273e-05,
      "loss": 1.3555,
      "mean_token_accuracy": 0.6612063000599543,
      "num_tokens": 752113545.0,
      "step": 4479
    },
    {
      "entropy": 1.7447110712528229,
      "epoch": 0.4921589629507566,
      "grad_norm": 0.7940369248390198,
      "learning_rate": 1.788638861240691e-05,
      "loss": 1.5439,
      "mean_token_accuracy": 0.640469511349996,
      "num_tokens": 752291398.0,
      "step": 4480
    },
    {
      "entropy": 1.679489274819692,
      "epoch": 0.49226881986212956,
      "grad_norm": 0.7236880660057068,
      "learning_rate": 1.7885357621506453e-05,
      "loss": 1.2744,
      "mean_token_accuracy": 0.6717104216416677,
      "num_tokens": 752428595.0,
      "step": 4481
    },
    {
      "entropy": 1.721798598766327,
      "epoch": 0.4923786767735025,
      "grad_norm": 0.7670096755027771,
      "learning_rate": 1.788432641268753e-05,
      "loss": 1.293,
      "mean_token_accuracy": 0.6676533122857412,
      "num_tokens": 752569748.0,
      "step": 4482
    },
    {
      "entropy": 1.6857047577699025,
      "epoch": 0.49248853368487544,
      "grad_norm": 0.6117812395095825,
      "learning_rate": 1.7883294985982772e-05,
      "loss": 1.3615,
      "mean_token_accuracy": 0.6617532074451447,
      "num_tokens": 752779194.0,
      "step": 4483
    },
    {
      "entropy": 1.7368919948736827,
      "epoch": 0.4925983905962484,
      "grad_norm": 0.6931723356246948,
      "learning_rate": 1.7882263341424838e-05,
      "loss": 1.3838,
      "mean_token_accuracy": 0.6611840128898621,
      "num_tokens": 752931824.0,
      "step": 4484
    },
    {
      "entropy": 1.7122445404529572,
      "epoch": 0.4927082475076213,
      "grad_norm": 0.5953887104988098,
      "learning_rate": 1.7881231479046364e-05,
      "loss": 1.3601,
      "mean_token_accuracy": 0.6550240367650986,
      "num_tokens": 753122621.0,
      "step": 4485
    },
    {
      "entropy": 1.6985189219315846,
      "epoch": 0.49281810441899426,
      "grad_norm": 0.6507508158683777,
      "learning_rate": 1.7880199398880018e-05,
      "loss": 1.4812,
      "mean_token_accuracy": 0.6505904843409857,
      "num_tokens": 753270777.0,
      "step": 4486
    },
    {
      "entropy": 1.7590989172458649,
      "epoch": 0.4929279613303672,
      "grad_norm": 0.6733105182647705,
      "learning_rate": 1.787916710095846e-05,
      "loss": 1.49,
      "mean_token_accuracy": 0.6299261252085367,
      "num_tokens": 753456920.0,
      "step": 4487
    },
    {
      "entropy": 1.6458527743816376,
      "epoch": 0.49303781824174014,
      "grad_norm": 0.7507854700088501,
      "learning_rate": 1.7878134585314363e-05,
      "loss": 1.4018,
      "mean_token_accuracy": 0.6749738603830338,
      "num_tokens": 753613788.0,
      "step": 4488
    },
    {
      "entropy": 1.6525565882523854,
      "epoch": 0.4931476751531131,
      "grad_norm": 0.5717189311981201,
      "learning_rate": 1.7877101851980404e-05,
      "loss": 1.4242,
      "mean_token_accuracy": 0.6573587109645208,
      "num_tokens": 753800915.0,
      "step": 4489
    },
    {
      "entropy": 1.692369411389033,
      "epoch": 0.493257532064486,
      "grad_norm": 0.7131385803222656,
      "learning_rate": 1.7876068900989274e-05,
      "loss": 1.2987,
      "mean_token_accuracy": 0.6656559258699417,
      "num_tokens": 753944837.0,
      "step": 4490
    },
    {
      "entropy": 1.6467917760213215,
      "epoch": 0.49336738897585897,
      "grad_norm": 0.6811399459838867,
      "learning_rate": 1.7875035732373658e-05,
      "loss": 1.301,
      "mean_token_accuracy": 0.671561042467753,
      "num_tokens": 754086477.0,
      "step": 4491
    },
    {
      "entropy": 1.781138926744461,
      "epoch": 0.4934772458872319,
      "grad_norm": 0.6936325430870056,
      "learning_rate": 1.7874002346166263e-05,
      "loss": 1.4253,
      "mean_token_accuracy": 0.650108148654302,
      "num_tokens": 754275449.0,
      "step": 4492
    },
    {
      "entropy": 1.7359409630298615,
      "epoch": 0.4935871027986048,
      "grad_norm": 0.7305500507354736,
      "learning_rate": 1.7872968742399786e-05,
      "loss": 1.4184,
      "mean_token_accuracy": 0.6582159698009491,
      "num_tokens": 754439599.0,
      "step": 4493
    },
    {
      "entropy": 1.6950959861278534,
      "epoch": 0.49369695970997773,
      "grad_norm": 0.5642681121826172,
      "learning_rate": 1.787193492110695e-05,
      "loss": 1.6434,
      "mean_token_accuracy": 0.633182168006897,
      "num_tokens": 754640289.0,
      "step": 4494
    },
    {
      "entropy": 1.706775536139806,
      "epoch": 0.4938068166213507,
      "grad_norm": 0.6591259241104126,
      "learning_rate": 1.7870900882320467e-05,
      "loss": 1.46,
      "mean_token_accuracy": 0.6489850531021754,
      "num_tokens": 754801543.0,
      "step": 4495
    },
    {
      "entropy": 1.724029650290807,
      "epoch": 0.4939166735327236,
      "grad_norm": 0.7175586819648743,
      "learning_rate": 1.786986662607307e-05,
      "loss": 1.3789,
      "mean_token_accuracy": 0.6690233945846558,
      "num_tokens": 754964581.0,
      "step": 4496
    },
    {
      "entropy": 1.6978013416131337,
      "epoch": 0.49402653044409656,
      "grad_norm": 0.5896649956703186,
      "learning_rate": 1.786883215239749e-05,
      "loss": 1.3869,
      "mean_token_accuracy": 0.6515233715375265,
      "num_tokens": 755162191.0,
      "step": 4497
    },
    {
      "entropy": 1.7095728317896526,
      "epoch": 0.4941363873554695,
      "grad_norm": 0.671416163444519,
      "learning_rate": 1.7867797461326466e-05,
      "loss": 1.4268,
      "mean_token_accuracy": 0.6535071631272634,
      "num_tokens": 755335730.0,
      "step": 4498
    },
    {
      "entropy": 1.708453506231308,
      "epoch": 0.49424624426684244,
      "grad_norm": 0.7201808094978333,
      "learning_rate": 1.786676255289275e-05,
      "loss": 1.4291,
      "mean_token_accuracy": 0.662381132443746,
      "num_tokens": 755479598.0,
      "step": 4499
    },
    {
      "entropy": 1.6969383358955383,
      "epoch": 0.4943561011782154,
      "grad_norm": 0.6979060769081116,
      "learning_rate": 1.7865727427129087e-05,
      "loss": 1.3646,
      "mean_token_accuracy": 0.6659565716981888,
      "num_tokens": 755646726.0,
      "step": 4500
    },
    {
      "entropy": 1.7146336535612743,
      "epoch": 0.4944659580895883,
      "grad_norm": 0.6201717853546143,
      "learning_rate": 1.786469208406825e-05,
      "loss": 1.2754,
      "mean_token_accuracy": 0.6736994286378225,
      "num_tokens": 755793537.0,
      "step": 4501
    },
    {
      "entropy": 1.6687723497549694,
      "epoch": 0.49457581500096126,
      "grad_norm": 0.6654130816459656,
      "learning_rate": 1.7863656523743002e-05,
      "loss": 1.3844,
      "mean_token_accuracy": 0.6587973336378733,
      "num_tokens": 755989928.0,
      "step": 4502
    },
    {
      "entropy": 1.6637324293454487,
      "epoch": 0.4946856719123342,
      "grad_norm": 0.8360695242881775,
      "learning_rate": 1.7862620746186115e-05,
      "loss": 1.3913,
      "mean_token_accuracy": 0.6531608452399572,
      "num_tokens": 756136563.0,
      "step": 4503
    },
    {
      "entropy": 1.7622207999229431,
      "epoch": 0.49479552882370714,
      "grad_norm": 0.6121542453765869,
      "learning_rate": 1.7861584751430373e-05,
      "loss": 1.5139,
      "mean_token_accuracy": 0.6296129673719406,
      "num_tokens": 756322688.0,
      "step": 4504
    },
    {
      "entropy": 1.6936173935731251,
      "epoch": 0.4949053857350801,
      "grad_norm": 0.7181201577186584,
      "learning_rate": 1.786054853950857e-05,
      "loss": 1.4316,
      "mean_token_accuracy": 0.6570375859737396,
      "num_tokens": 756472507.0,
      "step": 4505
    },
    {
      "entropy": 1.7213451365629833,
      "epoch": 0.49501524264645297,
      "grad_norm": 0.7521805763244629,
      "learning_rate": 1.7859512110453493e-05,
      "loss": 1.3723,
      "mean_token_accuracy": 0.6491851558287939,
      "num_tokens": 756630765.0,
      "step": 4506
    },
    {
      "entropy": 1.7246767083803813,
      "epoch": 0.4951250995578259,
      "grad_norm": 0.6681076288223267,
      "learning_rate": 1.7858475464297952e-05,
      "loss": 1.5371,
      "mean_token_accuracy": 0.6519037286440531,
      "num_tokens": 756811520.0,
      "step": 4507
    },
    {
      "entropy": 1.724827955166499,
      "epoch": 0.49523495646919885,
      "grad_norm": 0.7627193331718445,
      "learning_rate": 1.785743860107475e-05,
      "loss": 1.3533,
      "mean_token_accuracy": 0.6570751518011093,
      "num_tokens": 756947022.0,
      "step": 4508
    },
    {
      "entropy": 1.7522861162821453,
      "epoch": 0.4953448133805718,
      "grad_norm": 0.7629287242889404,
      "learning_rate": 1.7856401520816707e-05,
      "loss": 1.4731,
      "mean_token_accuracy": 0.6540786474943161,
      "num_tokens": 757085562.0,
      "step": 4509
    },
    {
      "entropy": 1.7017335096995037,
      "epoch": 0.49545467029194473,
      "grad_norm": 0.6842020153999329,
      "learning_rate": 1.7855364223556647e-05,
      "loss": 1.4837,
      "mean_token_accuracy": 0.6524115850528082,
      "num_tokens": 757267752.0,
      "step": 4510
    },
    {
      "entropy": 1.754370888074239,
      "epoch": 0.4955645272033177,
      "grad_norm": 0.7372490763664246,
      "learning_rate": 1.78543267093274e-05,
      "loss": 1.3641,
      "mean_token_accuracy": 0.6588715563217798,
      "num_tokens": 757385616.0,
      "step": 4511
    },
    {
      "entropy": 1.7240610619386036,
      "epoch": 0.4956743841146906,
      "grad_norm": 0.7373293042182922,
      "learning_rate": 1.7853288978161797e-05,
      "loss": 1.4162,
      "mean_token_accuracy": 0.6595638593037924,
      "num_tokens": 757553063.0,
      "step": 4512
    },
    {
      "entropy": 1.6941333214441936,
      "epoch": 0.49578424102606355,
      "grad_norm": 0.6690158843994141,
      "learning_rate": 1.7852251030092686e-05,
      "loss": 1.5101,
      "mean_token_accuracy": 0.6566884964704514,
      "num_tokens": 757694092.0,
      "step": 4513
    },
    {
      "entropy": 1.7551434238751729,
      "epoch": 0.4958940979374365,
      "grad_norm": 0.5994437336921692,
      "learning_rate": 1.785121286515292e-05,
      "loss": 1.438,
      "mean_token_accuracy": 0.6497039496898651,
      "num_tokens": 757875258.0,
      "step": 4514
    },
    {
      "entropy": 1.7067551612854004,
      "epoch": 0.49600395484880944,
      "grad_norm": 0.7220733761787415,
      "learning_rate": 1.7850174483375353e-05,
      "loss": 1.2979,
      "mean_token_accuracy": 0.6739718317985535,
      "num_tokens": 758004198.0,
      "step": 4515
    },
    {
      "entropy": 1.6703088978926341,
      "epoch": 0.4961138117601824,
      "grad_norm": 0.6553620100021362,
      "learning_rate": 1.7849135884792853e-05,
      "loss": 1.4163,
      "mean_token_accuracy": 0.6570161531368891,
      "num_tokens": 758196716.0,
      "step": 4516
    },
    {
      "entropy": 1.7132277488708496,
      "epoch": 0.4962236686715553,
      "grad_norm": 0.690665066242218,
      "learning_rate": 1.784809706943829e-05,
      "loss": 1.4286,
      "mean_token_accuracy": 0.6602544039487839,
      "num_tokens": 758382983.0,
      "step": 4517
    },
    {
      "entropy": 1.7164062758286793,
      "epoch": 0.49633352558292826,
      "grad_norm": 0.6790395975112915,
      "learning_rate": 1.784705803734453e-05,
      "loss": 1.4582,
      "mean_token_accuracy": 0.6742985943953196,
      "num_tokens": 758572656.0,
      "step": 4518
    },
    {
      "entropy": 1.67890664935112,
      "epoch": 0.4964433824943012,
      "grad_norm": 1.2717398405075073,
      "learning_rate": 1.784601878854448e-05,
      "loss": 1.4087,
      "mean_token_accuracy": 0.660420835018158,
      "num_tokens": 758793304.0,
      "step": 4519
    },
    {
      "entropy": 1.7838424642880757,
      "epoch": 0.4965532394056741,
      "grad_norm": 0.6524944305419922,
      "learning_rate": 1.7844979323071016e-05,
      "loss": 1.4004,
      "mean_token_accuracy": 0.6474776168664297,
      "num_tokens": 758916623.0,
      "step": 4520
    },
    {
      "entropy": 1.6456107993920643,
      "epoch": 0.496663096317047,
      "grad_norm": 0.7245497703552246,
      "learning_rate": 1.7843939640957038e-05,
      "loss": 1.4214,
      "mean_token_accuracy": 0.6555730899175009,
      "num_tokens": 759097278.0,
      "step": 4521
    },
    {
      "entropy": 1.7413156827290852,
      "epoch": 0.49677295322841997,
      "grad_norm": 0.7097477316856384,
      "learning_rate": 1.7842899742235458e-05,
      "loss": 1.3122,
      "mean_token_accuracy": 0.664093608657519,
      "num_tokens": 759245582.0,
      "step": 4522
    },
    {
      "entropy": 1.6793685257434845,
      "epoch": 0.4968828101397929,
      "grad_norm": 0.717451810836792,
      "learning_rate": 1.7841859626939185e-05,
      "loss": 1.4663,
      "mean_token_accuracy": 0.6448543965816498,
      "num_tokens": 759450714.0,
      "step": 4523
    },
    {
      "entropy": 1.7351475755373638,
      "epoch": 0.49699266705116585,
      "grad_norm": 0.7763004899024963,
      "learning_rate": 1.784081929510113e-05,
      "loss": 1.4956,
      "mean_token_accuracy": 0.6306874205668768,
      "num_tokens": 759665939.0,
      "step": 4524
    },
    {
      "entropy": 1.6486627856890361,
      "epoch": 0.4971025239625388,
      "grad_norm": 0.6308198571205139,
      "learning_rate": 1.783977874675424e-05,
      "loss": 1.3943,
      "mean_token_accuracy": 0.6578763922055563,
      "num_tokens": 759846721.0,
      "step": 4525
    },
    {
      "entropy": 1.702409029006958,
      "epoch": 0.49721238087391173,
      "grad_norm": 0.7921629548072815,
      "learning_rate": 1.7838737981931425e-05,
      "loss": 1.4551,
      "mean_token_accuracy": 0.6458623309930166,
      "num_tokens": 760104447.0,
      "step": 4526
    },
    {
      "entropy": 1.685009628534317,
      "epoch": 0.49732223778528467,
      "grad_norm": 0.6673221588134766,
      "learning_rate": 1.7837697000665638e-05,
      "loss": 1.3185,
      "mean_token_accuracy": 0.6742521325747172,
      "num_tokens": 760293720.0,
      "step": 4527
    },
    {
      "entropy": 1.7403136988480885,
      "epoch": 0.4974320946966576,
      "grad_norm": 0.6920185685157776,
      "learning_rate": 1.783665580298982e-05,
      "loss": 1.2648,
      "mean_token_accuracy": 0.6715550472338995,
      "num_tokens": 760387875.0,
      "step": 4528
    },
    {
      "entropy": 1.6765425205230713,
      "epoch": 0.49754195160803055,
      "grad_norm": 0.6350904107093811,
      "learning_rate": 1.7835614388936927e-05,
      "loss": 1.4115,
      "mean_token_accuracy": 0.6627595176299413,
      "num_tokens": 760546642.0,
      "step": 4529
    },
    {
      "entropy": 1.7340703904628754,
      "epoch": 0.4976518085194035,
      "grad_norm": 0.7262073755264282,
      "learning_rate": 1.7834572758539922e-05,
      "loss": 1.2949,
      "mean_token_accuracy": 0.6761989891529083,
      "num_tokens": 760670647.0,
      "step": 4530
    },
    {
      "entropy": 1.733684519926707,
      "epoch": 0.49776166543077643,
      "grad_norm": 0.6469461917877197,
      "learning_rate": 1.7833530911831767e-05,
      "loss": 1.4896,
      "mean_token_accuracy": 0.6465209424495697,
      "num_tokens": 760823361.0,
      "step": 4531
    },
    {
      "entropy": 1.7105149626731873,
      "epoch": 0.4978715223421494,
      "grad_norm": 0.7094139456748962,
      "learning_rate": 1.7832488848845438e-05,
      "loss": 1.3516,
      "mean_token_accuracy": 0.6633161505063375,
      "num_tokens": 760986995.0,
      "step": 4532
    },
    {
      "entropy": 1.7280435959498088,
      "epoch": 0.49798137925352226,
      "grad_norm": 0.5853270888328552,
      "learning_rate": 1.7831446569613915e-05,
      "loss": 1.4263,
      "mean_token_accuracy": 0.6446743756532669,
      "num_tokens": 761178147.0,
      "step": 4533
    },
    {
      "entropy": 1.6787182490030925,
      "epoch": 0.4980912361648952,
      "grad_norm": 0.6534310579299927,
      "learning_rate": 1.7830404074170188e-05,
      "loss": 1.4564,
      "mean_token_accuracy": 0.6509255568186442,
      "num_tokens": 761373044.0,
      "step": 4534
    },
    {
      "entropy": 1.7558597127596538,
      "epoch": 0.49820109307626814,
      "grad_norm": 0.6207196116447449,
      "learning_rate": 1.7829361362547248e-05,
      "loss": 1.5756,
      "mean_token_accuracy": 0.628658264875412,
      "num_tokens": 761576148.0,
      "step": 4535
    },
    {
      "entropy": 1.6844909886519115,
      "epoch": 0.4983109499876411,
      "grad_norm": 0.7019922733306885,
      "learning_rate": 1.7828318434778098e-05,
      "loss": 1.1964,
      "mean_token_accuracy": 0.679168184598287,
      "num_tokens": 761706398.0,
      "step": 4536
    },
    {
      "entropy": 1.6976350645224254,
      "epoch": 0.498420806899014,
      "grad_norm": 0.7925885915756226,
      "learning_rate": 1.7827275290895745e-05,
      "loss": 1.4483,
      "mean_token_accuracy": 0.6481008778015772,
      "num_tokens": 761941759.0,
      "step": 4537
    },
    {
      "entropy": 1.7484288016955059,
      "epoch": 0.49853066381038696,
      "grad_norm": 0.8223802447319031,
      "learning_rate": 1.782623193093321e-05,
      "loss": 1.4108,
      "mean_token_accuracy": 0.6608029355605444,
      "num_tokens": 762094461.0,
      "step": 4538
    },
    {
      "entropy": 1.6935599744319916,
      "epoch": 0.4986405207217599,
      "grad_norm": 0.6052656769752502,
      "learning_rate": 1.782518835492351e-05,
      "loss": 1.299,
      "mean_token_accuracy": 0.6712607592344284,
      "num_tokens": 762245616.0,
      "step": 4539
    },
    {
      "entropy": 1.768530507882436,
      "epoch": 0.49875037763313285,
      "grad_norm": 0.6017442941665649,
      "learning_rate": 1.782414456289967e-05,
      "loss": 1.5665,
      "mean_token_accuracy": 0.6245706081390381,
      "num_tokens": 762425328.0,
      "step": 4540
    },
    {
      "entropy": 1.743304302295049,
      "epoch": 0.4988602345445058,
      "grad_norm": 0.7569601535797119,
      "learning_rate": 1.782310055489473e-05,
      "loss": 1.6859,
      "mean_token_accuracy": 0.6368949313958486,
      "num_tokens": 762582323.0,
      "step": 4541
    },
    {
      "entropy": 1.7565892438093822,
      "epoch": 0.49897009145587873,
      "grad_norm": 0.7533148527145386,
      "learning_rate": 1.782205633094174e-05,
      "loss": 1.5002,
      "mean_token_accuracy": 0.6462213893731436,
      "num_tokens": 762732218.0,
      "step": 4542
    },
    {
      "entropy": 1.7235056459903717,
      "epoch": 0.49907994836725167,
      "grad_norm": 0.7903603315353394,
      "learning_rate": 1.7821011891073732e-05,
      "loss": 1.5051,
      "mean_token_accuracy": 0.6527835627396902,
      "num_tokens": 762921443.0,
      "step": 4543
    },
    {
      "entropy": 1.6993493934472401,
      "epoch": 0.4991898052786246,
      "grad_norm": 0.8247820138931274,
      "learning_rate": 1.7819967235323773e-05,
      "loss": 1.2088,
      "mean_token_accuracy": 0.6772788912057877,
      "num_tokens": 763015220.0,
      "step": 4544
    },
    {
      "entropy": 1.7162687877813976,
      "epoch": 0.49929966218999755,
      "grad_norm": 0.8071532249450684,
      "learning_rate": 1.7818922363724926e-05,
      "loss": 1.3451,
      "mean_token_accuracy": 0.6634253213802973,
      "num_tokens": 763167117.0,
      "step": 4545
    },
    {
      "entropy": 1.6914705137411754,
      "epoch": 0.4994095191013705,
      "grad_norm": 0.787642240524292,
      "learning_rate": 1.7817877276310257e-05,
      "loss": 1.4834,
      "mean_token_accuracy": 0.6583209584156672,
      "num_tokens": 763346825.0,
      "step": 4546
    },
    {
      "entropy": 1.6890590290228527,
      "epoch": 0.4995193760127434,
      "grad_norm": 0.6730331778526306,
      "learning_rate": 1.781683197311285e-05,
      "loss": 1.488,
      "mean_token_accuracy": 0.6388949304819107,
      "num_tokens": 763552338.0,
      "step": 4547
    },
    {
      "entropy": 1.752114752928416,
      "epoch": 0.4996292329241163,
      "grad_norm": 0.7115664482116699,
      "learning_rate": 1.7815786454165776e-05,
      "loss": 1.4952,
      "mean_token_accuracy": 0.6519523759682974,
      "num_tokens": 763708637.0,
      "step": 4548
    },
    {
      "entropy": 1.7708389262358348,
      "epoch": 0.49973908983548926,
      "grad_norm": 0.8620888590812683,
      "learning_rate": 1.7814740719502135e-05,
      "loss": 1.434,
      "mean_token_accuracy": 0.6429966588815054,
      "num_tokens": 763848626.0,
      "step": 4549
    },
    {
      "entropy": 1.7015598714351654,
      "epoch": 0.4998489467468622,
      "grad_norm": 0.6294053196907043,
      "learning_rate": 1.7813694769155022e-05,
      "loss": 1.4717,
      "mean_token_accuracy": 0.6426868637402853,
      "num_tokens": 764021913.0,
      "step": 4550
    },
    {
      "entropy": 1.6892776091893513,
      "epoch": 0.49995880365823514,
      "grad_norm": 0.6385858058929443,
      "learning_rate": 1.781264860315754e-05,
      "loss": 1.2928,
      "mean_token_accuracy": 0.6771899660428365,
      "num_tokens": 764190314.0,
      "step": 4551
    },
    {
      "entropy": 1.7139320472876232,
      "epoch": 0.5000686605696081,
      "grad_norm": 0.6113952994346619,
      "learning_rate": 1.7811602221542795e-05,
      "loss": 1.3597,
      "mean_token_accuracy": 0.658218597372373,
      "num_tokens": 764343722.0,
      "step": 4552
    },
    {
      "entropy": 1.698420782883962,
      "epoch": 0.5001785174809811,
      "grad_norm": 0.7712813019752502,
      "learning_rate": 1.781055562434391e-05,
      "loss": 1.5078,
      "mean_token_accuracy": 0.6449939161539078,
      "num_tokens": 764543119.0,
      "step": 4553
    },
    {
      "entropy": 1.6849484543005626,
      "epoch": 0.500288374392354,
      "grad_norm": 0.8930643200874329,
      "learning_rate": 1.7809508811594015e-05,
      "loss": 1.2912,
      "mean_token_accuracy": 0.6756371855735779,
      "num_tokens": 764718997.0,
      "step": 4554
    },
    {
      "entropy": 1.669805000225703,
      "epoch": 0.5003982313037268,
      "grad_norm": 0.6647879481315613,
      "learning_rate": 1.7808461783326228e-05,
      "loss": 1.3159,
      "mean_token_accuracy": 0.6644556125005087,
      "num_tokens": 764865095.0,
      "step": 4555
    },
    {
      "entropy": 1.6393884023030598,
      "epoch": 0.5005080882150998,
      "grad_norm": 0.6310734152793884,
      "learning_rate": 1.7807414539573696e-05,
      "loss": 1.3232,
      "mean_token_accuracy": 0.6677381098270416,
      "num_tokens": 765049052.0,
      "step": 4556
    },
    {
      "entropy": 1.6223057607809703,
      "epoch": 0.5006179451264727,
      "grad_norm": 0.9187425971031189,
      "learning_rate": 1.780636708036956e-05,
      "loss": 1.4747,
      "mean_token_accuracy": 0.6508963604768118,
      "num_tokens": 765223488.0,
      "step": 4557
    },
    {
      "entropy": 1.6926488975683849,
      "epoch": 0.5007278020378457,
      "grad_norm": 0.7379801869392395,
      "learning_rate": 1.780531940574697e-05,
      "loss": 1.3283,
      "mean_token_accuracy": 0.6766380667686462,
      "num_tokens": 765383670.0,
      "step": 4558
    },
    {
      "entropy": 1.74741593003273,
      "epoch": 0.5008376589492186,
      "grad_norm": 0.6469904780387878,
      "learning_rate": 1.7804271515739096e-05,
      "loss": 1.3902,
      "mean_token_accuracy": 0.653177946805954,
      "num_tokens": 765523127.0,
      "step": 4559
    },
    {
      "entropy": 1.701665033896764,
      "epoch": 0.5009475158605916,
      "grad_norm": 0.6925680041313171,
      "learning_rate": 1.780322341037909e-05,
      "loss": 1.4267,
      "mean_token_accuracy": 0.6503228594859441,
      "num_tokens": 765700770.0,
      "step": 4560
    },
    {
      "entropy": 1.7469732860724132,
      "epoch": 0.5010573727719645,
      "grad_norm": 0.7270328998565674,
      "learning_rate": 1.780217508970013e-05,
      "loss": 1.584,
      "mean_token_accuracy": 0.6263004789749781,
      "num_tokens": 765875041.0,
      "step": 4561
    },
    {
      "entropy": 1.6818542679150899,
      "epoch": 0.5011672296833375,
      "grad_norm": 0.7486089468002319,
      "learning_rate": 1.780112655373539e-05,
      "loss": 1.4211,
      "mean_token_accuracy": 0.6588012526432673,
      "num_tokens": 766026284.0,
      "step": 4562
    },
    {
      "entropy": 1.7353224456310272,
      "epoch": 0.5012770865947104,
      "grad_norm": 0.6791040301322937,
      "learning_rate": 1.7800077802518062e-05,
      "loss": 1.4015,
      "mean_token_accuracy": 0.6505940506855646,
      "num_tokens": 766178332.0,
      "step": 4563
    },
    {
      "entropy": 1.6911177138487499,
      "epoch": 0.5013869435060834,
      "grad_norm": 0.6527238488197327,
      "learning_rate": 1.7799028836081333e-05,
      "loss": 1.321,
      "mean_token_accuracy": 0.6581740925709406,
      "num_tokens": 766368332.0,
      "step": 4564
    },
    {
      "entropy": 1.7469729781150818,
      "epoch": 0.5014968004174563,
      "grad_norm": 0.6890334486961365,
      "learning_rate": 1.7797979654458408e-05,
      "loss": 1.415,
      "mean_token_accuracy": 0.6579999874035517,
      "num_tokens": 766550333.0,
      "step": 4565
    },
    {
      "entropy": 1.7444235583146412,
      "epoch": 0.5016066573288293,
      "grad_norm": 0.6815066933631897,
      "learning_rate": 1.7796930257682487e-05,
      "loss": 1.3465,
      "mean_token_accuracy": 0.6652761151393255,
      "num_tokens": 766711842.0,
      "step": 4566
    },
    {
      "entropy": 1.745679686466853,
      "epoch": 0.5017165142402021,
      "grad_norm": 0.6902961730957031,
      "learning_rate": 1.7795880645786788e-05,
      "loss": 1.2986,
      "mean_token_accuracy": 0.6666453431049982,
      "num_tokens": 766838368.0,
      "step": 4567
    },
    {
      "entropy": 1.7069720129172008,
      "epoch": 0.501826371151575,
      "grad_norm": 0.6801702380180359,
      "learning_rate": 1.779483081880453e-05,
      "loss": 1.495,
      "mean_token_accuracy": 0.6321636736392975,
      "num_tokens": 767011476.0,
      "step": 4568
    },
    {
      "entropy": 1.6371342142422993,
      "epoch": 0.501936228062948,
      "grad_norm": 0.6808404326438904,
      "learning_rate": 1.779378077676894e-05,
      "loss": 1.5138,
      "mean_token_accuracy": 0.6529216965039571,
      "num_tokens": 767228694.0,
      "step": 4569
    },
    {
      "entropy": 1.624429355065028,
      "epoch": 0.5020460849743209,
      "grad_norm": 0.7168002724647522,
      "learning_rate": 1.7792730519713245e-05,
      "loss": 1.3463,
      "mean_token_accuracy": 0.6598889629046122,
      "num_tokens": 767386847.0,
      "step": 4570
    },
    {
      "entropy": 1.6681628028551738,
      "epoch": 0.5021559418856939,
      "grad_norm": 0.7332079410552979,
      "learning_rate": 1.7791680047670696e-05,
      "loss": 1.5026,
      "mean_token_accuracy": 0.6463381548722585,
      "num_tokens": 767562231.0,
      "step": 4571
    },
    {
      "entropy": 1.7176694869995117,
      "epoch": 0.5022657987970668,
      "grad_norm": 0.6463919878005981,
      "learning_rate": 1.7790629360674528e-05,
      "loss": 1.336,
      "mean_token_accuracy": 0.6605811516443888,
      "num_tokens": 767694393.0,
      "step": 4572
    },
    {
      "entropy": 1.7141607999801636,
      "epoch": 0.5023756557084398,
      "grad_norm": 0.6464807391166687,
      "learning_rate": 1.7789578458758004e-05,
      "loss": 1.4295,
      "mean_token_accuracy": 0.6666828741629919,
      "num_tokens": 767842803.0,
      "step": 4573
    },
    {
      "entropy": 1.6756874024868011,
      "epoch": 0.5024855126198127,
      "grad_norm": 0.6780061721801758,
      "learning_rate": 1.7788527341954378e-05,
      "loss": 1.3292,
      "mean_token_accuracy": 0.6682515839735667,
      "num_tokens": 767995295.0,
      "step": 4574
    },
    {
      "entropy": 1.7120186189810436,
      "epoch": 0.5025953695311857,
      "grad_norm": 0.6508592963218689,
      "learning_rate": 1.7787476010296922e-05,
      "loss": 1.5077,
      "mean_token_accuracy": 0.6511927644411722,
      "num_tokens": 768165030.0,
      "step": 4575
    },
    {
      "entropy": 1.7303796609242756,
      "epoch": 0.5027052264425586,
      "grad_norm": 0.7258087992668152,
      "learning_rate": 1.778642446381891e-05,
      "loss": 1.3302,
      "mean_token_accuracy": 0.664924239118894,
      "num_tokens": 768276477.0,
      "step": 4576
    },
    {
      "entropy": 1.735611488421758,
      "epoch": 0.5028150833539315,
      "grad_norm": 0.6726675629615784,
      "learning_rate": 1.7785372702553624e-05,
      "loss": 1.5562,
      "mean_token_accuracy": 0.6415247122446696,
      "num_tokens": 768471537.0,
      "step": 4577
    },
    {
      "entropy": 1.6898790796597798,
      "epoch": 0.5029249402653044,
      "grad_norm": 0.6226996779441833,
      "learning_rate": 1.7784320726534345e-05,
      "loss": 1.3483,
      "mean_token_accuracy": 0.6662185192108154,
      "num_tokens": 768638518.0,
      "step": 4578
    },
    {
      "entropy": 1.6402369737625122,
      "epoch": 0.5030347971766774,
      "grad_norm": 0.5572636127471924,
      "learning_rate": 1.7783268535794376e-05,
      "loss": 1.4847,
      "mean_token_accuracy": 0.6341389069954554,
      "num_tokens": 768861174.0,
      "step": 4579
    },
    {
      "entropy": 1.6863535543282826,
      "epoch": 0.5031446540880503,
      "grad_norm": 0.634425938129425,
      "learning_rate": 1.778221613036701e-05,
      "loss": 1.4483,
      "mean_token_accuracy": 0.6415148476759592,
      "num_tokens": 769041187.0,
      "step": 4580
    },
    {
      "entropy": 1.706571986277898,
      "epoch": 0.5032545109994232,
      "grad_norm": 0.659997284412384,
      "learning_rate": 1.7781163510285564e-05,
      "loss": 1.2811,
      "mean_token_accuracy": 0.6710793773333231,
      "num_tokens": 769218716.0,
      "step": 4581
    },
    {
      "entropy": 1.6553989350795746,
      "epoch": 0.5033643679107962,
      "grad_norm": 0.7408038377761841,
      "learning_rate": 1.7780110675583345e-05,
      "loss": 1.4047,
      "mean_token_accuracy": 0.6643812855084738,
      "num_tokens": 769399208.0,
      "step": 4582
    },
    {
      "entropy": 1.7550034324328105,
      "epoch": 0.5034742248221691,
      "grad_norm": 0.8029376268386841,
      "learning_rate": 1.777905762629368e-05,
      "loss": 1.4544,
      "mean_token_accuracy": 0.6457452674706777,
      "num_tokens": 769538565.0,
      "step": 4583
    },
    {
      "entropy": 1.701194703578949,
      "epoch": 0.5035840817335421,
      "grad_norm": 0.6260977387428284,
      "learning_rate": 1.7778004362449897e-05,
      "loss": 1.5601,
      "mean_token_accuracy": 0.6248839298884074,
      "num_tokens": 769785297.0,
      "step": 4584
    },
    {
      "entropy": 1.6856548488140106,
      "epoch": 0.503693938644915,
      "grad_norm": 0.8055636882781982,
      "learning_rate": 1.7776950884085325e-05,
      "loss": 1.4075,
      "mean_token_accuracy": 0.6510484715302786,
      "num_tokens": 769974441.0,
      "step": 4585
    },
    {
      "entropy": 1.696067899465561,
      "epoch": 0.503803795556288,
      "grad_norm": 0.6942035555839539,
      "learning_rate": 1.777589719123332e-05,
      "loss": 1.398,
      "mean_token_accuracy": 0.6512449930111567,
      "num_tokens": 770158357.0,
      "step": 4586
    },
    {
      "entropy": 1.7241803507010143,
      "epoch": 0.5039136524676608,
      "grad_norm": 0.7550591230392456,
      "learning_rate": 1.7774843283927215e-05,
      "loss": 1.5366,
      "mean_token_accuracy": 0.6322035938501358,
      "num_tokens": 770356874.0,
      "step": 4587
    },
    {
      "entropy": 1.7421184480190277,
      "epoch": 0.5040235093790338,
      "grad_norm": 0.6920149326324463,
      "learning_rate": 1.7773789162200378e-05,
      "loss": 1.4192,
      "mean_token_accuracy": 0.6601304560899734,
      "num_tokens": 770542678.0,
      "step": 4588
    },
    {
      "entropy": 1.7092435161272685,
      "epoch": 0.5041333662904067,
      "grad_norm": 0.6304470896720886,
      "learning_rate": 1.777273482608616e-05,
      "loss": 1.5378,
      "mean_token_accuracy": 0.6353190094232559,
      "num_tokens": 770728579.0,
      "step": 4589
    },
    {
      "entropy": 1.6159135500590007,
      "epoch": 0.5042432232017797,
      "grad_norm": 0.680613100528717,
      "learning_rate": 1.777168027561794e-05,
      "loss": 1.2946,
      "mean_token_accuracy": 0.6721889674663544,
      "num_tokens": 770911912.0,
      "step": 4590
    },
    {
      "entropy": 1.7247054477532704,
      "epoch": 0.5043530801131526,
      "grad_norm": 0.7321951389312744,
      "learning_rate": 1.777062551082909e-05,
      "loss": 1.4008,
      "mean_token_accuracy": 0.6659555484851202,
      "num_tokens": 771043582.0,
      "step": 4591
    },
    {
      "entropy": 1.641870786746343,
      "epoch": 0.5044629370245256,
      "grad_norm": 0.658308744430542,
      "learning_rate": 1.7769570531752995e-05,
      "loss": 1.2654,
      "mean_token_accuracy": 0.688631405433019,
      "num_tokens": 771194901.0,
      "step": 4592
    },
    {
      "entropy": 1.7228473524252574,
      "epoch": 0.5045727939358985,
      "grad_norm": 0.7475135326385498,
      "learning_rate": 1.7768515338423044e-05,
      "loss": 1.3101,
      "mean_token_accuracy": 0.6785301913817724,
      "num_tokens": 771320509.0,
      "step": 4593
    },
    {
      "entropy": 1.7426639099915822,
      "epoch": 0.5046826508472714,
      "grad_norm": 0.7170320749282837,
      "learning_rate": 1.776745993087263e-05,
      "loss": 1.6534,
      "mean_token_accuracy": 0.6144102613131205,
      "num_tokens": 771526316.0,
      "step": 4594
    },
    {
      "entropy": 1.6618753671646118,
      "epoch": 0.5047925077586444,
      "grad_norm": 0.7222857475280762,
      "learning_rate": 1.776640430913516e-05,
      "loss": 1.4575,
      "mean_token_accuracy": 0.6568075368801752,
      "num_tokens": 771684867.0,
      "step": 4595
    },
    {
      "entropy": 1.7489372690518696,
      "epoch": 0.5049023646700173,
      "grad_norm": 0.8467748761177063,
      "learning_rate": 1.7765348473244042e-05,
      "loss": 1.4878,
      "mean_token_accuracy": 0.6579713523387909,
      "num_tokens": 771824096.0,
      "step": 4596
    },
    {
      "entropy": 1.7483091453711193,
      "epoch": 0.5050122215813903,
      "grad_norm": 0.6738401651382446,
      "learning_rate": 1.7764292423232694e-05,
      "loss": 1.4071,
      "mean_token_accuracy": 0.6498169700304667,
      "num_tokens": 771969053.0,
      "step": 4597
    },
    {
      "entropy": 1.6820040146509807,
      "epoch": 0.5051220784927631,
      "grad_norm": 0.7400838136672974,
      "learning_rate": 1.7763236159134538e-05,
      "loss": 1.3708,
      "mean_token_accuracy": 0.6718896230061849,
      "num_tokens": 772120605.0,
      "step": 4598
    },
    {
      "entropy": 1.694365570942561,
      "epoch": 0.5052319354041361,
      "grad_norm": 0.6368020176887512,
      "learning_rate": 1.7762179680983007e-05,
      "loss": 1.4105,
      "mean_token_accuracy": 0.6443684299786886,
      "num_tokens": 772319397.0,
      "step": 4599
    },
    {
      "entropy": 1.7446305255095165,
      "epoch": 0.505341792315509,
      "grad_norm": 0.7226773500442505,
      "learning_rate": 1.7761122988811533e-05,
      "loss": 1.4982,
      "mean_token_accuracy": 0.6516734858353933,
      "num_tokens": 772512021.0,
      "step": 4600
    },
    {
      "entropy": 1.6962950527668,
      "epoch": 0.505451649226882,
      "grad_norm": 0.6551104784011841,
      "learning_rate": 1.7760066082653566e-05,
      "loss": 1.4639,
      "mean_token_accuracy": 0.6513085216283798,
      "num_tokens": 772707795.0,
      "step": 4601
    },
    {
      "entropy": 1.7322811285654705,
      "epoch": 0.5055615061382549,
      "grad_norm": 0.7607578635215759,
      "learning_rate": 1.775900896254255e-05,
      "loss": 1.4611,
      "mean_token_accuracy": 0.653966099023819,
      "num_tokens": 772888030.0,
      "step": 4602
    },
    {
      "entropy": 1.7565113206704457,
      "epoch": 0.5056713630496279,
      "grad_norm": 0.780271053314209,
      "learning_rate": 1.7757951628511953e-05,
      "loss": 1.3276,
      "mean_token_accuracy": 0.6591301510731379,
      "num_tokens": 773074743.0,
      "step": 4603
    },
    {
      "entropy": 1.7075756589571636,
      "epoch": 0.5057812199610008,
      "grad_norm": 0.8063814640045166,
      "learning_rate": 1.7756894080595225e-05,
      "loss": 1.2822,
      "mean_token_accuracy": 0.672131285071373,
      "num_tokens": 773213092.0,
      "step": 4604
    },
    {
      "entropy": 1.7614882191022236,
      "epoch": 0.5058910768723738,
      "grad_norm": 0.7280179858207703,
      "learning_rate": 1.7755836318825846e-05,
      "loss": 1.5566,
      "mean_token_accuracy": 0.6349164942900339,
      "num_tokens": 773418841.0,
      "step": 4605
    },
    {
      "entropy": 1.7605247398217518,
      "epoch": 0.5060009337837467,
      "grad_norm": 0.6884891390800476,
      "learning_rate": 1.7754778343237294e-05,
      "loss": 1.5146,
      "mean_token_accuracy": 0.6434789101282755,
      "num_tokens": 773579477.0,
      "step": 4606
    },
    {
      "entropy": 1.7038259605566661,
      "epoch": 0.5061107906951197,
      "grad_norm": 0.6832484602928162,
      "learning_rate": 1.775372015386305e-05,
      "loss": 1.2357,
      "mean_token_accuracy": 0.6903716921806335,
      "num_tokens": 773730733.0,
      "step": 4607
    },
    {
      "entropy": 1.6778667668501537,
      "epoch": 0.5062206476064925,
      "grad_norm": 0.7103332281112671,
      "learning_rate": 1.7752661750736608e-05,
      "loss": 1.3739,
      "mean_token_accuracy": 0.6615954885880152,
      "num_tokens": 773881901.0,
      "step": 4608
    },
    {
      "entropy": 1.747862070798874,
      "epoch": 0.5063305045178654,
      "grad_norm": 0.6749265789985657,
      "learning_rate": 1.7751603133891463e-05,
      "loss": 1.5966,
      "mean_token_accuracy": 0.622282862663269,
      "num_tokens": 774103203.0,
      "step": 4609
    },
    {
      "entropy": 1.7335962454477947,
      "epoch": 0.5064403614292384,
      "grad_norm": 0.7897728085517883,
      "learning_rate": 1.775054430336112e-05,
      "loss": 1.4646,
      "mean_token_accuracy": 0.6427331467469534,
      "num_tokens": 774268686.0,
      "step": 4610
    },
    {
      "entropy": 1.7124591569105785,
      "epoch": 0.5065502183406113,
      "grad_norm": 0.6754243969917297,
      "learning_rate": 1.774948525917909e-05,
      "loss": 1.316,
      "mean_token_accuracy": 0.6721870998541514,
      "num_tokens": 774395456.0,
      "step": 4611
    },
    {
      "entropy": 1.6793800294399261,
      "epoch": 0.5066600752519843,
      "grad_norm": 0.6710286736488342,
      "learning_rate": 1.7748426001378897e-05,
      "loss": 1.2881,
      "mean_token_accuracy": 0.6775974581638972,
      "num_tokens": 774532094.0,
      "step": 4612
    },
    {
      "entropy": 1.6808149913946788,
      "epoch": 0.5067699321633572,
      "grad_norm": 0.6567005515098572,
      "learning_rate": 1.774736652999406e-05,
      "loss": 1.3745,
      "mean_token_accuracy": 0.6517610251903534,
      "num_tokens": 774685619.0,
      "step": 4613
    },
    {
      "entropy": 1.751223752895991,
      "epoch": 0.5068797890747302,
      "grad_norm": 0.6677860021591187,
      "learning_rate": 1.7746306845058113e-05,
      "loss": 1.4449,
      "mean_token_accuracy": 0.6329387575387955,
      "num_tokens": 774885515.0,
      "step": 4614
    },
    {
      "entropy": 1.674304574728012,
      "epoch": 0.5069896459861031,
      "grad_norm": 0.779396653175354,
      "learning_rate": 1.7745246946604594e-05,
      "loss": 1.1997,
      "mean_token_accuracy": 0.6830140401919683,
      "num_tokens": 774995865.0,
      "step": 4615
    },
    {
      "entropy": 1.689636766910553,
      "epoch": 0.5070995028974761,
      "grad_norm": 0.872032642364502,
      "learning_rate": 1.774418683466705e-05,
      "loss": 1.5374,
      "mean_token_accuracy": 0.6345034042994181,
      "num_tokens": 775247345.0,
      "step": 4616
    },
    {
      "entropy": 1.6756864488124847,
      "epoch": 0.507209359808849,
      "grad_norm": 0.7993032932281494,
      "learning_rate": 1.7743126509279028e-05,
      "loss": 1.2167,
      "mean_token_accuracy": 0.6787678301334381,
      "num_tokens": 775362640.0,
      "step": 4617
    },
    {
      "entropy": 1.7568728228410084,
      "epoch": 0.507319216720222,
      "grad_norm": 0.6227509379386902,
      "learning_rate": 1.7742065970474096e-05,
      "loss": 1.3976,
      "mean_token_accuracy": 0.6522872199614843,
      "num_tokens": 775565203.0,
      "step": 4618
    },
    {
      "entropy": 1.706842044989268,
      "epoch": 0.5074290736315948,
      "grad_norm": 0.7736787796020508,
      "learning_rate": 1.774100521828581e-05,
      "loss": 1.5008,
      "mean_token_accuracy": 0.6404502143462499,
      "num_tokens": 775781749.0,
      "step": 4619
    },
    {
      "entropy": 1.6234171589215596,
      "epoch": 0.5075389305429678,
      "grad_norm": 0.7655417919158936,
      "learning_rate": 1.773994425274775e-05,
      "loss": 1.2916,
      "mean_token_accuracy": 0.6704551080862681,
      "num_tokens": 775925323.0,
      "step": 4620
    },
    {
      "entropy": 1.7151438395182292,
      "epoch": 0.5076487874543407,
      "grad_norm": 0.7209942936897278,
      "learning_rate": 1.7738883073893488e-05,
      "loss": 1.2973,
      "mean_token_accuracy": 0.6704816569884618,
      "num_tokens": 776032961.0,
      "step": 4621
    },
    {
      "entropy": 1.7023293673992157,
      "epoch": 0.5077586443657136,
      "grad_norm": 0.7943500280380249,
      "learning_rate": 1.7737821681756615e-05,
      "loss": 1.505,
      "mean_token_accuracy": 0.655063678820928,
      "num_tokens": 776200041.0,
      "step": 4622
    },
    {
      "entropy": 1.72823366522789,
      "epoch": 0.5078685012770866,
      "grad_norm": 0.7248928546905518,
      "learning_rate": 1.773676007637072e-05,
      "loss": 1.4479,
      "mean_token_accuracy": 0.6552989184856415,
      "num_tokens": 776358646.0,
      "step": 4623
    },
    {
      "entropy": 1.6740071376164753,
      "epoch": 0.5079783581884595,
      "grad_norm": 0.6074709296226501,
      "learning_rate": 1.7735698257769407e-05,
      "loss": 1.3812,
      "mean_token_accuracy": 0.6505249341328939,
      "num_tokens": 776571031.0,
      "step": 4624
    },
    {
      "entropy": 1.6604996422926586,
      "epoch": 0.5080882150998325,
      "grad_norm": 0.7322157025337219,
      "learning_rate": 1.7734636225986276e-05,
      "loss": 1.3079,
      "mean_token_accuracy": 0.6671365002791086,
      "num_tokens": 776722724.0,
      "step": 4625
    },
    {
      "entropy": 1.6912861963113148,
      "epoch": 0.5081980720112054,
      "grad_norm": 0.6166011691093445,
      "learning_rate": 1.7733573981054947e-05,
      "loss": 1.4829,
      "mean_token_accuracy": 0.6378809263308843,
      "num_tokens": 776971710.0,
      "step": 4626
    },
    {
      "entropy": 1.707468460003535,
      "epoch": 0.5083079289225784,
      "grad_norm": 0.6257423162460327,
      "learning_rate": 1.773251152300903e-05,
      "loss": 1.4643,
      "mean_token_accuracy": 0.6333738813797632,
      "num_tokens": 777202200.0,
      "step": 4627
    },
    {
      "entropy": 1.6994255880514781,
      "epoch": 0.5084177858339513,
      "grad_norm": 0.5768167972564697,
      "learning_rate": 1.7731448851882162e-05,
      "loss": 1.432,
      "mean_token_accuracy": 0.6558799743652344,
      "num_tokens": 777407416.0,
      "step": 4628
    },
    {
      "entropy": 1.7263440589110057,
      "epoch": 0.5085276427453242,
      "grad_norm": 0.809219241142273,
      "learning_rate": 1.7730385967707974e-05,
      "loss": 1.4374,
      "mean_token_accuracy": 0.6372658809026083,
      "num_tokens": 777583936.0,
      "step": 4629
    },
    {
      "entropy": 1.7062489092350006,
      "epoch": 0.5086374996566971,
      "grad_norm": 0.7165677547454834,
      "learning_rate": 1.7729322870520097e-05,
      "loss": 1.3335,
      "mean_token_accuracy": 0.6688279807567596,
      "num_tokens": 777709835.0,
      "step": 4630
    },
    {
      "entropy": 1.7441291213035583,
      "epoch": 0.5087473565680701,
      "grad_norm": 0.7295101881027222,
      "learning_rate": 1.7728259560352185e-05,
      "loss": 1.5241,
      "mean_token_accuracy": 0.6376437743504842,
      "num_tokens": 777845178.0,
      "step": 4631
    },
    {
      "entropy": 1.7269198099772136,
      "epoch": 0.508857213479443,
      "grad_norm": 0.858462929725647,
      "learning_rate": 1.772719603723789e-05,
      "loss": 1.329,
      "mean_token_accuracy": 0.6706622143586477,
      "num_tokens": 777971047.0,
      "step": 4632
    },
    {
      "entropy": 1.730207492907842,
      "epoch": 0.508967070390816,
      "grad_norm": 0.9941986203193665,
      "learning_rate": 1.7726132301210873e-05,
      "loss": 1.4901,
      "mean_token_accuracy": 0.6505331347386042,
      "num_tokens": 778156638.0,
      "step": 4633
    },
    {
      "entropy": 1.6990565558274586,
      "epoch": 0.5090769273021889,
      "grad_norm": 0.7046946287155151,
      "learning_rate": 1.7725068352304797e-05,
      "loss": 1.359,
      "mean_token_accuracy": 0.6794573764006296,
      "num_tokens": 778290929.0,
      "step": 4634
    },
    {
      "entropy": 1.649871587753296,
      "epoch": 0.5091867842135618,
      "grad_norm": 0.703970193862915,
      "learning_rate": 1.772400419055334e-05,
      "loss": 1.4921,
      "mean_token_accuracy": 0.6583941678206126,
      "num_tokens": 778452940.0,
      "step": 4635
    },
    {
      "entropy": 1.6483552952607472,
      "epoch": 0.5092966411249348,
      "grad_norm": 0.74805748462677,
      "learning_rate": 1.7722939815990182e-05,
      "loss": 1.3589,
      "mean_token_accuracy": 0.6700867811838785,
      "num_tokens": 778598364.0,
      "step": 4636
    },
    {
      "entropy": 1.6974958876768749,
      "epoch": 0.5094064980363077,
      "grad_norm": 0.735685408115387,
      "learning_rate": 1.7721875228649004e-05,
      "loss": 1.3238,
      "mean_token_accuracy": 0.6773294111092886,
      "num_tokens": 778717920.0,
      "step": 4637
    },
    {
      "entropy": 1.6946069101492565,
      "epoch": 0.5095163549476807,
      "grad_norm": 0.6127060651779175,
      "learning_rate": 1.7720810428563505e-05,
      "loss": 1.44,
      "mean_token_accuracy": 0.639764870206515,
      "num_tokens": 778896607.0,
      "step": 4638
    },
    {
      "entropy": 1.733677049477895,
      "epoch": 0.5096262118590535,
      "grad_norm": 0.6817284822463989,
      "learning_rate": 1.7719745415767388e-05,
      "loss": 1.3651,
      "mean_token_accuracy": 0.6538938681284586,
      "num_tokens": 779050088.0,
      "step": 4639
    },
    {
      "entropy": 1.6518004635969799,
      "epoch": 0.5097360687704265,
      "grad_norm": 0.7022289633750916,
      "learning_rate": 1.7718680190294353e-05,
      "loss": 1.4326,
      "mean_token_accuracy": 0.6522137075662613,
      "num_tokens": 779254586.0,
      "step": 4640
    },
    {
      "entropy": 1.7444305717945099,
      "epoch": 0.5098459256817994,
      "grad_norm": 0.6511925458908081,
      "learning_rate": 1.7717614752178118e-05,
      "loss": 1.4276,
      "mean_token_accuracy": 0.6486201186974844,
      "num_tokens": 779421316.0,
      "step": 4641
    },
    {
      "entropy": 1.6676433086395264,
      "epoch": 0.5099557825931724,
      "grad_norm": 0.7357949018478394,
      "learning_rate": 1.7716549101452402e-05,
      "loss": 1.3955,
      "mean_token_accuracy": 0.6542571783065796,
      "num_tokens": 779594236.0,
      "step": 4642
    },
    {
      "entropy": 1.7073079347610474,
      "epoch": 0.5100656395045453,
      "grad_norm": 0.5698668360710144,
      "learning_rate": 1.7715483238150937e-05,
      "loss": 1.4319,
      "mean_token_accuracy": 0.6443966527779897,
      "num_tokens": 779786398.0,
      "step": 4643
    },
    {
      "entropy": 1.7269446750481923,
      "epoch": 0.5101754964159183,
      "grad_norm": 0.7325721979141235,
      "learning_rate": 1.771441716230745e-05,
      "loss": 1.3253,
      "mean_token_accuracy": 0.6597764392693838,
      "num_tokens": 779919839.0,
      "step": 4644
    },
    {
      "entropy": 1.671245684226354,
      "epoch": 0.5102853533272912,
      "grad_norm": 0.5406301021575928,
      "learning_rate": 1.7713350873955688e-05,
      "loss": 1.587,
      "mean_token_accuracy": 0.6348774433135986,
      "num_tokens": 780150472.0,
      "step": 4645
    },
    {
      "entropy": 1.6824797888596852,
      "epoch": 0.5103952102386642,
      "grad_norm": 0.6999531388282776,
      "learning_rate": 1.7712284373129397e-05,
      "loss": 1.352,
      "mean_token_accuracy": 0.6638096670309702,
      "num_tokens": 780343092.0,
      "step": 4646
    },
    {
      "entropy": 1.7021546860535939,
      "epoch": 0.5105050671500371,
      "grad_norm": 0.6942962408065796,
      "learning_rate": 1.771121765986233e-05,
      "loss": 1.4937,
      "mean_token_accuracy": 0.6427315473556519,
      "num_tokens": 780531400.0,
      "step": 4647
    },
    {
      "entropy": 1.7465800046920776,
      "epoch": 0.51061492406141,
      "grad_norm": 0.7457360625267029,
      "learning_rate": 1.7710150734188242e-05,
      "loss": 1.4176,
      "mean_token_accuracy": 0.6418644239505132,
      "num_tokens": 780693513.0,
      "step": 4648
    },
    {
      "entropy": 1.7026427487532299,
      "epoch": 0.510724780972783,
      "grad_norm": 0.8374441862106323,
      "learning_rate": 1.7709083596140914e-05,
      "loss": 1.4585,
      "mean_token_accuracy": 0.6526228909691175,
      "num_tokens": 780839738.0,
      "step": 4649
    },
    {
      "entropy": 1.6698659559090931,
      "epoch": 0.5108346378841558,
      "grad_norm": 0.7197142839431763,
      "learning_rate": 1.770801624575411e-05,
      "loss": 1.4273,
      "mean_token_accuracy": 0.6493804206450781,
      "num_tokens": 781048603.0,
      "step": 4650
    },
    {
      "entropy": 1.6799350480238597,
      "epoch": 0.5109444947955288,
      "grad_norm": 0.7679303288459778,
      "learning_rate": 1.7706948683061612e-05,
      "loss": 1.3085,
      "mean_token_accuracy": 0.6658252626657486,
      "num_tokens": 781188858.0,
      "step": 4651
    },
    {
      "entropy": 1.6943186322848003,
      "epoch": 0.5110543517069017,
      "grad_norm": 0.6792766451835632,
      "learning_rate": 1.7705880908097214e-05,
      "loss": 1.3816,
      "mean_token_accuracy": 0.6598533739646276,
      "num_tokens": 781320802.0,
      "step": 4652
    },
    {
      "entropy": 1.7791239122549694,
      "epoch": 0.5111642086182747,
      "grad_norm": 0.706912100315094,
      "learning_rate": 1.7704812920894708e-05,
      "loss": 1.3435,
      "mean_token_accuracy": 0.658470019698143,
      "num_tokens": 781474836.0,
      "step": 4653
    },
    {
      "entropy": 1.7638680239518483,
      "epoch": 0.5112740655296476,
      "grad_norm": 0.6044894456863403,
      "learning_rate": 1.770374472148789e-05,
      "loss": 1.5903,
      "mean_token_accuracy": 0.6270778377850851,
      "num_tokens": 781724073.0,
      "step": 4654
    },
    {
      "entropy": 1.7358222007751465,
      "epoch": 0.5113839224410206,
      "grad_norm": 0.6887006759643555,
      "learning_rate": 1.770267630991058e-05,
      "loss": 1.4788,
      "mean_token_accuracy": 0.6502551734447479,
      "num_tokens": 781917542.0,
      "step": 4655
    },
    {
      "entropy": 1.6472338835398357,
      "epoch": 0.5114937793523935,
      "grad_norm": 0.5894920229911804,
      "learning_rate": 1.770160768619658e-05,
      "loss": 1.4373,
      "mean_token_accuracy": 0.6528671483198801,
      "num_tokens": 782156130.0,
      "step": 4656
    },
    {
      "entropy": 1.6651289065678914,
      "epoch": 0.5116036362637665,
      "grad_norm": 0.6169312000274658,
      "learning_rate": 1.7700538850379715e-05,
      "loss": 1.4626,
      "mean_token_accuracy": 0.6592658758163452,
      "num_tokens": 782327215.0,
      "step": 4657
    },
    {
      "entropy": 1.7671948075294495,
      "epoch": 0.5117134931751394,
      "grad_norm": 0.7001243233680725,
      "learning_rate": 1.7699469802493818e-05,
      "loss": 1.3362,
      "mean_token_accuracy": 0.6645391583442688,
      "num_tokens": 782488955.0,
      "step": 4658
    },
    {
      "entropy": 1.6598977148532867,
      "epoch": 0.5118233500865124,
      "grad_norm": 0.6964993476867676,
      "learning_rate": 1.7698400542572717e-05,
      "loss": 1.3115,
      "mean_token_accuracy": 0.6722627530495325,
      "num_tokens": 782611825.0,
      "step": 4659
    },
    {
      "entropy": 1.727137674887975,
      "epoch": 0.5119332069978852,
      "grad_norm": 0.7142112851142883,
      "learning_rate": 1.769733107065026e-05,
      "loss": 1.231,
      "mean_token_accuracy": 0.6792268306016922,
      "num_tokens": 782755942.0,
      "step": 4660
    },
    {
      "entropy": 1.7172054847081502,
      "epoch": 0.5120430639092582,
      "grad_norm": 0.6606463193893433,
      "learning_rate": 1.769626138676029e-05,
      "loss": 1.4273,
      "mean_token_accuracy": 0.6487047125895818,
      "num_tokens": 782910156.0,
      "step": 4661
    },
    {
      "entropy": 1.687313159306844,
      "epoch": 0.5121529208206311,
      "grad_norm": 0.5523031949996948,
      "learning_rate": 1.7695191490936666e-05,
      "loss": 1.4415,
      "mean_token_accuracy": 0.649812196691831,
      "num_tokens": 783153434.0,
      "step": 4662
    },
    {
      "entropy": 1.6816494663556416,
      "epoch": 0.512262777732004,
      "grad_norm": 0.7296652793884277,
      "learning_rate": 1.769412138321325e-05,
      "loss": 1.3972,
      "mean_token_accuracy": 0.6516829133033752,
      "num_tokens": 783299870.0,
      "step": 4663
    },
    {
      "entropy": 1.6838775873184204,
      "epoch": 0.512372634643377,
      "grad_norm": 0.6139092445373535,
      "learning_rate": 1.769305106362391e-05,
      "loss": 1.4849,
      "mean_token_accuracy": 0.6372493157784144,
      "num_tokens": 783502449.0,
      "step": 4664
    },
    {
      "entropy": 1.6079521874586742,
      "epoch": 0.5124824915547499,
      "grad_norm": 0.7152103781700134,
      "learning_rate": 1.7691980532202515e-05,
      "loss": 1.2326,
      "mean_token_accuracy": 0.6814493189255396,
      "num_tokens": 783649568.0,
      "step": 4665
    },
    {
      "entropy": 1.7108632425467174,
      "epoch": 0.5125923484661229,
      "grad_norm": 0.6728825569152832,
      "learning_rate": 1.7690909788982955e-05,
      "loss": 1.5291,
      "mean_token_accuracy": 0.640701100230217,
      "num_tokens": 783821716.0,
      "step": 4666
    },
    {
      "entropy": 1.7542012830575306,
      "epoch": 0.5127022053774958,
      "grad_norm": 0.7167527675628662,
      "learning_rate": 1.7689838833999114e-05,
      "loss": 1.4436,
      "mean_token_accuracy": 0.6508532166481018,
      "num_tokens": 783965529.0,
      "step": 4667
    },
    {
      "entropy": 1.7339794039726257,
      "epoch": 0.5128120622888688,
      "grad_norm": 0.7113919854164124,
      "learning_rate": 1.768876766728489e-05,
      "loss": 1.4262,
      "mean_token_accuracy": 0.6611630270878474,
      "num_tokens": 784156298.0,
      "step": 4668
    },
    {
      "entropy": 1.7534903983275096,
      "epoch": 0.5129219192002417,
      "grad_norm": 0.7554349899291992,
      "learning_rate": 1.7687696288874182e-05,
      "loss": 1.5153,
      "mean_token_accuracy": 0.6601629306872686,
      "num_tokens": 784364848.0,
      "step": 4669
    },
    {
      "entropy": 1.6630991399288177,
      "epoch": 0.5130317761116147,
      "grad_norm": 0.7319965958595276,
      "learning_rate": 1.7686624698800897e-05,
      "loss": 1.432,
      "mean_token_accuracy": 0.6549634039402008,
      "num_tokens": 784550039.0,
      "step": 4670
    },
    {
      "entropy": 1.721706211566925,
      "epoch": 0.5131416330229875,
      "grad_norm": 0.6252912878990173,
      "learning_rate": 1.7685552897098955e-05,
      "loss": 1.3013,
      "mean_token_accuracy": 0.674846296509107,
      "num_tokens": 784672000.0,
      "step": 4671
    },
    {
      "entropy": 1.6824569404125214,
      "epoch": 0.5132514899343605,
      "grad_norm": 0.6189214587211609,
      "learning_rate": 1.768448088380228e-05,
      "loss": 1.3107,
      "mean_token_accuracy": 0.6635235399007797,
      "num_tokens": 784879713.0,
      "step": 4672
    },
    {
      "entropy": 1.7048685650030773,
      "epoch": 0.5133613468457334,
      "grad_norm": 0.5870686769485474,
      "learning_rate": 1.7683408658944795e-05,
      "loss": 1.4357,
      "mean_token_accuracy": 0.6394040137529373,
      "num_tokens": 785094291.0,
      "step": 4673
    },
    {
      "entropy": 1.7368608117103577,
      "epoch": 0.5134712037571064,
      "grad_norm": 0.7474855184555054,
      "learning_rate": 1.7682336222560438e-05,
      "loss": 1.4872,
      "mean_token_accuracy": 0.6371827771266302,
      "num_tokens": 785282608.0,
      "step": 4674
    },
    {
      "entropy": 1.718473623196284,
      "epoch": 0.5135810606684793,
      "grad_norm": 0.5720936059951782,
      "learning_rate": 1.768126357468315e-05,
      "loss": 1.4686,
      "mean_token_accuracy": 0.6401006182034811,
      "num_tokens": 785508116.0,
      "step": 4675
    },
    {
      "entropy": 1.712001125017802,
      "epoch": 0.5136909175798522,
      "grad_norm": 0.8043569922447205,
      "learning_rate": 1.7680190715346876e-05,
      "loss": 1.502,
      "mean_token_accuracy": 0.6602791597445806,
      "num_tokens": 785672334.0,
      "step": 4676
    },
    {
      "entropy": 1.7085146109263103,
      "epoch": 0.5138007744912252,
      "grad_norm": 0.855053722858429,
      "learning_rate": 1.7679117644585583e-05,
      "loss": 1.5407,
      "mean_token_accuracy": 0.6532570545872053,
      "num_tokens": 785838017.0,
      "step": 4677
    },
    {
      "entropy": 1.6705704132715862,
      "epoch": 0.5139106314025981,
      "grad_norm": 0.659695029258728,
      "learning_rate": 1.7678044362433224e-05,
      "loss": 1.2934,
      "mean_token_accuracy": 0.6710864454507828,
      "num_tokens": 786031568.0,
      "step": 4678
    },
    {
      "entropy": 1.6983959476153057,
      "epoch": 0.5140204883139711,
      "grad_norm": 0.6366593241691589,
      "learning_rate": 1.767697086892377e-05,
      "loss": 1.4668,
      "mean_token_accuracy": 0.6328398436307907,
      "num_tokens": 786232555.0,
      "step": 4679
    },
    {
      "entropy": 1.7187410493691762,
      "epoch": 0.514130345225344,
      "grad_norm": 0.7009495496749878,
      "learning_rate": 1.7675897164091197e-05,
      "loss": 1.365,
      "mean_token_accuracy": 0.6644991288582484,
      "num_tokens": 786446202.0,
      "step": 4680
    },
    {
      "entropy": 1.6954729159673054,
      "epoch": 0.514240202136717,
      "grad_norm": 0.6604549288749695,
      "learning_rate": 1.7674823247969487e-05,
      "loss": 1.4347,
      "mean_token_accuracy": 0.6466411848862966,
      "num_tokens": 786658386.0,
      "step": 4681
    },
    {
      "entropy": 1.6737544735272725,
      "epoch": 0.5143500590480898,
      "grad_norm": 0.7725059986114502,
      "learning_rate": 1.7673749120592627e-05,
      "loss": 1.2401,
      "mean_token_accuracy": 0.679726297656695,
      "num_tokens": 786790667.0,
      "step": 4682
    },
    {
      "entropy": 1.7507797380288441,
      "epoch": 0.5144599159594628,
      "grad_norm": 0.7108690142631531,
      "learning_rate": 1.7672674781994617e-05,
      "loss": 1.4978,
      "mean_token_accuracy": 0.6364447275797526,
      "num_tokens": 786961389.0,
      "step": 4683
    },
    {
      "entropy": 1.708246519168218,
      "epoch": 0.5145697728708357,
      "grad_norm": 0.6990996599197388,
      "learning_rate": 1.7671600232209456e-05,
      "loss": 1.3944,
      "mean_token_accuracy": 0.660065030058225,
      "num_tokens": 787090202.0,
      "step": 4684
    },
    {
      "entropy": 1.725678304831187,
      "epoch": 0.5146796297822087,
      "grad_norm": 0.6911423206329346,
      "learning_rate": 1.7670525471271152e-05,
      "loss": 1.5114,
      "mean_token_accuracy": 0.6476559440294901,
      "num_tokens": 787250677.0,
      "step": 4685
    },
    {
      "entropy": 1.673937330643336,
      "epoch": 0.5147894866935816,
      "grad_norm": 0.5852583050727844,
      "learning_rate": 1.7669450499213725e-05,
      "loss": 1.395,
      "mean_token_accuracy": 0.6683137913544973,
      "num_tokens": 787421903.0,
      "step": 4686
    },
    {
      "entropy": 1.6368590195973713,
      "epoch": 0.5148993436049546,
      "grad_norm": 0.5973182320594788,
      "learning_rate": 1.7668375316071195e-05,
      "loss": 1.3752,
      "mean_token_accuracy": 0.6662927816311518,
      "num_tokens": 787611043.0,
      "step": 4687
    },
    {
      "entropy": 1.7234513560930889,
      "epoch": 0.5150092005163275,
      "grad_norm": 0.6610357165336609,
      "learning_rate": 1.7667299921877588e-05,
      "loss": 1.4776,
      "mean_token_accuracy": 0.6609990646441778,
      "num_tokens": 787769655.0,
      "step": 4688
    },
    {
      "entropy": 1.7650385200977325,
      "epoch": 0.5151190574277004,
      "grad_norm": 0.6733184456825256,
      "learning_rate": 1.766622431666695e-05,
      "loss": 1.5617,
      "mean_token_accuracy": 0.6246377180020014,
      "num_tokens": 788020214.0,
      "step": 4689
    },
    {
      "entropy": 1.7412991126378377,
      "epoch": 0.5152289143390734,
      "grad_norm": 0.7549744248390198,
      "learning_rate": 1.766514850047331e-05,
      "loss": 1.4773,
      "mean_token_accuracy": 0.6487500021855036,
      "num_tokens": 788192824.0,
      "step": 4690
    },
    {
      "entropy": 1.73355237642924,
      "epoch": 0.5153387712504462,
      "grad_norm": 0.6612739562988281,
      "learning_rate": 1.7664072473330724e-05,
      "loss": 1.5076,
      "mean_token_accuracy": 0.6572160919507345,
      "num_tokens": 788373703.0,
      "step": 4691
    },
    {
      "entropy": 1.7703491747379303,
      "epoch": 0.5154486281618192,
      "grad_norm": 0.780145525932312,
      "learning_rate": 1.766299623527325e-05,
      "loss": 1.3967,
      "mean_token_accuracy": 0.6519978841145834,
      "num_tokens": 788511272.0,
      "step": 4692
    },
    {
      "entropy": 1.7383658389250438,
      "epoch": 0.5155584850731921,
      "grad_norm": 0.6199609041213989,
      "learning_rate": 1.7661919786334945e-05,
      "loss": 1.3815,
      "mean_token_accuracy": 0.6616942385832468,
      "num_tokens": 788658018.0,
      "step": 4693
    },
    {
      "entropy": 1.6493331988652546,
      "epoch": 0.5156683419845651,
      "grad_norm": 0.672944962978363,
      "learning_rate": 1.766084312654988e-05,
      "loss": 1.3136,
      "mean_token_accuracy": 0.6737960278987885,
      "num_tokens": 788789174.0,
      "step": 4694
    },
    {
      "entropy": 1.7152611513932545,
      "epoch": 0.515778198895938,
      "grad_norm": 0.5982018709182739,
      "learning_rate": 1.7659766255952134e-05,
      "loss": 1.3505,
      "mean_token_accuracy": 0.6602517565091451,
      "num_tokens": 788936963.0,
      "step": 4695
    },
    {
      "entropy": 1.651655336221059,
      "epoch": 0.515888055807311,
      "grad_norm": 0.6493039131164551,
      "learning_rate": 1.7658689174575785e-05,
      "loss": 1.2292,
      "mean_token_accuracy": 0.673387145002683,
      "num_tokens": 789087968.0,
      "step": 4696
    },
    {
      "entropy": 1.7118739585081737,
      "epoch": 0.5159979127186839,
      "grad_norm": 0.634550929069519,
      "learning_rate": 1.7657611882454925e-05,
      "loss": 1.2787,
      "mean_token_accuracy": 0.6688071837027868,
      "num_tokens": 789233586.0,
      "step": 4697
    },
    {
      "entropy": 1.7723990778128307,
      "epoch": 0.5161077696300569,
      "grad_norm": 0.7632473707199097,
      "learning_rate": 1.7656534379623652e-05,
      "loss": 1.5881,
      "mean_token_accuracy": 0.635076088209947,
      "num_tokens": 789379455.0,
      "step": 4698
    },
    {
      "entropy": 1.7294781108697255,
      "epoch": 0.5162176265414298,
      "grad_norm": 0.6788251996040344,
      "learning_rate": 1.765545666611606e-05,
      "loss": 1.344,
      "mean_token_accuracy": 0.660454789797465,
      "num_tokens": 789515444.0,
      "step": 4699
    },
    {
      "entropy": 1.7380349238713582,
      "epoch": 0.5163274834528028,
      "grad_norm": 0.6425085663795471,
      "learning_rate": 1.7654378741966264e-05,
      "loss": 1.5548,
      "mean_token_accuracy": 0.627402106920878,
      "num_tokens": 789708134.0,
      "step": 4700
    },
    {
      "entropy": 1.7113960087299347,
      "epoch": 0.5164373403641757,
      "grad_norm": 0.7413278818130493,
      "learning_rate": 1.7653300607208385e-05,
      "loss": 1.3543,
      "mean_token_accuracy": 0.6587297916412354,
      "num_tokens": 789853557.0,
      "step": 4701
    },
    {
      "entropy": 1.7466691235701244,
      "epoch": 0.5165471972755487,
      "grad_norm": 0.6979295015335083,
      "learning_rate": 1.7652222261876536e-05,
      "loss": 1.4306,
      "mean_token_accuracy": 0.6643926600615183,
      "num_tokens": 790024665.0,
      "step": 4702
    },
    {
      "entropy": 1.7214144865671794,
      "epoch": 0.5166570541869215,
      "grad_norm": 0.9388607740402222,
      "learning_rate": 1.7651143706004847e-05,
      "loss": 1.3205,
      "mean_token_accuracy": 0.6683923502763113,
      "num_tokens": 790147552.0,
      "step": 4703
    },
    {
      "entropy": 1.734945813814799,
      "epoch": 0.5167669110982944,
      "grad_norm": 0.7507519721984863,
      "learning_rate": 1.765006493962746e-05,
      "loss": 1.3504,
      "mean_token_accuracy": 0.6659105022748312,
      "num_tokens": 790333823.0,
      "step": 4704
    },
    {
      "entropy": 1.6679200232028961,
      "epoch": 0.5168767680096674,
      "grad_norm": 0.6735995411872864,
      "learning_rate": 1.7648985962778514e-05,
      "loss": 1.3773,
      "mean_token_accuracy": 0.6531980137030283,
      "num_tokens": 790525621.0,
      "step": 4705
    },
    {
      "entropy": 1.7311872939268749,
      "epoch": 0.5169866249210403,
      "grad_norm": 0.6073651909828186,
      "learning_rate": 1.764790677549216e-05,
      "loss": 1.4879,
      "mean_token_accuracy": 0.6515211214621862,
      "num_tokens": 790711418.0,
      "step": 4706
    },
    {
      "entropy": 1.6866132219632466,
      "epoch": 0.5170964818324133,
      "grad_norm": 0.5769153237342834,
      "learning_rate": 1.764682737780255e-05,
      "loss": 1.4447,
      "mean_token_accuracy": 0.6449514329433441,
      "num_tokens": 790912827.0,
      "step": 4707
    },
    {
      "entropy": 1.701870898405711,
      "epoch": 0.5172063387437862,
      "grad_norm": 0.6132122874259949,
      "learning_rate": 1.7645747769743852e-05,
      "loss": 1.4732,
      "mean_token_accuracy": 0.6592078804969788,
      "num_tokens": 791053561.0,
      "step": 4708
    },
    {
      "entropy": 1.6868782341480255,
      "epoch": 0.5173161956551592,
      "grad_norm": 0.7153650522232056,
      "learning_rate": 1.764466795135023e-05,
      "loss": 1.4347,
      "mean_token_accuracy": 0.6551420340935389,
      "num_tokens": 791206764.0,
      "step": 4709
    },
    {
      "entropy": 1.6517098446687062,
      "epoch": 0.5174260525665321,
      "grad_norm": 0.6770890355110168,
      "learning_rate": 1.7643587922655855e-05,
      "loss": 1.4078,
      "mean_token_accuracy": 0.6538704832394918,
      "num_tokens": 791388634.0,
      "step": 4710
    },
    {
      "entropy": 1.6130631566047668,
      "epoch": 0.5175359094779051,
      "grad_norm": 0.6374915838241577,
      "learning_rate": 1.7642507683694924e-05,
      "loss": 1.3895,
      "mean_token_accuracy": 0.6648249477148056,
      "num_tokens": 791576408.0,
      "step": 4711
    },
    {
      "entropy": 1.6589768826961517,
      "epoch": 0.517645766389278,
      "grad_norm": 0.5480639338493347,
      "learning_rate": 1.7641427234501614e-05,
      "loss": 1.3822,
      "mean_token_accuracy": 0.6536247779925665,
      "num_tokens": 791848186.0,
      "step": 4712
    },
    {
      "entropy": 1.7161799172560375,
      "epoch": 0.517755623300651,
      "grad_norm": 0.6144800782203674,
      "learning_rate": 1.7640346575110127e-05,
      "loss": 1.4613,
      "mean_token_accuracy": 0.6567795326312383,
      "num_tokens": 792008443.0,
      "step": 4713
    },
    {
      "entropy": 1.7252692977587383,
      "epoch": 0.5178654802120238,
      "grad_norm": 0.6382774114608765,
      "learning_rate": 1.7639265705554664e-05,
      "loss": 1.4068,
      "mean_token_accuracy": 0.6472566872835159,
      "num_tokens": 792193171.0,
      "step": 4714
    },
    {
      "entropy": 1.6851609845956166,
      "epoch": 0.5179753371233968,
      "grad_norm": 0.5510247945785522,
      "learning_rate": 1.763818462586943e-05,
      "loss": 1.4839,
      "mean_token_accuracy": 0.6341405063867569,
      "num_tokens": 792463312.0,
      "step": 4715
    },
    {
      "entropy": 1.712292383114497,
      "epoch": 0.5180851940347697,
      "grad_norm": 0.666677713394165,
      "learning_rate": 1.7637103336088642e-05,
      "loss": 1.4422,
      "mean_token_accuracy": 0.6612060219049454,
      "num_tokens": 792584786.0,
      "step": 4716
    },
    {
      "entropy": 1.6544869939486186,
      "epoch": 0.5181950509461426,
      "grad_norm": 0.7078261375427246,
      "learning_rate": 1.7636021836246527e-05,
      "loss": 1.3223,
      "mean_token_accuracy": 0.6622943033774694,
      "num_tokens": 792722437.0,
      "step": 4717
    },
    {
      "entropy": 1.7123637199401855,
      "epoch": 0.5183049078575156,
      "grad_norm": 0.6480149030685425,
      "learning_rate": 1.7634940126377315e-05,
      "loss": 1.3032,
      "mean_token_accuracy": 0.6672448466221491,
      "num_tokens": 792887386.0,
      "step": 4718
    },
    {
      "entropy": 1.7484397490819295,
      "epoch": 0.5184147647688885,
      "grad_norm": 0.782447099685669,
      "learning_rate": 1.7633858206515234e-05,
      "loss": 1.3804,
      "mean_token_accuracy": 0.6604089935620626,
      "num_tokens": 793053286.0,
      "step": 4719
    },
    {
      "entropy": 1.6887016395727794,
      "epoch": 0.5185246216802615,
      "grad_norm": 0.7643845081329346,
      "learning_rate": 1.763277607669453e-05,
      "loss": 1.277,
      "mean_token_accuracy": 0.6705976724624634,
      "num_tokens": 793189872.0,
      "step": 4720
    },
    {
      "entropy": 1.689270446697871,
      "epoch": 0.5186344785916344,
      "grad_norm": 0.6115739941596985,
      "learning_rate": 1.7631693736949452e-05,
      "loss": 1.3857,
      "mean_token_accuracy": 0.6669471363226572,
      "num_tokens": 793367014.0,
      "step": 4721
    },
    {
      "entropy": 1.6571108798185985,
      "epoch": 0.5187443355030074,
      "grad_norm": 0.6382631659507751,
      "learning_rate": 1.7630611187314255e-05,
      "loss": 1.3474,
      "mean_token_accuracy": 0.6653915196657181,
      "num_tokens": 793566430.0,
      "step": 4722
    },
    {
      "entropy": 1.7158975899219513,
      "epoch": 0.5188541924143802,
      "grad_norm": 0.6732120513916016,
      "learning_rate": 1.7629528427823204e-05,
      "loss": 1.4011,
      "mean_token_accuracy": 0.6585634350776672,
      "num_tokens": 793742006.0,
      "step": 4723
    },
    {
      "entropy": 1.7122439642747243,
      "epoch": 0.5189640493257532,
      "grad_norm": 0.672660231590271,
      "learning_rate": 1.7628445458510564e-05,
      "loss": 1.347,
      "mean_token_accuracy": 0.6541797667741776,
      "num_tokens": 793896843.0,
      "step": 4724
    },
    {
      "entropy": 1.6989329655965169,
      "epoch": 0.5190739062371261,
      "grad_norm": 0.6647095084190369,
      "learning_rate": 1.7627362279410612e-05,
      "loss": 1.3124,
      "mean_token_accuracy": 0.6610298504432043,
      "num_tokens": 794009999.0,
      "step": 4725
    },
    {
      "entropy": 1.6795764764149983,
      "epoch": 0.5191837631484991,
      "grad_norm": 0.6302659511566162,
      "learning_rate": 1.7626278890557634e-05,
      "loss": 1.3697,
      "mean_token_accuracy": 0.6671308130025864,
      "num_tokens": 794196147.0,
      "step": 4726
    },
    {
      "entropy": 1.6657175024350483,
      "epoch": 0.519293620059872,
      "grad_norm": 0.6287113428115845,
      "learning_rate": 1.762519529198591e-05,
      "loss": 1.3875,
      "mean_token_accuracy": 0.6727512627840042,
      "num_tokens": 794431033.0,
      "step": 4727
    },
    {
      "entropy": 1.678794761498769,
      "epoch": 0.519403476971245,
      "grad_norm": 0.7044976949691772,
      "learning_rate": 1.762411148372974e-05,
      "loss": 1.3174,
      "mean_token_accuracy": 0.654426708817482,
      "num_tokens": 794584379.0,
      "step": 4728
    },
    {
      "entropy": 1.6541787485281627,
      "epoch": 0.5195133338826179,
      "grad_norm": 0.5799862146377563,
      "learning_rate": 1.762302746582343e-05,
      "loss": 1.3385,
      "mean_token_accuracy": 0.6738729576269785,
      "num_tokens": 794760900.0,
      "step": 4729
    },
    {
      "entropy": 1.7091464201609294,
      "epoch": 0.5196231907939908,
      "grad_norm": 0.664982259273529,
      "learning_rate": 1.762194323830128e-05,
      "loss": 1.3998,
      "mean_token_accuracy": 0.6595932294925054,
      "num_tokens": 794928750.0,
      "step": 4730
    },
    {
      "entropy": 1.6746362348397572,
      "epoch": 0.5197330477053638,
      "grad_norm": 0.5980947613716125,
      "learning_rate": 1.7620858801197617e-05,
      "loss": 1.3872,
      "mean_token_accuracy": 0.6583947539329529,
      "num_tokens": 795101737.0,
      "step": 4731
    },
    {
      "entropy": 1.713165243466695,
      "epoch": 0.5198429046167367,
      "grad_norm": 0.7423360347747803,
      "learning_rate": 1.761977415454675e-05,
      "loss": 1.3698,
      "mean_token_accuracy": 0.649875541528066,
      "num_tokens": 795282151.0,
      "step": 4732
    },
    {
      "entropy": 1.7285096148649852,
      "epoch": 0.5199527615281097,
      "grad_norm": 0.7760996222496033,
      "learning_rate": 1.761868929838302e-05,
      "loss": 1.2879,
      "mean_token_accuracy": 0.6752708901961645,
      "num_tokens": 795420946.0,
      "step": 4733
    },
    {
      "entropy": 1.730550895134608,
      "epoch": 0.5200626184394825,
      "grad_norm": 0.6987181901931763,
      "learning_rate": 1.761760423274075e-05,
      "loss": 1.36,
      "mean_token_accuracy": 0.6588483999172846,
      "num_tokens": 795599685.0,
      "step": 4734
    },
    {
      "entropy": 1.6970980167388916,
      "epoch": 0.5201724753508555,
      "grad_norm": 0.6524776220321655,
      "learning_rate": 1.761651895765429e-05,
      "loss": 1.4112,
      "mean_token_accuracy": 0.6538165758053461,
      "num_tokens": 795780156.0,
      "step": 4735
    },
    {
      "entropy": 1.6695838073889415,
      "epoch": 0.5202823322622284,
      "grad_norm": 0.7201446890830994,
      "learning_rate": 1.7615433473157993e-05,
      "loss": 1.4756,
      "mean_token_accuracy": 0.6536561946074168,
      "num_tokens": 795962820.0,
      "step": 4736
    },
    {
      "entropy": 1.7082595427831013,
      "epoch": 0.5203921891736014,
      "grad_norm": 0.6136282682418823,
      "learning_rate": 1.76143477792862e-05,
      "loss": 1.3876,
      "mean_token_accuracy": 0.6512712786595026,
      "num_tokens": 796138721.0,
      "step": 4737
    },
    {
      "entropy": 1.6985305150349934,
      "epoch": 0.5205020460849743,
      "grad_norm": 0.7493578791618347,
      "learning_rate": 1.7613261876073285e-05,
      "loss": 1.3506,
      "mean_token_accuracy": 0.6512027581532797,
      "num_tokens": 796276157.0,
      "step": 4738
    },
    {
      "entropy": 1.7088461021582286,
      "epoch": 0.5206119029963473,
      "grad_norm": 0.7467851042747498,
      "learning_rate": 1.7612175763553607e-05,
      "loss": 1.4494,
      "mean_token_accuracy": 0.6403765877087911,
      "num_tokens": 796476359.0,
      "step": 4739
    },
    {
      "entropy": 1.6997049450874329,
      "epoch": 0.5207217599077202,
      "grad_norm": 0.7162910103797913,
      "learning_rate": 1.7611089441761548e-05,
      "loss": 1.3843,
      "mean_token_accuracy": 0.647352010011673,
      "num_tokens": 796648058.0,
      "step": 4740
    },
    {
      "entropy": 1.7611575225989025,
      "epoch": 0.5208316168190932,
      "grad_norm": 0.7801529765129089,
      "learning_rate": 1.7610002910731486e-05,
      "loss": 1.4835,
      "mean_token_accuracy": 0.6569034606218338,
      "num_tokens": 796791732.0,
      "step": 4741
    },
    {
      "entropy": 1.7292684316635132,
      "epoch": 0.5209414737304661,
      "grad_norm": 0.6974871754646301,
      "learning_rate": 1.7608916170497812e-05,
      "loss": 1.4167,
      "mean_token_accuracy": 0.6439520965019861,
      "num_tokens": 796942236.0,
      "step": 4742
    },
    {
      "entropy": 1.7139594753583272,
      "epoch": 0.521051330641839,
      "grad_norm": 0.7737529277801514,
      "learning_rate": 1.7607829221094922e-05,
      "loss": 1.5007,
      "mean_token_accuracy": 0.6438900580008825,
      "num_tokens": 797114208.0,
      "step": 4743
    },
    {
      "entropy": 1.653033008178075,
      "epoch": 0.521161187553212,
      "grad_norm": 0.7125444412231445,
      "learning_rate": 1.760674206255721e-05,
      "loss": 1.3416,
      "mean_token_accuracy": 0.6721793164809545,
      "num_tokens": 797292358.0,
      "step": 4744
    },
    {
      "entropy": 1.7628530263900757,
      "epoch": 0.5212710444645848,
      "grad_norm": 0.7119945883750916,
      "learning_rate": 1.760565469491909e-05,
      "loss": 1.2987,
      "mean_token_accuracy": 0.6636313299338022,
      "num_tokens": 797431327.0,
      "step": 4745
    },
    {
      "entropy": 1.748626043399175,
      "epoch": 0.5213809013759578,
      "grad_norm": 0.7918199300765991,
      "learning_rate": 1.7604567118214975e-05,
      "loss": 1.4559,
      "mean_token_accuracy": 0.6555203547080358,
      "num_tokens": 797555640.0,
      "step": 4746
    },
    {
      "entropy": 1.6953304906686146,
      "epoch": 0.5214907582873307,
      "grad_norm": 0.9008361101150513,
      "learning_rate": 1.7603479332479284e-05,
      "loss": 1.3674,
      "mean_token_accuracy": 0.6686960806449255,
      "num_tokens": 797751389.0,
      "step": 4747
    },
    {
      "entropy": 1.6819122731685638,
      "epoch": 0.5216006151987037,
      "grad_norm": 0.6910074949264526,
      "learning_rate": 1.7602391337746458e-05,
      "loss": 1.2831,
      "mean_token_accuracy": 0.6620205889145533,
      "num_tokens": 797870103.0,
      "step": 4748
    },
    {
      "entropy": 1.7419504225254059,
      "epoch": 0.5217104721100766,
      "grad_norm": 0.6273844242095947,
      "learning_rate": 1.760130313405091e-05,
      "loss": 1.3587,
      "mean_token_accuracy": 0.6500416547060013,
      "num_tokens": 798027954.0,
      "step": 4749
    },
    {
      "entropy": 1.7702117661635082,
      "epoch": 0.5218203290214496,
      "grad_norm": 0.8262366652488708,
      "learning_rate": 1.76002147214271e-05,
      "loss": 1.52,
      "mean_token_accuracy": 0.6454491962989172,
      "num_tokens": 798183172.0,
      "step": 4750
    },
    {
      "entropy": 1.6769113938013713,
      "epoch": 0.5219301859328225,
      "grad_norm": 0.6600481271743774,
      "learning_rate": 1.7599126099909464e-05,
      "loss": 1.6274,
      "mean_token_accuracy": 0.6358497887849808,
      "num_tokens": 798411244.0,
      "step": 4751
    },
    {
      "entropy": 1.712651213010152,
      "epoch": 0.5220400428441955,
      "grad_norm": 0.8367064595222473,
      "learning_rate": 1.759803726953246e-05,
      "loss": 1.3546,
      "mean_token_accuracy": 0.6678621719280878,
      "num_tokens": 798620785.0,
      "step": 4752
    },
    {
      "entropy": 1.7246687213579814,
      "epoch": 0.5221498997555684,
      "grad_norm": 0.7160963416099548,
      "learning_rate": 1.759694823033055e-05,
      "loss": 1.4249,
      "mean_token_accuracy": 0.6564734677473704,
      "num_tokens": 798805644.0,
      "step": 4753
    },
    {
      "entropy": 1.7259255250295003,
      "epoch": 0.5222597566669414,
      "grad_norm": 0.7170692682266235,
      "learning_rate": 1.7595858982338204e-05,
      "loss": 1.3938,
      "mean_token_accuracy": 0.6538248707850774,
      "num_tokens": 798956926.0,
      "step": 4754
    },
    {
      "entropy": 1.7542922695477803,
      "epoch": 0.5223696135783142,
      "grad_norm": 0.6757575869560242,
      "learning_rate": 1.759476952558989e-05,
      "loss": 1.5494,
      "mean_token_accuracy": 0.6471764942010244,
      "num_tokens": 799127230.0,
      "step": 4755
    },
    {
      "entropy": 1.6838472684224446,
      "epoch": 0.5224794704896872,
      "grad_norm": 0.8514281511306763,
      "learning_rate": 1.7593679860120097e-05,
      "loss": 1.3779,
      "mean_token_accuracy": 0.6497372736533483,
      "num_tokens": 799315432.0,
      "step": 4756
    },
    {
      "entropy": 1.6587632795174916,
      "epoch": 0.5225893274010601,
      "grad_norm": 0.6651864647865295,
      "learning_rate": 1.7592589985963303e-05,
      "loss": 1.4102,
      "mean_token_accuracy": 0.6655519803365072,
      "num_tokens": 799512409.0,
      "step": 4757
    },
    {
      "entropy": 1.7543583710988362,
      "epoch": 0.522699184312433,
      "grad_norm": 0.798579216003418,
      "learning_rate": 1.759149990315401e-05,
      "loss": 1.368,
      "mean_token_accuracy": 0.6612423459688822,
      "num_tokens": 799651240.0,
      "step": 4758
    },
    {
      "entropy": 1.6546010772387187,
      "epoch": 0.522809041223806,
      "grad_norm": 0.7455418109893799,
      "learning_rate": 1.759040961172671e-05,
      "loss": 1.3556,
      "mean_token_accuracy": 0.67067651450634,
      "num_tokens": 799845563.0,
      "step": 4759
    },
    {
      "entropy": 1.7300900121529896,
      "epoch": 0.5229188981351789,
      "grad_norm": 0.7077800631523132,
      "learning_rate": 1.758931911171592e-05,
      "loss": 1.4215,
      "mean_token_accuracy": 0.6541052609682083,
      "num_tokens": 800017346.0,
      "step": 4760
    },
    {
      "entropy": 1.7226456105709076,
      "epoch": 0.5230287550465519,
      "grad_norm": 0.5930922627449036,
      "learning_rate": 1.758822840315615e-05,
      "loss": 1.4411,
      "mean_token_accuracy": 0.6517085035641988,
      "num_tokens": 800192442.0,
      "step": 4761
    },
    {
      "entropy": 1.7274209260940552,
      "epoch": 0.5231386119579248,
      "grad_norm": 0.6994463205337524,
      "learning_rate": 1.7587137486081916e-05,
      "loss": 1.4818,
      "mean_token_accuracy": 0.6374549319346746,
      "num_tokens": 800395066.0,
      "step": 4762
    },
    {
      "entropy": 1.7726040482521057,
      "epoch": 0.5232484688692978,
      "grad_norm": 0.8898850083351135,
      "learning_rate": 1.7586046360527753e-05,
      "loss": 1.5346,
      "mean_token_accuracy": 0.6310683737198511,
      "num_tokens": 800573953.0,
      "step": 4763
    },
    {
      "entropy": 1.7151733040809631,
      "epoch": 0.5233583257806707,
      "grad_norm": 0.756864070892334,
      "learning_rate": 1.758495502652819e-05,
      "loss": 1.3788,
      "mean_token_accuracy": 0.658622587720553,
      "num_tokens": 800712722.0,
      "step": 4764
    },
    {
      "entropy": 1.747101644674937,
      "epoch": 0.5234681826920436,
      "grad_norm": 0.7063867449760437,
      "learning_rate": 1.7583863484117766e-05,
      "loss": 1.3973,
      "mean_token_accuracy": 0.652265245715777,
      "num_tokens": 800860313.0,
      "step": 4765
    },
    {
      "entropy": 1.7522001167138417,
      "epoch": 0.5235780396034165,
      "grad_norm": 0.5486934781074524,
      "learning_rate": 1.7582771733331027e-05,
      "loss": 1.4967,
      "mean_token_accuracy": 0.6310158222913742,
      "num_tokens": 801086371.0,
      "step": 4766
    },
    {
      "entropy": 1.716380735238393,
      "epoch": 0.5236878965147895,
      "grad_norm": 0.6977860927581787,
      "learning_rate": 1.7581679774202534e-05,
      "loss": 1.43,
      "mean_token_accuracy": 0.652380645275116,
      "num_tokens": 801271543.0,
      "step": 4767
    },
    {
      "entropy": 1.7060090104738872,
      "epoch": 0.5237977534261624,
      "grad_norm": 0.6787402033805847,
      "learning_rate": 1.7580587606766838e-05,
      "loss": 1.543,
      "mean_token_accuracy": 0.6341428657372793,
      "num_tokens": 801457586.0,
      "step": 4768
    },
    {
      "entropy": 1.682382086912791,
      "epoch": 0.5239076103375354,
      "grad_norm": 0.7111299633979797,
      "learning_rate": 1.757949523105851e-05,
      "loss": 1.244,
      "mean_token_accuracy": 0.6785935560862223,
      "num_tokens": 801599366.0,
      "step": 4769
    },
    {
      "entropy": 1.7559874653816223,
      "epoch": 0.5240174672489083,
      "grad_norm": 0.6998342275619507,
      "learning_rate": 1.7578402647112124e-05,
      "loss": 1.4426,
      "mean_token_accuracy": 0.6572673618793488,
      "num_tokens": 801751007.0,
      "step": 4770
    },
    {
      "entropy": 1.7509790360927582,
      "epoch": 0.5241273241602812,
      "grad_norm": 1.142534613609314,
      "learning_rate": 1.7577309854962256e-05,
      "loss": 1.1564,
      "mean_token_accuracy": 0.6708057522773743,
      "num_tokens": 801943593.0,
      "step": 4771
    },
    {
      "entropy": 1.6971227129300435,
      "epoch": 0.5242371810716542,
      "grad_norm": 0.6250020861625671,
      "learning_rate": 1.75762168546435e-05,
      "loss": 1.5585,
      "mean_token_accuracy": 0.6346791485945383,
      "num_tokens": 802173777.0,
      "step": 4772
    },
    {
      "entropy": 1.695990224679311,
      "epoch": 0.5243470379830271,
      "grad_norm": 0.7434117794036865,
      "learning_rate": 1.757512364619044e-05,
      "loss": 1.311,
      "mean_token_accuracy": 0.6738946636517843,
      "num_tokens": 802347486.0,
      "step": 4773
    },
    {
      "entropy": 1.6820709705352783,
      "epoch": 0.5244568948944001,
      "grad_norm": 0.6679350137710571,
      "learning_rate": 1.757403022963768e-05,
      "loss": 1.3477,
      "mean_token_accuracy": 0.6635241111119589,
      "num_tokens": 802506390.0,
      "step": 4774
    },
    {
      "entropy": 1.6601552367210388,
      "epoch": 0.524566751805773,
      "grad_norm": 0.7635940313339233,
      "learning_rate": 1.757293660501983e-05,
      "loss": 1.4112,
      "mean_token_accuracy": 0.6675299257040024,
      "num_tokens": 802666473.0,
      "step": 4775
    },
    {
      "entropy": 1.651892900466919,
      "epoch": 0.5246766087171459,
      "grad_norm": 0.6960279941558838,
      "learning_rate": 1.757184277237149e-05,
      "loss": 1.3256,
      "mean_token_accuracy": 0.6727364957332611,
      "num_tokens": 802810524.0,
      "step": 4776
    },
    {
      "entropy": 1.704396516084671,
      "epoch": 0.5247864656285188,
      "grad_norm": 0.5887051820755005,
      "learning_rate": 1.7570748731727293e-05,
      "loss": 1.3548,
      "mean_token_accuracy": 0.6513074586788813,
      "num_tokens": 803037321.0,
      "step": 4777
    },
    {
      "entropy": 1.7361102004845936,
      "epoch": 0.5248963225398918,
      "grad_norm": 0.8553687930107117,
      "learning_rate": 1.7569654483121857e-05,
      "loss": 1.4555,
      "mean_token_accuracy": 0.652128721276919,
      "num_tokens": 803197712.0,
      "step": 4778
    },
    {
      "entropy": 1.7074143290519714,
      "epoch": 0.5250061794512647,
      "grad_norm": 0.6320570111274719,
      "learning_rate": 1.7568560026589818e-05,
      "loss": 1.3462,
      "mean_token_accuracy": 0.6641202121973038,
      "num_tokens": 803369072.0,
      "step": 4779
    },
    {
      "entropy": 1.7333478927612305,
      "epoch": 0.5251160363626377,
      "grad_norm": 0.776484489440918,
      "learning_rate": 1.7567465362165818e-05,
      "loss": 1.6121,
      "mean_token_accuracy": 0.62413057188193,
      "num_tokens": 803557142.0,
      "step": 4780
    },
    {
      "entropy": 1.7478283047676086,
      "epoch": 0.5252258932740106,
      "grad_norm": 0.6890655755996704,
      "learning_rate": 1.756637048988449e-05,
      "loss": 1.5187,
      "mean_token_accuracy": 0.6530665705601374,
      "num_tokens": 803710112.0,
      "step": 4781
    },
    {
      "entropy": 1.6944151123364766,
      "epoch": 0.5253357501853836,
      "grad_norm": 0.8545740842819214,
      "learning_rate": 1.7565275409780504e-05,
      "loss": 1.5678,
      "mean_token_accuracy": 0.6560395757357279,
      "num_tokens": 803873255.0,
      "step": 4782
    },
    {
      "entropy": 1.754347950220108,
      "epoch": 0.5254456070967565,
      "grad_norm": 0.717082679271698,
      "learning_rate": 1.7564180121888504e-05,
      "loss": 1.4302,
      "mean_token_accuracy": 0.6466685732205709,
      "num_tokens": 804002011.0,
      "step": 4783
    },
    {
      "entropy": 1.6676461199919383,
      "epoch": 0.5255554640081294,
      "grad_norm": 0.7122258543968201,
      "learning_rate": 1.756308462624316e-05,
      "loss": 1.2871,
      "mean_token_accuracy": 0.681659941871961,
      "num_tokens": 804132887.0,
      "step": 4784
    },
    {
      "entropy": 1.6842567523320515,
      "epoch": 0.5256653209195024,
      "grad_norm": 0.7058034539222717,
      "learning_rate": 1.7561988922879147e-05,
      "loss": 1.2925,
      "mean_token_accuracy": 0.667713056008021,
      "num_tokens": 804271045.0,
      "step": 4785
    },
    {
      "entropy": 1.6645110448201497,
      "epoch": 0.5257751778308752,
      "grad_norm": 0.6072272062301636,
      "learning_rate": 1.756089301183114e-05,
      "loss": 1.413,
      "mean_token_accuracy": 0.6601279675960541,
      "num_tokens": 804484901.0,
      "step": 4786
    },
    {
      "entropy": 1.6867012182871501,
      "epoch": 0.5258850347422482,
      "grad_norm": 0.734171986579895,
      "learning_rate": 1.755979689313383e-05,
      "loss": 1.4347,
      "mean_token_accuracy": 0.6705892930428187,
      "num_tokens": 804631499.0,
      "step": 4787
    },
    {
      "entropy": 1.7348099152247112,
      "epoch": 0.5259948916536211,
      "grad_norm": 0.6457310914993286,
      "learning_rate": 1.75587005668219e-05,
      "loss": 1.3843,
      "mean_token_accuracy": 0.6592828581730524,
      "num_tokens": 804800057.0,
      "step": 4788
    },
    {
      "entropy": 1.7324989934762318,
      "epoch": 0.5261047485649941,
      "grad_norm": 0.7020387053489685,
      "learning_rate": 1.7557604032930056e-05,
      "loss": 1.3377,
      "mean_token_accuracy": 0.6654490580161413,
      "num_tokens": 804932809.0,
      "step": 4789
    },
    {
      "entropy": 1.7356117367744446,
      "epoch": 0.526214605476367,
      "grad_norm": 0.8487410545349121,
      "learning_rate": 1.7556507291493e-05,
      "loss": 1.5411,
      "mean_token_accuracy": 0.638851081331571,
      "num_tokens": 805093928.0,
      "step": 4790
    },
    {
      "entropy": 1.66506223877271,
      "epoch": 0.52632446238774,
      "grad_norm": 0.6197313070297241,
      "learning_rate": 1.755541034254544e-05,
      "loss": 1.4225,
      "mean_token_accuracy": 0.6506545394659042,
      "num_tokens": 805275885.0,
      "step": 4791
    },
    {
      "entropy": 1.6665216783682506,
      "epoch": 0.5264343192991129,
      "grad_norm": 0.7226223945617676,
      "learning_rate": 1.7554313186122095e-05,
      "loss": 1.3719,
      "mean_token_accuracy": 0.659637118379275,
      "num_tokens": 805455227.0,
      "step": 4792
    },
    {
      "entropy": 1.7102013031641643,
      "epoch": 0.5265441762104859,
      "grad_norm": 0.7095229625701904,
      "learning_rate": 1.7553215822257692e-05,
      "loss": 1.4586,
      "mean_token_accuracy": 0.6529026329517365,
      "num_tokens": 805613449.0,
      "step": 4793
    },
    {
      "entropy": 1.6817038357257843,
      "epoch": 0.5266540331218588,
      "grad_norm": 0.6859667301177979,
      "learning_rate": 1.7552118250986962e-05,
      "loss": 1.3303,
      "mean_token_accuracy": 0.6643107682466507,
      "num_tokens": 805728020.0,
      "step": 4794
    },
    {
      "entropy": 1.66180619597435,
      "epoch": 0.5267638900332318,
      "grad_norm": 0.6296705007553101,
      "learning_rate": 1.7551020472344643e-05,
      "loss": 1.3457,
      "mean_token_accuracy": 0.6573961029450098,
      "num_tokens": 805862681.0,
      "step": 4795
    },
    {
      "entropy": 1.699836363395055,
      "epoch": 0.5268737469446046,
      "grad_norm": 0.6737419962882996,
      "learning_rate": 1.7549922486365478e-05,
      "loss": 1.537,
      "mean_token_accuracy": 0.6582231894135475,
      "num_tokens": 806037799.0,
      "step": 4796
    },
    {
      "entropy": 1.7254907389481862,
      "epoch": 0.5269836038559775,
      "grad_norm": 0.7271363735198975,
      "learning_rate": 1.7548824293084214e-05,
      "loss": 1.4136,
      "mean_token_accuracy": 0.6628665079673132,
      "num_tokens": 806221209.0,
      "step": 4797
    },
    {
      "entropy": 1.6994514266649883,
      "epoch": 0.5270934607673505,
      "grad_norm": 0.7013587951660156,
      "learning_rate": 1.7547725892535615e-05,
      "loss": 1.3026,
      "mean_token_accuracy": 0.6708128750324249,
      "num_tokens": 806383779.0,
      "step": 4798
    },
    {
      "entropy": 1.681582232316335,
      "epoch": 0.5272033176787234,
      "grad_norm": 0.6710511445999146,
      "learning_rate": 1.754662728475444e-05,
      "loss": 1.3914,
      "mean_token_accuracy": 0.6664837151765823,
      "num_tokens": 806556636.0,
      "step": 4799
    },
    {
      "entropy": 1.7152946889400482,
      "epoch": 0.5273131745900964,
      "grad_norm": 0.6160458326339722,
      "learning_rate": 1.7545528469775467e-05,
      "loss": 1.3605,
      "mean_token_accuracy": 0.6646227290232977,
      "num_tokens": 806699683.0,
      "step": 4800
    },
    {
      "entropy": 1.6824420094490051,
      "epoch": 0.5274230315014693,
      "grad_norm": 0.7939539551734924,
      "learning_rate": 1.7544429447633464e-05,
      "loss": 1.3189,
      "mean_token_accuracy": 0.6681206673383713,
      "num_tokens": 806867720.0,
      "step": 4801
    },
    {
      "entropy": 1.6991462310155232,
      "epoch": 0.5275328884128423,
      "grad_norm": 0.6454995274543762,
      "learning_rate": 1.7543330218363214e-05,
      "loss": 1.4584,
      "mean_token_accuracy": 0.6686960806449255,
      "num_tokens": 807035383.0,
      "step": 4802
    },
    {
      "entropy": 1.7097290853659313,
      "epoch": 0.5276427453242152,
      "grad_norm": 0.6477057933807373,
      "learning_rate": 1.7542230781999518e-05,
      "loss": 1.2847,
      "mean_token_accuracy": 0.671577995022138,
      "num_tokens": 807190570.0,
      "step": 4803
    },
    {
      "entropy": 1.7435030043125153,
      "epoch": 0.5277526022355882,
      "grad_norm": 0.72170490026474,
      "learning_rate": 1.754113113857716e-05,
      "loss": 1.4119,
      "mean_token_accuracy": 0.6534734964370728,
      "num_tokens": 807344375.0,
      "step": 4804
    },
    {
      "entropy": 1.6681690216064453,
      "epoch": 0.5278624591469611,
      "grad_norm": 0.6512613296508789,
      "learning_rate": 1.754003128813095e-05,
      "loss": 1.3037,
      "mean_token_accuracy": 0.6649158795674642,
      "num_tokens": 807482406.0,
      "step": 4805
    },
    {
      "entropy": 1.7332804004351299,
      "epoch": 0.5279723160583341,
      "grad_norm": 0.6607586741447449,
      "learning_rate": 1.75389312306957e-05,
      "loss": 1.5653,
      "mean_token_accuracy": 0.6444868743419647,
      "num_tokens": 807672269.0,
      "step": 4806
    },
    {
      "entropy": 1.722442050774892,
      "epoch": 0.5280821729697069,
      "grad_norm": 0.7250016927719116,
      "learning_rate": 1.7537830966306224e-05,
      "loss": 1.3925,
      "mean_token_accuracy": 0.6732650498549143,
      "num_tokens": 807822790.0,
      "step": 4807
    },
    {
      "entropy": 1.7573895851771038,
      "epoch": 0.5281920298810799,
      "grad_norm": 0.7589662671089172,
      "learning_rate": 1.753673049499734e-05,
      "loss": 1.3706,
      "mean_token_accuracy": 0.6612446457147598,
      "num_tokens": 807990370.0,
      "step": 4808
    },
    {
      "entropy": 1.6575620273749034,
      "epoch": 0.5283018867924528,
      "grad_norm": 0.5413112044334412,
      "learning_rate": 1.753562981680388e-05,
      "loss": 1.3177,
      "mean_token_accuracy": 0.649698426326116,
      "num_tokens": 808176218.0,
      "step": 4809
    },
    {
      "entropy": 1.728501945734024,
      "epoch": 0.5284117437038258,
      "grad_norm": 0.6827234029769897,
      "learning_rate": 1.7534528931760683e-05,
      "loss": 1.3945,
      "mean_token_accuracy": 0.6664670258760452,
      "num_tokens": 808328962.0,
      "step": 4810
    },
    {
      "entropy": 1.6973057091236115,
      "epoch": 0.5285216006151987,
      "grad_norm": 0.6527639627456665,
      "learning_rate": 1.753342783990259e-05,
      "loss": 1.3681,
      "mean_token_accuracy": 0.6585773775974909,
      "num_tokens": 808462565.0,
      "step": 4811
    },
    {
      "entropy": 1.7292284766832988,
      "epoch": 0.5286314575265716,
      "grad_norm": 0.8234806656837463,
      "learning_rate": 1.7532326541264454e-05,
      "loss": 1.5218,
      "mean_token_accuracy": 0.6624507009983063,
      "num_tokens": 808601980.0,
      "step": 4812
    },
    {
      "entropy": 1.6868124802907307,
      "epoch": 0.5287413144379446,
      "grad_norm": 0.5748288631439209,
      "learning_rate": 1.753122503588112e-05,
      "loss": 1.4779,
      "mean_token_accuracy": 0.6543243726094564,
      "num_tokens": 808866293.0,
      "step": 4813
    },
    {
      "entropy": 1.7639289100964863,
      "epoch": 0.5288511713493175,
      "grad_norm": 0.7285853624343872,
      "learning_rate": 1.753012332378746e-05,
      "loss": 1.4627,
      "mean_token_accuracy": 0.6443410267432531,
      "num_tokens": 809048139.0,
      "step": 4814
    },
    {
      "entropy": 1.7024679978688557,
      "epoch": 0.5289610282606905,
      "grad_norm": 0.7826334238052368,
      "learning_rate": 1.752902140501834e-05,
      "loss": 1.4016,
      "mean_token_accuracy": 0.6619109660387039,
      "num_tokens": 809214733.0,
      "step": 4815
    },
    {
      "entropy": 1.630326509475708,
      "epoch": 0.5290708851720634,
      "grad_norm": 0.7884056568145752,
      "learning_rate": 1.7527919279608633e-05,
      "loss": 1.3239,
      "mean_token_accuracy": 0.6573766022920609,
      "num_tokens": 809357746.0,
      "step": 4816
    },
    {
      "entropy": 1.7573048671086628,
      "epoch": 0.5291807420834364,
      "grad_norm": 0.8989459276199341,
      "learning_rate": 1.7526816947593224e-05,
      "loss": 1.4258,
      "mean_token_accuracy": 0.6477284530798594,
      "num_tokens": 809518204.0,
      "step": 4817
    },
    {
      "entropy": 1.635603408018748,
      "epoch": 0.5292905989948092,
      "grad_norm": 0.6966229677200317,
      "learning_rate": 1.7525714409006998e-05,
      "loss": 1.3025,
      "mean_token_accuracy": 0.6680015424887339,
      "num_tokens": 809662973.0,
      "step": 4818
    },
    {
      "entropy": 1.6825711230436962,
      "epoch": 0.5294004559061822,
      "grad_norm": 0.6718734502792358,
      "learning_rate": 1.7524611663884852e-05,
      "loss": 1.4107,
      "mean_token_accuracy": 0.6541168093681335,
      "num_tokens": 809835552.0,
      "step": 4819
    },
    {
      "entropy": 1.707334001859029,
      "epoch": 0.5295103128175551,
      "grad_norm": 0.687263548374176,
      "learning_rate": 1.7523508712261685e-05,
      "loss": 1.3849,
      "mean_token_accuracy": 0.6574449588855108,
      "num_tokens": 810024901.0,
      "step": 4820
    },
    {
      "entropy": 1.713168462117513,
      "epoch": 0.5296201697289281,
      "grad_norm": 0.6556559801101685,
      "learning_rate": 1.752240555417241e-05,
      "loss": 1.425,
      "mean_token_accuracy": 0.6502045691013336,
      "num_tokens": 810199634.0,
      "step": 4821
    },
    {
      "entropy": 1.7425429324309032,
      "epoch": 0.529730026640301,
      "grad_norm": 0.6769330501556396,
      "learning_rate": 1.7521302189651937e-05,
      "loss": 1.332,
      "mean_token_accuracy": 0.6587035904328028,
      "num_tokens": 810362916.0,
      "step": 4822
    },
    {
      "entropy": 1.6665611068407695,
      "epoch": 0.529839883551674,
      "grad_norm": 0.8234541416168213,
      "learning_rate": 1.752019861873519e-05,
      "loss": 1.3859,
      "mean_token_accuracy": 0.6658773571252823,
      "num_tokens": 810514991.0,
      "step": 4823
    },
    {
      "entropy": 1.6548964281876881,
      "epoch": 0.5299497404630469,
      "grad_norm": 0.6913493275642395,
      "learning_rate": 1.7519094841457092e-05,
      "loss": 1.4466,
      "mean_token_accuracy": 0.6507799476385117,
      "num_tokens": 810675171.0,
      "step": 4824
    },
    {
      "entropy": 1.73293998837471,
      "epoch": 0.5300595973744198,
      "grad_norm": 0.7102120518684387,
      "learning_rate": 1.751799085785258e-05,
      "loss": 1.4008,
      "mean_token_accuracy": 0.661358987291654,
      "num_tokens": 810802681.0,
      "step": 4825
    },
    {
      "entropy": 1.7738582690556843,
      "epoch": 0.5301694542857928,
      "grad_norm": 0.6953791379928589,
      "learning_rate": 1.7516886667956596e-05,
      "loss": 1.4149,
      "mean_token_accuracy": 0.6516300787528356,
      "num_tokens": 811021221.0,
      "step": 4826
    },
    {
      "entropy": 1.7118199865023296,
      "epoch": 0.5302793111971656,
      "grad_norm": 0.6161823272705078,
      "learning_rate": 1.7515782271804084e-05,
      "loss": 1.4182,
      "mean_token_accuracy": 0.6468035380045573,
      "num_tokens": 811208787.0,
      "step": 4827
    },
    {
      "entropy": 1.7987407644589741,
      "epoch": 0.5303891681085386,
      "grad_norm": 0.8192143440246582,
      "learning_rate": 1.7514677669430003e-05,
      "loss": 1.3789,
      "mean_token_accuracy": 0.6606917083263397,
      "num_tokens": 811338291.0,
      "step": 4828
    },
    {
      "entropy": 1.6597908238569896,
      "epoch": 0.5304990250199115,
      "grad_norm": 0.833269476890564,
      "learning_rate": 1.7513572860869306e-05,
      "loss": 1.1746,
      "mean_token_accuracy": 0.6920550564924876,
      "num_tokens": 811441985.0,
      "step": 4829
    },
    {
      "entropy": 1.7635074357191722,
      "epoch": 0.5306088819312845,
      "grad_norm": 0.7363488078117371,
      "learning_rate": 1.751246784615696e-05,
      "loss": 1.4692,
      "mean_token_accuracy": 0.6375128527482351,
      "num_tokens": 811634058.0,
      "step": 4830
    },
    {
      "entropy": 1.7353008687496185,
      "epoch": 0.5307187388426574,
      "grad_norm": 0.7418941259384155,
      "learning_rate": 1.7511362625327947e-05,
      "loss": 1.4245,
      "mean_token_accuracy": 0.6573583434025446,
      "num_tokens": 811760632.0,
      "step": 4831
    },
    {
      "entropy": 1.7234211166699727,
      "epoch": 0.5308285957540304,
      "grad_norm": 0.6825436353683472,
      "learning_rate": 1.751025719841724e-05,
      "loss": 1.3955,
      "mean_token_accuracy": 0.6559055695931116,
      "num_tokens": 811922986.0,
      "step": 4832
    },
    {
      "entropy": 1.7144565085570018,
      "epoch": 0.5309384526654033,
      "grad_norm": 0.6612206101417542,
      "learning_rate": 1.7509151565459823e-05,
      "loss": 1.5228,
      "mean_token_accuracy": 0.6367465257644653,
      "num_tokens": 812112649.0,
      "step": 4833
    },
    {
      "entropy": 1.7186235984166462,
      "epoch": 0.5310483095767763,
      "grad_norm": 0.6164059638977051,
      "learning_rate": 1.7508045726490695e-05,
      "loss": 1.3859,
      "mean_token_accuracy": 0.655776783823967,
      "num_tokens": 812281703.0,
      "step": 4834
    },
    {
      "entropy": 1.7127485771973927,
      "epoch": 0.5311581664881492,
      "grad_norm": 0.8158262372016907,
      "learning_rate": 1.750693968154485e-05,
      "loss": 1.4447,
      "mean_token_accuracy": 0.6493441561857859,
      "num_tokens": 812448324.0,
      "step": 4835
    },
    {
      "entropy": 1.696526567141215,
      "epoch": 0.5312680233995222,
      "grad_norm": 0.7266950011253357,
      "learning_rate": 1.7505833430657298e-05,
      "loss": 1.3453,
      "mean_token_accuracy": 0.6664767960707346,
      "num_tokens": 812601651.0,
      "step": 4836
    },
    {
      "entropy": 1.7216827968756359,
      "epoch": 0.5313778803108951,
      "grad_norm": 0.7393192052841187,
      "learning_rate": 1.7504726973863053e-05,
      "loss": 1.4682,
      "mean_token_accuracy": 0.6517121444145838,
      "num_tokens": 812800925.0,
      "step": 4837
    },
    {
      "entropy": 1.7090055843194325,
      "epoch": 0.5314877372222679,
      "grad_norm": 0.7309879064559937,
      "learning_rate": 1.7503620311197124e-05,
      "loss": 1.3463,
      "mean_token_accuracy": 0.6595309128363928,
      "num_tokens": 812928476.0,
      "step": 4838
    },
    {
      "entropy": 1.6507777372996013,
      "epoch": 0.5315975941336409,
      "grad_norm": 0.5989612340927124,
      "learning_rate": 1.7502513442694546e-05,
      "loss": 1.3661,
      "mean_token_accuracy": 0.6650850723187128,
      "num_tokens": 813101231.0,
      "step": 4839
    },
    {
      "entropy": 1.780005156993866,
      "epoch": 0.5317074510450138,
      "grad_norm": 0.8584796786308289,
      "learning_rate": 1.7501406368390344e-05,
      "loss": 1.6108,
      "mean_token_accuracy": 0.6370650803049406,
      "num_tokens": 813269613.0,
      "step": 4840
    },
    {
      "entropy": 1.6397046148777008,
      "epoch": 0.5318173079563868,
      "grad_norm": 0.7476561665534973,
      "learning_rate": 1.7500299088319566e-05,
      "loss": 1.4002,
      "mean_token_accuracy": 0.6559847990671793,
      "num_tokens": 813481357.0,
      "step": 4841
    },
    {
      "entropy": 1.7163714965184529,
      "epoch": 0.5319271648677597,
      "grad_norm": 0.7873140573501587,
      "learning_rate": 1.7499191602517245e-05,
      "loss": 1.4229,
      "mean_token_accuracy": 0.6485390017429987,
      "num_tokens": 813693879.0,
      "step": 4842
    },
    {
      "entropy": 1.6578922768433888,
      "epoch": 0.5320370217791327,
      "grad_norm": 0.7017808556556702,
      "learning_rate": 1.749808391101844e-05,
      "loss": 1.2177,
      "mean_token_accuracy": 0.6817097862561544,
      "num_tokens": 813842919.0,
      "step": 4843
    },
    {
      "entropy": 1.6423076788584392,
      "epoch": 0.5321468786905056,
      "grad_norm": 0.685593843460083,
      "learning_rate": 1.7496976013858207e-05,
      "loss": 1.2957,
      "mean_token_accuracy": 0.6747591296831766,
      "num_tokens": 813995390.0,
      "step": 4844
    },
    {
      "entropy": 1.7144256333510082,
      "epoch": 0.5322567356018786,
      "grad_norm": 0.7866110801696777,
      "learning_rate": 1.749586791107162e-05,
      "loss": 1.3694,
      "mean_token_accuracy": 0.6647010346253713,
      "num_tokens": 814119386.0,
      "step": 4845
    },
    {
      "entropy": 1.7141908307870228,
      "epoch": 0.5323665925132515,
      "grad_norm": 0.6247113943099976,
      "learning_rate": 1.749475960269373e-05,
      "loss": 1.4549,
      "mean_token_accuracy": 0.647007574637731,
      "num_tokens": 814297783.0,
      "step": 4846
    },
    {
      "entropy": 1.7318035264809926,
      "epoch": 0.5324764494246245,
      "grad_norm": 0.8848351240158081,
      "learning_rate": 1.7493651088759628e-05,
      "loss": 1.5185,
      "mean_token_accuracy": 0.6626861343781153,
      "num_tokens": 814495884.0,
      "step": 4847
    },
    {
      "entropy": 1.7968285183111827,
      "epoch": 0.5325863063359974,
      "grad_norm": 0.774684727191925,
      "learning_rate": 1.7492542369304394e-05,
      "loss": 1.4586,
      "mean_token_accuracy": 0.6544144451618195,
      "num_tokens": 814629185.0,
      "step": 4848
    },
    {
      "entropy": 1.788926084836324,
      "epoch": 0.5326961632473703,
      "grad_norm": 0.7674810886383057,
      "learning_rate": 1.749143344436312e-05,
      "loss": 1.4702,
      "mean_token_accuracy": 0.6507733265558878,
      "num_tokens": 814789810.0,
      "step": 4849
    },
    {
      "entropy": 1.7028450568517048,
      "epoch": 0.5328060201587432,
      "grad_norm": 0.8451623320579529,
      "learning_rate": 1.7490324313970905e-05,
      "loss": 1.3885,
      "mean_token_accuracy": 0.6632057080666224,
      "num_tokens": 814936262.0,
      "step": 4850
    },
    {
      "entropy": 1.7443354924519856,
      "epoch": 0.5329158770701162,
      "grad_norm": 0.7909703254699707,
      "learning_rate": 1.748921497816285e-05,
      "loss": 1.4668,
      "mean_token_accuracy": 0.6472253054380417,
      "num_tokens": 815079833.0,
      "step": 4851
    },
    {
      "entropy": 1.7053726116816204,
      "epoch": 0.5330257339814891,
      "grad_norm": 0.7654147148132324,
      "learning_rate": 1.7488105436974062e-05,
      "loss": 1.5746,
      "mean_token_accuracy": 0.6418164720137914,
      "num_tokens": 815251335.0,
      "step": 4852
    },
    {
      "entropy": 1.7527342240015666,
      "epoch": 0.533135590892862,
      "grad_norm": 0.6501696705818176,
      "learning_rate": 1.7486995690439666e-05,
      "loss": 1.5457,
      "mean_token_accuracy": 0.6359410037597021,
      "num_tokens": 815454559.0,
      "step": 4853
    },
    {
      "entropy": 1.719238390525182,
      "epoch": 0.533245447804235,
      "grad_norm": 2.1015734672546387,
      "learning_rate": 1.7485885738594773e-05,
      "loss": 1.2862,
      "mean_token_accuracy": 0.663156678279241,
      "num_tokens": 815642372.0,
      "step": 4854
    },
    {
      "entropy": 1.7204244335492451,
      "epoch": 0.5333553047156079,
      "grad_norm": 0.8685169816017151,
      "learning_rate": 1.748477558147452e-05,
      "loss": 1.3431,
      "mean_token_accuracy": 0.6598953902721405,
      "num_tokens": 815782219.0,
      "step": 4855
    },
    {
      "entropy": 1.7100018362204235,
      "epoch": 0.5334651616269809,
      "grad_norm": 1.181349515914917,
      "learning_rate": 1.7483665219114045e-05,
      "loss": 1.1781,
      "mean_token_accuracy": 0.6599796116352081,
      "num_tokens": 815931852.0,
      "step": 4856
    },
    {
      "entropy": 1.6601063509782155,
      "epoch": 0.5335750185383538,
      "grad_norm": 0.7519736289978027,
      "learning_rate": 1.7482554651548485e-05,
      "loss": 1.4403,
      "mean_token_accuracy": 0.6680620610713959,
      "num_tokens": 816123952.0,
      "step": 4857
    },
    {
      "entropy": 1.69512935479482,
      "epoch": 0.5336848754497268,
      "grad_norm": 0.747626781463623,
      "learning_rate": 1.7481443878812996e-05,
      "loss": 1.3925,
      "mean_token_accuracy": 0.6561353007952372,
      "num_tokens": 816256226.0,
      "step": 4858
    },
    {
      "entropy": 1.726113458474477,
      "epoch": 0.5337947323610996,
      "grad_norm": 0.671970784664154,
      "learning_rate": 1.7480332900942722e-05,
      "loss": 1.3526,
      "mean_token_accuracy": 0.6597483803828558,
      "num_tokens": 816387859.0,
      "step": 4859
    },
    {
      "entropy": 1.6943202714125316,
      "epoch": 0.5339045892724726,
      "grad_norm": 0.7271941304206848,
      "learning_rate": 1.747922171797284e-05,
      "loss": 1.2837,
      "mean_token_accuracy": 0.6677757650613785,
      "num_tokens": 816532923.0,
      "step": 4860
    },
    {
      "entropy": 1.7412850956122081,
      "epoch": 0.5340144461838455,
      "grad_norm": 0.7533559203147888,
      "learning_rate": 1.74781103299385e-05,
      "loss": 1.4504,
      "mean_token_accuracy": 0.664714311559995,
      "num_tokens": 816655245.0,
      "step": 4861
    },
    {
      "entropy": 1.7081489165623982,
      "epoch": 0.5341243030952185,
      "grad_norm": 0.6002654433250427,
      "learning_rate": 1.7476998736874896e-05,
      "loss": 1.42,
      "mean_token_accuracy": 0.6530174712340037,
      "num_tokens": 816838841.0,
      "step": 4862
    },
    {
      "entropy": 1.7771287858486176,
      "epoch": 0.5342341600065914,
      "grad_norm": 0.9644994139671326,
      "learning_rate": 1.74758869388172e-05,
      "loss": 1.2972,
      "mean_token_accuracy": 0.6680352141459783,
      "num_tokens": 817007159.0,
      "step": 4863
    },
    {
      "entropy": 1.7283466557661693,
      "epoch": 0.5343440169179644,
      "grad_norm": 0.7296448945999146,
      "learning_rate": 1.7474774935800594e-05,
      "loss": 1.474,
      "mean_token_accuracy": 0.6520171463489532,
      "num_tokens": 817134109.0,
      "step": 4864
    },
    {
      "entropy": 1.6883817911148071,
      "epoch": 0.5344538738293373,
      "grad_norm": 0.6540996432304382,
      "learning_rate": 1.7473662727860285e-05,
      "loss": 1.2972,
      "mean_token_accuracy": 0.6820466021696726,
      "num_tokens": 817272978.0,
      "step": 4865
    },
    {
      "entropy": 1.7053470313549042,
      "epoch": 0.5345637307407102,
      "grad_norm": 0.5956873297691345,
      "learning_rate": 1.747255031503146e-05,
      "loss": 1.3342,
      "mean_token_accuracy": 0.6530234664678574,
      "num_tokens": 817430466.0,
      "step": 4866
    },
    {
      "entropy": 1.725131352742513,
      "epoch": 0.5346735876520832,
      "grad_norm": 0.6326978206634521,
      "learning_rate": 1.7471437697349342e-05,
      "loss": 1.4458,
      "mean_token_accuracy": 0.6490624397993088,
      "num_tokens": 817587619.0,
      "step": 4867
    },
    {
      "entropy": 1.7081331610679626,
      "epoch": 0.5347834445634561,
      "grad_norm": 0.7116954922676086,
      "learning_rate": 1.7470324874849133e-05,
      "loss": 1.5435,
      "mean_token_accuracy": 0.6464557300011317,
      "num_tokens": 817794229.0,
      "step": 4868
    },
    {
      "entropy": 1.7534505824247997,
      "epoch": 0.534893301474829,
      "grad_norm": 0.7030560970306396,
      "learning_rate": 1.7469211847566062e-05,
      "loss": 1.3342,
      "mean_token_accuracy": 0.6696716099977493,
      "num_tokens": 817920264.0,
      "step": 4869
    },
    {
      "entropy": 1.7026815017064412,
      "epoch": 0.5350031583862019,
      "grad_norm": 0.6979672908782959,
      "learning_rate": 1.7468098615535347e-05,
      "loss": 1.5933,
      "mean_token_accuracy": 0.635742649435997,
      "num_tokens": 818085089.0,
      "step": 4870
    },
    {
      "entropy": 1.6528734962145488,
      "epoch": 0.5351130152975749,
      "grad_norm": 0.7067160606384277,
      "learning_rate": 1.7466985178792222e-05,
      "loss": 1.2836,
      "mean_token_accuracy": 0.6861815551916758,
      "num_tokens": 818278281.0,
      "step": 4871
    },
    {
      "entropy": 1.7629452645778656,
      "epoch": 0.5352228722089478,
      "grad_norm": 0.709534227848053,
      "learning_rate": 1.7465871537371938e-05,
      "loss": 1.3458,
      "mean_token_accuracy": 0.669313962260882,
      "num_tokens": 818428687.0,
      "step": 4872
    },
    {
      "entropy": 1.7045076290766399,
      "epoch": 0.5353327291203208,
      "grad_norm": 0.7088239789009094,
      "learning_rate": 1.746475769130973e-05,
      "loss": 1.3678,
      "mean_token_accuracy": 0.6577753275632858,
      "num_tokens": 818577943.0,
      "step": 4873
    },
    {
      "entropy": 1.7641015152136486,
      "epoch": 0.5354425860316937,
      "grad_norm": 0.7473663687705994,
      "learning_rate": 1.746364364064085e-05,
      "loss": 1.3615,
      "mean_token_accuracy": 0.6545535524686178,
      "num_tokens": 818704762.0,
      "step": 4874
    },
    {
      "entropy": 1.73165625333786,
      "epoch": 0.5355524429430667,
      "grad_norm": 0.6683910489082336,
      "learning_rate": 1.7462529385400567e-05,
      "loss": 1.2848,
      "mean_token_accuracy": 0.6737756431102753,
      "num_tokens": 818836769.0,
      "step": 4875
    },
    {
      "entropy": 1.727175106604894,
      "epoch": 0.5356622998544396,
      "grad_norm": 0.7146100997924805,
      "learning_rate": 1.7461414925624144e-05,
      "loss": 1.2557,
      "mean_token_accuracy": 0.6819527049859365,
      "num_tokens": 819013897.0,
      "step": 4876
    },
    {
      "entropy": 1.6949097514152527,
      "epoch": 0.5357721567658126,
      "grad_norm": 0.7949661016464233,
      "learning_rate": 1.7460300261346842e-05,
      "loss": 1.4601,
      "mean_token_accuracy": 0.6500726789236069,
      "num_tokens": 819200845.0,
      "step": 4877
    },
    {
      "entropy": 1.7253201305866241,
      "epoch": 0.5358820136771855,
      "grad_norm": 0.6605319976806641,
      "learning_rate": 1.745918539260395e-05,
      "loss": 1.5041,
      "mean_token_accuracy": 0.6472121477127075,
      "num_tokens": 819388584.0,
      "step": 4878
    },
    {
      "entropy": 1.7595091660817463,
      "epoch": 0.5359918705885584,
      "grad_norm": 0.9308416247367859,
      "learning_rate": 1.7458070319430754e-05,
      "loss": 1.5802,
      "mean_token_accuracy": 0.6386895179748535,
      "num_tokens": 819596639.0,
      "step": 4879
    },
    {
      "entropy": 1.6913528839747112,
      "epoch": 0.5361017274999313,
      "grad_norm": 0.7783805727958679,
      "learning_rate": 1.7456955041862543e-05,
      "loss": 1.2217,
      "mean_token_accuracy": 0.6871163348356882,
      "num_tokens": 819708937.0,
      "step": 4880
    },
    {
      "entropy": 1.708279420932134,
      "epoch": 0.5362115844113042,
      "grad_norm": 0.6577259302139282,
      "learning_rate": 1.745583955993461e-05,
      "loss": 1.3714,
      "mean_token_accuracy": 0.6517359912395477,
      "num_tokens": 819915470.0,
      "step": 4881
    },
    {
      "entropy": 1.703675111134847,
      "epoch": 0.5363214413226772,
      "grad_norm": 0.5665971636772156,
      "learning_rate": 1.7454723873682268e-05,
      "loss": 1.4554,
      "mean_token_accuracy": 0.6373900771141052,
      "num_tokens": 820172132.0,
      "step": 4882
    },
    {
      "entropy": 1.7301917870839436,
      "epoch": 0.5364312982340501,
      "grad_norm": 0.5813365578651428,
      "learning_rate": 1.7453607983140823e-05,
      "loss": 1.5125,
      "mean_token_accuracy": 0.6375814924637476,
      "num_tokens": 820379791.0,
      "step": 4883
    },
    {
      "entropy": 1.7420111298561096,
      "epoch": 0.5365411551454231,
      "grad_norm": 0.6530336141586304,
      "learning_rate": 1.745249188834559e-05,
      "loss": 1.456,
      "mean_token_accuracy": 0.6411418666442236,
      "num_tokens": 820565833.0,
      "step": 4884
    },
    {
      "entropy": 1.801695555448532,
      "epoch": 0.536651012056796,
      "grad_norm": 0.7685750722885132,
      "learning_rate": 1.74513755893319e-05,
      "loss": 1.5374,
      "mean_token_accuracy": 0.634370227654775,
      "num_tokens": 820688906.0,
      "step": 4885
    },
    {
      "entropy": 1.751669466495514,
      "epoch": 0.536760868968169,
      "grad_norm": 0.7663411498069763,
      "learning_rate": 1.7450259086135078e-05,
      "loss": 1.4194,
      "mean_token_accuracy": 0.6512367278337479,
      "num_tokens": 820836128.0,
      "step": 4886
    },
    {
      "entropy": 1.7377658585707347,
      "epoch": 0.5368707258795419,
      "grad_norm": 0.7554279565811157,
      "learning_rate": 1.744914237879046e-05,
      "loss": 1.198,
      "mean_token_accuracy": 0.6807886908451716,
      "num_tokens": 820951980.0,
      "step": 4887
    },
    {
      "entropy": 1.782357394695282,
      "epoch": 0.5369805827909149,
      "grad_norm": 0.672864556312561,
      "learning_rate": 1.74480254673334e-05,
      "loss": 1.3533,
      "mean_token_accuracy": 0.65904101729393,
      "num_tokens": 821101205.0,
      "step": 4888
    },
    {
      "entropy": 1.742653727531433,
      "epoch": 0.5370904397022878,
      "grad_norm": 0.6784942150115967,
      "learning_rate": 1.7446908351799233e-05,
      "loss": 1.2928,
      "mean_token_accuracy": 0.6659032354752222,
      "num_tokens": 821266573.0,
      "step": 4889
    },
    {
      "entropy": 1.679027299086253,
      "epoch": 0.5372002966136608,
      "grad_norm": 0.6892912983894348,
      "learning_rate": 1.7445791032223322e-05,
      "loss": 1.3674,
      "mean_token_accuracy": 0.6666253606478373,
      "num_tokens": 821437038.0,
      "step": 4890
    },
    {
      "entropy": 1.7067703604698181,
      "epoch": 0.5373101535250336,
      "grad_norm": 0.6747919917106628,
      "learning_rate": 1.744467350864103e-05,
      "loss": 1.2386,
      "mean_token_accuracy": 0.6692210485537847,
      "num_tokens": 821571344.0,
      "step": 4891
    },
    {
      "entropy": 1.7276716828346252,
      "epoch": 0.5374200104364065,
      "grad_norm": 0.9028007388114929,
      "learning_rate": 1.7443555781087726e-05,
      "loss": 1.5016,
      "mean_token_accuracy": 0.6459170381228129,
      "num_tokens": 821732320.0,
      "step": 4892
    },
    {
      "entropy": 1.6987963616847992,
      "epoch": 0.5375298673477795,
      "grad_norm": 0.7619015574455261,
      "learning_rate": 1.7442437849598785e-05,
      "loss": 1.3314,
      "mean_token_accuracy": 0.6694723268349966,
      "num_tokens": 821925047.0,
      "step": 4893
    },
    {
      "entropy": 1.74809134999911,
      "epoch": 0.5376397242591524,
      "grad_norm": 0.6891080141067505,
      "learning_rate": 1.744131971420959e-05,
      "loss": 1.6016,
      "mean_token_accuracy": 0.633436476190885,
      "num_tokens": 822098417.0,
      "step": 4894
    },
    {
      "entropy": 1.7045816977818806,
      "epoch": 0.5377495811705254,
      "grad_norm": 0.603262186050415,
      "learning_rate": 1.7440201374955528e-05,
      "loss": 1.5185,
      "mean_token_accuracy": 0.6483029425144196,
      "num_tokens": 822284175.0,
      "step": 4895
    },
    {
      "entropy": 1.7040814061959584,
      "epoch": 0.5378594380818983,
      "grad_norm": 0.6909913420677185,
      "learning_rate": 1.7439082831871997e-05,
      "loss": 1.3295,
      "mean_token_accuracy": 0.6752724895874659,
      "num_tokens": 822404812.0,
      "step": 4896
    },
    {
      "entropy": 1.6904057959715526,
      "epoch": 0.5379692949932713,
      "grad_norm": 0.6549181342124939,
      "learning_rate": 1.743796408499439e-05,
      "loss": 1.3216,
      "mean_token_accuracy": 0.6638427078723907,
      "num_tokens": 822590204.0,
      "step": 4897
    },
    {
      "entropy": 1.6527547438939412,
      "epoch": 0.5380791519046442,
      "grad_norm": 0.7167640924453735,
      "learning_rate": 1.7436845134358123e-05,
      "loss": 1.3751,
      "mean_token_accuracy": 0.6618984391291937,
      "num_tokens": 822782283.0,
      "step": 4898
    },
    {
      "entropy": 1.6621145009994507,
      "epoch": 0.5381890088160172,
      "grad_norm": 0.7170586585998535,
      "learning_rate": 1.743572597999861e-05,
      "loss": 1.3813,
      "mean_token_accuracy": 0.657960906624794,
      "num_tokens": 822958457.0,
      "step": 4899
    },
    {
      "entropy": 1.6679618457953136,
      "epoch": 0.53829886572739,
      "grad_norm": 0.6240289807319641,
      "learning_rate": 1.743460662195127e-05,
      "loss": 1.3381,
      "mean_token_accuracy": 0.6678373962640762,
      "num_tokens": 823116527.0,
      "step": 4900
    },
    {
      "entropy": 1.7151422599951427,
      "epoch": 0.538408722638763,
      "grad_norm": 0.6621232628822327,
      "learning_rate": 1.7433487060251527e-05,
      "loss": 1.5341,
      "mean_token_accuracy": 0.6566172788540522,
      "num_tokens": 823296593.0,
      "step": 4901
    },
    {
      "entropy": 1.6715179483095806,
      "epoch": 0.5385185795501359,
      "grad_norm": 0.663271427154541,
      "learning_rate": 1.743236729493482e-05,
      "loss": 1.3851,
      "mean_token_accuracy": 0.6610744049151739,
      "num_tokens": 823449082.0,
      "step": 4902
    },
    {
      "entropy": 1.7014525334040325,
      "epoch": 0.5386284364615089,
      "grad_norm": 0.6124004125595093,
      "learning_rate": 1.7431247326036583e-05,
      "loss": 1.4697,
      "mean_token_accuracy": 0.6529516379038492,
      "num_tokens": 823615779.0,
      "step": 4903
    },
    {
      "entropy": 1.6754214763641357,
      "epoch": 0.5387382933728818,
      "grad_norm": 0.7338191270828247,
      "learning_rate": 1.7430127153592272e-05,
      "loss": 1.3501,
      "mean_token_accuracy": 0.6698144127925237,
      "num_tokens": 823744244.0,
      "step": 4904
    },
    {
      "entropy": 1.7061218818028767,
      "epoch": 0.5388481502842548,
      "grad_norm": 0.6320319771766663,
      "learning_rate": 1.742900677763733e-05,
      "loss": 1.333,
      "mean_token_accuracy": 0.66542187333107,
      "num_tokens": 823896705.0,
      "step": 4905
    },
    {
      "entropy": 1.70430921514829,
      "epoch": 0.5389580071956277,
      "grad_norm": 0.7169397473335266,
      "learning_rate": 1.742788619820722e-05,
      "loss": 1.4334,
      "mean_token_accuracy": 0.6706308672825495,
      "num_tokens": 824071474.0,
      "step": 4906
    },
    {
      "entropy": 1.7034543951352437,
      "epoch": 0.5390678641070006,
      "grad_norm": 0.6652551293373108,
      "learning_rate": 1.7426765415337406e-05,
      "loss": 1.5371,
      "mean_token_accuracy": 0.6554579238096873,
      "num_tokens": 824216176.0,
      "step": 4907
    },
    {
      "entropy": 1.739420880873998,
      "epoch": 0.5391777210183736,
      "grad_norm": 0.9010681509971619,
      "learning_rate": 1.7425644429063372e-05,
      "loss": 1.5553,
      "mean_token_accuracy": 0.6332442959149679,
      "num_tokens": 824346870.0,
      "step": 4908
    },
    {
      "entropy": 1.7290275891621907,
      "epoch": 0.5392875779297465,
      "grad_norm": 0.6607105135917664,
      "learning_rate": 1.742452323942058e-05,
      "loss": 1.4219,
      "mean_token_accuracy": 0.6464213828245798,
      "num_tokens": 824523488.0,
      "step": 4909
    },
    {
      "entropy": 1.7586493094762166,
      "epoch": 0.5393974348411195,
      "grad_norm": 0.7161458730697632,
      "learning_rate": 1.742340184644452e-05,
      "loss": 1.3448,
      "mean_token_accuracy": 0.6701912134885788,
      "num_tokens": 824669157.0,
      "step": 4910
    },
    {
      "entropy": 1.679528295993805,
      "epoch": 0.5395072917524923,
      "grad_norm": 0.6938197612762451,
      "learning_rate": 1.7422280250170693e-05,
      "loss": 1.3921,
      "mean_token_accuracy": 0.6523070633411407,
      "num_tokens": 824861531.0,
      "step": 4911
    },
    {
      "entropy": 1.6967064638932545,
      "epoch": 0.5396171486638653,
      "grad_norm": 0.6822254657745361,
      "learning_rate": 1.7421158450634586e-05,
      "loss": 1.448,
      "mean_token_accuracy": 0.6576181898514429,
      "num_tokens": 825039311.0,
      "step": 4912
    },
    {
      "entropy": 1.6692471305529277,
      "epoch": 0.5397270055752382,
      "grad_norm": 0.7633799910545349,
      "learning_rate": 1.742003644787171e-05,
      "loss": 1.3524,
      "mean_token_accuracy": 0.6830050398906072,
      "num_tokens": 825165157.0,
      "step": 4913
    },
    {
      "entropy": 1.684964507818222,
      "epoch": 0.5398368624866112,
      "grad_norm": 0.5935234427452087,
      "learning_rate": 1.7418914241917572e-05,
      "loss": 1.3683,
      "mean_token_accuracy": 0.6735412726799647,
      "num_tokens": 825335892.0,
      "step": 4914
    },
    {
      "entropy": 1.7406889696915944,
      "epoch": 0.5399467193979841,
      "grad_norm": 0.7186749577522278,
      "learning_rate": 1.741779183280769e-05,
      "loss": 1.594,
      "mean_token_accuracy": 0.6328186293443044,
      "num_tokens": 825567908.0,
      "step": 4915
    },
    {
      "entropy": 1.6296118994553883,
      "epoch": 0.5400565763093571,
      "grad_norm": 0.7475072741508484,
      "learning_rate": 1.741666922057759e-05,
      "loss": 1.3133,
      "mean_token_accuracy": 0.6770787388086319,
      "num_tokens": 825723520.0,
      "step": 4916
    },
    {
      "entropy": 1.6742859582106273,
      "epoch": 0.54016643322073,
      "grad_norm": 0.7436842918395996,
      "learning_rate": 1.7415546405262797e-05,
      "loss": 1.3603,
      "mean_token_accuracy": 0.6628256142139435,
      "num_tokens": 825860111.0,
      "step": 4917
    },
    {
      "entropy": 1.6383836766084034,
      "epoch": 0.540276290132103,
      "grad_norm": 0.6304495930671692,
      "learning_rate": 1.7414423386898857e-05,
      "loss": 1.3379,
      "mean_token_accuracy": 0.664565180738767,
      "num_tokens": 826041019.0,
      "step": 4918
    },
    {
      "entropy": 1.6786586443583171,
      "epoch": 0.5403861470434759,
      "grad_norm": 0.6277565956115723,
      "learning_rate": 1.74133001655213e-05,
      "loss": 1.4681,
      "mean_token_accuracy": 0.6444205145041147,
      "num_tokens": 826262462.0,
      "step": 4919
    },
    {
      "entropy": 1.6958061456680298,
      "epoch": 0.5404960039548488,
      "grad_norm": 0.8898590803146362,
      "learning_rate": 1.7412176741165687e-05,
      "loss": 1.4818,
      "mean_token_accuracy": 0.6551410953203837,
      "num_tokens": 826420243.0,
      "step": 4920
    },
    {
      "entropy": 1.7218329807122548,
      "epoch": 0.5406058608662218,
      "grad_norm": 0.6511401534080505,
      "learning_rate": 1.741105311386757e-05,
      "loss": 1.3571,
      "mean_token_accuracy": 0.6615760376056036,
      "num_tokens": 826616257.0,
      "step": 4921
    },
    {
      "entropy": 1.7913587391376495,
      "epoch": 0.5407157177775946,
      "grad_norm": 0.6388662457466125,
      "learning_rate": 1.740992928366251e-05,
      "loss": 1.3981,
      "mean_token_accuracy": 0.6544657200574875,
      "num_tokens": 826805321.0,
      "step": 4922
    },
    {
      "entropy": 1.6517898738384247,
      "epoch": 0.5408255746889676,
      "grad_norm": 0.6503629684448242,
      "learning_rate": 1.7408805250586077e-05,
      "loss": 1.4909,
      "mean_token_accuracy": 0.6562631527582804,
      "num_tokens": 826976397.0,
      "step": 4923
    },
    {
      "entropy": 1.7049082815647125,
      "epoch": 0.5409354316003405,
      "grad_norm": 0.7112172842025757,
      "learning_rate": 1.7407681014673844e-05,
      "loss": 1.3882,
      "mean_token_accuracy": 0.6503375222285589,
      "num_tokens": 827134334.0,
      "step": 4924
    },
    {
      "entropy": 1.721593697865804,
      "epoch": 0.5410452885117135,
      "grad_norm": 0.6750729084014893,
      "learning_rate": 1.7406556575961394e-05,
      "loss": 1.3612,
      "mean_token_accuracy": 0.6642037878433863,
      "num_tokens": 827268866.0,
      "step": 4925
    },
    {
      "entropy": 1.743778149286906,
      "epoch": 0.5411551454230864,
      "grad_norm": 0.8075199723243713,
      "learning_rate": 1.7405431934484318e-05,
      "loss": 1.5953,
      "mean_token_accuracy": 0.6419996519883474,
      "num_tokens": 827456250.0,
      "step": 4926
    },
    {
      "entropy": 1.701025813817978,
      "epoch": 0.5412650023344594,
      "grad_norm": 0.6938318014144897,
      "learning_rate": 1.7404307090278206e-05,
      "loss": 1.2758,
      "mean_token_accuracy": 0.6731408586104711,
      "num_tokens": 827569239.0,
      "step": 4927
    },
    {
      "entropy": 1.6912222007910411,
      "epoch": 0.5413748592458323,
      "grad_norm": 0.7330572009086609,
      "learning_rate": 1.7403182043378662e-05,
      "loss": 1.3019,
      "mean_token_accuracy": 0.6731463919083277,
      "num_tokens": 827733160.0,
      "step": 4928
    },
    {
      "entropy": 1.6323689023653667,
      "epoch": 0.5414847161572053,
      "grad_norm": 0.6897679567337036,
      "learning_rate": 1.740205679382129e-05,
      "loss": 1.3017,
      "mean_token_accuracy": 0.6699829796950022,
      "num_tokens": 827857219.0,
      "step": 4929
    },
    {
      "entropy": 1.6964257657527924,
      "epoch": 0.5415945730685782,
      "grad_norm": 0.6199988722801208,
      "learning_rate": 1.7400931341641706e-05,
      "loss": 1.4628,
      "mean_token_accuracy": 0.6376723100741705,
      "num_tokens": 828046638.0,
      "step": 4930
    },
    {
      "entropy": 1.6805628935496013,
      "epoch": 0.5417044299799512,
      "grad_norm": 0.7456372976303101,
      "learning_rate": 1.7399805686875527e-05,
      "loss": 1.2353,
      "mean_token_accuracy": 0.6760278890530268,
      "num_tokens": 828160151.0,
      "step": 4931
    },
    {
      "entropy": 1.7248408893744152,
      "epoch": 0.541814286891324,
      "grad_norm": 0.69236159324646,
      "learning_rate": 1.7398679829558386e-05,
      "loss": 1.4688,
      "mean_token_accuracy": 0.6398780643939972,
      "num_tokens": 828331278.0,
      "step": 4932
    },
    {
      "entropy": 1.6821700930595398,
      "epoch": 0.5419241438026969,
      "grad_norm": 0.7130243182182312,
      "learning_rate": 1.739755376972591e-05,
      "loss": 1.4732,
      "mean_token_accuracy": 0.6641266047954559,
      "num_tokens": 828474991.0,
      "step": 4933
    },
    {
      "entropy": 1.6392736335595448,
      "epoch": 0.5420340007140699,
      "grad_norm": 0.7200448513031006,
      "learning_rate": 1.7396427507413737e-05,
      "loss": 1.3565,
      "mean_token_accuracy": 0.6657882034778595,
      "num_tokens": 828615538.0,
      "step": 4934
    },
    {
      "entropy": 1.6556443572044373,
      "epoch": 0.5421438576254428,
      "grad_norm": 0.7323468327522278,
      "learning_rate": 1.739530104265752e-05,
      "loss": 1.1859,
      "mean_token_accuracy": 0.6867117136716843,
      "num_tokens": 828766143.0,
      "step": 4935
    },
    {
      "entropy": 1.7083774209022522,
      "epoch": 0.5422537145368158,
      "grad_norm": 0.77711021900177,
      "learning_rate": 1.7394174375492906e-05,
      "loss": 1.2845,
      "mean_token_accuracy": 0.6667287697394689,
      "num_tokens": 828880028.0,
      "step": 4936
    },
    {
      "entropy": 1.6991042792797089,
      "epoch": 0.5423635714481887,
      "grad_norm": 0.694174587726593,
      "learning_rate": 1.739304750595555e-05,
      "loss": 1.2199,
      "mean_token_accuracy": 0.6751233587662379,
      "num_tokens": 828983386.0,
      "step": 4937
    },
    {
      "entropy": 1.7104702393213909,
      "epoch": 0.5424734283595617,
      "grad_norm": 0.6545060873031616,
      "learning_rate": 1.7391920434081126e-05,
      "loss": 1.4173,
      "mean_token_accuracy": 0.6476683566967646,
      "num_tokens": 829168137.0,
      "step": 4938
    },
    {
      "entropy": 1.693225493033727,
      "epoch": 0.5425832852709346,
      "grad_norm": 0.7685295939445496,
      "learning_rate": 1.73907931599053e-05,
      "loss": 1.2846,
      "mean_token_accuracy": 0.6751909504334132,
      "num_tokens": 829405939.0,
      "step": 4939
    },
    {
      "entropy": 1.7319706281026204,
      "epoch": 0.5426931421823076,
      "grad_norm": 0.8708465695381165,
      "learning_rate": 1.7389665683463748e-05,
      "loss": 1.558,
      "mean_token_accuracy": 0.6340043346087137,
      "num_tokens": 829636248.0,
      "step": 4940
    },
    {
      "entropy": 1.7094059487183888,
      "epoch": 0.5428029990936805,
      "grad_norm": 0.9573303461074829,
      "learning_rate": 1.738853800479216e-05,
      "loss": 1.4207,
      "mean_token_accuracy": 0.6643887509902319,
      "num_tokens": 829784445.0,
      "step": 4941
    },
    {
      "entropy": 1.748300055662791,
      "epoch": 0.5429128560050535,
      "grad_norm": 0.8324919939041138,
      "learning_rate": 1.738741012392622e-05,
      "loss": 1.3749,
      "mean_token_accuracy": 0.6539400120576223,
      "num_tokens": 829953714.0,
      "step": 4942
    },
    {
      "entropy": 1.699168602625529,
      "epoch": 0.5430227129164263,
      "grad_norm": 0.6905611157417297,
      "learning_rate": 1.7386282040901626e-05,
      "loss": 1.487,
      "mean_token_accuracy": 0.6424149125814438,
      "num_tokens": 830112166.0,
      "step": 4943
    },
    {
      "entropy": 1.683763285477956,
      "epoch": 0.5431325698277993,
      "grad_norm": 0.8066513538360596,
      "learning_rate": 1.7385153755754087e-05,
      "loss": 1.3186,
      "mean_token_accuracy": 0.6723660826683044,
      "num_tokens": 830229332.0,
      "step": 4944
    },
    {
      "entropy": 1.7084158559640248,
      "epoch": 0.5432424267391722,
      "grad_norm": 0.6088327765464783,
      "learning_rate": 1.7384025268519307e-05,
      "loss": 1.5253,
      "mean_token_accuracy": 0.62581634024779,
      "num_tokens": 830507166.0,
      "step": 4945
    },
    {
      "entropy": 1.7765875260035198,
      "epoch": 0.5433522836505452,
      "grad_norm": 0.8466908931732178,
      "learning_rate": 1.7382896579233003e-05,
      "loss": 1.5159,
      "mean_token_accuracy": 0.6420450657606125,
      "num_tokens": 830700696.0,
      "step": 4946
    },
    {
      "entropy": 1.7295196950435638,
      "epoch": 0.5434621405619181,
      "grad_norm": 0.7594314813613892,
      "learning_rate": 1.7381767687930903e-05,
      "loss": 1.3716,
      "mean_token_accuracy": 0.6728833566109339,
      "num_tokens": 830855018.0,
      "step": 4947
    },
    {
      "entropy": 1.6678162415822346,
      "epoch": 0.543571997473291,
      "grad_norm": 0.5881645083427429,
      "learning_rate": 1.7380638594648728e-05,
      "loss": 1.4235,
      "mean_token_accuracy": 0.6409558157126108,
      "num_tokens": 831035506.0,
      "step": 4948
    },
    {
      "entropy": 1.744312971830368,
      "epoch": 0.543681854384664,
      "grad_norm": 0.6560190916061401,
      "learning_rate": 1.7379509299422216e-05,
      "loss": 1.3315,
      "mean_token_accuracy": 0.6596087117989858,
      "num_tokens": 831167690.0,
      "step": 4949
    },
    {
      "entropy": 1.7742221355438232,
      "epoch": 0.5437917112960369,
      "grad_norm": 0.7557669281959534,
      "learning_rate": 1.7378379802287113e-05,
      "loss": 1.3269,
      "mean_token_accuracy": 0.6664220293362936,
      "num_tokens": 831302737.0,
      "step": 4950
    },
    {
      "entropy": 1.6314336359500885,
      "epoch": 0.5439015682074099,
      "grad_norm": 2.5049948692321777,
      "learning_rate": 1.737725010327916e-05,
      "loss": 1.4156,
      "mean_token_accuracy": 0.6630344639221827,
      "num_tokens": 831506832.0,
      "step": 4951
    },
    {
      "entropy": 1.6986377537250519,
      "epoch": 0.5440114251187828,
      "grad_norm": 0.6551359295845032,
      "learning_rate": 1.737612020243411e-05,
      "loss": 1.3055,
      "mean_token_accuracy": 0.659782146414121,
      "num_tokens": 831643698.0,
      "step": 4952
    },
    {
      "entropy": 1.6850547790527344,
      "epoch": 0.5441212820301558,
      "grad_norm": 0.6227862238883972,
      "learning_rate": 1.7374990099787737e-05,
      "loss": 1.3241,
      "mean_token_accuracy": 0.6679957658052444,
      "num_tokens": 831809561.0,
      "step": 4953
    },
    {
      "entropy": 1.7365097105503082,
      "epoch": 0.5442311389415286,
      "grad_norm": 0.7013810873031616,
      "learning_rate": 1.7373859795375797e-05,
      "loss": 1.5199,
      "mean_token_accuracy": 0.6493206669886907,
      "num_tokens": 831954609.0,
      "step": 4954
    },
    {
      "entropy": 1.6703599095344543,
      "epoch": 0.5443409958529016,
      "grad_norm": 0.782053530216217,
      "learning_rate": 1.7372729289234064e-05,
      "loss": 1.2796,
      "mean_token_accuracy": 0.6680347323417664,
      "num_tokens": 832063290.0,
      "step": 4955
    },
    {
      "entropy": 1.7207246720790863,
      "epoch": 0.5444508527642745,
      "grad_norm": 0.5964549779891968,
      "learning_rate": 1.7371598581398325e-05,
      "loss": 1.3947,
      "mean_token_accuracy": 0.6506600578625997,
      "num_tokens": 832266378.0,
      "step": 4956
    },
    {
      "entropy": 1.690430869658788,
      "epoch": 0.5445607096756475,
      "grad_norm": 0.690424382686615,
      "learning_rate": 1.737046767190436e-05,
      "loss": 1.3475,
      "mean_token_accuracy": 0.6578344404697418,
      "num_tokens": 832434529.0,
      "step": 4957
    },
    {
      "entropy": 1.7267669141292572,
      "epoch": 0.5446705665870204,
      "grad_norm": 0.7527792453765869,
      "learning_rate": 1.7369336560787966e-05,
      "loss": 1.3702,
      "mean_token_accuracy": 0.6688602467377981,
      "num_tokens": 832555033.0,
      "step": 4958
    },
    {
      "entropy": 1.6294583181540172,
      "epoch": 0.5447804234983934,
      "grad_norm": 0.8316755890846252,
      "learning_rate": 1.736820524808494e-05,
      "loss": 1.3852,
      "mean_token_accuracy": 0.6587762931982676,
      "num_tokens": 832758932.0,
      "step": 4959
    },
    {
      "entropy": 1.7353256543477376,
      "epoch": 0.5448902804097663,
      "grad_norm": 0.6854872107505798,
      "learning_rate": 1.7367073733831085e-05,
      "loss": 1.4275,
      "mean_token_accuracy": 0.6549768050511678,
      "num_tokens": 832967800.0,
      "step": 4960
    },
    {
      "entropy": 1.666805108388265,
      "epoch": 0.5450001373211392,
      "grad_norm": 0.6198726892471313,
      "learning_rate": 1.7365942018062216e-05,
      "loss": 1.567,
      "mean_token_accuracy": 0.6273992757002512,
      "num_tokens": 833157652.0,
      "step": 4961
    },
    {
      "entropy": 1.7501900096734364,
      "epoch": 0.5451099942325122,
      "grad_norm": 0.701242208480835,
      "learning_rate": 1.736481010081415e-05,
      "loss": 1.3403,
      "mean_token_accuracy": 0.6606934070587158,
      "num_tokens": 833284661.0,
      "step": 4962
    },
    {
      "entropy": 1.7042124271392822,
      "epoch": 0.545219851143885,
      "grad_norm": 0.7061309814453125,
      "learning_rate": 1.7363677982122713e-05,
      "loss": 1.4459,
      "mean_token_accuracy": 0.6599131673574448,
      "num_tokens": 833426934.0,
      "step": 4963
    },
    {
      "entropy": 1.670636922121048,
      "epoch": 0.545329708055258,
      "grad_norm": 0.6328370571136475,
      "learning_rate": 1.7362545662023735e-05,
      "loss": 1.3507,
      "mean_token_accuracy": 0.6591466615597407,
      "num_tokens": 833573679.0,
      "step": 4964
    },
    {
      "entropy": 1.6602637072404225,
      "epoch": 0.5454395649666309,
      "grad_norm": 0.6920685172080994,
      "learning_rate": 1.7361413140553058e-05,
      "loss": 1.2574,
      "mean_token_accuracy": 0.6768335302670797,
      "num_tokens": 833695555.0,
      "step": 4965
    },
    {
      "entropy": 1.740365246931712,
      "epoch": 0.5455494218780039,
      "grad_norm": 0.7330303192138672,
      "learning_rate": 1.7360280417746515e-05,
      "loss": 1.3766,
      "mean_token_accuracy": 0.6667214135328928,
      "num_tokens": 833814908.0,
      "step": 4966
    },
    {
      "entropy": 1.6844541629155476,
      "epoch": 0.5456592787893768,
      "grad_norm": 0.6612024307250977,
      "learning_rate": 1.7359147493639966e-05,
      "loss": 1.3186,
      "mean_token_accuracy": 0.662054200967153,
      "num_tokens": 833944687.0,
      "step": 4967
    },
    {
      "entropy": 1.706677258014679,
      "epoch": 0.5457691357007498,
      "grad_norm": 0.7018133401870728,
      "learning_rate": 1.7358014368269265e-05,
      "loss": 1.4785,
      "mean_token_accuracy": 0.6449083437522253,
      "num_tokens": 834118400.0,
      "step": 4968
    },
    {
      "entropy": 1.6965554157892864,
      "epoch": 0.5458789926121227,
      "grad_norm": 0.6533994078636169,
      "learning_rate": 1.735688104167027e-05,
      "loss": 1.4246,
      "mean_token_accuracy": 0.648577556014061,
      "num_tokens": 834269641.0,
      "step": 4969
    },
    {
      "entropy": 1.6984079976876576,
      "epoch": 0.5459888495234957,
      "grad_norm": 0.8152681589126587,
      "learning_rate": 1.735574751387886e-05,
      "loss": 1.2825,
      "mean_token_accuracy": 0.6712081631024679,
      "num_tokens": 834417936.0,
      "step": 4970
    },
    {
      "entropy": 1.630674570798874,
      "epoch": 0.5460987064348686,
      "grad_norm": 0.6994221806526184,
      "learning_rate": 1.7354613784930904e-05,
      "loss": 1.4286,
      "mean_token_accuracy": 0.6537977854410807,
      "num_tokens": 834607646.0,
      "step": 4971
    },
    {
      "entropy": 1.7504248122374217,
      "epoch": 0.5462085633462416,
      "grad_norm": 0.8393651247024536,
      "learning_rate": 1.7353479854862285e-05,
      "loss": 1.4681,
      "mean_token_accuracy": 0.6475894500811895,
      "num_tokens": 834760505.0,
      "step": 4972
    },
    {
      "entropy": 1.6946745415528615,
      "epoch": 0.5463184202576145,
      "grad_norm": 0.6594904661178589,
      "learning_rate": 1.735234572370889e-05,
      "loss": 1.4675,
      "mean_token_accuracy": 0.6494403878847758,
      "num_tokens": 834951630.0,
      "step": 4973
    },
    {
      "entropy": 1.677021066347758,
      "epoch": 0.5464282771689873,
      "grad_norm": 0.6898400187492371,
      "learning_rate": 1.735121139150662e-05,
      "loss": 1.4039,
      "mean_token_accuracy": 0.6618401060501734,
      "num_tokens": 835132695.0,
      "step": 4974
    },
    {
      "entropy": 1.6862121025721233,
      "epoch": 0.5465381340803603,
      "grad_norm": 0.7192554473876953,
      "learning_rate": 1.7350076858291363e-05,
      "loss": 1.452,
      "mean_token_accuracy": 0.6425764660040537,
      "num_tokens": 835332699.0,
      "step": 4975
    },
    {
      "entropy": 1.7146854003270466,
      "epoch": 0.5466479909917332,
      "grad_norm": 0.6000041365623474,
      "learning_rate": 1.734894212409904e-05,
      "loss": 1.38,
      "mean_token_accuracy": 0.6442343592643738,
      "num_tokens": 835491957.0,
      "step": 4976
    },
    {
      "entropy": 1.7366932928562164,
      "epoch": 0.5467578479031062,
      "grad_norm": 1.8402376174926758,
      "learning_rate": 1.734780718896556e-05,
      "loss": 1.1827,
      "mean_token_accuracy": 0.6654492169618607,
      "num_tokens": 835675120.0,
      "step": 4977
    },
    {
      "entropy": 1.7179711163043976,
      "epoch": 0.5468677048144791,
      "grad_norm": 0.7776644825935364,
      "learning_rate": 1.7346672052926838e-05,
      "loss": 1.3917,
      "mean_token_accuracy": 0.6652675569057465,
      "num_tokens": 835855578.0,
      "step": 4978
    },
    {
      "entropy": 1.7254438002904255,
      "epoch": 0.5469775617258521,
      "grad_norm": 0.7210192084312439,
      "learning_rate": 1.734553671601881e-05,
      "loss": 1.4128,
      "mean_token_accuracy": 0.6519081691900889,
      "num_tokens": 836044866.0,
      "step": 4979
    },
    {
      "entropy": 1.7057076493899028,
      "epoch": 0.547087418637225,
      "grad_norm": 0.7255688309669495,
      "learning_rate": 1.7344401178277405e-05,
      "loss": 1.3313,
      "mean_token_accuracy": 0.6629131535689036,
      "num_tokens": 836172342.0,
      "step": 4980
    },
    {
      "entropy": 1.764757553736369,
      "epoch": 0.547197275548598,
      "grad_norm": 0.9099174737930298,
      "learning_rate": 1.734326543973856e-05,
      "loss": 1.556,
      "mean_token_accuracy": 0.6452460636695226,
      "num_tokens": 836337102.0,
      "step": 4981
    },
    {
      "entropy": 1.7524670163790386,
      "epoch": 0.5473071324599709,
      "grad_norm": 0.8093464374542236,
      "learning_rate": 1.734212950043822e-05,
      "loss": 1.4775,
      "mean_token_accuracy": 0.6518103977044424,
      "num_tokens": 836471055.0,
      "step": 4982
    },
    {
      "entropy": 1.7805779079596202,
      "epoch": 0.5474169893713439,
      "grad_norm": 0.7849537134170532,
      "learning_rate": 1.7340993360412343e-05,
      "loss": 1.4111,
      "mean_token_accuracy": 0.6559980014959971,
      "num_tokens": 836607555.0,
      "step": 4983
    },
    {
      "entropy": 1.7531798581282299,
      "epoch": 0.5475268462827168,
      "grad_norm": 0.7503484487533569,
      "learning_rate": 1.733985701969688e-05,
      "loss": 1.5242,
      "mean_token_accuracy": 0.64345849553744,
      "num_tokens": 836777172.0,
      "step": 4984
    },
    {
      "entropy": 1.6708122690518696,
      "epoch": 0.5476367031940897,
      "grad_norm": 0.7763621807098389,
      "learning_rate": 1.73387204783278e-05,
      "loss": 1.3054,
      "mean_token_accuracy": 0.6630136370658875,
      "num_tokens": 836904265.0,
      "step": 4985
    },
    {
      "entropy": 1.6611828605333965,
      "epoch": 0.5477465601054626,
      "grad_norm": 0.7332755327224731,
      "learning_rate": 1.7337583736341077e-05,
      "loss": 1.4492,
      "mean_token_accuracy": 0.6425531009833018,
      "num_tokens": 837153610.0,
      "step": 4986
    },
    {
      "entropy": 1.6737177173296611,
      "epoch": 0.5478564170168355,
      "grad_norm": 0.7409669756889343,
      "learning_rate": 1.7336446793772682e-05,
      "loss": 1.3822,
      "mean_token_accuracy": 0.6608980546394984,
      "num_tokens": 837313064.0,
      "step": 4987
    },
    {
      "entropy": 1.687143345673879,
      "epoch": 0.5479662739282085,
      "grad_norm": 0.8636589646339417,
      "learning_rate": 1.73353096506586e-05,
      "loss": 1.2404,
      "mean_token_accuracy": 0.6764566948016485,
      "num_tokens": 837451066.0,
      "step": 4988
    },
    {
      "entropy": 1.649695744117101,
      "epoch": 0.5480761308395814,
      "grad_norm": 0.7815621495246887,
      "learning_rate": 1.733417230703482e-05,
      "loss": 1.3502,
      "mean_token_accuracy": 0.658309539159139,
      "num_tokens": 837614506.0,
      "step": 4989
    },
    {
      "entropy": 1.7112309634685516,
      "epoch": 0.5481859877509544,
      "grad_norm": 0.6810916066169739,
      "learning_rate": 1.7333034762937346e-05,
      "loss": 1.31,
      "mean_token_accuracy": 0.6706115355094274,
      "num_tokens": 837773388.0,
      "step": 4990
    },
    {
      "entropy": 1.719188928604126,
      "epoch": 0.5482958446623273,
      "grad_norm": 0.6780290007591248,
      "learning_rate": 1.7331897018402175e-05,
      "loss": 1.3669,
      "mean_token_accuracy": 0.6579122791687647,
      "num_tokens": 837943358.0,
      "step": 4991
    },
    {
      "entropy": 1.731730043888092,
      "epoch": 0.5484057015737003,
      "grad_norm": 0.6477614045143127,
      "learning_rate": 1.7330759073465317e-05,
      "loss": 1.4375,
      "mean_token_accuracy": 0.6566148449977239,
      "num_tokens": 838148527.0,
      "step": 4992
    },
    {
      "entropy": 1.7366572121779125,
      "epoch": 0.5485155584850732,
      "grad_norm": 0.7073691487312317,
      "learning_rate": 1.7329620928162785e-05,
      "loss": 1.4436,
      "mean_token_accuracy": 0.6603938837846121,
      "num_tokens": 838351432.0,
      "step": 4993
    },
    {
      "entropy": 1.710929661989212,
      "epoch": 0.5486254153964462,
      "grad_norm": 0.6895067691802979,
      "learning_rate": 1.7328482582530598e-05,
      "loss": 1.3865,
      "mean_token_accuracy": 0.660644123951594,
      "num_tokens": 838525802.0,
      "step": 4994
    },
    {
      "entropy": 1.7042444845040639,
      "epoch": 0.548735272307819,
      "grad_norm": 0.767922580242157,
      "learning_rate": 1.7327344036604796e-05,
      "loss": 1.3309,
      "mean_token_accuracy": 0.6714604794979095,
      "num_tokens": 838674351.0,
      "step": 4995
    },
    {
      "entropy": 1.6385613679885864,
      "epoch": 0.548845129219192,
      "grad_norm": 0.7014147639274597,
      "learning_rate": 1.7326205290421405e-05,
      "loss": 1.315,
      "mean_token_accuracy": 0.6713072061538696,
      "num_tokens": 838818241.0,
      "step": 4996
    },
    {
      "entropy": 1.731259047985077,
      "epoch": 0.5489549861305649,
      "grad_norm": 0.7416298389434814,
      "learning_rate": 1.7325066344016467e-05,
      "loss": 1.3877,
      "mean_token_accuracy": 0.6583247681458791,
      "num_tokens": 838993948.0,
      "step": 4997
    },
    {
      "entropy": 1.6808960835138957,
      "epoch": 0.5490648430419379,
      "grad_norm": 0.6791642308235168,
      "learning_rate": 1.732392719742603e-05,
      "loss": 1.425,
      "mean_token_accuracy": 0.6509095182021459,
      "num_tokens": 839149363.0,
      "step": 4998
    },
    {
      "entropy": 1.6175450483957927,
      "epoch": 0.5491746999533108,
      "grad_norm": 0.653907060623169,
      "learning_rate": 1.7322787850686143e-05,
      "loss": 1.3148,
      "mean_token_accuracy": 0.6778159439563751,
      "num_tokens": 839305980.0,
      "step": 4999
    },
    {
      "entropy": 1.6603448390960693,
      "epoch": 0.5492845568646838,
      "grad_norm": 0.6586391925811768,
      "learning_rate": 1.732164830383287e-05,
      "loss": 1.576,
      "mean_token_accuracy": 0.6371851215759913,
      "num_tokens": 839486072.0,
      "step": 5000
    },
    {
      "entropy": 1.6676330765088399,
      "epoch": 0.5493944137760567,
      "grad_norm": 0.7712739109992981,
      "learning_rate": 1.732050855690228e-05,
      "loss": 1.4334,
      "mean_token_accuracy": 0.654510036110878,
      "num_tokens": 839662761.0,
      "step": 5001
    },
    {
      "entropy": 1.78163543343544,
      "epoch": 0.5495042706874296,
      "grad_norm": 4.66588020324707,
      "learning_rate": 1.7319368609930442e-05,
      "loss": 1.4213,
      "mean_token_accuracy": 0.654133602976799,
      "num_tokens": 839814998.0,
      "step": 5002
    },
    {
      "entropy": 1.672917405764262,
      "epoch": 0.5496141275988026,
      "grad_norm": 0.6977851390838623,
      "learning_rate": 1.7318228462953436e-05,
      "loss": 1.3021,
      "mean_token_accuracy": 0.6800949474175771,
      "num_tokens": 839946153.0,
      "step": 5003
    },
    {
      "entropy": 1.7138892312844594,
      "epoch": 0.5497239845101755,
      "grad_norm": 0.6364522576332092,
      "learning_rate": 1.7317088116007347e-05,
      "loss": 1.2984,
      "mean_token_accuracy": 0.6754194498062134,
      "num_tokens": 840104761.0,
      "step": 5004
    },
    {
      "entropy": 1.7337297697861989,
      "epoch": 0.5498338414215485,
      "grad_norm": 0.6527485251426697,
      "learning_rate": 1.731594756912826e-05,
      "loss": 1.4891,
      "mean_token_accuracy": 0.6498339672883352,
      "num_tokens": 840271652.0,
      "step": 5005
    },
    {
      "entropy": 1.698456237713496,
      "epoch": 0.5499436983329213,
      "grad_norm": 0.7499955892562866,
      "learning_rate": 1.7314806822352283e-05,
      "loss": 1.2699,
      "mean_token_accuracy": 0.6654329647620519,
      "num_tokens": 840397079.0,
      "step": 5006
    },
    {
      "entropy": 1.6331544518470764,
      "epoch": 0.5500535552442943,
      "grad_norm": 0.6753321290016174,
      "learning_rate": 1.7313665875715513e-05,
      "loss": 1.2348,
      "mean_token_accuracy": 0.6808192729949951,
      "num_tokens": 840503621.0,
      "step": 5007
    },
    {
      "entropy": 1.7092650135358174,
      "epoch": 0.5501634121556672,
      "grad_norm": 0.7636615037918091,
      "learning_rate": 1.7312524729254066e-05,
      "loss": 1.5449,
      "mean_token_accuracy": 0.6385166347026825,
      "num_tokens": 840684309.0,
      "step": 5008
    },
    {
      "entropy": 1.702101041873296,
      "epoch": 0.5502732690670402,
      "grad_norm": 0.7472963333129883,
      "learning_rate": 1.7311383383004052e-05,
      "loss": 1.4984,
      "mean_token_accuracy": 0.6420136094093323,
      "num_tokens": 840943695.0,
      "step": 5009
    },
    {
      "entropy": 1.710230439901352,
      "epoch": 0.5503831259784131,
      "grad_norm": 0.7253463864326477,
      "learning_rate": 1.73102418370016e-05,
      "loss": 1.4516,
      "mean_token_accuracy": 0.6447204500436783,
      "num_tokens": 841164320.0,
      "step": 5010
    },
    {
      "entropy": 1.7154650886853535,
      "epoch": 0.5504929828897861,
      "grad_norm": 2.171661376953125,
      "learning_rate": 1.7309100091282837e-05,
      "loss": 1.4222,
      "mean_token_accuracy": 0.6575359304745992,
      "num_tokens": 841288359.0,
      "step": 5011
    },
    {
      "entropy": 1.7397755086421967,
      "epoch": 0.550602839801159,
      "grad_norm": 0.7591625452041626,
      "learning_rate": 1.7307958145883898e-05,
      "loss": 1.402,
      "mean_token_accuracy": 0.65840412179629,
      "num_tokens": 841437589.0,
      "step": 5012
    },
    {
      "entropy": 1.6358317236105602,
      "epoch": 0.550712696712532,
      "grad_norm": 0.617072582244873,
      "learning_rate": 1.730681600084093e-05,
      "loss": 1.3611,
      "mean_token_accuracy": 0.6660978297392527,
      "num_tokens": 841609979.0,
      "step": 5013
    },
    {
      "entropy": 1.6907884379227955,
      "epoch": 0.5508225536239049,
      "grad_norm": 0.6868788599967957,
      "learning_rate": 1.7305673656190074e-05,
      "loss": 1.4394,
      "mean_token_accuracy": 0.6435293157895406,
      "num_tokens": 841771066.0,
      "step": 5014
    },
    {
      "entropy": 1.7315944532553356,
      "epoch": 0.5509324105352778,
      "grad_norm": 0.6620607376098633,
      "learning_rate": 1.730453111196749e-05,
      "loss": 1.4044,
      "mean_token_accuracy": 0.6534575472275416,
      "num_tokens": 841932098.0,
      "step": 5015
    },
    {
      "entropy": 1.6816769540309906,
      "epoch": 0.5510422674466507,
      "grad_norm": 0.8678973913192749,
      "learning_rate": 1.7303388368209337e-05,
      "loss": 1.2427,
      "mean_token_accuracy": 0.6835728486378988,
      "num_tokens": 842056049.0,
      "step": 5016
    },
    {
      "entropy": 1.6632795631885529,
      "epoch": 0.5511521243580236,
      "grad_norm": 0.6091153025627136,
      "learning_rate": 1.7302245424951783e-05,
      "loss": 1.4623,
      "mean_token_accuracy": 0.6500665346781412,
      "num_tokens": 842275188.0,
      "step": 5017
    },
    {
      "entropy": 1.6769650379816692,
      "epoch": 0.5512619812693966,
      "grad_norm": 0.5689995288848877,
      "learning_rate": 1.7301102282231e-05,
      "loss": 1.4242,
      "mean_token_accuracy": 0.649879202246666,
      "num_tokens": 842487986.0,
      "step": 5018
    },
    {
      "entropy": 1.8732970456282299,
      "epoch": 0.5513718381807695,
      "grad_norm": 0.833006739616394,
      "learning_rate": 1.7299958940083168e-05,
      "loss": 1.5442,
      "mean_token_accuracy": 0.6393305758635203,
      "num_tokens": 842638311.0,
      "step": 5019
    },
    {
      "entropy": 1.7400578459103901,
      "epoch": 0.5514816950921425,
      "grad_norm": 0.6837904453277588,
      "learning_rate": 1.7298815398544474e-05,
      "loss": 1.3732,
      "mean_token_accuracy": 0.6732922891775767,
      "num_tokens": 842788496.0,
      "step": 5020
    },
    {
      "entropy": 1.735822359720866,
      "epoch": 0.5515915520035154,
      "grad_norm": 0.6274124979972839,
      "learning_rate": 1.729767165765111e-05,
      "loss": 1.3365,
      "mean_token_accuracy": 0.673115094502767,
      "num_tokens": 842980742.0,
      "step": 5021
    },
    {
      "entropy": 1.7332566777865093,
      "epoch": 0.5517014089148884,
      "grad_norm": 0.6682114601135254,
      "learning_rate": 1.7296527717439285e-05,
      "loss": 1.3757,
      "mean_token_accuracy": 0.6619204978148142,
      "num_tokens": 843135183.0,
      "step": 5022
    },
    {
      "entropy": 1.6546105941136677,
      "epoch": 0.5518112658262613,
      "grad_norm": 0.64713054895401,
      "learning_rate": 1.7295383577945183e-05,
      "loss": 1.4332,
      "mean_token_accuracy": 0.6506260534127554,
      "num_tokens": 843357807.0,
      "step": 5023
    },
    {
      "entropy": 1.6766623953978221,
      "epoch": 0.5519211227376343,
      "grad_norm": 0.6391339898109436,
      "learning_rate": 1.7294239239205036e-05,
      "loss": 1.4106,
      "mean_token_accuracy": 0.6604893952608109,
      "num_tokens": 843511591.0,
      "step": 5024
    },
    {
      "entropy": 1.7070300082365673,
      "epoch": 0.5520309796490072,
      "grad_norm": 0.6645405888557434,
      "learning_rate": 1.7293094701255052e-05,
      "loss": 1.4886,
      "mean_token_accuracy": 0.6455263296763102,
      "num_tokens": 843686858.0,
      "step": 5025
    },
    {
      "entropy": 1.7414699892203014,
      "epoch": 0.5521408365603802,
      "grad_norm": 0.7096126079559326,
      "learning_rate": 1.7291949964131454e-05,
      "loss": 1.5641,
      "mean_token_accuracy": 0.6493834306796392,
      "num_tokens": 843852202.0,
      "step": 5026
    },
    {
      "entropy": 1.7158599992593129,
      "epoch": 0.552250693471753,
      "grad_norm": 0.5695939660072327,
      "learning_rate": 1.7290805027870475e-05,
      "loss": 1.4462,
      "mean_token_accuracy": 0.6488019227981567,
      "num_tokens": 844059832.0,
      "step": 5027
    },
    {
      "entropy": 1.6897384027640026,
      "epoch": 0.5523605503831259,
      "grad_norm": 0.6646971702575684,
      "learning_rate": 1.7289659892508353e-05,
      "loss": 1.4142,
      "mean_token_accuracy": 0.6486612806717554,
      "num_tokens": 844275183.0,
      "step": 5028
    },
    {
      "entropy": 1.7032889624436696,
      "epoch": 0.5524704072944989,
      "grad_norm": 0.7060292959213257,
      "learning_rate": 1.728851455808133e-05,
      "loss": 1.2169,
      "mean_token_accuracy": 0.6796109775702158,
      "num_tokens": 844383058.0,
      "step": 5029
    },
    {
      "entropy": 1.7134819130102794,
      "epoch": 0.5525802642058718,
      "grad_norm": 0.7380111217498779,
      "learning_rate": 1.7287369024625652e-05,
      "loss": 1.5068,
      "mean_token_accuracy": 0.6495644648869833,
      "num_tokens": 844531120.0,
      "step": 5030
    },
    {
      "entropy": 1.6543967723846436,
      "epoch": 0.5526901211172448,
      "grad_norm": 0.6035121083259583,
      "learning_rate": 1.728622329217758e-05,
      "loss": 1.4167,
      "mean_token_accuracy": 0.6516775141159693,
      "num_tokens": 844707979.0,
      "step": 5031
    },
    {
      "entropy": 1.7068756620089214,
      "epoch": 0.5527999780286177,
      "grad_norm": 0.8700978755950928,
      "learning_rate": 1.7285077360773374e-05,
      "loss": 1.3426,
      "mean_token_accuracy": 0.6678166339794794,
      "num_tokens": 844852167.0,
      "step": 5032
    },
    {
      "entropy": 1.7389213939507802,
      "epoch": 0.5529098349399907,
      "grad_norm": 0.6411224603652954,
      "learning_rate": 1.7283931230449297e-05,
      "loss": 1.4793,
      "mean_token_accuracy": 0.6375206708908081,
      "num_tokens": 845043801.0,
      "step": 5033
    },
    {
      "entropy": 1.657431811094284,
      "epoch": 0.5530196918513636,
      "grad_norm": 0.6940959692001343,
      "learning_rate": 1.7282784901241632e-05,
      "loss": 1.2937,
      "mean_token_accuracy": 0.6709872682889303,
      "num_tokens": 845167525.0,
      "step": 5034
    },
    {
      "entropy": 1.7134600778420765,
      "epoch": 0.5531295487627366,
      "grad_norm": 0.7191624641418457,
      "learning_rate": 1.7281638373186655e-05,
      "loss": 1.4491,
      "mean_token_accuracy": 0.6502556055784225,
      "num_tokens": 845367554.0,
      "step": 5035
    },
    {
      "entropy": 1.6771671672662098,
      "epoch": 0.5532394056741095,
      "grad_norm": 0.6489148139953613,
      "learning_rate": 1.7280491646320654e-05,
      "loss": 1.3884,
      "mean_token_accuracy": 0.6516650716463724,
      "num_tokens": 845533357.0,
      "step": 5036
    },
    {
      "entropy": 1.716915915409724,
      "epoch": 0.5533492625854824,
      "grad_norm": 0.688566267490387,
      "learning_rate": 1.7279344720679924e-05,
      "loss": 1.4762,
      "mean_token_accuracy": 0.6542300681273142,
      "num_tokens": 845713492.0,
      "step": 5037
    },
    {
      "entropy": 1.6464048027992249,
      "epoch": 0.5534591194968553,
      "grad_norm": 0.6653256416320801,
      "learning_rate": 1.727819759630076e-05,
      "loss": 1.4109,
      "mean_token_accuracy": 0.662084236741066,
      "num_tokens": 845908415.0,
      "step": 5038
    },
    {
      "entropy": 1.663993815581004,
      "epoch": 0.5535689764082283,
      "grad_norm": 0.651810884475708,
      "learning_rate": 1.7277050273219477e-05,
      "loss": 1.4258,
      "mean_token_accuracy": 0.6560534288485845,
      "num_tokens": 846110806.0,
      "step": 5039
    },
    {
      "entropy": 1.7180224458376567,
      "epoch": 0.5536788333196012,
      "grad_norm": 0.6927412748336792,
      "learning_rate": 1.7275902751472375e-05,
      "loss": 1.34,
      "mean_token_accuracy": 0.6658701201279958,
      "num_tokens": 846291645.0,
      "step": 5040
    },
    {
      "entropy": 1.7129448254903157,
      "epoch": 0.5537886902309741,
      "grad_norm": 0.8613117337226868,
      "learning_rate": 1.7274755031095782e-05,
      "loss": 1.5887,
      "mean_token_accuracy": 0.6217222909132639,
      "num_tokens": 846451007.0,
      "step": 5041
    },
    {
      "entropy": 1.7207149465878804,
      "epoch": 0.5538985471423471,
      "grad_norm": 0.7448726892471313,
      "learning_rate": 1.727360711212602e-05,
      "loss": 1.3178,
      "mean_token_accuracy": 0.6566254794597626,
      "num_tokens": 846581772.0,
      "step": 5042
    },
    {
      "entropy": 1.67302605509758,
      "epoch": 0.55400840405372,
      "grad_norm": 0.7350447177886963,
      "learning_rate": 1.727245899459942e-05,
      "loss": 1.5016,
      "mean_token_accuracy": 0.6568493197361628,
      "num_tokens": 846760830.0,
      "step": 5043
    },
    {
      "entropy": 1.675746778647105,
      "epoch": 0.554118260965093,
      "grad_norm": 0.799920916557312,
      "learning_rate": 1.7271310678552316e-05,
      "loss": 1.3671,
      "mean_token_accuracy": 0.661032055815061,
      "num_tokens": 846907065.0,
      "step": 5044
    },
    {
      "entropy": 1.7543572783470154,
      "epoch": 0.5542281178764659,
      "grad_norm": 0.7802977561950684,
      "learning_rate": 1.7270162164021058e-05,
      "loss": 1.3284,
      "mean_token_accuracy": 0.6583187431097031,
      "num_tokens": 847073867.0,
      "step": 5045
    },
    {
      "entropy": 1.6700835426648457,
      "epoch": 0.5543379747878389,
      "grad_norm": 0.6491420269012451,
      "learning_rate": 1.726901345104199e-05,
      "loss": 1.4677,
      "mean_token_accuracy": 0.6603880474964777,
      "num_tokens": 847231745.0,
      "step": 5046
    },
    {
      "entropy": 1.7336505154768627,
      "epoch": 0.5544478316992117,
      "grad_norm": 0.6150977611541748,
      "learning_rate": 1.7267864539651476e-05,
      "loss": 1.4324,
      "mean_token_accuracy": 0.6436419288317362,
      "num_tokens": 847459685.0,
      "step": 5047
    },
    {
      "entropy": 1.6739269097646077,
      "epoch": 0.5545576886105847,
      "grad_norm": 0.6661935448646545,
      "learning_rate": 1.726671542988587e-05,
      "loss": 1.3945,
      "mean_token_accuracy": 0.6670573254426321,
      "num_tokens": 847611418.0,
      "step": 5048
    },
    {
      "entropy": 1.6247097651163738,
      "epoch": 0.5546675455219576,
      "grad_norm": 0.6128849983215332,
      "learning_rate": 1.7265566121781545e-05,
      "loss": 1.3081,
      "mean_token_accuracy": 0.6608265737692515,
      "num_tokens": 847802471.0,
      "step": 5049
    },
    {
      "entropy": 1.7174389859040577,
      "epoch": 0.5547774024333306,
      "grad_norm": 0.7090808153152466,
      "learning_rate": 1.7264416615374875e-05,
      "loss": 1.4592,
      "mean_token_accuracy": 0.640943189462026,
      "num_tokens": 847976449.0,
      "step": 5050
    },
    {
      "entropy": 1.7501269181569417,
      "epoch": 0.5548872593447035,
      "grad_norm": 0.7363408207893372,
      "learning_rate": 1.7263266910702247e-05,
      "loss": 1.3542,
      "mean_token_accuracy": 0.6537466496229172,
      "num_tokens": 848079456.0,
      "step": 5051
    },
    {
      "entropy": 1.6778157651424408,
      "epoch": 0.5549971162560765,
      "grad_norm": 0.600395917892456,
      "learning_rate": 1.7262117007800033e-05,
      "loss": 1.4896,
      "mean_token_accuracy": 0.6465341796477636,
      "num_tokens": 848310668.0,
      "step": 5052
    },
    {
      "entropy": 1.7230773468812306,
      "epoch": 0.5551069731674494,
      "grad_norm": 0.6006616950035095,
      "learning_rate": 1.726096690670465e-05,
      "loss": 1.3888,
      "mean_token_accuracy": 0.6528857400019964,
      "num_tokens": 848468063.0,
      "step": 5053
    },
    {
      "entropy": 1.7066966394583385,
      "epoch": 0.5552168300788224,
      "grad_norm": 0.69357830286026,
      "learning_rate": 1.7259816607452477e-05,
      "loss": 1.3105,
      "mean_token_accuracy": 0.6618163386980692,
      "num_tokens": 848617851.0,
      "step": 5054
    },
    {
      "entropy": 1.754871626694997,
      "epoch": 0.5553266869901953,
      "grad_norm": 0.7361278533935547,
      "learning_rate": 1.7258666110079933e-05,
      "loss": 1.4104,
      "mean_token_accuracy": 0.6681383550167084,
      "num_tokens": 848741009.0,
      "step": 5055
    },
    {
      "entropy": 1.7040483752886455,
      "epoch": 0.5554365439015682,
      "grad_norm": 0.6013309359550476,
      "learning_rate": 1.7257515414623427e-05,
      "loss": 1.3651,
      "mean_token_accuracy": 0.6659112522999445,
      "num_tokens": 848888733.0,
      "step": 5056
    },
    {
      "entropy": 1.6922965149084728,
      "epoch": 0.5555464008129412,
      "grad_norm": 0.7231853008270264,
      "learning_rate": 1.7256364521119377e-05,
      "loss": 1.4536,
      "mean_token_accuracy": 0.6473261117935181,
      "num_tokens": 849101982.0,
      "step": 5057
    },
    {
      "entropy": 1.6854231754938762,
      "epoch": 0.555656257724314,
      "grad_norm": 0.6253160238265991,
      "learning_rate": 1.7255213429604204e-05,
      "loss": 1.3522,
      "mean_token_accuracy": 0.6646686444679896,
      "num_tokens": 849240891.0,
      "step": 5058
    },
    {
      "entropy": 1.675849974155426,
      "epoch": 0.555766114635687,
      "grad_norm": 0.7990770936012268,
      "learning_rate": 1.725406214011435e-05,
      "loss": 1.3278,
      "mean_token_accuracy": 0.6695520381132761,
      "num_tokens": 849394620.0,
      "step": 5059
    },
    {
      "entropy": 1.7733904123306274,
      "epoch": 0.5558759715470599,
      "grad_norm": 0.6922385096549988,
      "learning_rate": 1.7252910652686248e-05,
      "loss": 1.459,
      "mean_token_accuracy": 0.6450273891290029,
      "num_tokens": 849547571.0,
      "step": 5060
    },
    {
      "entropy": 1.7009385426839192,
      "epoch": 0.5559858284584329,
      "grad_norm": 0.7180578112602234,
      "learning_rate": 1.725175896735634e-05,
      "loss": 1.4134,
      "mean_token_accuracy": 0.6490115920702616,
      "num_tokens": 849694441.0,
      "step": 5061
    },
    {
      "entropy": 1.6811227997144063,
      "epoch": 0.5560956853698058,
      "grad_norm": 0.8859359622001648,
      "learning_rate": 1.7250607084161078e-05,
      "loss": 1.467,
      "mean_token_accuracy": 0.636049841841062,
      "num_tokens": 849891733.0,
      "step": 5062
    },
    {
      "entropy": 1.700390100479126,
      "epoch": 0.5562055422811788,
      "grad_norm": 0.6678200364112854,
      "learning_rate": 1.724945500313692e-05,
      "loss": 1.3254,
      "mean_token_accuracy": 0.6696620285511017,
      "num_tokens": 850015651.0,
      "step": 5063
    },
    {
      "entropy": 1.6472013394037883,
      "epoch": 0.5563153991925517,
      "grad_norm": 0.6910000443458557,
      "learning_rate": 1.7248302724320324e-05,
      "loss": 1.4257,
      "mean_token_accuracy": 0.6657865395148596,
      "num_tokens": 850187479.0,
      "step": 5064
    },
    {
      "entropy": 1.6618298788865407,
      "epoch": 0.5564252561039247,
      "grad_norm": 0.6528242826461792,
      "learning_rate": 1.7247150247747765e-05,
      "loss": 1.3154,
      "mean_token_accuracy": 0.6672501713037491,
      "num_tokens": 850354624.0,
      "step": 5065
    },
    {
      "entropy": 1.718745857477188,
      "epoch": 0.5565351130152976,
      "grad_norm": 0.7377060651779175,
      "learning_rate": 1.724599757345571e-05,
      "loss": 1.5872,
      "mean_token_accuracy": 0.6395946790774664,
      "num_tokens": 850531179.0,
      "step": 5066
    },
    {
      "entropy": 1.6819844444592793,
      "epoch": 0.5566449699266706,
      "grad_norm": 0.6145383715629578,
      "learning_rate": 1.7244844701480654e-05,
      "loss": 1.3237,
      "mean_token_accuracy": 0.6742121378580729,
      "num_tokens": 850668747.0,
      "step": 5067
    },
    {
      "entropy": 1.6457071900367737,
      "epoch": 0.5567548268380434,
      "grad_norm": 0.6610442399978638,
      "learning_rate": 1.7243691631859075e-05,
      "loss": 1.3572,
      "mean_token_accuracy": 0.669839675227801,
      "num_tokens": 850875419.0,
      "step": 5068
    },
    {
      "entropy": 1.6283689141273499,
      "epoch": 0.5568646837494163,
      "grad_norm": 0.6071202754974365,
      "learning_rate": 1.7242538364627467e-05,
      "loss": 1.2843,
      "mean_token_accuracy": 0.6711755692958832,
      "num_tokens": 850996689.0,
      "step": 5069
    },
    {
      "entropy": 1.7722647686799367,
      "epoch": 0.5569745406607893,
      "grad_norm": 0.6648354530334473,
      "learning_rate": 1.7241384899822334e-05,
      "loss": 1.4833,
      "mean_token_accuracy": 0.6351625472307205,
      "num_tokens": 851177217.0,
      "step": 5070
    },
    {
      "entropy": 1.7500501374403636,
      "epoch": 0.5570843975721622,
      "grad_norm": 0.6843627691268921,
      "learning_rate": 1.724023123748018e-05,
      "loss": 1.3283,
      "mean_token_accuracy": 0.6687018970648447,
      "num_tokens": 851312948.0,
      "step": 5071
    },
    {
      "entropy": 1.730874131123225,
      "epoch": 0.5571942544835352,
      "grad_norm": 0.752149224281311,
      "learning_rate": 1.723907737763752e-05,
      "loss": 1.2589,
      "mean_token_accuracy": 0.6734604885180792,
      "num_tokens": 851434762.0,
      "step": 5072
    },
    {
      "entropy": 1.7467269003391266,
      "epoch": 0.5573041113949081,
      "grad_norm": 0.8023228049278259,
      "learning_rate": 1.7237923320330875e-05,
      "loss": 1.3556,
      "mean_token_accuracy": 0.6621319899956385,
      "num_tokens": 851601105.0,
      "step": 5073
    },
    {
      "entropy": 1.684466113646825,
      "epoch": 0.5574139683062811,
      "grad_norm": 0.8053759932518005,
      "learning_rate": 1.7236769065596765e-05,
      "loss": 1.3469,
      "mean_token_accuracy": 0.6632759322722753,
      "num_tokens": 851761746.0,
      "step": 5074
    },
    {
      "entropy": 1.7283134460449219,
      "epoch": 0.557523825217654,
      "grad_norm": 0.7793658971786499,
      "learning_rate": 1.7235614613471726e-05,
      "loss": 1.2974,
      "mean_token_accuracy": 0.6666330446799597,
      "num_tokens": 851894994.0,
      "step": 5075
    },
    {
      "entropy": 1.6891380151112874,
      "epoch": 0.557633682129027,
      "grad_norm": 0.6810115575790405,
      "learning_rate": 1.723445996399229e-05,
      "loss": 1.4283,
      "mean_token_accuracy": 0.6489190608263016,
      "num_tokens": 852019579.0,
      "step": 5076
    },
    {
      "entropy": 1.720542977253596,
      "epoch": 0.5577435390403999,
      "grad_norm": 0.7062191963195801,
      "learning_rate": 1.723330511719501e-05,
      "loss": 1.3266,
      "mean_token_accuracy": 0.6564305424690247,
      "num_tokens": 852170454.0,
      "step": 5077
    },
    {
      "entropy": 1.7275803287823994,
      "epoch": 0.5578533959517729,
      "grad_norm": 0.6995865702629089,
      "learning_rate": 1.7232150073116434e-05,
      "loss": 1.31,
      "mean_token_accuracy": 0.6622872352600098,
      "num_tokens": 852276883.0,
      "step": 5078
    },
    {
      "entropy": 1.735807627439499,
      "epoch": 0.5579632528631457,
      "grad_norm": 0.7578923106193542,
      "learning_rate": 1.7230994831793112e-05,
      "loss": 1.5665,
      "mean_token_accuracy": 0.6405892074108124,
      "num_tokens": 852553346.0,
      "step": 5079
    },
    {
      "entropy": 1.7293440699577332,
      "epoch": 0.5580731097745187,
      "grad_norm": 0.6468039751052856,
      "learning_rate": 1.722983939326161e-05,
      "loss": 1.3335,
      "mean_token_accuracy": 0.6611098150412241,
      "num_tokens": 852716230.0,
      "step": 5080
    },
    {
      "entropy": 1.6878082553545635,
      "epoch": 0.5581829666858916,
      "grad_norm": 0.6970882415771484,
      "learning_rate": 1.7228683757558506e-05,
      "loss": 1.4551,
      "mean_token_accuracy": 0.6598817507425944,
      "num_tokens": 852879187.0,
      "step": 5081
    },
    {
      "entropy": 1.6392480432987213,
      "epoch": 0.5582928235972645,
      "grad_norm": 0.6725665926933289,
      "learning_rate": 1.722752792472036e-05,
      "loss": 1.2592,
      "mean_token_accuracy": 0.6828918804725012,
      "num_tokens": 853012620.0,
      "step": 5082
    },
    {
      "entropy": 1.6959756811459858,
      "epoch": 0.5584026805086375,
      "grad_norm": 0.7385476231575012,
      "learning_rate": 1.7226371894783768e-05,
      "loss": 1.231,
      "mean_token_accuracy": 0.6803264965613683,
      "num_tokens": 853167262.0,
      "step": 5083
    },
    {
      "entropy": 1.6905551254749298,
      "epoch": 0.5585125374200104,
      "grad_norm": 0.6331995725631714,
      "learning_rate": 1.7225215667785305e-05,
      "loss": 1.3169,
      "mean_token_accuracy": 0.6700136860211691,
      "num_tokens": 853326108.0,
      "step": 5084
    },
    {
      "entropy": 1.7254391411940257,
      "epoch": 0.5586223943313834,
      "grad_norm": 0.7044715285301208,
      "learning_rate": 1.7224059243761572e-05,
      "loss": 1.4471,
      "mean_token_accuracy": 0.6458353300889333,
      "num_tokens": 853488209.0,
      "step": 5085
    },
    {
      "entropy": 1.7297268311182659,
      "epoch": 0.5587322512427563,
      "grad_norm": 0.7728154063224792,
      "learning_rate": 1.7222902622749173e-05,
      "loss": 1.281,
      "mean_token_accuracy": 0.6573230673869451,
      "num_tokens": 853610205.0,
      "step": 5086
    },
    {
      "entropy": 1.735485980908076,
      "epoch": 0.5588421081541293,
      "grad_norm": 0.837343692779541,
      "learning_rate": 1.7221745804784707e-05,
      "loss": 1.3709,
      "mean_token_accuracy": 0.6560803353786469,
      "num_tokens": 853751392.0,
      "step": 5087
    },
    {
      "entropy": 1.6720333397388458,
      "epoch": 0.5589519650655022,
      "grad_norm": 0.6489691138267517,
      "learning_rate": 1.722058878990479e-05,
      "loss": 1.4012,
      "mean_token_accuracy": 0.6520512402057648,
      "num_tokens": 853991504.0,
      "step": 5088
    },
    {
      "entropy": 1.694252997636795,
      "epoch": 0.5590618219768752,
      "grad_norm": 0.8448305130004883,
      "learning_rate": 1.721943157814604e-05,
      "loss": 1.4325,
      "mean_token_accuracy": 0.6456566154956818,
      "num_tokens": 854165712.0,
      "step": 5089
    },
    {
      "entropy": 1.750052273273468,
      "epoch": 0.559171678888248,
      "grad_norm": 0.6790991425514221,
      "learning_rate": 1.7218274169545082e-05,
      "loss": 1.4332,
      "mean_token_accuracy": 0.6550088077783585,
      "num_tokens": 854287722.0,
      "step": 5090
    },
    {
      "entropy": 1.7848297357559204,
      "epoch": 0.559281535799621,
      "grad_norm": 0.6880961060523987,
      "learning_rate": 1.721711656413855e-05,
      "loss": 1.3807,
      "mean_token_accuracy": 0.655860627690951,
      "num_tokens": 854402682.0,
      "step": 5091
    },
    {
      "entropy": 1.7680182953675587,
      "epoch": 0.5593913927109939,
      "grad_norm": 0.7541852593421936,
      "learning_rate": 1.7215958761963085e-05,
      "loss": 1.4438,
      "mean_token_accuracy": 0.659633050362269,
      "num_tokens": 854582653.0,
      "step": 5092
    },
    {
      "entropy": 1.743993620077769,
      "epoch": 0.5595012496223669,
      "grad_norm": 0.7386744618415833,
      "learning_rate": 1.7214800763055323e-05,
      "loss": 1.3355,
      "mean_token_accuracy": 0.655690461397171,
      "num_tokens": 854733417.0,
      "step": 5093
    },
    {
      "entropy": 1.7236657241980236,
      "epoch": 0.5596111065337398,
      "grad_norm": 0.6876170039176941,
      "learning_rate": 1.7213642567451917e-05,
      "loss": 1.5466,
      "mean_token_accuracy": 0.6431126991907755,
      "num_tokens": 854876880.0,
      "step": 5094
    },
    {
      "entropy": 1.6323457062244415,
      "epoch": 0.5597209634451128,
      "grad_norm": 0.6821046471595764,
      "learning_rate": 1.7212484175189522e-05,
      "loss": 1.5167,
      "mean_token_accuracy": 0.6490619430939356,
      "num_tokens": 855089649.0,
      "step": 5095
    },
    {
      "entropy": 1.6829971273740132,
      "epoch": 0.5598308203564857,
      "grad_norm": 0.698646605014801,
      "learning_rate": 1.7211325586304802e-05,
      "loss": 1.4024,
      "mean_token_accuracy": 0.6564787675937017,
      "num_tokens": 855301819.0,
      "step": 5096
    },
    {
      "entropy": 1.6667365928490956,
      "epoch": 0.5599406772678586,
      "grad_norm": 0.6255282759666443,
      "learning_rate": 1.721016680083443e-05,
      "loss": 1.4059,
      "mean_token_accuracy": 0.6555192569891611,
      "num_tokens": 855474924.0,
      "step": 5097
    },
    {
      "entropy": 1.7034937342007954,
      "epoch": 0.5600505341792316,
      "grad_norm": 0.6177133321762085,
      "learning_rate": 1.7209007818815074e-05,
      "loss": 1.4076,
      "mean_token_accuracy": 0.6450115591287613,
      "num_tokens": 855642413.0,
      "step": 5098
    },
    {
      "entropy": 1.6558322707811992,
      "epoch": 0.5601603910906044,
      "grad_norm": 0.7308685779571533,
      "learning_rate": 1.720784864028342e-05,
      "loss": 1.4158,
      "mean_token_accuracy": 0.6546875933806101,
      "num_tokens": 855823504.0,
      "step": 5099
    },
    {
      "entropy": 1.7279444734255474,
      "epoch": 0.5602702480019774,
      "grad_norm": 0.6921755075454712,
      "learning_rate": 1.720668926527615e-05,
      "loss": 1.3391,
      "mean_token_accuracy": 0.6614320774873098,
      "num_tokens": 855945864.0,
      "step": 5100
    },
    {
      "entropy": 1.678322970867157,
      "epoch": 0.5603801049133503,
      "grad_norm": 0.57282555103302,
      "learning_rate": 1.7205529693829965e-05,
      "loss": 1.4324,
      "mean_token_accuracy": 0.6524877349535624,
      "num_tokens": 856171543.0,
      "step": 5101
    },
    {
      "entropy": 1.712640792131424,
      "epoch": 0.5604899618247233,
      "grad_norm": 0.6682943105697632,
      "learning_rate": 1.720436992598156e-05,
      "loss": 1.4408,
      "mean_token_accuracy": 0.6717189103364944,
      "num_tokens": 856322857.0,
      "step": 5102
    },
    {
      "entropy": 1.7849741280078888,
      "epoch": 0.5605998187360962,
      "grad_norm": 0.8261640667915344,
      "learning_rate": 1.7203209961767646e-05,
      "loss": 1.4446,
      "mean_token_accuracy": 0.6582596053679785,
      "num_tokens": 856486604.0,
      "step": 5103
    },
    {
      "entropy": 1.7254948616027832,
      "epoch": 0.5607096756474692,
      "grad_norm": 0.6827483177185059,
      "learning_rate": 1.720204980122493e-05,
      "loss": 1.6162,
      "mean_token_accuracy": 0.6409385999043783,
      "num_tokens": 856730292.0,
      "step": 5104
    },
    {
      "entropy": 1.7715973059336345,
      "epoch": 0.5608195325588421,
      "grad_norm": 0.8116368055343628,
      "learning_rate": 1.720088944439013e-05,
      "loss": 1.3775,
      "mean_token_accuracy": 0.6552746097246805,
      "num_tokens": 856885143.0,
      "step": 5105
    },
    {
      "entropy": 1.7679732938607533,
      "epoch": 0.5609293894702151,
      "grad_norm": 0.6571024060249329,
      "learning_rate": 1.7199728891299974e-05,
      "loss": 1.3537,
      "mean_token_accuracy": 0.6583919723828634,
      "num_tokens": 857019977.0,
      "step": 5106
    },
    {
      "entropy": 1.6773741841316223,
      "epoch": 0.561039246381588,
      "grad_norm": 0.5981674790382385,
      "learning_rate": 1.7198568141991193e-05,
      "loss": 1.4617,
      "mean_token_accuracy": 0.6360589961210886,
      "num_tokens": 857227441.0,
      "step": 5107
    },
    {
      "entropy": 1.6567221482594807,
      "epoch": 0.561149103292961,
      "grad_norm": 0.7425564527511597,
      "learning_rate": 1.7197407196500525e-05,
      "loss": 1.3022,
      "mean_token_accuracy": 0.6754785428444544,
      "num_tokens": 857391082.0,
      "step": 5108
    },
    {
      "entropy": 1.7228084901968639,
      "epoch": 0.5612589602043339,
      "grad_norm": 0.6551631093025208,
      "learning_rate": 1.7196246054864708e-05,
      "loss": 1.593,
      "mean_token_accuracy": 0.6327783366044363,
      "num_tokens": 857596607.0,
      "step": 5109
    },
    {
      "entropy": 1.7758533358573914,
      "epoch": 0.5613688171157067,
      "grad_norm": 0.6851291656494141,
      "learning_rate": 1.71950847171205e-05,
      "loss": 1.4648,
      "mean_token_accuracy": 0.6309924423694611,
      "num_tokens": 857772597.0,
      "step": 5110
    },
    {
      "entropy": 1.76680189371109,
      "epoch": 0.5614786740270797,
      "grad_norm": 0.7714706063270569,
      "learning_rate": 1.719392318330465e-05,
      "loss": 1.3437,
      "mean_token_accuracy": 0.6618274201949438,
      "num_tokens": 857905051.0,
      "step": 5111
    },
    {
      "entropy": 1.645568698644638,
      "epoch": 0.5615885309384526,
      "grad_norm": 0.589038074016571,
      "learning_rate": 1.7192761453453924e-05,
      "loss": 1.3992,
      "mean_token_accuracy": 0.6517779429753622,
      "num_tokens": 858079797.0,
      "step": 5112
    },
    {
      "entropy": 1.7456736266613007,
      "epoch": 0.5616983878498256,
      "grad_norm": 0.7510016560554504,
      "learning_rate": 1.719159952760509e-05,
      "loss": 1.3539,
      "mean_token_accuracy": 0.6672643373409907,
      "num_tokens": 858237023.0,
      "step": 5113
    },
    {
      "entropy": 1.6943009197711945,
      "epoch": 0.5618082447611985,
      "grad_norm": 0.646049976348877,
      "learning_rate": 1.7190437405794917e-05,
      "loss": 1.3997,
      "mean_token_accuracy": 0.6529371738433838,
      "num_tokens": 858452256.0,
      "step": 5114
    },
    {
      "entropy": 1.7592908143997192,
      "epoch": 0.5619181016725715,
      "grad_norm": 0.6745445728302002,
      "learning_rate": 1.718927508806019e-05,
      "loss": 1.3,
      "mean_token_accuracy": 0.6665283391873041,
      "num_tokens": 858604338.0,
      "step": 5115
    },
    {
      "entropy": 1.74533345301946,
      "epoch": 0.5620279585839444,
      "grad_norm": 0.7311209440231323,
      "learning_rate": 1.7188112574437696e-05,
      "loss": 1.3826,
      "mean_token_accuracy": 0.6617701351642609,
      "num_tokens": 858738333.0,
      "step": 5116
    },
    {
      "entropy": 1.6821747322877247,
      "epoch": 0.5621378154953174,
      "grad_norm": 0.6801566481590271,
      "learning_rate": 1.7186949864964225e-05,
      "loss": 1.4588,
      "mean_token_accuracy": 0.6743607322374979,
      "num_tokens": 858926628.0,
      "step": 5117
    },
    {
      "entropy": 1.6699562072753906,
      "epoch": 0.5622476724066903,
      "grad_norm": 0.7358706593513489,
      "learning_rate": 1.718578695967658e-05,
      "loss": 1.3404,
      "mean_token_accuracy": 0.6704433461030325,
      "num_tokens": 859072049.0,
      "step": 5118
    },
    {
      "entropy": 1.6408792237440746,
      "epoch": 0.5623575293180633,
      "grad_norm": 0.717157781124115,
      "learning_rate": 1.718462385861157e-05,
      "loss": 1.2962,
      "mean_token_accuracy": 0.6739445279041926,
      "num_tokens": 859230044.0,
      "step": 5119
    },
    {
      "entropy": 1.7437108953793843,
      "epoch": 0.5624673862294362,
      "grad_norm": 1.0900483131408691,
      "learning_rate": 1.7183460561806e-05,
      "loss": 1.5626,
      "mean_token_accuracy": 0.6493689517180125,
      "num_tokens": 859372507.0,
      "step": 5120
    },
    {
      "entropy": 1.6718702812989552,
      "epoch": 0.5625772431408091,
      "grad_norm": 0.7479756474494934,
      "learning_rate": 1.718229706929669e-05,
      "loss": 1.2736,
      "mean_token_accuracy": 0.6695879648129145,
      "num_tokens": 859517643.0,
      "step": 5121
    },
    {
      "entropy": 1.6360397239526112,
      "epoch": 0.562687100052182,
      "grad_norm": 0.7399976849555969,
      "learning_rate": 1.718113338112046e-05,
      "loss": 1.379,
      "mean_token_accuracy": 0.6537938465674719,
      "num_tokens": 859682232.0,
      "step": 5122
    },
    {
      "entropy": 1.6917523245016735,
      "epoch": 0.5627969569635549,
      "grad_norm": 0.7607491612434387,
      "learning_rate": 1.7179969497314145e-05,
      "loss": 1.4321,
      "mean_token_accuracy": 0.6621414522329966,
      "num_tokens": 859806144.0,
      "step": 5123
    },
    {
      "entropy": 1.7270215352376301,
      "epoch": 0.5629068138749279,
      "grad_norm": 0.663026750087738,
      "learning_rate": 1.7178805417914576e-05,
      "loss": 1.3397,
      "mean_token_accuracy": 0.666211391488711,
      "num_tokens": 859949673.0,
      "step": 5124
    },
    {
      "entropy": 1.6595263083775837,
      "epoch": 0.5630166707863008,
      "grad_norm": 0.6144124865531921,
      "learning_rate": 1.7177641142958604e-05,
      "loss": 1.2972,
      "mean_token_accuracy": 0.6727373351653417,
      "num_tokens": 860090516.0,
      "step": 5125
    },
    {
      "entropy": 1.7171042064825695,
      "epoch": 0.5631265276976738,
      "grad_norm": 0.7884184122085571,
      "learning_rate": 1.7176476672483077e-05,
      "loss": 1.4505,
      "mean_token_accuracy": 0.6440162112315496,
      "num_tokens": 860271153.0,
      "step": 5126
    },
    {
      "entropy": 1.6738516787687938,
      "epoch": 0.5632363846090467,
      "grad_norm": 0.67924964427948,
      "learning_rate": 1.717531200652484e-05,
      "loss": 1.3207,
      "mean_token_accuracy": 0.6723797023296356,
      "num_tokens": 860404625.0,
      "step": 5127
    },
    {
      "entropy": 1.7053898572921753,
      "epoch": 0.5633462415204197,
      "grad_norm": 0.6389914155006409,
      "learning_rate": 1.7174147145120766e-05,
      "loss": 1.3741,
      "mean_token_accuracy": 0.6581660558780035,
      "num_tokens": 860625943.0,
      "step": 5128
    },
    {
      "entropy": 1.6907204886277516,
      "epoch": 0.5634560984317926,
      "grad_norm": 0.7094506621360779,
      "learning_rate": 1.7172982088307715e-05,
      "loss": 1.3378,
      "mean_token_accuracy": 0.6622174034516016,
      "num_tokens": 860803832.0,
      "step": 5129
    },
    {
      "entropy": 1.6670372982819874,
      "epoch": 0.5635659553431656,
      "grad_norm": 0.8901845216751099,
      "learning_rate": 1.717181683612256e-05,
      "loss": 1.4248,
      "mean_token_accuracy": 0.6624594082434972,
      "num_tokens": 860978869.0,
      "step": 5130
    },
    {
      "entropy": 1.667426864306132,
      "epoch": 0.5636758122545384,
      "grad_norm": 0.7643829584121704,
      "learning_rate": 1.717065138860219e-05,
      "loss": 1.2617,
      "mean_token_accuracy": 0.6825516323248545,
      "num_tokens": 861113828.0,
      "step": 5131
    },
    {
      "entropy": 1.790122111638387,
      "epoch": 0.5637856691659114,
      "grad_norm": 0.8605037331581116,
      "learning_rate": 1.7169485745783475e-05,
      "loss": 1.433,
      "mean_token_accuracy": 0.6626231670379639,
      "num_tokens": 861276229.0,
      "step": 5132
    },
    {
      "entropy": 1.7115785876909893,
      "epoch": 0.5638955260772843,
      "grad_norm": 0.7499393820762634,
      "learning_rate": 1.716831990770332e-05,
      "loss": 1.3592,
      "mean_token_accuracy": 0.6678246607383093,
      "num_tokens": 861403520.0,
      "step": 5133
    },
    {
      "entropy": 1.7232838968435924,
      "epoch": 0.5640053829886573,
      "grad_norm": 0.6720132827758789,
      "learning_rate": 1.7167153874398622e-05,
      "loss": 1.4723,
      "mean_token_accuracy": 0.6535212695598602,
      "num_tokens": 861577011.0,
      "step": 5134
    },
    {
      "entropy": 1.7426664630572002,
      "epoch": 0.5641152399000302,
      "grad_norm": 0.7186594605445862,
      "learning_rate": 1.716598764590628e-05,
      "loss": 1.4079,
      "mean_token_accuracy": 0.6688724607229233,
      "num_tokens": 861725353.0,
      "step": 5135
    },
    {
      "entropy": 1.6872510810693104,
      "epoch": 0.5642250968114031,
      "grad_norm": 0.7637690305709839,
      "learning_rate": 1.7164821222263207e-05,
      "loss": 1.186,
      "mean_token_accuracy": 0.6860415786504745,
      "num_tokens": 861893900.0,
      "step": 5136
    },
    {
      "entropy": 1.7718837360541027,
      "epoch": 0.5643349537227761,
      "grad_norm": 0.7247793674468994,
      "learning_rate": 1.7163654603506327e-05,
      "loss": 1.6064,
      "mean_token_accuracy": 0.6367716689904531,
      "num_tokens": 862109571.0,
      "step": 5137
    },
    {
      "entropy": 1.7636443078517914,
      "epoch": 0.564444810634149,
      "grad_norm": 0.7421050071716309,
      "learning_rate": 1.716248778967255e-05,
      "loss": 1.4571,
      "mean_token_accuracy": 0.6570049126942953,
      "num_tokens": 862250376.0,
      "step": 5138
    },
    {
      "entropy": 1.7156391243139903,
      "epoch": 0.564554667545522,
      "grad_norm": 0.7368531227111816,
      "learning_rate": 1.7161320780798812e-05,
      "loss": 1.4297,
      "mean_token_accuracy": 0.6491710195938746,
      "num_tokens": 862402788.0,
      "step": 5139
    },
    {
      "entropy": 1.7167876561482747,
      "epoch": 0.5646645244568949,
      "grad_norm": 0.6028063297271729,
      "learning_rate": 1.716015357692205e-05,
      "loss": 1.4445,
      "mean_token_accuracy": 0.6677204618851343,
      "num_tokens": 862608011.0,
      "step": 5140
    },
    {
      "entropy": 1.6989375948905945,
      "epoch": 0.5647743813682679,
      "grad_norm": 0.8523213267326355,
      "learning_rate": 1.71589861780792e-05,
      "loss": 1.3444,
      "mean_token_accuracy": 0.6717568387587866,
      "num_tokens": 862778996.0,
      "step": 5141
    },
    {
      "entropy": 1.6621976296106975,
      "epoch": 0.5648842382796407,
      "grad_norm": 0.6297332048416138,
      "learning_rate": 1.715781858430721e-05,
      "loss": 1.4134,
      "mean_token_accuracy": 0.6557877908150355,
      "num_tokens": 862939813.0,
      "step": 5142
    },
    {
      "entropy": 1.6616567373275757,
      "epoch": 0.5649940951910137,
      "grad_norm": 0.6319537162780762,
      "learning_rate": 1.7156650795643043e-05,
      "loss": 1.3247,
      "mean_token_accuracy": 0.6654583762089411,
      "num_tokens": 863113346.0,
      "step": 5143
    },
    {
      "entropy": 1.7592324515183766,
      "epoch": 0.5651039521023866,
      "grad_norm": 0.6727480888366699,
      "learning_rate": 1.715548281212365e-05,
      "loss": 1.4165,
      "mean_token_accuracy": 0.6434768736362457,
      "num_tokens": 863291829.0,
      "step": 5144
    },
    {
      "entropy": 1.7069471180438995,
      "epoch": 0.5652138090137596,
      "grad_norm": 0.6831556558609009,
      "learning_rate": 1.7154314633785997e-05,
      "loss": 1.4489,
      "mean_token_accuracy": 0.6467359215021133,
      "num_tokens": 863514790.0,
      "step": 5145
    },
    {
      "entropy": 1.6704001724720001,
      "epoch": 0.5653236659251325,
      "grad_norm": 0.6945511102676392,
      "learning_rate": 1.7153146260667064e-05,
      "loss": 1.2975,
      "mean_token_accuracy": 0.6630304008722305,
      "num_tokens": 863686919.0,
      "step": 5146
    },
    {
      "entropy": 1.6741840541362762,
      "epoch": 0.5654335228365055,
      "grad_norm": 0.7052369713783264,
      "learning_rate": 1.7151977692803824e-05,
      "loss": 1.3397,
      "mean_token_accuracy": 0.6724216043949127,
      "num_tokens": 863810676.0,
      "step": 5147
    },
    {
      "entropy": 1.6889431178569794,
      "epoch": 0.5655433797478784,
      "grad_norm": 0.7486838698387146,
      "learning_rate": 1.715080893023326e-05,
      "loss": 1.3683,
      "mean_token_accuracy": 0.654551774263382,
      "num_tokens": 863981409.0,
      "step": 5148
    },
    {
      "entropy": 1.7260994116465251,
      "epoch": 0.5656532366592514,
      "grad_norm": 0.776213526725769,
      "learning_rate": 1.7149639972992363e-05,
      "loss": 1.3205,
      "mean_token_accuracy": 0.6820149670044581,
      "num_tokens": 864179470.0,
      "step": 5149
    },
    {
      "entropy": 1.614399919907252,
      "epoch": 0.5657630935706243,
      "grad_norm": 0.7526430487632751,
      "learning_rate": 1.7148470821118135e-05,
      "loss": 1.118,
      "mean_token_accuracy": 0.6992814292510351,
      "num_tokens": 864298750.0,
      "step": 5150
    },
    {
      "entropy": 1.708221822977066,
      "epoch": 0.5658729504819972,
      "grad_norm": 0.7361465692520142,
      "learning_rate": 1.7147301474647577e-05,
      "loss": 1.2939,
      "mean_token_accuracy": 0.6688221096992493,
      "num_tokens": 864423445.0,
      "step": 5151
    },
    {
      "entropy": 1.673103392124176,
      "epoch": 0.5659828073933701,
      "grad_norm": 0.7637960314750671,
      "learning_rate": 1.7146131933617695e-05,
      "loss": 1.4075,
      "mean_token_accuracy": 0.6531636367241541,
      "num_tokens": 864600118.0,
      "step": 5152
    },
    {
      "entropy": 1.6958302358786266,
      "epoch": 0.566092664304743,
      "grad_norm": 0.6391355395317078,
      "learning_rate": 1.7144962198065507e-05,
      "loss": 1.323,
      "mean_token_accuracy": 0.6684149752060572,
      "num_tokens": 864750929.0,
      "step": 5153
    },
    {
      "entropy": 1.6995809276898701,
      "epoch": 0.566202521216116,
      "grad_norm": 0.7472272515296936,
      "learning_rate": 1.7143792268028036e-05,
      "loss": 1.3566,
      "mean_token_accuracy": 0.6624608635902405,
      "num_tokens": 864923982.0,
      "step": 5154
    },
    {
      "entropy": 1.708970695734024,
      "epoch": 0.5663123781274889,
      "grad_norm": 0.7742936611175537,
      "learning_rate": 1.7142622143542307e-05,
      "loss": 1.3687,
      "mean_token_accuracy": 0.657701775431633,
      "num_tokens": 865069429.0,
      "step": 5155
    },
    {
      "entropy": 1.6366569598515828,
      "epoch": 0.5664222350388619,
      "grad_norm": 0.6137021780014038,
      "learning_rate": 1.7141451824645356e-05,
      "loss": 1.3238,
      "mean_token_accuracy": 0.6683499167362849,
      "num_tokens": 865216437.0,
      "step": 5156
    },
    {
      "entropy": 1.698869526386261,
      "epoch": 0.5665320919502348,
      "grad_norm": 0.7175676822662354,
      "learning_rate": 1.714028131137422e-05,
      "loss": 1.4583,
      "mean_token_accuracy": 0.6476651877164841,
      "num_tokens": 865468974.0,
      "step": 5157
    },
    {
      "entropy": 1.7646108369032543,
      "epoch": 0.5666419488616078,
      "grad_norm": 0.6280926465988159,
      "learning_rate": 1.713911060376595e-05,
      "loss": 1.3422,
      "mean_token_accuracy": 0.6493685891230901,
      "num_tokens": 865631225.0,
      "step": 5158
    },
    {
      "entropy": 1.701049913962682,
      "epoch": 0.5667518057729807,
      "grad_norm": 0.764488935470581,
      "learning_rate": 1.7137939701857593e-05,
      "loss": 1.4099,
      "mean_token_accuracy": 0.671028807759285,
      "num_tokens": 865778041.0,
      "step": 5159
    },
    {
      "entropy": 1.7382206519444783,
      "epoch": 0.5668616626843537,
      "grad_norm": 0.8662286996841431,
      "learning_rate": 1.713676860568621e-05,
      "loss": 1.5012,
      "mean_token_accuracy": 0.6548273215691248,
      "num_tokens": 865997091.0,
      "step": 5160
    },
    {
      "entropy": 1.7540892759958904,
      "epoch": 0.5669715195957266,
      "grad_norm": 0.759167492389679,
      "learning_rate": 1.7135597315288873e-05,
      "loss": 1.2949,
      "mean_token_accuracy": 0.6608439882596334,
      "num_tokens": 866148237.0,
      "step": 5161
    },
    {
      "entropy": 1.7543078362941742,
      "epoch": 0.5670813765070996,
      "grad_norm": 0.6145092844963074,
      "learning_rate": 1.7134425830702638e-05,
      "loss": 1.4108,
      "mean_token_accuracy": 0.6426503856976827,
      "num_tokens": 866347643.0,
      "step": 5162
    },
    {
      "entropy": 1.7160977522532146,
      "epoch": 0.5671912334184724,
      "grad_norm": 0.6957924365997314,
      "learning_rate": 1.7133254151964594e-05,
      "loss": 1.4157,
      "mean_token_accuracy": 0.6433221797148386,
      "num_tokens": 866546498.0,
      "step": 5163
    },
    {
      "entropy": 1.7012445231278737,
      "epoch": 0.5673010903298453,
      "grad_norm": 0.6757133603096008,
      "learning_rate": 1.7132082279111816e-05,
      "loss": 1.3596,
      "mean_token_accuracy": 0.6617651581764221,
      "num_tokens": 866681108.0,
      "step": 5164
    },
    {
      "entropy": 1.6479481756687164,
      "epoch": 0.5674109472412183,
      "grad_norm": 0.6679365634918213,
      "learning_rate": 1.71309102121814e-05,
      "loss": 1.2512,
      "mean_token_accuracy": 0.6751443793376287,
      "num_tokens": 866783889.0,
      "step": 5165
    },
    {
      "entropy": 1.6679150362809498,
      "epoch": 0.5675208041525912,
      "grad_norm": 0.6778741478919983,
      "learning_rate": 1.712973795121044e-05,
      "loss": 1.4702,
      "mean_token_accuracy": 0.6485533167918524,
      "num_tokens": 866960522.0,
      "step": 5166
    },
    {
      "entropy": 1.7731144726276398,
      "epoch": 0.5676306610639642,
      "grad_norm": 0.8737553358078003,
      "learning_rate": 1.712856549623603e-05,
      "loss": 1.5449,
      "mean_token_accuracy": 0.646806518236796,
      "num_tokens": 867142270.0,
      "step": 5167
    },
    {
      "entropy": 1.7592595716317494,
      "epoch": 0.5677405179753371,
      "grad_norm": 0.6949407458305359,
      "learning_rate": 1.7127392847295286e-05,
      "loss": 1.4931,
      "mean_token_accuracy": 0.6439671516418457,
      "num_tokens": 867304938.0,
      "step": 5168
    },
    {
      "entropy": 1.6744161943594615,
      "epoch": 0.5678503748867101,
      "grad_norm": 0.7399938702583313,
      "learning_rate": 1.7126220004425324e-05,
      "loss": 1.3912,
      "mean_token_accuracy": 0.6706068366765976,
      "num_tokens": 867469987.0,
      "step": 5169
    },
    {
      "entropy": 1.6979783276716869,
      "epoch": 0.567960231798083,
      "grad_norm": 0.7100719809532166,
      "learning_rate": 1.7125046967663255e-05,
      "loss": 1.3621,
      "mean_token_accuracy": 0.6856355915466944,
      "num_tokens": 867633028.0,
      "step": 5170
    },
    {
      "entropy": 1.6883835395177205,
      "epoch": 0.568070088709456,
      "grad_norm": 0.6703440546989441,
      "learning_rate": 1.7123873737046207e-05,
      "loss": 1.4014,
      "mean_token_accuracy": 0.6576645423968633,
      "num_tokens": 867826775.0,
      "step": 5171
    },
    {
      "entropy": 1.6956737736860912,
      "epoch": 0.5681799456208289,
      "grad_norm": 0.5624609589576721,
      "learning_rate": 1.7122700312611324e-05,
      "loss": 1.435,
      "mean_token_accuracy": 0.6521128962437311,
      "num_tokens": 868003547.0,
      "step": 5172
    },
    {
      "entropy": 1.7059629559516907,
      "epoch": 0.5682898025322018,
      "grad_norm": 0.6375492215156555,
      "learning_rate": 1.7121526694395726e-05,
      "loss": 1.4911,
      "mean_token_accuracy": 0.6470068991184235,
      "num_tokens": 868185524.0,
      "step": 5173
    },
    {
      "entropy": 1.7254150609175365,
      "epoch": 0.5683996594435747,
      "grad_norm": 0.7593937516212463,
      "learning_rate": 1.712035288243657e-05,
      "loss": 1.4746,
      "mean_token_accuracy": 0.6589858829975128,
      "num_tokens": 868345630.0,
      "step": 5174
    },
    {
      "entropy": 1.7823002735773723,
      "epoch": 0.5685095163549477,
      "grad_norm": 0.6700795888900757,
      "learning_rate": 1.7119178876771004e-05,
      "loss": 1.4431,
      "mean_token_accuracy": 0.6534734417994817,
      "num_tokens": 868487484.0,
      "step": 5175
    },
    {
      "entropy": 1.7280798256397247,
      "epoch": 0.5686193732663206,
      "grad_norm": 0.6447996497154236,
      "learning_rate": 1.711800467743618e-05,
      "loss": 1.43,
      "mean_token_accuracy": 0.649931788444519,
      "num_tokens": 868665888.0,
      "step": 5176
    },
    {
      "entropy": 1.6930799186229706,
      "epoch": 0.5687292301776935,
      "grad_norm": 0.6100133061408997,
      "learning_rate": 1.711683028446927e-05,
      "loss": 1.4271,
      "mean_token_accuracy": 0.6684134354194006,
      "num_tokens": 868854573.0,
      "step": 5177
    },
    {
      "entropy": 1.6725496153036754,
      "epoch": 0.5688390870890665,
      "grad_norm": 0.6703057885169983,
      "learning_rate": 1.7115655697907437e-05,
      "loss": 1.3392,
      "mean_token_accuracy": 0.6644681443770727,
      "num_tokens": 869022423.0,
      "step": 5178
    },
    {
      "entropy": 1.6850597560405731,
      "epoch": 0.5689489440004394,
      "grad_norm": 0.7215490937232971,
      "learning_rate": 1.7114480917787854e-05,
      "loss": 1.3246,
      "mean_token_accuracy": 0.675572469830513,
      "num_tokens": 869164793.0,
      "step": 5179
    },
    {
      "entropy": 1.7287063002586365,
      "epoch": 0.5690588009118124,
      "grad_norm": 0.7284601330757141,
      "learning_rate": 1.7113305944147705e-05,
      "loss": 1.3834,
      "mean_token_accuracy": 0.6688296049833298,
      "num_tokens": 869319413.0,
      "step": 5180
    },
    {
      "entropy": 1.7300913234551747,
      "epoch": 0.5691686578231853,
      "grad_norm": 0.8334223031997681,
      "learning_rate": 1.711213077702418e-05,
      "loss": 1.4058,
      "mean_token_accuracy": 0.6505585461854935,
      "num_tokens": 869499491.0,
      "step": 5181
    },
    {
      "entropy": 1.6942098836104076,
      "epoch": 0.5692785147345583,
      "grad_norm": 0.5407121181488037,
      "learning_rate": 1.711095541645447e-05,
      "loss": 1.4164,
      "mean_token_accuracy": 0.6361008981863657,
      "num_tokens": 869772386.0,
      "step": 5182
    },
    {
      "entropy": 1.768281082312266,
      "epoch": 0.5693883716459311,
      "grad_norm": 0.7168862819671631,
      "learning_rate": 1.7109779862475773e-05,
      "loss": 1.3441,
      "mean_token_accuracy": 0.6586054215828577,
      "num_tokens": 869944947.0,
      "step": 5183
    },
    {
      "entropy": 1.5970544119675953,
      "epoch": 0.5694982285573041,
      "grad_norm": 0.6595725417137146,
      "learning_rate": 1.7108604115125298e-05,
      "loss": 1.3401,
      "mean_token_accuracy": 0.6841567407051722,
      "num_tokens": 870131433.0,
      "step": 5184
    },
    {
      "entropy": 1.7234369615713756,
      "epoch": 0.569608085468677,
      "grad_norm": 0.687660276889801,
      "learning_rate": 1.7107428174440254e-05,
      "loss": 1.2686,
      "mean_token_accuracy": 0.6720225811004639,
      "num_tokens": 870280419.0,
      "step": 5185
    },
    {
      "entropy": 1.667283058166504,
      "epoch": 0.56971794238005,
      "grad_norm": 0.6603217124938965,
      "learning_rate": 1.710625204045786e-05,
      "loss": 1.4857,
      "mean_token_accuracy": 0.6498481879631678,
      "num_tokens": 870435215.0,
      "step": 5186
    },
    {
      "entropy": 1.6752402385075886,
      "epoch": 0.5698277992914229,
      "grad_norm": 0.6785051226615906,
      "learning_rate": 1.7105075713215343e-05,
      "loss": 1.4667,
      "mean_token_accuracy": 0.6571814368168513,
      "num_tokens": 870635341.0,
      "step": 5187
    },
    {
      "entropy": 1.761198987563451,
      "epoch": 0.5699376562027959,
      "grad_norm": 0.8082736134529114,
      "learning_rate": 1.710389919274993e-05,
      "loss": 1.4905,
      "mean_token_accuracy": 0.6487453877925873,
      "num_tokens": 870824878.0,
      "step": 5188
    },
    {
      "entropy": 1.6660157044728596,
      "epoch": 0.5700475131141688,
      "grad_norm": 0.6341331601142883,
      "learning_rate": 1.7102722479098855e-05,
      "loss": 1.5113,
      "mean_token_accuracy": 0.6298314034938812,
      "num_tokens": 871034276.0,
      "step": 5189
    },
    {
      "entropy": 1.6461931069691975,
      "epoch": 0.5701573700255417,
      "grad_norm": 0.6263504028320312,
      "learning_rate": 1.7101545572299368e-05,
      "loss": 1.3666,
      "mean_token_accuracy": 0.6588836163282394,
      "num_tokens": 871199755.0,
      "step": 5190
    },
    {
      "entropy": 1.7178466320037842,
      "epoch": 0.5702672269369147,
      "grad_norm": 0.7136973142623901,
      "learning_rate": 1.710036847238871e-05,
      "loss": 1.3612,
      "mean_token_accuracy": 0.6669484178225199,
      "num_tokens": 871378421.0,
      "step": 5191
    },
    {
      "entropy": 1.7081640462080638,
      "epoch": 0.5703770838482876,
      "grad_norm": 0.6606138348579407,
      "learning_rate": 1.709919117940414e-05,
      "loss": 1.3281,
      "mean_token_accuracy": 0.6701463560263315,
      "num_tokens": 871577120.0,
      "step": 5192
    },
    {
      "entropy": 1.7162544826666515,
      "epoch": 0.5704869407596606,
      "grad_norm": 0.6978714466094971,
      "learning_rate": 1.709801369338292e-05,
      "loss": 1.1938,
      "mean_token_accuracy": 0.6883192261060079,
      "num_tokens": 871681735.0,
      "step": 5193
    },
    {
      "entropy": 1.7487797538439434,
      "epoch": 0.5705967976710334,
      "grad_norm": 0.6483967900276184,
      "learning_rate": 1.709683601436231e-05,
      "loss": 1.4388,
      "mean_token_accuracy": 0.6695059786240259,
      "num_tokens": 871823015.0,
      "step": 5194
    },
    {
      "entropy": 1.6930171847343445,
      "epoch": 0.5707066545824064,
      "grad_norm": 0.6266820430755615,
      "learning_rate": 1.709565814237959e-05,
      "loss": 1.4659,
      "mean_token_accuracy": 0.6464860786994299,
      "num_tokens": 871993586.0,
      "step": 5195
    },
    {
      "entropy": 1.6980145176251729,
      "epoch": 0.5708165114937793,
      "grad_norm": 0.7094162106513977,
      "learning_rate": 1.7094480077472035e-05,
      "loss": 1.3551,
      "mean_token_accuracy": 0.6648579289515814,
      "num_tokens": 872131292.0,
      "step": 5196
    },
    {
      "entropy": 1.694219281276067,
      "epoch": 0.5709263684051523,
      "grad_norm": 0.7052621841430664,
      "learning_rate": 1.7093301819676935e-05,
      "loss": 1.3833,
      "mean_token_accuracy": 0.6764810482660929,
      "num_tokens": 872314113.0,
      "step": 5197
    },
    {
      "entropy": 1.7130983074506123,
      "epoch": 0.5710362253165252,
      "grad_norm": 0.6613668203353882,
      "learning_rate": 1.7092123369031575e-05,
      "loss": 1.4329,
      "mean_token_accuracy": 0.6563561856746674,
      "num_tokens": 872505265.0,
      "step": 5198
    },
    {
      "entropy": 1.7371846238772075,
      "epoch": 0.5711460822278982,
      "grad_norm": 0.6612892746925354,
      "learning_rate": 1.7090944725573254e-05,
      "loss": 1.4961,
      "mean_token_accuracy": 0.6479866852362951,
      "num_tokens": 872658236.0,
      "step": 5199
    },
    {
      "entropy": 1.6984902322292328,
      "epoch": 0.5712559391392711,
      "grad_norm": 0.7463762164115906,
      "learning_rate": 1.708976588933928e-05,
      "loss": 1.5082,
      "mean_token_accuracy": 0.6461683760086695,
      "num_tokens": 872821473.0,
      "step": 5200
    },
    {
      "entropy": 1.696275144815445,
      "epoch": 0.5713657960506441,
      "grad_norm": 0.7056490778923035,
      "learning_rate": 1.708858686036696e-05,
      "loss": 1.4607,
      "mean_token_accuracy": 0.6508284409840902,
      "num_tokens": 872984515.0,
      "step": 5201
    },
    {
      "entropy": 1.626963605483373,
      "epoch": 0.571475652962017,
      "grad_norm": 0.7029443383216858,
      "learning_rate": 1.7087407638693607e-05,
      "loss": 1.3804,
      "mean_token_accuracy": 0.6720445652802786,
      "num_tokens": 873183647.0,
      "step": 5202
    },
    {
      "entropy": 1.7299024264017742,
      "epoch": 0.57158550987339,
      "grad_norm": 0.586719810962677,
      "learning_rate": 1.7086228224356543e-05,
      "loss": 1.3943,
      "mean_token_accuracy": 0.6482478181521097,
      "num_tokens": 873348548.0,
      "step": 5203
    },
    {
      "entropy": 1.71010688940684,
      "epoch": 0.5716953667847628,
      "grad_norm": 0.7238386869430542,
      "learning_rate": 1.7085048617393104e-05,
      "loss": 1.365,
      "mean_token_accuracy": 0.6639541685581207,
      "num_tokens": 873549913.0,
      "step": 5204
    },
    {
      "entropy": 1.6785256763299305,
      "epoch": 0.5718052236961357,
      "grad_norm": 0.6056387424468994,
      "learning_rate": 1.7083868817840617e-05,
      "loss": 1.3858,
      "mean_token_accuracy": 0.6524512271086375,
      "num_tokens": 873733597.0,
      "step": 5205
    },
    {
      "entropy": 1.6776171326637268,
      "epoch": 0.5719150806075087,
      "grad_norm": 0.7004038095474243,
      "learning_rate": 1.7082688825736424e-05,
      "loss": 1.256,
      "mean_token_accuracy": 0.6724594185749689,
      "num_tokens": 873854790.0,
      "step": 5206
    },
    {
      "entropy": 1.6850430766741435,
      "epoch": 0.5720249375188816,
      "grad_norm": 0.6626861691474915,
      "learning_rate": 1.7081508641117866e-05,
      "loss": 1.3037,
      "mean_token_accuracy": 0.6690275172392527,
      "num_tokens": 874031885.0,
      "step": 5207
    },
    {
      "entropy": 1.68301260471344,
      "epoch": 0.5721347944302546,
      "grad_norm": 1.1614986658096313,
      "learning_rate": 1.7080328264022307e-05,
      "loss": 1.5599,
      "mean_token_accuracy": 0.6682318995396296,
      "num_tokens": 874203630.0,
      "step": 5208
    },
    {
      "entropy": 1.791142870982488,
      "epoch": 0.5722446513416275,
      "grad_norm": 0.736549973487854,
      "learning_rate": 1.7079147694487093e-05,
      "loss": 1.3728,
      "mean_token_accuracy": 0.6522929718097051,
      "num_tokens": 874342919.0,
      "step": 5209
    },
    {
      "entropy": 1.6703368723392487,
      "epoch": 0.5723545082530005,
      "grad_norm": 0.6671043634414673,
      "learning_rate": 1.7077966932549595e-05,
      "loss": 1.401,
      "mean_token_accuracy": 0.6502569168806076,
      "num_tokens": 874581234.0,
      "step": 5210
    },
    {
      "entropy": 1.7057646413644154,
      "epoch": 0.5724643651643734,
      "grad_norm": 0.652962863445282,
      "learning_rate": 1.707678597824718e-05,
      "loss": 1.4256,
      "mean_token_accuracy": 0.648739273349444,
      "num_tokens": 874765878.0,
      "step": 5211
    },
    {
      "entropy": 1.754818469285965,
      "epoch": 0.5725742220757464,
      "grad_norm": 0.6058507561683655,
      "learning_rate": 1.707560483161723e-05,
      "loss": 1.5231,
      "mean_token_accuracy": 0.6460634718338648,
      "num_tokens": 874977004.0,
      "step": 5212
    },
    {
      "entropy": 1.7265916963418324,
      "epoch": 0.5726840789871193,
      "grad_norm": 0.6572061777114868,
      "learning_rate": 1.7074423492697127e-05,
      "loss": 1.5681,
      "mean_token_accuracy": 0.6427283038695654,
      "num_tokens": 875176239.0,
      "step": 5213
    },
    {
      "entropy": 1.6362906793753307,
      "epoch": 0.5727939358984923,
      "grad_norm": 0.7420666217803955,
      "learning_rate": 1.7073241961524253e-05,
      "loss": 1.455,
      "mean_token_accuracy": 0.6566400279601415,
      "num_tokens": 875350911.0,
      "step": 5214
    },
    {
      "entropy": 1.7721679508686066,
      "epoch": 0.5729037928098651,
      "grad_norm": 0.6848008632659912,
      "learning_rate": 1.707206023813601e-05,
      "loss": 1.4325,
      "mean_token_accuracy": 0.6503975490729014,
      "num_tokens": 875533134.0,
      "step": 5215
    },
    {
      "entropy": 1.7172233561674755,
      "epoch": 0.5730136497212381,
      "grad_norm": 0.7289333343505859,
      "learning_rate": 1.7070878322569797e-05,
      "loss": 1.4098,
      "mean_token_accuracy": 0.6530760476986567,
      "num_tokens": 875694665.0,
      "step": 5216
    },
    {
      "entropy": 1.7005958954493205,
      "epoch": 0.573123506632611,
      "grad_norm": 0.7095157504081726,
      "learning_rate": 1.706969621486302e-05,
      "loss": 1.4573,
      "mean_token_accuracy": 0.6517948259909948,
      "num_tokens": 875849820.0,
      "step": 5217
    },
    {
      "entropy": 1.7994357645511627,
      "epoch": 0.5732333635439839,
      "grad_norm": 0.638963520526886,
      "learning_rate": 1.706851391505309e-05,
      "loss": 1.5509,
      "mean_token_accuracy": 0.6139777153730392,
      "num_tokens": 876084718.0,
      "step": 5218
    },
    {
      "entropy": 1.7117552955945332,
      "epoch": 0.5733432204553569,
      "grad_norm": 0.6520084738731384,
      "learning_rate": 1.7067331423177433e-05,
      "loss": 1.4279,
      "mean_token_accuracy": 0.649882584810257,
      "num_tokens": 876279619.0,
      "step": 5219
    },
    {
      "entropy": 1.6188062528769176,
      "epoch": 0.5734530773667298,
      "grad_norm": 0.6222274303436279,
      "learning_rate": 1.706614873927347e-05,
      "loss": 1.2127,
      "mean_token_accuracy": 0.6836750755707423,
      "num_tokens": 876402605.0,
      "step": 5220
    },
    {
      "entropy": 1.7084797322750092,
      "epoch": 0.5735629342781028,
      "grad_norm": 0.7118093967437744,
      "learning_rate": 1.7064965863378634e-05,
      "loss": 1.4423,
      "mean_token_accuracy": 0.6552711973587672,
      "num_tokens": 876580269.0,
      "step": 5221
    },
    {
      "entropy": 1.6655645966529846,
      "epoch": 0.5736727911894757,
      "grad_norm": 0.6326475143432617,
      "learning_rate": 1.7063782795530357e-05,
      "loss": 1.3397,
      "mean_token_accuracy": 0.6672480752070745,
      "num_tokens": 876767038.0,
      "step": 5222
    },
    {
      "entropy": 1.7708354194959004,
      "epoch": 0.5737826481008487,
      "grad_norm": 0.7146939635276794,
      "learning_rate": 1.7062599535766092e-05,
      "loss": 1.4182,
      "mean_token_accuracy": 0.6546067396799723,
      "num_tokens": 876905753.0,
      "step": 5223
    },
    {
      "entropy": 1.6421829263369243,
      "epoch": 0.5738925050122216,
      "grad_norm": 0.7064340710639954,
      "learning_rate": 1.706141608412328e-05,
      "loss": 1.5359,
      "mean_token_accuracy": 0.6482568581899008,
      "num_tokens": 877073242.0,
      "step": 5224
    },
    {
      "entropy": 1.7002604206403096,
      "epoch": 0.5740023619235946,
      "grad_norm": 0.7547617554664612,
      "learning_rate": 1.706023244063938e-05,
      "loss": 1.4337,
      "mean_token_accuracy": 0.6474874764680862,
      "num_tokens": 877218384.0,
      "step": 5225
    },
    {
      "entropy": 1.792248547077179,
      "epoch": 0.5741122188349674,
      "grad_norm": 0.7492245435714722,
      "learning_rate": 1.7059048605351857e-05,
      "loss": 1.5136,
      "mean_token_accuracy": 0.6328116208314896,
      "num_tokens": 877364436.0,
      "step": 5226
    },
    {
      "entropy": 1.7168182233969371,
      "epoch": 0.5742220757463404,
      "grad_norm": 0.5984399914741516,
      "learning_rate": 1.7057864578298175e-05,
      "loss": 1.3634,
      "mean_token_accuracy": 0.6506437808275223,
      "num_tokens": 877520851.0,
      "step": 5227
    },
    {
      "entropy": 1.6336182951927185,
      "epoch": 0.5743319326577133,
      "grad_norm": 0.6459986567497253,
      "learning_rate": 1.7056680359515807e-05,
      "loss": 1.4619,
      "mean_token_accuracy": 0.658488447467486,
      "num_tokens": 877714817.0,
      "step": 5228
    },
    {
      "entropy": 1.755718320608139,
      "epoch": 0.5744417895690863,
      "grad_norm": 0.691868782043457,
      "learning_rate": 1.7055495949042236e-05,
      "loss": 1.4811,
      "mean_token_accuracy": 0.6512856880823771,
      "num_tokens": 877896899.0,
      "step": 5229
    },
    {
      "entropy": 1.7979524632294972,
      "epoch": 0.5745516464804592,
      "grad_norm": 0.6676319241523743,
      "learning_rate": 1.7054311346914948e-05,
      "loss": 1.3411,
      "mean_token_accuracy": 0.6650152256091436,
      "num_tokens": 878029570.0,
      "step": 5230
    },
    {
      "entropy": 1.7446431517601013,
      "epoch": 0.5746615033918321,
      "grad_norm": 0.810004711151123,
      "learning_rate": 1.705312655317143e-05,
      "loss": 1.5819,
      "mean_token_accuracy": 0.6404779901107153,
      "num_tokens": 878204154.0,
      "step": 5231
    },
    {
      "entropy": 1.6578894356886547,
      "epoch": 0.5747713603032051,
      "grad_norm": 0.6192182898521423,
      "learning_rate": 1.7051941567849188e-05,
      "loss": 1.4529,
      "mean_token_accuracy": 0.6516250371932983,
      "num_tokens": 878372472.0,
      "step": 5232
    },
    {
      "entropy": 1.694698413213094,
      "epoch": 0.574881217214578,
      "grad_norm": 0.7715234160423279,
      "learning_rate": 1.7050756390985722e-05,
      "loss": 1.3658,
      "mean_token_accuracy": 0.6625189731518427,
      "num_tokens": 878498037.0,
      "step": 5233
    },
    {
      "entropy": 1.6993319789568584,
      "epoch": 0.574991074125951,
      "grad_norm": 0.8013604283332825,
      "learning_rate": 1.7049571022618542e-05,
      "loss": 1.255,
      "mean_token_accuracy": 0.6749153534571329,
      "num_tokens": 878628141.0,
      "step": 5234
    },
    {
      "entropy": 1.7042160034179688,
      "epoch": 0.5751009310373238,
      "grad_norm": 0.6807699203491211,
      "learning_rate": 1.7048385462785165e-05,
      "loss": 1.3983,
      "mean_token_accuracy": 0.6614261368910471,
      "num_tokens": 878808460.0,
      "step": 5235
    },
    {
      "entropy": 1.7180274625619252,
      "epoch": 0.5752107879486968,
      "grad_norm": 0.7537125945091248,
      "learning_rate": 1.7047199711523114e-05,
      "loss": 1.3341,
      "mean_token_accuracy": 0.659697949886322,
      "num_tokens": 878953257.0,
      "step": 5236
    },
    {
      "entropy": 1.7314948936303456,
      "epoch": 0.5753206448600697,
      "grad_norm": 0.6685804128646851,
      "learning_rate": 1.7046013768869917e-05,
      "loss": 1.3889,
      "mean_token_accuracy": 0.6570734431346258,
      "num_tokens": 879172278.0,
      "step": 5237
    },
    {
      "entropy": 1.6946994264920552,
      "epoch": 0.5754305017714427,
      "grad_norm": 0.691840648651123,
      "learning_rate": 1.7044827634863114e-05,
      "loss": 1.4046,
      "mean_token_accuracy": 0.6577261487642924,
      "num_tokens": 879297522.0,
      "step": 5238
    },
    {
      "entropy": 1.6562682489554088,
      "epoch": 0.5755403586828156,
      "grad_norm": 0.6487468481063843,
      "learning_rate": 1.704364130954023e-05,
      "loss": 1.3072,
      "mean_token_accuracy": 0.6770086338122686,
      "num_tokens": 879456037.0,
      "step": 5239
    },
    {
      "entropy": 1.7011775175730388,
      "epoch": 0.5756502155941886,
      "grad_norm": 0.7802998423576355,
      "learning_rate": 1.7042454792938827e-05,
      "loss": 1.3878,
      "mean_token_accuracy": 0.656680092215538,
      "num_tokens": 879654239.0,
      "step": 5240
    },
    {
      "entropy": 1.788252015908559,
      "epoch": 0.5757600725055615,
      "grad_norm": 0.8169171214103699,
      "learning_rate": 1.704126808509645e-05,
      "loss": 1.631,
      "mean_token_accuracy": 0.627186248699824,
      "num_tokens": 879815488.0,
      "step": 5241
    },
    {
      "entropy": 1.724605659643809,
      "epoch": 0.5758699294169345,
      "grad_norm": 0.624187707901001,
      "learning_rate": 1.7040081186050666e-05,
      "loss": 1.4769,
      "mean_token_accuracy": 0.6461042215426763,
      "num_tokens": 879993713.0,
      "step": 5242
    },
    {
      "entropy": 1.7722249925136566,
      "epoch": 0.5759797863283074,
      "grad_norm": 0.7050033211708069,
      "learning_rate": 1.703889409583903e-05,
      "loss": 1.5217,
      "mean_token_accuracy": 0.6346140801906586,
      "num_tokens": 880182622.0,
      "step": 5243
    },
    {
      "entropy": 1.7021553913752239,
      "epoch": 0.5760896432396804,
      "grad_norm": 0.6425755023956299,
      "learning_rate": 1.703770681449912e-05,
      "loss": 1.4137,
      "mean_token_accuracy": 0.6676051765680313,
      "num_tokens": 880327373.0,
      "step": 5244
    },
    {
      "entropy": 1.7722231149673462,
      "epoch": 0.5761995001510533,
      "grad_norm": 0.7244229316711426,
      "learning_rate": 1.7036519342068507e-05,
      "loss": 1.4358,
      "mean_token_accuracy": 0.6465661724408468,
      "num_tokens": 880481323.0,
      "step": 5245
    },
    {
      "entropy": 1.7024872402350109,
      "epoch": 0.5763093570624261,
      "grad_norm": 0.909506618976593,
      "learning_rate": 1.7035331678584776e-05,
      "loss": 1.4059,
      "mean_token_accuracy": 0.6582985470692316,
      "num_tokens": 880643104.0,
      "step": 5246
    },
    {
      "entropy": 1.688640296459198,
      "epoch": 0.5764192139737991,
      "grad_norm": 0.8793448805809021,
      "learning_rate": 1.703414382408552e-05,
      "loss": 1.5182,
      "mean_token_accuracy": 0.6507097780704498,
      "num_tokens": 880824149.0,
      "step": 5247
    },
    {
      "entropy": 1.7103163798650105,
      "epoch": 0.576529070885172,
      "grad_norm": 0.6955628395080566,
      "learning_rate": 1.703295577860833e-05,
      "loss": 1.4729,
      "mean_token_accuracy": 0.6492475817600886,
      "num_tokens": 881005364.0,
      "step": 5248
    },
    {
      "entropy": 1.7185686628023784,
      "epoch": 0.576638927796545,
      "grad_norm": 0.6877673268318176,
      "learning_rate": 1.703176754219081e-05,
      "loss": 1.36,
      "mean_token_accuracy": 0.6541955421368281,
      "num_tokens": 881203802.0,
      "step": 5249
    },
    {
      "entropy": 1.6697140634059906,
      "epoch": 0.5767487847079179,
      "grad_norm": 0.6812824010848999,
      "learning_rate": 1.703057911487056e-05,
      "loss": 1.3598,
      "mean_token_accuracy": 0.6645796249310175,
      "num_tokens": 881348954.0,
      "step": 5250
    },
    {
      "entropy": 1.7107038895289104,
      "epoch": 0.5768586416192909,
      "grad_norm": 0.676230788230896,
      "learning_rate": 1.70293904966852e-05,
      "loss": 1.4258,
      "mean_token_accuracy": 0.6471339017152786,
      "num_tokens": 881511658.0,
      "step": 5251
    },
    {
      "entropy": 1.693604399760564,
      "epoch": 0.5769684985306638,
      "grad_norm": 0.6729671955108643,
      "learning_rate": 1.702820168767235e-05,
      "loss": 1.3252,
      "mean_token_accuracy": 0.6672259618838629,
      "num_tokens": 881661578.0,
      "step": 5252
    },
    {
      "entropy": 1.7389824489752452,
      "epoch": 0.5770783554420368,
      "grad_norm": 0.7641178369522095,
      "learning_rate": 1.7027012687869637e-05,
      "loss": 1.32,
      "mean_token_accuracy": 0.6692226231098175,
      "num_tokens": 881774550.0,
      "step": 5253
    },
    {
      "entropy": 1.7137807210286458,
      "epoch": 0.5771882123534097,
      "grad_norm": 0.7289935350418091,
      "learning_rate": 1.7025823497314682e-05,
      "loss": 1.3686,
      "mean_token_accuracy": 0.6578000535567602,
      "num_tokens": 881928763.0,
      "step": 5254
    },
    {
      "entropy": 1.6480054656664531,
      "epoch": 0.5772980692647827,
      "grad_norm": 0.8076556921005249,
      "learning_rate": 1.7024634116045133e-05,
      "loss": 1.3671,
      "mean_token_accuracy": 0.669852688908577,
      "num_tokens": 882123111.0,
      "step": 5255
    },
    {
      "entropy": 1.6956392228603363,
      "epoch": 0.5774079261761556,
      "grad_norm": 0.7042696475982666,
      "learning_rate": 1.7023444544098624e-05,
      "loss": 1.3784,
      "mean_token_accuracy": 0.6528898576895396,
      "num_tokens": 882287513.0,
      "step": 5256
    },
    {
      "entropy": 1.6527445713678997,
      "epoch": 0.5775177830875285,
      "grad_norm": 0.5778684616088867,
      "learning_rate": 1.702225478151281e-05,
      "loss": 1.403,
      "mean_token_accuracy": 0.660379151503245,
      "num_tokens": 882511864.0,
      "step": 5257
    },
    {
      "entropy": 1.7085080047448475,
      "epoch": 0.5776276399989014,
      "grad_norm": 0.8756363391876221,
      "learning_rate": 1.7021064828325347e-05,
      "loss": 1.437,
      "mean_token_accuracy": 0.6682372838258743,
      "num_tokens": 882708567.0,
      "step": 5258
    },
    {
      "entropy": 1.7350213130315144,
      "epoch": 0.5777374969102743,
      "grad_norm": 0.7906478047370911,
      "learning_rate": 1.7019874684573897e-05,
      "loss": 1.4177,
      "mean_token_accuracy": 0.6588336328665415,
      "num_tokens": 882865802.0,
      "step": 5259
    },
    {
      "entropy": 1.7045749227205913,
      "epoch": 0.5778473538216473,
      "grad_norm": 0.6288008689880371,
      "learning_rate": 1.7018684350296123e-05,
      "loss": 1.3069,
      "mean_token_accuracy": 0.6615212808052698,
      "num_tokens": 882992111.0,
      "step": 5260
    },
    {
      "entropy": 1.7101500928401947,
      "epoch": 0.5779572107330202,
      "grad_norm": 0.6722090840339661,
      "learning_rate": 1.7017493825529703e-05,
      "loss": 1.3803,
      "mean_token_accuracy": 0.6603521555662155,
      "num_tokens": 883145631.0,
      "step": 5261
    },
    {
      "entropy": 1.7001839975516002,
      "epoch": 0.5780670676443932,
      "grad_norm": 0.6493961811065674,
      "learning_rate": 1.7016303110312316e-05,
      "loss": 1.3758,
      "mean_token_accuracy": 0.6508415341377258,
      "num_tokens": 883353534.0,
      "step": 5262
    },
    {
      "entropy": 1.7026556134223938,
      "epoch": 0.5781769245557661,
      "grad_norm": 0.5992609858512878,
      "learning_rate": 1.7015112204681644e-05,
      "loss": 1.4741,
      "mean_token_accuracy": 0.6399723639090856,
      "num_tokens": 883605305.0,
      "step": 5263
    },
    {
      "entropy": 1.7291531364123027,
      "epoch": 0.5782867814671391,
      "grad_norm": 0.8137235641479492,
      "learning_rate": 1.7013921108675385e-05,
      "loss": 1.4096,
      "mean_token_accuracy": 0.6661647657553355,
      "num_tokens": 883813260.0,
      "step": 5264
    },
    {
      "entropy": 1.672690361738205,
      "epoch": 0.578396638378512,
      "grad_norm": 0.5643144845962524,
      "learning_rate": 1.701272982233123e-05,
      "loss": 1.3007,
      "mean_token_accuracy": 0.6663571248451868,
      "num_tokens": 883975166.0,
      "step": 5265
    },
    {
      "entropy": 1.7014889319737752,
      "epoch": 0.578506495289885,
      "grad_norm": 0.8740093111991882,
      "learning_rate": 1.7011538345686887e-05,
      "loss": 1.3405,
      "mean_token_accuracy": 0.6774832854668299,
      "num_tokens": 884141235.0,
      "step": 5266
    },
    {
      "entropy": 1.709878146648407,
      "epoch": 0.5786163522012578,
      "grad_norm": 0.8314535021781921,
      "learning_rate": 1.7010346678780062e-05,
      "loss": 1.4373,
      "mean_token_accuracy": 0.6721083223819733,
      "num_tokens": 884279533.0,
      "step": 5267
    },
    {
      "entropy": 1.7554621994495392,
      "epoch": 0.5787262091126308,
      "grad_norm": 0.6525247097015381,
      "learning_rate": 1.7009154821648478e-05,
      "loss": 1.418,
      "mean_token_accuracy": 0.6456648210684458,
      "num_tokens": 884459831.0,
      "step": 5268
    },
    {
      "entropy": 1.6662676533063252,
      "epoch": 0.5788360660240037,
      "grad_norm": 0.765891969203949,
      "learning_rate": 1.7007962774329846e-05,
      "loss": 1.4096,
      "mean_token_accuracy": 0.650817280014356,
      "num_tokens": 884612746.0,
      "step": 5269
    },
    {
      "entropy": 1.6593515574932098,
      "epoch": 0.5789459229353767,
      "grad_norm": 0.5619024038314819,
      "learning_rate": 1.7006770536861902e-05,
      "loss": 1.444,
      "mean_token_accuracy": 0.6437307397524515,
      "num_tokens": 884817763.0,
      "step": 5270
    },
    {
      "entropy": 1.7293136517206829,
      "epoch": 0.5790557798467496,
      "grad_norm": 0.7005648612976074,
      "learning_rate": 1.7005578109282377e-05,
      "loss": 1.4625,
      "mean_token_accuracy": 0.6423446436723074,
      "num_tokens": 885024512.0,
      "step": 5271
    },
    {
      "entropy": 1.7019110818703969,
      "epoch": 0.5791656367581225,
      "grad_norm": 0.6571354269981384,
      "learning_rate": 1.700438549162901e-05,
      "loss": 1.3648,
      "mean_token_accuracy": 0.6714861591657003,
      "num_tokens": 885150107.0,
      "step": 5272
    },
    {
      "entropy": 1.683734953403473,
      "epoch": 0.5792754936694955,
      "grad_norm": 0.6158427596092224,
      "learning_rate": 1.7003192683939547e-05,
      "loss": 1.6153,
      "mean_token_accuracy": 0.6282309715946516,
      "num_tokens": 885329600.0,
      "step": 5273
    },
    {
      "entropy": 1.7012614409128826,
      "epoch": 0.5793853505808684,
      "grad_norm": 0.6291089057922363,
      "learning_rate": 1.7001999686251743e-05,
      "loss": 1.2531,
      "mean_token_accuracy": 0.6708623866240183,
      "num_tokens": 885477430.0,
      "step": 5274
    },
    {
      "entropy": 1.7729269862174988,
      "epoch": 0.5794952074922414,
      "grad_norm": 0.6474009156227112,
      "learning_rate": 1.7000806498603354e-05,
      "loss": 1.4934,
      "mean_token_accuracy": 0.6346175720294317,
      "num_tokens": 885718460.0,
      "step": 5275
    },
    {
      "entropy": 1.646110604206721,
      "epoch": 0.5796050644036143,
      "grad_norm": 1.444273829460144,
      "learning_rate": 1.6999613121032143e-05,
      "loss": 1.169,
      "mean_token_accuracy": 0.6865449994802475,
      "num_tokens": 885930047.0,
      "step": 5276
    },
    {
      "entropy": 1.733050415913264,
      "epoch": 0.5797149213149873,
      "grad_norm": 1.0887868404388428,
      "learning_rate": 1.6998419553575877e-05,
      "loss": 1.5272,
      "mean_token_accuracy": 0.6553502380847931,
      "num_tokens": 886082958.0,
      "step": 5277
    },
    {
      "entropy": 1.7067347665627797,
      "epoch": 0.5798247782263601,
      "grad_norm": 0.7280968427658081,
      "learning_rate": 1.6997225796272342e-05,
      "loss": 1.3507,
      "mean_token_accuracy": 0.6697677026192347,
      "num_tokens": 886202974.0,
      "step": 5278
    },
    {
      "entropy": 1.6995122532049816,
      "epoch": 0.5799346351377331,
      "grad_norm": 0.6713830232620239,
      "learning_rate": 1.6996031849159304e-05,
      "loss": 1.3817,
      "mean_token_accuracy": 0.6518794447183609,
      "num_tokens": 886396571.0,
      "step": 5279
    },
    {
      "entropy": 1.7079652845859528,
      "epoch": 0.580044492049106,
      "grad_norm": 0.7544903755187988,
      "learning_rate": 1.6994837712274566e-05,
      "loss": 1.3505,
      "mean_token_accuracy": 0.663679818312327,
      "num_tokens": 886534124.0,
      "step": 5280
    },
    {
      "entropy": 1.718712459007899,
      "epoch": 0.580154348960479,
      "grad_norm": 0.6247344613075256,
      "learning_rate": 1.6993643385655914e-05,
      "loss": 1.3006,
      "mean_token_accuracy": 0.6607035100460052,
      "num_tokens": 886670601.0,
      "step": 5281
    },
    {
      "entropy": 1.730804314215978,
      "epoch": 0.5802642058718519,
      "grad_norm": 0.5982744693756104,
      "learning_rate": 1.6992448869341147e-05,
      "loss": 1.4283,
      "mean_token_accuracy": 0.6605020463466644,
      "num_tokens": 886849250.0,
      "step": 5282
    },
    {
      "entropy": 1.6990150213241577,
      "epoch": 0.5803740627832249,
      "grad_norm": 0.7501466274261475,
      "learning_rate": 1.6991254163368077e-05,
      "loss": 1.4045,
      "mean_token_accuracy": 0.6659552901983261,
      "num_tokens": 886994164.0,
      "step": 5283
    },
    {
      "entropy": 1.7572198311487834,
      "epoch": 0.5804839196945978,
      "grad_norm": 0.7074136734008789,
      "learning_rate": 1.699005926777451e-05,
      "loss": 1.6011,
      "mean_token_accuracy": 0.6400540322065353,
      "num_tokens": 887194351.0,
      "step": 5284
    },
    {
      "entropy": 1.6333990295728047,
      "epoch": 0.5805937766059707,
      "grad_norm": 0.8395227193832397,
      "learning_rate": 1.698886418259827e-05,
      "loss": 1.2298,
      "mean_token_accuracy": 0.68232361972332,
      "num_tokens": 887338240.0,
      "step": 5285
    },
    {
      "entropy": 1.7285989026228588,
      "epoch": 0.5807036335173437,
      "grad_norm": 0.6749279499053955,
      "learning_rate": 1.6987668907877176e-05,
      "loss": 1.5952,
      "mean_token_accuracy": 0.637232648829619,
      "num_tokens": 887543389.0,
      "step": 5286
    },
    {
      "entropy": 1.6935764054457347,
      "epoch": 0.5808134904287166,
      "grad_norm": 0.6975464224815369,
      "learning_rate": 1.6986473443649058e-05,
      "loss": 1.3784,
      "mean_token_accuracy": 0.6656419287125269,
      "num_tokens": 887737148.0,
      "step": 5287
    },
    {
      "entropy": 1.7259495158990223,
      "epoch": 0.5809233473400895,
      "grad_norm": 0.6545588970184326,
      "learning_rate": 1.698527778995175e-05,
      "loss": 1.4611,
      "mean_token_accuracy": 0.6462489118178686,
      "num_tokens": 887956818.0,
      "step": 5288
    },
    {
      "entropy": 1.7162467340628307,
      "epoch": 0.5810332042514624,
      "grad_norm": 0.7039337158203125,
      "learning_rate": 1.6984081946823102e-05,
      "loss": 1.416,
      "mean_token_accuracy": 0.6598154058059057,
      "num_tokens": 888168154.0,
      "step": 5289
    },
    {
      "entropy": 1.7691878577073414,
      "epoch": 0.5811430611628354,
      "grad_norm": 0.7095263004302979,
      "learning_rate": 1.698288591430096e-05,
      "loss": 1.3154,
      "mean_token_accuracy": 0.661227265993754,
      "num_tokens": 888288120.0,
      "step": 5290
    },
    {
      "entropy": 1.66457137465477,
      "epoch": 0.5812529180742083,
      "grad_norm": 0.7228137850761414,
      "learning_rate": 1.6981689692423166e-05,
      "loss": 1.3557,
      "mean_token_accuracy": 0.668318991859754,
      "num_tokens": 888435126.0,
      "step": 5291
    },
    {
      "entropy": 1.7254151900609334,
      "epoch": 0.5813627749855813,
      "grad_norm": 0.6591452360153198,
      "learning_rate": 1.6980493281227595e-05,
      "loss": 1.426,
      "mean_token_accuracy": 0.6703950862089793,
      "num_tokens": 888628454.0,
      "step": 5292
    },
    {
      "entropy": 1.7352023720741272,
      "epoch": 0.5814726318969542,
      "grad_norm": 0.7988258004188538,
      "learning_rate": 1.6979296680752103e-05,
      "loss": 1.4883,
      "mean_token_accuracy": 0.6490569015343984,
      "num_tokens": 888814092.0,
      "step": 5293
    },
    {
      "entropy": 1.6795012454191844,
      "epoch": 0.5815824888083272,
      "grad_norm": 0.8168243169784546,
      "learning_rate": 1.6978099891034564e-05,
      "loss": 1.3261,
      "mean_token_accuracy": 0.6650880227486292,
      "num_tokens": 888976522.0,
      "step": 5294
    },
    {
      "entropy": 1.7140100101629894,
      "epoch": 0.5816923457197001,
      "grad_norm": 0.6555765867233276,
      "learning_rate": 1.6976902912112862e-05,
      "loss": 1.3571,
      "mean_token_accuracy": 0.668232391277949,
      "num_tokens": 889116020.0,
      "step": 5295
    },
    {
      "entropy": 1.6489605208237965,
      "epoch": 0.5818022026310731,
      "grad_norm": 0.5820825695991516,
      "learning_rate": 1.6975705744024875e-05,
      "loss": 1.3159,
      "mean_token_accuracy": 0.6601169308026632,
      "num_tokens": 889297392.0,
      "step": 5296
    },
    {
      "entropy": 1.726332853237788,
      "epoch": 0.581912059542446,
      "grad_norm": 0.7054926156997681,
      "learning_rate": 1.697450838680849e-05,
      "loss": 1.5213,
      "mean_token_accuracy": 0.6465317706267039,
      "num_tokens": 889440904.0,
      "step": 5297
    },
    {
      "entropy": 1.675535907347997,
      "epoch": 0.582021916453819,
      "grad_norm": 0.6241676211357117,
      "learning_rate": 1.697331084050161e-05,
      "loss": 1.3933,
      "mean_token_accuracy": 0.6527293970187505,
      "num_tokens": 889625922.0,
      "step": 5298
    },
    {
      "entropy": 1.6990026930967967,
      "epoch": 0.5821317733651918,
      "grad_norm": 0.7096611261367798,
      "learning_rate": 1.6972113105142134e-05,
      "loss": 1.3727,
      "mean_token_accuracy": 0.6669509063164393,
      "num_tokens": 889747954.0,
      "step": 5299
    },
    {
      "entropy": 1.7199326157569885,
      "epoch": 0.5822416302765647,
      "grad_norm": 0.7114792466163635,
      "learning_rate": 1.697091518076797e-05,
      "loss": 1.7058,
      "mean_token_accuracy": 0.6259814451138178,
      "num_tokens": 889963566.0,
      "step": 5300
    },
    {
      "entropy": 1.728680282831192,
      "epoch": 0.5823514871879377,
      "grad_norm": 0.6678593158721924,
      "learning_rate": 1.6969717067417027e-05,
      "loss": 1.3901,
      "mean_token_accuracy": 0.6541063139835993,
      "num_tokens": 890097701.0,
      "step": 5301
    },
    {
      "entropy": 1.7306519746780396,
      "epoch": 0.5824613440993106,
      "grad_norm": 0.621885359287262,
      "learning_rate": 1.6968518765127234e-05,
      "loss": 1.458,
      "mean_token_accuracy": 0.6357903728882471,
      "num_tokens": 890300403.0,
      "step": 5302
    },
    {
      "entropy": 1.7454725603262584,
      "epoch": 0.5825712010106836,
      "grad_norm": 0.7045135498046875,
      "learning_rate": 1.696732027393651e-05,
      "loss": 1.5412,
      "mean_token_accuracy": 0.6473953574895859,
      "num_tokens": 890504802.0,
      "step": 5303
    },
    {
      "entropy": 1.7602245509624481,
      "epoch": 0.5826810579220565,
      "grad_norm": 0.6078582406044006,
      "learning_rate": 1.6966121593882783e-05,
      "loss": 1.4724,
      "mean_token_accuracy": 0.6533922801415125,
      "num_tokens": 890684992.0,
      "step": 5304
    },
    {
      "entropy": 1.6792764365673065,
      "epoch": 0.5827909148334295,
      "grad_norm": 0.626315176486969,
      "learning_rate": 1.6964922725004e-05,
      "loss": 1.2841,
      "mean_token_accuracy": 0.6726724753777186,
      "num_tokens": 890831358.0,
      "step": 5305
    },
    {
      "entropy": 1.681016316016515,
      "epoch": 0.5829007717448024,
      "grad_norm": 0.6014984846115112,
      "learning_rate": 1.6963723667338104e-05,
      "loss": 1.3824,
      "mean_token_accuracy": 0.6497796426216761,
      "num_tokens": 891039826.0,
      "step": 5306
    },
    {
      "entropy": 1.6937636534372966,
      "epoch": 0.5830106286561754,
      "grad_norm": 0.616007924079895,
      "learning_rate": 1.696252442092304e-05,
      "loss": 1.3501,
      "mean_token_accuracy": 0.6541839092969894,
      "num_tokens": 891155706.0,
      "step": 5307
    },
    {
      "entropy": 1.689687172571818,
      "epoch": 0.5831204855675483,
      "grad_norm": 0.5852237343788147,
      "learning_rate": 1.696132498579676e-05,
      "loss": 1.3242,
      "mean_token_accuracy": 0.6588374376296997,
      "num_tokens": 891334512.0,
      "step": 5308
    },
    {
      "entropy": 1.7258604069550831,
      "epoch": 0.5832303424789212,
      "grad_norm": 0.6953949332237244,
      "learning_rate": 1.6960125361997232e-05,
      "loss": 1.4621,
      "mean_token_accuracy": 0.6593173642953237,
      "num_tokens": 891501515.0,
      "step": 5309
    },
    {
      "entropy": 1.710837850968043,
      "epoch": 0.5833401993902941,
      "grad_norm": 0.6133494973182678,
      "learning_rate": 1.6958925549562423e-05,
      "loss": 1.5322,
      "mean_token_accuracy": 0.6437032918135325,
      "num_tokens": 891691280.0,
      "step": 5310
    },
    {
      "entropy": 1.637757400671641,
      "epoch": 0.5834500563016671,
      "grad_norm": 0.6457231044769287,
      "learning_rate": 1.6957725548530307e-05,
      "loss": 1.2902,
      "mean_token_accuracy": 0.6730124702056249,
      "num_tokens": 891841543.0,
      "step": 5311
    },
    {
      "entropy": 1.676180859406789,
      "epoch": 0.58355991321304,
      "grad_norm": 0.6418126225471497,
      "learning_rate": 1.6956525358938866e-05,
      "loss": 1.5549,
      "mean_token_accuracy": 0.6378814553221067,
      "num_tokens": 892038000.0,
      "step": 5312
    },
    {
      "entropy": 1.7321598728497822,
      "epoch": 0.5836697701244129,
      "grad_norm": 0.6593100428581238,
      "learning_rate": 1.6955324980826073e-05,
      "loss": 1.4845,
      "mean_token_accuracy": 0.6519307891527811,
      "num_tokens": 892184783.0,
      "step": 5313
    },
    {
      "entropy": 1.7277933657169342,
      "epoch": 0.5837796270357859,
      "grad_norm": 0.7424345016479492,
      "learning_rate": 1.695412441422993e-05,
      "loss": 1.455,
      "mean_token_accuracy": 0.6451116353273392,
      "num_tokens": 892375390.0,
      "step": 5314
    },
    {
      "entropy": 1.7113395134607952,
      "epoch": 0.5838894839471588,
      "grad_norm": 0.705172061920166,
      "learning_rate": 1.6952923659188437e-05,
      "loss": 1.276,
      "mean_token_accuracy": 0.6679862240950266,
      "num_tokens": 892535909.0,
      "step": 5315
    },
    {
      "entropy": 1.589612990617752,
      "epoch": 0.5839993408585318,
      "grad_norm": 0.5760466456413269,
      "learning_rate": 1.6951722715739584e-05,
      "loss": 1.3377,
      "mean_token_accuracy": 0.6666668653488159,
      "num_tokens": 892712710.0,
      "step": 5316
    },
    {
      "entropy": 1.6956795851389568,
      "epoch": 0.5841091977699047,
      "grad_norm": 0.8694625496864319,
      "learning_rate": 1.6950521583921397e-05,
      "loss": 1.4102,
      "mean_token_accuracy": 0.6633008221785227,
      "num_tokens": 892862269.0,
      "step": 5317
    },
    {
      "entropy": 1.7499979138374329,
      "epoch": 0.5842190546812777,
      "grad_norm": 0.6729763150215149,
      "learning_rate": 1.694932026377188e-05,
      "loss": 1.5164,
      "mean_token_accuracy": 0.6467028011878332,
      "num_tokens": 893046579.0,
      "step": 5318
    },
    {
      "entropy": 1.7273075977961223,
      "epoch": 0.5843289115926505,
      "grad_norm": 0.7413749098777771,
      "learning_rate": 1.6948118755329058e-05,
      "loss": 1.6088,
      "mean_token_accuracy": 0.6405004958311716,
      "num_tokens": 893236120.0,
      "step": 5319
    },
    {
      "entropy": 1.763388415177663,
      "epoch": 0.5844387685040235,
      "grad_norm": 0.7787388563156128,
      "learning_rate": 1.6946917058630955e-05,
      "loss": 1.3354,
      "mean_token_accuracy": 0.6630240182081858,
      "num_tokens": 893371667.0,
      "step": 5320
    },
    {
      "entropy": 1.7534803748130798,
      "epoch": 0.5845486254153964,
      "grad_norm": 0.8445398211479187,
      "learning_rate": 1.6945715173715613e-05,
      "loss": 0.913,
      "mean_token_accuracy": 0.6981311688820521,
      "num_tokens": 893492510.0,
      "step": 5321
    },
    {
      "entropy": 1.7531782786051433,
      "epoch": 0.5846584823267694,
      "grad_norm": 0.7116334438323975,
      "learning_rate": 1.694451310062106e-05,
      "loss": 1.3404,
      "mean_token_accuracy": 0.6567851354678472,
      "num_tokens": 893645939.0,
      "step": 5322
    },
    {
      "entropy": 1.7355563342571259,
      "epoch": 0.5847683392381423,
      "grad_norm": 0.6662753224372864,
      "learning_rate": 1.6943310839385346e-05,
      "loss": 1.3407,
      "mean_token_accuracy": 0.6634679039319357,
      "num_tokens": 893779093.0,
      "step": 5323
    },
    {
      "entropy": 1.7133808135986328,
      "epoch": 0.5848781961495153,
      "grad_norm": 0.7315980792045593,
      "learning_rate": 1.6942108390046523e-05,
      "loss": 1.5366,
      "mean_token_accuracy": 0.6463624636332194,
      "num_tokens": 893920200.0,
      "step": 5324
    },
    {
      "entropy": 1.733003169298172,
      "epoch": 0.5849880530608882,
      "grad_norm": 0.7187158465385437,
      "learning_rate": 1.6940905752642648e-05,
      "loss": 1.3796,
      "mean_token_accuracy": 0.6481821984052658,
      "num_tokens": 894070681.0,
      "step": 5325
    },
    {
      "entropy": 1.7708965142567952,
      "epoch": 0.5850979099722611,
      "grad_norm": 0.8311673998832703,
      "learning_rate": 1.693970292721178e-05,
      "loss": 1.518,
      "mean_token_accuracy": 0.6394187857707342,
      "num_tokens": 894259155.0,
      "step": 5326
    },
    {
      "entropy": 1.7388906975587208,
      "epoch": 0.5852077668836341,
      "grad_norm": 0.7034797072410583,
      "learning_rate": 1.6938499913791996e-05,
      "loss": 1.4722,
      "mean_token_accuracy": 0.6401112427314123,
      "num_tokens": 894413541.0,
      "step": 5327
    },
    {
      "entropy": 1.6831568082173665,
      "epoch": 0.585317623795007,
      "grad_norm": 0.6965767741203308,
      "learning_rate": 1.6937296712421364e-05,
      "loss": 1.2915,
      "mean_token_accuracy": 0.6696919500827789,
      "num_tokens": 894541182.0,
      "step": 5328
    },
    {
      "entropy": 1.6878312130769093,
      "epoch": 0.58542748070638,
      "grad_norm": 0.6519395709037781,
      "learning_rate": 1.6936093323137963e-05,
      "loss": 1.2841,
      "mean_token_accuracy": 0.6752176831165949,
      "num_tokens": 894678154.0,
      "step": 5329
    },
    {
      "entropy": 1.6015850404898326,
      "epoch": 0.5855373376177528,
      "grad_norm": 0.7328821420669556,
      "learning_rate": 1.6934889745979886e-05,
      "loss": 1.2998,
      "mean_token_accuracy": 0.6716904441515604,
      "num_tokens": 894839877.0,
      "step": 5330
    },
    {
      "entropy": 1.6900799870491028,
      "epoch": 0.5856471945291258,
      "grad_norm": 0.6380017399787903,
      "learning_rate": 1.6933685980985224e-05,
      "loss": 1.4289,
      "mean_token_accuracy": 0.6551753083864847,
      "num_tokens": 894977460.0,
      "step": 5331
    },
    {
      "entropy": 1.7345438599586487,
      "epoch": 0.5857570514404987,
      "grad_norm": 0.7761285901069641,
      "learning_rate": 1.6932482028192074e-05,
      "loss": 1.2974,
      "mean_token_accuracy": 0.6700637092192968,
      "num_tokens": 895105165.0,
      "step": 5332
    },
    {
      "entropy": 1.6849959095319111,
      "epoch": 0.5858669083518717,
      "grad_norm": 0.6113293170928955,
      "learning_rate": 1.6931277887638537e-05,
      "loss": 1.4208,
      "mean_token_accuracy": 0.6713494658470154,
      "num_tokens": 895276035.0,
      "step": 5333
    },
    {
      "entropy": 1.7273829380671184,
      "epoch": 0.5859767652632446,
      "grad_norm": 0.6847710013389587,
      "learning_rate": 1.6930073559362732e-05,
      "loss": 1.3862,
      "mean_token_accuracy": 0.6546449114878973,
      "num_tokens": 895459349.0,
      "step": 5334
    },
    {
      "entropy": 1.7116826176643372,
      "epoch": 0.5860866221746176,
      "grad_norm": 0.6733460426330566,
      "learning_rate": 1.692886904340277e-05,
      "loss": 1.3885,
      "mean_token_accuracy": 0.6552889744440714,
      "num_tokens": 895648082.0,
      "step": 5335
    },
    {
      "entropy": 1.7135928471883137,
      "epoch": 0.5861964790859905,
      "grad_norm": 0.7363564968109131,
      "learning_rate": 1.6927664339796773e-05,
      "loss": 1.2452,
      "mean_token_accuracy": 0.6762679914633433,
      "num_tokens": 895792045.0,
      "step": 5336
    },
    {
      "entropy": 1.708931068579356,
      "epoch": 0.5863063359973635,
      "grad_norm": 0.6197008490562439,
      "learning_rate": 1.692645944858287e-05,
      "loss": 1.5095,
      "mean_token_accuracy": 0.6281079649925232,
      "num_tokens": 896003794.0,
      "step": 5337
    },
    {
      "entropy": 1.7107830742994945,
      "epoch": 0.5864161929087364,
      "grad_norm": 0.7372785210609436,
      "learning_rate": 1.69252543697992e-05,
      "loss": 1.4289,
      "mean_token_accuracy": 0.6556178480386734,
      "num_tokens": 896152637.0,
      "step": 5338
    },
    {
      "entropy": 1.6730316678682964,
      "epoch": 0.5865260498201094,
      "grad_norm": 0.7120349407196045,
      "learning_rate": 1.6924049103483896e-05,
      "loss": 1.4772,
      "mean_token_accuracy": 0.6575778424739838,
      "num_tokens": 896352786.0,
      "step": 5339
    },
    {
      "entropy": 1.7376192808151245,
      "epoch": 0.5866359067314822,
      "grad_norm": 0.7281277775764465,
      "learning_rate": 1.692284364967511e-05,
      "loss": 1.4657,
      "mean_token_accuracy": 0.6524485051631927,
      "num_tokens": 896493812.0,
      "step": 5340
    },
    {
      "entropy": 1.7086794475714366,
      "epoch": 0.5867457636428551,
      "grad_norm": 0.6899880766868591,
      "learning_rate": 1.6921638008410984e-05,
      "loss": 1.3757,
      "mean_token_accuracy": 0.6638755599657694,
      "num_tokens": 896656202.0,
      "step": 5341
    },
    {
      "entropy": 1.7046737869580586,
      "epoch": 0.5868556205542281,
      "grad_norm": 0.6136064529418945,
      "learning_rate": 1.692043217972969e-05,
      "loss": 1.4449,
      "mean_token_accuracy": 0.6559189210335413,
      "num_tokens": 896874423.0,
      "step": 5342
    },
    {
      "entropy": 1.7691023747126262,
      "epoch": 0.586965477465601,
      "grad_norm": 0.6861811876296997,
      "learning_rate": 1.6919226163669385e-05,
      "loss": 1.5529,
      "mean_token_accuracy": 0.6326283564170202,
      "num_tokens": 897049573.0,
      "step": 5343
    },
    {
      "entropy": 1.703104058901469,
      "epoch": 0.587075334376974,
      "grad_norm": 0.6944000720977783,
      "learning_rate": 1.691801996026824e-05,
      "loss": 1.3242,
      "mean_token_accuracy": 0.6579422255357107,
      "num_tokens": 897206230.0,
      "step": 5344
    },
    {
      "entropy": 1.766764263312022,
      "epoch": 0.5871851912883469,
      "grad_norm": 0.6695455312728882,
      "learning_rate": 1.6916813569564428e-05,
      "loss": 1.3056,
      "mean_token_accuracy": 0.6696594009796778,
      "num_tokens": 897363683.0,
      "step": 5345
    },
    {
      "entropy": 1.779427985350291,
      "epoch": 0.5872950481997199,
      "grad_norm": 0.7089075446128845,
      "learning_rate": 1.6915606991596132e-05,
      "loss": 1.3939,
      "mean_token_accuracy": 0.6523445149262747,
      "num_tokens": 897537706.0,
      "step": 5346
    },
    {
      "entropy": 1.7377333045005798,
      "epoch": 0.5874049051110928,
      "grad_norm": 0.7925550937652588,
      "learning_rate": 1.691440022640154e-05,
      "loss": 1.4406,
      "mean_token_accuracy": 0.651837890346845,
      "num_tokens": 897722349.0,
      "step": 5347
    },
    {
      "entropy": 1.673417071501414,
      "epoch": 0.5875147620224658,
      "grad_norm": 0.77927565574646,
      "learning_rate": 1.6913193274018848e-05,
      "loss": 1.3656,
      "mean_token_accuracy": 0.6586094995339712,
      "num_tokens": 897887572.0,
      "step": 5348
    },
    {
      "entropy": 1.6529791951179504,
      "epoch": 0.5876246189338387,
      "grad_norm": 0.7137171626091003,
      "learning_rate": 1.6911986134486252e-05,
      "loss": 1.3981,
      "mean_token_accuracy": 0.6643014947573344,
      "num_tokens": 898057976.0,
      "step": 5349
    },
    {
      "entropy": 1.7111935218175252,
      "epoch": 0.5877344758452117,
      "grad_norm": 0.6308448910713196,
      "learning_rate": 1.691077880784196e-05,
      "loss": 1.2921,
      "mean_token_accuracy": 0.6741099208593369,
      "num_tokens": 898208741.0,
      "step": 5350
    },
    {
      "entropy": 1.7605046530564625,
      "epoch": 0.5878443327565845,
      "grad_norm": 0.6674914956092834,
      "learning_rate": 1.6909571294124184e-05,
      "loss": 1.5404,
      "mean_token_accuracy": 0.6369107812643051,
      "num_tokens": 898382084.0,
      "step": 5351
    },
    {
      "entropy": 1.723831405242284,
      "epoch": 0.5879541896679575,
      "grad_norm": 0.8111042976379395,
      "learning_rate": 1.6908363593371134e-05,
      "loss": 1.4523,
      "mean_token_accuracy": 0.6531597375869751,
      "num_tokens": 898528919.0,
      "step": 5352
    },
    {
      "entropy": 1.7647210558255513,
      "epoch": 0.5880640465793304,
      "grad_norm": 0.6686208844184875,
      "learning_rate": 1.6907155705621044e-05,
      "loss": 1.452,
      "mean_token_accuracy": 0.6530319501956304,
      "num_tokens": 898678535.0,
      "step": 5353
    },
    {
      "entropy": 1.7188012103239696,
      "epoch": 0.5881739034907033,
      "grad_norm": 0.6231117248535156,
      "learning_rate": 1.6905947630912137e-05,
      "loss": 1.4291,
      "mean_token_accuracy": 0.6495647728443146,
      "num_tokens": 898862122.0,
      "step": 5354
    },
    {
      "entropy": 1.7267694274584453,
      "epoch": 0.5882837604020763,
      "grad_norm": 0.6327919960021973,
      "learning_rate": 1.6904739369282646e-05,
      "loss": 1.3621,
      "mean_token_accuracy": 0.6660894205172857,
      "num_tokens": 899026487.0,
      "step": 5355
    },
    {
      "entropy": 1.732596476872762,
      "epoch": 0.5883936173134492,
      "grad_norm": 0.6500836610794067,
      "learning_rate": 1.6903530920770818e-05,
      "loss": 1.3427,
      "mean_token_accuracy": 0.660812055071195,
      "num_tokens": 899202132.0,
      "step": 5356
    },
    {
      "entropy": 1.7914599478244781,
      "epoch": 0.5885034742248222,
      "grad_norm": 0.7583115100860596,
      "learning_rate": 1.6902322285414893e-05,
      "loss": 1.3587,
      "mean_token_accuracy": 0.6623788376649221,
      "num_tokens": 899361031.0,
      "step": 5357
    },
    {
      "entropy": 1.6479543348153431,
      "epoch": 0.5886133311361951,
      "grad_norm": 0.6269407868385315,
      "learning_rate": 1.6901113463253126e-05,
      "loss": 1.2791,
      "mean_token_accuracy": 0.6785383919874827,
      "num_tokens": 899498069.0,
      "step": 5358
    },
    {
      "entropy": 1.6799676318963368,
      "epoch": 0.5887231880475681,
      "grad_norm": 0.6469370722770691,
      "learning_rate": 1.6899904454323782e-05,
      "loss": 1.3679,
      "mean_token_accuracy": 0.6630029827356339,
      "num_tokens": 899695117.0,
      "step": 5359
    },
    {
      "entropy": 1.7061224579811096,
      "epoch": 0.588833044958941,
      "grad_norm": 0.6230675578117371,
      "learning_rate": 1.689869525866512e-05,
      "loss": 1.3548,
      "mean_token_accuracy": 0.6579580803712209,
      "num_tokens": 899856534.0,
      "step": 5360
    },
    {
      "entropy": 1.725221852461497,
      "epoch": 0.588942901870314,
      "grad_norm": 0.6036698818206787,
      "learning_rate": 1.689748587631541e-05,
      "loss": 1.392,
      "mean_token_accuracy": 0.6504359195629755,
      "num_tokens": 900066575.0,
      "step": 5361
    },
    {
      "entropy": 1.7007695138454437,
      "epoch": 0.5890527587816868,
      "grad_norm": 0.7017976641654968,
      "learning_rate": 1.689627630731293e-05,
      "loss": 1.3983,
      "mean_token_accuracy": 0.6593217353026072,
      "num_tokens": 900232711.0,
      "step": 5362
    },
    {
      "entropy": 1.6633349259694417,
      "epoch": 0.5891626156930598,
      "grad_norm": 0.6416093111038208,
      "learning_rate": 1.6895066551695958e-05,
      "loss": 1.2961,
      "mean_token_accuracy": 0.6652289082606634,
      "num_tokens": 900425804.0,
      "step": 5363
    },
    {
      "entropy": 1.7397405008474986,
      "epoch": 0.5892724726044327,
      "grad_norm": 0.7236183881759644,
      "learning_rate": 1.689385660950279e-05,
      "loss": 1.317,
      "mean_token_accuracy": 0.6659122854471207,
      "num_tokens": 900551096.0,
      "step": 5364
    },
    {
      "entropy": 1.753376970688502,
      "epoch": 0.5893823295158057,
      "grad_norm": 0.7134180068969727,
      "learning_rate": 1.6892646480771714e-05,
      "loss": 1.409,
      "mean_token_accuracy": 0.6489014178514481,
      "num_tokens": 900751781.0,
      "step": 5365
    },
    {
      "entropy": 1.7056757907072704,
      "epoch": 0.5894921864271786,
      "grad_norm": 0.7589015960693359,
      "learning_rate": 1.6891436165541033e-05,
      "loss": 1.3076,
      "mean_token_accuracy": 0.6677842835585276,
      "num_tokens": 900921952.0,
      "step": 5366
    },
    {
      "entropy": 1.6635324656963348,
      "epoch": 0.5896020433385515,
      "grad_norm": 0.6845018267631531,
      "learning_rate": 1.6890225663849053e-05,
      "loss": 1.4531,
      "mean_token_accuracy": 0.6488099843263626,
      "num_tokens": 901075512.0,
      "step": 5367
    },
    {
      "entropy": 1.7018173734347026,
      "epoch": 0.5897119002499245,
      "grad_norm": 0.6907767653465271,
      "learning_rate": 1.6889014975734086e-05,
      "loss": 1.4226,
      "mean_token_accuracy": 0.6496013949314753,
      "num_tokens": 901238201.0,
      "step": 5368
    },
    {
      "entropy": 1.618338406085968,
      "epoch": 0.5898217571612974,
      "grad_norm": 0.707096517086029,
      "learning_rate": 1.6887804101234442e-05,
      "loss": 1.1916,
      "mean_token_accuracy": 0.6871578395366669,
      "num_tokens": 901386796.0,
      "step": 5369
    },
    {
      "entropy": 1.7351085146268208,
      "epoch": 0.5899316140726704,
      "grad_norm": 0.7170294523239136,
      "learning_rate": 1.6886593040388458e-05,
      "loss": 1.4842,
      "mean_token_accuracy": 0.6426356732845306,
      "num_tokens": 901541333.0,
      "step": 5370
    },
    {
      "entropy": 1.6429972449938457,
      "epoch": 0.5900414709840432,
      "grad_norm": 0.5985599756240845,
      "learning_rate": 1.6885381793234457e-05,
      "loss": 1.3731,
      "mean_token_accuracy": 0.6494886229435602,
      "num_tokens": 901705291.0,
      "step": 5371
    },
    {
      "entropy": 1.7603021562099457,
      "epoch": 0.5901513278954162,
      "grad_norm": 0.6294792890548706,
      "learning_rate": 1.688417035981077e-05,
      "loss": 1.5715,
      "mean_token_accuracy": 0.6342183103164037,
      "num_tokens": 901907928.0,
      "step": 5372
    },
    {
      "entropy": 1.7004207074642181,
      "epoch": 0.5902611848067891,
      "grad_norm": 0.6703773140907288,
      "learning_rate": 1.688295874015575e-05,
      "loss": 1.315,
      "mean_token_accuracy": 0.667037362853686,
      "num_tokens": 902036622.0,
      "step": 5373
    },
    {
      "entropy": 1.7578519781430562,
      "epoch": 0.5903710417181621,
      "grad_norm": 0.7326668500900269,
      "learning_rate": 1.688174693430773e-05,
      "loss": 1.5802,
      "mean_token_accuracy": 0.6321331361929575,
      "num_tokens": 902229056.0,
      "step": 5374
    },
    {
      "entropy": 1.6765822271505992,
      "epoch": 0.590480898629535,
      "grad_norm": 0.7106185555458069,
      "learning_rate": 1.688053494230507e-05,
      "loss": 1.3502,
      "mean_token_accuracy": 0.6803947786490122,
      "num_tokens": 902370906.0,
      "step": 5375
    },
    {
      "entropy": 1.670622855424881,
      "epoch": 0.590590755540908,
      "grad_norm": 0.6781371831893921,
      "learning_rate": 1.687932276418613e-05,
      "loss": 1.327,
      "mean_token_accuracy": 0.6617625802755356,
      "num_tokens": 902526144.0,
      "step": 5376
    },
    {
      "entropy": 1.6448892652988434,
      "epoch": 0.5907006124522809,
      "grad_norm": 0.6684084534645081,
      "learning_rate": 1.6878110399989274e-05,
      "loss": 1.436,
      "mean_token_accuracy": 0.648414189616839,
      "num_tokens": 902715944.0,
      "step": 5377
    },
    {
      "entropy": 1.6711215178171794,
      "epoch": 0.5908104693636539,
      "grad_norm": 0.6007981896400452,
      "learning_rate": 1.6876897849752875e-05,
      "loss": 1.3683,
      "mean_token_accuracy": 0.6540864855051041,
      "num_tokens": 902883356.0,
      "step": 5378
    },
    {
      "entropy": 1.6590981384118397,
      "epoch": 0.5909203262750268,
      "grad_norm": 0.7310410737991333,
      "learning_rate": 1.6875685113515304e-05,
      "loss": 1.5214,
      "mean_token_accuracy": 0.6452625741561254,
      "num_tokens": 903075535.0,
      "step": 5379
    },
    {
      "entropy": 1.7468369503815968,
      "epoch": 0.5910301831863997,
      "grad_norm": 0.6988155841827393,
      "learning_rate": 1.6874472191314947e-05,
      "loss": 1.3991,
      "mean_token_accuracy": 0.6527721385161082,
      "num_tokens": 903201717.0,
      "step": 5380
    },
    {
      "entropy": 1.670701116323471,
      "epoch": 0.5911400400977727,
      "grad_norm": 0.8909992575645447,
      "learning_rate": 1.6873259083190193e-05,
      "loss": 1.2956,
      "mean_token_accuracy": 0.6799812763929367,
      "num_tokens": 903322154.0,
      "step": 5381
    },
    {
      "entropy": 1.6859600047270458,
      "epoch": 0.5912498970091455,
      "grad_norm": 0.694366991519928,
      "learning_rate": 1.6872045789179435e-05,
      "loss": 1.2805,
      "mean_token_accuracy": 0.6731400340795517,
      "num_tokens": 903459004.0,
      "step": 5382
    },
    {
      "entropy": 1.7458996375401814,
      "epoch": 0.5913597539205185,
      "grad_norm": 0.6606221795082092,
      "learning_rate": 1.6870832309321076e-05,
      "loss": 1.5232,
      "mean_token_accuracy": 0.6352545966704687,
      "num_tokens": 903637357.0,
      "step": 5383
    },
    {
      "entropy": 1.7042790353298187,
      "epoch": 0.5914696108318914,
      "grad_norm": 0.7215031385421753,
      "learning_rate": 1.6869618643653517e-05,
      "loss": 1.3872,
      "mean_token_accuracy": 0.6490479856729507,
      "num_tokens": 903786222.0,
      "step": 5384
    },
    {
      "entropy": 1.6865171492099762,
      "epoch": 0.5915794677432644,
      "grad_norm": 0.6201615333557129,
      "learning_rate": 1.6868404792215177e-05,
      "loss": 1.3853,
      "mean_token_accuracy": 0.6442459026972452,
      "num_tokens": 903972153.0,
      "step": 5385
    },
    {
      "entropy": 1.7092716892560322,
      "epoch": 0.5916893246546373,
      "grad_norm": 0.7146571278572083,
      "learning_rate": 1.686719075504447e-05,
      "loss": 1.4497,
      "mean_token_accuracy": 0.648409311970075,
      "num_tokens": 904151519.0,
      "step": 5386
    },
    {
      "entropy": 1.7341859141985576,
      "epoch": 0.5917991815660103,
      "grad_norm": 0.7208521962165833,
      "learning_rate": 1.6865976532179815e-05,
      "loss": 1.4917,
      "mean_token_accuracy": 0.6417253216107687,
      "num_tokens": 904338083.0,
      "step": 5387
    },
    {
      "entropy": 1.7087008953094482,
      "epoch": 0.5919090384773832,
      "grad_norm": 0.614952027797699,
      "learning_rate": 1.6864762123659645e-05,
      "loss": 1.6023,
      "mean_token_accuracy": 0.6175388197104136,
      "num_tokens": 904544903.0,
      "step": 5388
    },
    {
      "entropy": 1.6603162388006847,
      "epoch": 0.5920188953887562,
      "grad_norm": 0.702585756778717,
      "learning_rate": 1.68635475295224e-05,
      "loss": 1.3771,
      "mean_token_accuracy": 0.6522153516610464,
      "num_tokens": 904681339.0,
      "step": 5389
    },
    {
      "entropy": 1.7155030568440754,
      "epoch": 0.5921287523001291,
      "grad_norm": 0.6054456830024719,
      "learning_rate": 1.6862332749806515e-05,
      "loss": 1.5448,
      "mean_token_accuracy": 0.6397515883048376,
      "num_tokens": 904863737.0,
      "step": 5390
    },
    {
      "entropy": 1.630701909462611,
      "epoch": 0.5922386092115021,
      "grad_norm": 0.6318526864051819,
      "learning_rate": 1.6861117784550444e-05,
      "loss": 1.3956,
      "mean_token_accuracy": 0.6545381247997284,
      "num_tokens": 905036452.0,
      "step": 5391
    },
    {
      "entropy": 1.7371818919976552,
      "epoch": 0.592348466122875,
      "grad_norm": 0.642082691192627,
      "learning_rate": 1.6859902633792633e-05,
      "loss": 1.4205,
      "mean_token_accuracy": 0.6491349885861079,
      "num_tokens": 905230942.0,
      "step": 5392
    },
    {
      "entropy": 1.6382679243882496,
      "epoch": 0.592458323034248,
      "grad_norm": 0.7798934578895569,
      "learning_rate": 1.6858687297571544e-05,
      "loss": 1.3769,
      "mean_token_accuracy": 0.6772749076286951,
      "num_tokens": 905357564.0,
      "step": 5393
    },
    {
      "entropy": 1.726676990588506,
      "epoch": 0.5925681799456208,
      "grad_norm": 0.7513710260391235,
      "learning_rate": 1.6857471775925646e-05,
      "loss": 1.4649,
      "mean_token_accuracy": 0.6569699744383494,
      "num_tokens": 905517686.0,
      "step": 5394
    },
    {
      "entropy": 1.6619043449560802,
      "epoch": 0.5926780368569937,
      "grad_norm": 0.5446877479553223,
      "learning_rate": 1.68562560688934e-05,
      "loss": 1.5784,
      "mean_token_accuracy": 0.6213619013627371,
      "num_tokens": 905793640.0,
      "step": 5395
    },
    {
      "entropy": 1.6814130246639252,
      "epoch": 0.5927878937683667,
      "grad_norm": 0.7586706876754761,
      "learning_rate": 1.6855040176513294e-05,
      "loss": 1.3387,
      "mean_token_accuracy": 0.6601586639881134,
      "num_tokens": 905963864.0,
      "step": 5396
    },
    {
      "entropy": 1.6784147222836812,
      "epoch": 0.5928977506797396,
      "grad_norm": 0.6829437613487244,
      "learning_rate": 1.68538240988238e-05,
      "loss": 1.3593,
      "mean_token_accuracy": 0.656915009021759,
      "num_tokens": 906143020.0,
      "step": 5397
    },
    {
      "entropy": 1.6552779972553253,
      "epoch": 0.5930076075911126,
      "grad_norm": 0.6679306626319885,
      "learning_rate": 1.6852607835863416e-05,
      "loss": 1.3276,
      "mean_token_accuracy": 0.6578433761994044,
      "num_tokens": 906300883.0,
      "step": 5398
    },
    {
      "entropy": 1.64952618877093,
      "epoch": 0.5931174645024855,
      "grad_norm": 0.5992361307144165,
      "learning_rate": 1.6851391387670627e-05,
      "loss": 1.3282,
      "mean_token_accuracy": 0.6626505106687546,
      "num_tokens": 906476656.0,
      "step": 5399
    },
    {
      "entropy": 1.722427527109782,
      "epoch": 0.5932273214138585,
      "grad_norm": 0.7228727340698242,
      "learning_rate": 1.685017475428394e-05,
      "loss": 1.435,
      "mean_token_accuracy": 0.6515922645727793,
      "num_tokens": 906654249.0,
      "step": 5400
    },
    {
      "entropy": 1.7722227871418,
      "epoch": 0.5933371783252314,
      "grad_norm": 0.7820917963981628,
      "learning_rate": 1.6848957935741854e-05,
      "loss": 1.3257,
      "mean_token_accuracy": 0.6733630647261938,
      "num_tokens": 906818481.0,
      "step": 5401
    },
    {
      "entropy": 1.6531193753083546,
      "epoch": 0.5934470352366044,
      "grad_norm": 0.7379235625267029,
      "learning_rate": 1.684774093208289e-05,
      "loss": 1.3019,
      "mean_token_accuracy": 0.6712036629517873,
      "num_tokens": 906975820.0,
      "step": 5402
    },
    {
      "entropy": 1.6952547132968903,
      "epoch": 0.5935568921479772,
      "grad_norm": 0.7943975925445557,
      "learning_rate": 1.684652374334556e-05,
      "loss": 1.2802,
      "mean_token_accuracy": 0.6676329722007116,
      "num_tokens": 907096991.0,
      "step": 5403
    },
    {
      "entropy": 1.6849872171878815,
      "epoch": 0.5936667490593502,
      "grad_norm": 0.7202121019363403,
      "learning_rate": 1.6845306369568382e-05,
      "loss": 1.2806,
      "mean_token_accuracy": 0.6844563235839208,
      "num_tokens": 907235353.0,
      "step": 5404
    },
    {
      "entropy": 1.7030098736286163,
      "epoch": 0.5937766059707231,
      "grad_norm": 0.6924136877059937,
      "learning_rate": 1.68440888107899e-05,
      "loss": 1.4624,
      "mean_token_accuracy": 0.6487593750158945,
      "num_tokens": 907394416.0,
      "step": 5405
    },
    {
      "entropy": 1.688938041528066,
      "epoch": 0.5938864628820961,
      "grad_norm": 0.7259036898612976,
      "learning_rate": 1.6842871067048633e-05,
      "loss": 1.5779,
      "mean_token_accuracy": 0.6511958241462708,
      "num_tokens": 907558715.0,
      "step": 5406
    },
    {
      "entropy": 1.723609745502472,
      "epoch": 0.593996319793469,
      "grad_norm": 0.6626251339912415,
      "learning_rate": 1.6841653138383137e-05,
      "loss": 1.4507,
      "mean_token_accuracy": 0.6560012847185135,
      "num_tokens": 907730055.0,
      "step": 5407
    },
    {
      "entropy": 1.7112099329630535,
      "epoch": 0.5941061767048419,
      "grad_norm": 0.6510260701179504,
      "learning_rate": 1.6840435024831944e-05,
      "loss": 1.556,
      "mean_token_accuracy": 0.6182466248671213,
      "num_tokens": 907988991.0,
      "step": 5408
    },
    {
      "entropy": 1.7646510402361553,
      "epoch": 0.5942160336162149,
      "grad_norm": 0.9172123670578003,
      "learning_rate": 1.6839216726433616e-05,
      "loss": 1.3719,
      "mean_token_accuracy": 0.6614715158939362,
      "num_tokens": 908184419.0,
      "step": 5409
    },
    {
      "entropy": 1.7178015510241191,
      "epoch": 0.5943258905275878,
      "grad_norm": 0.7179532647132874,
      "learning_rate": 1.6837998243226712e-05,
      "loss": 1.415,
      "mean_token_accuracy": 0.6340557535489401,
      "num_tokens": 908434034.0,
      "step": 5410
    },
    {
      "entropy": 1.7165958086649578,
      "epoch": 0.5944357474389608,
      "grad_norm": 0.6283994317054749,
      "learning_rate": 1.6836779575249796e-05,
      "loss": 1.3807,
      "mean_token_accuracy": 0.6633997658888499,
      "num_tokens": 908589399.0,
      "step": 5411
    },
    {
      "entropy": 1.7015175918738048,
      "epoch": 0.5945456043503337,
      "grad_norm": 0.6560877561569214,
      "learning_rate": 1.6835560722541434e-05,
      "loss": 1.3933,
      "mean_token_accuracy": 0.653649906317393,
      "num_tokens": 908770306.0,
      "step": 5412
    },
    {
      "entropy": 1.6911265850067139,
      "epoch": 0.5946554612617067,
      "grad_norm": 0.6705179214477539,
      "learning_rate": 1.6834341685140205e-05,
      "loss": 1.4012,
      "mean_token_accuracy": 0.6415108740329742,
      "num_tokens": 908992577.0,
      "step": 5413
    },
    {
      "entropy": 1.6993640164534252,
      "epoch": 0.5947653181730795,
      "grad_norm": 0.6580267548561096,
      "learning_rate": 1.683312246308469e-05,
      "loss": 1.4285,
      "mean_token_accuracy": 0.6524773985147476,
      "num_tokens": 909181844.0,
      "step": 5414
    },
    {
      "entropy": 1.730893741051356,
      "epoch": 0.5948751750844525,
      "grad_norm": 0.6987996697425842,
      "learning_rate": 1.6831903056413477e-05,
      "loss": 1.3224,
      "mean_token_accuracy": 0.6611655751864115,
      "num_tokens": 909304767.0,
      "step": 5415
    },
    {
      "entropy": 1.7225580215454102,
      "epoch": 0.5949850319958254,
      "grad_norm": 0.8656018376350403,
      "learning_rate": 1.683068346516516e-05,
      "loss": 1.3047,
      "mean_token_accuracy": 0.6596146573623022,
      "num_tokens": 909433583.0,
      "step": 5416
    },
    {
      "entropy": 1.7331815858681996,
      "epoch": 0.5950948889071984,
      "grad_norm": 0.6861293911933899,
      "learning_rate": 1.682946368937834e-05,
      "loss": 1.4714,
      "mean_token_accuracy": 0.6402883330980936,
      "num_tokens": 909643336.0,
      "step": 5417
    },
    {
      "entropy": 1.7125715414683025,
      "epoch": 0.5952047458185713,
      "grad_norm": 0.6575915813446045,
      "learning_rate": 1.6828243729091626e-05,
      "loss": 1.4151,
      "mean_token_accuracy": 0.66132952272892,
      "num_tokens": 909778117.0,
      "step": 5418
    },
    {
      "entropy": 1.657194048166275,
      "epoch": 0.5953146027299443,
      "grad_norm": 0.7357683777809143,
      "learning_rate": 1.6827023584343615e-05,
      "loss": 1.2943,
      "mean_token_accuracy": 0.6715851227442423,
      "num_tokens": 909929876.0,
      "step": 5419
    },
    {
      "entropy": 1.662133087714513,
      "epoch": 0.5954244596413172,
      "grad_norm": 0.6675532460212708,
      "learning_rate": 1.682580325517294e-05,
      "loss": 1.3832,
      "mean_token_accuracy": 0.6506559252738953,
      "num_tokens": 910095389.0,
      "step": 5420
    },
    {
      "entropy": 1.7440082132816315,
      "epoch": 0.5955343165526901,
      "grad_norm": 0.7201164960861206,
      "learning_rate": 1.6824582741618215e-05,
      "loss": 1.4109,
      "mean_token_accuracy": 0.6457555194695791,
      "num_tokens": 910265221.0,
      "step": 5421
    },
    {
      "entropy": 1.7047818501790364,
      "epoch": 0.5956441734640631,
      "grad_norm": 0.5827786922454834,
      "learning_rate": 1.682336204371807e-05,
      "loss": 1.4126,
      "mean_token_accuracy": 0.6369202633698782,
      "num_tokens": 910458062.0,
      "step": 5422
    },
    {
      "entropy": 1.6782648364702861,
      "epoch": 0.595754030375436,
      "grad_norm": 0.8056417107582092,
      "learning_rate": 1.682214116151114e-05,
      "loss": 1.591,
      "mean_token_accuracy": 0.6487656235694885,
      "num_tokens": 910712200.0,
      "step": 5423
    },
    {
      "entropy": 1.6988307734330494,
      "epoch": 0.595863887286809,
      "grad_norm": 0.561825692653656,
      "learning_rate": 1.6820920095036068e-05,
      "loss": 1.3425,
      "mean_token_accuracy": 0.6547723909219106,
      "num_tokens": 910893187.0,
      "step": 5424
    },
    {
      "entropy": 1.611896812915802,
      "epoch": 0.5959737441981818,
      "grad_norm": 0.633956789970398,
      "learning_rate": 1.6819698844331497e-05,
      "loss": 1.3578,
      "mean_token_accuracy": 0.667489156126976,
      "num_tokens": 911126313.0,
      "step": 5425
    },
    {
      "entropy": 1.6960194905598958,
      "epoch": 0.5960836011095548,
      "grad_norm": 0.7324186563491821,
      "learning_rate": 1.6818477409436078e-05,
      "loss": 1.4714,
      "mean_token_accuracy": 0.645858551065127,
      "num_tokens": 911338849.0,
      "step": 5426
    },
    {
      "entropy": 1.655552089214325,
      "epoch": 0.5961934580209277,
      "grad_norm": 0.7095927000045776,
      "learning_rate": 1.6817255790388472e-05,
      "loss": 1.4871,
      "mean_token_accuracy": 0.656248539686203,
      "num_tokens": 911516630.0,
      "step": 5427
    },
    {
      "entropy": 1.7007441520690918,
      "epoch": 0.5963033149323007,
      "grad_norm": 0.7084668874740601,
      "learning_rate": 1.6816033987227342e-05,
      "loss": 1.5267,
      "mean_token_accuracy": 0.6427704642216364,
      "num_tokens": 911699013.0,
      "step": 5428
    },
    {
      "entropy": 1.7174124121665955,
      "epoch": 0.5964131718436736,
      "grad_norm": 0.6124807596206665,
      "learning_rate": 1.6814811999991357e-05,
      "loss": 1.4031,
      "mean_token_accuracy": 0.6490861674149832,
      "num_tokens": 911857669.0,
      "step": 5429
    },
    {
      "entropy": 1.6959696312745411,
      "epoch": 0.5965230287550466,
      "grad_norm": 0.9495405554771423,
      "learning_rate": 1.6813589828719195e-05,
      "loss": 1.1984,
      "mean_token_accuracy": 0.678948904077212,
      "num_tokens": 911990431.0,
      "step": 5430
    },
    {
      "entropy": 1.7092759013175964,
      "epoch": 0.5966328856664195,
      "grad_norm": 0.6147773861885071,
      "learning_rate": 1.6812367473449528e-05,
      "loss": 1.396,
      "mean_token_accuracy": 0.6636812587579092,
      "num_tokens": 912200494.0,
      "step": 5431
    },
    {
      "entropy": 1.709659606218338,
      "epoch": 0.5967427425777925,
      "grad_norm": 0.748707115650177,
      "learning_rate": 1.6811144934221057e-05,
      "loss": 1.2594,
      "mean_token_accuracy": 0.668513630827268,
      "num_tokens": 912323384.0,
      "step": 5432
    },
    {
      "entropy": 1.6889064808686574,
      "epoch": 0.5968525994891654,
      "grad_norm": 0.65199875831604,
      "learning_rate": 1.6809922211072462e-05,
      "loss": 1.3911,
      "mean_token_accuracy": 0.659337967634201,
      "num_tokens": 912475513.0,
      "step": 5433
    },
    {
      "entropy": 1.6920311848322551,
      "epoch": 0.5969624564005382,
      "grad_norm": 0.6664896607398987,
      "learning_rate": 1.680869930404245e-05,
      "loss": 1.5205,
      "mean_token_accuracy": 0.648727094133695,
      "num_tokens": 912661477.0,
      "step": 5434
    },
    {
      "entropy": 1.7712519864241283,
      "epoch": 0.5970723133119112,
      "grad_norm": 0.6912421584129333,
      "learning_rate": 1.680747621316972e-05,
      "loss": 1.3873,
      "mean_token_accuracy": 0.6598270038763682,
      "num_tokens": 912808322.0,
      "step": 5435
    },
    {
      "entropy": 1.6839702626069386,
      "epoch": 0.5971821702232841,
      "grad_norm": 0.6543471813201904,
      "learning_rate": 1.680625293849299e-05,
      "loss": 1.3244,
      "mean_token_accuracy": 0.6574779450893402,
      "num_tokens": 912985667.0,
      "step": 5436
    },
    {
      "entropy": 1.7119268377621968,
      "epoch": 0.5972920271346571,
      "grad_norm": 0.6256197690963745,
      "learning_rate": 1.6805029480050965e-05,
      "loss": 1.3939,
      "mean_token_accuracy": 0.6478220820426941,
      "num_tokens": 913142770.0,
      "step": 5437
    },
    {
      "entropy": 1.6727095246315002,
      "epoch": 0.59740188404603,
      "grad_norm": 0.6122837662696838,
      "learning_rate": 1.6803805837882373e-05,
      "loss": 1.3201,
      "mean_token_accuracy": 0.6651313950618108,
      "num_tokens": 913284604.0,
      "step": 5438
    },
    {
      "entropy": 1.6385413606961567,
      "epoch": 0.597511740957403,
      "grad_norm": 0.7011650800704956,
      "learning_rate": 1.6802582012025948e-05,
      "loss": 1.2644,
      "mean_token_accuracy": 0.6758585671583811,
      "num_tokens": 913418447.0,
      "step": 5439
    },
    {
      "entropy": 1.7271398703257244,
      "epoch": 0.5976215978687759,
      "grad_norm": 0.8002787232398987,
      "learning_rate": 1.680135800252041e-05,
      "loss": 1.475,
      "mean_token_accuracy": 0.6593929280837377,
      "num_tokens": 913595488.0,
      "step": 5440
    },
    {
      "entropy": 1.7234635253747304,
      "epoch": 0.5977314547801489,
      "grad_norm": 0.6236562728881836,
      "learning_rate": 1.6800133809404507e-05,
      "loss": 1.621,
      "mean_token_accuracy": 0.6271956562995911,
      "num_tokens": 913811760.0,
      "step": 5441
    },
    {
      "entropy": 1.663605233033498,
      "epoch": 0.5978413116915218,
      "grad_norm": 0.686917781829834,
      "learning_rate": 1.6798909432716987e-05,
      "loss": 1.3732,
      "mean_token_accuracy": 0.659597580631574,
      "num_tokens": 913955134.0,
      "step": 5442
    },
    {
      "entropy": 1.6567329565684001,
      "epoch": 0.5979511686028948,
      "grad_norm": 0.8035587668418884,
      "learning_rate": 1.679768487249659e-05,
      "loss": 1.4351,
      "mean_token_accuracy": 0.6736761331558228,
      "num_tokens": 914122511.0,
      "step": 5443
    },
    {
      "entropy": 1.7484365304311116,
      "epoch": 0.5980610255142677,
      "grad_norm": 0.6443024277687073,
      "learning_rate": 1.6796460128782084e-05,
      "loss": 1.6444,
      "mean_token_accuracy": 0.618500699599584,
      "num_tokens": 914346097.0,
      "step": 5444
    },
    {
      "entropy": 1.687730719645818,
      "epoch": 0.5981708824256406,
      "grad_norm": 0.6121844053268433,
      "learning_rate": 1.6795235201612226e-05,
      "loss": 1.4166,
      "mean_token_accuracy": 0.6520683070023855,
      "num_tokens": 914609850.0,
      "step": 5445
    },
    {
      "entropy": 1.6414126654465993,
      "epoch": 0.5982807393370135,
      "grad_norm": 0.7661187052726746,
      "learning_rate": 1.6794010091025785e-05,
      "loss": 1.206,
      "mean_token_accuracy": 0.6839122573534647,
      "num_tokens": 914733707.0,
      "step": 5446
    },
    {
      "entropy": 1.6634565393129985,
      "epoch": 0.5983905962483865,
      "grad_norm": 0.6488881707191467,
      "learning_rate": 1.6792784797061533e-05,
      "loss": 1.5076,
      "mean_token_accuracy": 0.641075556476911,
      "num_tokens": 914935285.0,
      "step": 5447
    },
    {
      "entropy": 1.713909884293874,
      "epoch": 0.5985004531597594,
      "grad_norm": 0.690524697303772,
      "learning_rate": 1.6791559319758256e-05,
      "loss": 1.3711,
      "mean_token_accuracy": 0.658517986536026,
      "num_tokens": 915077128.0,
      "step": 5448
    },
    {
      "entropy": 1.6755700409412384,
      "epoch": 0.5986103100711323,
      "grad_norm": 0.5590389370918274,
      "learning_rate": 1.6790333659154735e-05,
      "loss": 0.9613,
      "mean_token_accuracy": 0.689162497719129,
      "num_tokens": 915211004.0,
      "step": 5449
    },
    {
      "entropy": 1.7446764012177784,
      "epoch": 0.5987201669825053,
      "grad_norm": 0.6876842975616455,
      "learning_rate": 1.678910781528976e-05,
      "loss": 1.3854,
      "mean_token_accuracy": 0.6610653201738993,
      "num_tokens": 915326622.0,
      "step": 5450
    },
    {
      "entropy": 1.690832147995631,
      "epoch": 0.5988300238938782,
      "grad_norm": 0.5802832841873169,
      "learning_rate": 1.6787881788202135e-05,
      "loss": 1.4026,
      "mean_token_accuracy": 0.6581792682409286,
      "num_tokens": 915547066.0,
      "step": 5451
    },
    {
      "entropy": 1.728159526983897,
      "epoch": 0.5989398808052512,
      "grad_norm": 0.7079800367355347,
      "learning_rate": 1.6786655577930658e-05,
      "loss": 1.5643,
      "mean_token_accuracy": 0.6469894895950953,
      "num_tokens": 915692436.0,
      "step": 5452
    },
    {
      "entropy": 1.6673387587070465,
      "epoch": 0.5990497377166241,
      "grad_norm": 0.6151366829872131,
      "learning_rate": 1.678542918451414e-05,
      "loss": 1.4437,
      "mean_token_accuracy": 0.6431677391131719,
      "num_tokens": 915919308.0,
      "step": 5453
    },
    {
      "entropy": 1.7032847106456757,
      "epoch": 0.5991595946279971,
      "grad_norm": 0.7041369676589966,
      "learning_rate": 1.6784202607991396e-05,
      "loss": 1.4604,
      "mean_token_accuracy": 0.6400700211524963,
      "num_tokens": 916121360.0,
      "step": 5454
    },
    {
      "entropy": 1.759365479151408,
      "epoch": 0.59926945153937,
      "grad_norm": 0.745280385017395,
      "learning_rate": 1.6782975848401244e-05,
      "loss": 1.3423,
      "mean_token_accuracy": 0.6642535577217737,
      "num_tokens": 916264675.0,
      "step": 5455
    },
    {
      "entropy": 1.792235126097997,
      "epoch": 0.5993793084507429,
      "grad_norm": 0.69027179479599,
      "learning_rate": 1.6781748905782512e-05,
      "loss": 1.5797,
      "mean_token_accuracy": 0.6236337820688883,
      "num_tokens": 916506247.0,
      "step": 5456
    },
    {
      "entropy": 1.687427928050359,
      "epoch": 0.5994891653621158,
      "grad_norm": 0.7181799411773682,
      "learning_rate": 1.6780521780174032e-05,
      "loss": 1.4468,
      "mean_token_accuracy": 0.6493152479330698,
      "num_tokens": 916654838.0,
      "step": 5457
    },
    {
      "entropy": 1.7065490186214447,
      "epoch": 0.5995990222734888,
      "grad_norm": 0.7162134051322937,
      "learning_rate": 1.6779294471614647e-05,
      "loss": 1.322,
      "mean_token_accuracy": 0.662808025876681,
      "num_tokens": 916801918.0,
      "step": 5458
    },
    {
      "entropy": 1.6874915262063344,
      "epoch": 0.5997088791848617,
      "grad_norm": 0.6525692343711853,
      "learning_rate": 1.6778066980143194e-05,
      "loss": 1.3566,
      "mean_token_accuracy": 0.6498881727457047,
      "num_tokens": 916998423.0,
      "step": 5459
    },
    {
      "entropy": 1.747247964143753,
      "epoch": 0.5998187360962347,
      "grad_norm": 0.6652222275733948,
      "learning_rate": 1.6776839305798523e-05,
      "loss": 1.5106,
      "mean_token_accuracy": 0.6408848663171133,
      "num_tokens": 917183535.0,
      "step": 5460
    },
    {
      "entropy": 1.6877395709355671,
      "epoch": 0.5999285930076076,
      "grad_norm": 0.6594512462615967,
      "learning_rate": 1.6775611448619494e-05,
      "loss": 1.4626,
      "mean_token_accuracy": 0.6533342649539312,
      "num_tokens": 917332369.0,
      "step": 5461
    },
    {
      "entropy": 1.6684443255265553,
      "epoch": 0.6000384499189805,
      "grad_norm": 0.5910911560058594,
      "learning_rate": 1.6774383408644957e-05,
      "loss": 1.402,
      "mean_token_accuracy": 0.664065291484197,
      "num_tokens": 917501787.0,
      "step": 5462
    },
    {
      "entropy": 1.7669705549875896,
      "epoch": 0.6001483068303535,
      "grad_norm": 0.6818894743919373,
      "learning_rate": 1.6773155185913795e-05,
      "loss": 1.5071,
      "mean_token_accuracy": 0.6319067428509394,
      "num_tokens": 917694774.0,
      "step": 5463
    },
    {
      "entropy": 1.640412410100301,
      "epoch": 0.6002581637417264,
      "grad_norm": 0.6774711012840271,
      "learning_rate": 1.6771926780464874e-05,
      "loss": 1.3312,
      "mean_token_accuracy": 0.6684557646512985,
      "num_tokens": 917895672.0,
      "step": 5464
    },
    {
      "entropy": 1.6497747401396434,
      "epoch": 0.6003680206530994,
      "grad_norm": 0.6946020722389221,
      "learning_rate": 1.677069819233707e-05,
      "loss": 1.4321,
      "mean_token_accuracy": 0.6589450190464655,
      "num_tokens": 918106673.0,
      "step": 5465
    },
    {
      "entropy": 1.751279056072235,
      "epoch": 0.6004778775644722,
      "grad_norm": 0.7799018025398254,
      "learning_rate": 1.6769469421569265e-05,
      "loss": 1.3527,
      "mean_token_accuracy": 0.6531901061534882,
      "num_tokens": 918293869.0,
      "step": 5466
    },
    {
      "entropy": 1.7017297645409901,
      "epoch": 0.6005877344758452,
      "grad_norm": 0.7740174531936646,
      "learning_rate": 1.6768240468200354e-05,
      "loss": 1.3378,
      "mean_token_accuracy": 0.6581835597753525,
      "num_tokens": 918457119.0,
      "step": 5467
    },
    {
      "entropy": 1.6877376039822896,
      "epoch": 0.6006975913872181,
      "grad_norm": 0.6579194664955139,
      "learning_rate": 1.6767011332269233e-05,
      "loss": 1.4362,
      "mean_token_accuracy": 0.6469058791796366,
      "num_tokens": 918644483.0,
      "step": 5468
    },
    {
      "entropy": 1.7218892375628154,
      "epoch": 0.6008074482985911,
      "grad_norm": 0.63138747215271,
      "learning_rate": 1.67657820138148e-05,
      "loss": 1.4232,
      "mean_token_accuracy": 0.6666744997104009,
      "num_tokens": 918799975.0,
      "step": 5469
    },
    {
      "entropy": 1.7323795755704243,
      "epoch": 0.600917305209964,
      "grad_norm": 0.7608441710472107,
      "learning_rate": 1.6764552512875967e-05,
      "loss": 1.4874,
      "mean_token_accuracy": 0.6452402472496033,
      "num_tokens": 918920586.0,
      "step": 5470
    },
    {
      "entropy": 1.6932736833890278,
      "epoch": 0.601027162121337,
      "grad_norm": 0.6323309540748596,
      "learning_rate": 1.6763322829491643e-05,
      "loss": 1.4062,
      "mean_token_accuracy": 0.6532955567042033,
      "num_tokens": 919121611.0,
      "step": 5471
    },
    {
      "entropy": 1.6725764473279316,
      "epoch": 0.6011370190327099,
      "grad_norm": 0.8088108897209167,
      "learning_rate": 1.6762092963700746e-05,
      "loss": 1.2678,
      "mean_token_accuracy": 0.6674557526906332,
      "num_tokens": 919245911.0,
      "step": 5472
    },
    {
      "entropy": 1.758307288090388,
      "epoch": 0.6012468759440829,
      "grad_norm": 0.7137458324432373,
      "learning_rate": 1.676086291554221e-05,
      "loss": 1.3491,
      "mean_token_accuracy": 0.6584253559509913,
      "num_tokens": 919384474.0,
      "step": 5473
    },
    {
      "entropy": 1.6837130685647328,
      "epoch": 0.6013567328554558,
      "grad_norm": 1.0152652263641357,
      "learning_rate": 1.675963268505495e-05,
      "loss": 1.3494,
      "mean_token_accuracy": 0.6644057482481003,
      "num_tokens": 919528252.0,
      "step": 5474
    },
    {
      "entropy": 1.654979646205902,
      "epoch": 0.6014665897668287,
      "grad_norm": 0.7153851985931396,
      "learning_rate": 1.6758402272277915e-05,
      "loss": 1.4471,
      "mean_token_accuracy": 0.6493087609608968,
      "num_tokens": 919760402.0,
      "step": 5475
    },
    {
      "entropy": 1.7279058396816254,
      "epoch": 0.6015764466782016,
      "grad_norm": 0.6236484050750732,
      "learning_rate": 1.6757171677250045e-05,
      "loss": 1.4912,
      "mean_token_accuracy": 0.6396552622318268,
      "num_tokens": 919969841.0,
      "step": 5476
    },
    {
      "entropy": 1.710862507422765,
      "epoch": 0.6016863035895745,
      "grad_norm": 0.7031605839729309,
      "learning_rate": 1.675594090001028e-05,
      "loss": 1.3442,
      "mean_token_accuracy": 0.6595994979143143,
      "num_tokens": 920101743.0,
      "step": 5477
    },
    {
      "entropy": 1.682221661011378,
      "epoch": 0.6017961605009475,
      "grad_norm": 0.6580245494842529,
      "learning_rate": 1.6754709940597584e-05,
      "loss": 1.3735,
      "mean_token_accuracy": 0.6630414674679438,
      "num_tokens": 920264770.0,
      "step": 5478
    },
    {
      "entropy": 1.731015940507253,
      "epoch": 0.6019060174123204,
      "grad_norm": 0.6210698485374451,
      "learning_rate": 1.675347879905091e-05,
      "loss": 1.3219,
      "mean_token_accuracy": 0.6625956445932388,
      "num_tokens": 920391189.0,
      "step": 5479
    },
    {
      "entropy": 1.682970017194748,
      "epoch": 0.6020158743236934,
      "grad_norm": 0.7015461325645447,
      "learning_rate": 1.6752247475409226e-05,
      "loss": 1.6362,
      "mean_token_accuracy": 0.6371884370843569,
      "num_tokens": 920593115.0,
      "step": 5480
    },
    {
      "entropy": 1.6944019198417664,
      "epoch": 0.6021257312350663,
      "grad_norm": 0.6100954413414001,
      "learning_rate": 1.67510159697115e-05,
      "loss": 1.3737,
      "mean_token_accuracy": 0.6664390613635381,
      "num_tokens": 920749916.0,
      "step": 5481
    },
    {
      "entropy": 1.7003353436787922,
      "epoch": 0.6022355881464393,
      "grad_norm": 0.7275522351264954,
      "learning_rate": 1.6749784281996712e-05,
      "loss": 1.414,
      "mean_token_accuracy": 0.6477395196755728,
      "num_tokens": 920929325.0,
      "step": 5482
    },
    {
      "entropy": 1.687132587035497,
      "epoch": 0.6023454450578122,
      "grad_norm": 0.6985853910446167,
      "learning_rate": 1.674855241230384e-05,
      "loss": 1.3656,
      "mean_token_accuracy": 0.6509382625420889,
      "num_tokens": 921084679.0,
      "step": 5483
    },
    {
      "entropy": 1.6675028403600056,
      "epoch": 0.6024553019691852,
      "grad_norm": 0.722407877445221,
      "learning_rate": 1.6747320360671873e-05,
      "loss": 1.2328,
      "mean_token_accuracy": 0.6737691164016724,
      "num_tokens": 921194486.0,
      "step": 5484
    },
    {
      "entropy": 1.712370087703069,
      "epoch": 0.6025651588805581,
      "grad_norm": 0.7098826169967651,
      "learning_rate": 1.674608812713981e-05,
      "loss": 1.3426,
      "mean_token_accuracy": 0.6622453580300013,
      "num_tokens": 921331468.0,
      "step": 5485
    },
    {
      "entropy": 1.7794211904207866,
      "epoch": 0.6026750157919311,
      "grad_norm": 0.8509989380836487,
      "learning_rate": 1.6744855711746647e-05,
      "loss": 1.4642,
      "mean_token_accuracy": 0.6489201337099075,
      "num_tokens": 921468742.0,
      "step": 5486
    },
    {
      "entropy": 1.7174873848756154,
      "epoch": 0.6027848727033039,
      "grad_norm": 0.6344740986824036,
      "learning_rate": 1.674362311453139e-05,
      "loss": 1.3383,
      "mean_token_accuracy": 0.662666474779447,
      "num_tokens": 921629136.0,
      "step": 5487
    },
    {
      "entropy": 1.7565912504990895,
      "epoch": 0.6028947296146769,
      "grad_norm": 0.6211560964584351,
      "learning_rate": 1.6742390335533044e-05,
      "loss": 1.59,
      "mean_token_accuracy": 0.6265095522006353,
      "num_tokens": 921833335.0,
      "step": 5488
    },
    {
      "entropy": 1.6729480028152466,
      "epoch": 0.6030045865260498,
      "grad_norm": 0.6941152215003967,
      "learning_rate": 1.6741157374790636e-05,
      "loss": 1.3861,
      "mean_token_accuracy": 0.6670657147963842,
      "num_tokens": 922007520.0,
      "step": 5489
    },
    {
      "entropy": 1.7290611962477367,
      "epoch": 0.6031144434374227,
      "grad_norm": 0.6478551030158997,
      "learning_rate": 1.673992423234318e-05,
      "loss": 1.4021,
      "mean_token_accuracy": 0.6645165433486303,
      "num_tokens": 922188846.0,
      "step": 5490
    },
    {
      "entropy": 1.6348287463188171,
      "epoch": 0.6032243003487957,
      "grad_norm": 0.5874102115631104,
      "learning_rate": 1.6738690908229714e-05,
      "loss": 1.4658,
      "mean_token_accuracy": 0.645725334684054,
      "num_tokens": 922380313.0,
      "step": 5491
    },
    {
      "entropy": 1.7524794340133667,
      "epoch": 0.6033341572601686,
      "grad_norm": 0.8978797793388367,
      "learning_rate": 1.6737457402489266e-05,
      "loss": 1.53,
      "mean_token_accuracy": 0.6540175626675288,
      "num_tokens": 922512596.0,
      "step": 5492
    },
    {
      "entropy": 1.6377544303735097,
      "epoch": 0.6034440141715416,
      "grad_norm": 0.7050206661224365,
      "learning_rate": 1.673622371516087e-05,
      "loss": 1.4592,
      "mean_token_accuracy": 0.6444994062185287,
      "num_tokens": 922750463.0,
      "step": 5493
    },
    {
      "entropy": 1.6732242107391357,
      "epoch": 0.6035538710829145,
      "grad_norm": 0.738034188747406,
      "learning_rate": 1.673498984628359e-05,
      "loss": 1.3387,
      "mean_token_accuracy": 0.66953673462073,
      "num_tokens": 922907666.0,
      "step": 5494
    },
    {
      "entropy": 1.6891792019208272,
      "epoch": 0.6036637279942875,
      "grad_norm": 0.6616693735122681,
      "learning_rate": 1.673375579589646e-05,
      "loss": 1.376,
      "mean_token_accuracy": 0.6620072374741236,
      "num_tokens": 923087081.0,
      "step": 5495
    },
    {
      "entropy": 1.740149160226186,
      "epoch": 0.6037735849056604,
      "grad_norm": 0.7156772613525391,
      "learning_rate": 1.673252156403854e-05,
      "loss": 1.2699,
      "mean_token_accuracy": 0.6738031804561615,
      "num_tokens": 923216649.0,
      "step": 5496
    },
    {
      "entropy": 1.640553206205368,
      "epoch": 0.6038834418170334,
      "grad_norm": 0.5988604426383972,
      "learning_rate": 1.6731287150748894e-05,
      "loss": 1.3356,
      "mean_token_accuracy": 0.6715440601110458,
      "num_tokens": 923402586.0,
      "step": 5497
    },
    {
      "entropy": 1.646197388569514,
      "epoch": 0.6039932987284062,
      "grad_norm": 0.6301091313362122,
      "learning_rate": 1.67300525560666e-05,
      "loss": 1.4681,
      "mean_token_accuracy": 0.6478618681430817,
      "num_tokens": 923608007.0,
      "step": 5498
    },
    {
      "entropy": 1.7597610652446747,
      "epoch": 0.6041031556397792,
      "grad_norm": 0.6319087147712708,
      "learning_rate": 1.6728817780030718e-05,
      "loss": 1.4828,
      "mean_token_accuracy": 0.6508717288573583,
      "num_tokens": 923815695.0,
      "step": 5499
    },
    {
      "entropy": 1.7612847288449605,
      "epoch": 0.6042130125511521,
      "grad_norm": 0.7959107160568237,
      "learning_rate": 1.6727582822680336e-05,
      "loss": 1.5721,
      "mean_token_accuracy": 0.6293148795763651,
      "num_tokens": 923990182.0,
      "step": 5500
    },
    {
      "entropy": 1.705323855082194,
      "epoch": 0.6043228694625251,
      "grad_norm": 0.6401039361953735,
      "learning_rate": 1.672634768405454e-05,
      "loss": 1.5592,
      "mean_token_accuracy": 0.6398047258456548,
      "num_tokens": 924204209.0,
      "step": 5501
    },
    {
      "entropy": 1.726824293533961,
      "epoch": 0.604432726373898,
      "grad_norm": 0.7112311720848083,
      "learning_rate": 1.672511236419242e-05,
      "loss": 1.3496,
      "mean_token_accuracy": 0.6554846813281378,
      "num_tokens": 924376901.0,
      "step": 5502
    },
    {
      "entropy": 1.6738229095935822,
      "epoch": 0.6045425832852709,
      "grad_norm": 0.6750335693359375,
      "learning_rate": 1.672387686313307e-05,
      "loss": 1.4294,
      "mean_token_accuracy": 0.6564183880885442,
      "num_tokens": 924580944.0,
      "step": 5503
    },
    {
      "entropy": 1.7278579473495483,
      "epoch": 0.6046524401966439,
      "grad_norm": 0.7934318780899048,
      "learning_rate": 1.6722641180915602e-05,
      "loss": 1.3263,
      "mean_token_accuracy": 0.6604352543751398,
      "num_tokens": 924708411.0,
      "step": 5504
    },
    {
      "entropy": 1.7267205317815144,
      "epoch": 0.6047622971080168,
      "grad_norm": 0.636107325553894,
      "learning_rate": 1.6721405317579116e-05,
      "loss": 1.3168,
      "mean_token_accuracy": 0.6644595215717951,
      "num_tokens": 924842526.0,
      "step": 5505
    },
    {
      "entropy": 1.719021886587143,
      "epoch": 0.6048721540193898,
      "grad_norm": 0.7312912940979004,
      "learning_rate": 1.6720169273162733e-05,
      "loss": 1.1689,
      "mean_token_accuracy": 0.6934764335552851,
      "num_tokens": 924950234.0,
      "step": 5506
    },
    {
      "entropy": 1.6559423406918843,
      "epoch": 0.6049820109307626,
      "grad_norm": 0.6602075099945068,
      "learning_rate": 1.6718933047705567e-05,
      "loss": 1.3758,
      "mean_token_accuracy": 0.6585381329059601,
      "num_tokens": 925108872.0,
      "step": 5507
    },
    {
      "entropy": 1.6688361366589863,
      "epoch": 0.6050918678421356,
      "grad_norm": 0.7089828848838806,
      "learning_rate": 1.6717696641246747e-05,
      "loss": 1.4099,
      "mean_token_accuracy": 0.6570945431788763,
      "num_tokens": 925316481.0,
      "step": 5508
    },
    {
      "entropy": 1.7144095798333485,
      "epoch": 0.6052017247535085,
      "grad_norm": 0.6471745371818542,
      "learning_rate": 1.6716460053825405e-05,
      "loss": 1.4705,
      "mean_token_accuracy": 0.6423929333686829,
      "num_tokens": 925487174.0,
      "step": 5509
    },
    {
      "entropy": 1.6315881411234539,
      "epoch": 0.6053115816648815,
      "grad_norm": 0.6560130715370178,
      "learning_rate": 1.671522328548068e-05,
      "loss": 1.2288,
      "mean_token_accuracy": 0.6750545849402746,
      "num_tokens": 925663600.0,
      "step": 5510
    },
    {
      "entropy": 1.6976039409637451,
      "epoch": 0.6054214385762544,
      "grad_norm": 0.6420303583145142,
      "learning_rate": 1.6713986336251712e-05,
      "loss": 1.3936,
      "mean_token_accuracy": 0.6477069954077402,
      "num_tokens": 925858263.0,
      "step": 5511
    },
    {
      "entropy": 1.6715827286243439,
      "epoch": 0.6055312954876274,
      "grad_norm": 0.6958088874816895,
      "learning_rate": 1.671274920617765e-05,
      "loss": 1.3601,
      "mean_token_accuracy": 0.6639330287774404,
      "num_tokens": 925989227.0,
      "step": 5512
    },
    {
      "entropy": 1.7799000144004822,
      "epoch": 0.6056411523990003,
      "grad_norm": 0.7925567030906677,
      "learning_rate": 1.671151189529765e-05,
      "loss": 1.4278,
      "mean_token_accuracy": 0.6552622616291046,
      "num_tokens": 926130198.0,
      "step": 5513
    },
    {
      "entropy": 1.7007222870985668,
      "epoch": 0.6057510093103733,
      "grad_norm": 0.7391920685768127,
      "learning_rate": 1.6710274403650878e-05,
      "loss": 1.3117,
      "mean_token_accuracy": 0.6625027805566788,
      "num_tokens": 926257462.0,
      "step": 5514
    },
    {
      "entropy": 1.7189228733380635,
      "epoch": 0.6058608662217462,
      "grad_norm": 0.6808819770812988,
      "learning_rate": 1.6709036731276487e-05,
      "loss": 1.5554,
      "mean_token_accuracy": 0.6345362067222595,
      "num_tokens": 926453546.0,
      "step": 5515
    },
    {
      "entropy": 1.7309414744377136,
      "epoch": 0.6059707231331191,
      "grad_norm": 0.7075436115264893,
      "learning_rate": 1.670779887821366e-05,
      "loss": 1.5652,
      "mean_token_accuracy": 0.6544856876134872,
      "num_tokens": 926613311.0,
      "step": 5516
    },
    {
      "entropy": 1.7191075285275776,
      "epoch": 0.6060805800444921,
      "grad_norm": 0.6736297011375427,
      "learning_rate": 1.670656084450157e-05,
      "loss": 1.4221,
      "mean_token_accuracy": 0.6376722504695257,
      "num_tokens": 926779157.0,
      "step": 5517
    },
    {
      "entropy": 1.776821494102478,
      "epoch": 0.6061904369558649,
      "grad_norm": 0.7885594964027405,
      "learning_rate": 1.6705322630179398e-05,
      "loss": 1.3079,
      "mean_token_accuracy": 0.6540821691354116,
      "num_tokens": 926900181.0,
      "step": 5518
    },
    {
      "entropy": 1.6601528028647106,
      "epoch": 0.6063002938672379,
      "grad_norm": 1.221449613571167,
      "learning_rate": 1.6704084235286336e-05,
      "loss": 1.4191,
      "mean_token_accuracy": 0.6419506842891375,
      "num_tokens": 927094727.0,
      "step": 5519
    },
    {
      "entropy": 1.6796456972757976,
      "epoch": 0.6064101507786108,
      "grad_norm": 0.695866048336029,
      "learning_rate": 1.6702845659861585e-05,
      "loss": 1.4795,
      "mean_token_accuracy": 0.664507215221723,
      "num_tokens": 927270945.0,
      "step": 5520
    },
    {
      "entropy": 1.752757598956426,
      "epoch": 0.6065200076899838,
      "grad_norm": 0.6824564337730408,
      "learning_rate": 1.6701606903944328e-05,
      "loss": 1.4799,
      "mean_token_accuracy": 0.6392989705006281,
      "num_tokens": 927413568.0,
      "step": 5521
    },
    {
      "entropy": 1.7567788263161976,
      "epoch": 0.6066298646013567,
      "grad_norm": 0.6957651376724243,
      "learning_rate": 1.6700367967573786e-05,
      "loss": 1.4415,
      "mean_token_accuracy": 0.6470659871896108,
      "num_tokens": 927553465.0,
      "step": 5522
    },
    {
      "entropy": 1.7466229895750682,
      "epoch": 0.6067397215127297,
      "grad_norm": 0.6938997507095337,
      "learning_rate": 1.669912885078917e-05,
      "loss": 1.3197,
      "mean_token_accuracy": 0.6793912301460902,
      "num_tokens": 927687114.0,
      "step": 5523
    },
    {
      "entropy": 1.7211142977078755,
      "epoch": 0.6068495784241026,
      "grad_norm": 0.7023671865463257,
      "learning_rate": 1.669788955362969e-05,
      "loss": 1.4972,
      "mean_token_accuracy": 0.6480685224135717,
      "num_tokens": 927872297.0,
      "step": 5524
    },
    {
      "entropy": 1.7373531758785248,
      "epoch": 0.6069594353354756,
      "grad_norm": 0.7833293080329895,
      "learning_rate": 1.6696650076134576e-05,
      "loss": 1.449,
      "mean_token_accuracy": 0.652032271027565,
      "num_tokens": 928010124.0,
      "step": 5525
    },
    {
      "entropy": 1.6578099131584167,
      "epoch": 0.6070692922468485,
      "grad_norm": 0.6297708749771118,
      "learning_rate": 1.6695410418343054e-05,
      "loss": 1.283,
      "mean_token_accuracy": 0.6739129473765691,
      "num_tokens": 928139059.0,
      "step": 5526
    },
    {
      "entropy": 1.7742358942826588,
      "epoch": 0.6071791491582215,
      "grad_norm": 0.6884430646896362,
      "learning_rate": 1.6694170580294356e-05,
      "loss": 1.4999,
      "mean_token_accuracy": 0.622523158788681,
      "num_tokens": 928385655.0,
      "step": 5527
    },
    {
      "entropy": 1.7077501217524211,
      "epoch": 0.6072890060695944,
      "grad_norm": 0.7137337923049927,
      "learning_rate": 1.6692930562027725e-05,
      "loss": 1.4385,
      "mean_token_accuracy": 0.6593621472517649,
      "num_tokens": 928531980.0,
      "step": 5528
    },
    {
      "entropy": 1.7548049290974934,
      "epoch": 0.6073988629809672,
      "grad_norm": 0.5949137806892395,
      "learning_rate": 1.6691690363582412e-05,
      "loss": 1.3751,
      "mean_token_accuracy": 0.6646410326162974,
      "num_tokens": 928686528.0,
      "step": 5529
    },
    {
      "entropy": 1.7064041197299957,
      "epoch": 0.6075087198923402,
      "grad_norm": 0.660309910774231,
      "learning_rate": 1.669044998499766e-05,
      "loss": 1.4325,
      "mean_token_accuracy": 0.6318048238754272,
      "num_tokens": 928910481.0,
      "step": 5530
    },
    {
      "entropy": 1.6907892227172852,
      "epoch": 0.6076185768037131,
      "grad_norm": 0.6489412784576416,
      "learning_rate": 1.668920942631273e-05,
      "loss": 1.4504,
      "mean_token_accuracy": 0.6479069888591766,
      "num_tokens": 929134057.0,
      "step": 5531
    },
    {
      "entropy": 1.7279614110787709,
      "epoch": 0.6077284337150861,
      "grad_norm": 0.6888580322265625,
      "learning_rate": 1.6687968687566885e-05,
      "loss": 1.4058,
      "mean_token_accuracy": 0.6593583077192307,
      "num_tokens": 929299191.0,
      "step": 5532
    },
    {
      "entropy": 1.7116707563400269,
      "epoch": 0.607838290626459,
      "grad_norm": 0.5436456203460693,
      "learning_rate": 1.6686727768799393e-05,
      "loss": 1.2332,
      "mean_token_accuracy": 0.684593141078949,
      "num_tokens": 929531505.0,
      "step": 5533
    },
    {
      "entropy": 1.675088753302892,
      "epoch": 0.607948147537832,
      "grad_norm": 0.6057883501052856,
      "learning_rate": 1.6685486670049533e-05,
      "loss": 1.4831,
      "mean_token_accuracy": 0.6440512239933014,
      "num_tokens": 929694373.0,
      "step": 5534
    },
    {
      "entropy": 1.7029797037442524,
      "epoch": 0.6080580044492049,
      "grad_norm": 0.695314347743988,
      "learning_rate": 1.668424539135658e-05,
      "loss": 1.4127,
      "mean_token_accuracy": 0.6551998356978098,
      "num_tokens": 929877449.0,
      "step": 5535
    },
    {
      "entropy": 1.6930132706960042,
      "epoch": 0.6081678613605779,
      "grad_norm": 0.718914806842804,
      "learning_rate": 1.668300393275982e-05,
      "loss": 1.3504,
      "mean_token_accuracy": 0.6599302838246027,
      "num_tokens": 930056568.0,
      "step": 5536
    },
    {
      "entropy": 1.699955701828003,
      "epoch": 0.6082777182719508,
      "grad_norm": 0.8041271567344666,
      "learning_rate": 1.6681762294298548e-05,
      "loss": 1.3738,
      "mean_token_accuracy": 0.6663634926080704,
      "num_tokens": 930193126.0,
      "step": 5537
    },
    {
      "entropy": 1.6799223522345226,
      "epoch": 0.6083875751833238,
      "grad_norm": 0.6648184061050415,
      "learning_rate": 1.6680520476012064e-05,
      "loss": 1.5068,
      "mean_token_accuracy": 0.6448338876167933,
      "num_tokens": 930414595.0,
      "step": 5538
    },
    {
      "entropy": 1.7127573291460674,
      "epoch": 0.6084974320946966,
      "grad_norm": 0.7391481399536133,
      "learning_rate": 1.667927847793966e-05,
      "loss": 1.3562,
      "mean_token_accuracy": 0.6645816365877787,
      "num_tokens": 930543870.0,
      "step": 5539
    },
    {
      "entropy": 1.6624590853850048,
      "epoch": 0.6086072890060696,
      "grad_norm": 0.6188486814498901,
      "learning_rate": 1.6678036300120653e-05,
      "loss": 1.37,
      "mean_token_accuracy": 0.6666365414857864,
      "num_tokens": 930747185.0,
      "step": 5540
    },
    {
      "entropy": 1.7099547684192657,
      "epoch": 0.6087171459174425,
      "grad_norm": 0.5991356372833252,
      "learning_rate": 1.6676793942594357e-05,
      "loss": 1.3754,
      "mean_token_accuracy": 0.6520405461390814,
      "num_tokens": 930921087.0,
      "step": 5541
    },
    {
      "entropy": 1.6891375382741292,
      "epoch": 0.6088270028288155,
      "grad_norm": 0.8991249799728394,
      "learning_rate": 1.667555140540009e-05,
      "loss": 1.3934,
      "mean_token_accuracy": 0.6690708696842194,
      "num_tokens": 931109978.0,
      "step": 5542
    },
    {
      "entropy": 1.7334303557872772,
      "epoch": 0.6089368597401884,
      "grad_norm": 0.694080114364624,
      "learning_rate": 1.667430868857718e-05,
      "loss": 1.6048,
      "mean_token_accuracy": 0.6428815325101217,
      "num_tokens": 931323499.0,
      "step": 5543
    },
    {
      "entropy": 1.7433924575646718,
      "epoch": 0.6090467166515613,
      "grad_norm": 0.7323341965675354,
      "learning_rate": 1.6673065792164954e-05,
      "loss": 1.3905,
      "mean_token_accuracy": 0.6570341090361277,
      "num_tokens": 931470697.0,
      "step": 5544
    },
    {
      "entropy": 1.7255782683690388,
      "epoch": 0.6091565735629343,
      "grad_norm": 0.6894171237945557,
      "learning_rate": 1.6671822716202754e-05,
      "loss": 1.236,
      "mean_token_accuracy": 0.6878236333529154,
      "num_tokens": 931601393.0,
      "step": 5545
    },
    {
      "entropy": 1.706501563390096,
      "epoch": 0.6092664304743072,
      "grad_norm": 0.7516751289367676,
      "learning_rate": 1.667057946072992e-05,
      "loss": 1.3684,
      "mean_token_accuracy": 0.6665105720361074,
      "num_tokens": 931776426.0,
      "step": 5546
    },
    {
      "entropy": 1.7160039345423381,
      "epoch": 0.6093762873856802,
      "grad_norm": 1.0031617879867554,
      "learning_rate": 1.6669336025785802e-05,
      "loss": 1.3054,
      "mean_token_accuracy": 0.6578457355499268,
      "num_tokens": 931890991.0,
      "step": 5547
    },
    {
      "entropy": 1.6809919476509094,
      "epoch": 0.6094861442970531,
      "grad_norm": 0.5633423924446106,
      "learning_rate": 1.6668092411409752e-05,
      "loss": 1.3895,
      "mean_token_accuracy": 0.6533411145210266,
      "num_tokens": 932072346.0,
      "step": 5548
    },
    {
      "entropy": 1.6685432493686676,
      "epoch": 0.609596001208426,
      "grad_norm": 0.7651619911193848,
      "learning_rate": 1.6666848617641134e-05,
      "loss": 1.3651,
      "mean_token_accuracy": 0.6608080416917801,
      "num_tokens": 932234097.0,
      "step": 5549
    },
    {
      "entropy": 1.6282340387503307,
      "epoch": 0.6097058581197989,
      "grad_norm": 0.5770187377929688,
      "learning_rate": 1.666560464451931e-05,
      "loss": 1.3481,
      "mean_token_accuracy": 0.6698790689309438,
      "num_tokens": 932407066.0,
      "step": 5550
    },
    {
      "entropy": 1.7054801086584728,
      "epoch": 0.6098157150311719,
      "grad_norm": 0.7385131120681763,
      "learning_rate": 1.666436049208365e-05,
      "loss": 1.276,
      "mean_token_accuracy": 0.668360099196434,
      "num_tokens": 932523952.0,
      "step": 5551
    },
    {
      "entropy": 1.743846187988917,
      "epoch": 0.6099255719425448,
      "grad_norm": 0.7189563512802124,
      "learning_rate": 1.6663116160373532e-05,
      "loss": 1.4179,
      "mean_token_accuracy": 0.6598916351795197,
      "num_tokens": 932686362.0,
      "step": 5552
    },
    {
      "entropy": 1.7578631341457367,
      "epoch": 0.6100354288539178,
      "grad_norm": 0.7211261987686157,
      "learning_rate": 1.6661871649428344e-05,
      "loss": 1.2996,
      "mean_token_accuracy": 0.6601702322562536,
      "num_tokens": 932795312.0,
      "step": 5553
    },
    {
      "entropy": 1.7131268680095673,
      "epoch": 0.6101452857652907,
      "grad_norm": 0.6948407888412476,
      "learning_rate": 1.6660626959287468e-05,
      "loss": 1.4821,
      "mean_token_accuracy": 0.6617609262466431,
      "num_tokens": 932979185.0,
      "step": 5554
    },
    {
      "entropy": 1.7209480007489522,
      "epoch": 0.6102551426766637,
      "grad_norm": 0.6682031750679016,
      "learning_rate": 1.66593820899903e-05,
      "loss": 1.3365,
      "mean_token_accuracy": 0.6623590737581253,
      "num_tokens": 933132863.0,
      "step": 5555
    },
    {
      "entropy": 1.7183450758457184,
      "epoch": 0.6103649995880366,
      "grad_norm": 0.8200631737709045,
      "learning_rate": 1.6658137041576236e-05,
      "loss": 1.2704,
      "mean_token_accuracy": 0.6729947527249655,
      "num_tokens": 933246415.0,
      "step": 5556
    },
    {
      "entropy": 1.7393971184889476,
      "epoch": 0.6104748564994095,
      "grad_norm": 0.6439294815063477,
      "learning_rate": 1.6656891814084685e-05,
      "loss": 1.3755,
      "mean_token_accuracy": 0.6616205821434656,
      "num_tokens": 933432973.0,
      "step": 5557
    },
    {
      "entropy": 1.6542038420836132,
      "epoch": 0.6105847134107825,
      "grad_norm": 0.631920337677002,
      "learning_rate": 1.665564640755506e-05,
      "loss": 1.3404,
      "mean_token_accuracy": 0.6656839350859324,
      "num_tokens": 933603655.0,
      "step": 5558
    },
    {
      "entropy": 1.7492648462454479,
      "epoch": 0.6106945703221554,
      "grad_norm": 0.79639732837677,
      "learning_rate": 1.6654400822026774e-05,
      "loss": 1.3435,
      "mean_token_accuracy": 0.656333123644193,
      "num_tokens": 933731281.0,
      "step": 5559
    },
    {
      "entropy": 1.6991788546244304,
      "epoch": 0.6108044272335283,
      "grad_norm": 0.6638270020484924,
      "learning_rate": 1.6653155057539248e-05,
      "loss": 1.26,
      "mean_token_accuracy": 0.6817802836497625,
      "num_tokens": 933874973.0,
      "step": 5560
    },
    {
      "entropy": 1.6869306564331055,
      "epoch": 0.6109142841449012,
      "grad_norm": 0.7141402959823608,
      "learning_rate": 1.665190911413191e-05,
      "loss": 1.3595,
      "mean_token_accuracy": 0.6624280711015066,
      "num_tokens": 934074045.0,
      "step": 5561
    },
    {
      "entropy": 1.723333050807317,
      "epoch": 0.6110241410562742,
      "grad_norm": 0.6675291657447815,
      "learning_rate": 1.6650662991844196e-05,
      "loss": 1.6021,
      "mean_token_accuracy": 0.6266117841005325,
      "num_tokens": 934258442.0,
      "step": 5562
    },
    {
      "entropy": 1.6694819529851277,
      "epoch": 0.6111339979676471,
      "grad_norm": 0.7414196133613586,
      "learning_rate": 1.6649416690715552e-05,
      "loss": 1.3676,
      "mean_token_accuracy": 0.6675353596607844,
      "num_tokens": 934488821.0,
      "step": 5563
    },
    {
      "entropy": 1.683532973130544,
      "epoch": 0.6112438548790201,
      "grad_norm": 0.9000768065452576,
      "learning_rate": 1.6648170210785405e-05,
      "loss": 1.1238,
      "mean_token_accuracy": 0.6990447590748469,
      "num_tokens": 934594435.0,
      "step": 5564
    },
    {
      "entropy": 1.6689512928326924,
      "epoch": 0.611353711790393,
      "grad_norm": 0.6170567274093628,
      "learning_rate": 1.664692355209322e-05,
      "loss": 1.3279,
      "mean_token_accuracy": 0.6679205298423767,
      "num_tokens": 934723939.0,
      "step": 5565
    },
    {
      "entropy": 1.6680874923865001,
      "epoch": 0.611463568701766,
      "grad_norm": 0.6829505562782288,
      "learning_rate": 1.6645676714678455e-05,
      "loss": 1.5437,
      "mean_token_accuracy": 0.6364776839812597,
      "num_tokens": 934951400.0,
      "step": 5566
    },
    {
      "entropy": 1.6776273846626282,
      "epoch": 0.6115734256131389,
      "grad_norm": 0.7855686545372009,
      "learning_rate": 1.664442969858056e-05,
      "loss": 1.4367,
      "mean_token_accuracy": 0.6567247211933136,
      "num_tokens": 935139302.0,
      "step": 5567
    },
    {
      "entropy": 1.7481131454308827,
      "epoch": 0.6116832825245119,
      "grad_norm": 0.7802530527114868,
      "learning_rate": 1.664318250383901e-05,
      "loss": 1.449,
      "mean_token_accuracy": 0.6351684182882309,
      "num_tokens": 935338558.0,
      "step": 5568
    },
    {
      "entropy": 1.6226297517617543,
      "epoch": 0.6117931394358848,
      "grad_norm": 1.6184296607971191,
      "learning_rate": 1.6641935130493276e-05,
      "loss": 1.3117,
      "mean_token_accuracy": 0.6598619123299917,
      "num_tokens": 935512009.0,
      "step": 5569
    },
    {
      "entropy": 1.7038521965344746,
      "epoch": 0.6119029963472576,
      "grad_norm": 0.6111783981323242,
      "learning_rate": 1.6640687578582835e-05,
      "loss": 1.3716,
      "mean_token_accuracy": 0.665923555692037,
      "num_tokens": 935663636.0,
      "step": 5570
    },
    {
      "entropy": 1.724490185578664,
      "epoch": 0.6120128532586306,
      "grad_norm": 0.601383626461029,
      "learning_rate": 1.6639439848147177e-05,
      "loss": 1.4497,
      "mean_token_accuracy": 0.6473473062117895,
      "num_tokens": 935844408.0,
      "step": 5571
    },
    {
      "entropy": 1.6795639892419179,
      "epoch": 0.6121227101700035,
      "grad_norm": 0.7149496078491211,
      "learning_rate": 1.6638191939225787e-05,
      "loss": 1.2712,
      "mean_token_accuracy": 0.6758081962664922,
      "num_tokens": 935969137.0,
      "step": 5572
    },
    {
      "entropy": 1.6430913706620534,
      "epoch": 0.6122325670813765,
      "grad_norm": 0.6253581643104553,
      "learning_rate": 1.6636943851858166e-05,
      "loss": 1.4073,
      "mean_token_accuracy": 0.6706066131591797,
      "num_tokens": 936162195.0,
      "step": 5573
    },
    {
      "entropy": 1.6803169250488281,
      "epoch": 0.6123424239927494,
      "grad_norm": 0.646298348903656,
      "learning_rate": 1.6635695586083808e-05,
      "loss": 1.3594,
      "mean_token_accuracy": 0.6621912568807602,
      "num_tokens": 936321911.0,
      "step": 5574
    },
    {
      "entropy": 1.7561656534671783,
      "epoch": 0.6124522809041224,
      "grad_norm": 0.6321209669113159,
      "learning_rate": 1.663444714194223e-05,
      "loss": 1.499,
      "mean_token_accuracy": 0.6410553604364395,
      "num_tokens": 936510584.0,
      "step": 5575
    },
    {
      "entropy": 1.6951843996842701,
      "epoch": 0.6125621378154953,
      "grad_norm": 0.7173265218734741,
      "learning_rate": 1.6633198519472933e-05,
      "loss": 1.4487,
      "mean_token_accuracy": 0.651951809724172,
      "num_tokens": 936713499.0,
      "step": 5576
    },
    {
      "entropy": 1.7019581099351246,
      "epoch": 0.6126719947268683,
      "grad_norm": 0.5802896022796631,
      "learning_rate": 1.6631949718715445e-05,
      "loss": 1.3271,
      "mean_token_accuracy": 0.6597871532042822,
      "num_tokens": 936940791.0,
      "step": 5577
    },
    {
      "entropy": 1.6554476817448933,
      "epoch": 0.6127818516382412,
      "grad_norm": 0.7390364408493042,
      "learning_rate": 1.6630700739709282e-05,
      "loss": 1.4072,
      "mean_token_accuracy": 0.6636865039666494,
      "num_tokens": 937082308.0,
      "step": 5578
    },
    {
      "entropy": 1.6889912883440654,
      "epoch": 0.6128917085496142,
      "grad_norm": 0.686810314655304,
      "learning_rate": 1.6629451582493983e-05,
      "loss": 1.4255,
      "mean_token_accuracy": 0.6632570077975591,
      "num_tokens": 937229279.0,
      "step": 5579
    },
    {
      "entropy": 1.7240253388881683,
      "epoch": 0.613001565460987,
      "grad_norm": 0.6423957347869873,
      "learning_rate": 1.6628202247109072e-05,
      "loss": 1.4287,
      "mean_token_accuracy": 0.6554444034894308,
      "num_tokens": 937395643.0,
      "step": 5580
    },
    {
      "entropy": 1.7453702688217163,
      "epoch": 0.61311142237236,
      "grad_norm": 0.7353253960609436,
      "learning_rate": 1.66269527335941e-05,
      "loss": 1.4087,
      "mean_token_accuracy": 0.6449921876192093,
      "num_tokens": 937539093.0,
      "step": 5581
    },
    {
      "entropy": 1.6367293000221252,
      "epoch": 0.6132212792837329,
      "grad_norm": 0.608282744884491,
      "learning_rate": 1.662570304198861e-05,
      "loss": 1.4691,
      "mean_token_accuracy": 0.6490232745806376,
      "num_tokens": 937756052.0,
      "step": 5582
    },
    {
      "entropy": 1.686044067144394,
      "epoch": 0.6133311361951058,
      "grad_norm": 0.6353262066841125,
      "learning_rate": 1.6624453172332154e-05,
      "loss": 1.4763,
      "mean_token_accuracy": 0.6541228095690409,
      "num_tokens": 937904214.0,
      "step": 5583
    },
    {
      "entropy": 1.69670374194781,
      "epoch": 0.6134409931064788,
      "grad_norm": 0.6989722847938538,
      "learning_rate": 1.662320312466429e-05,
      "loss": 1.2754,
      "mean_token_accuracy": 0.6773638278245926,
      "num_tokens": 938031279.0,
      "step": 5584
    },
    {
      "entropy": 1.724222093820572,
      "epoch": 0.6135508500178517,
      "grad_norm": 0.6987892985343933,
      "learning_rate": 1.6621952899024578e-05,
      "loss": 1.4692,
      "mean_token_accuracy": 0.6530686269203821,
      "num_tokens": 938194279.0,
      "step": 5585
    },
    {
      "entropy": 1.777810384829839,
      "epoch": 0.6136607069292247,
      "grad_norm": 0.6809293627738953,
      "learning_rate": 1.662070249545259e-05,
      "loss": 1.5097,
      "mean_token_accuracy": 0.6327020525932312,
      "num_tokens": 938368428.0,
      "step": 5586
    },
    {
      "entropy": 1.6900599499543507,
      "epoch": 0.6137705638405976,
      "grad_norm": 0.5528995990753174,
      "learning_rate": 1.6619451913987905e-05,
      "loss": 1.401,
      "mean_token_accuracy": 0.6550226360559464,
      "num_tokens": 938568730.0,
      "step": 5587
    },
    {
      "entropy": 1.7115299503008525,
      "epoch": 0.6138804207519706,
      "grad_norm": 0.7030913233757019,
      "learning_rate": 1.6618201154670096e-05,
      "loss": 1.2342,
      "mean_token_accuracy": 0.6826610863208771,
      "num_tokens": 938711244.0,
      "step": 5588
    },
    {
      "entropy": 1.674224187930425,
      "epoch": 0.6139902776633435,
      "grad_norm": 0.6814902424812317,
      "learning_rate": 1.6616950217538752e-05,
      "loss": 1.3691,
      "mean_token_accuracy": 0.6572864949703217,
      "num_tokens": 938882831.0,
      "step": 5589
    },
    {
      "entropy": 1.677575667699178,
      "epoch": 0.6141001345747165,
      "grad_norm": 0.7386172413825989,
      "learning_rate": 1.6615699102633466e-05,
      "loss": 1.4307,
      "mean_token_accuracy": 0.6639702320098877,
      "num_tokens": 939044197.0,
      "step": 5590
    },
    {
      "entropy": 1.6663434406121571,
      "epoch": 0.6142099914860893,
      "grad_norm": 0.7466452717781067,
      "learning_rate": 1.6614447809993833e-05,
      "loss": 1.3802,
      "mean_token_accuracy": 0.657066822052002,
      "num_tokens": 939214259.0,
      "step": 5591
    },
    {
      "entropy": 1.665649155775706,
      "epoch": 0.6143198483974623,
      "grad_norm": 0.701424777507782,
      "learning_rate": 1.6613196339659454e-05,
      "loss": 1.214,
      "mean_token_accuracy": 0.6855147878328959,
      "num_tokens": 939396313.0,
      "step": 5592
    },
    {
      "entropy": 1.6514354248841603,
      "epoch": 0.6144297053088352,
      "grad_norm": 0.6594340801239014,
      "learning_rate": 1.6611944691669944e-05,
      "loss": 1.5042,
      "mean_token_accuracy": 0.6493265976508459,
      "num_tokens": 939601857.0,
      "step": 5593
    },
    {
      "entropy": 1.7074782649676006,
      "epoch": 0.6145395622202082,
      "grad_norm": 0.6715470552444458,
      "learning_rate": 1.6610692866064912e-05,
      "loss": 1.5188,
      "mean_token_accuracy": 0.6534653852383295,
      "num_tokens": 939812970.0,
      "step": 5594
    },
    {
      "entropy": 1.7174999515215557,
      "epoch": 0.6146494191315811,
      "grad_norm": 0.7222854495048523,
      "learning_rate": 1.660944086288398e-05,
      "loss": 1.2172,
      "mean_token_accuracy": 0.6784104257822037,
      "num_tokens": 939938382.0,
      "step": 5595
    },
    {
      "entropy": 1.7256175378958385,
      "epoch": 0.6147592760429541,
      "grad_norm": 0.6657436490058899,
      "learning_rate": 1.660818868216677e-05,
      "loss": 1.3559,
      "mean_token_accuracy": 0.6577880332867304,
      "num_tokens": 940127967.0,
      "step": 5596
    },
    {
      "entropy": 1.6247844000657399,
      "epoch": 0.614869132954327,
      "grad_norm": 0.6978784203529358,
      "learning_rate": 1.660693632395292e-05,
      "loss": 1.3566,
      "mean_token_accuracy": 0.6696316401163737,
      "num_tokens": 940261869.0,
      "step": 5597
    },
    {
      "entropy": 1.6865403950214386,
      "epoch": 0.6149789898656999,
      "grad_norm": 0.5856928825378418,
      "learning_rate": 1.6605683788282057e-05,
      "loss": 1.4175,
      "mean_token_accuracy": 0.652377262711525,
      "num_tokens": 940444933.0,
      "step": 5598
    },
    {
      "entropy": 1.7653738756974537,
      "epoch": 0.6150888467770729,
      "grad_norm": 0.6951313614845276,
      "learning_rate": 1.6604431075193833e-05,
      "loss": 1.4452,
      "mean_token_accuracy": 0.6424042185147604,
      "num_tokens": 940576065.0,
      "step": 5599
    },
    {
      "entropy": 1.6887817184130351,
      "epoch": 0.6151987036884458,
      "grad_norm": 0.7151344418525696,
      "learning_rate": 1.6603178184727888e-05,
      "loss": 1.3428,
      "mean_token_accuracy": 0.6740106294552485,
      "num_tokens": 940717460.0,
      "step": 5600
    },
    {
      "entropy": 1.7164513369401295,
      "epoch": 0.6153085605998188,
      "grad_norm": 0.6633734703063965,
      "learning_rate": 1.6601925116923875e-05,
      "loss": 1.4313,
      "mean_token_accuracy": 0.647556280096372,
      "num_tokens": 940948397.0,
      "step": 5601
    },
    {
      "entropy": 1.6911031305789948,
      "epoch": 0.6154184175111916,
      "grad_norm": 0.687568187713623,
      "learning_rate": 1.660067187182146e-05,
      "loss": 1.4035,
      "mean_token_accuracy": 0.6575697958469391,
      "num_tokens": 941105151.0,
      "step": 5602
    },
    {
      "entropy": 1.7053539156913757,
      "epoch": 0.6155282744225646,
      "grad_norm": 0.700892448425293,
      "learning_rate": 1.6599418449460305e-05,
      "loss": 1.3932,
      "mean_token_accuracy": 0.6440112143754959,
      "num_tokens": 941275369.0,
      "step": 5603
    },
    {
      "entropy": 1.691804975271225,
      "epoch": 0.6156381313339375,
      "grad_norm": 0.6623601317405701,
      "learning_rate": 1.6598164849880077e-05,
      "loss": 1.4609,
      "mean_token_accuracy": 0.6414239406585693,
      "num_tokens": 941451129.0,
      "step": 5604
    },
    {
      "entropy": 1.6720061600208282,
      "epoch": 0.6157479882453105,
      "grad_norm": 0.7391043901443481,
      "learning_rate": 1.6596911073120455e-05,
      "loss": 1.3943,
      "mean_token_accuracy": 0.6600146691004435,
      "num_tokens": 941580404.0,
      "step": 5605
    },
    {
      "entropy": 1.7468764384587605,
      "epoch": 0.6158578451566834,
      "grad_norm": 0.5990471839904785,
      "learning_rate": 1.6595657119221124e-05,
      "loss": 1.3827,
      "mean_token_accuracy": 0.6457860618829727,
      "num_tokens": 941801078.0,
      "step": 5606
    },
    {
      "entropy": 1.7029780944188435,
      "epoch": 0.6159677020680564,
      "grad_norm": 0.6301769614219666,
      "learning_rate": 1.659440298822176e-05,
      "loss": 1.4816,
      "mean_token_accuracy": 0.6631426165501276,
      "num_tokens": 941977723.0,
      "step": 5607
    },
    {
      "entropy": 1.7141645848751068,
      "epoch": 0.6160775589794293,
      "grad_norm": 0.7286873459815979,
      "learning_rate": 1.6593148680162063e-05,
      "loss": 1.3945,
      "mean_token_accuracy": 0.6584265381097794,
      "num_tokens": 942126547.0,
      "step": 5608
    },
    {
      "entropy": 1.7053893009821575,
      "epoch": 0.6161874158908023,
      "grad_norm": 0.7642189860343933,
      "learning_rate": 1.659189419508173e-05,
      "loss": 1.5418,
      "mean_token_accuracy": 0.6277876098950704,
      "num_tokens": 942298233.0,
      "step": 5609
    },
    {
      "entropy": 1.6716360052426655,
      "epoch": 0.6162972728021752,
      "grad_norm": 0.6552688479423523,
      "learning_rate": 1.659063953302047e-05,
      "loss": 1.402,
      "mean_token_accuracy": 0.6565060516198477,
      "num_tokens": 942466556.0,
      "step": 5610
    },
    {
      "entropy": 1.7290156185626984,
      "epoch": 0.616407129713548,
      "grad_norm": 0.650862991809845,
      "learning_rate": 1.6589384694017984e-05,
      "loss": 1.48,
      "mean_token_accuracy": 0.6433103134234747,
      "num_tokens": 942692434.0,
      "step": 5611
    },
    {
      "entropy": 1.7001596788565319,
      "epoch": 0.616516986624921,
      "grad_norm": 0.6333754062652588,
      "learning_rate": 1.6588129678113992e-05,
      "loss": 1.5025,
      "mean_token_accuracy": 0.6430030663808187,
      "num_tokens": 942845785.0,
      "step": 5612
    },
    {
      "entropy": 1.7286210159460704,
      "epoch": 0.6166268435362939,
      "grad_norm": 0.8158491849899292,
      "learning_rate": 1.6586874485348216e-05,
      "loss": 1.2876,
      "mean_token_accuracy": 0.6615132391452789,
      "num_tokens": 942966008.0,
      "step": 5613
    },
    {
      "entropy": 1.6635615924994152,
      "epoch": 0.6167367004476669,
      "grad_norm": 0.7491524815559387,
      "learning_rate": 1.658561911576038e-05,
      "loss": 1.3309,
      "mean_token_accuracy": 0.6790938824415207,
      "num_tokens": 943116395.0,
      "step": 5614
    },
    {
      "entropy": 1.686743954817454,
      "epoch": 0.6168465573590398,
      "grad_norm": 0.6865391135215759,
      "learning_rate": 1.6584363569390213e-05,
      "loss": 1.4197,
      "mean_token_accuracy": 0.6580019642909368,
      "num_tokens": 943271670.0,
      "step": 5615
    },
    {
      "entropy": 1.6392175356547039,
      "epoch": 0.6169564142704128,
      "grad_norm": 0.6303647756576538,
      "learning_rate": 1.6583107846277455e-05,
      "loss": 1.2924,
      "mean_token_accuracy": 0.6750722229480743,
      "num_tokens": 943457679.0,
      "step": 5616
    },
    {
      "entropy": 1.6606386701265972,
      "epoch": 0.6170662711817857,
      "grad_norm": 0.7184935808181763,
      "learning_rate": 1.658185194646185e-05,
      "loss": 1.4147,
      "mean_token_accuracy": 0.6562165568272272,
      "num_tokens": 943637649.0,
      "step": 5617
    },
    {
      "entropy": 1.6875253518422444,
      "epoch": 0.6171761280931587,
      "grad_norm": 0.5899779200553894,
      "learning_rate": 1.658059586998315e-05,
      "loss": 1.3247,
      "mean_token_accuracy": 0.6731048425038656,
      "num_tokens": 943799454.0,
      "step": 5618
    },
    {
      "entropy": 1.6526349087556202,
      "epoch": 0.6172859850045316,
      "grad_norm": 0.6579746603965759,
      "learning_rate": 1.65793396168811e-05,
      "loss": 1.4656,
      "mean_token_accuracy": 0.6476482550303141,
      "num_tokens": 944009136.0,
      "step": 5619
    },
    {
      "entropy": 1.669644723335902,
      "epoch": 0.6173958419159046,
      "grad_norm": 1.451614499092102,
      "learning_rate": 1.6578083187195467e-05,
      "loss": 1.3359,
      "mean_token_accuracy": 0.6453322917222977,
      "num_tokens": 944230639.0,
      "step": 5620
    },
    {
      "entropy": 1.6753608882427216,
      "epoch": 0.6175056988272775,
      "grad_norm": 0.6836093068122864,
      "learning_rate": 1.6576826580966015e-05,
      "loss": 1.3984,
      "mean_token_accuracy": 0.655582994222641,
      "num_tokens": 944397785.0,
      "step": 5621
    },
    {
      "entropy": 1.710491806268692,
      "epoch": 0.6176155557386505,
      "grad_norm": 0.7552167177200317,
      "learning_rate": 1.657556979823252e-05,
      "loss": 1.5175,
      "mean_token_accuracy": 0.6515548129876455,
      "num_tokens": 944603736.0,
      "step": 5622
    },
    {
      "entropy": 1.7582048177719116,
      "epoch": 0.6177254126500233,
      "grad_norm": 0.5882629752159119,
      "learning_rate": 1.6574312839034745e-05,
      "loss": 1.4611,
      "mean_token_accuracy": 0.6304621398448944,
      "num_tokens": 944782321.0,
      "step": 5623
    },
    {
      "entropy": 1.7265077730019887,
      "epoch": 0.6178352695613962,
      "grad_norm": 0.6855106353759766,
      "learning_rate": 1.6573055703412486e-05,
      "loss": 1.4187,
      "mean_token_accuracy": 0.6633595625559489,
      "num_tokens": 944970965.0,
      "step": 5624
    },
    {
      "entropy": 1.6792520582675934,
      "epoch": 0.6179451264727692,
      "grad_norm": 0.628589928150177,
      "learning_rate": 1.6571798391405523e-05,
      "loss": 1.417,
      "mean_token_accuracy": 0.652607669432958,
      "num_tokens": 945171431.0,
      "step": 5625
    },
    {
      "entropy": 1.61854421099027,
      "epoch": 0.6180549833841421,
      "grad_norm": 0.8567890524864197,
      "learning_rate": 1.6570540903053653e-05,
      "loss": 1.4852,
      "mean_token_accuracy": 0.6646982729434967,
      "num_tokens": 945370917.0,
      "step": 5626
    },
    {
      "entropy": 1.742018034060796,
      "epoch": 0.6181648402955151,
      "grad_norm": 0.7597964406013489,
      "learning_rate": 1.6569283238396672e-05,
      "loss": 1.4677,
      "mean_token_accuracy": 0.6531796753406525,
      "num_tokens": 945532898.0,
      "step": 5627
    },
    {
      "entropy": 1.7409979899724324,
      "epoch": 0.618274697206888,
      "grad_norm": 0.6351725459098816,
      "learning_rate": 1.6568025397474388e-05,
      "loss": 1.4706,
      "mean_token_accuracy": 0.6394537637631098,
      "num_tokens": 945718529.0,
      "step": 5628
    },
    {
      "entropy": 1.779521683851878,
      "epoch": 0.618384554118261,
      "grad_norm": 0.6235055923461914,
      "learning_rate": 1.6566767380326604e-05,
      "loss": 1.3624,
      "mean_token_accuracy": 0.6629078437884649,
      "num_tokens": 945854934.0,
      "step": 5629
    },
    {
      "entropy": 1.704407960176468,
      "epoch": 0.6184944110296339,
      "grad_norm": 0.7060872316360474,
      "learning_rate": 1.656550918699315e-05,
      "loss": 1.4615,
      "mean_token_accuracy": 0.6496474295854568,
      "num_tokens": 946015936.0,
      "step": 5630
    },
    {
      "entropy": 1.680654654900233,
      "epoch": 0.6186042679410069,
      "grad_norm": 0.6293652057647705,
      "learning_rate": 1.656425081751383e-05,
      "loss": 1.3839,
      "mean_token_accuracy": 0.6551440358161926,
      "num_tokens": 946154876.0,
      "step": 5631
    },
    {
      "entropy": 1.6304692129294078,
      "epoch": 0.6187141248523798,
      "grad_norm": 0.6845012903213501,
      "learning_rate": 1.656299227192848e-05,
      "loss": 1.4222,
      "mean_token_accuracy": 0.6561487466096878,
      "num_tokens": 946303938.0,
      "step": 5632
    },
    {
      "entropy": 1.6892323593298595,
      "epoch": 0.6188239817637528,
      "grad_norm": 0.6096817255020142,
      "learning_rate": 1.6561733550276934e-05,
      "loss": 1.3853,
      "mean_token_accuracy": 0.6653565714756647,
      "num_tokens": 946472387.0,
      "step": 5633
    },
    {
      "entropy": 1.740951379140218,
      "epoch": 0.6189338386751256,
      "grad_norm": 0.8123107552528381,
      "learning_rate": 1.6560474652599025e-05,
      "loss": 1.5593,
      "mean_token_accuracy": 0.6589376678069433,
      "num_tokens": 946664473.0,
      "step": 5634
    },
    {
      "entropy": 1.7017356554667156,
      "epoch": 0.6190436955864986,
      "grad_norm": 0.5863003730773926,
      "learning_rate": 1.6559215578934602e-05,
      "loss": 1.3029,
      "mean_token_accuracy": 0.6699723253647486,
      "num_tokens": 946817763.0,
      "step": 5635
    },
    {
      "entropy": 1.7194437483946483,
      "epoch": 0.6191535524978715,
      "grad_norm": 0.8233284950256348,
      "learning_rate": 1.655795632932351e-05,
      "loss": 1.4635,
      "mean_token_accuracy": 0.6592583407958349,
      "num_tokens": 946962720.0,
      "step": 5636
    },
    {
      "entropy": 1.6594391167163849,
      "epoch": 0.6192634094092445,
      "grad_norm": 0.5975894927978516,
      "learning_rate": 1.6556696903805604e-05,
      "loss": 1.4232,
      "mean_token_accuracy": 0.6385360260804495,
      "num_tokens": 947145238.0,
      "step": 5637
    },
    {
      "entropy": 1.7108287413914998,
      "epoch": 0.6193732663206174,
      "grad_norm": 0.6864363551139832,
      "learning_rate": 1.6555437302420746e-05,
      "loss": 1.5409,
      "mean_token_accuracy": 0.6319515456755956,
      "num_tokens": 947358881.0,
      "step": 5638
    },
    {
      "entropy": 1.6026353538036346,
      "epoch": 0.6194831232319903,
      "grad_norm": 0.6471695899963379,
      "learning_rate": 1.6554177525208798e-05,
      "loss": 1.4167,
      "mean_token_accuracy": 0.6550784210364023,
      "num_tokens": 947560663.0,
      "step": 5639
    },
    {
      "entropy": 1.7613280514876049,
      "epoch": 0.6195929801433633,
      "grad_norm": 0.7547305822372437,
      "learning_rate": 1.6552917572209637e-05,
      "loss": 1.3111,
      "mean_token_accuracy": 0.6676426778237025,
      "num_tokens": 947677967.0,
      "step": 5640
    },
    {
      "entropy": 1.6681643426418304,
      "epoch": 0.6197028370547362,
      "grad_norm": 0.5885694622993469,
      "learning_rate": 1.6551657443463132e-05,
      "loss": 1.3086,
      "mean_token_accuracy": 0.6593044847249985,
      "num_tokens": 947840975.0,
      "step": 5641
    },
    {
      "entropy": 1.684307485818863,
      "epoch": 0.6198126939661092,
      "grad_norm": 0.6141138076782227,
      "learning_rate": 1.6550397139009174e-05,
      "loss": 1.3726,
      "mean_token_accuracy": 0.6515480875968933,
      "num_tokens": 948049432.0,
      "step": 5642
    },
    {
      "entropy": 1.698849121729533,
      "epoch": 0.619922550877482,
      "grad_norm": 0.6681082844734192,
      "learning_rate": 1.654913665888765e-05,
      "loss": 1.5047,
      "mean_token_accuracy": 0.6400974442561468,
      "num_tokens": 948241513.0,
      "step": 5643
    },
    {
      "entropy": 1.6541813611984253,
      "epoch": 0.620032407788855,
      "grad_norm": 0.6509910821914673,
      "learning_rate": 1.654787600313845e-05,
      "loss": 1.3013,
      "mean_token_accuracy": 0.6745069374640783,
      "num_tokens": 948397238.0,
      "step": 5644
    },
    {
      "entropy": 1.7138587733109791,
      "epoch": 0.6201422647002279,
      "grad_norm": 0.6395068764686584,
      "learning_rate": 1.654661517180147e-05,
      "loss": 1.3956,
      "mean_token_accuracy": 0.6503481864929199,
      "num_tokens": 948558440.0,
      "step": 5645
    },
    {
      "entropy": 1.7701470851898193,
      "epoch": 0.6202521216116009,
      "grad_norm": 0.7288310527801514,
      "learning_rate": 1.6545354164916624e-05,
      "loss": 1.3433,
      "mean_token_accuracy": 0.6570984820524851,
      "num_tokens": 948686589.0,
      "step": 5646
    },
    {
      "entropy": 1.68064480026563,
      "epoch": 0.6203619785229738,
      "grad_norm": 0.6537264585494995,
      "learning_rate": 1.6544092982523817e-05,
      "loss": 1.4848,
      "mean_token_accuracy": 0.6528479357560476,
      "num_tokens": 948869305.0,
      "step": 5647
    },
    {
      "entropy": 1.7192702094713848,
      "epoch": 0.6204718354343468,
      "grad_norm": 0.7808331251144409,
      "learning_rate": 1.654283162466296e-05,
      "loss": 1.4711,
      "mean_token_accuracy": 0.6476468493541082,
      "num_tokens": 949060303.0,
      "step": 5648
    },
    {
      "entropy": 1.6918814182281494,
      "epoch": 0.6205816923457197,
      "grad_norm": 0.6144691705703735,
      "learning_rate": 1.654157009137399e-05,
      "loss": 1.3763,
      "mean_token_accuracy": 0.6593097994724909,
      "num_tokens": 949221427.0,
      "step": 5649
    },
    {
      "entropy": 1.7113316158453624,
      "epoch": 0.6206915492570927,
      "grad_norm": 0.7773605585098267,
      "learning_rate": 1.6540308382696814e-05,
      "loss": 1.2532,
      "mean_token_accuracy": 0.6766321261723837,
      "num_tokens": 949344612.0,
      "step": 5650
    },
    {
      "entropy": 1.686803976694743,
      "epoch": 0.6208014061684656,
      "grad_norm": 0.8215593099594116,
      "learning_rate": 1.6539046498671377e-05,
      "loss": 1.398,
      "mean_token_accuracy": 0.6599339644114176,
      "num_tokens": 949479081.0,
      "step": 5651
    },
    {
      "entropy": 1.7015974322954814,
      "epoch": 0.6209112630798385,
      "grad_norm": 0.6959190368652344,
      "learning_rate": 1.6537784439337618e-05,
      "loss": 1.3426,
      "mean_token_accuracy": 0.6654083828131357,
      "num_tokens": 949657684.0,
      "step": 5652
    },
    {
      "entropy": 1.6332708994547527,
      "epoch": 0.6210211199912115,
      "grad_norm": 0.6165181398391724,
      "learning_rate": 1.6536522204735473e-05,
      "loss": 1.3202,
      "mean_token_accuracy": 0.6605967779954275,
      "num_tokens": 949808395.0,
      "step": 5653
    },
    {
      "entropy": 1.7021582822004955,
      "epoch": 0.6211309769025843,
      "grad_norm": 0.736033022403717,
      "learning_rate": 1.6535259794904895e-05,
      "loss": 1.284,
      "mean_token_accuracy": 0.6535018235445023,
      "num_tokens": 949936209.0,
      "step": 5654
    },
    {
      "entropy": 1.7629179656505585,
      "epoch": 0.6212408338139573,
      "grad_norm": 0.6508721113204956,
      "learning_rate": 1.6533997209885843e-05,
      "loss": 1.4651,
      "mean_token_accuracy": 0.647722914814949,
      "num_tokens": 950155281.0,
      "step": 5655
    },
    {
      "entropy": 1.7487357060114543,
      "epoch": 0.6213506907253302,
      "grad_norm": 0.6706015467643738,
      "learning_rate": 1.653273444971827e-05,
      "loss": 1.4312,
      "mean_token_accuracy": 0.6624927769104639,
      "num_tokens": 950338044.0,
      "step": 5656
    },
    {
      "entropy": 1.699324498573939,
      "epoch": 0.6214605476367032,
      "grad_norm": 0.6364463567733765,
      "learning_rate": 1.6531471514442143e-05,
      "loss": 1.4349,
      "mean_token_accuracy": 0.6458380470673243,
      "num_tokens": 950510346.0,
      "step": 5657
    },
    {
      "entropy": 1.7458198368549347,
      "epoch": 0.6215704045480761,
      "grad_norm": 0.702688992023468,
      "learning_rate": 1.653020840409744e-05,
      "loss": 1.331,
      "mean_token_accuracy": 0.6683972229560217,
      "num_tokens": 950676071.0,
      "step": 5658
    },
    {
      "entropy": 1.6945001284281414,
      "epoch": 0.6216802614594491,
      "grad_norm": 0.722691535949707,
      "learning_rate": 1.652894511872413e-05,
      "loss": 1.3648,
      "mean_token_accuracy": 0.6641036917765936,
      "num_tokens": 950826008.0,
      "step": 5659
    },
    {
      "entropy": 1.6684882044792175,
      "epoch": 0.621790118370822,
      "grad_norm": 0.5960844159126282,
      "learning_rate": 1.6527681658362195e-05,
      "loss": 1.4113,
      "mean_token_accuracy": 0.6465084751447042,
      "num_tokens": 951009559.0,
      "step": 5660
    },
    {
      "entropy": 1.7376012802124023,
      "epoch": 0.621899975282195,
      "grad_norm": 0.9526035785675049,
      "learning_rate": 1.652641802305163e-05,
      "loss": 1.2984,
      "mean_token_accuracy": 0.6551149984200796,
      "num_tokens": 951117465.0,
      "step": 5661
    },
    {
      "entropy": 1.6809014678001404,
      "epoch": 0.6220098321935679,
      "grad_norm": 0.6386826038360596,
      "learning_rate": 1.6525154212832427e-05,
      "loss": 1.5054,
      "mean_token_accuracy": 0.6454970935980479,
      "num_tokens": 951316564.0,
      "step": 5662
    },
    {
      "entropy": 1.747914433479309,
      "epoch": 0.6221196891049409,
      "grad_norm": 0.637520432472229,
      "learning_rate": 1.652389022774458e-05,
      "loss": 1.4074,
      "mean_token_accuracy": 0.660906101266543,
      "num_tokens": 951550546.0,
      "step": 5663
    },
    {
      "entropy": 1.6579786936442058,
      "epoch": 0.6222295460163138,
      "grad_norm": 0.7350385189056396,
      "learning_rate": 1.6522626067828096e-05,
      "loss": 1.4238,
      "mean_token_accuracy": 0.6841726005077362,
      "num_tokens": 951679384.0,
      "step": 5664
    },
    {
      "entropy": 1.7201216916243236,
      "epoch": 0.6223394029276866,
      "grad_norm": 0.7172040343284607,
      "learning_rate": 1.6521361733122988e-05,
      "loss": 1.473,
      "mean_token_accuracy": 0.6475165237983068,
      "num_tokens": 951851937.0,
      "step": 5665
    },
    {
      "entropy": 1.6948122183481853,
      "epoch": 0.6224492598390596,
      "grad_norm": 0.7633089423179626,
      "learning_rate": 1.6520097223669265e-05,
      "loss": 1.3301,
      "mean_token_accuracy": 0.6592757950226465,
      "num_tokens": 952008420.0,
      "step": 5666
    },
    {
      "entropy": 1.7121588389078777,
      "epoch": 0.6225591167504325,
      "grad_norm": 0.8232876062393188,
      "learning_rate": 1.6518832539506956e-05,
      "loss": 1.2325,
      "mean_token_accuracy": 0.67981685201327,
      "num_tokens": 952133734.0,
      "step": 5667
    },
    {
      "entropy": 1.6649379134178162,
      "epoch": 0.6226689736618055,
      "grad_norm": 0.6807710528373718,
      "learning_rate": 1.6517567680676082e-05,
      "loss": 1.3521,
      "mean_token_accuracy": 0.6662793705860773,
      "num_tokens": 952280589.0,
      "step": 5668
    },
    {
      "entropy": 1.7094309329986572,
      "epoch": 0.6227788305731784,
      "grad_norm": 0.6411172151565552,
      "learning_rate": 1.6516302647216678e-05,
      "loss": 1.3567,
      "mean_token_accuracy": 0.6611761103073756,
      "num_tokens": 952461092.0,
      "step": 5669
    },
    {
      "entropy": 1.686687747637431,
      "epoch": 0.6228886874845514,
      "grad_norm": 0.6205955743789673,
      "learning_rate": 1.651503743916878e-05,
      "loss": 1.395,
      "mean_token_accuracy": 0.6670850316683451,
      "num_tokens": 952633888.0,
      "step": 5670
    },
    {
      "entropy": 1.7188594837983449,
      "epoch": 0.6229985443959243,
      "grad_norm": 0.795706570148468,
      "learning_rate": 1.6513772056572434e-05,
      "loss": 1.436,
      "mean_token_accuracy": 0.6592790633440018,
      "num_tokens": 952787296.0,
      "step": 5671
    },
    {
      "entropy": 1.6902817885080974,
      "epoch": 0.6231084013072973,
      "grad_norm": 0.5516853928565979,
      "learning_rate": 1.6512506499467683e-05,
      "loss": 1.4364,
      "mean_token_accuracy": 0.6347800940275192,
      "num_tokens": 953006969.0,
      "step": 5672
    },
    {
      "entropy": 1.7436016698678334,
      "epoch": 0.6232182582186702,
      "grad_norm": 0.8173310160636902,
      "learning_rate": 1.651124076789459e-05,
      "loss": 1.1976,
      "mean_token_accuracy": 0.6767911414305369,
      "num_tokens": 953116217.0,
      "step": 5673
    },
    {
      "entropy": 1.7197916905085247,
      "epoch": 0.6233281151300432,
      "grad_norm": 0.7681940793991089,
      "learning_rate": 1.6509974861893207e-05,
      "loss": 1.382,
      "mean_token_accuracy": 0.658002108335495,
      "num_tokens": 953280585.0,
      "step": 5674
    },
    {
      "entropy": 1.7034264703591664,
      "epoch": 0.623437972041416,
      "grad_norm": 0.6472874879837036,
      "learning_rate": 1.6508708781503604e-05,
      "loss": 1.2812,
      "mean_token_accuracy": 0.6792033066352209,
      "num_tokens": 953424705.0,
      "step": 5675
    },
    {
      "entropy": 1.676049013932546,
      "epoch": 0.623547828952789,
      "grad_norm": 0.6681833863258362,
      "learning_rate": 1.650744252676585e-05,
      "loss": 1.2813,
      "mean_token_accuracy": 0.6753066728512446,
      "num_tokens": 953580943.0,
      "step": 5676
    },
    {
      "entropy": 1.6816561023394268,
      "epoch": 0.6236576858641619,
      "grad_norm": 0.910898745059967,
      "learning_rate": 1.6506176097720025e-05,
      "loss": 1.238,
      "mean_token_accuracy": 0.6695930411418279,
      "num_tokens": 953734061.0,
      "step": 5677
    },
    {
      "entropy": 1.735485553741455,
      "epoch": 0.6237675427755348,
      "grad_norm": 0.6783795952796936,
      "learning_rate": 1.6504909494406202e-05,
      "loss": 1.3318,
      "mean_token_accuracy": 0.6575172245502472,
      "num_tokens": 953846716.0,
      "step": 5678
    },
    {
      "entropy": 1.8034160832564037,
      "epoch": 0.6238773996869078,
      "grad_norm": 0.689171314239502,
      "learning_rate": 1.6503642716864475e-05,
      "loss": 1.401,
      "mean_token_accuracy": 0.6448919673760732,
      "num_tokens": 953994690.0,
      "step": 5679
    },
    {
      "entropy": 1.6796988149483998,
      "epoch": 0.6239872565982807,
      "grad_norm": 0.7800900936126709,
      "learning_rate": 1.650237576513494e-05,
      "loss": 1.2953,
      "mean_token_accuracy": 0.6639833003282547,
      "num_tokens": 954154318.0,
      "step": 5680
    },
    {
      "entropy": 1.7101227541764576,
      "epoch": 0.6240971135096537,
      "grad_norm": 0.7329297065734863,
      "learning_rate": 1.650110863925769e-05,
      "loss": 1.3773,
      "mean_token_accuracy": 0.6709673305352529,
      "num_tokens": 954305906.0,
      "step": 5681
    },
    {
      "entropy": 1.683126191298167,
      "epoch": 0.6242069704210266,
      "grad_norm": 0.7751897573471069,
      "learning_rate": 1.6499841339272826e-05,
      "loss": 1.2098,
      "mean_token_accuracy": 0.6865563889344534,
      "num_tokens": 954448481.0,
      "step": 5682
    },
    {
      "entropy": 1.686317543188731,
      "epoch": 0.6243168273323996,
      "grad_norm": 0.6909394860267639,
      "learning_rate": 1.649857386522047e-05,
      "loss": 1.4806,
      "mean_token_accuracy": 0.658604254325231,
      "num_tokens": 954588846.0,
      "step": 5683
    },
    {
      "entropy": 1.738376796245575,
      "epoch": 0.6244266842437725,
      "grad_norm": 0.6977959871292114,
      "learning_rate": 1.6497306217140723e-05,
      "loss": 1.3653,
      "mean_token_accuracy": 0.6561718732118607,
      "num_tokens": 954703540.0,
      "step": 5684
    },
    {
      "entropy": 1.7150452435016632,
      "epoch": 0.6245365411551455,
      "grad_norm": 0.7359358072280884,
      "learning_rate": 1.6496038395073714e-05,
      "loss": 1.3309,
      "mean_token_accuracy": 0.6774442195892334,
      "num_tokens": 954823216.0,
      "step": 5685
    },
    {
      "entropy": 1.6885569989681244,
      "epoch": 0.6246463980665183,
      "grad_norm": 0.6183052659034729,
      "learning_rate": 1.649477039905956e-05,
      "loss": 1.4629,
      "mean_token_accuracy": 0.6438476542631785,
      "num_tokens": 955010837.0,
      "step": 5686
    },
    {
      "entropy": 1.7190197507540386,
      "epoch": 0.6247562549778913,
      "grad_norm": 0.731508731842041,
      "learning_rate": 1.6493502229138404e-05,
      "loss": 1.3833,
      "mean_token_accuracy": 0.6536182264486948,
      "num_tokens": 955149407.0,
      "step": 5687
    },
    {
      "entropy": 1.735072563091914,
      "epoch": 0.6248661118892642,
      "grad_norm": 0.6480312943458557,
      "learning_rate": 1.6492233885350378e-05,
      "loss": 1.4092,
      "mean_token_accuracy": 0.6455465306838354,
      "num_tokens": 955323698.0,
      "step": 5688
    },
    {
      "entropy": 1.7098636428515117,
      "epoch": 0.6249759688006372,
      "grad_norm": 0.6097153425216675,
      "learning_rate": 1.6490965367735627e-05,
      "loss": 1.4695,
      "mean_token_accuracy": 0.6430481324593226,
      "num_tokens": 955565112.0,
      "step": 5689
    },
    {
      "entropy": 1.6718948781490326,
      "epoch": 0.6250858257120101,
      "grad_norm": 0.8378857374191284,
      "learning_rate": 1.6489696676334292e-05,
      "loss": 1.4418,
      "mean_token_accuracy": 0.6423271497090658,
      "num_tokens": 955780285.0,
      "step": 5690
    },
    {
      "entropy": 1.782025973002116,
      "epoch": 0.6251956826233831,
      "grad_norm": 0.7587185502052307,
      "learning_rate": 1.6488427811186533e-05,
      "loss": 1.6231,
      "mean_token_accuracy": 0.6388049274682999,
      "num_tokens": 955942572.0,
      "step": 5691
    },
    {
      "entropy": 1.7340028285980225,
      "epoch": 0.625305539534756,
      "grad_norm": 0.6405612230300903,
      "learning_rate": 1.6487158772332504e-05,
      "loss": 1.5302,
      "mean_token_accuracy": 0.6268052359422048,
      "num_tokens": 956175191.0,
      "step": 5692
    },
    {
      "entropy": 1.7250635226567586,
      "epoch": 0.6254153964461289,
      "grad_norm": 0.748051106929779,
      "learning_rate": 1.6485889559812377e-05,
      "loss": 1.3172,
      "mean_token_accuracy": 0.6627877404292425,
      "num_tokens": 956336559.0,
      "step": 5693
    },
    {
      "entropy": 1.6929832597573597,
      "epoch": 0.6255252533575019,
      "grad_norm": 0.631056010723114,
      "learning_rate": 1.6484620173666314e-05,
      "loss": 1.5161,
      "mean_token_accuracy": 0.646266758441925,
      "num_tokens": 956509627.0,
      "step": 5694
    },
    {
      "entropy": 1.692749907573064,
      "epoch": 0.6256351102688748,
      "grad_norm": 0.6480849981307983,
      "learning_rate": 1.6483350613934497e-05,
      "loss": 1.2836,
      "mean_token_accuracy": 0.6649422496557236,
      "num_tokens": 956687120.0,
      "step": 5695
    },
    {
      "entropy": 1.6549834311008453,
      "epoch": 0.6257449671802477,
      "grad_norm": 0.7371950149536133,
      "learning_rate": 1.64820808806571e-05,
      "loss": 1.3504,
      "mean_token_accuracy": 0.6728880554437637,
      "num_tokens": 956826533.0,
      "step": 5696
    },
    {
      "entropy": 1.7084954679012299,
      "epoch": 0.6258548240916206,
      "grad_norm": 0.7008212208747864,
      "learning_rate": 1.6480810973874316e-05,
      "loss": 1.357,
      "mean_token_accuracy": 0.6564209510882696,
      "num_tokens": 956956502.0,
      "step": 5697
    },
    {
      "entropy": 1.7462473213672638,
      "epoch": 0.6259646810029936,
      "grad_norm": 0.716570258140564,
      "learning_rate": 1.6479540893626332e-05,
      "loss": 1.4223,
      "mean_token_accuracy": 0.6491911063591639,
      "num_tokens": 957127208.0,
      "step": 5698
    },
    {
      "entropy": 1.7282981077829997,
      "epoch": 0.6260745379143665,
      "grad_norm": 0.8346961736679077,
      "learning_rate": 1.647827063995335e-05,
      "loss": 1.5449,
      "mean_token_accuracy": 0.6457051436106364,
      "num_tokens": 957332479.0,
      "step": 5699
    },
    {
      "entropy": 1.6583941678206127,
      "epoch": 0.6261843948257395,
      "grad_norm": 0.7575819492340088,
      "learning_rate": 1.6477000212895573e-05,
      "loss": 1.3436,
      "mean_token_accuracy": 0.6612271418174108,
      "num_tokens": 957498700.0,
      "step": 5700
    },
    {
      "entropy": 1.7637586295604706,
      "epoch": 0.6262942517371124,
      "grad_norm": 0.5901393294334412,
      "learning_rate": 1.6475729612493202e-05,
      "loss": 1.389,
      "mean_token_accuracy": 0.6556883603334427,
      "num_tokens": 957713899.0,
      "step": 5701
    },
    {
      "entropy": 1.7112191021442413,
      "epoch": 0.6264041086484854,
      "grad_norm": 0.6072997450828552,
      "learning_rate": 1.647445883878646e-05,
      "loss": 1.349,
      "mean_token_accuracy": 0.6535293956597646,
      "num_tokens": 957877257.0,
      "step": 5702
    },
    {
      "entropy": 1.6826953887939453,
      "epoch": 0.6265139655598583,
      "grad_norm": 0.7811943292617798,
      "learning_rate": 1.6473187891815563e-05,
      "loss": 1.3923,
      "mean_token_accuracy": 0.6466284741957983,
      "num_tokens": 958124142.0,
      "step": 5703
    },
    {
      "entropy": 1.7394831478595734,
      "epoch": 0.6266238224712313,
      "grad_norm": 0.7273539900779724,
      "learning_rate": 1.6471916771620734e-05,
      "loss": 1.4109,
      "mean_token_accuracy": 0.6454877008994421,
      "num_tokens": 958342923.0,
      "step": 5704
    },
    {
      "entropy": 1.7591275970141094,
      "epoch": 0.6267336793826042,
      "grad_norm": 0.641975998878479,
      "learning_rate": 1.6470645478242203e-05,
      "loss": 1.4495,
      "mean_token_accuracy": 0.6493928283452988,
      "num_tokens": 958589574.0,
      "step": 5705
    },
    {
      "entropy": 1.6759761174519856,
      "epoch": 0.626843536293977,
      "grad_norm": 0.677434504032135,
      "learning_rate": 1.6469374011720213e-05,
      "loss": 1.2512,
      "mean_token_accuracy": 0.68131522834301,
      "num_tokens": 958743999.0,
      "step": 5706
    },
    {
      "entropy": 1.7099489271640778,
      "epoch": 0.62695339320535,
      "grad_norm": 0.6134753823280334,
      "learning_rate": 1.6468102372094995e-05,
      "loss": 1.3581,
      "mean_token_accuracy": 0.659825325012207,
      "num_tokens": 958909549.0,
      "step": 5707
    },
    {
      "entropy": 1.7220982710520427,
      "epoch": 0.6270632501167229,
      "grad_norm": 0.7816711664199829,
      "learning_rate": 1.6466830559406805e-05,
      "loss": 1.3075,
      "mean_token_accuracy": 0.6649517863988876,
      "num_tokens": 959021472.0,
      "step": 5708
    },
    {
      "entropy": 1.6756068567434947,
      "epoch": 0.6271731070280959,
      "grad_norm": 0.6301890015602112,
      "learning_rate": 1.6465558573695888e-05,
      "loss": 1.3314,
      "mean_token_accuracy": 0.6648290057977041,
      "num_tokens": 959159822.0,
      "step": 5709
    },
    {
      "entropy": 1.7089245716730754,
      "epoch": 0.6272829639394688,
      "grad_norm": 0.7451719045639038,
      "learning_rate": 1.6464286415002504e-05,
      "loss": 1.2651,
      "mean_token_accuracy": 0.6750001311302185,
      "num_tokens": 959259070.0,
      "step": 5710
    },
    {
      "entropy": 1.7253338595231373,
      "epoch": 0.6273928208508418,
      "grad_norm": 0.7505415081977844,
      "learning_rate": 1.646301408336692e-05,
      "loss": 1.3964,
      "mean_token_accuracy": 0.6479530483484268,
      "num_tokens": 959434654.0,
      "step": 5711
    },
    {
      "entropy": 1.708227703968684,
      "epoch": 0.6275026777622147,
      "grad_norm": 0.6948199272155762,
      "learning_rate": 1.64617415788294e-05,
      "loss": 1.3378,
      "mean_token_accuracy": 0.6625229269266129,
      "num_tokens": 959588905.0,
      "step": 5712
    },
    {
      "entropy": 1.7235769430796306,
      "epoch": 0.6276125346735877,
      "grad_norm": 0.6836848855018616,
      "learning_rate": 1.6460468901430225e-05,
      "loss": 1.4183,
      "mean_token_accuracy": 0.6595809658368429,
      "num_tokens": 959737641.0,
      "step": 5713
    },
    {
      "entropy": 1.704572280248006,
      "epoch": 0.6277223915849606,
      "grad_norm": 0.6386615633964539,
      "learning_rate": 1.6459196051209663e-05,
      "loss": 1.521,
      "mean_token_accuracy": 0.63822074731191,
      "num_tokens": 960007106.0,
      "step": 5714
    },
    {
      "entropy": 1.6550373832384746,
      "epoch": 0.6278322484963336,
      "grad_norm": 0.6144903898239136,
      "learning_rate": 1.645792302820801e-05,
      "loss": 1.3233,
      "mean_token_accuracy": 0.6593523075183233,
      "num_tokens": 960197922.0,
      "step": 5715
    },
    {
      "entropy": 1.6816544930140178,
      "epoch": 0.6279421054077065,
      "grad_norm": 0.7425700426101685,
      "learning_rate": 1.645664983246555e-05,
      "loss": 1.2967,
      "mean_token_accuracy": 0.6748471558094025,
      "num_tokens": 960332207.0,
      "step": 5716
    },
    {
      "entropy": 1.6723963618278503,
      "epoch": 0.6280519623190794,
      "grad_norm": 0.7503743767738342,
      "learning_rate": 1.6455376464022585e-05,
      "loss": 1.2984,
      "mean_token_accuracy": 0.6709683686494827,
      "num_tokens": 960458091.0,
      "step": 5717
    },
    {
      "entropy": 1.6904148161411285,
      "epoch": 0.6281618192304523,
      "grad_norm": 0.70115727186203,
      "learning_rate": 1.645410292291941e-05,
      "loss": 1.5021,
      "mean_token_accuracy": 0.6557003756364187,
      "num_tokens": 960652785.0,
      "step": 5718
    },
    {
      "entropy": 1.7101349135239918,
      "epoch": 0.6282716761418252,
      "grad_norm": 0.7017475962638855,
      "learning_rate": 1.6452829209196337e-05,
      "loss": 1.3333,
      "mean_token_accuracy": 0.6754453778266907,
      "num_tokens": 960782480.0,
      "step": 5719
    },
    {
      "entropy": 1.7187654972076416,
      "epoch": 0.6283815330531982,
      "grad_norm": 0.7320044636726379,
      "learning_rate": 1.6451555322893676e-05,
      "loss": 1.5041,
      "mean_token_accuracy": 0.6363671620686849,
      "num_tokens": 960975432.0,
      "step": 5720
    },
    {
      "entropy": 1.629583348830541,
      "epoch": 0.6284913899645711,
      "grad_norm": 0.6926023364067078,
      "learning_rate": 1.6450281264051746e-05,
      "loss": 1.3311,
      "mean_token_accuracy": 0.6710839569568634,
      "num_tokens": 961145110.0,
      "step": 5721
    },
    {
      "entropy": 1.6936370134353638,
      "epoch": 0.6286012468759441,
      "grad_norm": 0.776731014251709,
      "learning_rate": 1.644900703271087e-05,
      "loss": 1.2384,
      "mean_token_accuracy": 0.6770918766657511,
      "num_tokens": 961334917.0,
      "step": 5722
    },
    {
      "entropy": 1.7333524624506633,
      "epoch": 0.628711103787317,
      "grad_norm": 0.6435438990592957,
      "learning_rate": 1.6447732628911375e-05,
      "loss": 1.4127,
      "mean_token_accuracy": 0.6506403088569641,
      "num_tokens": 961515935.0,
      "step": 5723
    },
    {
      "entropy": 1.729872743288676,
      "epoch": 0.62882096069869,
      "grad_norm": 0.6495027542114258,
      "learning_rate": 1.64464580526936e-05,
      "loss": 1.3786,
      "mean_token_accuracy": 0.6543400337298712,
      "num_tokens": 961656876.0,
      "step": 5724
    },
    {
      "entropy": 1.734206845362981,
      "epoch": 0.6289308176100629,
      "grad_norm": 0.6567356586456299,
      "learning_rate": 1.6445183304097882e-05,
      "loss": 1.5658,
      "mean_token_accuracy": 0.6441596001386642,
      "num_tokens": 961848097.0,
      "step": 5725
    },
    {
      "entropy": 1.7201481660207112,
      "epoch": 0.6290406745214359,
      "grad_norm": 0.7097489833831787,
      "learning_rate": 1.6443908383164565e-05,
      "loss": 1.4798,
      "mean_token_accuracy": 0.6604090680678686,
      "num_tokens": 961977227.0,
      "step": 5726
    },
    {
      "entropy": 1.6500455737113953,
      "epoch": 0.6291505314328087,
      "grad_norm": 0.5988762378692627,
      "learning_rate": 1.6442633289934e-05,
      "loss": 1.4845,
      "mean_token_accuracy": 0.6477457582950592,
      "num_tokens": 962218485.0,
      "step": 5727
    },
    {
      "entropy": 1.6345641314983368,
      "epoch": 0.6292603883441817,
      "grad_norm": 0.6215258240699768,
      "learning_rate": 1.6441358024446543e-05,
      "loss": 1.3618,
      "mean_token_accuracy": 0.6687282770872116,
      "num_tokens": 962381448.0,
      "step": 5728
    },
    {
      "entropy": 1.696586012840271,
      "epoch": 0.6293702452555546,
      "grad_norm": 0.6843472719192505,
      "learning_rate": 1.6440082586742558e-05,
      "loss": 1.3164,
      "mean_token_accuracy": 0.6669615209102631,
      "num_tokens": 962529434.0,
      "step": 5729
    },
    {
      "entropy": 1.6618889768918355,
      "epoch": 0.6294801021669276,
      "grad_norm": 0.7052629590034485,
      "learning_rate": 1.643880697686241e-05,
      "loss": 1.5781,
      "mean_token_accuracy": 0.638151670495669,
      "num_tokens": 962704605.0,
      "step": 5730
    },
    {
      "entropy": 1.707265595595042,
      "epoch": 0.6295899590783005,
      "grad_norm": 0.7040795683860779,
      "learning_rate": 1.6437531194846473e-05,
      "loss": 1.2903,
      "mean_token_accuracy": 0.6720566848913828,
      "num_tokens": 962824714.0,
      "step": 5731
    },
    {
      "entropy": 1.6971515615781148,
      "epoch": 0.6296998159896734,
      "grad_norm": 0.6653143763542175,
      "learning_rate": 1.6436255240735123e-05,
      "loss": 1.2856,
      "mean_token_accuracy": 0.6751369287570318,
      "num_tokens": 962983287.0,
      "step": 5732
    },
    {
      "entropy": 1.7146797279516857,
      "epoch": 0.6298096729010464,
      "grad_norm": 0.6092875003814697,
      "learning_rate": 1.643497911456874e-05,
      "loss": 1.3847,
      "mean_token_accuracy": 0.6554857790470123,
      "num_tokens": 963192937.0,
      "step": 5733
    },
    {
      "entropy": 1.723339209953944,
      "epoch": 0.6299195298124193,
      "grad_norm": 0.7470570802688599,
      "learning_rate": 1.6433702816387726e-05,
      "loss": 1.379,
      "mean_token_accuracy": 0.6623584628105164,
      "num_tokens": 963342862.0,
      "step": 5734
    },
    {
      "entropy": 1.7229750553766887,
      "epoch": 0.6300293867237923,
      "grad_norm": 0.6485400795936584,
      "learning_rate": 1.643242634623246e-05,
      "loss": 1.365,
      "mean_token_accuracy": 0.647914802034696,
      "num_tokens": 963467152.0,
      "step": 5735
    },
    {
      "entropy": 1.7394628127415974,
      "epoch": 0.6301392436351652,
      "grad_norm": 0.7105817794799805,
      "learning_rate": 1.643114970414335e-05,
      "loss": 1.4991,
      "mean_token_accuracy": 0.6525513231754303,
      "num_tokens": 963653661.0,
      "step": 5736
    },
    {
      "entropy": 1.677705059448878,
      "epoch": 0.6302491005465382,
      "grad_norm": 0.6255174875259399,
      "learning_rate": 1.64298728901608e-05,
      "loss": 1.2898,
      "mean_token_accuracy": 0.6665566811958948,
      "num_tokens": 963820917.0,
      "step": 5737
    },
    {
      "entropy": 1.6519030431906383,
      "epoch": 0.630358957457911,
      "grad_norm": 0.6910622119903564,
      "learning_rate": 1.6428595904325216e-05,
      "loss": 1.326,
      "mean_token_accuracy": 0.6713027606407801,
      "num_tokens": 963981593.0,
      "step": 5738
    },
    {
      "entropy": 1.750054806470871,
      "epoch": 0.630468814369284,
      "grad_norm": 0.7107712030410767,
      "learning_rate": 1.642731874667702e-05,
      "loss": 1.3285,
      "mean_token_accuracy": 0.6556506305932999,
      "num_tokens": 964125721.0,
      "step": 5739
    },
    {
      "entropy": 1.6838609278202057,
      "epoch": 0.6305786712806569,
      "grad_norm": 0.6880468726158142,
      "learning_rate": 1.6426041417256633e-05,
      "loss": 1.412,
      "mean_token_accuracy": 0.6564341684182485,
      "num_tokens": 964285108.0,
      "step": 5740
    },
    {
      "entropy": 1.6792670687039692,
      "epoch": 0.6306885281920299,
      "grad_norm": 0.6007390022277832,
      "learning_rate": 1.6424763916104477e-05,
      "loss": 1.3549,
      "mean_token_accuracy": 0.6552864263455073,
      "num_tokens": 964458866.0,
      "step": 5741
    },
    {
      "entropy": 1.7109587788581848,
      "epoch": 0.6307983851034028,
      "grad_norm": 0.730143129825592,
      "learning_rate": 1.6423486243260993e-05,
      "loss": 1.5021,
      "mean_token_accuracy": 0.663687601685524,
      "num_tokens": 964577666.0,
      "step": 5742
    },
    {
      "entropy": 1.6826227903366089,
      "epoch": 0.6309082420147758,
      "grad_norm": 0.662407636642456,
      "learning_rate": 1.642220839876661e-05,
      "loss": 1.3491,
      "mean_token_accuracy": 0.6631719022989273,
      "num_tokens": 964731662.0,
      "step": 5743
    },
    {
      "entropy": 1.6952384213606517,
      "epoch": 0.6310180989261487,
      "grad_norm": 0.638367772102356,
      "learning_rate": 1.6420930382661773e-05,
      "loss": 1.4605,
      "mean_token_accuracy": 0.6421840240557989,
      "num_tokens": 964979467.0,
      "step": 5744
    },
    {
      "entropy": 1.6700897018114726,
      "epoch": 0.6311279558375217,
      "grad_norm": 0.692187488079071,
      "learning_rate": 1.641965219498693e-05,
      "loss": 1.3674,
      "mean_token_accuracy": 0.6602755586306254,
      "num_tokens": 965202445.0,
      "step": 5745
    },
    {
      "entropy": 1.6474164128303528,
      "epoch": 0.6312378127488946,
      "grad_norm": 0.5569962859153748,
      "learning_rate": 1.6418373835782542e-05,
      "loss": 1.4016,
      "mean_token_accuracy": 0.6398782779773077,
      "num_tokens": 965414482.0,
      "step": 5746
    },
    {
      "entropy": 1.7786280512809753,
      "epoch": 0.6313476696602675,
      "grad_norm": 0.7615206241607666,
      "learning_rate": 1.6417095305089062e-05,
      "loss": 1.3846,
      "mean_token_accuracy": 0.6566232194503149,
      "num_tokens": 965560099.0,
      "step": 5747
    },
    {
      "entropy": 1.7956977883974712,
      "epoch": 0.6314575265716404,
      "grad_norm": 0.7831846475601196,
      "learning_rate": 1.641581660294696e-05,
      "loss": 1.4214,
      "mean_token_accuracy": 0.6555542002121607,
      "num_tokens": 965726148.0,
      "step": 5748
    },
    {
      "entropy": 1.6914733946323395,
      "epoch": 0.6315673834830133,
      "grad_norm": 0.6474779844284058,
      "learning_rate": 1.6414537729396698e-05,
      "loss": 1.4031,
      "mean_token_accuracy": 0.6505423734585444,
      "num_tokens": 965937834.0,
      "step": 5749
    },
    {
      "entropy": 1.7051812211672466,
      "epoch": 0.6316772403943863,
      "grad_norm": 0.7757088541984558,
      "learning_rate": 1.641325868447876e-05,
      "loss": 1.276,
      "mean_token_accuracy": 0.6699098100264868,
      "num_tokens": 966046845.0,
      "step": 5750
    },
    {
      "entropy": 1.6874237755934398,
      "epoch": 0.6317870973057592,
      "grad_norm": 0.8079215884208679,
      "learning_rate": 1.641197946823362e-05,
      "loss": 1.4308,
      "mean_token_accuracy": 0.6719500770171484,
      "num_tokens": 966238160.0,
      "step": 5751
    },
    {
      "entropy": 1.719059665997823,
      "epoch": 0.6318969542171322,
      "grad_norm": 0.6266113519668579,
      "learning_rate": 1.641070008070177e-05,
      "loss": 1.3024,
      "mean_token_accuracy": 0.6625022441148758,
      "num_tokens": 966383153.0,
      "step": 5752
    },
    {
      "entropy": 1.6473219096660614,
      "epoch": 0.6320068111285051,
      "grad_norm": 0.7965893149375916,
      "learning_rate": 1.6409420521923705e-05,
      "loss": 1.3459,
      "mean_token_accuracy": 0.6579365134239197,
      "num_tokens": 966589655.0,
      "step": 5753
    },
    {
      "entropy": 1.6831459005673726,
      "epoch": 0.6321166680398781,
      "grad_norm": 0.6689232587814331,
      "learning_rate": 1.6408140791939914e-05,
      "loss": 1.2523,
      "mean_token_accuracy": 0.6745945314566294,
      "num_tokens": 966736286.0,
      "step": 5754
    },
    {
      "entropy": 1.7096228897571564,
      "epoch": 0.632226524951251,
      "grad_norm": 0.6370944380760193,
      "learning_rate": 1.6406860890790904e-05,
      "loss": 1.4404,
      "mean_token_accuracy": 0.6629820168018341,
      "num_tokens": 966930006.0,
      "step": 5755
    },
    {
      "entropy": 1.643300195535024,
      "epoch": 0.632336381862624,
      "grad_norm": 0.5664902925491333,
      "learning_rate": 1.6405580818517183e-05,
      "loss": 1.4674,
      "mean_token_accuracy": 0.6461287786563238,
      "num_tokens": 967215614.0,
      "step": 5756
    },
    {
      "entropy": 1.6857891182104747,
      "epoch": 0.6324462387739969,
      "grad_norm": 0.6653056740760803,
      "learning_rate": 1.6404300575159266e-05,
      "loss": 1.3096,
      "mean_token_accuracy": 0.6652368158102036,
      "num_tokens": 967351993.0,
      "step": 5757
    },
    {
      "entropy": 1.6991856694221497,
      "epoch": 0.6325560956853699,
      "grad_norm": 0.7402186989784241,
      "learning_rate": 1.640302016075767e-05,
      "loss": 1.4144,
      "mean_token_accuracy": 0.6631848861773809,
      "num_tokens": 967491867.0,
      "step": 5758
    },
    {
      "entropy": 1.7615701655546825,
      "epoch": 0.6326659525967427,
      "grad_norm": 0.8464493751525879,
      "learning_rate": 1.6401739575352922e-05,
      "loss": 1.4789,
      "mean_token_accuracy": 0.6543097992738088,
      "num_tokens": 967645170.0,
      "step": 5759
    },
    {
      "entropy": 1.6885365744431813,
      "epoch": 0.6327758095081156,
      "grad_norm": 0.7495446801185608,
      "learning_rate": 1.640045881898555e-05,
      "loss": 1.3634,
      "mean_token_accuracy": 0.669794961810112,
      "num_tokens": 967769391.0,
      "step": 5760
    },
    {
      "entropy": 1.7515502472718556,
      "epoch": 0.6328856664194886,
      "grad_norm": 0.6737968325614929,
      "learning_rate": 1.639917789169609e-05,
      "loss": 1.376,
      "mean_token_accuracy": 0.6509286512931188,
      "num_tokens": 967905792.0,
      "step": 5761
    },
    {
      "entropy": 1.6751770774523418,
      "epoch": 0.6329955233308615,
      "grad_norm": 0.6613587141036987,
      "learning_rate": 1.639789679352508e-05,
      "loss": 1.3934,
      "mean_token_accuracy": 0.6460143725077311,
      "num_tokens": 968068487.0,
      "step": 5762
    },
    {
      "entropy": 1.7160434822241466,
      "epoch": 0.6331053802422345,
      "grad_norm": 0.7124457359313965,
      "learning_rate": 1.639661552451307e-05,
      "loss": 1.2378,
      "mean_token_accuracy": 0.6820594320694605,
      "num_tokens": 968185469.0,
      "step": 5763
    },
    {
      "entropy": 1.7458227773507435,
      "epoch": 0.6332152371536074,
      "grad_norm": 0.6111082434654236,
      "learning_rate": 1.6395334084700613e-05,
      "loss": 1.4604,
      "mean_token_accuracy": 0.6464193016290665,
      "num_tokens": 968396545.0,
      "step": 5764
    },
    {
      "entropy": 1.7225351532300313,
      "epoch": 0.6333250940649804,
      "grad_norm": 0.7520685791969299,
      "learning_rate": 1.6394052474128262e-05,
      "loss": 1.3592,
      "mean_token_accuracy": 0.6575525949398676,
      "num_tokens": 968577101.0,
      "step": 5765
    },
    {
      "entropy": 1.7581463356812794,
      "epoch": 0.6334349509763533,
      "grad_norm": 0.6961262822151184,
      "learning_rate": 1.639277069283658e-05,
      "loss": 1.4337,
      "mean_token_accuracy": 0.6417265683412552,
      "num_tokens": 968738011.0,
      "step": 5766
    },
    {
      "entropy": 1.6993624071280162,
      "epoch": 0.6335448078877263,
      "grad_norm": 0.7254540920257568,
      "learning_rate": 1.6391488740866137e-05,
      "loss": 1.6107,
      "mean_token_accuracy": 0.6395700896779696,
      "num_tokens": 968951008.0,
      "step": 5767
    },
    {
      "entropy": 1.712354451417923,
      "epoch": 0.6336546647990992,
      "grad_norm": 0.8201763033866882,
      "learning_rate": 1.6390206618257504e-05,
      "loss": 1.3487,
      "mean_token_accuracy": 0.6735559155543646,
      "num_tokens": 969087698.0,
      "step": 5768
    },
    {
      "entropy": 1.6842971344788868,
      "epoch": 0.6337645217104722,
      "grad_norm": 0.6519754528999329,
      "learning_rate": 1.6388924325051262e-05,
      "loss": 1.401,
      "mean_token_accuracy": 0.6581608355045319,
      "num_tokens": 969272928.0,
      "step": 5769
    },
    {
      "entropy": 1.673642873764038,
      "epoch": 0.633874378621845,
      "grad_norm": 0.6902750134468079,
      "learning_rate": 1.6387641861287988e-05,
      "loss": 1.401,
      "mean_token_accuracy": 0.6717785199483236,
      "num_tokens": 969452469.0,
      "step": 5770
    },
    {
      "entropy": 1.6944104433059692,
      "epoch": 0.633984235533218,
      "grad_norm": 0.7268493175506592,
      "learning_rate": 1.6386359227008283e-05,
      "loss": 1.4569,
      "mean_token_accuracy": 0.6476317048072815,
      "num_tokens": 969642687.0,
      "step": 5771
    },
    {
      "entropy": 1.6414244969685872,
      "epoch": 0.6340940924445909,
      "grad_norm": 0.5762456655502319,
      "learning_rate": 1.6385076422252735e-05,
      "loss": 1.4876,
      "mean_token_accuracy": 0.6473345657189687,
      "num_tokens": 969895358.0,
      "step": 5772
    },
    {
      "entropy": 1.7236258288224537,
      "epoch": 0.6342039493559638,
      "grad_norm": 0.773324728012085,
      "learning_rate": 1.638379344706194e-05,
      "loss": 1.4069,
      "mean_token_accuracy": 0.6589711755514145,
      "num_tokens": 970022354.0,
      "step": 5773
    },
    {
      "entropy": 1.6633692582448323,
      "epoch": 0.6343138062673368,
      "grad_norm": 0.6954154968261719,
      "learning_rate": 1.6382510301476514e-05,
      "loss": 1.3966,
      "mean_token_accuracy": 0.6627478500207266,
      "num_tokens": 970183041.0,
      "step": 5774
    },
    {
      "entropy": 1.722163478533427,
      "epoch": 0.6344236631787097,
      "grad_norm": 0.6416156888008118,
      "learning_rate": 1.638122698553706e-05,
      "loss": 1.3794,
      "mean_token_accuracy": 0.6767031103372574,
      "num_tokens": 970325617.0,
      "step": 5775
    },
    {
      "entropy": 1.7074719667434692,
      "epoch": 0.6345335200900827,
      "grad_norm": 0.6638447046279907,
      "learning_rate": 1.6379943499284194e-05,
      "loss": 1.366,
      "mean_token_accuracy": 0.6629780729611715,
      "num_tokens": 970503187.0,
      "step": 5776
    },
    {
      "entropy": 1.7575515409310658,
      "epoch": 0.6346433770014556,
      "grad_norm": 0.6173842549324036,
      "learning_rate": 1.6378659842758545e-05,
      "loss": 1.4809,
      "mean_token_accuracy": 0.6375833203395208,
      "num_tokens": 970734107.0,
      "step": 5777
    },
    {
      "entropy": 1.6983816027641296,
      "epoch": 0.6347532339128286,
      "grad_norm": 0.638751208782196,
      "learning_rate": 1.6377376016000735e-05,
      "loss": 1.3994,
      "mean_token_accuracy": 0.6642539451519648,
      "num_tokens": 970909962.0,
      "step": 5778
    },
    {
      "entropy": 1.681634436051051,
      "epoch": 0.6348630908242014,
      "grad_norm": 0.7870696187019348,
      "learning_rate": 1.6376092019051396e-05,
      "loss": 1.5343,
      "mean_token_accuracy": 0.6600727339585623,
      "num_tokens": 971073686.0,
      "step": 5779
    },
    {
      "entropy": 1.6831410626570384,
      "epoch": 0.6349729477355744,
      "grad_norm": 0.7157701849937439,
      "learning_rate": 1.6374807851951166e-05,
      "loss": 1.4874,
      "mean_token_accuracy": 0.6633025457461675,
      "num_tokens": 971233291.0,
      "step": 5780
    },
    {
      "entropy": 1.6157586574554443,
      "epoch": 0.6350828046469473,
      "grad_norm": 0.6183757185935974,
      "learning_rate": 1.637352351474069e-05,
      "loss": 1.318,
      "mean_token_accuracy": 0.6748292644818624,
      "num_tokens": 971387042.0,
      "step": 5781
    },
    {
      "entropy": 1.7227964301904042,
      "epoch": 0.6351926615583203,
      "grad_norm": 0.7202012538909912,
      "learning_rate": 1.6372239007460618e-05,
      "loss": 1.38,
      "mean_token_accuracy": 0.6581563999255499,
      "num_tokens": 971608939.0,
      "step": 5782
    },
    {
      "entropy": 1.6987042327721913,
      "epoch": 0.6353025184696932,
      "grad_norm": 0.598973274230957,
      "learning_rate": 1.63709543301516e-05,
      "loss": 1.5169,
      "mean_token_accuracy": 0.6307604809602102,
      "num_tokens": 971829170.0,
      "step": 5783
    },
    {
      "entropy": 1.6923502782980602,
      "epoch": 0.6354123753810662,
      "grad_norm": 0.6629777550697327,
      "learning_rate": 1.6369669482854298e-05,
      "loss": 1.3937,
      "mean_token_accuracy": 0.6485069692134857,
      "num_tokens": 971977025.0,
      "step": 5784
    },
    {
      "entropy": 1.6766403019428253,
      "epoch": 0.6355222322924391,
      "grad_norm": 0.7367562055587769,
      "learning_rate": 1.6368384465609376e-05,
      "loss": 1.4578,
      "mean_token_accuracy": 0.6594801992177963,
      "num_tokens": 972163071.0,
      "step": 5785
    },
    {
      "entropy": 1.7118110756079357,
      "epoch": 0.6356320892038121,
      "grad_norm": 0.6576919555664062,
      "learning_rate": 1.636709927845751e-05,
      "loss": 1.4844,
      "mean_token_accuracy": 0.6427266945441564,
      "num_tokens": 972368158.0,
      "step": 5786
    },
    {
      "entropy": 1.712723731994629,
      "epoch": 0.635741946115185,
      "grad_norm": 0.6602995991706848,
      "learning_rate": 1.6365813921439365e-05,
      "loss": 1.3296,
      "mean_token_accuracy": 0.6641115595897039,
      "num_tokens": 972525592.0,
      "step": 5787
    },
    {
      "entropy": 1.7280906836191814,
      "epoch": 0.6358518030265579,
      "grad_norm": 0.7627761960029602,
      "learning_rate": 1.6364528394595627e-05,
      "loss": 1.3437,
      "mean_token_accuracy": 0.6574230591456095,
      "num_tokens": 972716798.0,
      "step": 5788
    },
    {
      "entropy": 1.7323518792788188,
      "epoch": 0.6359616599379309,
      "grad_norm": 0.714829683303833,
      "learning_rate": 1.6363242697966984e-05,
      "loss": 1.495,
      "mean_token_accuracy": 0.6422079453865687,
      "num_tokens": 972883401.0,
      "step": 5789
    },
    {
      "entropy": 1.6686233679453533,
      "epoch": 0.6360715168493037,
      "grad_norm": 0.6240226030349731,
      "learning_rate": 1.636195683159413e-05,
      "loss": 1.4466,
      "mean_token_accuracy": 0.662479097644488,
      "num_tokens": 973067632.0,
      "step": 5790
    },
    {
      "entropy": 1.6985422770182292,
      "epoch": 0.6361813737606767,
      "grad_norm": 0.7517790198326111,
      "learning_rate": 1.6360670795517754e-05,
      "loss": 1.2413,
      "mean_token_accuracy": 0.6770857026179632,
      "num_tokens": 973199330.0,
      "step": 5791
    },
    {
      "entropy": 1.7671143412590027,
      "epoch": 0.6362912306720496,
      "grad_norm": 0.6133571863174438,
      "learning_rate": 1.6359384589778563e-05,
      "loss": 1.3633,
      "mean_token_accuracy": 0.6553646673758825,
      "num_tokens": 973335730.0,
      "step": 5792
    },
    {
      "entropy": 1.7020770212014515,
      "epoch": 0.6364010875834226,
      "grad_norm": 0.800118088722229,
      "learning_rate": 1.6358098214417263e-05,
      "loss": 1.5184,
      "mean_token_accuracy": 0.6433244993289312,
      "num_tokens": 973529438.0,
      "step": 5793
    },
    {
      "entropy": 1.6572450300057728,
      "epoch": 0.6365109444947955,
      "grad_norm": 0.6743999123573303,
      "learning_rate": 1.635681166947457e-05,
      "loss": 1.3541,
      "mean_token_accuracy": 0.665309856335322,
      "num_tokens": 973686576.0,
      "step": 5794
    },
    {
      "entropy": 1.7047623197237651,
      "epoch": 0.6366208014061685,
      "grad_norm": 0.7407748699188232,
      "learning_rate": 1.6355524954991205e-05,
      "loss": 1.3828,
      "mean_token_accuracy": 0.6678665081659952,
      "num_tokens": 973906181.0,
      "step": 5795
    },
    {
      "entropy": 1.6628866891066234,
      "epoch": 0.6367306583175414,
      "grad_norm": 0.5496436953544617,
      "learning_rate": 1.6354238071007887e-05,
      "loss": 1.2899,
      "mean_token_accuracy": 0.6707668304443359,
      "num_tokens": 974089134.0,
      "step": 5796
    },
    {
      "entropy": 1.7366754313309987,
      "epoch": 0.6368405152289144,
      "grad_norm": 0.5878070592880249,
      "learning_rate": 1.6352951017565346e-05,
      "loss": 1.5668,
      "mean_token_accuracy": 0.6261717478434244,
      "num_tokens": 974292842.0,
      "step": 5797
    },
    {
      "entropy": 1.6523142755031586,
      "epoch": 0.6369503721402873,
      "grad_norm": 0.6288219690322876,
      "learning_rate": 1.6351663794704316e-05,
      "loss": 1.4322,
      "mean_token_accuracy": 0.6486099511384964,
      "num_tokens": 974493940.0,
      "step": 5798
    },
    {
      "entropy": 1.6582373181978862,
      "epoch": 0.6370602290516603,
      "grad_norm": 0.7235569953918457,
      "learning_rate": 1.635037640246554e-05,
      "loss": 1.2853,
      "mean_token_accuracy": 0.6691482861836752,
      "num_tokens": 974630137.0,
      "step": 5799
    },
    {
      "entropy": 1.744762162367503,
      "epoch": 0.6371700859630332,
      "grad_norm": 0.7221118211746216,
      "learning_rate": 1.634908884088976e-05,
      "loss": 1.4468,
      "mean_token_accuracy": 0.6466242223978043,
      "num_tokens": 974816980.0,
      "step": 5800
    },
    {
      "entropy": 1.7268809576829274,
      "epoch": 0.637279942874406,
      "grad_norm": 0.6569739580154419,
      "learning_rate": 1.634780111001773e-05,
      "loss": 1.3366,
      "mean_token_accuracy": 0.6608653118213018,
      "num_tokens": 974959442.0,
      "step": 5801
    },
    {
      "entropy": 1.7274185717105865,
      "epoch": 0.637389799785779,
      "grad_norm": 0.6722861528396606,
      "learning_rate": 1.6346513209890206e-05,
      "loss": 1.2967,
      "mean_token_accuracy": 0.6615037868420283,
      "num_tokens": 975083415.0,
      "step": 5802
    },
    {
      "entropy": 1.6528538862864177,
      "epoch": 0.6374996566971519,
      "grad_norm": 0.6227561235427856,
      "learning_rate": 1.6345225140547946e-05,
      "loss": 1.3146,
      "mean_token_accuracy": 0.6666281570990881,
      "num_tokens": 975209878.0,
      "step": 5803
    },
    {
      "entropy": 1.6657472550868988,
      "epoch": 0.6376095136085249,
      "grad_norm": 0.6815557479858398,
      "learning_rate": 1.634393690203172e-05,
      "loss": 1.3838,
      "mean_token_accuracy": 0.6573799202839533,
      "num_tokens": 975397134.0,
      "step": 5804
    },
    {
      "entropy": 1.6994928816954296,
      "epoch": 0.6377193705198978,
      "grad_norm": 0.6876154541969299,
      "learning_rate": 1.63426484943823e-05,
      "loss": 1.3021,
      "mean_token_accuracy": 0.6681809027989706,
      "num_tokens": 975549830.0,
      "step": 5805
    },
    {
      "entropy": 1.6880747079849243,
      "epoch": 0.6378292274312708,
      "grad_norm": 0.649737536907196,
      "learning_rate": 1.6341359917640462e-05,
      "loss": 1.2683,
      "mean_token_accuracy": 0.6772895157337189,
      "num_tokens": 975724955.0,
      "step": 5806
    },
    {
      "entropy": 1.7019491692384083,
      "epoch": 0.6379390843426437,
      "grad_norm": 0.680798351764679,
      "learning_rate": 1.634007117184699e-05,
      "loss": 1.3433,
      "mean_token_accuracy": 0.6644106159607569,
      "num_tokens": 975899143.0,
      "step": 5807
    },
    {
      "entropy": 1.8168910245100658,
      "epoch": 0.6380489412540167,
      "grad_norm": 1.041638970375061,
      "learning_rate": 1.633878225704267e-05,
      "loss": 1.4986,
      "mean_token_accuracy": 0.640401303768158,
      "num_tokens": 976090892.0,
      "step": 5808
    },
    {
      "entropy": 1.7052318652470906,
      "epoch": 0.6381587981653896,
      "grad_norm": 0.5862450003623962,
      "learning_rate": 1.63374931732683e-05,
      "loss": 1.3986,
      "mean_token_accuracy": 0.6688533673683802,
      "num_tokens": 976245143.0,
      "step": 5809
    },
    {
      "entropy": 1.6716302533944447,
      "epoch": 0.6382686550767626,
      "grad_norm": 0.6785920858383179,
      "learning_rate": 1.633620392056467e-05,
      "loss": 1.3501,
      "mean_token_accuracy": 0.6693478226661682,
      "num_tokens": 976369806.0,
      "step": 5810
    },
    {
      "entropy": 1.6544945339361827,
      "epoch": 0.6383785119881354,
      "grad_norm": 0.5717010498046875,
      "learning_rate": 1.6334914498972595e-05,
      "loss": 1.3667,
      "mean_token_accuracy": 0.6694445610046387,
      "num_tokens": 976553064.0,
      "step": 5811
    },
    {
      "entropy": 1.7117507060368855,
      "epoch": 0.6384883688995084,
      "grad_norm": 0.6321550607681274,
      "learning_rate": 1.633362490853288e-05,
      "loss": 1.5681,
      "mean_token_accuracy": 0.6327792455752691,
      "num_tokens": 976731552.0,
      "step": 5812
    },
    {
      "entropy": 1.70002148548762,
      "epoch": 0.6385982258108813,
      "grad_norm": 0.634379506111145,
      "learning_rate": 1.633233514928634e-05,
      "loss": 1.3679,
      "mean_token_accuracy": 0.6579567342996597,
      "num_tokens": 976914840.0,
      "step": 5813
    },
    {
      "entropy": 1.7061622142791748,
      "epoch": 0.6387080827222542,
      "grad_norm": 0.6758495569229126,
      "learning_rate": 1.6331045221273795e-05,
      "loss": 1.3905,
      "mean_token_accuracy": 0.6592559516429901,
      "num_tokens": 977102576.0,
      "step": 5814
    },
    {
      "entropy": 1.6816378434499104,
      "epoch": 0.6388179396336272,
      "grad_norm": 0.6217886805534363,
      "learning_rate": 1.6329755124536074e-05,
      "loss": 1.3363,
      "mean_token_accuracy": 0.6602163165807724,
      "num_tokens": 977243005.0,
      "step": 5815
    },
    {
      "entropy": 1.6444752017656963,
      "epoch": 0.6389277965450001,
      "grad_norm": 0.7023751735687256,
      "learning_rate": 1.6328464859113998e-05,
      "loss": 1.3488,
      "mean_token_accuracy": 0.6646647155284882,
      "num_tokens": 977397257.0,
      "step": 5816
    },
    {
      "entropy": 1.756317913532257,
      "epoch": 0.6390376534563731,
      "grad_norm": 0.753580629825592,
      "learning_rate": 1.6327174425048415e-05,
      "loss": 1.34,
      "mean_token_accuracy": 0.6718757003545761,
      "num_tokens": 977535347.0,
      "step": 5817
    },
    {
      "entropy": 1.6862174967924755,
      "epoch": 0.639147510367746,
      "grad_norm": 0.6223485469818115,
      "learning_rate": 1.632588382238016e-05,
      "loss": 1.2357,
      "mean_token_accuracy": 0.6681343664725622,
      "num_tokens": 977680666.0,
      "step": 5818
    },
    {
      "entropy": 1.6936693688233693,
      "epoch": 0.639257367279119,
      "grad_norm": 0.6414377689361572,
      "learning_rate": 1.6324593051150084e-05,
      "loss": 1.3485,
      "mean_token_accuracy": 0.6657200207312902,
      "num_tokens": 977840285.0,
      "step": 5819
    },
    {
      "entropy": 1.6185721854368846,
      "epoch": 0.6393672241904919,
      "grad_norm": 0.5484555959701538,
      "learning_rate": 1.632330211139904e-05,
      "loss": 1.2784,
      "mean_token_accuracy": 0.6813697318236033,
      "num_tokens": 978022560.0,
      "step": 5820
    },
    {
      "entropy": 1.6399174928665161,
      "epoch": 0.6394770811018649,
      "grad_norm": 0.6649972796440125,
      "learning_rate": 1.6322011003167877e-05,
      "loss": 1.3435,
      "mean_token_accuracy": 0.6716059247652689,
      "num_tokens": 978163797.0,
      "step": 5821
    },
    {
      "entropy": 1.761791964371999,
      "epoch": 0.6395869380132377,
      "grad_norm": 0.7113659381866455,
      "learning_rate": 1.6320719726497465e-05,
      "loss": 1.3612,
      "mean_token_accuracy": 0.655978669722875,
      "num_tokens": 978316603.0,
      "step": 5822
    },
    {
      "entropy": 1.7087388435999553,
      "epoch": 0.6396967949246107,
      "grad_norm": 0.6851733326911926,
      "learning_rate": 1.6319428281428674e-05,
      "loss": 1.3932,
      "mean_token_accuracy": 0.6515816897153854,
      "num_tokens": 978468692.0,
      "step": 5823
    },
    {
      "entropy": 1.7219915489355724,
      "epoch": 0.6398066518359836,
      "grad_norm": 0.6899517774581909,
      "learning_rate": 1.6318136668002374e-05,
      "loss": 1.5738,
      "mean_token_accuracy": 0.6320692549149195,
      "num_tokens": 978646354.0,
      "step": 5824
    },
    {
      "entropy": 1.705000917116801,
      "epoch": 0.6399165087473566,
      "grad_norm": 0.7402633428573608,
      "learning_rate": 1.6316844886259443e-05,
      "loss": 1.2827,
      "mean_token_accuracy": 0.6657779663801193,
      "num_tokens": 978781744.0,
      "step": 5825
    },
    {
      "entropy": 1.7203875084718068,
      "epoch": 0.6400263656587295,
      "grad_norm": 0.8369673490524292,
      "learning_rate": 1.631555293624077e-05,
      "loss": 1.4431,
      "mean_token_accuracy": 0.6510690748691559,
      "num_tokens": 978918388.0,
      "step": 5826
    },
    {
      "entropy": 1.6911202172438304,
      "epoch": 0.6401362225701024,
      "grad_norm": 0.7420011162757874,
      "learning_rate": 1.6314260817987237e-05,
      "loss": 1.3414,
      "mean_token_accuracy": 0.6616135090589523,
      "num_tokens": 979058916.0,
      "step": 5827
    },
    {
      "entropy": 1.7454005479812622,
      "epoch": 0.6402460794814754,
      "grad_norm": 0.6640864610671997,
      "learning_rate": 1.6312968531539748e-05,
      "loss": 1.4186,
      "mean_token_accuracy": 0.6549846281607946,
      "num_tokens": 979208637.0,
      "step": 5828
    },
    {
      "entropy": 1.7146745920181274,
      "epoch": 0.6403559363928483,
      "grad_norm": 0.736393392086029,
      "learning_rate": 1.6311676076939197e-05,
      "loss": 1.4239,
      "mean_token_accuracy": 0.6446640143791834,
      "num_tokens": 979366751.0,
      "step": 5829
    },
    {
      "entropy": 1.7976812819639842,
      "epoch": 0.6404657933042213,
      "grad_norm": 0.7656483054161072,
      "learning_rate": 1.6310383454226496e-05,
      "loss": 1.5592,
      "mean_token_accuracy": 0.633850152293841,
      "num_tokens": 979523642.0,
      "step": 5830
    },
    {
      "entropy": 1.7306662797927856,
      "epoch": 0.6405756502155942,
      "grad_norm": 0.7166682481765747,
      "learning_rate": 1.6309090663442546e-05,
      "loss": 1.416,
      "mean_token_accuracy": 0.6429750323295593,
      "num_tokens": 979684950.0,
      "step": 5831
    },
    {
      "entropy": 1.6555648644765217,
      "epoch": 0.6406855071269671,
      "grad_norm": 0.6912305951118469,
      "learning_rate": 1.6307797704628272e-05,
      "loss": 1.2916,
      "mean_token_accuracy": 0.6630461364984512,
      "num_tokens": 979822099.0,
      "step": 5832
    },
    {
      "entropy": 1.7157772084077199,
      "epoch": 0.64079536403834,
      "grad_norm": 0.5763871073722839,
      "learning_rate": 1.6306504577824594e-05,
      "loss": 1.4631,
      "mean_token_accuracy": 0.6457369774580002,
      "num_tokens": 980073550.0,
      "step": 5833
    },
    {
      "entropy": 1.6614607473214467,
      "epoch": 0.640905220949713,
      "grad_norm": 0.6631821990013123,
      "learning_rate": 1.6305211283072432e-05,
      "loss": 1.4923,
      "mean_token_accuracy": 0.6427841186523438,
      "num_tokens": 980267997.0,
      "step": 5834
    },
    {
      "entropy": 1.7480806112289429,
      "epoch": 0.6410150778610859,
      "grad_norm": 0.6579576730728149,
      "learning_rate": 1.6303917820412726e-05,
      "loss": 1.4038,
      "mean_token_accuracy": 0.6576637079318365,
      "num_tokens": 980443398.0,
      "step": 5835
    },
    {
      "entropy": 1.757957011461258,
      "epoch": 0.6411249347724589,
      "grad_norm": 0.8210548758506775,
      "learning_rate": 1.630262418988641e-05,
      "loss": 1.6428,
      "mean_token_accuracy": 0.6485659529765447,
      "num_tokens": 980594525.0,
      "step": 5836
    },
    {
      "entropy": 1.736217776934306,
      "epoch": 0.6412347916838318,
      "grad_norm": 0.6790369749069214,
      "learning_rate": 1.6301330391534432e-05,
      "loss": 1.5209,
      "mean_token_accuracy": 0.6406088074048361,
      "num_tokens": 980755445.0,
      "step": 5837
    },
    {
      "entropy": 1.7437133093674977,
      "epoch": 0.6413446485952048,
      "grad_norm": 0.7322378754615784,
      "learning_rate": 1.6300036425397732e-05,
      "loss": 1.4433,
      "mean_token_accuracy": 0.6456714073816935,
      "num_tokens": 980925437.0,
      "step": 5838
    },
    {
      "entropy": 1.7406888504823048,
      "epoch": 0.6414545055065777,
      "grad_norm": 0.8085801601409912,
      "learning_rate": 1.629874229151727e-05,
      "loss": 1.4783,
      "mean_token_accuracy": 0.6532542854547501,
      "num_tokens": 981085144.0,
      "step": 5839
    },
    {
      "entropy": 1.6952376067638397,
      "epoch": 0.6415643624179507,
      "grad_norm": 0.7089763879776001,
      "learning_rate": 1.6297447989934e-05,
      "loss": 1.3368,
      "mean_token_accuracy": 0.6644267588853836,
      "num_tokens": 981266976.0,
      "step": 5840
    },
    {
      "entropy": 1.6870313982168834,
      "epoch": 0.6416742193293236,
      "grad_norm": 0.6560161709785461,
      "learning_rate": 1.6296153520688886e-05,
      "loss": 1.4609,
      "mean_token_accuracy": 0.6392157872517904,
      "num_tokens": 981482379.0,
      "step": 5841
    },
    {
      "entropy": 1.713809609413147,
      "epoch": 0.6417840762406964,
      "grad_norm": 0.6234894394874573,
      "learning_rate": 1.6294858883822902e-05,
      "loss": 1.3206,
      "mean_token_accuracy": 0.6720296243826548,
      "num_tokens": 981646187.0,
      "step": 5842
    },
    {
      "entropy": 1.7012270887692769,
      "epoch": 0.6418939331520694,
      "grad_norm": 0.6372230052947998,
      "learning_rate": 1.6293564079377024e-05,
      "loss": 1.399,
      "mean_token_accuracy": 0.646788035829862,
      "num_tokens": 981809605.0,
      "step": 5843
    },
    {
      "entropy": 1.6442164182662964,
      "epoch": 0.6420037900634423,
      "grad_norm": 0.6384155750274658,
      "learning_rate": 1.6292269107392223e-05,
      "loss": 1.3745,
      "mean_token_accuracy": 0.6641842971245447,
      "num_tokens": 981981077.0,
      "step": 5844
    },
    {
      "entropy": 1.723905752102534,
      "epoch": 0.6421136469748153,
      "grad_norm": 0.6278502345085144,
      "learning_rate": 1.6290973967909492e-05,
      "loss": 1.3378,
      "mean_token_accuracy": 0.66019007563591,
      "num_tokens": 982155308.0,
      "step": 5845
    },
    {
      "entropy": 1.704160491625468,
      "epoch": 0.6422235038861882,
      "grad_norm": 0.6128730177879333,
      "learning_rate": 1.6289678660969818e-05,
      "loss": 1.4123,
      "mean_token_accuracy": 0.663148025671641,
      "num_tokens": 982334839.0,
      "step": 5846
    },
    {
      "entropy": 1.6866064369678497,
      "epoch": 0.6423333607975612,
      "grad_norm": 0.5298371911048889,
      "learning_rate": 1.6288383186614198e-05,
      "loss": 1.4093,
      "mean_token_accuracy": 0.6518398175636927,
      "num_tokens": 982563768.0,
      "step": 5847
    },
    {
      "entropy": 1.716744065284729,
      "epoch": 0.6424432177089341,
      "grad_norm": 0.6819528937339783,
      "learning_rate": 1.6287087544883633e-05,
      "loss": 1.354,
      "mean_token_accuracy": 0.6657714794079462,
      "num_tokens": 982751166.0,
      "step": 5848
    },
    {
      "entropy": 1.6699997087319691,
      "epoch": 0.6425530746203071,
      "grad_norm": 0.8962133526802063,
      "learning_rate": 1.628579173581913e-05,
      "loss": 1.3544,
      "mean_token_accuracy": 0.6710561861594518,
      "num_tokens": 982903845.0,
      "step": 5849
    },
    {
      "entropy": 1.6850681801637013,
      "epoch": 0.64266293153168,
      "grad_norm": 0.6950148940086365,
      "learning_rate": 1.62844957594617e-05,
      "loss": 1.4295,
      "mean_token_accuracy": 0.6709064096212387,
      "num_tokens": 983059833.0,
      "step": 5850
    },
    {
      "entropy": 1.6466986139615376,
      "epoch": 0.642772788443053,
      "grad_norm": 0.7298344373703003,
      "learning_rate": 1.6283199615852364e-05,
      "loss": 1.2233,
      "mean_token_accuracy": 0.6797444274028143,
      "num_tokens": 983193013.0,
      "step": 5851
    },
    {
      "entropy": 1.6685850421587627,
      "epoch": 0.6428826453544259,
      "grad_norm": 0.7035362124443054,
      "learning_rate": 1.6281903305032135e-05,
      "loss": 1.3384,
      "mean_token_accuracy": 0.6661973843971888,
      "num_tokens": 983321092.0,
      "step": 5852
    },
    {
      "entropy": 1.722305456797282,
      "epoch": 0.6429925022657988,
      "grad_norm": 0.6722835302352905,
      "learning_rate": 1.6280606827042053e-05,
      "loss": 1.3151,
      "mean_token_accuracy": 0.6609906901915868,
      "num_tokens": 983476645.0,
      "step": 5853
    },
    {
      "entropy": 1.7051582833131154,
      "epoch": 0.6431023591771717,
      "grad_norm": 0.591584324836731,
      "learning_rate": 1.6279310181923137e-05,
      "loss": 1.4214,
      "mean_token_accuracy": 0.65077872077624,
      "num_tokens": 983641414.0,
      "step": 5854
    },
    {
      "entropy": 1.7542580962181091,
      "epoch": 0.6432122160885446,
      "grad_norm": 0.7439432144165039,
      "learning_rate": 1.627801336971644e-05,
      "loss": 1.3505,
      "mean_token_accuracy": 0.6534154663483301,
      "num_tokens": 983766157.0,
      "step": 5855
    },
    {
      "entropy": 1.7984492977460225,
      "epoch": 0.6433220729999176,
      "grad_norm": 0.7941092848777771,
      "learning_rate": 1.627671639046299e-05,
      "loss": 1.7088,
      "mean_token_accuracy": 0.6389260292053223,
      "num_tokens": 983977429.0,
      "step": 5856
    },
    {
      "entropy": 1.720232754945755,
      "epoch": 0.6434319299112905,
      "grad_norm": 0.8250980973243713,
      "learning_rate": 1.6275419244203853e-05,
      "loss": 1.519,
      "mean_token_accuracy": 0.6374199092388153,
      "num_tokens": 984183890.0,
      "step": 5857
    },
    {
      "entropy": 1.736306478579839,
      "epoch": 0.6435417868226635,
      "grad_norm": 0.6806954741477966,
      "learning_rate": 1.627412193098007e-05,
      "loss": 1.5107,
      "mean_token_accuracy": 0.6463406682014465,
      "num_tokens": 984373464.0,
      "step": 5858
    },
    {
      "entropy": 1.7540569305419922,
      "epoch": 0.6436516437340364,
      "grad_norm": 0.7410135865211487,
      "learning_rate": 1.62728244508327e-05,
      "loss": 1.2862,
      "mean_token_accuracy": 0.6681255847215652,
      "num_tokens": 984513422.0,
      "step": 5859
    },
    {
      "entropy": 1.6755077838897705,
      "epoch": 0.6437615006454094,
      "grad_norm": 0.6239484548568726,
      "learning_rate": 1.6271526803802818e-05,
      "loss": 1.3604,
      "mean_token_accuracy": 0.6560343901316324,
      "num_tokens": 984693720.0,
      "step": 5860
    },
    {
      "entropy": 1.645962009827296,
      "epoch": 0.6438713575567823,
      "grad_norm": 0.5675744414329529,
      "learning_rate": 1.6270228989931487e-05,
      "loss": 1.3538,
      "mean_token_accuracy": 0.6722413251797358,
      "num_tokens": 984879033.0,
      "step": 5861
    },
    {
      "entropy": 1.7259068687756856,
      "epoch": 0.6439812144681553,
      "grad_norm": 0.6161162853240967,
      "learning_rate": 1.6268931009259782e-05,
      "loss": 1.4002,
      "mean_token_accuracy": 0.6652526358763377,
      "num_tokens": 985044446.0,
      "step": 5862
    },
    {
      "entropy": 1.7283404767513275,
      "epoch": 0.6440910713795281,
      "grad_norm": 0.7567533254623413,
      "learning_rate": 1.6267632861828784e-05,
      "loss": 1.3376,
      "mean_token_accuracy": 0.6561006804307302,
      "num_tokens": 985207012.0,
      "step": 5863
    },
    {
      "entropy": 1.6944616238276164,
      "epoch": 0.6442009282909011,
      "grad_norm": 0.676316499710083,
      "learning_rate": 1.6266334547679584e-05,
      "loss": 1.4184,
      "mean_token_accuracy": 0.65648120145003,
      "num_tokens": 985355826.0,
      "step": 5864
    },
    {
      "entropy": 1.7600885530312855,
      "epoch": 0.644310785202274,
      "grad_norm": 0.672926127910614,
      "learning_rate": 1.626503606685326e-05,
      "loss": 1.4699,
      "mean_token_accuracy": 0.6459670712550482,
      "num_tokens": 985505942.0,
      "step": 5865
    },
    {
      "entropy": 1.7543242474397023,
      "epoch": 0.644420642113647,
      "grad_norm": 0.7283417582511902,
      "learning_rate": 1.6263737419390924e-05,
      "loss": 1.3375,
      "mean_token_accuracy": 0.6589344541231791,
      "num_tokens": 985632534.0,
      "step": 5866
    },
    {
      "entropy": 1.7102359334627788,
      "epoch": 0.6445304990250199,
      "grad_norm": 0.6508517265319824,
      "learning_rate": 1.626243860533367e-05,
      "loss": 1.3067,
      "mean_token_accuracy": 0.6687440226475397,
      "num_tokens": 985812243.0,
      "step": 5867
    },
    {
      "entropy": 1.651482840379079,
      "epoch": 0.6446403559363928,
      "grad_norm": 0.8385653495788574,
      "learning_rate": 1.6261139624722607e-05,
      "loss": 1.3541,
      "mean_token_accuracy": 0.6784233748912811,
      "num_tokens": 986033493.0,
      "step": 5868
    },
    {
      "entropy": 1.8157791793346405,
      "epoch": 0.6447502128477658,
      "grad_norm": 0.7561879754066467,
      "learning_rate": 1.6259840477598842e-05,
      "loss": 1.6814,
      "mean_token_accuracy": 0.6107426683108012,
      "num_tokens": 986264905.0,
      "step": 5869
    },
    {
      "entropy": 1.7169578472773235,
      "epoch": 0.6448600697591387,
      "grad_norm": 0.6490621566772461,
      "learning_rate": 1.6258541164003497e-05,
      "loss": 1.48,
      "mean_token_accuracy": 0.6457877457141876,
      "num_tokens": 986432715.0,
      "step": 5870
    },
    {
      "entropy": 1.694730967283249,
      "epoch": 0.6449699266705117,
      "grad_norm": 0.6287488341331482,
      "learning_rate": 1.6257241683977695e-05,
      "loss": 1.3854,
      "mean_token_accuracy": 0.6665887037913004,
      "num_tokens": 986596620.0,
      "step": 5871
    },
    {
      "entropy": 1.7151194314161937,
      "epoch": 0.6450797835818846,
      "grad_norm": 0.7435504794120789,
      "learning_rate": 1.625594203756256e-05,
      "loss": 1.5081,
      "mean_token_accuracy": 0.6542889624834061,
      "num_tokens": 986763978.0,
      "step": 5872
    },
    {
      "entropy": 1.7020180424054463,
      "epoch": 0.6451896404932576,
      "grad_norm": 0.6360806226730347,
      "learning_rate": 1.625464222479923e-05,
      "loss": 1.3542,
      "mean_token_accuracy": 0.664187510808309,
      "num_tokens": 986915228.0,
      "step": 5873
    },
    {
      "entropy": 1.6966914137204487,
      "epoch": 0.6452994974046304,
      "grad_norm": 0.8072082996368408,
      "learning_rate": 1.625334224572884e-05,
      "loss": 1.4327,
      "mean_token_accuracy": 0.6710225045681,
      "num_tokens": 987091477.0,
      "step": 5874
    },
    {
      "entropy": 1.6498130361239116,
      "epoch": 0.6454093543160034,
      "grad_norm": 0.7897175550460815,
      "learning_rate": 1.6252042100392535e-05,
      "loss": 1.4103,
      "mean_token_accuracy": 0.6601500709851583,
      "num_tokens": 987264375.0,
      "step": 5875
    },
    {
      "entropy": 1.687047004699707,
      "epoch": 0.6455192112273763,
      "grad_norm": 0.607562243938446,
      "learning_rate": 1.6250741788831466e-05,
      "loss": 1.4087,
      "mean_token_accuracy": 0.655857135852178,
      "num_tokens": 987426445.0,
      "step": 5876
    },
    {
      "entropy": 1.7364888588587444,
      "epoch": 0.6456290681387493,
      "grad_norm": 0.5785548090934753,
      "learning_rate": 1.6249441311086788e-05,
      "loss": 1.5631,
      "mean_token_accuracy": 0.6313952604929606,
      "num_tokens": 987658927.0,
      "step": 5877
    },
    {
      "entropy": 1.6707642773787181,
      "epoch": 0.6457389250501222,
      "grad_norm": 0.8916179537773132,
      "learning_rate": 1.624814066719965e-05,
      "loss": 1.3344,
      "mean_token_accuracy": 0.6687265535195669,
      "num_tokens": 987785339.0,
      "step": 5878
    },
    {
      "entropy": 1.6992899874846141,
      "epoch": 0.6458487819614952,
      "grad_norm": 0.6406787633895874,
      "learning_rate": 1.624683985721123e-05,
      "loss": 1.3642,
      "mean_token_accuracy": 0.6527419139941534,
      "num_tokens": 987956404.0,
      "step": 5879
    },
    {
      "entropy": 1.6912338038285573,
      "epoch": 0.6459586388728681,
      "grad_norm": 0.7404332160949707,
      "learning_rate": 1.6245538881162693e-05,
      "loss": 1.2955,
      "mean_token_accuracy": 0.6724090029795965,
      "num_tokens": 988096917.0,
      "step": 5880
    },
    {
      "entropy": 1.7176282107830048,
      "epoch": 0.6460684957842411,
      "grad_norm": 0.737346887588501,
      "learning_rate": 1.624423773909521e-05,
      "loss": 1.3986,
      "mean_token_accuracy": 0.6630405435959498,
      "num_tokens": 988245509.0,
      "step": 5881
    },
    {
      "entropy": 1.709346890449524,
      "epoch": 0.646178352695614,
      "grad_norm": 0.6211323738098145,
      "learning_rate": 1.6242936431049973e-05,
      "loss": 1.4867,
      "mean_token_accuracy": 0.6363749404748281,
      "num_tokens": 988448841.0,
      "step": 5882
    },
    {
      "entropy": 1.7240298589070637,
      "epoch": 0.6462882096069869,
      "grad_norm": 0.6329193115234375,
      "learning_rate": 1.6241634957068155e-05,
      "loss": 1.4412,
      "mean_token_accuracy": 0.6437714745601019,
      "num_tokens": 988619793.0,
      "step": 5883
    },
    {
      "entropy": 1.724859396616618,
      "epoch": 0.6463980665183598,
      "grad_norm": 0.6122381687164307,
      "learning_rate": 1.6240333317190953e-05,
      "loss": 1.4146,
      "mean_token_accuracy": 0.6419190764427185,
      "num_tokens": 988803888.0,
      "step": 5884
    },
    {
      "entropy": 1.7188538114229839,
      "epoch": 0.6465079234297327,
      "grad_norm": 0.6661576628684998,
      "learning_rate": 1.6239031511459564e-05,
      "loss": 1.381,
      "mean_token_accuracy": 0.657758911450704,
      "num_tokens": 988978211.0,
      "step": 5885
    },
    {
      "entropy": 1.7248981595039368,
      "epoch": 0.6466177803411057,
      "grad_norm": 0.7169018387794495,
      "learning_rate": 1.6237729539915187e-05,
      "loss": 1.4442,
      "mean_token_accuracy": 0.6563170303901037,
      "num_tokens": 989143411.0,
      "step": 5886
    },
    {
      "entropy": 1.7199460367361705,
      "epoch": 0.6467276372524786,
      "grad_norm": 0.5790041089057922,
      "learning_rate": 1.6236427402599032e-05,
      "loss": 1.5012,
      "mean_token_accuracy": 0.6406532824039459,
      "num_tokens": 989369510.0,
      "step": 5887
    },
    {
      "entropy": 1.7657626469930012,
      "epoch": 0.6468374941638516,
      "grad_norm": 0.8561536073684692,
      "learning_rate": 1.623512509955231e-05,
      "loss": 1.4471,
      "mean_token_accuracy": 0.659746582309405,
      "num_tokens": 989548102.0,
      "step": 5888
    },
    {
      "entropy": 1.6926214396953583,
      "epoch": 0.6469473510752245,
      "grad_norm": 0.6689512133598328,
      "learning_rate": 1.6233822630816234e-05,
      "loss": 1.2409,
      "mean_token_accuracy": 0.6762634168068568,
      "num_tokens": 989679599.0,
      "step": 5889
    },
    {
      "entropy": 1.7333985964457195,
      "epoch": 0.6470572079865975,
      "grad_norm": 0.7683215141296387,
      "learning_rate": 1.6232519996432035e-05,
      "loss": 1.3786,
      "mean_token_accuracy": 0.6628393729527792,
      "num_tokens": 989827866.0,
      "step": 5890
    },
    {
      "entropy": 1.7282644311587017,
      "epoch": 0.6471670648979704,
      "grad_norm": 0.731306254863739,
      "learning_rate": 1.623121719644093e-05,
      "loss": 1.3069,
      "mean_token_accuracy": 0.6695700138807297,
      "num_tokens": 989936813.0,
      "step": 5891
    },
    {
      "entropy": 1.6467431485652924,
      "epoch": 0.6472769218093434,
      "grad_norm": 0.7342338562011719,
      "learning_rate": 1.6229914230884163e-05,
      "loss": 1.4412,
      "mean_token_accuracy": 0.6496950487295786,
      "num_tokens": 990122059.0,
      "step": 5892
    },
    {
      "entropy": 1.7180868089199066,
      "epoch": 0.6473867787207163,
      "grad_norm": 0.7283189296722412,
      "learning_rate": 1.6228611099802964e-05,
      "loss": 1.2448,
      "mean_token_accuracy": 0.6772717932860056,
      "num_tokens": 990230529.0,
      "step": 5893
    },
    {
      "entropy": 1.7020895679791768,
      "epoch": 0.6474966356320893,
      "grad_norm": 0.6616482734680176,
      "learning_rate": 1.6227307803238585e-05,
      "loss": 1.6071,
      "mean_token_accuracy": 0.6459571321805319,
      "num_tokens": 990458221.0,
      "step": 5894
    },
    {
      "entropy": 1.7780593534310658,
      "epoch": 0.6476064925434621,
      "grad_norm": 0.686166524887085,
      "learning_rate": 1.6226004341232265e-05,
      "loss": 1.3715,
      "mean_token_accuracy": 0.6415807555119196,
      "num_tokens": 990660990.0,
      "step": 5895
    },
    {
      "entropy": 1.6996767024199169,
      "epoch": 0.647716349454835,
      "grad_norm": 0.7599523067474365,
      "learning_rate": 1.622470071382526e-05,
      "loss": 1.326,
      "mean_token_accuracy": 0.6618270923693975,
      "num_tokens": 990797885.0,
      "step": 5896
    },
    {
      "entropy": 1.6373738249142964,
      "epoch": 0.647826206366208,
      "grad_norm": 0.60347580909729,
      "learning_rate": 1.622339692105884e-05,
      "loss": 1.315,
      "mean_token_accuracy": 0.6724487642447153,
      "num_tokens": 990944305.0,
      "step": 5897
    },
    {
      "entropy": 1.648904373248418,
      "epoch": 0.6479360632775809,
      "grad_norm": 0.6465940475463867,
      "learning_rate": 1.6222092962974255e-05,
      "loss": 1.3056,
      "mean_token_accuracy": 0.6669845134019852,
      "num_tokens": 991127904.0,
      "step": 5898
    },
    {
      "entropy": 1.7032305300235748,
      "epoch": 0.6480459201889539,
      "grad_norm": 0.7024495601654053,
      "learning_rate": 1.622078883961278e-05,
      "loss": 1.3523,
      "mean_token_accuracy": 0.6614350527524948,
      "num_tokens": 991310770.0,
      "step": 5899
    },
    {
      "entropy": 1.7386066218217213,
      "epoch": 0.6481557771003268,
      "grad_norm": 0.7756279110908508,
      "learning_rate": 1.6219484551015694e-05,
      "loss": 1.4412,
      "mean_token_accuracy": 0.6557717273632685,
      "num_tokens": 991453676.0,
      "step": 5900
    },
    {
      "entropy": 1.6870729128519695,
      "epoch": 0.6482656340116998,
      "grad_norm": 0.7938646078109741,
      "learning_rate": 1.6218180097224273e-05,
      "loss": 1.4533,
      "mean_token_accuracy": 0.6631547510623932,
      "num_tokens": 991615628.0,
      "step": 5901
    },
    {
      "entropy": 1.6689063012599945,
      "epoch": 0.6483754909230727,
      "grad_norm": 0.7687073945999146,
      "learning_rate": 1.6216875478279802e-05,
      "loss": 1.2669,
      "mean_token_accuracy": 0.6779245138168335,
      "num_tokens": 991759251.0,
      "step": 5902
    },
    {
      "entropy": 1.7391593058904011,
      "epoch": 0.6484853478344457,
      "grad_norm": 0.7042144536972046,
      "learning_rate": 1.6215570694223574e-05,
      "loss": 1.5169,
      "mean_token_accuracy": 0.6359234601259232,
      "num_tokens": 992007896.0,
      "step": 5903
    },
    {
      "entropy": 1.6700084805488586,
      "epoch": 0.6485952047458186,
      "grad_norm": 0.7073227167129517,
      "learning_rate": 1.6214265745096885e-05,
      "loss": 1.337,
      "mean_token_accuracy": 0.6727247337500254,
      "num_tokens": 992143508.0,
      "step": 5904
    },
    {
      "entropy": 1.7103844285011292,
      "epoch": 0.6487050616571916,
      "grad_norm": 1.0630773305892944,
      "learning_rate": 1.6212960630941035e-05,
      "loss": 1.5428,
      "mean_token_accuracy": 0.6607689758141836,
      "num_tokens": 992350316.0,
      "step": 5905
    },
    {
      "entropy": 1.6851065456867218,
      "epoch": 0.6488149185685644,
      "grad_norm": 0.7298637628555298,
      "learning_rate": 1.6211655351797326e-05,
      "loss": 1.4339,
      "mean_token_accuracy": 0.6611693799495697,
      "num_tokens": 992508315.0,
      "step": 5906
    },
    {
      "entropy": 1.7009667754173279,
      "epoch": 0.6489247754799374,
      "grad_norm": 0.7233312726020813,
      "learning_rate": 1.6210349907707076e-05,
      "loss": 1.5053,
      "mean_token_accuracy": 0.6501431415478388,
      "num_tokens": 992700402.0,
      "step": 5907
    },
    {
      "entropy": 1.6802937785784404,
      "epoch": 0.6490346323913103,
      "grad_norm": 0.6345446109771729,
      "learning_rate": 1.62090442987116e-05,
      "loss": 1.3397,
      "mean_token_accuracy": 0.6666805297136307,
      "num_tokens": 992846905.0,
      "step": 5908
    },
    {
      "entropy": 1.7321950197219849,
      "epoch": 0.6491444893026832,
      "grad_norm": 0.6220639944076538,
      "learning_rate": 1.6207738524852217e-05,
      "loss": 1.4515,
      "mean_token_accuracy": 0.6630930602550507,
      "num_tokens": 993004017.0,
      "step": 5909
    },
    {
      "entropy": 1.714138279358546,
      "epoch": 0.6492543462140562,
      "grad_norm": 0.6821590065956116,
      "learning_rate": 1.620643258617026e-05,
      "loss": 1.4696,
      "mean_token_accuracy": 0.6569486111402512,
      "num_tokens": 993141938.0,
      "step": 5910
    },
    {
      "entropy": 1.7272202372550964,
      "epoch": 0.6493642031254291,
      "grad_norm": 0.798577606678009,
      "learning_rate": 1.6205126482707058e-05,
      "loss": 1.3874,
      "mean_token_accuracy": 0.6723422755797704,
      "num_tokens": 993281834.0,
      "step": 5911
    },
    {
      "entropy": 1.7264328002929688,
      "epoch": 0.6494740600368021,
      "grad_norm": 0.7377980351448059,
      "learning_rate": 1.6203820214503942e-05,
      "loss": 1.4137,
      "mean_token_accuracy": 0.6667486826578776,
      "num_tokens": 993403525.0,
      "step": 5912
    },
    {
      "entropy": 1.6910780568917592,
      "epoch": 0.649583916948175,
      "grad_norm": 4.774479389190674,
      "learning_rate": 1.6202513781602266e-05,
      "loss": 1.1981,
      "mean_token_accuracy": 0.6723181953032812,
      "num_tokens": 993567459.0,
      "step": 5913
    },
    {
      "entropy": 1.7071150839328766,
      "epoch": 0.649693773859548,
      "grad_norm": 0.7636151313781738,
      "learning_rate": 1.6201207184043372e-05,
      "loss": 1.4607,
      "mean_token_accuracy": 0.658385788400968,
      "num_tokens": 993712733.0,
      "step": 5914
    },
    {
      "entropy": 1.790613979101181,
      "epoch": 0.6498036307709208,
      "grad_norm": 0.7202587723731995,
      "learning_rate": 1.6199900421868616e-05,
      "loss": 1.5591,
      "mean_token_accuracy": 0.6297978659470876,
      "num_tokens": 993897946.0,
      "step": 5915
    },
    {
      "entropy": 1.6419591108957927,
      "epoch": 0.6499134876822938,
      "grad_norm": 0.6573414206504822,
      "learning_rate": 1.6198593495119352e-05,
      "loss": 1.4063,
      "mean_token_accuracy": 0.6666153768698374,
      "num_tokens": 994054233.0,
      "step": 5916
    },
    {
      "entropy": 1.7275590499242146,
      "epoch": 0.6500233445936667,
      "grad_norm": 0.6958465576171875,
      "learning_rate": 1.6197286403836947e-05,
      "loss": 1.499,
      "mean_token_accuracy": 0.6515706777572632,
      "num_tokens": 994235070.0,
      "step": 5917
    },
    {
      "entropy": 1.7174121638139088,
      "epoch": 0.6501332015050397,
      "grad_norm": 0.677852213382721,
      "learning_rate": 1.619597914806277e-05,
      "loss": 1.5725,
      "mean_token_accuracy": 0.6482388724883398,
      "num_tokens": 994427969.0,
      "step": 5918
    },
    {
      "entropy": 1.6932408213615417,
      "epoch": 0.6502430584164126,
      "grad_norm": 0.8987300395965576,
      "learning_rate": 1.6194671727838193e-05,
      "loss": 1.445,
      "mean_token_accuracy": 0.6716097990671793,
      "num_tokens": 994573905.0,
      "step": 5919
    },
    {
      "entropy": 1.694073627392451,
      "epoch": 0.6503529153277856,
      "grad_norm": 0.7888936400413513,
      "learning_rate": 1.61933641432046e-05,
      "loss": 1.382,
      "mean_token_accuracy": 0.6525902102390925,
      "num_tokens": 994713145.0,
      "step": 5920
    },
    {
      "entropy": 1.7361188928286235,
      "epoch": 0.6504627722391585,
      "grad_norm": 0.6191293001174927,
      "learning_rate": 1.619205639420337e-05,
      "loss": 1.418,
      "mean_token_accuracy": 0.6470876733462015,
      "num_tokens": 994913257.0,
      "step": 5921
    },
    {
      "entropy": 1.7108994523684184,
      "epoch": 0.6505726291505314,
      "grad_norm": 0.7681605815887451,
      "learning_rate": 1.6190748480875893e-05,
      "loss": 1.3487,
      "mean_token_accuracy": 0.661737248301506,
      "num_tokens": 995089384.0,
      "step": 5922
    },
    {
      "entropy": 1.6949030856291454,
      "epoch": 0.6506824860619044,
      "grad_norm": 0.6882128119468689,
      "learning_rate": 1.6189440403263568e-05,
      "loss": 1.3357,
      "mean_token_accuracy": 0.6652708401282629,
      "num_tokens": 995250744.0,
      "step": 5923
    },
    {
      "entropy": 1.7186113198598225,
      "epoch": 0.6507923429732773,
      "grad_norm": 0.6824566721916199,
      "learning_rate": 1.618813216140779e-05,
      "loss": 1.5937,
      "mean_token_accuracy": 0.6373369594415029,
      "num_tokens": 995448756.0,
      "step": 5924
    },
    {
      "entropy": 1.7350513140360515,
      "epoch": 0.6509021998846503,
      "grad_norm": 0.6943637132644653,
      "learning_rate": 1.618682375534997e-05,
      "loss": 1.3293,
      "mean_token_accuracy": 0.6592056502898535,
      "num_tokens": 995579361.0,
      "step": 5925
    },
    {
      "entropy": 1.688408652941386,
      "epoch": 0.6510120567960231,
      "grad_norm": 0.6207675337791443,
      "learning_rate": 1.6185515185131516e-05,
      "loss": 1.3164,
      "mean_token_accuracy": 0.6692043642203013,
      "num_tokens": 995739892.0,
      "step": 5926
    },
    {
      "entropy": 1.720192591349284,
      "epoch": 0.6511219137073961,
      "grad_norm": 0.7376704216003418,
      "learning_rate": 1.6184206450793838e-05,
      "loss": 1.37,
      "mean_token_accuracy": 0.6484977056582769,
      "num_tokens": 995890285.0,
      "step": 5927
    },
    {
      "entropy": 1.7388510406017303,
      "epoch": 0.651231770618769,
      "grad_norm": 0.69366455078125,
      "learning_rate": 1.6182897552378366e-05,
      "loss": 1.3361,
      "mean_token_accuracy": 0.6686133096615473,
      "num_tokens": 996020909.0,
      "step": 5928
    },
    {
      "entropy": 1.7152843674023945,
      "epoch": 0.651341627530142,
      "grad_norm": 0.7456363439559937,
      "learning_rate": 1.618158848992652e-05,
      "loss": 1.341,
      "mean_token_accuracy": 0.6697397083044052,
      "num_tokens": 996149476.0,
      "step": 5929
    },
    {
      "entropy": 1.7538359761238098,
      "epoch": 0.6514514844415149,
      "grad_norm": 0.8604733943939209,
      "learning_rate": 1.6180279263479736e-05,
      "loss": 1.7488,
      "mean_token_accuracy": 0.6189997419714928,
      "num_tokens": 996320305.0,
      "step": 5930
    },
    {
      "entropy": 1.7112461129824321,
      "epoch": 0.6515613413528879,
      "grad_norm": 0.711691677570343,
      "learning_rate": 1.6178969873079445e-05,
      "loss": 1.6228,
      "mean_token_accuracy": 0.6372633626063665,
      "num_tokens": 996484824.0,
      "step": 5931
    },
    {
      "entropy": 1.709233562151591,
      "epoch": 0.6516711982642608,
      "grad_norm": 0.6133729219436646,
      "learning_rate": 1.6177660318767094e-05,
      "loss": 1.4192,
      "mean_token_accuracy": 0.6441813757022222,
      "num_tokens": 996650733.0,
      "step": 5932
    },
    {
      "entropy": 1.6950431764125824,
      "epoch": 0.6517810551756338,
      "grad_norm": 0.796097457408905,
      "learning_rate": 1.6176350600584127e-05,
      "loss": 1.3982,
      "mean_token_accuracy": 0.654624213774999,
      "num_tokens": 996826862.0,
      "step": 5933
    },
    {
      "entropy": 1.797725111246109,
      "epoch": 0.6518909120870067,
      "grad_norm": 0.6709982752799988,
      "learning_rate": 1.617504071857199e-05,
      "loss": 1.4719,
      "mean_token_accuracy": 0.6494367867708206,
      "num_tokens": 996948195.0,
      "step": 5934
    },
    {
      "entropy": 1.729837417602539,
      "epoch": 0.6520007689983797,
      "grad_norm": 0.5902916789054871,
      "learning_rate": 1.6173730672772154e-05,
      "loss": 1.4126,
      "mean_token_accuracy": 0.6551411052544912,
      "num_tokens": 997153677.0,
      "step": 5935
    },
    {
      "entropy": 1.6588162382443745,
      "epoch": 0.6521106259097526,
      "grad_norm": 0.5839589238166809,
      "learning_rate": 1.617242046322607e-05,
      "loss": 1.443,
      "mean_token_accuracy": 0.6415523837010065,
      "num_tokens": 997350676.0,
      "step": 5936
    },
    {
      "entropy": 1.7090435028076172,
      "epoch": 0.6522204828211254,
      "grad_norm": 1.012498378753662,
      "learning_rate": 1.6171110089975203e-05,
      "loss": 1.3634,
      "mean_token_accuracy": 0.6589536915222803,
      "num_tokens": 997514467.0,
      "step": 5937
    },
    {
      "entropy": 1.6660225788752239,
      "epoch": 0.6523303397324984,
      "grad_norm": 0.7169985175132751,
      "learning_rate": 1.616979955306104e-05,
      "loss": 1.4925,
      "mean_token_accuracy": 0.6534644216299057,
      "num_tokens": 997686163.0,
      "step": 5938
    },
    {
      "entropy": 1.7207870185375214,
      "epoch": 0.6524401966438713,
      "grad_norm": 0.8183472752571106,
      "learning_rate": 1.6168488852525048e-05,
      "loss": 1.41,
      "mean_token_accuracy": 0.658767968416214,
      "num_tokens": 997864009.0,
      "step": 5939
    },
    {
      "entropy": 1.682630827029546,
      "epoch": 0.6525500535552443,
      "grad_norm": 0.6713327169418335,
      "learning_rate": 1.6167177988408713e-05,
      "loss": 1.429,
      "mean_token_accuracy": 0.6574962337811788,
      "num_tokens": 998095171.0,
      "step": 5940
    },
    {
      "entropy": 1.6624448994795482,
      "epoch": 0.6526599104666172,
      "grad_norm": 0.6571035385131836,
      "learning_rate": 1.6165866960753525e-05,
      "loss": 1.5789,
      "mean_token_accuracy": 0.6504167219003042,
      "num_tokens": 998273104.0,
      "step": 5941
    },
    {
      "entropy": 1.70240314801534,
      "epoch": 0.6527697673779902,
      "grad_norm": 0.8170379400253296,
      "learning_rate": 1.6164555769600974e-05,
      "loss": 1.4324,
      "mean_token_accuracy": 0.649359330534935,
      "num_tokens": 998471102.0,
      "step": 5942
    },
    {
      "entropy": 1.7425579031308491,
      "epoch": 0.6528796242893631,
      "grad_norm": 0.6321161985397339,
      "learning_rate": 1.616324441499256e-05,
      "loss": 1.3006,
      "mean_token_accuracy": 0.6682200183471044,
      "num_tokens": 998615680.0,
      "step": 5943
    },
    {
      "entropy": 1.7166448334852855,
      "epoch": 0.6529894812007361,
      "grad_norm": 0.6595907211303711,
      "learning_rate": 1.6161932896969784e-05,
      "loss": 1.3832,
      "mean_token_accuracy": 0.6572774350643158,
      "num_tokens": 998779804.0,
      "step": 5944
    },
    {
      "entropy": 1.6734323004881542,
      "epoch": 0.653099338112109,
      "grad_norm": 0.7008593678474426,
      "learning_rate": 1.616062121557416e-05,
      "loss": 1.3083,
      "mean_token_accuracy": 0.6746059507131577,
      "num_tokens": 998937935.0,
      "step": 5945
    },
    {
      "entropy": 1.7303222517172496,
      "epoch": 0.653209195023482,
      "grad_norm": 0.7347795367240906,
      "learning_rate": 1.6159309370847204e-05,
      "loss": 1.4708,
      "mean_token_accuracy": 0.6639884759982427,
      "num_tokens": 999103145.0,
      "step": 5946
    },
    {
      "entropy": 1.6455318927764893,
      "epoch": 0.6533190519348548,
      "grad_norm": 0.6177557706832886,
      "learning_rate": 1.6157997362830427e-05,
      "loss": 1.364,
      "mean_token_accuracy": 0.6617141962051392,
      "num_tokens": 999262435.0,
      "step": 5947
    },
    {
      "entropy": 1.690677026907603,
      "epoch": 0.6534289088462278,
      "grad_norm": 0.7298170924186707,
      "learning_rate": 1.6156685191565357e-05,
      "loss": 1.3552,
      "mean_token_accuracy": 0.6585644831260046,
      "num_tokens": 999440995.0,
      "step": 5948
    },
    {
      "entropy": 1.7055202027161915,
      "epoch": 0.6535387657576007,
      "grad_norm": 0.7108672261238098,
      "learning_rate": 1.6155372857093528e-05,
      "loss": 1.3826,
      "mean_token_accuracy": 0.6667246073484421,
      "num_tokens": 999613356.0,
      "step": 5949
    },
    {
      "entropy": 1.6879318157831829,
      "epoch": 0.6536486226689736,
      "grad_norm": 0.7076107859611511,
      "learning_rate": 1.615406035945647e-05,
      "loss": 1.54,
      "mean_token_accuracy": 0.6409845153490702,
      "num_tokens": 999816032.0,
      "step": 5950
    },
    {
      "entropy": 1.7342401643594105,
      "epoch": 0.6537584795803466,
      "grad_norm": 0.9219125509262085,
      "learning_rate": 1.615274769869572e-05,
      "loss": 1.4078,
      "mean_token_accuracy": 0.6552455176909765,
      "num_tokens": 999966674.0,
      "step": 5951
    },
    {
      "entropy": 1.7484307487805684,
      "epoch": 0.6538683364917195,
      "grad_norm": 0.64826899766922,
      "learning_rate": 1.615143487485283e-05,
      "loss": 1.4302,
      "mean_token_accuracy": 0.6445176502068838,
      "num_tokens": 1000183638.0,
      "step": 5952
    },
    {
      "entropy": 1.735739419857661,
      "epoch": 0.6539781934030925,
      "grad_norm": 0.823397159576416,
      "learning_rate": 1.615012188796935e-05,
      "loss": 1.283,
      "mean_token_accuracy": 0.6683905571699142,
      "num_tokens": 1000379339.0,
      "step": 5953
    },
    {
      "entropy": 1.7015184263388317,
      "epoch": 0.6540880503144654,
      "grad_norm": 0.6577404737472534,
      "learning_rate": 1.614880873808683e-05,
      "loss": 1.3707,
      "mean_token_accuracy": 0.6538449923197428,
      "num_tokens": 1000517761.0,
      "step": 5954
    },
    {
      "entropy": 1.6893195311228435,
      "epoch": 0.6541979072258384,
      "grad_norm": 0.7297143340110779,
      "learning_rate": 1.6147495425246834e-05,
      "loss": 1.3336,
      "mean_token_accuracy": 0.6523545185724894,
      "num_tokens": 1000677812.0,
      "step": 5955
    },
    {
      "entropy": 1.6598160068194072,
      "epoch": 0.6543077641372113,
      "grad_norm": 0.6622530221939087,
      "learning_rate": 1.6146181949490926e-05,
      "loss": 1.3761,
      "mean_token_accuracy": 0.6585600723822912,
      "num_tokens": 1000849086.0,
      "step": 5956
    },
    {
      "entropy": 1.700823446114858,
      "epoch": 0.6544176210485843,
      "grad_norm": 0.866723895072937,
      "learning_rate": 1.6144868310860683e-05,
      "loss": 1.3303,
      "mean_token_accuracy": 0.6645294477542242,
      "num_tokens": 1000997207.0,
      "step": 5957
    },
    {
      "entropy": 1.7490895291169484,
      "epoch": 0.6545274779599571,
      "grad_norm": 0.6628153324127197,
      "learning_rate": 1.6143554509397673e-05,
      "loss": 1.3853,
      "mean_token_accuracy": 0.6574032058318456,
      "num_tokens": 1001126891.0,
      "step": 5958
    },
    {
      "entropy": 1.695980042219162,
      "epoch": 0.6546373348713301,
      "grad_norm": 0.6430051326751709,
      "learning_rate": 1.6142240545143478e-05,
      "loss": 1.5197,
      "mean_token_accuracy": 0.6624879688024521,
      "num_tokens": 1001291749.0,
      "step": 5959
    },
    {
      "entropy": 1.7520456314086914,
      "epoch": 0.654747191782703,
      "grad_norm": 0.7919518351554871,
      "learning_rate": 1.614092641813969e-05,
      "loss": 1.4127,
      "mean_token_accuracy": 0.6570608119169871,
      "num_tokens": 1001420291.0,
      "step": 5960
    },
    {
      "entropy": 1.7864876786867778,
      "epoch": 0.654857048694076,
      "grad_norm": 0.7036291360855103,
      "learning_rate": 1.61396121284279e-05,
      "loss": 1.4129,
      "mean_token_accuracy": 0.6543021847804388,
      "num_tokens": 1001557544.0,
      "step": 5961
    },
    {
      "entropy": 1.7022630870342255,
      "epoch": 0.6549669056054489,
      "grad_norm": 0.6970117092132568,
      "learning_rate": 1.6138297676049697e-05,
      "loss": 1.3648,
      "mean_token_accuracy": 0.6602020363012949,
      "num_tokens": 1001702592.0,
      "step": 5962
    },
    {
      "entropy": 1.676472932100296,
      "epoch": 0.6550767625168218,
      "grad_norm": 0.7215110063552856,
      "learning_rate": 1.613698306104669e-05,
      "loss": 1.3701,
      "mean_token_accuracy": 0.6555512299140295,
      "num_tokens": 1001865740.0,
      "step": 5963
    },
    {
      "entropy": 1.686583936214447,
      "epoch": 0.6551866194281948,
      "grad_norm": 0.6436832547187805,
      "learning_rate": 1.6135668283460485e-05,
      "loss": 1.3576,
      "mean_token_accuracy": 0.6521365145842234,
      "num_tokens": 1002008262.0,
      "step": 5964
    },
    {
      "entropy": 1.7136501669883728,
      "epoch": 0.6552964763395677,
      "grad_norm": 0.8774862289428711,
      "learning_rate": 1.613435334333269e-05,
      "loss": 1.3359,
      "mean_token_accuracy": 0.654481420914332,
      "num_tokens": 1002180351.0,
      "step": 5965
    },
    {
      "entropy": 1.6534929970900218,
      "epoch": 0.6554063332509407,
      "grad_norm": 0.7280681133270264,
      "learning_rate": 1.6133038240704927e-05,
      "loss": 1.2625,
      "mean_token_accuracy": 0.6773078391949335,
      "num_tokens": 1002293818.0,
      "step": 5966
    },
    {
      "entropy": 1.649037887652715,
      "epoch": 0.6555161901623136,
      "grad_norm": 0.696632981300354,
      "learning_rate": 1.6131722975618817e-05,
      "loss": 1.2936,
      "mean_token_accuracy": 0.6795135736465454,
      "num_tokens": 1002424977.0,
      "step": 5967
    },
    {
      "entropy": 1.7681506077448528,
      "epoch": 0.6556260470736865,
      "grad_norm": 0.7785711288452148,
      "learning_rate": 1.6130407548115986e-05,
      "loss": 1.2863,
      "mean_token_accuracy": 0.6662353525559107,
      "num_tokens": 1002526808.0,
      "step": 5968
    },
    {
      "entropy": 1.6666353146235149,
      "epoch": 0.6557359039850594,
      "grad_norm": 0.7321269512176514,
      "learning_rate": 1.612909195823807e-05,
      "loss": 1.3184,
      "mean_token_accuracy": 0.6688967347145081,
      "num_tokens": 1002680478.0,
      "step": 5969
    },
    {
      "entropy": 1.6807195643583934,
      "epoch": 0.6558457608964324,
      "grad_norm": 1.010912299156189,
      "learning_rate": 1.6127776206026706e-05,
      "loss": 1.3433,
      "mean_token_accuracy": 0.6613064755996069,
      "num_tokens": 1002807257.0,
      "step": 5970
    },
    {
      "entropy": 1.7417626976966858,
      "epoch": 0.6559556178078053,
      "grad_norm": 0.7049437165260315,
      "learning_rate": 1.612646029152353e-05,
      "loss": 1.4176,
      "mean_token_accuracy": 0.6610104193290075,
      "num_tokens": 1002995627.0,
      "step": 5971
    },
    {
      "entropy": 1.7317078411579132,
      "epoch": 0.6560654747191783,
      "grad_norm": 0.7525424957275391,
      "learning_rate": 1.61251442147702e-05,
      "loss": 1.3605,
      "mean_token_accuracy": 0.6603756298621496,
      "num_tokens": 1003115921.0,
      "step": 5972
    },
    {
      "entropy": 1.7446248630682628,
      "epoch": 0.6561753316305512,
      "grad_norm": 0.7605143189430237,
      "learning_rate": 1.6123827975808366e-05,
      "loss": 1.4968,
      "mean_token_accuracy": 0.646631787220637,
      "num_tokens": 1003238280.0,
      "step": 5973
    },
    {
      "entropy": 1.6948024133841197,
      "epoch": 0.6562851885419242,
      "grad_norm": 0.635215699672699,
      "learning_rate": 1.612251157467968e-05,
      "loss": 1.4391,
      "mean_token_accuracy": 0.6588515788316727,
      "num_tokens": 1003439468.0,
      "step": 5974
    },
    {
      "entropy": 1.695201168457667,
      "epoch": 0.6563950454532971,
      "grad_norm": 0.7155786752700806,
      "learning_rate": 1.6121195011425818e-05,
      "loss": 1.2564,
      "mean_token_accuracy": 0.6733829925457636,
      "num_tokens": 1003559915.0,
      "step": 5975
    },
    {
      "entropy": 1.7206557989120483,
      "epoch": 0.65650490236467,
      "grad_norm": 0.6989328861236572,
      "learning_rate": 1.611987828608844e-05,
      "loss": 1.4135,
      "mean_token_accuracy": 0.6583918134371439,
      "num_tokens": 1003742377.0,
      "step": 5976
    },
    {
      "entropy": 1.6666361689567566,
      "epoch": 0.656614759276043,
      "grad_norm": 0.605663001537323,
      "learning_rate": 1.6118561398709218e-05,
      "loss": 1.498,
      "mean_token_accuracy": 0.6402202894290289,
      "num_tokens": 1003918193.0,
      "step": 5977
    },
    {
      "entropy": 1.659655769666036,
      "epoch": 0.6567246161874158,
      "grad_norm": 2.3435916900634766,
      "learning_rate": 1.6117244349329837e-05,
      "loss": 1.258,
      "mean_token_accuracy": 0.6593276808659235,
      "num_tokens": 1004142681.0,
      "step": 5978
    },
    {
      "entropy": 1.6928699215253193,
      "epoch": 0.6568344730987888,
      "grad_norm": 0.7714124917984009,
      "learning_rate": 1.6115927137991977e-05,
      "loss": 1.3056,
      "mean_token_accuracy": 0.6578250130017599,
      "num_tokens": 1004262570.0,
      "step": 5979
    },
    {
      "entropy": 1.6898990372816722,
      "epoch": 0.6569443300101617,
      "grad_norm": 0.607197642326355,
      "learning_rate": 1.6114609764737324e-05,
      "loss": 1.4254,
      "mean_token_accuracy": 0.6577767829100291,
      "num_tokens": 1004466029.0,
      "step": 5980
    },
    {
      "entropy": 1.7032975753148396,
      "epoch": 0.6570541869215347,
      "grad_norm": 0.7361001372337341,
      "learning_rate": 1.611329222960758e-05,
      "loss": 1.3741,
      "mean_token_accuracy": 0.6660144229729971,
      "num_tokens": 1004631550.0,
      "step": 5981
    },
    {
      "entropy": 1.775945911804835,
      "epoch": 0.6571640438329076,
      "grad_norm": 0.7697334885597229,
      "learning_rate": 1.6111974532644444e-05,
      "loss": 1.5169,
      "mean_token_accuracy": 0.6399200161298116,
      "num_tokens": 1004854848.0,
      "step": 5982
    },
    {
      "entropy": 1.674217273791631,
      "epoch": 0.6572739007442806,
      "grad_norm": 0.7080762386322021,
      "learning_rate": 1.6110656673889615e-05,
      "loss": 1.4399,
      "mean_token_accuracy": 0.6500117778778076,
      "num_tokens": 1005128683.0,
      "step": 5983
    },
    {
      "entropy": 1.7122255663077037,
      "epoch": 0.6573837576556535,
      "grad_norm": 0.6646968722343445,
      "learning_rate": 1.6109338653384806e-05,
      "loss": 1.4163,
      "mean_token_accuracy": 0.6497417688369751,
      "num_tokens": 1005307086.0,
      "step": 5984
    },
    {
      "entropy": 1.8177510897318523,
      "epoch": 0.6574936145670265,
      "grad_norm": 0.7551073431968689,
      "learning_rate": 1.6108020471171733e-05,
      "loss": 1.3673,
      "mean_token_accuracy": 0.6538062343994776,
      "num_tokens": 1005454014.0,
      "step": 5985
    },
    {
      "entropy": 1.69020011027654,
      "epoch": 0.6576034714783994,
      "grad_norm": 0.7540128827095032,
      "learning_rate": 1.610670212729211e-05,
      "loss": 1.3295,
      "mean_token_accuracy": 0.6638794293006262,
      "num_tokens": 1005580386.0,
      "step": 5986
    },
    {
      "entropy": 1.6580841739972432,
      "epoch": 0.6577133283897724,
      "grad_norm": 0.6165665984153748,
      "learning_rate": 1.610538362178767e-05,
      "loss": 1.3407,
      "mean_token_accuracy": 0.6651915510495504,
      "num_tokens": 1005745720.0,
      "step": 5987
    },
    {
      "entropy": 1.7150371372699738,
      "epoch": 0.6578231853011453,
      "grad_norm": 0.7540215849876404,
      "learning_rate": 1.6104064954700137e-05,
      "loss": 1.4733,
      "mean_token_accuracy": 0.6606999586025873,
      "num_tokens": 1005910475.0,
      "step": 5988
    },
    {
      "entropy": 1.704669823249181,
      "epoch": 0.6579330422125182,
      "grad_norm": 0.7729107141494751,
      "learning_rate": 1.6102746126071245e-05,
      "loss": 1.5419,
      "mean_token_accuracy": 0.6427391221125921,
      "num_tokens": 1006067481.0,
      "step": 5989
    },
    {
      "entropy": 1.676388919353485,
      "epoch": 0.6580428991238911,
      "grad_norm": 0.7432935833930969,
      "learning_rate": 1.610142713594274e-05,
      "loss": 1.263,
      "mean_token_accuracy": 0.6768547048171362,
      "num_tokens": 1006217348.0,
      "step": 5990
    },
    {
      "entropy": 1.726919690767924,
      "epoch": 0.658152756035264,
      "grad_norm": 0.73004549741745,
      "learning_rate": 1.6100107984356362e-05,
      "loss": 1.4621,
      "mean_token_accuracy": 0.6482563465833664,
      "num_tokens": 1006448796.0,
      "step": 5991
    },
    {
      "entropy": 1.6418760021527607,
      "epoch": 0.658262612946637,
      "grad_norm": 0.6615251898765564,
      "learning_rate": 1.6098788671353872e-05,
      "loss": 1.3493,
      "mean_token_accuracy": 0.6650320092837015,
      "num_tokens": 1006618329.0,
      "step": 5992
    },
    {
      "entropy": 1.619303782780965,
      "epoch": 0.6583724698580099,
      "grad_norm": 0.6965547800064087,
      "learning_rate": 1.6097469196977012e-05,
      "loss": 1.2817,
      "mean_token_accuracy": 0.6767748643954595,
      "num_tokens": 1006751014.0,
      "step": 5993
    },
    {
      "entropy": 1.6654784083366394,
      "epoch": 0.6584823267693829,
      "grad_norm": 0.7190507054328918,
      "learning_rate": 1.609614956126755e-05,
      "loss": 1.3126,
      "mean_token_accuracy": 0.6592614303032557,
      "num_tokens": 1006902725.0,
      "step": 5994
    },
    {
      "entropy": 1.689567784468333,
      "epoch": 0.6585921836807558,
      "grad_norm": 1.1087243556976318,
      "learning_rate": 1.6094829764267254e-05,
      "loss": 1.3326,
      "mean_token_accuracy": 0.6678081601858139,
      "num_tokens": 1007055528.0,
      "step": 5995
    },
    {
      "entropy": 1.7132113973299663,
      "epoch": 0.6587020405921288,
      "grad_norm": 0.6450228095054626,
      "learning_rate": 1.6093509806017883e-05,
      "loss": 1.3825,
      "mean_token_accuracy": 0.645787293712298,
      "num_tokens": 1007254824.0,
      "step": 5996
    },
    {
      "entropy": 1.6614897946516674,
      "epoch": 0.6588118975035017,
      "grad_norm": 0.6441484093666077,
      "learning_rate": 1.609218968656123e-05,
      "loss": 1.4582,
      "mean_token_accuracy": 0.6584440817435583,
      "num_tokens": 1007429624.0,
      "step": 5997
    },
    {
      "entropy": 1.6524133781592052,
      "epoch": 0.6589217544148747,
      "grad_norm": 0.6148684024810791,
      "learning_rate": 1.6090869405939067e-05,
      "loss": 1.3715,
      "mean_token_accuracy": 0.6544036467870077,
      "num_tokens": 1007626408.0,
      "step": 5998
    },
    {
      "entropy": 1.6548963785171509,
      "epoch": 0.6590316113262475,
      "grad_norm": 0.6921628713607788,
      "learning_rate": 1.608954896419318e-05,
      "loss": 1.3684,
      "mean_token_accuracy": 0.6596562564373016,
      "num_tokens": 1007779392.0,
      "step": 5999
    },
    {
      "entropy": 1.6788422763347626,
      "epoch": 0.6591414682376205,
      "grad_norm": 0.7359298467636108,
      "learning_rate": 1.608822836136536e-05,
      "loss": 1.3503,
      "mean_token_accuracy": 0.6542917539676031,
      "num_tokens": 1007942114.0,
      "step": 6000
    },
    {
      "entropy": 1.6935390035311382,
      "epoch": 0.6592513251489934,
      "grad_norm": 0.5704781413078308,
      "learning_rate": 1.6086907597497406e-05,
      "loss": 1.4471,
      "mean_token_accuracy": 0.648592452208201,
      "num_tokens": 1008134066.0,
      "step": 6001
    },
    {
      "entropy": 1.6664865513642628,
      "epoch": 0.6593611820603664,
      "grad_norm": 0.6393500566482544,
      "learning_rate": 1.608558667263112e-05,
      "loss": 1.4475,
      "mean_token_accuracy": 0.6586243808269501,
      "num_tokens": 1008313195.0,
      "step": 6002
    },
    {
      "entropy": 1.7087785402933757,
      "epoch": 0.6594710389717393,
      "grad_norm": 0.7804690599441528,
      "learning_rate": 1.6084265586808304e-05,
      "loss": 1.5634,
      "mean_token_accuracy": 0.6387995928525925,
      "num_tokens": 1008491339.0,
      "step": 6003
    },
    {
      "entropy": 1.6799262662728627,
      "epoch": 0.6595808958831122,
      "grad_norm": 1.2888646125793457,
      "learning_rate": 1.6082944340070777e-05,
      "loss": 1.2409,
      "mean_token_accuracy": 0.6644798517227173,
      "num_tokens": 1008699500.0,
      "step": 6004
    },
    {
      "entropy": 1.6629238029321034,
      "epoch": 0.6596907527944852,
      "grad_norm": 1.3199480772018433,
      "learning_rate": 1.6081622932460352e-05,
      "loss": 1.0079,
      "mean_token_accuracy": 0.6921218782663345,
      "num_tokens": 1008848456.0,
      "step": 6005
    },
    {
      "entropy": 1.6802177329858143,
      "epoch": 0.6598006097058581,
      "grad_norm": 0.7184219360351562,
      "learning_rate": 1.6080301364018852e-05,
      "loss": 1.3617,
      "mean_token_accuracy": 0.6671679069598516,
      "num_tokens": 1008991473.0,
      "step": 6006
    },
    {
      "entropy": 1.7172418534755707,
      "epoch": 0.6599104666172311,
      "grad_norm": 0.7799577116966248,
      "learning_rate": 1.6078979634788102e-05,
      "loss": 1.4283,
      "mean_token_accuracy": 0.645437479019165,
      "num_tokens": 1009116554.0,
      "step": 6007
    },
    {
      "entropy": 1.7622934381167095,
      "epoch": 0.660020323528604,
      "grad_norm": 0.7395654916763306,
      "learning_rate": 1.607765774480993e-05,
      "loss": 1.5234,
      "mean_token_accuracy": 0.6265956362088522,
      "num_tokens": 1009265660.0,
      "step": 6008
    },
    {
      "entropy": 1.7269906798998516,
      "epoch": 0.660130180439977,
      "grad_norm": 0.7985388040542603,
      "learning_rate": 1.6076335694126187e-05,
      "loss": 1.4323,
      "mean_token_accuracy": 0.6677784125010172,
      "num_tokens": 1009437681.0,
      "step": 6009
    },
    {
      "entropy": 1.7253870368003845,
      "epoch": 0.6602400373513498,
      "grad_norm": 0.6861431002616882,
      "learning_rate": 1.60750134827787e-05,
      "loss": 1.3246,
      "mean_token_accuracy": 0.666627456744512,
      "num_tokens": 1009607245.0,
      "step": 6010
    },
    {
      "entropy": 1.714435617129008,
      "epoch": 0.6603498942627228,
      "grad_norm": 0.8335552215576172,
      "learning_rate": 1.6073691110809325e-05,
      "loss": 1.4504,
      "mean_token_accuracy": 0.6543582628170649,
      "num_tokens": 1009790328.0,
      "step": 6011
    },
    {
      "entropy": 1.6384719610214233,
      "epoch": 0.6604597511740957,
      "grad_norm": 0.6027631759643555,
      "learning_rate": 1.6072368578259914e-05,
      "loss": 1.379,
      "mean_token_accuracy": 0.6624562293291092,
      "num_tokens": 1009931118.0,
      "step": 6012
    },
    {
      "entropy": 1.652736137310664,
      "epoch": 0.6605696080854687,
      "grad_norm": 0.6054850220680237,
      "learning_rate": 1.6071045885172322e-05,
      "loss": 1.2664,
      "mean_token_accuracy": 0.681120495001475,
      "num_tokens": 1010055574.0,
      "step": 6013
    },
    {
      "entropy": 1.6163685818513234,
      "epoch": 0.6606794649968416,
      "grad_norm": 0.5509641766548157,
      "learning_rate": 1.6069723031588412e-05,
      "loss": 1.2797,
      "mean_token_accuracy": 0.6819182386000952,
      "num_tokens": 1010220664.0,
      "step": 6014
    },
    {
      "entropy": 1.6701125005880992,
      "epoch": 0.6607893219082146,
      "grad_norm": 0.7778674364089966,
      "learning_rate": 1.6068400017550055e-05,
      "loss": 1.4248,
      "mean_token_accuracy": 0.6782306134700775,
      "num_tokens": 1010398174.0,
      "step": 6015
    },
    {
      "entropy": 1.7769503196080525,
      "epoch": 0.6608991788195875,
      "grad_norm": 0.7546883225440979,
      "learning_rate": 1.6067076843099125e-05,
      "loss": 1.4241,
      "mean_token_accuracy": 0.642538994550705,
      "num_tokens": 1010594125.0,
      "step": 6016
    },
    {
      "entropy": 1.6197692056496937,
      "epoch": 0.6610090357309604,
      "grad_norm": 0.7641433477401733,
      "learning_rate": 1.6065753508277488e-05,
      "loss": 1.2113,
      "mean_token_accuracy": 0.6883720109860102,
      "num_tokens": 1010715132.0,
      "step": 6017
    },
    {
      "entropy": 1.6694122155507405,
      "epoch": 0.6611188926423334,
      "grad_norm": 0.6795452237129211,
      "learning_rate": 1.6064430013127036e-05,
      "loss": 1.476,
      "mean_token_accuracy": 0.6509568393230438,
      "num_tokens": 1010891272.0,
      "step": 6018
    },
    {
      "entropy": 1.6499930421511333,
      "epoch": 0.6612287495537063,
      "grad_norm": 0.6633215546607971,
      "learning_rate": 1.6063106357689662e-05,
      "loss": 1.5788,
      "mean_token_accuracy": 0.6357754915952682,
      "num_tokens": 1011164958.0,
      "step": 6019
    },
    {
      "entropy": 1.7087593972682953,
      "epoch": 0.6613386064650792,
      "grad_norm": 0.7861476540565491,
      "learning_rate": 1.606178254200725e-05,
      "loss": 1.5698,
      "mean_token_accuracy": 0.6314490288496017,
      "num_tokens": 1011325949.0,
      "step": 6020
    },
    {
      "entropy": 1.6702162524064381,
      "epoch": 0.6614484633764521,
      "grad_norm": 0.6822460293769836,
      "learning_rate": 1.60604585661217e-05,
      "loss": 1.3802,
      "mean_token_accuracy": 0.6540361742178599,
      "num_tokens": 1011516122.0,
      "step": 6021
    },
    {
      "entropy": 1.7486283381779988,
      "epoch": 0.6615583202878251,
      "grad_norm": 0.7449422478675842,
      "learning_rate": 1.6059134430074917e-05,
      "loss": 1.3651,
      "mean_token_accuracy": 0.6583732018868128,
      "num_tokens": 1011658572.0,
      "step": 6022
    },
    {
      "entropy": 1.7109368344148,
      "epoch": 0.661668177199198,
      "grad_norm": 0.6396523118019104,
      "learning_rate": 1.6057810133908812e-05,
      "loss": 1.5154,
      "mean_token_accuracy": 0.6504169950882593,
      "num_tokens": 1011820872.0,
      "step": 6023
    },
    {
      "entropy": 1.6798317929108937,
      "epoch": 0.661778034110571,
      "grad_norm": 0.7457844614982605,
      "learning_rate": 1.605648567766529e-05,
      "loss": 1.3378,
      "mean_token_accuracy": 0.6725800782442093,
      "num_tokens": 1011939184.0,
      "step": 6024
    },
    {
      "entropy": 1.7137371897697449,
      "epoch": 0.6618878910219439,
      "grad_norm": 0.7281384468078613,
      "learning_rate": 1.6055161061386282e-05,
      "loss": 1.3466,
      "mean_token_accuracy": 0.6607188185056051,
      "num_tokens": 1012063344.0,
      "step": 6025
    },
    {
      "entropy": 1.7295754949251811,
      "epoch": 0.6619977479333169,
      "grad_norm": 0.9593626856803894,
      "learning_rate": 1.6053836285113703e-05,
      "loss": 1.5888,
      "mean_token_accuracy": 0.639353816707929,
      "num_tokens": 1012202910.0,
      "step": 6026
    },
    {
      "entropy": 1.74645792444547,
      "epoch": 0.6621076048446898,
      "grad_norm": 0.6115472912788391,
      "learning_rate": 1.6052511348889475e-05,
      "loss": 1.272,
      "mean_token_accuracy": 0.6679097364346186,
      "num_tokens": 1012353481.0,
      "step": 6027
    },
    {
      "entropy": 1.6415168742338817,
      "epoch": 0.6622174617560628,
      "grad_norm": 0.6827746629714966,
      "learning_rate": 1.6051186252755548e-05,
      "loss": 1.3812,
      "mean_token_accuracy": 0.663339634736379,
      "num_tokens": 1012531799.0,
      "step": 6028
    },
    {
      "entropy": 1.7094530860582988,
      "epoch": 0.6623273186674357,
      "grad_norm": 0.6740764379501343,
      "learning_rate": 1.604986099675385e-05,
      "loss": 1.2458,
      "mean_token_accuracy": 0.6794106811285019,
      "num_tokens": 1012644516.0,
      "step": 6029
    },
    {
      "entropy": 1.6730037033557892,
      "epoch": 0.6624371755788087,
      "grad_norm": 0.6922171115875244,
      "learning_rate": 1.604853558092632e-05,
      "loss": 1.4073,
      "mean_token_accuracy": 0.6618214547634125,
      "num_tokens": 1012839703.0,
      "step": 6030
    },
    {
      "entropy": 1.6856864591439564,
      "epoch": 0.6625470324901815,
      "grad_norm": 0.6982408761978149,
      "learning_rate": 1.6047210005314927e-05,
      "loss": 1.3656,
      "mean_token_accuracy": 0.6610573281844457,
      "num_tokens": 1012997627.0,
      "step": 6031
    },
    {
      "entropy": 1.7156126201152802,
      "epoch": 0.6626568894015544,
      "grad_norm": 0.8553928136825562,
      "learning_rate": 1.6045884269961602e-05,
      "loss": 1.4574,
      "mean_token_accuracy": 0.6595203479131063,
      "num_tokens": 1013141489.0,
      "step": 6032
    },
    {
      "entropy": 1.7379735112190247,
      "epoch": 0.6627667463129274,
      "grad_norm": 0.6452311873435974,
      "learning_rate": 1.6044558374908313e-05,
      "loss": 1.3783,
      "mean_token_accuracy": 0.6580146799484888,
      "num_tokens": 1013350551.0,
      "step": 6033
    },
    {
      "entropy": 1.6629939476648967,
      "epoch": 0.6628766032243003,
      "grad_norm": 0.7060854434967041,
      "learning_rate": 1.604323232019703e-05,
      "loss": 1.3811,
      "mean_token_accuracy": 0.6662647575139999,
      "num_tokens": 1013522519.0,
      "step": 6034
    },
    {
      "entropy": 1.6722846726576488,
      "epoch": 0.6629864601356733,
      "grad_norm": 0.581295371055603,
      "learning_rate": 1.6041906105869716e-05,
      "loss": 1.3575,
      "mean_token_accuracy": 0.6602567632993063,
      "num_tokens": 1013698530.0,
      "step": 6035
    },
    {
      "entropy": 1.8078128496805828,
      "epoch": 0.6630963170470462,
      "grad_norm": 0.7791680693626404,
      "learning_rate": 1.6040579731968342e-05,
      "loss": 1.3535,
      "mean_token_accuracy": 0.6552262306213379,
      "num_tokens": 1013835125.0,
      "step": 6036
    },
    {
      "entropy": 1.6595743894577026,
      "epoch": 0.6632061739584192,
      "grad_norm": 0.758542001247406,
      "learning_rate": 1.6039253198534893e-05,
      "loss": 1.4194,
      "mean_token_accuracy": 0.6629291425148646,
      "num_tokens": 1013973848.0,
      "step": 6037
    },
    {
      "entropy": 1.6578982969125111,
      "epoch": 0.6633160308697921,
      "grad_norm": 0.7612101435661316,
      "learning_rate": 1.6037926505611353e-05,
      "loss": 1.3237,
      "mean_token_accuracy": 0.6753773540258408,
      "num_tokens": 1014105985.0,
      "step": 6038
    },
    {
      "entropy": 1.7778889040152233,
      "epoch": 0.6634258877811651,
      "grad_norm": 0.6914167404174805,
      "learning_rate": 1.6036599653239705e-05,
      "loss": 1.4301,
      "mean_token_accuracy": 0.6623369753360748,
      "num_tokens": 1014286159.0,
      "step": 6039
    },
    {
      "entropy": 1.730593462785085,
      "epoch": 0.663535744692538,
      "grad_norm": 0.6559991240501404,
      "learning_rate": 1.6035272641461953e-05,
      "loss": 1.5694,
      "mean_token_accuracy": 0.6481152127186457,
      "num_tokens": 1014489852.0,
      "step": 6040
    },
    {
      "entropy": 1.7553011178970337,
      "epoch": 0.663645601603911,
      "grad_norm": 0.6367934942245483,
      "learning_rate": 1.6033945470320088e-05,
      "loss": 1.3236,
      "mean_token_accuracy": 0.6699994951486588,
      "num_tokens": 1014642102.0,
      "step": 6041
    },
    {
      "entropy": 1.692327857017517,
      "epoch": 0.6637554585152838,
      "grad_norm": 0.6805416941642761,
      "learning_rate": 1.6032618139856116e-05,
      "loss": 1.3413,
      "mean_token_accuracy": 0.6565508594115576,
      "num_tokens": 1014788802.0,
      "step": 6042
    },
    {
      "entropy": 1.7228071590264638,
      "epoch": 0.6638653154266568,
      "grad_norm": 0.5855072140693665,
      "learning_rate": 1.6031290650112047e-05,
      "loss": 1.2014,
      "mean_token_accuracy": 0.6715217183033625,
      "num_tokens": 1014978143.0,
      "step": 6043
    },
    {
      "entropy": 1.7340465486049652,
      "epoch": 0.6639751723380297,
      "grad_norm": 0.7417824864387512,
      "learning_rate": 1.6029963001129897e-05,
      "loss": 1.4479,
      "mean_token_accuracy": 0.6491431444883347,
      "num_tokens": 1015185187.0,
      "step": 6044
    },
    {
      "entropy": 1.722789963086446,
      "epoch": 0.6640850292494026,
      "grad_norm": 0.6903808116912842,
      "learning_rate": 1.6028635192951686e-05,
      "loss": 1.4496,
      "mean_token_accuracy": 0.6459407409032186,
      "num_tokens": 1015347694.0,
      "step": 6045
    },
    {
      "entropy": 1.6786029835542042,
      "epoch": 0.6641948861607756,
      "grad_norm": 0.7279839515686035,
      "learning_rate": 1.6027307225619434e-05,
      "loss": 1.2846,
      "mean_token_accuracy": 0.6784352113803228,
      "num_tokens": 1015469969.0,
      "step": 6046
    },
    {
      "entropy": 1.719456136226654,
      "epoch": 0.6643047430721485,
      "grad_norm": 0.7053220868110657,
      "learning_rate": 1.6025979099175176e-05,
      "loss": 1.3669,
      "mean_token_accuracy": 0.6673380633195242,
      "num_tokens": 1015623741.0,
      "step": 6047
    },
    {
      "entropy": 1.7085906167825062,
      "epoch": 0.6644145999835215,
      "grad_norm": 0.6075806021690369,
      "learning_rate": 1.6024650813660946e-05,
      "loss": 1.4022,
      "mean_token_accuracy": 0.6560228218634924,
      "num_tokens": 1015805903.0,
      "step": 6048
    },
    {
      "entropy": 1.718571404616038,
      "epoch": 0.6645244568948944,
      "grad_norm": 0.7968881130218506,
      "learning_rate": 1.6023322369118777e-05,
      "loss": 1.5538,
      "mean_token_accuracy": 0.6444092392921448,
      "num_tokens": 1015977088.0,
      "step": 6049
    },
    {
      "entropy": 1.6368082066377003,
      "epoch": 0.6646343138062674,
      "grad_norm": 0.6820107102394104,
      "learning_rate": 1.6021993765590724e-05,
      "loss": 1.3924,
      "mean_token_accuracy": 0.6599597285191218,
      "num_tokens": 1016132000.0,
      "step": 6050
    },
    {
      "entropy": 1.7395052810509999,
      "epoch": 0.6647441707176402,
      "grad_norm": 1.213407039642334,
      "learning_rate": 1.6020665003118828e-05,
      "loss": 1.4726,
      "mean_token_accuracy": 0.625076542297999,
      "num_tokens": 1016336850.0,
      "step": 6051
    },
    {
      "entropy": 1.6540366212526958,
      "epoch": 0.6648540276290132,
      "grad_norm": 0.6258625388145447,
      "learning_rate": 1.6019336081745143e-05,
      "loss": 1.4585,
      "mean_token_accuracy": 0.6550316015879313,
      "num_tokens": 1016548471.0,
      "step": 6052
    },
    {
      "entropy": 1.7461306750774384,
      "epoch": 0.6649638845403861,
      "grad_norm": 0.7281144857406616,
      "learning_rate": 1.601800700151174e-05,
      "loss": 1.4278,
      "mean_token_accuracy": 0.6685409446557363,
      "num_tokens": 1016688609.0,
      "step": 6053
    },
    {
      "entropy": 1.6394382019837697,
      "epoch": 0.6650737414517591,
      "grad_norm": 0.7716277241706848,
      "learning_rate": 1.6016677762460677e-05,
      "loss": 1.2538,
      "mean_token_accuracy": 0.6766884575287501,
      "num_tokens": 1016848324.0,
      "step": 6054
    },
    {
      "entropy": 1.6753660937150319,
      "epoch": 0.665183598363132,
      "grad_norm": 0.721605122089386,
      "learning_rate": 1.601534836463402e-05,
      "loss": 1.4277,
      "mean_token_accuracy": 0.65249036749204,
      "num_tokens": 1017024377.0,
      "step": 6055
    },
    {
      "entropy": 1.709774265686671,
      "epoch": 0.665293455274505,
      "grad_norm": 0.7922242283821106,
      "learning_rate": 1.601401880807385e-05,
      "loss": 1.523,
      "mean_token_accuracy": 0.667452315489451,
      "num_tokens": 1017182257.0,
      "step": 6056
    },
    {
      "entropy": 1.7641392350196838,
      "epoch": 0.6654033121858779,
      "grad_norm": 0.8408894538879395,
      "learning_rate": 1.601268909282224e-05,
      "loss": 1.3981,
      "mean_token_accuracy": 0.6577701171239217,
      "num_tokens": 1017329247.0,
      "step": 6057
    },
    {
      "entropy": 1.6443076431751251,
      "epoch": 0.6655131690972508,
      "grad_norm": 0.7164208292961121,
      "learning_rate": 1.601135921892128e-05,
      "loss": 1.4252,
      "mean_token_accuracy": 0.659592812259992,
      "num_tokens": 1017531523.0,
      "step": 6058
    },
    {
      "entropy": 1.7700778742631276,
      "epoch": 0.6656230260086238,
      "grad_norm": 0.8573195338249207,
      "learning_rate": 1.601002918641306e-05,
      "loss": 1.451,
      "mean_token_accuracy": 0.6490327517191569,
      "num_tokens": 1017706081.0,
      "step": 6059
    },
    {
      "entropy": 1.6549913088480632,
      "epoch": 0.6657328829199967,
      "grad_norm": 0.6733830571174622,
      "learning_rate": 1.6008698995339674e-05,
      "loss": 1.4763,
      "mean_token_accuracy": 0.6520965496699015,
      "num_tokens": 1017895248.0,
      "step": 6060
    },
    {
      "entropy": 1.689163068930308,
      "epoch": 0.6658427398313697,
      "grad_norm": 0.7045179605484009,
      "learning_rate": 1.6007368645743222e-05,
      "loss": 1.3279,
      "mean_token_accuracy": 0.6655579805374146,
      "num_tokens": 1018012601.0,
      "step": 6061
    },
    {
      "entropy": 1.664953072865804,
      "epoch": 0.6659525967427425,
      "grad_norm": 0.5830453634262085,
      "learning_rate": 1.6006038137665808e-05,
      "loss": 1.4024,
      "mean_token_accuracy": 0.6456159402926763,
      "num_tokens": 1018229159.0,
      "step": 6062
    },
    {
      "entropy": 1.687490314245224,
      "epoch": 0.6660624536541155,
      "grad_norm": 0.6919242143630981,
      "learning_rate": 1.600470747114954e-05,
      "loss": 1.4013,
      "mean_token_accuracy": 0.6645840257406235,
      "num_tokens": 1018361148.0,
      "step": 6063
    },
    {
      "entropy": 1.7308449447154999,
      "epoch": 0.6661723105654884,
      "grad_norm": 0.7102833986282349,
      "learning_rate": 1.600337664623654e-05,
      "loss": 1.3756,
      "mean_token_accuracy": 0.6476593216260275,
      "num_tokens": 1018503933.0,
      "step": 6064
    },
    {
      "entropy": 1.7429296175638835,
      "epoch": 0.6662821674768614,
      "grad_norm": 0.6323913931846619,
      "learning_rate": 1.6002045662968924e-05,
      "loss": 1.5065,
      "mean_token_accuracy": 0.6419780949751536,
      "num_tokens": 1018704772.0,
      "step": 6065
    },
    {
      "entropy": 1.7037050426006317,
      "epoch": 0.6663920243882343,
      "grad_norm": 0.6635475158691406,
      "learning_rate": 1.6000714521388812e-05,
      "loss": 1.5844,
      "mean_token_accuracy": 0.6312363793452581,
      "num_tokens": 1018884802.0,
      "step": 6066
    },
    {
      "entropy": 1.672195961078008,
      "epoch": 0.6665018812996073,
      "grad_norm": 0.647525429725647,
      "learning_rate": 1.599938322153834e-05,
      "loss": 1.4732,
      "mean_token_accuracy": 0.6414629220962524,
      "num_tokens": 1019090452.0,
      "step": 6067
    },
    {
      "entropy": 1.6700976292292278,
      "epoch": 0.6666117382109802,
      "grad_norm": 0.6400693655014038,
      "learning_rate": 1.5998051763459646e-05,
      "loss": 1.3905,
      "mean_token_accuracy": 0.6553190549214681,
      "num_tokens": 1019247192.0,
      "step": 6068
    },
    {
      "entropy": 1.6819157501061757,
      "epoch": 0.6667215951223532,
      "grad_norm": 0.7235324382781982,
      "learning_rate": 1.5996720147194865e-05,
      "loss": 1.29,
      "mean_token_accuracy": 0.6759899059931437,
      "num_tokens": 1019407725.0,
      "step": 6069
    },
    {
      "entropy": 1.6707827945550282,
      "epoch": 0.6668314520337261,
      "grad_norm": 0.6338719129562378,
      "learning_rate": 1.599538837278614e-05,
      "loss": 1.455,
      "mean_token_accuracy": 0.6488498498996099,
      "num_tokens": 1019603082.0,
      "step": 6070
    },
    {
      "entropy": 1.7216089765230815,
      "epoch": 0.666941308945099,
      "grad_norm": 0.7594712376594543,
      "learning_rate": 1.5994056440275626e-05,
      "loss": 1.4081,
      "mean_token_accuracy": 0.6522118002176285,
      "num_tokens": 1019850616.0,
      "step": 6071
    },
    {
      "entropy": 1.701182136933009,
      "epoch": 0.667051165856472,
      "grad_norm": 0.6392696499824524,
      "learning_rate": 1.5992724349705476e-05,
      "loss": 1.4646,
      "mean_token_accuracy": 0.648558313647906,
      "num_tokens": 1020043487.0,
      "step": 6072
    },
    {
      "entropy": 1.6712729334831238,
      "epoch": 0.6671610227678448,
      "grad_norm": 0.7950101494789124,
      "learning_rate": 1.5991392101117847e-05,
      "loss": 1.1902,
      "mean_token_accuracy": 0.6798241138458252,
      "num_tokens": 1020178559.0,
      "step": 6073
    },
    {
      "entropy": 1.6639493604501088,
      "epoch": 0.6672708796792178,
      "grad_norm": 0.7325677871704102,
      "learning_rate": 1.599005969455491e-05,
      "loss": 1.5157,
      "mean_token_accuracy": 0.6516855508089066,
      "num_tokens": 1020341544.0,
      "step": 6074
    },
    {
      "entropy": 1.7209535439809163,
      "epoch": 0.6673807365905907,
      "grad_norm": 0.7139765620231628,
      "learning_rate": 1.598872713005883e-05,
      "loss": 1.3183,
      "mean_token_accuracy": 0.6776246974865595,
      "num_tokens": 1020498782.0,
      "step": 6075
    },
    {
      "entropy": 1.7369226813316345,
      "epoch": 0.6674905935019637,
      "grad_norm": 0.7224074602127075,
      "learning_rate": 1.598739440767179e-05,
      "loss": 1.4519,
      "mean_token_accuracy": 0.6571163336435953,
      "num_tokens": 1020617813.0,
      "step": 6076
    },
    {
      "entropy": 1.7044867078463237,
      "epoch": 0.6676004504133366,
      "grad_norm": 0.8380149006843567,
      "learning_rate": 1.598606152743596e-05,
      "loss": 1.4734,
      "mean_token_accuracy": 0.6627581169207891,
      "num_tokens": 1020769525.0,
      "step": 6077
    },
    {
      "entropy": 1.7417923708756764,
      "epoch": 0.6677103073247096,
      "grad_norm": 0.5832151770591736,
      "learning_rate": 1.598472848939353e-05,
      "loss": 1.377,
      "mean_token_accuracy": 0.6470159838596979,
      "num_tokens": 1020952842.0,
      "step": 6078
    },
    {
      "entropy": 1.7149604658285778,
      "epoch": 0.6678201642360825,
      "grad_norm": 0.7015511393547058,
      "learning_rate": 1.598339529358669e-05,
      "loss": 1.3452,
      "mean_token_accuracy": 0.6668038119872411,
      "num_tokens": 1021135830.0,
      "step": 6079
    },
    {
      "entropy": 1.7343719899654388,
      "epoch": 0.6679300211474555,
      "grad_norm": 0.5889387726783752,
      "learning_rate": 1.5982061940057633e-05,
      "loss": 1.4322,
      "mean_token_accuracy": 0.6490494459867477,
      "num_tokens": 1021313312.0,
      "step": 6080
    },
    {
      "entropy": 1.7713063756624858,
      "epoch": 0.6680398780588284,
      "grad_norm": 0.6595631241798401,
      "learning_rate": 1.598072842884856e-05,
      "loss": 1.419,
      "mean_token_accuracy": 0.6418772985537847,
      "num_tokens": 1021484880.0,
      "step": 6081
    },
    {
      "entropy": 1.695546378691991,
      "epoch": 0.6681497349702014,
      "grad_norm": 0.7553979754447937,
      "learning_rate": 1.597939476000168e-05,
      "loss": 1.2275,
      "mean_token_accuracy": 0.6762440800666809,
      "num_tokens": 1021614110.0,
      "step": 6082
    },
    {
      "entropy": 1.7010157803694408,
      "epoch": 0.6682595918815742,
      "grad_norm": 0.6879470348358154,
      "learning_rate": 1.59780609335592e-05,
      "loss": 1.5772,
      "mean_token_accuracy": 0.6345613052447637,
      "num_tokens": 1021797865.0,
      "step": 6083
    },
    {
      "entropy": 1.6960657437642415,
      "epoch": 0.6683694487929472,
      "grad_norm": 0.6763353943824768,
      "learning_rate": 1.597672694956333e-05,
      "loss": 1.3334,
      "mean_token_accuracy": 0.6662516544262568,
      "num_tokens": 1021966095.0,
      "step": 6084
    },
    {
      "entropy": 1.7035949130853016,
      "epoch": 0.6684793057043201,
      "grad_norm": 0.6424010396003723,
      "learning_rate": 1.5975392808056297e-05,
      "loss": 1.412,
      "mean_token_accuracy": 0.653632586201032,
      "num_tokens": 1022124115.0,
      "step": 6085
    },
    {
      "entropy": 1.7454820175965626,
      "epoch": 0.668589162615693,
      "grad_norm": 0.7985848188400269,
      "learning_rate": 1.5974058509080322e-05,
      "loss": 1.5415,
      "mean_token_accuracy": 0.6329482396443685,
      "num_tokens": 1022284660.0,
      "step": 6086
    },
    {
      "entropy": 1.7059528827667236,
      "epoch": 0.668699019527066,
      "grad_norm": 0.6430754065513611,
      "learning_rate": 1.5972724052677636e-05,
      "loss": 1.3376,
      "mean_token_accuracy": 0.6498004595438639,
      "num_tokens": 1022462814.0,
      "step": 6087
    },
    {
      "entropy": 1.6707301139831543,
      "epoch": 0.6688088764384389,
      "grad_norm": 0.7058833837509155,
      "learning_rate": 1.597138943889048e-05,
      "loss": 1.3133,
      "mean_token_accuracy": 0.6808335582415262,
      "num_tokens": 1022597570.0,
      "step": 6088
    },
    {
      "entropy": 1.7404019236564636,
      "epoch": 0.6689187333498119,
      "grad_norm": 0.8028521537780762,
      "learning_rate": 1.5970054667761086e-05,
      "loss": 1.5094,
      "mean_token_accuracy": 0.65455295642217,
      "num_tokens": 1022767945.0,
      "step": 6089
    },
    {
      "entropy": 1.6390142341454823,
      "epoch": 0.6690285902611848,
      "grad_norm": 0.7467424273490906,
      "learning_rate": 1.59687197393317e-05,
      "loss": 1.2249,
      "mean_token_accuracy": 0.684510534008344,
      "num_tokens": 1022885224.0,
      "step": 6090
    },
    {
      "entropy": 1.698186457157135,
      "epoch": 0.6691384471725578,
      "grad_norm": 0.6739535927772522,
      "learning_rate": 1.5967384653644573e-05,
      "loss": 1.5205,
      "mean_token_accuracy": 0.6390059242645899,
      "num_tokens": 1023125924.0,
      "step": 6091
    },
    {
      "entropy": 1.7658388912677765,
      "epoch": 0.6692483040839307,
      "grad_norm": 0.6793767213821411,
      "learning_rate": 1.596604941074196e-05,
      "loss": 1.3172,
      "mean_token_accuracy": 0.6668230046828588,
      "num_tokens": 1023261228.0,
      "step": 6092
    },
    {
      "entropy": 1.6249745587507884,
      "epoch": 0.6693581609953037,
      "grad_norm": 0.6603535413742065,
      "learning_rate": 1.596471401066612e-05,
      "loss": 1.383,
      "mean_token_accuracy": 0.6608263403177261,
      "num_tokens": 1023451278.0,
      "step": 6093
    },
    {
      "entropy": 1.6451916893323262,
      "epoch": 0.6694680179066765,
      "grad_norm": 0.6392114758491516,
      "learning_rate": 1.5963378453459322e-05,
      "loss": 1.4267,
      "mean_token_accuracy": 0.6546541998783747,
      "num_tokens": 1023641335.0,
      "step": 6094
    },
    {
      "entropy": 1.663988600174586,
      "epoch": 0.6695778748180495,
      "grad_norm": 0.5604124069213867,
      "learning_rate": 1.596204273916383e-05,
      "loss": 1.4705,
      "mean_token_accuracy": 0.6506281395753225,
      "num_tokens": 1023914875.0,
      "step": 6095
    },
    {
      "entropy": 1.7463338673114777,
      "epoch": 0.6696877317294224,
      "grad_norm": 0.693678617477417,
      "learning_rate": 1.5960706867821922e-05,
      "loss": 1.4098,
      "mean_token_accuracy": 0.6399700790643692,
      "num_tokens": 1024096467.0,
      "step": 6096
    },
    {
      "entropy": 1.6922602653503418,
      "epoch": 0.6697975886407954,
      "grad_norm": 0.6785783767700195,
      "learning_rate": 1.5959370839475878e-05,
      "loss": 1.3892,
      "mean_token_accuracy": 0.6647334198156992,
      "num_tokens": 1024245472.0,
      "step": 6097
    },
    {
      "entropy": 1.7134245534737904,
      "epoch": 0.6699074455521683,
      "grad_norm": 0.7681015133857727,
      "learning_rate": 1.595803465416798e-05,
      "loss": 1.2404,
      "mean_token_accuracy": 0.6760171254475912,
      "num_tokens": 1024351814.0,
      "step": 6098
    },
    {
      "entropy": 1.7330508331457775,
      "epoch": 0.6700173024635412,
      "grad_norm": 0.7412785291671753,
      "learning_rate": 1.595669831194052e-05,
      "loss": 1.4319,
      "mean_token_accuracy": 0.662334273258845,
      "num_tokens": 1024520510.0,
      "step": 6099
    },
    {
      "entropy": 1.7534303267796834,
      "epoch": 0.6701271593749142,
      "grad_norm": 0.6362935900688171,
      "learning_rate": 1.595536181283579e-05,
      "loss": 1.3547,
      "mean_token_accuracy": 0.6595286975304285,
      "num_tokens": 1024702512.0,
      "step": 6100
    },
    {
      "entropy": 1.7748811344305675,
      "epoch": 0.6702370162862871,
      "grad_norm": 0.771950364112854,
      "learning_rate": 1.5954025156896094e-05,
      "loss": 1.4267,
      "mean_token_accuracy": 0.6493061731259028,
      "num_tokens": 1024826301.0,
      "step": 6101
    },
    {
      "entropy": 1.6831330458323162,
      "epoch": 0.6703468731976601,
      "grad_norm": 0.5883938670158386,
      "learning_rate": 1.5952688344163738e-05,
      "loss": 1.3333,
      "mean_token_accuracy": 0.6650530050198237,
      "num_tokens": 1025013672.0,
      "step": 6102
    },
    {
      "entropy": 1.6784860491752625,
      "epoch": 0.670456730109033,
      "grad_norm": 0.6166484355926514,
      "learning_rate": 1.595135137468102e-05,
      "loss": 1.3632,
      "mean_token_accuracy": 0.6598242670297623,
      "num_tokens": 1025172109.0,
      "step": 6103
    },
    {
      "entropy": 1.7556925614674885,
      "epoch": 0.670566587020406,
      "grad_norm": 0.7905380725860596,
      "learning_rate": 1.5950014248490268e-05,
      "loss": 1.347,
      "mean_token_accuracy": 0.673460324605306,
      "num_tokens": 1025321964.0,
      "step": 6104
    },
    {
      "entropy": 1.742532879114151,
      "epoch": 0.6706764439317788,
      "grad_norm": 0.7387831807136536,
      "learning_rate": 1.5948676965633792e-05,
      "loss": 1.303,
      "mean_token_accuracy": 0.6769290367762247,
      "num_tokens": 1025430147.0,
      "step": 6105
    },
    {
      "entropy": 1.7955981294314067,
      "epoch": 0.6707863008431518,
      "grad_norm": 0.8614792227745056,
      "learning_rate": 1.594733952615392e-05,
      "loss": 1.4031,
      "mean_token_accuracy": 0.6521740754445394,
      "num_tokens": 1025548085.0,
      "step": 6106
    },
    {
      "entropy": 1.7102086047331493,
      "epoch": 0.6708961577545247,
      "grad_norm": 0.6578072309494019,
      "learning_rate": 1.5946001930092983e-05,
      "loss": 1.4516,
      "mean_token_accuracy": 0.6479578018188477,
      "num_tokens": 1025705026.0,
      "step": 6107
    },
    {
      "entropy": 1.635363906621933,
      "epoch": 0.6710060146658977,
      "grad_norm": 0.6915444731712341,
      "learning_rate": 1.5944664177493313e-05,
      "loss": 1.4012,
      "mean_token_accuracy": 0.6578799436489741,
      "num_tokens": 1025840042.0,
      "step": 6108
    },
    {
      "entropy": 1.7048865755399067,
      "epoch": 0.6711158715772706,
      "grad_norm": 0.666670024394989,
      "learning_rate": 1.594332626839725e-05,
      "loss": 1.5948,
      "mean_token_accuracy": 0.6330678189794222,
      "num_tokens": 1026035070.0,
      "step": 6109
    },
    {
      "entropy": 1.711029291152954,
      "epoch": 0.6712257284886436,
      "grad_norm": 0.7791758179664612,
      "learning_rate": 1.594198820284714e-05,
      "loss": 1.4302,
      "mean_token_accuracy": 0.6709011346101761,
      "num_tokens": 1026175979.0,
      "step": 6110
    },
    {
      "entropy": 1.6606249113877614,
      "epoch": 0.6713355854000165,
      "grad_norm": 0.7085611820220947,
      "learning_rate": 1.5940649980885324e-05,
      "loss": 1.5086,
      "mean_token_accuracy": 0.645029549797376,
      "num_tokens": 1026404722.0,
      "step": 6111
    },
    {
      "entropy": 1.7165546814600627,
      "epoch": 0.6714454423113894,
      "grad_norm": 0.7058658599853516,
      "learning_rate": 1.5939311602554168e-05,
      "loss": 1.3256,
      "mean_token_accuracy": 0.6548676739136378,
      "num_tokens": 1026548934.0,
      "step": 6112
    },
    {
      "entropy": 1.7104195555051167,
      "epoch": 0.6715552992227624,
      "grad_norm": 0.6687393188476562,
      "learning_rate": 1.5937973067896025e-05,
      "loss": 1.4702,
      "mean_token_accuracy": 0.6464681526025137,
      "num_tokens": 1026779833.0,
      "step": 6113
    },
    {
      "entropy": 1.6975898842016857,
      "epoch": 0.6716651561341352,
      "grad_norm": 0.575406014919281,
      "learning_rate": 1.593663437695326e-05,
      "loss": 1.3619,
      "mean_token_accuracy": 0.6549033125241598,
      "num_tokens": 1026985027.0,
      "step": 6114
    },
    {
      "entropy": 1.7248026132583618,
      "epoch": 0.6717750130455082,
      "grad_norm": 0.7494511008262634,
      "learning_rate": 1.593529552976824e-05,
      "loss": 1.3871,
      "mean_token_accuracy": 0.6491140872240067,
      "num_tokens": 1027159348.0,
      "step": 6115
    },
    {
      "entropy": 1.629348337650299,
      "epoch": 0.6718848699568811,
      "grad_norm": 0.650229275226593,
      "learning_rate": 1.593395652638334e-05,
      "loss": 1.4643,
      "mean_token_accuracy": 0.6616547207037607,
      "num_tokens": 1027322685.0,
      "step": 6116
    },
    {
      "entropy": 1.6977149446805317,
      "epoch": 0.6719947268682541,
      "grad_norm": 0.7905436754226685,
      "learning_rate": 1.593261736684094e-05,
      "loss": 1.4179,
      "mean_token_accuracy": 0.6655702938636144,
      "num_tokens": 1027467183.0,
      "step": 6117
    },
    {
      "entropy": 1.6418705681959789,
      "epoch": 0.672104583779627,
      "grad_norm": 0.6807728409767151,
      "learning_rate": 1.593127805118342e-05,
      "loss": 1.4285,
      "mean_token_accuracy": 0.6624650160471598,
      "num_tokens": 1027669991.0,
      "step": 6118
    },
    {
      "entropy": 1.693480223417282,
      "epoch": 0.672214440691,
      "grad_norm": 0.6987659335136414,
      "learning_rate": 1.5929938579453178e-05,
      "loss": 1.4377,
      "mean_token_accuracy": 0.6526973893245062,
      "num_tokens": 1027818472.0,
      "step": 6119
    },
    {
      "entropy": 1.7187944451967876,
      "epoch": 0.6723242976023729,
      "grad_norm": 0.6811079382896423,
      "learning_rate": 1.5928598951692596e-05,
      "loss": 1.277,
      "mean_token_accuracy": 0.6688454498847326,
      "num_tokens": 1027933443.0,
      "step": 6120
    },
    {
      "entropy": 1.6929615139961243,
      "epoch": 0.6724341545137459,
      "grad_norm": 0.6487001776695251,
      "learning_rate": 1.592725916794408e-05,
      "loss": 1.4681,
      "mean_token_accuracy": 0.6509808599948883,
      "num_tokens": 1028117633.0,
      "step": 6121
    },
    {
      "entropy": 1.700806051492691,
      "epoch": 0.6725440114251188,
      "grad_norm": 0.6837039589881897,
      "learning_rate": 1.5925919228250034e-05,
      "loss": 1.3143,
      "mean_token_accuracy": 0.6903966218233109,
      "num_tokens": 1028242732.0,
      "step": 6122
    },
    {
      "entropy": 1.6499686141808827,
      "epoch": 0.6726538683364918,
      "grad_norm": 0.6767922043800354,
      "learning_rate": 1.592457913265286e-05,
      "loss": 1.3945,
      "mean_token_accuracy": 0.6531237810850143,
      "num_tokens": 1028426037.0,
      "step": 6123
    },
    {
      "entropy": 1.6716104646523793,
      "epoch": 0.6727637252478647,
      "grad_norm": 0.6955103874206543,
      "learning_rate": 1.5923238881194976e-05,
      "loss": 1.4092,
      "mean_token_accuracy": 0.649432510137558,
      "num_tokens": 1028628426.0,
      "step": 6124
    },
    {
      "entropy": 1.6994199852148693,
      "epoch": 0.6728735821592375,
      "grad_norm": 2.9740710258483887,
      "learning_rate": 1.5921898473918802e-05,
      "loss": 1.017,
      "mean_token_accuracy": 0.6964697390794754,
      "num_tokens": 1028793307.0,
      "step": 6125
    },
    {
      "entropy": 1.6781040628751118,
      "epoch": 0.6729834390706105,
      "grad_norm": 0.6323825120925903,
      "learning_rate": 1.592055791086676e-05,
      "loss": 1.406,
      "mean_token_accuracy": 0.6498600840568542,
      "num_tokens": 1029003857.0,
      "step": 6126
    },
    {
      "entropy": 1.691665271917979,
      "epoch": 0.6730932959819834,
      "grad_norm": 0.6065126657485962,
      "learning_rate": 1.5919217192081273e-05,
      "loss": 1.4436,
      "mean_token_accuracy": 0.6468114952246348,
      "num_tokens": 1029184665.0,
      "step": 6127
    },
    {
      "entropy": 1.7233734627564747,
      "epoch": 0.6732031528933564,
      "grad_norm": 0.8082062005996704,
      "learning_rate": 1.5917876317604785e-05,
      "loss": 1.4065,
      "mean_token_accuracy": 0.6604608694712321,
      "num_tokens": 1029348548.0,
      "step": 6128
    },
    {
      "entropy": 1.6546673774719238,
      "epoch": 0.6733130098047293,
      "grad_norm": 0.6178780198097229,
      "learning_rate": 1.591653528747972e-05,
      "loss": 1.2925,
      "mean_token_accuracy": 0.6696785638729731,
      "num_tokens": 1029529896.0,
      "step": 6129
    },
    {
      "entropy": 1.7272561589876811,
      "epoch": 0.6734228667161023,
      "grad_norm": 0.6660004258155823,
      "learning_rate": 1.591519410174853e-05,
      "loss": 1.4051,
      "mean_token_accuracy": 0.6591061949729919,
      "num_tokens": 1029681501.0,
      "step": 6130
    },
    {
      "entropy": 1.7080715497334797,
      "epoch": 0.6735327236274752,
      "grad_norm": 0.5781081318855286,
      "learning_rate": 1.5913852760453667e-05,
      "loss": 1.394,
      "mean_token_accuracy": 0.6472490082184473,
      "num_tokens": 1029910927.0,
      "step": 6131
    },
    {
      "entropy": 1.6690656940142314,
      "epoch": 0.6736425805388482,
      "grad_norm": 0.6107634902000427,
      "learning_rate": 1.5912511263637576e-05,
      "loss": 1.3232,
      "mean_token_accuracy": 0.66473917166392,
      "num_tokens": 1030091804.0,
      "step": 6132
    },
    {
      "entropy": 1.7400188446044922,
      "epoch": 0.6737524374502211,
      "grad_norm": 0.7845686674118042,
      "learning_rate": 1.5911169611342716e-05,
      "loss": 1.3731,
      "mean_token_accuracy": 0.6524705936511358,
      "num_tokens": 1030234959.0,
      "step": 6133
    },
    {
      "entropy": 1.6985375185807545,
      "epoch": 0.6738622943615941,
      "grad_norm": 0.6205952763557434,
      "learning_rate": 1.5909827803611553e-05,
      "loss": 1.3825,
      "mean_token_accuracy": 0.6545093754927317,
      "num_tokens": 1030412195.0,
      "step": 6134
    },
    {
      "entropy": 1.7195107738176982,
      "epoch": 0.673972151272967,
      "grad_norm": 0.8514347672462463,
      "learning_rate": 1.590848584048655e-05,
      "loss": 1.4261,
      "mean_token_accuracy": 0.6498820533355077,
      "num_tokens": 1030556047.0,
      "step": 6135
    },
    {
      "entropy": 1.717844436566035,
      "epoch": 0.6740820081843399,
      "grad_norm": 0.8321981430053711,
      "learning_rate": 1.5907143722010183e-05,
      "loss": 1.4249,
      "mean_token_accuracy": 0.6527943263451258,
      "num_tokens": 1030723162.0,
      "step": 6136
    },
    {
      "entropy": 1.7162880500157673,
      "epoch": 0.6741918650957128,
      "grad_norm": 0.6410884857177734,
      "learning_rate": 1.590580144822493e-05,
      "loss": 1.3525,
      "mean_token_accuracy": 0.6689903736114502,
      "num_tokens": 1030890509.0,
      "step": 6137
    },
    {
      "entropy": 1.7301206290721893,
      "epoch": 0.6743017220070858,
      "grad_norm": 0.735442578792572,
      "learning_rate": 1.5904459019173266e-05,
      "loss": 1.2337,
      "mean_token_accuracy": 0.6780840853850046,
      "num_tokens": 1030998724.0,
      "step": 6138
    },
    {
      "entropy": 1.693600704272588,
      "epoch": 0.6744115789184587,
      "grad_norm": 0.6858952641487122,
      "learning_rate": 1.590311643489769e-05,
      "loss": 1.3579,
      "mean_token_accuracy": 0.6619731138149897,
      "num_tokens": 1031180321.0,
      "step": 6139
    },
    {
      "entropy": 1.691060831149419,
      "epoch": 0.6745214358298316,
      "grad_norm": 0.7244452238082886,
      "learning_rate": 1.5901773695440684e-05,
      "loss": 1.5419,
      "mean_token_accuracy": 0.638955608010292,
      "num_tokens": 1031349446.0,
      "step": 6140
    },
    {
      "entropy": 1.673604021469752,
      "epoch": 0.6746312927412046,
      "grad_norm": 0.5594522953033447,
      "learning_rate": 1.5900430800844752e-05,
      "loss": 1.3823,
      "mean_token_accuracy": 0.6514309992392858,
      "num_tokens": 1031556297.0,
      "step": 6141
    },
    {
      "entropy": 1.69135985771815,
      "epoch": 0.6747411496525775,
      "grad_norm": 0.7993478775024414,
      "learning_rate": 1.5899087751152395e-05,
      "loss": 1.2584,
      "mean_token_accuracy": 0.675132155418396,
      "num_tokens": 1031680407.0,
      "step": 6142
    },
    {
      "entropy": 1.6793262263139088,
      "epoch": 0.6748510065639505,
      "grad_norm": 0.7275417447090149,
      "learning_rate": 1.5897744546406117e-05,
      "loss": 1.3664,
      "mean_token_accuracy": 0.6670361111561457,
      "num_tokens": 1031833401.0,
      "step": 6143
    },
    {
      "entropy": 1.7409860094388325,
      "epoch": 0.6749608634753234,
      "grad_norm": 0.6921661496162415,
      "learning_rate": 1.5896401186648428e-05,
      "loss": 1.3467,
      "mean_token_accuracy": 0.6612462997436523,
      "num_tokens": 1031967537.0,
      "step": 6144
    },
    {
      "entropy": 1.7186478873093922,
      "epoch": 0.6750707203866964,
      "grad_norm": 0.5948835611343384,
      "learning_rate": 1.589505767192185e-05,
      "loss": 1.4484,
      "mean_token_accuracy": 0.651375338435173,
      "num_tokens": 1032134696.0,
      "step": 6145
    },
    {
      "entropy": 1.753745198249817,
      "epoch": 0.6751805772980692,
      "grad_norm": 0.7294279932975769,
      "learning_rate": 1.58937140022689e-05,
      "loss": 1.4038,
      "mean_token_accuracy": 0.6501768082380295,
      "num_tokens": 1032292941.0,
      "step": 6146
    },
    {
      "entropy": 1.7068160772323608,
      "epoch": 0.6752904342094422,
      "grad_norm": 0.8932915925979614,
      "learning_rate": 1.5892370177732112e-05,
      "loss": 1.4417,
      "mean_token_accuracy": 0.6559292525053024,
      "num_tokens": 1032429050.0,
      "step": 6147
    },
    {
      "entropy": 1.7068482637405396,
      "epoch": 0.6754002911208151,
      "grad_norm": 0.7544932961463928,
      "learning_rate": 1.5891026198354007e-05,
      "loss": 1.4954,
      "mean_token_accuracy": 0.6591473271449407,
      "num_tokens": 1032581362.0,
      "step": 6148
    },
    {
      "entropy": 1.7536579171816509,
      "epoch": 0.6755101480321881,
      "grad_norm": 0.7992092967033386,
      "learning_rate": 1.588968206417713e-05,
      "loss": 1.3389,
      "mean_token_accuracy": 0.6687672038873037,
      "num_tokens": 1032691286.0,
      "step": 6149
    },
    {
      "entropy": 1.7206375002861023,
      "epoch": 0.675620004943561,
      "grad_norm": 0.7990248799324036,
      "learning_rate": 1.588833777524402e-05,
      "loss": 1.3008,
      "mean_token_accuracy": 0.6754638602336248,
      "num_tokens": 1032812888.0,
      "step": 6150
    },
    {
      "entropy": 1.7509271105130513,
      "epoch": 0.675729861854934,
      "grad_norm": 0.6977331638336182,
      "learning_rate": 1.588699333159722e-05,
      "loss": 1.5671,
      "mean_token_accuracy": 0.6463130315144857,
      "num_tokens": 1032974721.0,
      "step": 6151
    },
    {
      "entropy": 1.6518239478270214,
      "epoch": 0.6758397187663069,
      "grad_norm": 0.8337535262107849,
      "learning_rate": 1.5885648733279286e-05,
      "loss": 1.5285,
      "mean_token_accuracy": 0.6606726894776026,
      "num_tokens": 1033125949.0,
      "step": 6152
    },
    {
      "entropy": 1.7431319256623585,
      "epoch": 0.6759495756776798,
      "grad_norm": 0.6203035116195679,
      "learning_rate": 1.588430398033277e-05,
      "loss": 1.4083,
      "mean_token_accuracy": 0.6556287507216135,
      "num_tokens": 1033291109.0,
      "step": 6153
    },
    {
      "entropy": 1.7404470642407734,
      "epoch": 0.6760594325890528,
      "grad_norm": 0.6632646322250366,
      "learning_rate": 1.588295907280023e-05,
      "loss": 1.49,
      "mean_token_accuracy": 0.6481446127096812,
      "num_tokens": 1033508731.0,
      "step": 6154
    },
    {
      "entropy": 1.6975667675336201,
      "epoch": 0.6761692895004257,
      "grad_norm": 0.6166266202926636,
      "learning_rate": 1.588161401072424e-05,
      "loss": 1.3478,
      "mean_token_accuracy": 0.6563719709714254,
      "num_tokens": 1033700041.0,
      "step": 6155
    },
    {
      "entropy": 1.6918539802233379,
      "epoch": 0.6762791464117986,
      "grad_norm": 0.6156592965126038,
      "learning_rate": 1.5880268794147365e-05,
      "loss": 1.4967,
      "mean_token_accuracy": 0.6441917419433594,
      "num_tokens": 1033902009.0,
      "step": 6156
    },
    {
      "entropy": 1.6845496892929077,
      "epoch": 0.6763890033231715,
      "grad_norm": 0.7185717821121216,
      "learning_rate": 1.587892342311218e-05,
      "loss": 1.3168,
      "mean_token_accuracy": 0.6657861719528834,
      "num_tokens": 1034057209.0,
      "step": 6157
    },
    {
      "entropy": 1.716551125049591,
      "epoch": 0.6764988602345445,
      "grad_norm": 0.8153448104858398,
      "learning_rate": 1.587757789766127e-05,
      "loss": 1.482,
      "mean_token_accuracy": 0.6406472225983938,
      "num_tokens": 1034276379.0,
      "step": 6158
    },
    {
      "entropy": 1.6670089562733967,
      "epoch": 0.6766087171459174,
      "grad_norm": 0.6375927925109863,
      "learning_rate": 1.5876232217837216e-05,
      "loss": 1.3635,
      "mean_token_accuracy": 0.667756125330925,
      "num_tokens": 1034474837.0,
      "step": 6159
    },
    {
      "entropy": 1.762067049741745,
      "epoch": 0.6767185740572904,
      "grad_norm": 0.6941974759101868,
      "learning_rate": 1.587488638368261e-05,
      "loss": 1.4817,
      "mean_token_accuracy": 0.6408074299494425,
      "num_tokens": 1034653291.0,
      "step": 6160
    },
    {
      "entropy": 1.6927312711874645,
      "epoch": 0.6768284309686633,
      "grad_norm": 0.6574122309684753,
      "learning_rate": 1.5873540395240046e-05,
      "loss": 1.2565,
      "mean_token_accuracy": 0.67339259882768,
      "num_tokens": 1034797989.0,
      "step": 6161
    },
    {
      "entropy": 1.6968045830726624,
      "epoch": 0.6769382878800363,
      "grad_norm": 0.8542110919952393,
      "learning_rate": 1.5872194252552127e-05,
      "loss": 1.6373,
      "mean_token_accuracy": 0.6415252710382143,
      "num_tokens": 1034991775.0,
      "step": 6162
    },
    {
      "entropy": 1.6781950394312541,
      "epoch": 0.6770481447914092,
      "grad_norm": 0.6783519983291626,
      "learning_rate": 1.587084795566145e-05,
      "loss": 1.2693,
      "mean_token_accuracy": 0.6693742970625559,
      "num_tokens": 1035130150.0,
      "step": 6163
    },
    {
      "entropy": 1.6896279752254486,
      "epoch": 0.6771580017027822,
      "grad_norm": 0.5958226323127747,
      "learning_rate": 1.5869501504610636e-05,
      "loss": 1.449,
      "mean_token_accuracy": 0.6530238687992096,
      "num_tokens": 1035318883.0,
      "step": 6164
    },
    {
      "entropy": 1.7746345500151317,
      "epoch": 0.6772678586141551,
      "grad_norm": 0.7527851462364197,
      "learning_rate": 1.5868154899442293e-05,
      "loss": 1.4133,
      "mean_token_accuracy": 0.6448677480220795,
      "num_tokens": 1035489150.0,
      "step": 6165
    },
    {
      "entropy": 1.610521674156189,
      "epoch": 0.677377715525528,
      "grad_norm": 0.6777754426002502,
      "learning_rate": 1.5866808140199037e-05,
      "loss": 1.4785,
      "mean_token_accuracy": 0.65462859471639,
      "num_tokens": 1035662720.0,
      "step": 6166
    },
    {
      "entropy": 1.7118818759918213,
      "epoch": 0.6774875724369009,
      "grad_norm": 0.6027317047119141,
      "learning_rate": 1.5865461226923497e-05,
      "loss": 1.4702,
      "mean_token_accuracy": 0.6561297823985418,
      "num_tokens": 1035828628.0,
      "step": 6167
    },
    {
      "entropy": 1.6369926929473877,
      "epoch": 0.6775974293482738,
      "grad_norm": 0.707374095916748,
      "learning_rate": 1.5864114159658305e-05,
      "loss": 1.4544,
      "mean_token_accuracy": 0.6614964008331299,
      "num_tokens": 1036021623.0,
      "step": 6168
    },
    {
      "entropy": 1.6904229422410328,
      "epoch": 0.6777072862596468,
      "grad_norm": 0.6496714949607849,
      "learning_rate": 1.5862766938446092e-05,
      "loss": 1.499,
      "mean_token_accuracy": 0.6475720703601837,
      "num_tokens": 1036206904.0,
      "step": 6169
    },
    {
      "entropy": 1.6665221452713013,
      "epoch": 0.6778171431710197,
      "grad_norm": 0.6841485500335693,
      "learning_rate": 1.5861419563329493e-05,
      "loss": 1.4886,
      "mean_token_accuracy": 0.6600009699662527,
      "num_tokens": 1036450534.0,
      "step": 6170
    },
    {
      "entropy": 1.6735211809476216,
      "epoch": 0.6779270000823927,
      "grad_norm": 0.6442497968673706,
      "learning_rate": 1.586007203435115e-05,
      "loss": 1.2632,
      "mean_token_accuracy": 0.6747845361630121,
      "num_tokens": 1036623414.0,
      "step": 6171
    },
    {
      "entropy": 1.6664145290851593,
      "epoch": 0.6780368569937656,
      "grad_norm": 0.7533520460128784,
      "learning_rate": 1.585872435155373e-05,
      "loss": 1.4729,
      "mean_token_accuracy": 0.662231961886088,
      "num_tokens": 1036784462.0,
      "step": 6172
    },
    {
      "entropy": 1.7120993534723918,
      "epoch": 0.6781467139051386,
      "grad_norm": 0.6117445826530457,
      "learning_rate": 1.5857376514979866e-05,
      "loss": 1.3504,
      "mean_token_accuracy": 0.659230629603068,
      "num_tokens": 1036938244.0,
      "step": 6173
    },
    {
      "entropy": 1.7340730726718903,
      "epoch": 0.6782565708165115,
      "grad_norm": 0.7913200259208679,
      "learning_rate": 1.5856028524672227e-05,
      "loss": 1.452,
      "mean_token_accuracy": 0.668962687253952,
      "num_tokens": 1037128398.0,
      "step": 6174
    },
    {
      "entropy": 1.7015940447648366,
      "epoch": 0.6783664277278845,
      "grad_norm": 0.6943639516830444,
      "learning_rate": 1.585468038067347e-05,
      "loss": 1.5163,
      "mean_token_accuracy": 0.6409951796134313,
      "num_tokens": 1037288363.0,
      "step": 6175
    },
    {
      "entropy": 1.673763672510783,
      "epoch": 0.6784762846392574,
      "grad_norm": 0.6866292357444763,
      "learning_rate": 1.5853332083026268e-05,
      "loss": 1.3081,
      "mean_token_accuracy": 0.6622492522001266,
      "num_tokens": 1037442624.0,
      "step": 6176
    },
    {
      "entropy": 1.703792671362559,
      "epoch": 0.6785861415506304,
      "grad_norm": 0.6945456266403198,
      "learning_rate": 1.5851983631773297e-05,
      "loss": 1.4855,
      "mean_token_accuracy": 0.6414697915315628,
      "num_tokens": 1037590916.0,
      "step": 6177
    },
    {
      "entropy": 1.652319351832072,
      "epoch": 0.6786959984620032,
      "grad_norm": 0.6403668522834778,
      "learning_rate": 1.5850635026957226e-05,
      "loss": 1.5006,
      "mean_token_accuracy": 0.6437227378288904,
      "num_tokens": 1037788898.0,
      "step": 6178
    },
    {
      "entropy": 1.675025353829066,
      "epoch": 0.6788058553733762,
      "grad_norm": 0.663935124874115,
      "learning_rate": 1.5849286268620744e-05,
      "loss": 1.3069,
      "mean_token_accuracy": 0.6672319124142329,
      "num_tokens": 1037951523.0,
      "step": 6179
    },
    {
      "entropy": 1.7284078498681386,
      "epoch": 0.6789157122847491,
      "grad_norm": 0.7808162569999695,
      "learning_rate": 1.5847937356806536e-05,
      "loss": 1.4562,
      "mean_token_accuracy": 0.651724100112915,
      "num_tokens": 1038103992.0,
      "step": 6180
    },
    {
      "entropy": 1.6787553032239277,
      "epoch": 0.679025569196122,
      "grad_norm": 0.6067541837692261,
      "learning_rate": 1.584658829155729e-05,
      "loss": 1.4918,
      "mean_token_accuracy": 0.646204670270284,
      "num_tokens": 1038323458.0,
      "step": 6181
    },
    {
      "entropy": 1.6700343191623688,
      "epoch": 0.679135426107495,
      "grad_norm": 0.919571042060852,
      "learning_rate": 1.5845239072915715e-05,
      "loss": 1.3506,
      "mean_token_accuracy": 0.669276679555575,
      "num_tokens": 1038462666.0,
      "step": 6182
    },
    {
      "entropy": 1.720471332470576,
      "epoch": 0.6792452830188679,
      "grad_norm": 0.7604859471321106,
      "learning_rate": 1.5843889700924503e-05,
      "loss": 1.414,
      "mean_token_accuracy": 0.6454981962839762,
      "num_tokens": 1038631829.0,
      "step": 6183
    },
    {
      "entropy": 1.734667807817459,
      "epoch": 0.6793551399302409,
      "grad_norm": 0.7525255084037781,
      "learning_rate": 1.5842540175626368e-05,
      "loss": 1.3427,
      "mean_token_accuracy": 0.6558729112148285,
      "num_tokens": 1038806094.0,
      "step": 6184
    },
    {
      "entropy": 1.7814012865225475,
      "epoch": 0.6794649968416138,
      "grad_norm": 0.678103506565094,
      "learning_rate": 1.584119049706402e-05,
      "loss": 1.568,
      "mean_token_accuracy": 0.6203633447488149,
      "num_tokens": 1039038882.0,
      "step": 6185
    },
    {
      "entropy": 1.7217522263526917,
      "epoch": 0.6795748537529868,
      "grad_norm": 0.8400986790657043,
      "learning_rate": 1.5839840665280168e-05,
      "loss": 1.2395,
      "mean_token_accuracy": 0.6749545534451803,
      "num_tokens": 1039160977.0,
      "step": 6186
    },
    {
      "entropy": 1.76739635070165,
      "epoch": 0.6796847106643596,
      "grad_norm": 0.7183486819267273,
      "learning_rate": 1.583849068031754e-05,
      "loss": 1.3549,
      "mean_token_accuracy": 0.6573175837596258,
      "num_tokens": 1039304153.0,
      "step": 6187
    },
    {
      "entropy": 1.7237287163734436,
      "epoch": 0.6797945675757326,
      "grad_norm": 0.7184303402900696,
      "learning_rate": 1.583714054221887e-05,
      "loss": 1.2839,
      "mean_token_accuracy": 0.6642322937647501,
      "num_tokens": 1039447894.0,
      "step": 6188
    },
    {
      "entropy": 1.7578026056289673,
      "epoch": 0.6799044244871055,
      "grad_norm": 0.7254183292388916,
      "learning_rate": 1.5835790251026875e-05,
      "loss": 1.3413,
      "mean_token_accuracy": 0.6657581379016241,
      "num_tokens": 1039613902.0,
      "step": 6189
    },
    {
      "entropy": 1.7511154313882191,
      "epoch": 0.6800142813984785,
      "grad_norm": 0.6806755065917969,
      "learning_rate": 1.5834439806784302e-05,
      "loss": 1.3657,
      "mean_token_accuracy": 0.656483938296636,
      "num_tokens": 1039774043.0,
      "step": 6190
    },
    {
      "entropy": 1.7452365458011627,
      "epoch": 0.6801241383098514,
      "grad_norm": 0.654483437538147,
      "learning_rate": 1.5833089209533883e-05,
      "loss": 1.3834,
      "mean_token_accuracy": 0.6558238019545873,
      "num_tokens": 1039942032.0,
      "step": 6191
    },
    {
      "entropy": 1.7572171986103058,
      "epoch": 0.6802339952212244,
      "grad_norm": 0.6855461597442627,
      "learning_rate": 1.583173845931837e-05,
      "loss": 1.3906,
      "mean_token_accuracy": 0.6548371364672979,
      "num_tokens": 1040063994.0,
      "step": 6192
    },
    {
      "entropy": 1.6424880524476368,
      "epoch": 0.6803438521325973,
      "grad_norm": 0.6944648623466492,
      "learning_rate": 1.5830387556180513e-05,
      "loss": 1.3699,
      "mean_token_accuracy": 0.6685495773951212,
      "num_tokens": 1040204031.0,
      "step": 6193
    },
    {
      "entropy": 1.6730513870716095,
      "epoch": 0.6804537090439702,
      "grad_norm": 0.6423060894012451,
      "learning_rate": 1.5829036500163068e-05,
      "loss": 1.489,
      "mean_token_accuracy": 0.6339628795782725,
      "num_tokens": 1040432452.0,
      "step": 6194
    },
    {
      "entropy": 1.7136758367220561,
      "epoch": 0.6805635659553432,
      "grad_norm": 1.136176347732544,
      "learning_rate": 1.582768529130879e-05,
      "loss": 1.3342,
      "mean_token_accuracy": 0.667153442899386,
      "num_tokens": 1040602648.0,
      "step": 6195
    },
    {
      "entropy": 1.6480139096577961,
      "epoch": 0.6806734228667161,
      "grad_norm": 0.6092087626457214,
      "learning_rate": 1.582633392966045e-05,
      "loss": 1.4523,
      "mean_token_accuracy": 0.6621314485867819,
      "num_tokens": 1040799318.0,
      "step": 6196
    },
    {
      "entropy": 1.7159779965877533,
      "epoch": 0.6807832797780891,
      "grad_norm": 0.7131394743919373,
      "learning_rate": 1.5824982415260815e-05,
      "loss": 1.3849,
      "mean_token_accuracy": 0.6469999005397161,
      "num_tokens": 1040951208.0,
      "step": 6197
    },
    {
      "entropy": 1.6891703208287556,
      "epoch": 0.6808931366894619,
      "grad_norm": 0.6422286033630371,
      "learning_rate": 1.5823630748152663e-05,
      "loss": 1.4928,
      "mean_token_accuracy": 0.6543713063001633,
      "num_tokens": 1041111600.0,
      "step": 6198
    },
    {
      "entropy": 1.6836450199286144,
      "epoch": 0.6810029936008349,
      "grad_norm": 0.6734887361526489,
      "learning_rate": 1.582227892837877e-05,
      "loss": 1.3554,
      "mean_token_accuracy": 0.6502887507279714,
      "num_tokens": 1041265524.0,
      "step": 6199
    },
    {
      "entropy": 1.7192556262016296,
      "epoch": 0.6811128505122078,
      "grad_norm": 0.6905456781387329,
      "learning_rate": 1.582092695598192e-05,
      "loss": 1.4584,
      "mean_token_accuracy": 0.6490669349829356,
      "num_tokens": 1041441178.0,
      "step": 6200
    },
    {
      "entropy": 1.7496082484722137,
      "epoch": 0.6812227074235808,
      "grad_norm": 0.7641483545303345,
      "learning_rate": 1.5819574831004908e-05,
      "loss": 1.5886,
      "mean_token_accuracy": 0.6521731615066528,
      "num_tokens": 1041595991.0,
      "step": 6201
    },
    {
      "entropy": 1.6868942181269329,
      "epoch": 0.6813325643349537,
      "grad_norm": 0.7057383060455322,
      "learning_rate": 1.5818222553490522e-05,
      "loss": 1.5181,
      "mean_token_accuracy": 0.6546740233898163,
      "num_tokens": 1041778203.0,
      "step": 6202
    },
    {
      "entropy": 1.7335337499777477,
      "epoch": 0.6814424212463267,
      "grad_norm": 0.6150233149528503,
      "learning_rate": 1.5816870123481563e-05,
      "loss": 1.5563,
      "mean_token_accuracy": 0.6352181782325109,
      "num_tokens": 1041979155.0,
      "step": 6203
    },
    {
      "entropy": 1.7341649134953816,
      "epoch": 0.6815522781576996,
      "grad_norm": 0.6595054864883423,
      "learning_rate": 1.5815517541020832e-05,
      "loss": 1.32,
      "mean_token_accuracy": 0.6687678645054499,
      "num_tokens": 1042146615.0,
      "step": 6204
    },
    {
      "entropy": 1.7071249385674794,
      "epoch": 0.6816621350690726,
      "grad_norm": 0.6596662998199463,
      "learning_rate": 1.5814164806151146e-05,
      "loss": 1.36,
      "mean_token_accuracy": 0.6612856537103653,
      "num_tokens": 1042321366.0,
      "step": 6205
    },
    {
      "entropy": 1.6722217202186584,
      "epoch": 0.6817719919804455,
      "grad_norm": 0.7822057008743286,
      "learning_rate": 1.5812811918915313e-05,
      "loss": 1.2883,
      "mean_token_accuracy": 0.6672490139802297,
      "num_tokens": 1042459772.0,
      "step": 6206
    },
    {
      "entropy": 1.7275211314360301,
      "epoch": 0.6818818488918184,
      "grad_norm": 0.6742196679115295,
      "learning_rate": 1.581145887935615e-05,
      "loss": 1.331,
      "mean_token_accuracy": 0.6632985124985377,
      "num_tokens": 1042570398.0,
      "step": 6207
    },
    {
      "entropy": 1.6800503234068553,
      "epoch": 0.6819917058031914,
      "grad_norm": 0.6366540193557739,
      "learning_rate": 1.581010568751648e-05,
      "loss": 1.3628,
      "mean_token_accuracy": 0.6498023221890131,
      "num_tokens": 1042718102.0,
      "step": 6208
    },
    {
      "entropy": 1.7179384032885234,
      "epoch": 0.6821015627145642,
      "grad_norm": 0.6339711546897888,
      "learning_rate": 1.5808752343439133e-05,
      "loss": 1.4198,
      "mean_token_accuracy": 0.6559414863586426,
      "num_tokens": 1042906564.0,
      "step": 6209
    },
    {
      "entropy": 1.6670476098855336,
      "epoch": 0.6822114196259372,
      "grad_norm": 0.6430389881134033,
      "learning_rate": 1.5807398847166943e-05,
      "loss": 1.3518,
      "mean_token_accuracy": 0.6729106456041336,
      "num_tokens": 1043114289.0,
      "step": 6210
    },
    {
      "entropy": 1.714191863934199,
      "epoch": 0.6823212765373101,
      "grad_norm": 0.7927173376083374,
      "learning_rate": 1.5806045198742743e-05,
      "loss": 1.4358,
      "mean_token_accuracy": 0.6493388712406158,
      "num_tokens": 1043303392.0,
      "step": 6211
    },
    {
      "entropy": 1.7568532327810924,
      "epoch": 0.6824311334486831,
      "grad_norm": 0.7937549352645874,
      "learning_rate": 1.5804691398209386e-05,
      "loss": 1.3607,
      "mean_token_accuracy": 0.673745925227801,
      "num_tokens": 1043483335.0,
      "step": 6212
    },
    {
      "entropy": 1.7293648322423298,
      "epoch": 0.682540990360056,
      "grad_norm": 0.6161656975746155,
      "learning_rate": 1.5803337445609705e-05,
      "loss": 1.4712,
      "mean_token_accuracy": 0.6608046044905981,
      "num_tokens": 1043684540.0,
      "step": 6213
    },
    {
      "entropy": 1.6890058120091755,
      "epoch": 0.682650847271429,
      "grad_norm": 0.7689279913902283,
      "learning_rate": 1.5801983340986556e-05,
      "loss": 1.3705,
      "mean_token_accuracy": 0.6688697884480158,
      "num_tokens": 1043864929.0,
      "step": 6214
    },
    {
      "entropy": 1.6985827287038167,
      "epoch": 0.6827607041828019,
      "grad_norm": 0.7502182126045227,
      "learning_rate": 1.58006290843828e-05,
      "loss": 1.4028,
      "mean_token_accuracy": 0.6728604584932327,
      "num_tokens": 1044030942.0,
      "step": 6215
    },
    {
      "entropy": 1.7380037407080333,
      "epoch": 0.6828705610941749,
      "grad_norm": 0.7070371508598328,
      "learning_rate": 1.57992746758413e-05,
      "loss": 1.3499,
      "mean_token_accuracy": 0.6579258392254511,
      "num_tokens": 1044225669.0,
      "step": 6216
    },
    {
      "entropy": 1.7195264895757039,
      "epoch": 0.6829804180055478,
      "grad_norm": 0.6869642734527588,
      "learning_rate": 1.5797920115404913e-05,
      "loss": 1.5184,
      "mean_token_accuracy": 0.639784961938858,
      "num_tokens": 1044399612.0,
      "step": 6217
    },
    {
      "entropy": 1.7750992178916931,
      "epoch": 0.6830902749169208,
      "grad_norm": 0.7000865936279297,
      "learning_rate": 1.579656540311652e-05,
      "loss": 1.5207,
      "mean_token_accuracy": 0.6384162952502569,
      "num_tokens": 1044622029.0,
      "step": 6218
    },
    {
      "entropy": 1.7211995124816895,
      "epoch": 0.6832001318282936,
      "grad_norm": 0.6937360763549805,
      "learning_rate": 1.5795210539018996e-05,
      "loss": 1.3323,
      "mean_token_accuracy": 0.6666232148806254,
      "num_tokens": 1044760684.0,
      "step": 6219
    },
    {
      "entropy": 1.723791241645813,
      "epoch": 0.6833099887396665,
      "grad_norm": 0.6360770463943481,
      "learning_rate": 1.5793855523155214e-05,
      "loss": 1.4283,
      "mean_token_accuracy": 0.6450154383977255,
      "num_tokens": 1044965265.0,
      "step": 6220
    },
    {
      "entropy": 1.6446198523044586,
      "epoch": 0.6834198456510395,
      "grad_norm": 0.7213537096977234,
      "learning_rate": 1.5792500355568068e-05,
      "loss": 1.2592,
      "mean_token_accuracy": 0.683139756321907,
      "num_tokens": 1045099732.0,
      "step": 6221
    },
    {
      "entropy": 1.6635667781035106,
      "epoch": 0.6835297025624124,
      "grad_norm": 0.7380548119544983,
      "learning_rate": 1.5791145036300442e-05,
      "loss": 1.4444,
      "mean_token_accuracy": 0.6551113228003184,
      "num_tokens": 1045308158.0,
      "step": 6222
    },
    {
      "entropy": 1.6907614171504974,
      "epoch": 0.6836395594737854,
      "grad_norm": 0.7286980748176575,
      "learning_rate": 1.578978956539524e-05,
      "loss": 1.4878,
      "mean_token_accuracy": 0.6524398873249689,
      "num_tokens": 1045510413.0,
      "step": 6223
    },
    {
      "entropy": 1.662454883257548,
      "epoch": 0.6837494163851583,
      "grad_norm": 0.6473574042320251,
      "learning_rate": 1.5788433942895355e-05,
      "loss": 1.2923,
      "mean_token_accuracy": 0.6852824489275614,
      "num_tokens": 1045657586.0,
      "step": 6224
    },
    {
      "entropy": 1.670077880223592,
      "epoch": 0.6838592732965313,
      "grad_norm": 0.7075192332267761,
      "learning_rate": 1.5787078168843692e-05,
      "loss": 1.2946,
      "mean_token_accuracy": 0.6709181269009908,
      "num_tokens": 1045801180.0,
      "step": 6225
    },
    {
      "entropy": 1.6907998820145924,
      "epoch": 0.6839691302079042,
      "grad_norm": 0.8029499053955078,
      "learning_rate": 1.578572224328316e-05,
      "loss": 1.5165,
      "mean_token_accuracy": 0.6446396013100942,
      "num_tokens": 1046004096.0,
      "step": 6226
    },
    {
      "entropy": 1.6825261414051056,
      "epoch": 0.6840789871192772,
      "grad_norm": 0.6166555285453796,
      "learning_rate": 1.578436616625668e-05,
      "loss": 1.4492,
      "mean_token_accuracy": 0.6457721889019012,
      "num_tokens": 1046213155.0,
      "step": 6227
    },
    {
      "entropy": 1.6593104998270671,
      "epoch": 0.6841888440306501,
      "grad_norm": 0.6207210421562195,
      "learning_rate": 1.5783009937807163e-05,
      "loss": 1.438,
      "mean_token_accuracy": 0.64504507680734,
      "num_tokens": 1046418954.0,
      "step": 6228
    },
    {
      "entropy": 1.6873585283756256,
      "epoch": 0.684298700942023,
      "grad_norm": 0.7427178621292114,
      "learning_rate": 1.578165355797754e-05,
      "loss": 1.414,
      "mean_token_accuracy": 0.6532572110493978,
      "num_tokens": 1046565869.0,
      "step": 6229
    },
    {
      "entropy": 1.7066354652245839,
      "epoch": 0.6844085578533959,
      "grad_norm": 0.6317359209060669,
      "learning_rate": 1.5780297026810735e-05,
      "loss": 1.3242,
      "mean_token_accuracy": 0.6639684538046519,
      "num_tokens": 1046700589.0,
      "step": 6230
    },
    {
      "entropy": 1.677226612965266,
      "epoch": 0.6845184147647689,
      "grad_norm": 0.6120962500572205,
      "learning_rate": 1.5778940344349683e-05,
      "loss": 1.369,
      "mean_token_accuracy": 0.6590713312228521,
      "num_tokens": 1046882958.0,
      "step": 6231
    },
    {
      "entropy": 1.7622087995211284,
      "epoch": 0.6846282716761418,
      "grad_norm": 0.7370443940162659,
      "learning_rate": 1.5777583510637322e-05,
      "loss": 1.4434,
      "mean_token_accuracy": 0.6658334483702978,
      "num_tokens": 1047045020.0,
      "step": 6232
    },
    {
      "entropy": 1.6845203638076782,
      "epoch": 0.6847381285875148,
      "grad_norm": 0.7158510088920593,
      "learning_rate": 1.5776226525716597e-05,
      "loss": 1.5932,
      "mean_token_accuracy": 0.6466062217950821,
      "num_tokens": 1047231565.0,
      "step": 6233
    },
    {
      "entropy": 1.679573267698288,
      "epoch": 0.6848479854988877,
      "grad_norm": 0.6586665511131287,
      "learning_rate": 1.5774869389630452e-05,
      "loss": 1.4108,
      "mean_token_accuracy": 0.6435726036628088,
      "num_tokens": 1047446628.0,
      "step": 6234
    },
    {
      "entropy": 1.7317407031853993,
      "epoch": 0.6849578424102606,
      "grad_norm": 0.7508777976036072,
      "learning_rate": 1.5773512102421845e-05,
      "loss": 1.2569,
      "mean_token_accuracy": 0.6819585313399633,
      "num_tokens": 1047551424.0,
      "step": 6235
    },
    {
      "entropy": 1.718717743953069,
      "epoch": 0.6850676993216336,
      "grad_norm": 0.6454728841781616,
      "learning_rate": 1.5772154664133728e-05,
      "loss": 1.3644,
      "mean_token_accuracy": 0.6561121046543121,
      "num_tokens": 1047686224.0,
      "step": 6236
    },
    {
      "entropy": 1.662040372689565,
      "epoch": 0.6851775562330065,
      "grad_norm": 0.7368992567062378,
      "learning_rate": 1.5770797074809072e-05,
      "loss": 1.3664,
      "mean_token_accuracy": 0.6641696294148763,
      "num_tokens": 1047865517.0,
      "step": 6237
    },
    {
      "entropy": 1.6964517335096996,
      "epoch": 0.6852874131443795,
      "grad_norm": 0.7247259020805359,
      "learning_rate": 1.5769439334490836e-05,
      "loss": 1.4358,
      "mean_token_accuracy": 0.6385401288668314,
      "num_tokens": 1048103495.0,
      "step": 6238
    },
    {
      "entropy": 1.6373733182748158,
      "epoch": 0.6853972700557524,
      "grad_norm": 0.664681613445282,
      "learning_rate": 1.576808144322199e-05,
      "loss": 1.5413,
      "mean_token_accuracy": 0.6597782919804255,
      "num_tokens": 1048314364.0,
      "step": 6239
    },
    {
      "entropy": 1.689589689175288,
      "epoch": 0.6855071269671253,
      "grad_norm": 0.7749432921409607,
      "learning_rate": 1.576672340104552e-05,
      "loss": 1.331,
      "mean_token_accuracy": 0.6749097357193629,
      "num_tokens": 1048518232.0,
      "step": 6240
    },
    {
      "entropy": 1.64166193207105,
      "epoch": 0.6856169838784982,
      "grad_norm": 0.6244519352912903,
      "learning_rate": 1.57653652080044e-05,
      "loss": 1.4521,
      "mean_token_accuracy": 0.64791539311409,
      "num_tokens": 1048744637.0,
      "step": 6241
    },
    {
      "entropy": 1.7174479762713115,
      "epoch": 0.6857268407898712,
      "grad_norm": 0.6479034423828125,
      "learning_rate": 1.576400686414162e-05,
      "loss": 1.2893,
      "mean_token_accuracy": 0.6633307288090388,
      "num_tokens": 1048870167.0,
      "step": 6242
    },
    {
      "entropy": 1.6295473476250966,
      "epoch": 0.6858366977012441,
      "grad_norm": 0.6615036725997925,
      "learning_rate": 1.5762648369500168e-05,
      "loss": 1.2225,
      "mean_token_accuracy": 0.6706995218992233,
      "num_tokens": 1049004380.0,
      "step": 6243
    },
    {
      "entropy": 1.6601495742797852,
      "epoch": 0.6859465546126171,
      "grad_norm": 0.6963624358177185,
      "learning_rate": 1.576128972412304e-05,
      "loss": 1.4818,
      "mean_token_accuracy": 0.6445038865009943,
      "num_tokens": 1049221111.0,
      "step": 6244
    },
    {
      "entropy": 1.740762710571289,
      "epoch": 0.68605641152399,
      "grad_norm": 0.746908962726593,
      "learning_rate": 1.575993092805324e-05,
      "loss": 1.3535,
      "mean_token_accuracy": 0.6617808093627294,
      "num_tokens": 1049354467.0,
      "step": 6245
    },
    {
      "entropy": 1.7130144536495209,
      "epoch": 0.686166268435363,
      "grad_norm": 0.6983469724655151,
      "learning_rate": 1.575857198133377e-05,
      "loss": 1.3761,
      "mean_token_accuracy": 0.6857681721448898,
      "num_tokens": 1049515088.0,
      "step": 6246
    },
    {
      "entropy": 1.6818876961867015,
      "epoch": 0.6862761253467359,
      "grad_norm": 0.6924529671669006,
      "learning_rate": 1.575721288400764e-05,
      "loss": 1.3247,
      "mean_token_accuracy": 0.661658505598704,
      "num_tokens": 1049683399.0,
      "step": 6247
    },
    {
      "entropy": 1.683126876751582,
      "epoch": 0.6863859822581088,
      "grad_norm": 0.7934529185295105,
      "learning_rate": 1.5755853636117868e-05,
      "loss": 1.27,
      "mean_token_accuracy": 0.6863173047701517,
      "num_tokens": 1049839321.0,
      "step": 6248
    },
    {
      "entropy": 1.7363257110118866,
      "epoch": 0.6864958391694818,
      "grad_norm": 0.8478215932846069,
      "learning_rate": 1.575449423770747e-05,
      "loss": 1.4775,
      "mean_token_accuracy": 0.641467904051145,
      "num_tokens": 1050004112.0,
      "step": 6249
    },
    {
      "entropy": 1.7177755236625671,
      "epoch": 0.6866056960808546,
      "grad_norm": 0.7801303863525391,
      "learning_rate": 1.575313468881947e-05,
      "loss": 1.2044,
      "mean_token_accuracy": 0.6855588108301163,
      "num_tokens": 1050126993.0,
      "step": 6250
    },
    {
      "entropy": 1.6946475009123485,
      "epoch": 0.6867155529922276,
      "grad_norm": 0.6409901976585388,
      "learning_rate": 1.5751774989496905e-05,
      "loss": 1.4604,
      "mean_token_accuracy": 0.6573443065087,
      "num_tokens": 1050290667.0,
      "step": 6251
    },
    {
      "entropy": 1.7695001463095348,
      "epoch": 0.6868254099036005,
      "grad_norm": 0.8223657608032227,
      "learning_rate": 1.5750415139782796e-05,
      "loss": 1.3509,
      "mean_token_accuracy": 0.661173606912295,
      "num_tokens": 1050391272.0,
      "step": 6252
    },
    {
      "entropy": 1.7316470444202423,
      "epoch": 0.6869352668149735,
      "grad_norm": 0.6836245656013489,
      "learning_rate": 1.5749055139720194e-05,
      "loss": 1.2609,
      "mean_token_accuracy": 0.6763073106606802,
      "num_tokens": 1050517210.0,
      "step": 6253
    },
    {
      "entropy": 1.7469671567281086,
      "epoch": 0.6870451237263464,
      "grad_norm": 0.7463729381561279,
      "learning_rate": 1.5747694989352133e-05,
      "loss": 1.3966,
      "mean_token_accuracy": 0.650151307384173,
      "num_tokens": 1050692998.0,
      "step": 6254
    },
    {
      "entropy": 1.6787622570991516,
      "epoch": 0.6871549806377194,
      "grad_norm": 0.6898899078369141,
      "learning_rate": 1.5746334688721668e-05,
      "loss": 1.4101,
      "mean_token_accuracy": 0.6534204135338465,
      "num_tokens": 1050859750.0,
      "step": 6255
    },
    {
      "entropy": 1.677261749903361,
      "epoch": 0.6872648375490923,
      "grad_norm": 0.6710191369056702,
      "learning_rate": 1.5744974237871844e-05,
      "loss": 1.4762,
      "mean_token_accuracy": 0.6464169124762217,
      "num_tokens": 1051093727.0,
      "step": 6256
    },
    {
      "entropy": 1.6988216042518616,
      "epoch": 0.6873746944604653,
      "grad_norm": 0.6617063879966736,
      "learning_rate": 1.5743613636845728e-05,
      "loss": 1.4268,
      "mean_token_accuracy": 0.6438167144854864,
      "num_tokens": 1051229009.0,
      "step": 6257
    },
    {
      "entropy": 1.6750045617421467,
      "epoch": 0.6874845513718382,
      "grad_norm": 0.83284592628479,
      "learning_rate": 1.5742252885686376e-05,
      "loss": 1.3649,
      "mean_token_accuracy": 0.6614518413941065,
      "num_tokens": 1051365725.0,
      "step": 6258
    },
    {
      "entropy": 1.7287048399448395,
      "epoch": 0.6875944082832112,
      "grad_norm": 0.7290322780609131,
      "learning_rate": 1.574089198443686e-05,
      "loss": 1.4128,
      "mean_token_accuracy": 0.6501226375500361,
      "num_tokens": 1051502305.0,
      "step": 6259
    },
    {
      "entropy": 1.6979427337646484,
      "epoch": 0.687704265194584,
      "grad_norm": 0.8345046043395996,
      "learning_rate": 1.5739530933140246e-05,
      "loss": 1.3527,
      "mean_token_accuracy": 0.6696512003739675,
      "num_tokens": 1051651829.0,
      "step": 6260
    },
    {
      "entropy": 1.7011751234531403,
      "epoch": 0.6878141221059569,
      "grad_norm": 0.6528536677360535,
      "learning_rate": 1.5738169731839614e-05,
      "loss": 1.49,
      "mean_token_accuracy": 0.6397085040807724,
      "num_tokens": 1051851383.0,
      "step": 6261
    },
    {
      "entropy": 1.6753086646397908,
      "epoch": 0.6879239790173299,
      "grad_norm": 0.7235574126243591,
      "learning_rate": 1.5736808380578046e-05,
      "loss": 1.262,
      "mean_token_accuracy": 0.6736620018879572,
      "num_tokens": 1051992386.0,
      "step": 6262
    },
    {
      "entropy": 1.710617204507192,
      "epoch": 0.6880338359287028,
      "grad_norm": 0.6896214485168457,
      "learning_rate": 1.5735446879398623e-05,
      "loss": 1.3153,
      "mean_token_accuracy": 0.6659458925326666,
      "num_tokens": 1052110869.0,
      "step": 6263
    },
    {
      "entropy": 1.7205885648727417,
      "epoch": 0.6881436928400758,
      "grad_norm": 0.7014085650444031,
      "learning_rate": 1.5734085228344444e-05,
      "loss": 1.5599,
      "mean_token_accuracy": 0.6437405745188395,
      "num_tokens": 1052279865.0,
      "step": 6264
    },
    {
      "entropy": 1.7538027067979176,
      "epoch": 0.6882535497514487,
      "grad_norm": 0.7048670053482056,
      "learning_rate": 1.57327234274586e-05,
      "loss": 1.4151,
      "mean_token_accuracy": 0.6546515574057897,
      "num_tokens": 1052427858.0,
      "step": 6265
    },
    {
      "entropy": 1.7071273426214855,
      "epoch": 0.6883634066628217,
      "grad_norm": 0.7168692350387573,
      "learning_rate": 1.5731361476784194e-05,
      "loss": 1.4215,
      "mean_token_accuracy": 0.6494481960932413,
      "num_tokens": 1052601924.0,
      "step": 6266
    },
    {
      "entropy": 1.7125795582930248,
      "epoch": 0.6884732635741946,
      "grad_norm": 0.9502230882644653,
      "learning_rate": 1.5729999376364325e-05,
      "loss": 1.4322,
      "mean_token_accuracy": 0.6579029063383738,
      "num_tokens": 1052754664.0,
      "step": 6267
    },
    {
      "entropy": 1.7782972554365795,
      "epoch": 0.6885831204855676,
      "grad_norm": 0.7288692593574524,
      "learning_rate": 1.572863712624211e-05,
      "loss": 1.4447,
      "mean_token_accuracy": 0.6494678606589636,
      "num_tokens": 1052874157.0,
      "step": 6268
    },
    {
      "entropy": 1.762984275817871,
      "epoch": 0.6886929773969405,
      "grad_norm": 0.8050958514213562,
      "learning_rate": 1.5727274726460663e-05,
      "loss": 1.3848,
      "mean_token_accuracy": 0.6562901983658472,
      "num_tokens": 1053025611.0,
      "step": 6269
    },
    {
      "entropy": 1.7107179462909698,
      "epoch": 0.6888028343083135,
      "grad_norm": 0.6803024411201477,
      "learning_rate": 1.57259121770631e-05,
      "loss": 1.4613,
      "mean_token_accuracy": 0.6524020483096441,
      "num_tokens": 1053217911.0,
      "step": 6270
    },
    {
      "entropy": 1.7233806550502777,
      "epoch": 0.6889126912196863,
      "grad_norm": 0.811576783657074,
      "learning_rate": 1.5724549478092544e-05,
      "loss": 1.446,
      "mean_token_accuracy": 0.6530528217554092,
      "num_tokens": 1053439531.0,
      "step": 6271
    },
    {
      "entropy": 1.7882909178733826,
      "epoch": 0.6890225481310593,
      "grad_norm": 1.5311130285263062,
      "learning_rate": 1.572318662959213e-05,
      "loss": 1.5377,
      "mean_token_accuracy": 0.6330806364615759,
      "num_tokens": 1053607774.0,
      "step": 6272
    },
    {
      "entropy": 1.714803675810496,
      "epoch": 0.6891324050424322,
      "grad_norm": 0.6682481169700623,
      "learning_rate": 1.572182363160498e-05,
      "loss": 1.4491,
      "mean_token_accuracy": 0.6306456079085668,
      "num_tokens": 1053808448.0,
      "step": 6273
    },
    {
      "entropy": 1.7131713926792145,
      "epoch": 0.6892422619538052,
      "grad_norm": 0.6053488254547119,
      "learning_rate": 1.5720460484174248e-05,
      "loss": 1.3343,
      "mean_token_accuracy": 0.6529037654399872,
      "num_tokens": 1053985060.0,
      "step": 6274
    },
    {
      "entropy": 1.7150470713774364,
      "epoch": 0.6893521188651781,
      "grad_norm": 0.5887476801872253,
      "learning_rate": 1.571909718734306e-05,
      "loss": 1.4858,
      "mean_token_accuracy": 0.638887827595075,
      "num_tokens": 1054203107.0,
      "step": 6275
    },
    {
      "entropy": 1.6366633176803589,
      "epoch": 0.689461975776551,
      "grad_norm": 0.7320172786712646,
      "learning_rate": 1.5717733741154578e-05,
      "loss": 1.3864,
      "mean_token_accuracy": 0.6679045160611471,
      "num_tokens": 1054457206.0,
      "step": 6276
    },
    {
      "entropy": 1.7303629020849864,
      "epoch": 0.689571832687924,
      "grad_norm": 0.7379525303840637,
      "learning_rate": 1.5716370145651952e-05,
      "loss": 1.2187,
      "mean_token_accuracy": 0.6834086825450262,
      "num_tokens": 1054595268.0,
      "step": 6277
    },
    {
      "entropy": 1.688062181075414,
      "epoch": 0.6896816895992969,
      "grad_norm": 0.620086669921875,
      "learning_rate": 1.571500640087833e-05,
      "loss": 1.4843,
      "mean_token_accuracy": 0.6472740769386292,
      "num_tokens": 1054820248.0,
      "step": 6278
    },
    {
      "entropy": 1.6793719629446666,
      "epoch": 0.6897915465106699,
      "grad_norm": 0.7746139764785767,
      "learning_rate": 1.5713642506876882e-05,
      "loss": 1.3796,
      "mean_token_accuracy": 0.6590060293674469,
      "num_tokens": 1054990280.0,
      "step": 6279
    },
    {
      "entropy": 1.7257548173268635,
      "epoch": 0.6899014034220428,
      "grad_norm": 0.5978219509124756,
      "learning_rate": 1.5712278463690774e-05,
      "loss": 1.5817,
      "mean_token_accuracy": 0.6256022801001867,
      "num_tokens": 1055207569.0,
      "step": 6280
    },
    {
      "entropy": 1.7200091977914174,
      "epoch": 0.6900112603334158,
      "grad_norm": 0.6994427442550659,
      "learning_rate": 1.5710914271363177e-05,
      "loss": 1.2819,
      "mean_token_accuracy": 0.6736390839020411,
      "num_tokens": 1055332726.0,
      "step": 6281
    },
    {
      "entropy": 1.6921034355958302,
      "epoch": 0.6901211172447886,
      "grad_norm": 0.6004651784896851,
      "learning_rate": 1.5709549929937263e-05,
      "loss": 1.355,
      "mean_token_accuracy": 0.6671501100063324,
      "num_tokens": 1055490790.0,
      "step": 6282
    },
    {
      "entropy": 1.683781623840332,
      "epoch": 0.6902309741561616,
      "grad_norm": 0.7334898114204407,
      "learning_rate": 1.5708185439456216e-05,
      "loss": 1.3117,
      "mean_token_accuracy": 0.6710262993971506,
      "num_tokens": 1055607208.0,
      "step": 6283
    },
    {
      "entropy": 1.6216355661551158,
      "epoch": 0.6903408310675345,
      "grad_norm": 0.6549416780471802,
      "learning_rate": 1.570682079996322e-05,
      "loss": 1.3981,
      "mean_token_accuracy": 0.6610698650280634,
      "num_tokens": 1055755985.0,
      "step": 6284
    },
    {
      "entropy": 1.6326968371868134,
      "epoch": 0.6904506879789075,
      "grad_norm": 0.7157843708992004,
      "learning_rate": 1.570545601150147e-05,
      "loss": 1.4508,
      "mean_token_accuracy": 0.6708127508560816,
      "num_tokens": 1055946453.0,
      "step": 6285
    },
    {
      "entropy": 1.7335582971572876,
      "epoch": 0.6905605448902804,
      "grad_norm": 0.8362358212471008,
      "learning_rate": 1.570409107411416e-05,
      "loss": 1.3361,
      "mean_token_accuracy": 0.654664600888888,
      "num_tokens": 1056076709.0,
      "step": 6286
    },
    {
      "entropy": 1.7172273596127827,
      "epoch": 0.6906704018016534,
      "grad_norm": 0.6369051933288574,
      "learning_rate": 1.5702725987844483e-05,
      "loss": 1.4074,
      "mean_token_accuracy": 0.6473657737175623,
      "num_tokens": 1056239339.0,
      "step": 6287
    },
    {
      "entropy": 1.7123624682426453,
      "epoch": 0.6907802587130263,
      "grad_norm": 0.7884210348129272,
      "learning_rate": 1.5701360752735648e-05,
      "loss": 1.3425,
      "mean_token_accuracy": 0.6655222127834955,
      "num_tokens": 1056418414.0,
      "step": 6288
    },
    {
      "entropy": 1.6548800269762676,
      "epoch": 0.6908901156243992,
      "grad_norm": 0.5178220868110657,
      "learning_rate": 1.5699995368830866e-05,
      "loss": 1.3778,
      "mean_token_accuracy": 0.6649152934551239,
      "num_tokens": 1056649643.0,
      "step": 6289
    },
    {
      "entropy": 1.7105699678262074,
      "epoch": 0.6909999725357722,
      "grad_norm": 0.7892933487892151,
      "learning_rate": 1.5698629836173346e-05,
      "loss": 1.4091,
      "mean_token_accuracy": 0.6649167090654373,
      "num_tokens": 1056777360.0,
      "step": 6290
    },
    {
      "entropy": 1.7512224813302357,
      "epoch": 0.691109829447145,
      "grad_norm": 0.893334686756134,
      "learning_rate": 1.5697264154806307e-05,
      "loss": 1.4202,
      "mean_token_accuracy": 0.6645146906375885,
      "num_tokens": 1056975900.0,
      "step": 6291
    },
    {
      "entropy": 1.7694937487443287,
      "epoch": 0.691219686358518,
      "grad_norm": 0.6863387823104858,
      "learning_rate": 1.569589832477298e-05,
      "loss": 1.3598,
      "mean_token_accuracy": 0.653782253464063,
      "num_tokens": 1057120050.0,
      "step": 6292
    },
    {
      "entropy": 1.7361672918001811,
      "epoch": 0.6913295432698909,
      "grad_norm": 0.8135111927986145,
      "learning_rate": 1.5694532346116583e-05,
      "loss": 1.4873,
      "mean_token_accuracy": 0.6366982012987137,
      "num_tokens": 1057309306.0,
      "step": 6293
    },
    {
      "entropy": 1.6364782353242238,
      "epoch": 0.6914394001812639,
      "grad_norm": 0.6994947195053101,
      "learning_rate": 1.5693166218880352e-05,
      "loss": 1.3949,
      "mean_token_accuracy": 0.6615471492211024,
      "num_tokens": 1057484747.0,
      "step": 6294
    },
    {
      "entropy": 1.683074374993642,
      "epoch": 0.6915492570926368,
      "grad_norm": 0.6820729970932007,
      "learning_rate": 1.5691799943107525e-05,
      "loss": 1.3869,
      "mean_token_accuracy": 0.6594087183475494,
      "num_tokens": 1057653783.0,
      "step": 6295
    },
    {
      "entropy": 1.7118146419525146,
      "epoch": 0.6916591140040098,
      "grad_norm": 0.6727958917617798,
      "learning_rate": 1.569043351884135e-05,
      "loss": 1.3533,
      "mean_token_accuracy": 0.6669302682081858,
      "num_tokens": 1057793762.0,
      "step": 6296
    },
    {
      "entropy": 1.7263545592625935,
      "epoch": 0.6917689709153827,
      "grad_norm": 0.6792665123939514,
      "learning_rate": 1.568906694612506e-05,
      "loss": 1.4398,
      "mean_token_accuracy": 0.6504052480061849,
      "num_tokens": 1057966395.0,
      "step": 6297
    },
    {
      "entropy": 1.6999529401461284,
      "epoch": 0.6918788278267557,
      "grad_norm": 0.689646303653717,
      "learning_rate": 1.5687700225001918e-05,
      "loss": 1.227,
      "mean_token_accuracy": 0.6813174386819204,
      "num_tokens": 1058117252.0,
      "step": 6298
    },
    {
      "entropy": 1.6544790466626484,
      "epoch": 0.6919886847381286,
      "grad_norm": 0.7752074003219604,
      "learning_rate": 1.5686333355515174e-05,
      "loss": 1.3064,
      "mean_token_accuracy": 0.6794366339842478,
      "num_tokens": 1058273397.0,
      "step": 6299
    },
    {
      "entropy": 1.655057470003764,
      "epoch": 0.6920985416495016,
      "grad_norm": 0.6356586217880249,
      "learning_rate": 1.5684966337708092e-05,
      "loss": 1.3602,
      "mean_token_accuracy": 0.6644938240448633,
      "num_tokens": 1058443764.0,
      "step": 6300
    },
    {
      "entropy": 1.7445928851763408,
      "epoch": 0.6922083985608745,
      "grad_norm": 0.6769724488258362,
      "learning_rate": 1.568359917162394e-05,
      "loss": 1.3361,
      "mean_token_accuracy": 0.6576990932226181,
      "num_tokens": 1058589677.0,
      "step": 6301
    },
    {
      "entropy": 1.7161558667818706,
      "epoch": 0.6923182554722473,
      "grad_norm": 0.5942689180374146,
      "learning_rate": 1.5682231857305978e-05,
      "loss": 1.439,
      "mean_token_accuracy": 0.6340092917283376,
      "num_tokens": 1058821342.0,
      "step": 6302
    },
    {
      "entropy": 1.6530260841051738,
      "epoch": 0.6924281123836203,
      "grad_norm": 0.7436016798019409,
      "learning_rate": 1.5680864394797492e-05,
      "loss": 1.2778,
      "mean_token_accuracy": 0.6772982229789098,
      "num_tokens": 1058986237.0,
      "step": 6303
    },
    {
      "entropy": 1.7283445000648499,
      "epoch": 0.6925379692949932,
      "grad_norm": 0.588995635509491,
      "learning_rate": 1.5679496784141757e-05,
      "loss": 1.4262,
      "mean_token_accuracy": 0.6482555766900381,
      "num_tokens": 1059187307.0,
      "step": 6304
    },
    {
      "entropy": 1.6520406504472096,
      "epoch": 0.6926478262063662,
      "grad_norm": 0.5398334860801697,
      "learning_rate": 1.5678129025382055e-05,
      "loss": 1.3553,
      "mean_token_accuracy": 0.6467950393756231,
      "num_tokens": 1059396490.0,
      "step": 6305
    },
    {
      "entropy": 1.739362935225169,
      "epoch": 0.6927576831177391,
      "grad_norm": 0.7606070041656494,
      "learning_rate": 1.5676761118561677e-05,
      "loss": 1.2727,
      "mean_token_accuracy": 0.6647885292768478,
      "num_tokens": 1059501468.0,
      "step": 6306
    },
    {
      "entropy": 1.7537157237529755,
      "epoch": 0.6928675400291121,
      "grad_norm": 0.7173927426338196,
      "learning_rate": 1.567539306372392e-05,
      "loss": 1.3187,
      "mean_token_accuracy": 0.664209653933843,
      "num_tokens": 1059610640.0,
      "step": 6307
    },
    {
      "entropy": 1.699594388405482,
      "epoch": 0.692977396940485,
      "grad_norm": 0.6624416708946228,
      "learning_rate": 1.5674024860912082e-05,
      "loss": 1.3283,
      "mean_token_accuracy": 0.6614074061314265,
      "num_tokens": 1059746715.0,
      "step": 6308
    },
    {
      "entropy": 1.6853571037451427,
      "epoch": 0.693087253851858,
      "grad_norm": 0.6250735521316528,
      "learning_rate": 1.5672656510169458e-05,
      "loss": 1.4415,
      "mean_token_accuracy": 0.6549326082070669,
      "num_tokens": 1059928735.0,
      "step": 6309
    },
    {
      "entropy": 1.7501811683177948,
      "epoch": 0.6931971107632309,
      "grad_norm": 0.6659023761749268,
      "learning_rate": 1.5671288011539364e-05,
      "loss": 1.4479,
      "mean_token_accuracy": 0.6498491813739141,
      "num_tokens": 1060079413.0,
      "step": 6310
    },
    {
      "entropy": 1.6326484680175781,
      "epoch": 0.6933069676746039,
      "grad_norm": 0.5456228256225586,
      "learning_rate": 1.5669919365065108e-05,
      "loss": 1.4142,
      "mean_token_accuracy": 0.6575722495714823,
      "num_tokens": 1060259112.0,
      "step": 6311
    },
    {
      "entropy": 1.615660309791565,
      "epoch": 0.6934168245859768,
      "grad_norm": 0.8097618222236633,
      "learning_rate": 1.5668550570790005e-05,
      "loss": 1.5787,
      "mean_token_accuracy": 0.6560301234324774,
      "num_tokens": 1060428273.0,
      "step": 6312
    },
    {
      "entropy": 1.7176474730173747,
      "epoch": 0.6935266814973498,
      "grad_norm": 0.8573592901229858,
      "learning_rate": 1.5667181628757388e-05,
      "loss": 1.3698,
      "mean_token_accuracy": 0.6745945662260056,
      "num_tokens": 1060607857.0,
      "step": 6313
    },
    {
      "entropy": 1.6333107848962147,
      "epoch": 0.6936365384087226,
      "grad_norm": 0.6240670680999756,
      "learning_rate": 1.566581253901057e-05,
      "loss": 1.2348,
      "mean_token_accuracy": 0.6824917644262314,
      "num_tokens": 1060749584.0,
      "step": 6314
    },
    {
      "entropy": 1.7455682655175526,
      "epoch": 0.6937463953200955,
      "grad_norm": 0.6654044985771179,
      "learning_rate": 1.5664443301592887e-05,
      "loss": 1.4652,
      "mean_token_accuracy": 0.6368297090133032,
      "num_tokens": 1060897523.0,
      "step": 6315
    },
    {
      "entropy": 1.7202888826529186,
      "epoch": 0.6938562522314685,
      "grad_norm": 0.6972677707672119,
      "learning_rate": 1.5663073916547676e-05,
      "loss": 1.3784,
      "mean_token_accuracy": 0.6670991877714793,
      "num_tokens": 1061067739.0,
      "step": 6316
    },
    {
      "entropy": 1.6854785978794098,
      "epoch": 0.6939661091428414,
      "grad_norm": 1.7558538913726807,
      "learning_rate": 1.5661704383918277e-05,
      "loss": 1.4532,
      "mean_token_accuracy": 0.6418699026107788,
      "num_tokens": 1061300533.0,
      "step": 6317
    },
    {
      "entropy": 1.6643561919530232,
      "epoch": 0.6940759660542144,
      "grad_norm": 0.7051677107810974,
      "learning_rate": 1.5660334703748037e-05,
      "loss": 1.3727,
      "mean_token_accuracy": 0.6603148529926935,
      "num_tokens": 1061439950.0,
      "step": 6318
    },
    {
      "entropy": 1.7029017508029938,
      "epoch": 0.6941858229655873,
      "grad_norm": 0.7083843946456909,
      "learning_rate": 1.5658964876080304e-05,
      "loss": 1.3186,
      "mean_token_accuracy": 0.6736210584640503,
      "num_tokens": 1061611747.0,
      "step": 6319
    },
    {
      "entropy": 1.6688139041264851,
      "epoch": 0.6942956798769603,
      "grad_norm": 0.6067943572998047,
      "learning_rate": 1.565759490095843e-05,
      "loss": 1.5312,
      "mean_token_accuracy": 0.6481608798106512,
      "num_tokens": 1061835071.0,
      "step": 6320
    },
    {
      "entropy": 1.7166197299957275,
      "epoch": 0.6944055367883332,
      "grad_norm": 0.6531895995140076,
      "learning_rate": 1.5656224778425776e-05,
      "loss": 1.4703,
      "mean_token_accuracy": 0.6500556915998459,
      "num_tokens": 1062056631.0,
      "step": 6321
    },
    {
      "entropy": 1.6937325994173686,
      "epoch": 0.6945153936997062,
      "grad_norm": 0.6659431457519531,
      "learning_rate": 1.565485450852571e-05,
      "loss": 1.5078,
      "mean_token_accuracy": 0.6421338419119517,
      "num_tokens": 1062239900.0,
      "step": 6322
    },
    {
      "entropy": 1.7239821255207062,
      "epoch": 0.694625250611079,
      "grad_norm": 0.7423164248466492,
      "learning_rate": 1.5653484091301588e-05,
      "loss": 1.2976,
      "mean_token_accuracy": 0.6711178521315256,
      "num_tokens": 1062353554.0,
      "step": 6323
    },
    {
      "entropy": 1.633136639992396,
      "epoch": 0.694735107522452,
      "grad_norm": 0.6296790242195129,
      "learning_rate": 1.5652113526796798e-05,
      "loss": 1.3606,
      "mean_token_accuracy": 0.6649264395236969,
      "num_tokens": 1062555732.0,
      "step": 6324
    },
    {
      "entropy": 1.7429419159889221,
      "epoch": 0.6948449644338249,
      "grad_norm": 0.910716712474823,
      "learning_rate": 1.5650742815054706e-05,
      "loss": 1.4169,
      "mean_token_accuracy": 0.6470295091470083,
      "num_tokens": 1062773381.0,
      "step": 6325
    },
    {
      "entropy": 1.6380923291047413,
      "epoch": 0.6949548213451979,
      "grad_norm": 0.5968899726867676,
      "learning_rate": 1.564937195611871e-05,
      "loss": 1.3611,
      "mean_token_accuracy": 0.6606245140234629,
      "num_tokens": 1062970446.0,
      "step": 6326
    },
    {
      "entropy": 1.7097805937131245,
      "epoch": 0.6950646782565708,
      "grad_norm": 0.8309935331344604,
      "learning_rate": 1.5648000950032177e-05,
      "loss": 1.3135,
      "mean_token_accuracy": 0.6708834419647852,
      "num_tokens": 1063075251.0,
      "step": 6327
    },
    {
      "entropy": 1.687490463256836,
      "epoch": 0.6951745351679438,
      "grad_norm": 0.6703983545303345,
      "learning_rate": 1.564662979683851e-05,
      "loss": 1.3279,
      "mean_token_accuracy": 0.6707485318183899,
      "num_tokens": 1063191541.0,
      "step": 6328
    },
    {
      "entropy": 1.6575310031572978,
      "epoch": 0.6952843920793167,
      "grad_norm": 0.6347379088401794,
      "learning_rate": 1.5645258496581105e-05,
      "loss": 1.4302,
      "mean_token_accuracy": 0.6440733820199966,
      "num_tokens": 1063388167.0,
      "step": 6329
    },
    {
      "entropy": 1.6861818035443623,
      "epoch": 0.6953942489906896,
      "grad_norm": 0.6363089680671692,
      "learning_rate": 1.564388704930336e-05,
      "loss": 1.3444,
      "mean_token_accuracy": 0.662903368473053,
      "num_tokens": 1063543659.0,
      "step": 6330
    },
    {
      "entropy": 1.7344481647014618,
      "epoch": 0.6955041059020626,
      "grad_norm": 0.8041152358055115,
      "learning_rate": 1.5642515455048684e-05,
      "loss": 1.3584,
      "mean_token_accuracy": 0.686911458770434,
      "num_tokens": 1063676616.0,
      "step": 6331
    },
    {
      "entropy": 1.7182823022206624,
      "epoch": 0.6956139628134355,
      "grad_norm": 0.7374937534332275,
      "learning_rate": 1.5641143713860485e-05,
      "loss": 1.406,
      "mean_token_accuracy": 0.6564443459113439,
      "num_tokens": 1063821043.0,
      "step": 6332
    },
    {
      "entropy": 1.6801859041055043,
      "epoch": 0.6957238197248085,
      "grad_norm": 0.8506401181221008,
      "learning_rate": 1.563977182578218e-05,
      "loss": 1.4541,
      "mean_token_accuracy": 0.6540651917457581,
      "num_tokens": 1063987781.0,
      "step": 6333
    },
    {
      "entropy": 1.6580947836240132,
      "epoch": 0.6958336766361813,
      "grad_norm": 0.5996966361999512,
      "learning_rate": 1.563839979085719e-05,
      "loss": 1.3718,
      "mean_token_accuracy": 0.663277710477511,
      "num_tokens": 1064197609.0,
      "step": 6334
    },
    {
      "entropy": 1.7448161741097767,
      "epoch": 0.6959435335475543,
      "grad_norm": 0.6750478148460388,
      "learning_rate": 1.563702760912893e-05,
      "loss": 1.3593,
      "mean_token_accuracy": 0.6488836805025736,
      "num_tokens": 1064346954.0,
      "step": 6335
    },
    {
      "entropy": 1.6830095052719116,
      "epoch": 0.6960533904589272,
      "grad_norm": 0.7102033495903015,
      "learning_rate": 1.5635655280640844e-05,
      "loss": 1.4087,
      "mean_token_accuracy": 0.6654968212048212,
      "num_tokens": 1064517282.0,
      "step": 6336
    },
    {
      "entropy": 1.7004373967647552,
      "epoch": 0.6961632473703002,
      "grad_norm": 0.6220065355300903,
      "learning_rate": 1.563428280543635e-05,
      "loss": 1.363,
      "mean_token_accuracy": 0.6625643819570541,
      "num_tokens": 1064668244.0,
      "step": 6337
    },
    {
      "entropy": 1.6941338976224263,
      "epoch": 0.6962731042816731,
      "grad_norm": 0.6489022970199585,
      "learning_rate": 1.5632910183558895e-05,
      "loss": 1.3424,
      "mean_token_accuracy": 0.6700575947761536,
      "num_tokens": 1064823692.0,
      "step": 6338
    },
    {
      "entropy": 1.676298052072525,
      "epoch": 0.6963829611930461,
      "grad_norm": 0.7490513920783997,
      "learning_rate": 1.5631537415051927e-05,
      "loss": 1.3607,
      "mean_token_accuracy": 0.6670024891694387,
      "num_tokens": 1064991450.0,
      "step": 6339
    },
    {
      "entropy": 1.6780159771442413,
      "epoch": 0.696492818104419,
      "grad_norm": 0.8336478471755981,
      "learning_rate": 1.5630164499958876e-05,
      "loss": 1.5349,
      "mean_token_accuracy": 0.6541972657044729,
      "num_tokens": 1065167869.0,
      "step": 6340
    },
    {
      "entropy": 1.693702240784963,
      "epoch": 0.696602675015792,
      "grad_norm": 0.6953732967376709,
      "learning_rate": 1.562879143832321e-05,
      "loss": 1.2524,
      "mean_token_accuracy": 0.6819103260835012,
      "num_tokens": 1065309858.0,
      "step": 6341
    },
    {
      "entropy": 1.684336523214976,
      "epoch": 0.6967125319271649,
      "grad_norm": 0.6483939290046692,
      "learning_rate": 1.562741823018838e-05,
      "loss": 1.2624,
      "mean_token_accuracy": 0.6634860585133234,
      "num_tokens": 1065503318.0,
      "step": 6342
    },
    {
      "entropy": 1.7288965284824371,
      "epoch": 0.6968223888385378,
      "grad_norm": 0.7463001012802124,
      "learning_rate": 1.562604487559785e-05,
      "loss": 1.5298,
      "mean_token_accuracy": 0.6451147546370825,
      "num_tokens": 1065693529.0,
      "step": 6343
    },
    {
      "entropy": 1.7293485403060913,
      "epoch": 0.6969322457499108,
      "grad_norm": 0.6564697623252869,
      "learning_rate": 1.5624671374595083e-05,
      "loss": 1.3069,
      "mean_token_accuracy": 0.6628097891807556,
      "num_tokens": 1065829037.0,
      "step": 6344
    },
    {
      "entropy": 1.738810787598292,
      "epoch": 0.6970421026612836,
      "grad_norm": 0.6779906749725342,
      "learning_rate": 1.5623297727223554e-05,
      "loss": 1.3215,
      "mean_token_accuracy": 0.6662501196066538,
      "num_tokens": 1065959965.0,
      "step": 6345
    },
    {
      "entropy": 1.7129548887411754,
      "epoch": 0.6971519595726566,
      "grad_norm": 0.814060628414154,
      "learning_rate": 1.5621923933526734e-05,
      "loss": 1.3439,
      "mean_token_accuracy": 0.6748589227596918,
      "num_tokens": 1066076653.0,
      "step": 6346
    },
    {
      "entropy": 1.7468621532122295,
      "epoch": 0.6972618164840295,
      "grad_norm": 0.6097841858863831,
      "learning_rate": 1.56205499935481e-05,
      "loss": 1.4377,
      "mean_token_accuracy": 0.6586494793494543,
      "num_tokens": 1066260701.0,
      "step": 6347
    },
    {
      "entropy": 1.6852293213208516,
      "epoch": 0.6973716733954025,
      "grad_norm": 0.6476978063583374,
      "learning_rate": 1.561917590733115e-05,
      "loss": 1.332,
      "mean_token_accuracy": 0.6707625389099121,
      "num_tokens": 1066460345.0,
      "step": 6348
    },
    {
      "entropy": 1.7005867660045624,
      "epoch": 0.6974815303067754,
      "grad_norm": 0.6457695364952087,
      "learning_rate": 1.5617801674919353e-05,
      "loss": 1.4474,
      "mean_token_accuracy": 0.649574855963389,
      "num_tokens": 1066634701.0,
      "step": 6349
    },
    {
      "entropy": 1.6940444807211559,
      "epoch": 0.6975913872181484,
      "grad_norm": 0.7139136791229248,
      "learning_rate": 1.5616427296356217e-05,
      "loss": 1.3646,
      "mean_token_accuracy": 0.6607652654250463,
      "num_tokens": 1066769091.0,
      "step": 6350
    },
    {
      "entropy": 1.6971173187096913,
      "epoch": 0.6977012441295213,
      "grad_norm": 0.7305136919021606,
      "learning_rate": 1.561505277168524e-05,
      "loss": 1.3967,
      "mean_token_accuracy": 0.6508905241886774,
      "num_tokens": 1066944238.0,
      "step": 6351
    },
    {
      "entropy": 1.6950480441252391,
      "epoch": 0.6978111010408943,
      "grad_norm": 0.8133467435836792,
      "learning_rate": 1.561367810094992e-05,
      "loss": 1.4793,
      "mean_token_accuracy": 0.6544815003871918,
      "num_tokens": 1067126672.0,
      "step": 6352
    },
    {
      "entropy": 1.7079233924547832,
      "epoch": 0.6979209579522672,
      "grad_norm": 0.7765207290649414,
      "learning_rate": 1.5612303284193765e-05,
      "loss": 1.4357,
      "mean_token_accuracy": 0.6562918275594711,
      "num_tokens": 1067302213.0,
      "step": 6353
    },
    {
      "entropy": 1.7212556799252827,
      "epoch": 0.6980308148636402,
      "grad_norm": 0.7137874364852905,
      "learning_rate": 1.5610928321460296e-05,
      "loss": 1.3325,
      "mean_token_accuracy": 0.6592159370581309,
      "num_tokens": 1067451247.0,
      "step": 6354
    },
    {
      "entropy": 1.7126038074493408,
      "epoch": 0.698140671775013,
      "grad_norm": 0.8555010557174683,
      "learning_rate": 1.5609553212793018e-05,
      "loss": 1.4302,
      "mean_token_accuracy": 0.6475658317406973,
      "num_tokens": 1067578152.0,
      "step": 6355
    },
    {
      "entropy": 1.695282369852066,
      "epoch": 0.6982505286863859,
      "grad_norm": 0.6748037338256836,
      "learning_rate": 1.5608177958235462e-05,
      "loss": 1.267,
      "mean_token_accuracy": 0.6690774112939835,
      "num_tokens": 1067684477.0,
      "step": 6356
    },
    {
      "entropy": 1.69649139046669,
      "epoch": 0.6983603855977589,
      "grad_norm": 0.7423410415649414,
      "learning_rate": 1.560680255783115e-05,
      "loss": 1.2596,
      "mean_token_accuracy": 0.6732803036769232,
      "num_tokens": 1067800400.0,
      "step": 6357
    },
    {
      "entropy": 1.7296584745248158,
      "epoch": 0.6984702425091318,
      "grad_norm": 0.6657732129096985,
      "learning_rate": 1.560542701162361e-05,
      "loss": 1.4479,
      "mean_token_accuracy": 0.6483340859413147,
      "num_tokens": 1068016618.0,
      "step": 6358
    },
    {
      "entropy": 1.7768322229385376,
      "epoch": 0.6985800994205048,
      "grad_norm": 0.7509652972221375,
      "learning_rate": 1.5604051319656378e-05,
      "loss": 1.5285,
      "mean_token_accuracy": 0.6426715403795242,
      "num_tokens": 1068197524.0,
      "step": 6359
    },
    {
      "entropy": 1.729514628648758,
      "epoch": 0.6986899563318777,
      "grad_norm": 0.8853446841239929,
      "learning_rate": 1.5602675481973003e-05,
      "loss": 1.3558,
      "mean_token_accuracy": 0.6598193844159445,
      "num_tokens": 1068352214.0,
      "step": 6360
    },
    {
      "entropy": 1.714291383822759,
      "epoch": 0.6987998132432507,
      "grad_norm": 0.6338637471199036,
      "learning_rate": 1.5601299498617017e-05,
      "loss": 1.5695,
      "mean_token_accuracy": 0.6288912991682688,
      "num_tokens": 1068538787.0,
      "step": 6361
    },
    {
      "entropy": 1.7057184378306072,
      "epoch": 0.6989096701546236,
      "grad_norm": 0.7257465124130249,
      "learning_rate": 1.5599923369631977e-05,
      "loss": 1.3388,
      "mean_token_accuracy": 0.661540021498998,
      "num_tokens": 1068693499.0,
      "step": 6362
    },
    {
      "entropy": 1.749087264140447,
      "epoch": 0.6990195270659966,
      "grad_norm": 0.7464898228645325,
      "learning_rate": 1.559854709506144e-05,
      "loss": 1.2842,
      "mean_token_accuracy": 0.6702013909816742,
      "num_tokens": 1068847863.0,
      "step": 6363
    },
    {
      "entropy": 1.7329839169979095,
      "epoch": 0.6991293839773695,
      "grad_norm": 0.6883919835090637,
      "learning_rate": 1.5597170674948956e-05,
      "loss": 1.4929,
      "mean_token_accuracy": 0.6517574687798818,
      "num_tokens": 1069021234.0,
      "step": 6364
    },
    {
      "entropy": 1.7091910441716511,
      "epoch": 0.6992392408887425,
      "grad_norm": 0.5777117013931274,
      "learning_rate": 1.5595794109338087e-05,
      "loss": 1.4065,
      "mean_token_accuracy": 0.6439725557963053,
      "num_tokens": 1069203920.0,
      "step": 6365
    },
    {
      "entropy": 1.6956571837266285,
      "epoch": 0.6993490978001153,
      "grad_norm": 0.6748632192611694,
      "learning_rate": 1.559441739827241e-05,
      "loss": 1.4705,
      "mean_token_accuracy": 0.6408219436804453,
      "num_tokens": 1069401303.0,
      "step": 6366
    },
    {
      "entropy": 1.768018513917923,
      "epoch": 0.6994589547114883,
      "grad_norm": 0.6776396036148071,
      "learning_rate": 1.5593040541795494e-05,
      "loss": 1.415,
      "mean_token_accuracy": 0.6665412137905756,
      "num_tokens": 1069527841.0,
      "step": 6367
    },
    {
      "entropy": 1.6495687067508698,
      "epoch": 0.6995688116228612,
      "grad_norm": 0.6302627921104431,
      "learning_rate": 1.559166353995091e-05,
      "loss": 1.421,
      "mean_token_accuracy": 0.6526271998882294,
      "num_tokens": 1069725307.0,
      "step": 6368
    },
    {
      "entropy": 1.7440635164578755,
      "epoch": 0.6996786685342341,
      "grad_norm": 0.6958877444267273,
      "learning_rate": 1.559028639278225e-05,
      "loss": 1.4643,
      "mean_token_accuracy": 0.6413827786842982,
      "num_tokens": 1069924701.0,
      "step": 6369
    },
    {
      "entropy": 1.7379199266433716,
      "epoch": 0.6997885254456071,
      "grad_norm": 0.7230368256568909,
      "learning_rate": 1.5588909100333093e-05,
      "loss": 1.4683,
      "mean_token_accuracy": 0.6515718946854273,
      "num_tokens": 1070076085.0,
      "step": 6370
    },
    {
      "entropy": 1.6385211845239003,
      "epoch": 0.69989838235698,
      "grad_norm": 0.628541886806488,
      "learning_rate": 1.5587531662647025e-05,
      "loss": 1.4062,
      "mean_token_accuracy": 0.6495350897312164,
      "num_tokens": 1070269052.0,
      "step": 6371
    },
    {
      "entropy": 1.7529702385266621,
      "epoch": 0.700008239268353,
      "grad_norm": 0.6730430126190186,
      "learning_rate": 1.558615407976765e-05,
      "loss": 1.3968,
      "mean_token_accuracy": 0.6596626192331314,
      "num_tokens": 1070390227.0,
      "step": 6372
    },
    {
      "entropy": 1.6995338002840679,
      "epoch": 0.7001180961797259,
      "grad_norm": 0.600246250629425,
      "learning_rate": 1.5584776351738568e-05,
      "loss": 1.4458,
      "mean_token_accuracy": 0.6408328165610632,
      "num_tokens": 1070624225.0,
      "step": 6373
    },
    {
      "entropy": 1.6173172891139984,
      "epoch": 0.7002279530910989,
      "grad_norm": 0.7701708674430847,
      "learning_rate": 1.5583398478603375e-05,
      "loss": 1.3347,
      "mean_token_accuracy": 0.6675042559703191,
      "num_tokens": 1070802383.0,
      "step": 6374
    },
    {
      "entropy": 1.6439649661382039,
      "epoch": 0.7003378100024718,
      "grad_norm": 0.6842703819274902,
      "learning_rate": 1.558202046040569e-05,
      "loss": 1.3865,
      "mean_token_accuracy": 0.6518467565377554,
      "num_tokens": 1070971297.0,
      "step": 6375
    },
    {
      "entropy": 1.7387069861094158,
      "epoch": 0.7004476669138447,
      "grad_norm": 0.7097147107124329,
      "learning_rate": 1.5580642297189122e-05,
      "loss": 1.3293,
      "mean_token_accuracy": 0.6582437654336294,
      "num_tokens": 1071111781.0,
      "step": 6376
    },
    {
      "entropy": 1.7173890272776287,
      "epoch": 0.7005575238252176,
      "grad_norm": 0.706751823425293,
      "learning_rate": 1.5579263988997286e-05,
      "loss": 1.4515,
      "mean_token_accuracy": 0.6454547345638275,
      "num_tokens": 1071299496.0,
      "step": 6377
    },
    {
      "entropy": 1.7025466759999592,
      "epoch": 0.7006673807365906,
      "grad_norm": 0.7652823328971863,
      "learning_rate": 1.5577885535873813e-05,
      "loss": 1.3607,
      "mean_token_accuracy": 0.6740467697381973,
      "num_tokens": 1071422802.0,
      "step": 6378
    },
    {
      "entropy": 1.7247331937154133,
      "epoch": 0.7007772376479635,
      "grad_norm": 0.6709319353103638,
      "learning_rate": 1.5576506937862322e-05,
      "loss": 1.3397,
      "mean_token_accuracy": 0.6705234696467718,
      "num_tokens": 1071594636.0,
      "step": 6379
    },
    {
      "entropy": 1.7250055472056072,
      "epoch": 0.7008870945593365,
      "grad_norm": 0.6866453289985657,
      "learning_rate": 1.5575128195006452e-05,
      "loss": 1.4093,
      "mean_token_accuracy": 0.6612274398406347,
      "num_tokens": 1071753971.0,
      "step": 6380
    },
    {
      "entropy": 1.7455697258313496,
      "epoch": 0.7009969514707094,
      "grad_norm": 0.8073441982269287,
      "learning_rate": 1.5573749307349832e-05,
      "loss": 1.5399,
      "mean_token_accuracy": 0.629800001780192,
      "num_tokens": 1071920504.0,
      "step": 6381
    },
    {
      "entropy": 1.7188852628072102,
      "epoch": 0.7011068083820824,
      "grad_norm": 0.7286099195480347,
      "learning_rate": 1.5572370274936112e-05,
      "loss": 1.3478,
      "mean_token_accuracy": 0.66085384786129,
      "num_tokens": 1072063218.0,
      "step": 6382
    },
    {
      "entropy": 1.7210610608259838,
      "epoch": 0.7012166652934553,
      "grad_norm": 0.886602520942688,
      "learning_rate": 1.5570991097808926e-05,
      "loss": 1.3156,
      "mean_token_accuracy": 0.6739104390144348,
      "num_tokens": 1072190834.0,
      "step": 6383
    },
    {
      "entropy": 1.6681243975957234,
      "epoch": 0.7013265222048282,
      "grad_norm": 0.7629004716873169,
      "learning_rate": 1.5569611776011936e-05,
      "loss": 1.3262,
      "mean_token_accuracy": 0.6660947451988856,
      "num_tokens": 1072319190.0,
      "step": 6384
    },
    {
      "entropy": 1.7308462460835774,
      "epoch": 0.7014363791162012,
      "grad_norm": 0.7029445767402649,
      "learning_rate": 1.5568232309588793e-05,
      "loss": 1.5264,
      "mean_token_accuracy": 0.6421166161696116,
      "num_tokens": 1072545984.0,
      "step": 6385
    },
    {
      "entropy": 1.7237797677516937,
      "epoch": 0.701546236027574,
      "grad_norm": 0.6271055936813354,
      "learning_rate": 1.5566852698583156e-05,
      "loss": 1.4193,
      "mean_token_accuracy": 0.6527849485476812,
      "num_tokens": 1072742663.0,
      "step": 6386
    },
    {
      "entropy": 1.7033430834611256,
      "epoch": 0.701656092938947,
      "grad_norm": 0.851382851600647,
      "learning_rate": 1.5565472943038686e-05,
      "loss": 1.3205,
      "mean_token_accuracy": 0.6494818925857544,
      "num_tokens": 1072892465.0,
      "step": 6387
    },
    {
      "entropy": 1.7225984930992126,
      "epoch": 0.7017659498503199,
      "grad_norm": 0.8029654622077942,
      "learning_rate": 1.5564093042999058e-05,
      "loss": 1.2164,
      "mean_token_accuracy": 0.6834103514750799,
      "num_tokens": 1073004684.0,
      "step": 6388
    },
    {
      "entropy": 1.660697062810262,
      "epoch": 0.7018758067616929,
      "grad_norm": 0.654461145401001,
      "learning_rate": 1.556271299850794e-05,
      "loss": 1.2874,
      "mean_token_accuracy": 0.6679888367652893,
      "num_tokens": 1073149632.0,
      "step": 6389
    },
    {
      "entropy": 1.7544045547644298,
      "epoch": 0.7019856636730658,
      "grad_norm": 0.7389849424362183,
      "learning_rate": 1.5561332809609013e-05,
      "loss": 1.4401,
      "mean_token_accuracy": 0.6510027199983597,
      "num_tokens": 1073278621.0,
      "step": 6390
    },
    {
      "entropy": 1.713613510131836,
      "epoch": 0.7020955205844388,
      "grad_norm": 0.6665468215942383,
      "learning_rate": 1.5559952476345958e-05,
      "loss": 1.3568,
      "mean_token_accuracy": 0.6602018525203069,
      "num_tokens": 1073419861.0,
      "step": 6391
    },
    {
      "entropy": 1.7007086873054504,
      "epoch": 0.7022053774958117,
      "grad_norm": 0.5884419083595276,
      "learning_rate": 1.555857199876246e-05,
      "loss": 1.4787,
      "mean_token_accuracy": 0.63471091290315,
      "num_tokens": 1073629064.0,
      "step": 6392
    },
    {
      "entropy": 1.6845936278502147,
      "epoch": 0.7023152344071847,
      "grad_norm": 0.6721514463424683,
      "learning_rate": 1.5557191376902214e-05,
      "loss": 1.5321,
      "mean_token_accuracy": 0.6354875167210897,
      "num_tokens": 1073831920.0,
      "step": 6393
    },
    {
      "entropy": 1.6878847082455952,
      "epoch": 0.7024250913185576,
      "grad_norm": 0.787539005279541,
      "learning_rate": 1.5555810610808914e-05,
      "loss": 1.3595,
      "mean_token_accuracy": 0.6564808338880539,
      "num_tokens": 1073990510.0,
      "step": 6394
    },
    {
      "entropy": 1.734977275133133,
      "epoch": 0.7025349482299306,
      "grad_norm": 0.7654755711555481,
      "learning_rate": 1.555442970052626e-05,
      "loss": 1.4424,
      "mean_token_accuracy": 0.666431744893392,
      "num_tokens": 1074150701.0,
      "step": 6395
    },
    {
      "entropy": 1.6856712996959686,
      "epoch": 0.7026448051413035,
      "grad_norm": 0.7252474427223206,
      "learning_rate": 1.5553048646097958e-05,
      "loss": 1.4068,
      "mean_token_accuracy": 0.6496947507063547,
      "num_tokens": 1074315075.0,
      "step": 6396
    },
    {
      "entropy": 1.7249629298845928,
      "epoch": 0.7027546620526763,
      "grad_norm": 0.7137119174003601,
      "learning_rate": 1.555166744756772e-05,
      "loss": 1.4618,
      "mean_token_accuracy": 0.6392665853103002,
      "num_tokens": 1074445490.0,
      "step": 6397
    },
    {
      "entropy": 1.6709438264369965,
      "epoch": 0.7028645189640493,
      "grad_norm": 0.6605518460273743,
      "learning_rate": 1.555028610497926e-05,
      "loss": 1.4832,
      "mean_token_accuracy": 0.6422385623057684,
      "num_tokens": 1074664978.0,
      "step": 6398
    },
    {
      "entropy": 1.6293116410573323,
      "epoch": 0.7029743758754222,
      "grad_norm": 0.5970544815063477,
      "learning_rate": 1.554890461837629e-05,
      "loss": 1.3538,
      "mean_token_accuracy": 0.6604219327370325,
      "num_tokens": 1074807024.0,
      "step": 6399
    },
    {
      "entropy": 1.7081689337889354,
      "epoch": 0.7030842327867952,
      "grad_norm": 0.759528636932373,
      "learning_rate": 1.5547522987802542e-05,
      "loss": 1.4654,
      "mean_token_accuracy": 0.6531898428996404,
      "num_tokens": 1074948098.0,
      "step": 6400
    },
    {
      "entropy": 1.6969364682833354,
      "epoch": 0.7031940896981681,
      "grad_norm": 0.7736058235168457,
      "learning_rate": 1.554614121330174e-05,
      "loss": 1.3684,
      "mean_token_accuracy": 0.6516063958406448,
      "num_tokens": 1075134536.0,
      "step": 6401
    },
    {
      "entropy": 1.7077515522638957,
      "epoch": 0.7033039466095411,
      "grad_norm": 0.5851559042930603,
      "learning_rate": 1.5544759294917616e-05,
      "loss": 1.3913,
      "mean_token_accuracy": 0.6567753752072653,
      "num_tokens": 1075319222.0,
      "step": 6402
    },
    {
      "entropy": 1.6978352069854736,
      "epoch": 0.703413803520914,
      "grad_norm": 0.7662501931190491,
      "learning_rate": 1.554337723269391e-05,
      "loss": 1.3474,
      "mean_token_accuracy": 0.666194369395574,
      "num_tokens": 1075447222.0,
      "step": 6403
    },
    {
      "entropy": 1.7218878070513408,
      "epoch": 0.703523660432287,
      "grad_norm": 0.6417670249938965,
      "learning_rate": 1.5541995026674363e-05,
      "loss": 1.4205,
      "mean_token_accuracy": 0.6567677110433578,
      "num_tokens": 1075603408.0,
      "step": 6404
    },
    {
      "entropy": 1.6632341345151265,
      "epoch": 0.7036335173436599,
      "grad_norm": 0.7193872332572937,
      "learning_rate": 1.5540612676902715e-05,
      "loss": 1.328,
      "mean_token_accuracy": 0.6630524943272272,
      "num_tokens": 1075726060.0,
      "step": 6405
    },
    {
      "entropy": 1.794555813074112,
      "epoch": 0.7037433742550329,
      "grad_norm": 0.7477422952651978,
      "learning_rate": 1.5539230183422725e-05,
      "loss": 1.3365,
      "mean_token_accuracy": 0.6674585938453674,
      "num_tokens": 1075847782.0,
      "step": 6406
    },
    {
      "entropy": 1.7614405552546184,
      "epoch": 0.7038532311664057,
      "grad_norm": 0.624266505241394,
      "learning_rate": 1.5537847546278145e-05,
      "loss": 1.3842,
      "mean_token_accuracy": 0.653992493947347,
      "num_tokens": 1076038754.0,
      "step": 6407
    },
    {
      "entropy": 1.741749346256256,
      "epoch": 0.7039630880777787,
      "grad_norm": 0.7164651155471802,
      "learning_rate": 1.553646476551274e-05,
      "loss": 1.6044,
      "mean_token_accuracy": 0.6402417123317719,
      "num_tokens": 1076211380.0,
      "step": 6408
    },
    {
      "entropy": 1.7253131071726482,
      "epoch": 0.7040729449891516,
      "grad_norm": 0.669684648513794,
      "learning_rate": 1.5535081841170257e-05,
      "loss": 1.5255,
      "mean_token_accuracy": 0.6500623474518458,
      "num_tokens": 1076421027.0,
      "step": 6409
    },
    {
      "entropy": 1.7519688804944356,
      "epoch": 0.7041828019005245,
      "grad_norm": 0.5820850133895874,
      "learning_rate": 1.553369877329449e-05,
      "loss": 1.3844,
      "mean_token_accuracy": 0.650462418794632,
      "num_tokens": 1076583424.0,
      "step": 6410
    },
    {
      "entropy": 1.6753594875335693,
      "epoch": 0.7042926588118975,
      "grad_norm": 0.6438754200935364,
      "learning_rate": 1.5532315561929194e-05,
      "loss": 1.3457,
      "mean_token_accuracy": 0.6627227415641149,
      "num_tokens": 1076765313.0,
      "step": 6411
    },
    {
      "entropy": 1.7350413004557292,
      "epoch": 0.7044025157232704,
      "grad_norm": 0.7367886900901794,
      "learning_rate": 1.553093220711815e-05,
      "loss": 1.5004,
      "mean_token_accuracy": 0.6472184459368387,
      "num_tokens": 1076924086.0,
      "step": 6412
    },
    {
      "entropy": 1.6722463369369507,
      "epoch": 0.7045123726346434,
      "grad_norm": 0.7393024563789368,
      "learning_rate": 1.552954870890515e-05,
      "loss": 1.357,
      "mean_token_accuracy": 0.663534477353096,
      "num_tokens": 1077094084.0,
      "step": 6413
    },
    {
      "entropy": 1.665319134791692,
      "epoch": 0.7046222295460163,
      "grad_norm": 0.8351560235023499,
      "learning_rate": 1.5528165067333972e-05,
      "loss": 1.4145,
      "mean_token_accuracy": 0.6641974002122879,
      "num_tokens": 1077301938.0,
      "step": 6414
    },
    {
      "entropy": 1.665222058693568,
      "epoch": 0.7047320864573893,
      "grad_norm": 0.6075441837310791,
      "learning_rate": 1.5526781282448408e-05,
      "loss": 1.3895,
      "mean_token_accuracy": 0.6595604221026102,
      "num_tokens": 1077518144.0,
      "step": 6415
    },
    {
      "entropy": 1.6636256277561188,
      "epoch": 0.7048419433687622,
      "grad_norm": 0.6443570852279663,
      "learning_rate": 1.5525397354292256e-05,
      "loss": 1.2649,
      "mean_token_accuracy": 0.6825617849826813,
      "num_tokens": 1077663050.0,
      "step": 6416
    },
    {
      "entropy": 1.7030467987060547,
      "epoch": 0.7049518002801352,
      "grad_norm": 0.6067739129066467,
      "learning_rate": 1.5524013282909317e-05,
      "loss": 1.4999,
      "mean_token_accuracy": 0.6428120483954748,
      "num_tokens": 1077865926.0,
      "step": 6417
    },
    {
      "entropy": 1.6580960551897685,
      "epoch": 0.705061657191508,
      "grad_norm": 0.657632052898407,
      "learning_rate": 1.5522629068343398e-05,
      "loss": 1.2896,
      "mean_token_accuracy": 0.6659079343080521,
      "num_tokens": 1078018210.0,
      "step": 6418
    },
    {
      "entropy": 1.743414322535197,
      "epoch": 0.705171514102881,
      "grad_norm": 0.7279876470565796,
      "learning_rate": 1.5521244710638308e-05,
      "loss": 1.3474,
      "mean_token_accuracy": 0.6605549802382787,
      "num_tokens": 1078149814.0,
      "step": 6419
    },
    {
      "entropy": 1.6969486773014069,
      "epoch": 0.7052813710142539,
      "grad_norm": 0.8344591856002808,
      "learning_rate": 1.5519860209837858e-05,
      "loss": 1.3424,
      "mean_token_accuracy": 0.670002485315005,
      "num_tokens": 1078317881.0,
      "step": 6420
    },
    {
      "entropy": 1.6994330783685048,
      "epoch": 0.7053912279256269,
      "grad_norm": 0.6680699586868286,
      "learning_rate": 1.551847556598587e-05,
      "loss": 1.3801,
      "mean_token_accuracy": 0.669528936346372,
      "num_tokens": 1078477165.0,
      "step": 6421
    },
    {
      "entropy": 1.666198472181956,
      "epoch": 0.7055010848369998,
      "grad_norm": 0.6620866656303406,
      "learning_rate": 1.5517090779126164e-05,
      "loss": 1.3215,
      "mean_token_accuracy": 0.6595088789860407,
      "num_tokens": 1078619965.0,
      "step": 6422
    },
    {
      "entropy": 1.7299580574035645,
      "epoch": 0.7056109417483728,
      "grad_norm": 0.7888288497924805,
      "learning_rate": 1.5515705849302574e-05,
      "loss": 1.2851,
      "mean_token_accuracy": 0.6729756246010462,
      "num_tokens": 1078758890.0,
      "step": 6423
    },
    {
      "entropy": 1.7276004652182262,
      "epoch": 0.7057207986597457,
      "grad_norm": 0.7002907991409302,
      "learning_rate": 1.5514320776558928e-05,
      "loss": 1.4228,
      "mean_token_accuracy": 0.6579409589370092,
      "num_tokens": 1078958010.0,
      "step": 6424
    },
    {
      "entropy": 1.6907508472601573,
      "epoch": 0.7058306555711186,
      "grad_norm": 0.632900595664978,
      "learning_rate": 1.551293556093906e-05,
      "loss": 1.4111,
      "mean_token_accuracy": 0.6516719460487366,
      "num_tokens": 1079164270.0,
      "step": 6425
    },
    {
      "entropy": 1.7010155816872914,
      "epoch": 0.7059405124824916,
      "grad_norm": 0.6720937490463257,
      "learning_rate": 1.551155020248682e-05,
      "loss": 1.2768,
      "mean_token_accuracy": 0.6753781239191691,
      "num_tokens": 1079285399.0,
      "step": 6426
    },
    {
      "entropy": 1.6723153193791707,
      "epoch": 0.7060503693938645,
      "grad_norm": 0.8205432295799255,
      "learning_rate": 1.5510164701246045e-05,
      "loss": 1.4409,
      "mean_token_accuracy": 0.655280739068985,
      "num_tokens": 1079479151.0,
      "step": 6427
    },
    {
      "entropy": 1.731699009736379,
      "epoch": 0.7061602263052374,
      "grad_norm": 0.6112235188484192,
      "learning_rate": 1.550877905726059e-05,
      "loss": 1.4701,
      "mean_token_accuracy": 0.6529090950886408,
      "num_tokens": 1079685790.0,
      "step": 6428
    },
    {
      "entropy": 1.746723433335622,
      "epoch": 0.7062700832166103,
      "grad_norm": 0.7355782985687256,
      "learning_rate": 1.5507393270574315e-05,
      "loss": 1.3453,
      "mean_token_accuracy": 0.6606174210707346,
      "num_tokens": 1079837134.0,
      "step": 6429
    },
    {
      "entropy": 1.7096926669279735,
      "epoch": 0.7063799401279833,
      "grad_norm": 0.7809394001960754,
      "learning_rate": 1.5506007341231068e-05,
      "loss": 1.3517,
      "mean_token_accuracy": 0.6668333212534586,
      "num_tokens": 1079974934.0,
      "step": 6430
    },
    {
      "entropy": 1.7233172257741292,
      "epoch": 0.7064897970393562,
      "grad_norm": 0.9166316390037537,
      "learning_rate": 1.550462126927472e-05,
      "loss": 1.3369,
      "mean_token_accuracy": 0.6595128228267034,
      "num_tokens": 1080104310.0,
      "step": 6431
    },
    {
      "entropy": 1.7122790416081746,
      "epoch": 0.7065996539507292,
      "grad_norm": 0.8295903205871582,
      "learning_rate": 1.550323505474914e-05,
      "loss": 1.5162,
      "mean_token_accuracy": 0.6423207471768061,
      "num_tokens": 1080270460.0,
      "step": 6432
    },
    {
      "entropy": 1.6761127014954884,
      "epoch": 0.7067095108621021,
      "grad_norm": 0.9063708782196045,
      "learning_rate": 1.55018486976982e-05,
      "loss": 1.5275,
      "mean_token_accuracy": 0.6545315235853195,
      "num_tokens": 1080457268.0,
      "step": 6433
    },
    {
      "entropy": 1.7378019988536835,
      "epoch": 0.7068193677734751,
      "grad_norm": 0.6509607434272766,
      "learning_rate": 1.5500462198165778e-05,
      "loss": 1.4512,
      "mean_token_accuracy": 0.6503981401522955,
      "num_tokens": 1080644349.0,
      "step": 6434
    },
    {
      "entropy": 1.60017196337382,
      "epoch": 0.706929224684848,
      "grad_norm": 0.6047476530075073,
      "learning_rate": 1.5499075556195752e-05,
      "loss": 1.3142,
      "mean_token_accuracy": 0.6764021714528402,
      "num_tokens": 1080833259.0,
      "step": 6435
    },
    {
      "entropy": 1.7449369231859844,
      "epoch": 0.707039081596221,
      "grad_norm": 0.7219707369804382,
      "learning_rate": 1.5497688771832017e-05,
      "loss": 1.3236,
      "mean_token_accuracy": 0.6659722030162811,
      "num_tokens": 1080997620.0,
      "step": 6436
    },
    {
      "entropy": 1.7626902063687642,
      "epoch": 0.7071489385075939,
      "grad_norm": 0.7538440823554993,
      "learning_rate": 1.549630184511845e-05,
      "loss": 1.5468,
      "mean_token_accuracy": 0.6329626242319742,
      "num_tokens": 1081153212.0,
      "step": 6437
    },
    {
      "entropy": 1.6917728781700134,
      "epoch": 0.7072587954189667,
      "grad_norm": 0.7224356532096863,
      "learning_rate": 1.5494914776098967e-05,
      "loss": 1.6,
      "mean_token_accuracy": 0.6502460787693659,
      "num_tokens": 1081310174.0,
      "step": 6438
    },
    {
      "entropy": 1.7162715196609497,
      "epoch": 0.7073686523303397,
      "grad_norm": 0.7522397637367249,
      "learning_rate": 1.549352756481745e-05,
      "loss": 1.3803,
      "mean_token_accuracy": 0.6606674641370773,
      "num_tokens": 1081482148.0,
      "step": 6439
    },
    {
      "entropy": 1.6705755194028218,
      "epoch": 0.7074785092417126,
      "grad_norm": 0.7202532291412354,
      "learning_rate": 1.5492140211317813e-05,
      "loss": 1.355,
      "mean_token_accuracy": 0.6613196780284246,
      "num_tokens": 1081621256.0,
      "step": 6440
    },
    {
      "entropy": 1.6998901466528575,
      "epoch": 0.7075883661530856,
      "grad_norm": 0.6419969797134399,
      "learning_rate": 1.549075271564396e-05,
      "loss": 1.3242,
      "mean_token_accuracy": 0.6660476873318354,
      "num_tokens": 1081781478.0,
      "step": 6441
    },
    {
      "entropy": 1.714255303144455,
      "epoch": 0.7076982230644585,
      "grad_norm": 0.6204527020454407,
      "learning_rate": 1.548936507783981e-05,
      "loss": 1.3608,
      "mean_token_accuracy": 0.655594398578008,
      "num_tokens": 1081946139.0,
      "step": 6442
    },
    {
      "entropy": 1.6719560623168945,
      "epoch": 0.7078080799758315,
      "grad_norm": 0.6580803394317627,
      "learning_rate": 1.5487977297949276e-05,
      "loss": 1.4012,
      "mean_token_accuracy": 0.6551670630772909,
      "num_tokens": 1082090613.0,
      "step": 6443
    },
    {
      "entropy": 1.6676383117834728,
      "epoch": 0.7079179368872044,
      "grad_norm": 0.6761298179626465,
      "learning_rate": 1.5486589376016284e-05,
      "loss": 1.3466,
      "mean_token_accuracy": 0.671358272433281,
      "num_tokens": 1082206340.0,
      "step": 6444
    },
    {
      "entropy": 1.7442449033260345,
      "epoch": 0.7080277937985774,
      "grad_norm": 0.6918967962265015,
      "learning_rate": 1.548520131208476e-05,
      "loss": 1.3748,
      "mean_token_accuracy": 0.6563903441031774,
      "num_tokens": 1082338856.0,
      "step": 6445
    },
    {
      "entropy": 1.6667213837305705,
      "epoch": 0.7081376507099503,
      "grad_norm": 0.5648940205574036,
      "learning_rate": 1.5483813106198634e-05,
      "loss": 1.3901,
      "mean_token_accuracy": 0.6636083672444025,
      "num_tokens": 1082552762.0,
      "step": 6446
    },
    {
      "entropy": 1.6465531090895336,
      "epoch": 0.7082475076213233,
      "grad_norm": 0.7094516754150391,
      "learning_rate": 1.5482424758401847e-05,
      "loss": 1.3485,
      "mean_token_accuracy": 0.6755081762870153,
      "num_tokens": 1082720364.0,
      "step": 6447
    },
    {
      "entropy": 1.7297605971495311,
      "epoch": 0.7083573645326962,
      "grad_norm": 0.6798611283302307,
      "learning_rate": 1.5481036268738334e-05,
      "loss": 1.3216,
      "mean_token_accuracy": 0.6573556611935297,
      "num_tokens": 1082836557.0,
      "step": 6448
    },
    {
      "entropy": 1.6604599058628082,
      "epoch": 0.7084672214440692,
      "grad_norm": 0.659517228603363,
      "learning_rate": 1.547964763725204e-05,
      "loss": 1.3595,
      "mean_token_accuracy": 0.6587564200162888,
      "num_tokens": 1082997407.0,
      "step": 6449
    },
    {
      "entropy": 1.7796454230944316,
      "epoch": 0.708577078355442,
      "grad_norm": 0.7438165545463562,
      "learning_rate": 1.547825886398692e-05,
      "loss": 1.4302,
      "mean_token_accuracy": 0.6503714273373286,
      "num_tokens": 1083170024.0,
      "step": 6450
    },
    {
      "entropy": 1.6703903377056122,
      "epoch": 0.7086869352668149,
      "grad_norm": 0.7155895233154297,
      "learning_rate": 1.5476869948986925e-05,
      "loss": 1.5655,
      "mean_token_accuracy": 0.6468634754419327,
      "num_tokens": 1083357698.0,
      "step": 6451
    },
    {
      "entropy": 1.7359613676865895,
      "epoch": 0.7087967921781879,
      "grad_norm": 0.6262257695198059,
      "learning_rate": 1.5475480892296013e-05,
      "loss": 1.5612,
      "mean_token_accuracy": 0.628671204050382,
      "num_tokens": 1083543537.0,
      "step": 6452
    },
    {
      "entropy": 1.678429941336314,
      "epoch": 0.7089066490895608,
      "grad_norm": 0.7694371342658997,
      "learning_rate": 1.5474091693958146e-05,
      "loss": 1.3765,
      "mean_token_accuracy": 0.6632258395353953,
      "num_tokens": 1083695268.0,
      "step": 6453
    },
    {
      "entropy": 1.6886884073416393,
      "epoch": 0.7090165060009338,
      "grad_norm": 0.733223021030426,
      "learning_rate": 1.5472702354017296e-05,
      "loss": 1.3159,
      "mean_token_accuracy": 0.6743916422128677,
      "num_tokens": 1083825522.0,
      "step": 6454
    },
    {
      "entropy": 1.7432435353597004,
      "epoch": 0.7091263629123067,
      "grad_norm": 0.7304172515869141,
      "learning_rate": 1.547131287251743e-05,
      "loss": 1.2952,
      "mean_token_accuracy": 0.6635237882534663,
      "num_tokens": 1084003481.0,
      "step": 6455
    },
    {
      "entropy": 1.6784548958142598,
      "epoch": 0.7092362198236797,
      "grad_norm": 0.7074428200721741,
      "learning_rate": 1.5469923249502525e-05,
      "loss": 1.5661,
      "mean_token_accuracy": 0.6370118310054144,
      "num_tokens": 1084177783.0,
      "step": 6456
    },
    {
      "entropy": 1.6755680044492085,
      "epoch": 0.7093460767350526,
      "grad_norm": 0.6471802592277527,
      "learning_rate": 1.5468533485016564e-05,
      "loss": 1.4748,
      "mean_token_accuracy": 0.634057030081749,
      "num_tokens": 1084376301.0,
      "step": 6457
    },
    {
      "entropy": 1.6814270714918773,
      "epoch": 0.7094559336464256,
      "grad_norm": 0.6327021718025208,
      "learning_rate": 1.5467143579103535e-05,
      "loss": 1.3108,
      "mean_token_accuracy": 0.6754618585109711,
      "num_tokens": 1084510548.0,
      "step": 6458
    },
    {
      "entropy": 1.6858037908871968,
      "epoch": 0.7095657905577984,
      "grad_norm": 0.7395240664482117,
      "learning_rate": 1.546575353180742e-05,
      "loss": 1.239,
      "mean_token_accuracy": 0.6764448136091232,
      "num_tokens": 1084615745.0,
      "step": 6459
    },
    {
      "entropy": 1.7345422605673473,
      "epoch": 0.7096756474691714,
      "grad_norm": 0.628578245639801,
      "learning_rate": 1.5464363343172223e-05,
      "loss": 1.6155,
      "mean_token_accuracy": 0.6141057461500168,
      "num_tokens": 1084869481.0,
      "step": 6460
    },
    {
      "entropy": 1.6727848052978516,
      "epoch": 0.7097855043805443,
      "grad_norm": 0.7392853498458862,
      "learning_rate": 1.5462973013241934e-05,
      "loss": 1.4858,
      "mean_token_accuracy": 0.6492108752330145,
      "num_tokens": 1085037273.0,
      "step": 6461
    },
    {
      "entropy": 1.7004869282245636,
      "epoch": 0.7098953612919173,
      "grad_norm": 0.7187851071357727,
      "learning_rate": 1.546158254206056e-05,
      "loss": 1.478,
      "mean_token_accuracy": 0.6374183098475138,
      "num_tokens": 1085232886.0,
      "step": 6462
    },
    {
      "entropy": 1.6797158320744832,
      "epoch": 0.7100052182032902,
      "grad_norm": 0.7203065752983093,
      "learning_rate": 1.546019192967211e-05,
      "loss": 1.5025,
      "mean_token_accuracy": 0.6410057172179222,
      "num_tokens": 1085413273.0,
      "step": 6463
    },
    {
      "entropy": 1.742477943499883,
      "epoch": 0.7101150751146631,
      "grad_norm": 0.7050339579582214,
      "learning_rate": 1.5458801176120597e-05,
      "loss": 1.4738,
      "mean_token_accuracy": 0.6423740684986115,
      "num_tokens": 1085552171.0,
      "step": 6464
    },
    {
      "entropy": 1.7188653250535328,
      "epoch": 0.7102249320260361,
      "grad_norm": 0.7164783477783203,
      "learning_rate": 1.5457410281450034e-05,
      "loss": 1.506,
      "mean_token_accuracy": 0.6500173856814703,
      "num_tokens": 1085724958.0,
      "step": 6465
    },
    {
      "entropy": 1.76152570048968,
      "epoch": 0.710334788937409,
      "grad_norm": 0.7042224407196045,
      "learning_rate": 1.5456019245704445e-05,
      "loss": 1.451,
      "mean_token_accuracy": 0.6454960157473882,
      "num_tokens": 1085889597.0,
      "step": 6466
    },
    {
      "entropy": 1.666865090529124,
      "epoch": 0.710444645848782,
      "grad_norm": 0.6657201051712036,
      "learning_rate": 1.5454628068927854e-05,
      "loss": 1.3749,
      "mean_token_accuracy": 0.6552201559146246,
      "num_tokens": 1086027428.0,
      "step": 6467
    },
    {
      "entropy": 1.7004301051298778,
      "epoch": 0.7105545027601549,
      "grad_norm": 0.6426774263381958,
      "learning_rate": 1.5453236751164293e-05,
      "loss": 1.4649,
      "mean_token_accuracy": 0.6523342033227285,
      "num_tokens": 1086215530.0,
      "step": 6468
    },
    {
      "entropy": 1.680479904015859,
      "epoch": 0.7106643596715279,
      "grad_norm": 0.6741653680801392,
      "learning_rate": 1.5451845292457793e-05,
      "loss": 1.3898,
      "mean_token_accuracy": 0.6664047390222549,
      "num_tokens": 1086377606.0,
      "step": 6469
    },
    {
      "entropy": 1.6704957087834675,
      "epoch": 0.7107742165829007,
      "grad_norm": 0.7036837339401245,
      "learning_rate": 1.54504536928524e-05,
      "loss": 1.3221,
      "mean_token_accuracy": 0.6773081024487814,
      "num_tokens": 1086513650.0,
      "step": 6470
    },
    {
      "entropy": 1.6654736300309498,
      "epoch": 0.7108840734942737,
      "grad_norm": 0.642352819442749,
      "learning_rate": 1.5449061952392148e-05,
      "loss": 1.366,
      "mean_token_accuracy": 0.6635124981403351,
      "num_tokens": 1086681158.0,
      "step": 6471
    },
    {
      "entropy": 1.6999973754088085,
      "epoch": 0.7109939304056466,
      "grad_norm": 0.5569196939468384,
      "learning_rate": 1.5447670071121093e-05,
      "loss": 1.3281,
      "mean_token_accuracy": 0.6624209682146708,
      "num_tokens": 1086840513.0,
      "step": 6472
    },
    {
      "entropy": 1.7996805508931477,
      "epoch": 0.7111037873170196,
      "grad_norm": 0.66071617603302,
      "learning_rate": 1.5446278049083284e-05,
      "loss": 1.6934,
      "mean_token_accuracy": 0.6085737546284994,
      "num_tokens": 1087130957.0,
      "step": 6473
    },
    {
      "entropy": 1.734180857737859,
      "epoch": 0.7112136442283925,
      "grad_norm": 0.7350216507911682,
      "learning_rate": 1.5444885886322778e-05,
      "loss": 1.5484,
      "mean_token_accuracy": 0.6372219175100327,
      "num_tokens": 1087298330.0,
      "step": 6474
    },
    {
      "entropy": 1.7409184575080872,
      "epoch": 0.7113235011397655,
      "grad_norm": 0.6457538604736328,
      "learning_rate": 1.544349358288364e-05,
      "loss": 1.3968,
      "mean_token_accuracy": 0.6600100994110107,
      "num_tokens": 1087439869.0,
      "step": 6475
    },
    {
      "entropy": 1.747595449288686,
      "epoch": 0.7114333580511384,
      "grad_norm": 0.8765959739685059,
      "learning_rate": 1.5442101138809928e-05,
      "loss": 1.3413,
      "mean_token_accuracy": 0.6616929272810618,
      "num_tokens": 1087554965.0,
      "step": 6476
    },
    {
      "entropy": 1.775346169869105,
      "epoch": 0.7115432149625114,
      "grad_norm": 0.7475898265838623,
      "learning_rate": 1.5440708554145713e-05,
      "loss": 1.546,
      "mean_token_accuracy": 0.6328155199686686,
      "num_tokens": 1087769878.0,
      "step": 6477
    },
    {
      "entropy": 1.6867960194746654,
      "epoch": 0.7116530718738843,
      "grad_norm": 0.6512202620506287,
      "learning_rate": 1.5439315828935083e-05,
      "loss": 1.3724,
      "mean_token_accuracy": 0.6561179707447687,
      "num_tokens": 1087958250.0,
      "step": 6478
    },
    {
      "entropy": 1.7009850045045216,
      "epoch": 0.7117629287852572,
      "grad_norm": 0.6758841872215271,
      "learning_rate": 1.54379229632221e-05,
      "loss": 1.422,
      "mean_token_accuracy": 0.6556328684091568,
      "num_tokens": 1088149996.0,
      "step": 6479
    },
    {
      "entropy": 1.7897284130255382,
      "epoch": 0.7118727856966302,
      "grad_norm": 0.84705650806427,
      "learning_rate": 1.5436529957050858e-05,
      "loss": 1.2395,
      "mean_token_accuracy": 0.6755161037047704,
      "num_tokens": 1088256500.0,
      "step": 6480
    },
    {
      "entropy": 1.6992632150650024,
      "epoch": 0.711982642608003,
      "grad_norm": 0.8954823613166809,
      "learning_rate": 1.543513681046544e-05,
      "loss": 1.4168,
      "mean_token_accuracy": 0.6409216324488322,
      "num_tokens": 1088463599.0,
      "step": 6481
    },
    {
      "entropy": 1.7095726033051808,
      "epoch": 0.712092499519376,
      "grad_norm": 0.88639235496521,
      "learning_rate": 1.5433743523509945e-05,
      "loss": 1.365,
      "mean_token_accuracy": 0.6730570693810781,
      "num_tokens": 1088601030.0,
      "step": 6482
    },
    {
      "entropy": 1.7022682825724285,
      "epoch": 0.7122023564307489,
      "grad_norm": 0.5840624570846558,
      "learning_rate": 1.543235009622846e-05,
      "loss": 1.5923,
      "mean_token_accuracy": 0.6384105285008749,
      "num_tokens": 1088900721.0,
      "step": 6483
    },
    {
      "entropy": 1.6645398636658986,
      "epoch": 0.7123122133421219,
      "grad_norm": 0.5561464428901672,
      "learning_rate": 1.5430956528665095e-05,
      "loss": 1.4083,
      "mean_token_accuracy": 0.6542864640553793,
      "num_tokens": 1089140437.0,
      "step": 6484
    },
    {
      "entropy": 1.7146425247192383,
      "epoch": 0.7124220702534948,
      "grad_norm": 0.6508673429489136,
      "learning_rate": 1.5429562820863954e-05,
      "loss": 1.4767,
      "mean_token_accuracy": 0.6512588014205297,
      "num_tokens": 1089324853.0,
      "step": 6485
    },
    {
      "entropy": 1.6801698704560597,
      "epoch": 0.7125319271648678,
      "grad_norm": 0.6502287983894348,
      "learning_rate": 1.542816897286914e-05,
      "loss": 1.2781,
      "mean_token_accuracy": 0.675328845779101,
      "num_tokens": 1089463656.0,
      "step": 6486
    },
    {
      "entropy": 1.6508076985677083,
      "epoch": 0.7126417840762407,
      "grad_norm": 0.7556900978088379,
      "learning_rate": 1.5426774984724775e-05,
      "loss": 1.3662,
      "mean_token_accuracy": 0.6651237408320109,
      "num_tokens": 1089678421.0,
      "step": 6487
    },
    {
      "entropy": 1.651640792687734,
      "epoch": 0.7127516409876137,
      "grad_norm": 0.8668679594993591,
      "learning_rate": 1.542538085647498e-05,
      "loss": 1.4303,
      "mean_token_accuracy": 0.6480504920085272,
      "num_tokens": 1089818077.0,
      "step": 6488
    },
    {
      "entropy": 1.7374186714490254,
      "epoch": 0.7128614978989866,
      "grad_norm": 0.7118296027183533,
      "learning_rate": 1.542398658816387e-05,
      "loss": 1.4924,
      "mean_token_accuracy": 0.6559328337510427,
      "num_tokens": 1090014597.0,
      "step": 6489
    },
    {
      "entropy": 1.7288208802541096,
      "epoch": 0.7129713548103596,
      "grad_norm": 0.796561062335968,
      "learning_rate": 1.5422592179835586e-05,
      "loss": 1.5408,
      "mean_token_accuracy": 0.6503265549739202,
      "num_tokens": 1090158154.0,
      "step": 6490
    },
    {
      "entropy": 1.76965993642807,
      "epoch": 0.7130812117217324,
      "grad_norm": 0.6486510634422302,
      "learning_rate": 1.5421197631534246e-05,
      "loss": 1.4316,
      "mean_token_accuracy": 0.6440114875634512,
      "num_tokens": 1090373107.0,
      "step": 6491
    },
    {
      "entropy": 1.771783361832301,
      "epoch": 0.7131910686331053,
      "grad_norm": 0.6636711359024048,
      "learning_rate": 1.5419802943303995e-05,
      "loss": 1.3121,
      "mean_token_accuracy": 0.6703186631202698,
      "num_tokens": 1090523447.0,
      "step": 6492
    },
    {
      "entropy": 1.7251704931259155,
      "epoch": 0.7133009255444783,
      "grad_norm": 0.6942716836929321,
      "learning_rate": 1.5418408115188973e-05,
      "loss": 1.3039,
      "mean_token_accuracy": 0.6602616558472315,
      "num_tokens": 1090656225.0,
      "step": 6493
    },
    {
      "entropy": 1.6484019656976063,
      "epoch": 0.7134107824558512,
      "grad_norm": 0.7084615230560303,
      "learning_rate": 1.5417013147233324e-05,
      "loss": 1.2269,
      "mean_token_accuracy": 0.6825538575649261,
      "num_tokens": 1090806963.0,
      "step": 6494
    },
    {
      "entropy": 1.7776933411757152,
      "epoch": 0.7135206393672242,
      "grad_norm": 0.6260969042778015,
      "learning_rate": 1.5415618039481196e-05,
      "loss": 1.445,
      "mean_token_accuracy": 0.6529321223497391,
      "num_tokens": 1091004761.0,
      "step": 6495
    },
    {
      "entropy": 1.6919648945331573,
      "epoch": 0.7136304962785971,
      "grad_norm": 0.7151902914047241,
      "learning_rate": 1.5414222791976753e-05,
      "loss": 1.5192,
      "mean_token_accuracy": 0.6683632185061773,
      "num_tokens": 1091163822.0,
      "step": 6496
    },
    {
      "entropy": 1.7350868582725525,
      "epoch": 0.7137403531899701,
      "grad_norm": 0.7141695618629456,
      "learning_rate": 1.5412827404764146e-05,
      "loss": 1.3278,
      "mean_token_accuracy": 0.6679353018601736,
      "num_tokens": 1091293463.0,
      "step": 6497
    },
    {
      "entropy": 1.7138068477312725,
      "epoch": 0.713850210101343,
      "grad_norm": 0.7359333038330078,
      "learning_rate": 1.5411431877887536e-05,
      "loss": 1.4096,
      "mean_token_accuracy": 0.6525428295135498,
      "num_tokens": 1091461909.0,
      "step": 6498
    },
    {
      "entropy": 1.6973837018013,
      "epoch": 0.713960067012716,
      "grad_norm": 15.46304702758789,
      "learning_rate": 1.54100362113911e-05,
      "loss": 1.4589,
      "mean_token_accuracy": 0.6513221810261408,
      "num_tokens": 1091655585.0,
      "step": 6499
    },
    {
      "entropy": 1.7354335486888885,
      "epoch": 0.7140699239240889,
      "grad_norm": 0.6850374341011047,
      "learning_rate": 1.5408640405319004e-05,
      "loss": 1.4875,
      "mean_token_accuracy": 0.6419627815485001,
      "num_tokens": 1091795441.0,
      "step": 6500
    },
    {
      "entropy": 1.6926626861095428,
      "epoch": 0.7141797808354619,
      "grad_norm": 0.6201228499412537,
      "learning_rate": 1.5407244459715424e-05,
      "loss": 1.3315,
      "mean_token_accuracy": 0.6752594908078512,
      "num_tokens": 1091959354.0,
      "step": 6501
    },
    {
      "entropy": 1.6494509776433308,
      "epoch": 0.7142896377468347,
      "grad_norm": 0.5546920299530029,
      "learning_rate": 1.5405848374624545e-05,
      "loss": 1.514,
      "mean_token_accuracy": 0.6437575320402781,
      "num_tokens": 1092182556.0,
      "step": 6502
    },
    {
      "entropy": 1.7340616683165233,
      "epoch": 0.7143994946582077,
      "grad_norm": 0.7549980282783508,
      "learning_rate": 1.540445215009055e-05,
      "loss": 1.4259,
      "mean_token_accuracy": 0.6449489444494247,
      "num_tokens": 1092358579.0,
      "step": 6503
    },
    {
      "entropy": 1.6930972735087078,
      "epoch": 0.7145093515695806,
      "grad_norm": 0.6418382525444031,
      "learning_rate": 1.5403055786157626e-05,
      "loss": 1.3439,
      "mean_token_accuracy": 0.6560649822155634,
      "num_tokens": 1092489483.0,
      "step": 6504
    },
    {
      "entropy": 1.6835120022296906,
      "epoch": 0.7146192084809535,
      "grad_norm": 0.6219762563705444,
      "learning_rate": 1.5401659282869973e-05,
      "loss": 1.2959,
      "mean_token_accuracy": 0.6700324018796285,
      "num_tokens": 1092617242.0,
      "step": 6505
    },
    {
      "entropy": 1.7238627175490062,
      "epoch": 0.7147290653923265,
      "grad_norm": 0.734199583530426,
      "learning_rate": 1.5400262640271786e-05,
      "loss": 1.5356,
      "mean_token_accuracy": 0.6461377541224161,
      "num_tokens": 1092778452.0,
      "step": 6506
    },
    {
      "entropy": 1.668906291325887,
      "epoch": 0.7148389223036994,
      "grad_norm": 0.6679801344871521,
      "learning_rate": 1.5398865858407272e-05,
      "loss": 1.5205,
      "mean_token_accuracy": 0.6480654130379359,
      "num_tokens": 1092994198.0,
      "step": 6507
    },
    {
      "entropy": 1.7181902726491292,
      "epoch": 0.7149487792150724,
      "grad_norm": 0.7857739925384521,
      "learning_rate": 1.539746893732063e-05,
      "loss": 1.376,
      "mean_token_accuracy": 0.6500228643417358,
      "num_tokens": 1093171424.0,
      "step": 6508
    },
    {
      "entropy": 1.6858000059922535,
      "epoch": 0.7150586361264453,
      "grad_norm": 0.6876581907272339,
      "learning_rate": 1.539607187705608e-05,
      "loss": 1.3498,
      "mean_token_accuracy": 0.6653678317864736,
      "num_tokens": 1093348791.0,
      "step": 6509
    },
    {
      "entropy": 1.714595099290212,
      "epoch": 0.7151684930378183,
      "grad_norm": 0.5665342807769775,
      "learning_rate": 1.5394674677657843e-05,
      "loss": 1.3115,
      "mean_token_accuracy": 0.655341257651647,
      "num_tokens": 1093555039.0,
      "step": 6510
    },
    {
      "entropy": 1.6599359611670177,
      "epoch": 0.7152783499491912,
      "grad_norm": 0.7044631242752075,
      "learning_rate": 1.5393277339170126e-05,
      "loss": 1.3531,
      "mean_token_accuracy": 0.6782778998215994,
      "num_tokens": 1093719986.0,
      "step": 6511
    },
    {
      "entropy": 1.6935375332832336,
      "epoch": 0.7153882068605641,
      "grad_norm": 0.7041305303573608,
      "learning_rate": 1.539187986163716e-05,
      "loss": 1.445,
      "mean_token_accuracy": 0.6444460153579712,
      "num_tokens": 1093903707.0,
      "step": 6512
    },
    {
      "entropy": 1.6425399382909138,
      "epoch": 0.715498063771937,
      "grad_norm": 0.783403217792511,
      "learning_rate": 1.5390482245103178e-05,
      "loss": 1.4552,
      "mean_token_accuracy": 0.6741680949926376,
      "num_tokens": 1094040376.0,
      "step": 6513
    },
    {
      "entropy": 1.8000925381978352,
      "epoch": 0.71560792068331,
      "grad_norm": 0.6443293690681458,
      "learning_rate": 1.538908448961241e-05,
      "loss": 1.3937,
      "mean_token_accuracy": 0.645576020081838,
      "num_tokens": 1094221651.0,
      "step": 6514
    },
    {
      "entropy": 1.7409981389840443,
      "epoch": 0.7157177775946829,
      "grad_norm": 0.712158203125,
      "learning_rate": 1.5387686595209097e-05,
      "loss": 1.3776,
      "mean_token_accuracy": 0.664316713809967,
      "num_tokens": 1094377410.0,
      "step": 6515
    },
    {
      "entropy": 1.69818913936615,
      "epoch": 0.7158276345060559,
      "grad_norm": 0.681666910648346,
      "learning_rate": 1.5386288561937482e-05,
      "loss": 1.3804,
      "mean_token_accuracy": 0.6551361183325449,
      "num_tokens": 1094534065.0,
      "step": 6516
    },
    {
      "entropy": 1.718794455130895,
      "epoch": 0.7159374914174288,
      "grad_norm": 0.6347442865371704,
      "learning_rate": 1.5384890389841803e-05,
      "loss": 1.3203,
      "mean_token_accuracy": 0.6684871315956116,
      "num_tokens": 1094666102.0,
      "step": 6517
    },
    {
      "entropy": 1.7151610056559246,
      "epoch": 0.7160473483288017,
      "grad_norm": 0.6894080638885498,
      "learning_rate": 1.5383492078966328e-05,
      "loss": 1.3328,
      "mean_token_accuracy": 0.667813797791799,
      "num_tokens": 1094812585.0,
      "step": 6518
    },
    {
      "entropy": 1.6722050309181213,
      "epoch": 0.7161572052401747,
      "grad_norm": 0.6094774007797241,
      "learning_rate": 1.5382093629355303e-05,
      "loss": 1.4698,
      "mean_token_accuracy": 0.6564723700284958,
      "num_tokens": 1094988414.0,
      "step": 6519
    },
    {
      "entropy": 1.7040863831837971,
      "epoch": 0.7162670621515476,
      "grad_norm": 0.6441994905471802,
      "learning_rate": 1.5380695041052983e-05,
      "loss": 1.3583,
      "mean_token_accuracy": 0.6653302560249964,
      "num_tokens": 1095160094.0,
      "step": 6520
    },
    {
      "entropy": 1.7137998640537262,
      "epoch": 0.7163769190629206,
      "grad_norm": 0.6766939163208008,
      "learning_rate": 1.5379296314103645e-05,
      "loss": 1.0347,
      "mean_token_accuracy": 0.6831163018941879,
      "num_tokens": 1095308938.0,
      "step": 6521
    },
    {
      "entropy": 1.773234248161316,
      "epoch": 0.7164867759742934,
      "grad_norm": 0.6776031255722046,
      "learning_rate": 1.5377897448551548e-05,
      "loss": 1.489,
      "mean_token_accuracy": 0.647934744755427,
      "num_tokens": 1095487258.0,
      "step": 6522
    },
    {
      "entropy": 1.7177372376124065,
      "epoch": 0.7165966328856664,
      "grad_norm": 0.629857063293457,
      "learning_rate": 1.537649844444097e-05,
      "loss": 1.3285,
      "mean_token_accuracy": 0.6603048046429952,
      "num_tokens": 1095675612.0,
      "step": 6523
    },
    {
      "entropy": 1.7716063459714253,
      "epoch": 0.7167064897970393,
      "grad_norm": 0.7026961445808411,
      "learning_rate": 1.537509930181619e-05,
      "loss": 1.3509,
      "mean_token_accuracy": 0.6556298683087031,
      "num_tokens": 1095820438.0,
      "step": 6524
    },
    {
      "entropy": 1.7175563077131908,
      "epoch": 0.7168163467084123,
      "grad_norm": 0.765849232673645,
      "learning_rate": 1.537370002072149e-05,
      "loss": 1.4239,
      "mean_token_accuracy": 0.6597336481014887,
      "num_tokens": 1095962592.0,
      "step": 6525
    },
    {
      "entropy": 1.6588062246640523,
      "epoch": 0.7169262036197852,
      "grad_norm": 0.8724434971809387,
      "learning_rate": 1.5372300601201152e-05,
      "loss": 1.454,
      "mean_token_accuracy": 0.6489892651637396,
      "num_tokens": 1096119263.0,
      "step": 6526
    },
    {
      "entropy": 1.752094993988673,
      "epoch": 0.7170360605311582,
      "grad_norm": 0.7585995197296143,
      "learning_rate": 1.537090104329947e-05,
      "loss": 1.348,
      "mean_token_accuracy": 0.677097295721372,
      "num_tokens": 1096272863.0,
      "step": 6527
    },
    {
      "entropy": 1.7106123467286427,
      "epoch": 0.7171459174425311,
      "grad_norm": 0.691969633102417,
      "learning_rate": 1.5369501347060744e-05,
      "loss": 1.4732,
      "mean_token_accuracy": 0.6419112334648768,
      "num_tokens": 1096429369.0,
      "step": 6528
    },
    {
      "entropy": 1.6728369891643524,
      "epoch": 0.7172557743539041,
      "grad_norm": 0.6538815498352051,
      "learning_rate": 1.5368101512529264e-05,
      "loss": 1.3228,
      "mean_token_accuracy": 0.6591041833162308,
      "num_tokens": 1096543106.0,
      "step": 6529
    },
    {
      "entropy": 1.7897494733333588,
      "epoch": 0.717365631265277,
      "grad_norm": 0.8466572761535645,
      "learning_rate": 1.536670153974934e-05,
      "loss": 1.3401,
      "mean_token_accuracy": 0.6769247204065323,
      "num_tokens": 1096698071.0,
      "step": 6530
    },
    {
      "entropy": 1.7067344685395558,
      "epoch": 0.71747548817665,
      "grad_norm": 0.695894181728363,
      "learning_rate": 1.5365301428765286e-05,
      "loss": 1.4081,
      "mean_token_accuracy": 0.6609604756037394,
      "num_tokens": 1096850429.0,
      "step": 6531
    },
    {
      "entropy": 1.7233928342660267,
      "epoch": 0.7175853450880229,
      "grad_norm": 0.6567378044128418,
      "learning_rate": 1.5363901179621403e-05,
      "loss": 1.4852,
      "mean_token_accuracy": 0.6497254719336828,
      "num_tokens": 1097059613.0,
      "step": 6532
    },
    {
      "entropy": 1.7379729052384694,
      "epoch": 0.7176952019993957,
      "grad_norm": 0.7090989351272583,
      "learning_rate": 1.5362500792362013e-05,
      "loss": 1.3564,
      "mean_token_accuracy": 0.6722868382930756,
      "num_tokens": 1097197673.0,
      "step": 6533
    },
    {
      "entropy": 1.689707726240158,
      "epoch": 0.7178050589107687,
      "grad_norm": 0.6554761528968811,
      "learning_rate": 1.5361100267031444e-05,
      "loss": 1.29,
      "mean_token_accuracy": 0.6656525383392969,
      "num_tokens": 1097348154.0,
      "step": 6534
    },
    {
      "entropy": 1.7208319107691448,
      "epoch": 0.7179149158221416,
      "grad_norm": 0.6578717827796936,
      "learning_rate": 1.5359699603674014e-05,
      "loss": 1.3293,
      "mean_token_accuracy": 0.6660318821668625,
      "num_tokens": 1097489928.0,
      "step": 6535
    },
    {
      "entropy": 1.7080370386441548,
      "epoch": 0.7180247727335146,
      "grad_norm": 0.5738018155097961,
      "learning_rate": 1.5358298802334053e-05,
      "loss": 1.4117,
      "mean_token_accuracy": 0.6500293960173925,
      "num_tokens": 1097700016.0,
      "step": 6536
    },
    {
      "entropy": 1.6456352074940999,
      "epoch": 0.7181346296448875,
      "grad_norm": 0.612850546836853,
      "learning_rate": 1.53568978630559e-05,
      "loss": 1.4237,
      "mean_token_accuracy": 0.6467505743106207,
      "num_tokens": 1097920130.0,
      "step": 6537
    },
    {
      "entropy": 1.7054031888643901,
      "epoch": 0.7182444865562605,
      "grad_norm": 0.6343128681182861,
      "learning_rate": 1.53554967858839e-05,
      "loss": 1.31,
      "mean_token_accuracy": 0.6704280972480774,
      "num_tokens": 1098071482.0,
      "step": 6538
    },
    {
      "entropy": 1.739743580420812,
      "epoch": 0.7183543434676334,
      "grad_norm": 0.7319331169128418,
      "learning_rate": 1.535409557086238e-05,
      "loss": 1.2582,
      "mean_token_accuracy": 0.6795140455166498,
      "num_tokens": 1098233791.0,
      "step": 6539
    },
    {
      "entropy": 1.724317838748296,
      "epoch": 0.7184642003790064,
      "grad_norm": 0.6251640915870667,
      "learning_rate": 1.5352694218035703e-05,
      "loss": 1.4219,
      "mean_token_accuracy": 0.6388923674821854,
      "num_tokens": 1098447007.0,
      "step": 6540
    },
    {
      "entropy": 1.7108652492364247,
      "epoch": 0.7185740572903793,
      "grad_norm": 0.7806166410446167,
      "learning_rate": 1.5351292727448214e-05,
      "loss": 1.3493,
      "mean_token_accuracy": 0.6638698279857635,
      "num_tokens": 1098660254.0,
      "step": 6541
    },
    {
      "entropy": 1.6957137882709503,
      "epoch": 0.7186839142017523,
      "grad_norm": 0.6760042309761047,
      "learning_rate": 1.534989109914427e-05,
      "loss": 1.2932,
      "mean_token_accuracy": 0.6657718569040298,
      "num_tokens": 1098799723.0,
      "step": 6542
    },
    {
      "entropy": 1.6598234574000041,
      "epoch": 0.7187937711131251,
      "grad_norm": 0.6579678058624268,
      "learning_rate": 1.5348489333168233e-05,
      "loss": 1.3738,
      "mean_token_accuracy": 0.65997414290905,
      "num_tokens": 1098964913.0,
      "step": 6543
    },
    {
      "entropy": 1.6748213072617848,
      "epoch": 0.7189036280244981,
      "grad_norm": 0.693806529045105,
      "learning_rate": 1.534708742956447e-05,
      "loss": 1.3726,
      "mean_token_accuracy": 0.658714180191358,
      "num_tokens": 1099132726.0,
      "step": 6544
    },
    {
      "entropy": 1.7303595145543416,
      "epoch": 0.719013484935871,
      "grad_norm": 0.9831480979919434,
      "learning_rate": 1.5345685388377342e-05,
      "loss": 1.4561,
      "mean_token_accuracy": 0.6566809763511022,
      "num_tokens": 1099260996.0,
      "step": 6545
    },
    {
      "entropy": 1.6850965122381847,
      "epoch": 0.7191233418472439,
      "grad_norm": 0.6742528080940247,
      "learning_rate": 1.5344283209651237e-05,
      "loss": 1.4858,
      "mean_token_accuracy": 0.650047724445661,
      "num_tokens": 1099473098.0,
      "step": 6546
    },
    {
      "entropy": 1.726267506678899,
      "epoch": 0.7192331987586169,
      "grad_norm": 0.7677439451217651,
      "learning_rate": 1.5342880893430526e-05,
      "loss": 1.4177,
      "mean_token_accuracy": 0.6506613542636236,
      "num_tokens": 1099657221.0,
      "step": 6547
    },
    {
      "entropy": 1.6909742454687755,
      "epoch": 0.7193430556699898,
      "grad_norm": 0.6657822132110596,
      "learning_rate": 1.534147843975959e-05,
      "loss": 1.4182,
      "mean_token_accuracy": 0.659657746553421,
      "num_tokens": 1099834559.0,
      "step": 6548
    },
    {
      "entropy": 1.701712469259898,
      "epoch": 0.7194529125813628,
      "grad_norm": 0.7202948927879333,
      "learning_rate": 1.5340075848682812e-05,
      "loss": 1.296,
      "mean_token_accuracy": 0.6672409772872925,
      "num_tokens": 1099955050.0,
      "step": 6549
    },
    {
      "entropy": 1.711505303780238,
      "epoch": 0.7195627694927357,
      "grad_norm": 0.7047147154808044,
      "learning_rate": 1.53386731202446e-05,
      "loss": 1.4693,
      "mean_token_accuracy": 0.6619550883769989,
      "num_tokens": 1100138035.0,
      "step": 6550
    },
    {
      "entropy": 1.7319445709387462,
      "epoch": 0.7196726264041087,
      "grad_norm": 0.8525048494338989,
      "learning_rate": 1.533727025448933e-05,
      "loss": 1.3342,
      "mean_token_accuracy": 0.6697620848814646,
      "num_tokens": 1100271260.0,
      "step": 6551
    },
    {
      "entropy": 1.7205536564191182,
      "epoch": 0.7197824833154816,
      "grad_norm": 0.8322303891181946,
      "learning_rate": 1.5335867251461415e-05,
      "loss": 1.3912,
      "mean_token_accuracy": 0.6587785333395004,
      "num_tokens": 1100450079.0,
      "step": 6552
    },
    {
      "entropy": 1.7100428342819214,
      "epoch": 0.7198923402268546,
      "grad_norm": 0.7583587169647217,
      "learning_rate": 1.5334464111205253e-05,
      "loss": 1.4353,
      "mean_token_accuracy": 0.6676417837540308,
      "num_tokens": 1100568632.0,
      "step": 6553
    },
    {
      "entropy": 1.6718673606713612,
      "epoch": 0.7200021971382274,
      "grad_norm": 0.6357502937316895,
      "learning_rate": 1.5333060833765255e-05,
      "loss": 1.3762,
      "mean_token_accuracy": 0.6590482493241628,
      "num_tokens": 1100788024.0,
      "step": 6554
    },
    {
      "entropy": 1.7551223436991374,
      "epoch": 0.7201120540496004,
      "grad_norm": 0.7153880000114441,
      "learning_rate": 1.5331657419185838e-05,
      "loss": 1.3293,
      "mean_token_accuracy": 0.6558401187260946,
      "num_tokens": 1100984331.0,
      "step": 6555
    },
    {
      "entropy": 1.6930421988169353,
      "epoch": 0.7202219109609733,
      "grad_norm": 0.6794725656509399,
      "learning_rate": 1.5330253867511415e-05,
      "loss": 1.3988,
      "mean_token_accuracy": 0.6546763380368551,
      "num_tokens": 1101147632.0,
      "step": 6556
    },
    {
      "entropy": 1.679756999015808,
      "epoch": 0.7203317678723463,
      "grad_norm": 0.77561354637146,
      "learning_rate": 1.5328850178786403e-05,
      "loss": 1.3257,
      "mean_token_accuracy": 0.6894521017869314,
      "num_tokens": 1101300740.0,
      "step": 6557
    },
    {
      "entropy": 1.7333133816719055,
      "epoch": 0.7204416247837192,
      "grad_norm": 0.7283507585525513,
      "learning_rate": 1.532744635305524e-05,
      "loss": 1.3716,
      "mean_token_accuracy": 0.6582729518413544,
      "num_tokens": 1101477366.0,
      "step": 6558
    },
    {
      "entropy": 1.7297575374444325,
      "epoch": 0.7205514816950921,
      "grad_norm": 0.7023628950119019,
      "learning_rate": 1.5326042390362347e-05,
      "loss": 1.4311,
      "mean_token_accuracy": 0.651911993821462,
      "num_tokens": 1101638434.0,
      "step": 6559
    },
    {
      "entropy": 1.7308916648228962,
      "epoch": 0.7206613386064651,
      "grad_norm": 0.6646205186843872,
      "learning_rate": 1.532463829075216e-05,
      "loss": 1.4038,
      "mean_token_accuracy": 0.6484263290961584,
      "num_tokens": 1101821514.0,
      "step": 6560
    },
    {
      "entropy": 1.746131847302119,
      "epoch": 0.720771195517838,
      "grad_norm": 0.6808525323867798,
      "learning_rate": 1.532323405426912e-05,
      "loss": 1.4595,
      "mean_token_accuracy": 0.6446107079585394,
      "num_tokens": 1102044527.0,
      "step": 6561
    },
    {
      "entropy": 1.7083693246046703,
      "epoch": 0.720881052429211,
      "grad_norm": 0.7566711902618408,
      "learning_rate": 1.5321829680957673e-05,
      "loss": 1.2904,
      "mean_token_accuracy": 0.680796946088473,
      "num_tokens": 1102175522.0,
      "step": 6562
    },
    {
      "entropy": 1.7244884669780731,
      "epoch": 0.7209909093405839,
      "grad_norm": 0.6379838585853577,
      "learning_rate": 1.532042517086226e-05,
      "loss": 1.3748,
      "mean_token_accuracy": 0.6597454150517782,
      "num_tokens": 1102364222.0,
      "step": 6563
    },
    {
      "entropy": 1.7356492678324382,
      "epoch": 0.7211007662519568,
      "grad_norm": 0.6635233163833618,
      "learning_rate": 1.531902052402734e-05,
      "loss": 1.4433,
      "mean_token_accuracy": 0.64767458041509,
      "num_tokens": 1102498467.0,
      "step": 6564
    },
    {
      "entropy": 1.7014682590961456,
      "epoch": 0.7212106231633297,
      "grad_norm": 0.6852055788040161,
      "learning_rate": 1.5317615740497366e-05,
      "loss": 1.4805,
      "mean_token_accuracy": 0.6671850581963857,
      "num_tokens": 1102659134.0,
      "step": 6565
    },
    {
      "entropy": 1.7902653813362122,
      "epoch": 0.7213204800747027,
      "grad_norm": 0.6710415482521057,
      "learning_rate": 1.53162108203168e-05,
      "loss": 1.4562,
      "mean_token_accuracy": 0.6423666675885519,
      "num_tokens": 1102819522.0,
      "step": 6566
    },
    {
      "entropy": 1.6991690297921498,
      "epoch": 0.7214303369860756,
      "grad_norm": 0.592832088470459,
      "learning_rate": 1.5314805763530106e-05,
      "loss": 1.4588,
      "mean_token_accuracy": 0.6513507117827734,
      "num_tokens": 1103004741.0,
      "step": 6567
    },
    {
      "entropy": 1.7278131941954296,
      "epoch": 0.7215401938974486,
      "grad_norm": 0.6481438875198364,
      "learning_rate": 1.5313400570181755e-05,
      "loss": 1.3835,
      "mean_token_accuracy": 0.6460322539011637,
      "num_tokens": 1103174131.0,
      "step": 6568
    },
    {
      "entropy": 1.7156480550765991,
      "epoch": 0.7216500508088215,
      "grad_norm": 0.5778603553771973,
      "learning_rate": 1.531199524031622e-05,
      "loss": 1.5037,
      "mean_token_accuracy": 0.6403802782297134,
      "num_tokens": 1103460063.0,
      "step": 6569
    },
    {
      "entropy": 1.7245876292387645,
      "epoch": 0.7217599077201945,
      "grad_norm": 0.6985930800437927,
      "learning_rate": 1.5310589773977974e-05,
      "loss": 1.6586,
      "mean_token_accuracy": 0.6096041947603226,
      "num_tokens": 1103734337.0,
      "step": 6570
    },
    {
      "entropy": 1.6952235698699951,
      "epoch": 0.7218697646315674,
      "grad_norm": 0.7454794049263,
      "learning_rate": 1.530918417121151e-05,
      "loss": 1.4224,
      "mean_token_accuracy": 0.6474892646074295,
      "num_tokens": 1103880813.0,
      "step": 6571
    },
    {
      "entropy": 1.6598933935165405,
      "epoch": 0.7219796215429404,
      "grad_norm": 0.647855818271637,
      "learning_rate": 1.5307778432061307e-05,
      "loss": 1.5853,
      "mean_token_accuracy": 0.6572377036015192,
      "num_tokens": 1104135140.0,
      "step": 6572
    },
    {
      "entropy": 1.6665717562039692,
      "epoch": 0.7220894784543133,
      "grad_norm": 0.695473849773407,
      "learning_rate": 1.5306372556571854e-05,
      "loss": 1.3111,
      "mean_token_accuracy": 0.6695192058881124,
      "num_tokens": 1104325457.0,
      "step": 6573
    },
    {
      "entropy": 1.6647779544194539,
      "epoch": 0.7221993353656861,
      "grad_norm": 0.7145929336547852,
      "learning_rate": 1.5304966544787655e-05,
      "loss": 1.4169,
      "mean_token_accuracy": 0.6621694614489874,
      "num_tokens": 1104482078.0,
      "step": 6574
    },
    {
      "entropy": 1.705965260664622,
      "epoch": 0.7223091922770591,
      "grad_norm": 0.6520200371742249,
      "learning_rate": 1.53035603967532e-05,
      "loss": 1.3999,
      "mean_token_accuracy": 0.6532257596651713,
      "num_tokens": 1104709750.0,
      "step": 6575
    },
    {
      "entropy": 1.7335670789082844,
      "epoch": 0.722419049188432,
      "grad_norm": 0.6884702444076538,
      "learning_rate": 1.5302154112513e-05,
      "loss": 1.4801,
      "mean_token_accuracy": 0.6404634515444437,
      "num_tokens": 1104882328.0,
      "step": 6576
    },
    {
      "entropy": 1.7464761237303417,
      "epoch": 0.722528906099805,
      "grad_norm": 0.680620014667511,
      "learning_rate": 1.5300747692111562e-05,
      "loss": 1.3174,
      "mean_token_accuracy": 0.6647460460662842,
      "num_tokens": 1105029762.0,
      "step": 6577
    },
    {
      "entropy": 1.771151453256607,
      "epoch": 0.7226387630111779,
      "grad_norm": 0.6430426836013794,
      "learning_rate": 1.5299341135593397e-05,
      "loss": 1.416,
      "mean_token_accuracy": 0.6499434957901636,
      "num_tokens": 1105183987.0,
      "step": 6578
    },
    {
      "entropy": 1.7155382533868153,
      "epoch": 0.7227486199225509,
      "grad_norm": 0.589311957359314,
      "learning_rate": 1.5297934443003023e-05,
      "loss": 1.4938,
      "mean_token_accuracy": 0.6517259627580643,
      "num_tokens": 1105391076.0,
      "step": 6579
    },
    {
      "entropy": 1.6656960149606068,
      "epoch": 0.7228584768339238,
      "grad_norm": 0.7947255373001099,
      "learning_rate": 1.529652761438496e-05,
      "loss": 1.3701,
      "mean_token_accuracy": 0.6710091133912405,
      "num_tokens": 1105518257.0,
      "step": 6580
    },
    {
      "entropy": 1.695709377527237,
      "epoch": 0.7229683337452968,
      "grad_norm": 0.7417528033256531,
      "learning_rate": 1.529512064978373e-05,
      "loss": 1.5117,
      "mean_token_accuracy": 0.6543413400650024,
      "num_tokens": 1105681961.0,
      "step": 6581
    },
    {
      "entropy": 1.6597294012705486,
      "epoch": 0.7230781906566697,
      "grad_norm": 0.6216127872467041,
      "learning_rate": 1.5293713549243872e-05,
      "loss": 1.3874,
      "mean_token_accuracy": 0.6591449032227198,
      "num_tokens": 1105851772.0,
      "step": 6582
    },
    {
      "entropy": 1.677135815223058,
      "epoch": 0.7231880475680427,
      "grad_norm": 0.7040608525276184,
      "learning_rate": 1.5292306312809914e-05,
      "loss": 1.2326,
      "mean_token_accuracy": 0.6805572162071863,
      "num_tokens": 1106010660.0,
      "step": 6583
    },
    {
      "entropy": 1.6714986264705658,
      "epoch": 0.7232979044794156,
      "grad_norm": 0.7146863341331482,
      "learning_rate": 1.52908989405264e-05,
      "loss": 1.3671,
      "mean_token_accuracy": 0.6705887715021769,
      "num_tokens": 1106194910.0,
      "step": 6584
    },
    {
      "entropy": 1.7175088028113048,
      "epoch": 0.7234077613907886,
      "grad_norm": 0.5585004687309265,
      "learning_rate": 1.5289491432437857e-05,
      "loss": 1.4606,
      "mean_token_accuracy": 0.6325180033842722,
      "num_tokens": 1106435793.0,
      "step": 6585
    },
    {
      "entropy": 1.7380537887414296,
      "epoch": 0.7235176183021614,
      "grad_norm": 0.8111526966094971,
      "learning_rate": 1.528808378858885e-05,
      "loss": 1.4263,
      "mean_token_accuracy": 0.6445368727048238,
      "num_tokens": 1106592659.0,
      "step": 6586
    },
    {
      "entropy": 1.7423686981201172,
      "epoch": 0.7236274752135343,
      "grad_norm": 0.6948752403259277,
      "learning_rate": 1.528667600902392e-05,
      "loss": 1.354,
      "mean_token_accuracy": 0.65903340280056,
      "num_tokens": 1106736777.0,
      "step": 6587
    },
    {
      "entropy": 1.7096178233623505,
      "epoch": 0.7237373321249073,
      "grad_norm": 0.8738431334495544,
      "learning_rate": 1.528526809378763e-05,
      "loss": 1.302,
      "mean_token_accuracy": 0.6691812723875046,
      "num_tokens": 1106864737.0,
      "step": 6588
    },
    {
      "entropy": 1.7112048765023549,
      "epoch": 0.7238471890362802,
      "grad_norm": 0.7258959412574768,
      "learning_rate": 1.5283860042924538e-05,
      "loss": 1.419,
      "mean_token_accuracy": 0.6464797953764597,
      "num_tokens": 1107049074.0,
      "step": 6589
    },
    {
      "entropy": 1.6991894841194153,
      "epoch": 0.7239570459476532,
      "grad_norm": 0.6656256914138794,
      "learning_rate": 1.5282451856479202e-05,
      "loss": 1.3974,
      "mean_token_accuracy": 0.6695433159669241,
      "num_tokens": 1107213955.0,
      "step": 6590
    },
    {
      "entropy": 1.6625440021355946,
      "epoch": 0.7240669028590261,
      "grad_norm": 0.6745372414588928,
      "learning_rate": 1.5281043534496193e-05,
      "loss": 1.2792,
      "mean_token_accuracy": 0.6713592559099197,
      "num_tokens": 1107357394.0,
      "step": 6591
    },
    {
      "entropy": 1.695921152830124,
      "epoch": 0.7241767597703991,
      "grad_norm": 0.7285088896751404,
      "learning_rate": 1.5279635077020087e-05,
      "loss": 1.2813,
      "mean_token_accuracy": 0.6724530756473541,
      "num_tokens": 1107477762.0,
      "step": 6592
    },
    {
      "entropy": 1.691762089729309,
      "epoch": 0.724286616681772,
      "grad_norm": 0.730449914932251,
      "learning_rate": 1.527822648409546e-05,
      "loss": 1.3207,
      "mean_token_accuracy": 0.6625142047802607,
      "num_tokens": 1107709610.0,
      "step": 6593
    },
    {
      "entropy": 1.7176588773727417,
      "epoch": 0.724396473593145,
      "grad_norm": 0.6654216051101685,
      "learning_rate": 1.5276817755766894e-05,
      "loss": 1.3717,
      "mean_token_accuracy": 0.6538281142711639,
      "num_tokens": 1107913145.0,
      "step": 6594
    },
    {
      "entropy": 1.7409211297829945,
      "epoch": 0.7245063305045178,
      "grad_norm": 0.6343408823013306,
      "learning_rate": 1.5275408892078967e-05,
      "loss": 1.4509,
      "mean_token_accuracy": 0.6523208022117615,
      "num_tokens": 1108067869.0,
      "step": 6595
    },
    {
      "entropy": 1.7824281652768452,
      "epoch": 0.7246161874158908,
      "grad_norm": 0.7533055543899536,
      "learning_rate": 1.527399989307628e-05,
      "loss": 1.4195,
      "mean_token_accuracy": 0.6448671966791153,
      "num_tokens": 1108219158.0,
      "step": 6596
    },
    {
      "entropy": 1.7014999488989513,
      "epoch": 0.7247260443272637,
      "grad_norm": 0.5905172824859619,
      "learning_rate": 1.5272590758803423e-05,
      "loss": 1.4628,
      "mean_token_accuracy": 0.6379047979911169,
      "num_tokens": 1108422283.0,
      "step": 6597
    },
    {
      "entropy": 1.6868136525154114,
      "epoch": 0.7248359012386367,
      "grad_norm": 0.7195769548416138,
      "learning_rate": 1.527118148930499e-05,
      "loss": 1.4474,
      "mean_token_accuracy": 0.6536327004432678,
      "num_tokens": 1108576791.0,
      "step": 6598
    },
    {
      "entropy": 1.7102086345354717,
      "epoch": 0.7249457581500096,
      "grad_norm": 0.6632969975471497,
      "learning_rate": 1.526977208462559e-05,
      "loss": 1.3659,
      "mean_token_accuracy": 0.6555024435122808,
      "num_tokens": 1108758285.0,
      "step": 6599
    },
    {
      "entropy": 1.684918999671936,
      "epoch": 0.7250556150613825,
      "grad_norm": 1.003880262374878,
      "learning_rate": 1.526836254480983e-05,
      "loss": 1.523,
      "mean_token_accuracy": 0.657150665918986,
      "num_tokens": 1108915576.0,
      "step": 6600
    },
    {
      "entropy": 1.760528455177943,
      "epoch": 0.7251654719727555,
      "grad_norm": 0.6639096140861511,
      "learning_rate": 1.5266952869902315e-05,
      "loss": 1.3828,
      "mean_token_accuracy": 0.6530559410651525,
      "num_tokens": 1109037423.0,
      "step": 6601
    },
    {
      "entropy": 1.646875262260437,
      "epoch": 0.7252753288841284,
      "grad_norm": 0.7310366630554199,
      "learning_rate": 1.526554305994766e-05,
      "loss": 1.2516,
      "mean_token_accuracy": 0.6824596722920736,
      "num_tokens": 1109183215.0,
      "step": 6602
    },
    {
      "entropy": 1.6977095107237499,
      "epoch": 0.7253851857955014,
      "grad_norm": 0.6350131630897522,
      "learning_rate": 1.5264133114990498e-05,
      "loss": 1.4548,
      "mean_token_accuracy": 0.6472870657841364,
      "num_tokens": 1109397845.0,
      "step": 6603
    },
    {
      "entropy": 1.6626974542935689,
      "epoch": 0.7254950427068743,
      "grad_norm": 0.6890853047370911,
      "learning_rate": 1.526272303507544e-05,
      "loss": 1.3251,
      "mean_token_accuracy": 0.6578503499428431,
      "num_tokens": 1109534813.0,
      "step": 6604
    },
    {
      "entropy": 1.7217269043127696,
      "epoch": 0.7256048996182473,
      "grad_norm": 0.7920450568199158,
      "learning_rate": 1.526131282024712e-05,
      "loss": 1.4178,
      "mean_token_accuracy": 0.6627766042947769,
      "num_tokens": 1109701662.0,
      "step": 6605
    },
    {
      "entropy": 1.7304079035917919,
      "epoch": 0.7257147565296201,
      "grad_norm": 0.6736690402030945,
      "learning_rate": 1.525990247055017e-05,
      "loss": 1.582,
      "mean_token_accuracy": 0.6449010322491328,
      "num_tokens": 1109891057.0,
      "step": 6606
    },
    {
      "entropy": 1.7143594821294148,
      "epoch": 0.7258246134409931,
      "grad_norm": 0.813389778137207,
      "learning_rate": 1.5258491986029224e-05,
      "loss": 1.5102,
      "mean_token_accuracy": 0.6494471182425817,
      "num_tokens": 1110042199.0,
      "step": 6607
    },
    {
      "entropy": 1.712285617987315,
      "epoch": 0.725934470352366,
      "grad_norm": 0.651279628276825,
      "learning_rate": 1.5257081366728928e-05,
      "loss": 1.3512,
      "mean_token_accuracy": 0.6540268957614899,
      "num_tokens": 1110181003.0,
      "step": 6608
    },
    {
      "entropy": 1.7569693525632222,
      "epoch": 0.726044327263739,
      "grad_norm": 0.6964418292045593,
      "learning_rate": 1.5255670612693925e-05,
      "loss": 1.4252,
      "mean_token_accuracy": 0.652028406659762,
      "num_tokens": 1110325250.0,
      "step": 6609
    },
    {
      "entropy": 1.7216349244117737,
      "epoch": 0.7261541841751119,
      "grad_norm": 0.8492372035980225,
      "learning_rate": 1.5254259723968865e-05,
      "loss": 1.406,
      "mean_token_accuracy": 0.6618664065996805,
      "num_tokens": 1110484997.0,
      "step": 6610
    },
    {
      "entropy": 1.6996253232161205,
      "epoch": 0.7262640410864849,
      "grad_norm": 0.6752820014953613,
      "learning_rate": 1.52528487005984e-05,
      "loss": 1.3428,
      "mean_token_accuracy": 0.6618599245945612,
      "num_tokens": 1110628770.0,
      "step": 6611
    },
    {
      "entropy": 1.7417829434076946,
      "epoch": 0.7263738979978578,
      "grad_norm": 0.651860237121582,
      "learning_rate": 1.525143754262719e-05,
      "loss": 1.5468,
      "mean_token_accuracy": 0.6249453624089559,
      "num_tokens": 1110855352.0,
      "step": 6612
    },
    {
      "entropy": 1.6957463920116425,
      "epoch": 0.7264837549092307,
      "grad_norm": 0.6212682127952576,
      "learning_rate": 1.5250026250099896e-05,
      "loss": 1.328,
      "mean_token_accuracy": 0.6674534380435944,
      "num_tokens": 1111037352.0,
      "step": 6613
    },
    {
      "entropy": 1.721895823876063,
      "epoch": 0.7265936118206037,
      "grad_norm": 0.5673272013664246,
      "learning_rate": 1.5248614823061191e-05,
      "loss": 1.3398,
      "mean_token_accuracy": 0.6586939742167791,
      "num_tokens": 1111222031.0,
      "step": 6614
    },
    {
      "entropy": 1.6733955939610798,
      "epoch": 0.7267034687319766,
      "grad_norm": 0.696190595626831,
      "learning_rate": 1.524720326155574e-05,
      "loss": 1.3081,
      "mean_token_accuracy": 0.670863464474678,
      "num_tokens": 1111351621.0,
      "step": 6615
    },
    {
      "entropy": 1.7015343010425568,
      "epoch": 0.7268133256433496,
      "grad_norm": 0.8680276870727539,
      "learning_rate": 1.5245791565628219e-05,
      "loss": 1.554,
      "mean_token_accuracy": 0.6325680613517761,
      "num_tokens": 1111559646.0,
      "step": 6616
    },
    {
      "entropy": 1.6907628178596497,
      "epoch": 0.7269231825547224,
      "grad_norm": 0.8936082124710083,
      "learning_rate": 1.5244379735323305e-05,
      "loss": 1.4222,
      "mean_token_accuracy": 0.6638303697109222,
      "num_tokens": 1111676130.0,
      "step": 6617
    },
    {
      "entropy": 1.6800566116968791,
      "epoch": 0.7270330394660954,
      "grad_norm": 0.6707502603530884,
      "learning_rate": 1.5242967770685688e-05,
      "loss": 1.475,
      "mean_token_accuracy": 0.6595744838317236,
      "num_tokens": 1111839395.0,
      "step": 6618
    },
    {
      "entropy": 1.6874233186244965,
      "epoch": 0.7271428963774683,
      "grad_norm": 0.7718756198883057,
      "learning_rate": 1.5241555671760053e-05,
      "loss": 1.296,
      "mean_token_accuracy": 0.673300489783287,
      "num_tokens": 1111977599.0,
      "step": 6619
    },
    {
      "entropy": 1.69405393799146,
      "epoch": 0.7272527532888413,
      "grad_norm": 0.6836499571800232,
      "learning_rate": 1.5240143438591091e-05,
      "loss": 1.52,
      "mean_token_accuracy": 0.6380777706702551,
      "num_tokens": 1112169745.0,
      "step": 6620
    },
    {
      "entropy": 1.6723734835783641,
      "epoch": 0.7273626102002142,
      "grad_norm": 0.7240423560142517,
      "learning_rate": 1.52387310712235e-05,
      "loss": 1.445,
      "mean_token_accuracy": 0.6521526724100113,
      "num_tokens": 1112355144.0,
      "step": 6621
    },
    {
      "entropy": 1.6805169483025868,
      "epoch": 0.7274724671115872,
      "grad_norm": 0.6674152612686157,
      "learning_rate": 1.5237318569701982e-05,
      "loss": 1.4642,
      "mean_token_accuracy": 0.6453837553660074,
      "num_tokens": 1112530036.0,
      "step": 6622
    },
    {
      "entropy": 1.7313962876796722,
      "epoch": 0.7275823240229601,
      "grad_norm": 0.6953855156898499,
      "learning_rate": 1.523590593407124e-05,
      "loss": 1.3161,
      "mean_token_accuracy": 0.6699342131614685,
      "num_tokens": 1112683314.0,
      "step": 6623
    },
    {
      "entropy": 1.6776468753814697,
      "epoch": 0.7276921809343331,
      "grad_norm": 0.7314421534538269,
      "learning_rate": 1.5234493164375983e-05,
      "loss": 1.3186,
      "mean_token_accuracy": 0.6604682207107544,
      "num_tokens": 1112849572.0,
      "step": 6624
    },
    {
      "entropy": 1.774099330107371,
      "epoch": 0.727802037845706,
      "grad_norm": 0.9143105149269104,
      "learning_rate": 1.5233080260660929e-05,
      "loss": 1.3862,
      "mean_token_accuracy": 0.6627939840157827,
      "num_tokens": 1112960638.0,
      "step": 6625
    },
    {
      "entropy": 1.74024565021197,
      "epoch": 0.727911894757079,
      "grad_norm": 0.7166746854782104,
      "learning_rate": 1.5231667222970788e-05,
      "loss": 1.5266,
      "mean_token_accuracy": 0.6335213532050451,
      "num_tokens": 1113149401.0,
      "step": 6626
    },
    {
      "entropy": 1.6582687099774678,
      "epoch": 0.7280217516684518,
      "grad_norm": 0.6647648215293884,
      "learning_rate": 1.5230254051350288e-05,
      "loss": 1.3167,
      "mean_token_accuracy": 0.6622982124487559,
      "num_tokens": 1113296414.0,
      "step": 6627
    },
    {
      "entropy": 1.7777949670950572,
      "epoch": 0.7281316085798247,
      "grad_norm": 0.7266597151756287,
      "learning_rate": 1.5228840745844154e-05,
      "loss": 1.4685,
      "mean_token_accuracy": 0.6511821498473486,
      "num_tokens": 1113480827.0,
      "step": 6628
    },
    {
      "entropy": 1.702185720205307,
      "epoch": 0.7282414654911977,
      "grad_norm": 0.7669931650161743,
      "learning_rate": 1.5227427306497113e-05,
      "loss": 1.4266,
      "mean_token_accuracy": 0.6498915751775106,
      "num_tokens": 1113636000.0,
      "step": 6629
    },
    {
      "entropy": 1.69204247991244,
      "epoch": 0.7283513224025706,
      "grad_norm": 0.6504570841789246,
      "learning_rate": 1.5226013733353906e-05,
      "loss": 1.2188,
      "mean_token_accuracy": 0.681893065571785,
      "num_tokens": 1113756966.0,
      "step": 6630
    },
    {
      "entropy": 1.7312454879283905,
      "epoch": 0.7284611793139436,
      "grad_norm": 0.622042179107666,
      "learning_rate": 1.5224600026459266e-05,
      "loss": 1.4279,
      "mean_token_accuracy": 0.6588011731704077,
      "num_tokens": 1113941442.0,
      "step": 6631
    },
    {
      "entropy": 1.6893315315246582,
      "epoch": 0.7285710362253165,
      "grad_norm": 0.7400401830673218,
      "learning_rate": 1.5223186185857941e-05,
      "loss": 1.314,
      "mean_token_accuracy": 0.6682803531487783,
      "num_tokens": 1114137617.0,
      "step": 6632
    },
    {
      "entropy": 1.695889800786972,
      "epoch": 0.7286808931366895,
      "grad_norm": 0.7676869034767151,
      "learning_rate": 1.5221772211594674e-05,
      "loss": 1.4751,
      "mean_token_accuracy": 0.6432386587063471,
      "num_tokens": 1114363719.0,
      "step": 6633
    },
    {
      "entropy": 1.7293170789877574,
      "epoch": 0.7287907500480624,
      "grad_norm": 0.628367006778717,
      "learning_rate": 1.5220358103714223e-05,
      "loss": 1.472,
      "mean_token_accuracy": 0.6526259730259577,
      "num_tokens": 1114546800.0,
      "step": 6634
    },
    {
      "entropy": 1.6271907488505046,
      "epoch": 0.7289006069594354,
      "grad_norm": 0.5525145530700684,
      "learning_rate": 1.5218943862261334e-05,
      "loss": 1.3507,
      "mean_token_accuracy": 0.6575760791699091,
      "num_tokens": 1114731169.0,
      "step": 6635
    },
    {
      "entropy": 1.70510795712471,
      "epoch": 0.7290104638708083,
      "grad_norm": 0.5792953372001648,
      "learning_rate": 1.5217529487280777e-05,
      "loss": 1.3888,
      "mean_token_accuracy": 0.6515243798494339,
      "num_tokens": 1114929310.0,
      "step": 6636
    },
    {
      "entropy": 1.772267738978068,
      "epoch": 0.7291203207821813,
      "grad_norm": 0.7042428851127625,
      "learning_rate": 1.5216114978817311e-05,
      "loss": 1.393,
      "mean_token_accuracy": 0.6505443006753922,
      "num_tokens": 1115053969.0,
      "step": 6637
    },
    {
      "entropy": 1.7222981949647267,
      "epoch": 0.7292301776935541,
      "grad_norm": 0.7960110902786255,
      "learning_rate": 1.5214700336915707e-05,
      "loss": 1.3253,
      "mean_token_accuracy": 0.6682598739862442,
      "num_tokens": 1115182490.0,
      "step": 6638
    },
    {
      "entropy": 1.656973163286845,
      "epoch": 0.7293400346049271,
      "grad_norm": 0.8022185564041138,
      "learning_rate": 1.5213285561620735e-05,
      "loss": 1.3047,
      "mean_token_accuracy": 0.678027073542277,
      "num_tokens": 1115345148.0,
      "step": 6639
    },
    {
      "entropy": 1.6861250897248585,
      "epoch": 0.7294498915163,
      "grad_norm": 0.6490318179130554,
      "learning_rate": 1.5211870652977174e-05,
      "loss": 1.4897,
      "mean_token_accuracy": 0.63862211505572,
      "num_tokens": 1115591859.0,
      "step": 6640
    },
    {
      "entropy": 1.6945749620596569,
      "epoch": 0.7295597484276729,
      "grad_norm": 0.6802365779876709,
      "learning_rate": 1.5210455611029805e-05,
      "loss": 1.2691,
      "mean_token_accuracy": 0.6764042377471924,
      "num_tokens": 1115753223.0,
      "step": 6641
    },
    {
      "entropy": 1.6721658011277516,
      "epoch": 0.7296696053390459,
      "grad_norm": 0.7338157892227173,
      "learning_rate": 1.5209040435823412e-05,
      "loss": 1.2733,
      "mean_token_accuracy": 0.6703089773654938,
      "num_tokens": 1115947252.0,
      "step": 6642
    },
    {
      "entropy": 1.7122320334116619,
      "epoch": 0.7297794622504188,
      "grad_norm": 0.6685588955879211,
      "learning_rate": 1.5207625127402788e-05,
      "loss": 1.3575,
      "mean_token_accuracy": 0.6568591793378195,
      "num_tokens": 1116088045.0,
      "step": 6643
    },
    {
      "entropy": 1.7311648031075795,
      "epoch": 0.7298893191617918,
      "grad_norm": 0.635732114315033,
      "learning_rate": 1.5206209685812723e-05,
      "loss": 1.4057,
      "mean_token_accuracy": 0.6452435304721197,
      "num_tokens": 1116281246.0,
      "step": 6644
    },
    {
      "entropy": 1.6677932838598888,
      "epoch": 0.7299991760731647,
      "grad_norm": 0.6619640588760376,
      "learning_rate": 1.5204794111098016e-05,
      "loss": 1.4132,
      "mean_token_accuracy": 0.6569789250691732,
      "num_tokens": 1116507132.0,
      "step": 6645
    },
    {
      "entropy": 1.692247857650121,
      "epoch": 0.7301090329845377,
      "grad_norm": 0.6537544131278992,
      "learning_rate": 1.5203378403303473e-05,
      "loss": 1.3817,
      "mean_token_accuracy": 0.6712391922871271,
      "num_tokens": 1116674442.0,
      "step": 6646
    },
    {
      "entropy": 1.676435798406601,
      "epoch": 0.7302188898959106,
      "grad_norm": 0.5650108456611633,
      "learning_rate": 1.5201962562473893e-05,
      "loss": 1.4422,
      "mean_token_accuracy": 0.6645029336214066,
      "num_tokens": 1116857222.0,
      "step": 6647
    },
    {
      "entropy": 1.7497854729493458,
      "epoch": 0.7303287468072835,
      "grad_norm": 0.6814372539520264,
      "learning_rate": 1.5200546588654097e-05,
      "loss": 1.5072,
      "mean_token_accuracy": 0.641438439488411,
      "num_tokens": 1117030729.0,
      "step": 6648
    },
    {
      "entropy": 1.6965225736300151,
      "epoch": 0.7304386037186564,
      "grad_norm": 0.7143113017082214,
      "learning_rate": 1.519913048188889e-05,
      "loss": 1.4258,
      "mean_token_accuracy": 0.6576728324095408,
      "num_tokens": 1117220830.0,
      "step": 6649
    },
    {
      "entropy": 1.6916110416253407,
      "epoch": 0.7305484606300294,
      "grad_norm": 0.8342239260673523,
      "learning_rate": 1.5197714242223098e-05,
      "loss": 1.4201,
      "mean_token_accuracy": 0.6518561790386835,
      "num_tokens": 1117356587.0,
      "step": 6650
    },
    {
      "entropy": 1.6956707139809926,
      "epoch": 0.7306583175414023,
      "grad_norm": 0.6960749626159668,
      "learning_rate": 1.519629786970154e-05,
      "loss": 1.5202,
      "mean_token_accuracy": 0.6355159282684326,
      "num_tokens": 1117540824.0,
      "step": 6651
    },
    {
      "entropy": 1.6752854486306508,
      "epoch": 0.7307681744527753,
      "grad_norm": 0.6621298789978027,
      "learning_rate": 1.5194881364369048e-05,
      "loss": 1.198,
      "mean_token_accuracy": 0.6848858445882797,
      "num_tokens": 1117657941.0,
      "step": 6652
    },
    {
      "entropy": 1.7179746131102245,
      "epoch": 0.7308780313641482,
      "grad_norm": 0.6317608952522278,
      "learning_rate": 1.5193464726270448e-05,
      "loss": 1.3602,
      "mean_token_accuracy": 0.6555174241463343,
      "num_tokens": 1117821762.0,
      "step": 6653
    },
    {
      "entropy": 1.7452267309029896,
      "epoch": 0.7309878882755211,
      "grad_norm": 0.695980429649353,
      "learning_rate": 1.519204795545058e-05,
      "loss": 1.2723,
      "mean_token_accuracy": 0.670079380273819,
      "num_tokens": 1117938624.0,
      "step": 6654
    },
    {
      "entropy": 1.685364653666814,
      "epoch": 0.7310977451868941,
      "grad_norm": 0.6580285429954529,
      "learning_rate": 1.5190631051954285e-05,
      "loss": 1.4589,
      "mean_token_accuracy": 0.6547621041536331,
      "num_tokens": 1118134302.0,
      "step": 6655
    },
    {
      "entropy": 1.701217790444692,
      "epoch": 0.731207602098267,
      "grad_norm": 0.6681925058364868,
      "learning_rate": 1.5189214015826406e-05,
      "loss": 1.2259,
      "mean_token_accuracy": 0.6868906915187836,
      "num_tokens": 1118254275.0,
      "step": 6656
    },
    {
      "entropy": 1.7343595921993256,
      "epoch": 0.73131745900964,
      "grad_norm": 0.7051990628242493,
      "learning_rate": 1.5187796847111787e-05,
      "loss": 1.2701,
      "mean_token_accuracy": 0.6716774702072144,
      "num_tokens": 1118370267.0,
      "step": 6657
    },
    {
      "entropy": 1.7071207165718079,
      "epoch": 0.7314273159210128,
      "grad_norm": 0.6622605919837952,
      "learning_rate": 1.5186379545855287e-05,
      "loss": 1.4456,
      "mean_token_accuracy": 0.6554889182249705,
      "num_tokens": 1118535104.0,
      "step": 6658
    },
    {
      "entropy": 1.7222228546937306,
      "epoch": 0.7315371728323858,
      "grad_norm": 0.7932170033454895,
      "learning_rate": 1.5184962112101762e-05,
      "loss": 1.4314,
      "mean_token_accuracy": 0.6692963143189748,
      "num_tokens": 1118679063.0,
      "step": 6659
    },
    {
      "entropy": 1.6951739291350048,
      "epoch": 0.7316470297437587,
      "grad_norm": 0.7392410039901733,
      "learning_rate": 1.5183544545896067e-05,
      "loss": 1.4841,
      "mean_token_accuracy": 0.6538377950588862,
      "num_tokens": 1118849347.0,
      "step": 6660
    },
    {
      "entropy": 1.6979187230269115,
      "epoch": 0.7317568866551317,
      "grad_norm": 0.7129770517349243,
      "learning_rate": 1.5182126847283079e-05,
      "loss": 1.4111,
      "mean_token_accuracy": 0.6520341485738754,
      "num_tokens": 1119029143.0,
      "step": 6661
    },
    {
      "entropy": 1.738596349954605,
      "epoch": 0.7318667435665046,
      "grad_norm": 0.707251250743866,
      "learning_rate": 1.5180709016307657e-05,
      "loss": 1.3563,
      "mean_token_accuracy": 0.6612697641054789,
      "num_tokens": 1119159190.0,
      "step": 6662
    },
    {
      "entropy": 1.760772128899892,
      "epoch": 0.7319766004778776,
      "grad_norm": 0.9078652262687683,
      "learning_rate": 1.5179291053014678e-05,
      "loss": 1.5109,
      "mean_token_accuracy": 0.648401752114296,
      "num_tokens": 1119289035.0,
      "step": 6663
    },
    {
      "entropy": 1.6850820978482564,
      "epoch": 0.7320864573892505,
      "grad_norm": 0.6886321902275085,
      "learning_rate": 1.5177872957449022e-05,
      "loss": 1.2989,
      "mean_token_accuracy": 0.6829408456881841,
      "num_tokens": 1119453081.0,
      "step": 6664
    },
    {
      "entropy": 1.6729042033354442,
      "epoch": 0.7321963143006235,
      "grad_norm": 0.6785295605659485,
      "learning_rate": 1.517645472965557e-05,
      "loss": 1.4541,
      "mean_token_accuracy": 0.6468785454829534,
      "num_tokens": 1119599099.0,
      "step": 6665
    },
    {
      "entropy": 1.7227231860160828,
      "epoch": 0.7323061712119964,
      "grad_norm": 0.7047486305236816,
      "learning_rate": 1.5175036369679207e-05,
      "loss": 1.3855,
      "mean_token_accuracy": 0.6632230083147684,
      "num_tokens": 1119738114.0,
      "step": 6666
    },
    {
      "entropy": 1.6837018032868702,
      "epoch": 0.7324160281233693,
      "grad_norm": 0.6316218972206116,
      "learning_rate": 1.5173617877564824e-05,
      "loss": 1.4426,
      "mean_token_accuracy": 0.6650246977806091,
      "num_tokens": 1119931974.0,
      "step": 6667
    },
    {
      "entropy": 1.7190644443035126,
      "epoch": 0.7325258850347423,
      "grad_norm": 0.6559016108512878,
      "learning_rate": 1.5172199253357317e-05,
      "loss": 1.4886,
      "mean_token_accuracy": 0.647669846812884,
      "num_tokens": 1120121272.0,
      "step": 6668
    },
    {
      "entropy": 1.7384677827358246,
      "epoch": 0.7326357419461151,
      "grad_norm": 0.689016580581665,
      "learning_rate": 1.517078049710158e-05,
      "loss": 1.5965,
      "mean_token_accuracy": 0.6388440877199173,
      "num_tokens": 1120326088.0,
      "step": 6669
    },
    {
      "entropy": 1.7198711037635803,
      "epoch": 0.7327455988574881,
      "grad_norm": 0.7162541747093201,
      "learning_rate": 1.5169361608842526e-05,
      "loss": 1.4903,
      "mean_token_accuracy": 0.6306491643190384,
      "num_tokens": 1120527353.0,
      "step": 6670
    },
    {
      "entropy": 1.7130565146605174,
      "epoch": 0.732855455768861,
      "grad_norm": 0.7176745533943176,
      "learning_rate": 1.5167942588625051e-05,
      "loss": 1.4091,
      "mean_token_accuracy": 0.663971463839213,
      "num_tokens": 1120649569.0,
      "step": 6671
    },
    {
      "entropy": 1.691343088944753,
      "epoch": 0.732965312680234,
      "grad_norm": 0.7076248526573181,
      "learning_rate": 1.516652343649407e-05,
      "loss": 1.2405,
      "mean_token_accuracy": 0.684244821468989,
      "num_tokens": 1120793554.0,
      "step": 6672
    },
    {
      "entropy": 1.7118805746237438,
      "epoch": 0.7330751695916069,
      "grad_norm": 0.6533283591270447,
      "learning_rate": 1.51651041524945e-05,
      "loss": 1.3292,
      "mean_token_accuracy": 0.6786542683839798,
      "num_tokens": 1120953250.0,
      "step": 6673
    },
    {
      "entropy": 1.717886209487915,
      "epoch": 0.7331850265029799,
      "grad_norm": 0.6892806887626648,
      "learning_rate": 1.5163684736671268e-05,
      "loss": 1.4064,
      "mean_token_accuracy": 0.6795545766750971,
      "num_tokens": 1121130654.0,
      "step": 6674
    },
    {
      "entropy": 1.6847498218218486,
      "epoch": 0.7332948834143528,
      "grad_norm": 0.6819150447845459,
      "learning_rate": 1.516226518906928e-05,
      "loss": 1.4565,
      "mean_token_accuracy": 0.635857825477918,
      "num_tokens": 1121314947.0,
      "step": 6675
    },
    {
      "entropy": 1.7709390620390575,
      "epoch": 0.7334047403257258,
      "grad_norm": 0.7383188605308533,
      "learning_rate": 1.5160845509733481e-05,
      "loss": 1.4823,
      "mean_token_accuracy": 0.6510516554117203,
      "num_tokens": 1121457352.0,
      "step": 6676
    },
    {
      "entropy": 1.7243086993694305,
      "epoch": 0.7335145972370987,
      "grad_norm": 0.7374492287635803,
      "learning_rate": 1.5159425698708794e-05,
      "loss": 1.3823,
      "mean_token_accuracy": 0.6554542581240336,
      "num_tokens": 1121595888.0,
      "step": 6677
    },
    {
      "entropy": 1.7116446495056152,
      "epoch": 0.7336244541484717,
      "grad_norm": 0.7225131988525391,
      "learning_rate": 1.515800575604016e-05,
      "loss": 1.3005,
      "mean_token_accuracy": 0.6611469139655431,
      "num_tokens": 1121715635.0,
      "step": 6678
    },
    {
      "entropy": 1.7593301236629486,
      "epoch": 0.7337343110598445,
      "grad_norm": 0.6853554844856262,
      "learning_rate": 1.5156585681772513e-05,
      "loss": 1.4137,
      "mean_token_accuracy": 0.652967189749082,
      "num_tokens": 1121900551.0,
      "step": 6679
    },
    {
      "entropy": 1.6201580166816711,
      "epoch": 0.7338441679712175,
      "grad_norm": 0.5897448658943176,
      "learning_rate": 1.5155165475950808e-05,
      "loss": 1.3441,
      "mean_token_accuracy": 0.6597137997547785,
      "num_tokens": 1122074093.0,
      "step": 6680
    },
    {
      "entropy": 1.6828961670398712,
      "epoch": 0.7339540248825904,
      "grad_norm": 0.6277378797531128,
      "learning_rate": 1.5153745138619984e-05,
      "loss": 1.447,
      "mean_token_accuracy": 0.6535770297050476,
      "num_tokens": 1122262412.0,
      "step": 6681
    },
    {
      "entropy": 1.6912165582180023,
      "epoch": 0.7340638817939633,
      "grad_norm": 0.6900094747543335,
      "learning_rate": 1.5152324669825001e-05,
      "loss": 1.3992,
      "mean_token_accuracy": 0.6562529653310776,
      "num_tokens": 1122393860.0,
      "step": 6682
    },
    {
      "entropy": 1.7647963762283325,
      "epoch": 0.7341737387053363,
      "grad_norm": 0.7445904612541199,
      "learning_rate": 1.515090406961081e-05,
      "loss": 1.4102,
      "mean_token_accuracy": 0.6538730363051096,
      "num_tokens": 1122528985.0,
      "step": 6683
    },
    {
      "entropy": 1.6255736549695332,
      "epoch": 0.7342835956167092,
      "grad_norm": 0.7534268498420715,
      "learning_rate": 1.514948333802238e-05,
      "loss": 1.509,
      "mean_token_accuracy": 0.6601062913735708,
      "num_tokens": 1122731476.0,
      "step": 6684
    },
    {
      "entropy": 1.744109223286311,
      "epoch": 0.7343934525280822,
      "grad_norm": 0.6984800100326538,
      "learning_rate": 1.5148062475104667e-05,
      "loss": 1.3975,
      "mean_token_accuracy": 0.6600144853194555,
      "num_tokens": 1122910393.0,
      "step": 6685
    },
    {
      "entropy": 1.706167111794154,
      "epoch": 0.7345033094394551,
      "grad_norm": 0.7030271887779236,
      "learning_rate": 1.5146641480902648e-05,
      "loss": 1.3823,
      "mean_token_accuracy": 0.6593709588050842,
      "num_tokens": 1123088442.0,
      "step": 6686
    },
    {
      "entropy": 1.6892346441745758,
      "epoch": 0.7346131663508281,
      "grad_norm": 0.7129636406898499,
      "learning_rate": 1.5145220355461296e-05,
      "loss": 1.4505,
      "mean_token_accuracy": 0.6492991894483566,
      "num_tokens": 1123239118.0,
      "step": 6687
    },
    {
      "entropy": 1.6550804773966472,
      "epoch": 0.734723023262201,
      "grad_norm": 0.5693633556365967,
      "learning_rate": 1.5143799098825587e-05,
      "loss": 1.5521,
      "mean_token_accuracy": 0.634413423637549,
      "num_tokens": 1123485150.0,
      "step": 6688
    },
    {
      "entropy": 1.6616708040237427,
      "epoch": 0.734832880173574,
      "grad_norm": 0.5824199318885803,
      "learning_rate": 1.5142377711040503e-05,
      "loss": 1.3501,
      "mean_token_accuracy": 0.65452907482783,
      "num_tokens": 1123694935.0,
      "step": 6689
    },
    {
      "entropy": 1.6947866678237915,
      "epoch": 0.7349427370849468,
      "grad_norm": 0.6208266019821167,
      "learning_rate": 1.5140956192151031e-05,
      "loss": 1.581,
      "mean_token_accuracy": 0.6196437428394953,
      "num_tokens": 1123927009.0,
      "step": 6690
    },
    {
      "entropy": 1.6772996087869008,
      "epoch": 0.7350525939963198,
      "grad_norm": 0.6417631506919861,
      "learning_rate": 1.513953454220216e-05,
      "loss": 1.3748,
      "mean_token_accuracy": 0.6572922120491663,
      "num_tokens": 1124106818.0,
      "step": 6691
    },
    {
      "entropy": 1.721063772837321,
      "epoch": 0.7351624509076927,
      "grad_norm": 0.7408942580223083,
      "learning_rate": 1.513811276123889e-05,
      "loss": 1.4452,
      "mean_token_accuracy": 0.6464604238669077,
      "num_tokens": 1124260837.0,
      "step": 6692
    },
    {
      "entropy": 1.7039151688416798,
      "epoch": 0.7352723078190657,
      "grad_norm": 0.7227491736412048,
      "learning_rate": 1.5136690849306212e-05,
      "loss": 1.3876,
      "mean_token_accuracy": 0.6548017660776774,
      "num_tokens": 1124411691.0,
      "step": 6693
    },
    {
      "entropy": 1.6541140377521515,
      "epoch": 0.7353821647304386,
      "grad_norm": 0.5854305624961853,
      "learning_rate": 1.5135268806449135e-05,
      "loss": 1.4233,
      "mean_token_accuracy": 0.6561457067728043,
      "num_tokens": 1124624577.0,
      "step": 6694
    },
    {
      "entropy": 1.6717216869195302,
      "epoch": 0.7354920216418115,
      "grad_norm": 0.6732227206230164,
      "learning_rate": 1.5133846632712663e-05,
      "loss": 1.3833,
      "mean_token_accuracy": 0.6642757703860601,
      "num_tokens": 1124813586.0,
      "step": 6695
    },
    {
      "entropy": 1.6729457378387451,
      "epoch": 0.7356018785531845,
      "grad_norm": 0.7442759871482849,
      "learning_rate": 1.5132424328141809e-05,
      "loss": 1.3488,
      "mean_token_accuracy": 0.660913089911143,
      "num_tokens": 1124978782.0,
      "step": 6696
    },
    {
      "entropy": 1.6723896364370983,
      "epoch": 0.7357117354645574,
      "grad_norm": 0.663541853427887,
      "learning_rate": 1.5131001892781582e-05,
      "loss": 1.3012,
      "mean_token_accuracy": 0.6680503934621811,
      "num_tokens": 1125122428.0,
      "step": 6697
    },
    {
      "entropy": 1.746447930733363,
      "epoch": 0.7358215923759304,
      "grad_norm": 0.8296138048171997,
      "learning_rate": 1.5129579326677014e-05,
      "loss": 1.3793,
      "mean_token_accuracy": 0.6552826712528864,
      "num_tokens": 1125290284.0,
      "step": 6698
    },
    {
      "entropy": 1.7190218269824982,
      "epoch": 0.7359314492873033,
      "grad_norm": 0.7751715779304504,
      "learning_rate": 1.5128156629873119e-05,
      "loss": 1.406,
      "mean_token_accuracy": 0.6542918781439463,
      "num_tokens": 1125443248.0,
      "step": 6699
    },
    {
      "entropy": 1.7631977200508118,
      "epoch": 0.7360413061986762,
      "grad_norm": 0.6478453874588013,
      "learning_rate": 1.5126733802414923e-05,
      "loss": 1.3893,
      "mean_token_accuracy": 0.6554517845312754,
      "num_tokens": 1125635355.0,
      "step": 6700
    },
    {
      "entropy": 1.6814933717250824,
      "epoch": 0.7361511631100491,
      "grad_norm": 0.6561465859413147,
      "learning_rate": 1.5125310844347465e-05,
      "loss": 1.4587,
      "mean_token_accuracy": 0.6471677968899409,
      "num_tokens": 1125845108.0,
      "step": 6701
    },
    {
      "entropy": 1.5653251310189564,
      "epoch": 0.7362610200214221,
      "grad_norm": 0.704756498336792,
      "learning_rate": 1.5123887755715776e-05,
      "loss": 1.288,
      "mean_token_accuracy": 0.6854538271824518,
      "num_tokens": 1125981759.0,
      "step": 6702
    },
    {
      "entropy": 1.7314506371815999,
      "epoch": 0.736370876932795,
      "grad_norm": 0.724329948425293,
      "learning_rate": 1.5122464536564899e-05,
      "loss": 1.4032,
      "mean_token_accuracy": 0.6662786255280176,
      "num_tokens": 1126133016.0,
      "step": 6703
    },
    {
      "entropy": 1.6579938729604085,
      "epoch": 0.736480733844168,
      "grad_norm": 0.6255090236663818,
      "learning_rate": 1.5121041186939877e-05,
      "loss": 1.3151,
      "mean_token_accuracy": 0.6845894455909729,
      "num_tokens": 1126274029.0,
      "step": 6704
    },
    {
      "entropy": 1.7049907743930817,
      "epoch": 0.7365905907555409,
      "grad_norm": 0.6977643370628357,
      "learning_rate": 1.5119617706885759e-05,
      "loss": 1.455,
      "mean_token_accuracy": 0.6570224811633428,
      "num_tokens": 1126430889.0,
      "step": 6705
    },
    {
      "entropy": 1.6987931430339813,
      "epoch": 0.7367004476669139,
      "grad_norm": 0.5982023477554321,
      "learning_rate": 1.5118194096447595e-05,
      "loss": 1.5509,
      "mean_token_accuracy": 0.6404446264108022,
      "num_tokens": 1126622602.0,
      "step": 6706
    },
    {
      "entropy": 1.678564767042796,
      "epoch": 0.7368103045782868,
      "grad_norm": 0.7278105020523071,
      "learning_rate": 1.5116770355670443e-05,
      "loss": 1.2952,
      "mean_token_accuracy": 0.67676875491937,
      "num_tokens": 1126798370.0,
      "step": 6707
    },
    {
      "entropy": 1.6989206870396931,
      "epoch": 0.7369201614896597,
      "grad_norm": 0.6880453824996948,
      "learning_rate": 1.5115346484599369e-05,
      "loss": 1.382,
      "mean_token_accuracy": 0.6712295562028885,
      "num_tokens": 1126918091.0,
      "step": 6708
    },
    {
      "entropy": 1.7392151554425557,
      "epoch": 0.7370300184010327,
      "grad_norm": 1.0246655941009521,
      "learning_rate": 1.5113922483279428e-05,
      "loss": 1.6634,
      "mean_token_accuracy": 0.6349669992923737,
      "num_tokens": 1127107995.0,
      "step": 6709
    },
    {
      "entropy": 1.707019825776418,
      "epoch": 0.7371398753124055,
      "grad_norm": 0.5890080332756042,
      "learning_rate": 1.5112498351755698e-05,
      "loss": 1.4471,
      "mean_token_accuracy": 0.6488803972800573,
      "num_tokens": 1127258053.0,
      "step": 6710
    },
    {
      "entropy": 1.7253030637900035,
      "epoch": 0.7372497322237785,
      "grad_norm": 0.8130516409873962,
      "learning_rate": 1.5111074090073245e-05,
      "loss": 1.3519,
      "mean_token_accuracy": 0.6647070497274399,
      "num_tokens": 1127396234.0,
      "step": 6711
    },
    {
      "entropy": 1.673587401707967,
      "epoch": 0.7373595891351514,
      "grad_norm": 0.7452590465545654,
      "learning_rate": 1.5109649698277154e-05,
      "loss": 1.3056,
      "mean_token_accuracy": 0.6725350320339203,
      "num_tokens": 1127561050.0,
      "step": 6712
    },
    {
      "entropy": 1.679761916399002,
      "epoch": 0.7374694460465244,
      "grad_norm": 0.6038820743560791,
      "learning_rate": 1.5108225176412494e-05,
      "loss": 1.3374,
      "mean_token_accuracy": 0.6583557625611623,
      "num_tokens": 1127773253.0,
      "step": 6713
    },
    {
      "entropy": 1.717817982037862,
      "epoch": 0.7375793029578973,
      "grad_norm": 0.7298420667648315,
      "learning_rate": 1.5106800524524367e-05,
      "loss": 1.2114,
      "mean_token_accuracy": 0.685623566309611,
      "num_tokens": 1127909193.0,
      "step": 6714
    },
    {
      "entropy": 1.695088545481364,
      "epoch": 0.7376891598692703,
      "grad_norm": 0.6675203442573547,
      "learning_rate": 1.510537574265785e-05,
      "loss": 1.3353,
      "mean_token_accuracy": 0.6633873581886292,
      "num_tokens": 1128068140.0,
      "step": 6715
    },
    {
      "entropy": 1.734484702348709,
      "epoch": 0.7377990167806432,
      "grad_norm": 0.7346919178962708,
      "learning_rate": 1.5103950830858041e-05,
      "loss": 1.3236,
      "mean_token_accuracy": 0.6552731692790985,
      "num_tokens": 1128212239.0,
      "step": 6716
    },
    {
      "entropy": 1.7688794334729512,
      "epoch": 0.7379088736920162,
      "grad_norm": 0.6720606684684753,
      "learning_rate": 1.5102525789170038e-05,
      "loss": 1.5391,
      "mean_token_accuracy": 0.6279580891132355,
      "num_tokens": 1128447592.0,
      "step": 6717
    },
    {
      "entropy": 1.6898958086967468,
      "epoch": 0.7380187306033891,
      "grad_norm": 0.6676945090293884,
      "learning_rate": 1.5101100617638943e-05,
      "loss": 1.4134,
      "mean_token_accuracy": 0.6584409524997076,
      "num_tokens": 1128590607.0,
      "step": 6718
    },
    {
      "entropy": 1.6703394452730815,
      "epoch": 0.7381285875147621,
      "grad_norm": 0.6979921460151672,
      "learning_rate": 1.5099675316309857e-05,
      "loss": 1.3771,
      "mean_token_accuracy": 0.6564718584219614,
      "num_tokens": 1128763833.0,
      "step": 6719
    },
    {
      "entropy": 1.6774761080741882,
      "epoch": 0.738238444426135,
      "grad_norm": 0.6202614903450012,
      "learning_rate": 1.50982498852279e-05,
      "loss": 1.4414,
      "mean_token_accuracy": 0.6443298210700353,
      "num_tokens": 1128979972.0,
      "step": 6720
    },
    {
      "entropy": 1.6933607856432598,
      "epoch": 0.738348301337508,
      "grad_norm": 0.6849549412727356,
      "learning_rate": 1.5096824324438178e-05,
      "loss": 1.3212,
      "mean_token_accuracy": 0.6674212664365768,
      "num_tokens": 1129105832.0,
      "step": 6721
    },
    {
      "entropy": 1.6850066979726155,
      "epoch": 0.7384581582488808,
      "grad_norm": 0.6466884613037109,
      "learning_rate": 1.5095398633985812e-05,
      "loss": 1.3967,
      "mean_token_accuracy": 0.6724070111910502,
      "num_tokens": 1129257945.0,
      "step": 6722
    },
    {
      "entropy": 1.751002699136734,
      "epoch": 0.7385680151602537,
      "grad_norm": 0.8040537238121033,
      "learning_rate": 1.5093972813915927e-05,
      "loss": 1.3518,
      "mean_token_accuracy": 0.6617087076107661,
      "num_tokens": 1129373817.0,
      "step": 6723
    },
    {
      "entropy": 1.7356711030006409,
      "epoch": 0.7386778720716267,
      "grad_norm": 0.7240248918533325,
      "learning_rate": 1.5092546864273648e-05,
      "loss": 1.268,
      "mean_token_accuracy": 0.6819742123285929,
      "num_tokens": 1129493491.0,
      "step": 6724
    },
    {
      "entropy": 1.7143625020980835,
      "epoch": 0.7387877289829996,
      "grad_norm": 0.6687737107276917,
      "learning_rate": 1.50911207851041e-05,
      "loss": 1.3479,
      "mean_token_accuracy": 0.655364657441775,
      "num_tokens": 1129641923.0,
      "step": 6725
    },
    {
      "entropy": 1.776674618323644,
      "epoch": 0.7388975858943726,
      "grad_norm": 0.7817396521568298,
      "learning_rate": 1.5089694576452425e-05,
      "loss": 1.3725,
      "mean_token_accuracy": 0.6603845258553823,
      "num_tokens": 1129787182.0,
      "step": 6726
    },
    {
      "entropy": 1.681551843881607,
      "epoch": 0.7390074428057455,
      "grad_norm": 0.643803596496582,
      "learning_rate": 1.5088268238363762e-05,
      "loss": 1.358,
      "mean_token_accuracy": 0.6494590491056442,
      "num_tokens": 1129974180.0,
      "step": 6727
    },
    {
      "entropy": 1.7054549753665924,
      "epoch": 0.7391172997171185,
      "grad_norm": 0.7394840121269226,
      "learning_rate": 1.5086841770883249e-05,
      "loss": 1.479,
      "mean_token_accuracy": 0.6421494533618292,
      "num_tokens": 1130137129.0,
      "step": 6728
    },
    {
      "entropy": 1.661314348379771,
      "epoch": 0.7392271566284914,
      "grad_norm": 0.8410232663154602,
      "learning_rate": 1.5085415174056035e-05,
      "loss": 1.2465,
      "mean_token_accuracy": 0.6789174030224482,
      "num_tokens": 1130250429.0,
      "step": 6729
    },
    {
      "entropy": 1.718008428812027,
      "epoch": 0.7393370135398644,
      "grad_norm": 0.6935721039772034,
      "learning_rate": 1.5083988447927276e-05,
      "loss": 1.2534,
      "mean_token_accuracy": 0.6772228926420212,
      "num_tokens": 1130373436.0,
      "step": 6730
    },
    {
      "entropy": 1.6716387967268627,
      "epoch": 0.7394468704512372,
      "grad_norm": 0.7610313892364502,
      "learning_rate": 1.5082561592542115e-05,
      "loss": 1.2726,
      "mean_token_accuracy": 0.674076090256373,
      "num_tokens": 1130495850.0,
      "step": 6731
    },
    {
      "entropy": 1.725304255882899,
      "epoch": 0.7395567273626102,
      "grad_norm": 0.8041244149208069,
      "learning_rate": 1.5081134607945726e-05,
      "loss": 1.274,
      "mean_token_accuracy": 0.6769175430138906,
      "num_tokens": 1130644766.0,
      "step": 6732
    },
    {
      "entropy": 1.7322080036004384,
      "epoch": 0.7396665842739831,
      "grad_norm": 0.6417209506034851,
      "learning_rate": 1.5079707494183265e-05,
      "loss": 1.3872,
      "mean_token_accuracy": 0.6669703970352808,
      "num_tokens": 1130810397.0,
      "step": 6733
    },
    {
      "entropy": 1.6604767839113872,
      "epoch": 0.7397764411853561,
      "grad_norm": 0.6830531358718872,
      "learning_rate": 1.5078280251299898e-05,
      "loss": 1.3999,
      "mean_token_accuracy": 0.657826155424118,
      "num_tokens": 1130962006.0,
      "step": 6734
    },
    {
      "entropy": 1.7110504806041718,
      "epoch": 0.739886298096729,
      "grad_norm": 0.7035920023918152,
      "learning_rate": 1.5076852879340798e-05,
      "loss": 1.3654,
      "mean_token_accuracy": 0.6586341708898544,
      "num_tokens": 1131090714.0,
      "step": 6735
    },
    {
      "entropy": 1.6222879389921825,
      "epoch": 0.7399961550081019,
      "grad_norm": 0.7651909589767456,
      "learning_rate": 1.5075425378351143e-05,
      "loss": 1.4796,
      "mean_token_accuracy": 0.6476244777441025,
      "num_tokens": 1131286901.0,
      "step": 6736
    },
    {
      "entropy": 1.6963482002417247,
      "epoch": 0.7401060119194749,
      "grad_norm": 0.6514533162117004,
      "learning_rate": 1.507399774837611e-05,
      "loss": 1.4149,
      "mean_token_accuracy": 0.6608110070228577,
      "num_tokens": 1131442624.0,
      "step": 6737
    },
    {
      "entropy": 1.6943640112876892,
      "epoch": 0.7402158688308478,
      "grad_norm": 0.7217374444007874,
      "learning_rate": 1.5072569989460887e-05,
      "loss": 1.4165,
      "mean_token_accuracy": 0.664705902338028,
      "num_tokens": 1131640297.0,
      "step": 6738
    },
    {
      "entropy": 1.7367797791957855,
      "epoch": 0.7403257257422208,
      "grad_norm": 0.6871684789657593,
      "learning_rate": 1.5071142101650657e-05,
      "loss": 1.4446,
      "mean_token_accuracy": 0.6475637157758077,
      "num_tokens": 1131801764.0,
      "step": 6739
    },
    {
      "entropy": 1.6569513181845348,
      "epoch": 0.7404355826535937,
      "grad_norm": 0.6715342998504639,
      "learning_rate": 1.5069714084990614e-05,
      "loss": 1.2538,
      "mean_token_accuracy": 0.6771769026915232,
      "num_tokens": 1131961068.0,
      "step": 6740
    },
    {
      "entropy": 1.648532897233963,
      "epoch": 0.7405454395649667,
      "grad_norm": 0.724288821220398,
      "learning_rate": 1.5068285939525953e-05,
      "loss": 1.3426,
      "mean_token_accuracy": 0.6620112607876459,
      "num_tokens": 1132131553.0,
      "step": 6741
    },
    {
      "entropy": 1.7068750858306885,
      "epoch": 0.7406552964763395,
      "grad_norm": 0.7151614427566528,
      "learning_rate": 1.506685766530188e-05,
      "loss": 1.328,
      "mean_token_accuracy": 0.6632406115531921,
      "num_tokens": 1132259340.0,
      "step": 6742
    },
    {
      "entropy": 1.713490217924118,
      "epoch": 0.7407651533877125,
      "grad_norm": 0.7277394533157349,
      "learning_rate": 1.506542926236359e-05,
      "loss": 1.3877,
      "mean_token_accuracy": 0.6614874800046285,
      "num_tokens": 1132391138.0,
      "step": 6743
    },
    {
      "entropy": 1.700178434451421,
      "epoch": 0.7408750102990854,
      "grad_norm": 0.6973790526390076,
      "learning_rate": 1.5064000730756295e-05,
      "loss": 1.4149,
      "mean_token_accuracy": 0.6597117880980173,
      "num_tokens": 1132531234.0,
      "step": 6744
    },
    {
      "entropy": 1.6388778189818065,
      "epoch": 0.7409848672104584,
      "grad_norm": 0.6643558144569397,
      "learning_rate": 1.5062572070525207e-05,
      "loss": 1.4025,
      "mean_token_accuracy": 0.6725161075592041,
      "num_tokens": 1132734802.0,
      "step": 6745
    },
    {
      "entropy": 1.7185613016287486,
      "epoch": 0.7410947241218313,
      "grad_norm": 0.8322924971580505,
      "learning_rate": 1.5061143281715552e-05,
      "loss": 1.4067,
      "mean_token_accuracy": 0.6537605971097946,
      "num_tokens": 1132895353.0,
      "step": 6746
    },
    {
      "entropy": 1.7120015025138855,
      "epoch": 0.7412045810332043,
      "grad_norm": 0.725736677646637,
      "learning_rate": 1.5059714364372531e-05,
      "loss": 1.4964,
      "mean_token_accuracy": 0.6400942405064901,
      "num_tokens": 1133050277.0,
      "step": 6747
    },
    {
      "entropy": 1.677657534678777,
      "epoch": 0.7413144379445772,
      "grad_norm": 0.7027127742767334,
      "learning_rate": 1.5058285318541389e-05,
      "loss": 1.5079,
      "mean_token_accuracy": 0.6412277817726135,
      "num_tokens": 1133231985.0,
      "step": 6748
    },
    {
      "entropy": 1.6989895105361938,
      "epoch": 0.7414242948559501,
      "grad_norm": 0.6422317028045654,
      "learning_rate": 1.505685614426734e-05,
      "loss": 1.398,
      "mean_token_accuracy": 0.6447745362917582,
      "num_tokens": 1133401721.0,
      "step": 6749
    },
    {
      "entropy": 1.7608485122521718,
      "epoch": 0.7415341517673231,
      "grad_norm": 0.6693912744522095,
      "learning_rate": 1.5055426841595624e-05,
      "loss": 1.3246,
      "mean_token_accuracy": 0.6594583491484324,
      "num_tokens": 1133512280.0,
      "step": 6750
    },
    {
      "entropy": 1.6934813757737477,
      "epoch": 0.741644008678696,
      "grad_norm": 0.692389965057373,
      "learning_rate": 1.5053997410571474e-05,
      "loss": 1.6025,
      "mean_token_accuracy": 0.6274192283550898,
      "num_tokens": 1133772590.0,
      "step": 6751
    },
    {
      "entropy": 1.7201940218607585,
      "epoch": 0.741753865590069,
      "grad_norm": 0.700623095035553,
      "learning_rate": 1.5052567851240138e-05,
      "loss": 1.3729,
      "mean_token_accuracy": 0.6719879905382792,
      "num_tokens": 1133893711.0,
      "step": 6752
    },
    {
      "entropy": 1.7405705253283184,
      "epoch": 0.7418637225014418,
      "grad_norm": 0.7587204575538635,
      "learning_rate": 1.5051138163646848e-05,
      "loss": 1.5049,
      "mean_token_accuracy": 0.6506867110729218,
      "num_tokens": 1134043053.0,
      "step": 6753
    },
    {
      "entropy": 1.7238063216209412,
      "epoch": 0.7419735794128148,
      "grad_norm": 0.6716615557670593,
      "learning_rate": 1.5049708347836866e-05,
      "loss": 1.6108,
      "mean_token_accuracy": 0.6179195394118627,
      "num_tokens": 1134248453.0,
      "step": 6754
    },
    {
      "entropy": 1.6737729807694752,
      "epoch": 0.7420834363241877,
      "grad_norm": 0.7254316210746765,
      "learning_rate": 1.5048278403855439e-05,
      "loss": 1.3895,
      "mean_token_accuracy": 0.6687343964974085,
      "num_tokens": 1134417667.0,
      "step": 6755
    },
    {
      "entropy": 1.6903795301914215,
      "epoch": 0.7421932932355607,
      "grad_norm": 0.6885725855827332,
      "learning_rate": 1.5046848331747822e-05,
      "loss": 1.324,
      "mean_token_accuracy": 0.6620573401451111,
      "num_tokens": 1134596695.0,
      "step": 6756
    },
    {
      "entropy": 1.6956494649251301,
      "epoch": 0.7423031501469336,
      "grad_norm": 0.7012706398963928,
      "learning_rate": 1.5045418131559281e-05,
      "loss": 1.3519,
      "mean_token_accuracy": 0.6658426324526469,
      "num_tokens": 1134747187.0,
      "step": 6757
    },
    {
      "entropy": 1.7318655947844188,
      "epoch": 0.7424130070583066,
      "grad_norm": 0.8121592402458191,
      "learning_rate": 1.5043987803335081e-05,
      "loss": 1.4545,
      "mean_token_accuracy": 0.6543787519137064,
      "num_tokens": 1134884449.0,
      "step": 6758
    },
    {
      "entropy": 1.7426222761472066,
      "epoch": 0.7425228639696795,
      "grad_norm": 0.7535271644592285,
      "learning_rate": 1.5042557347120486e-05,
      "loss": 1.3212,
      "mean_token_accuracy": 0.6727963835000992,
      "num_tokens": 1135027665.0,
      "step": 6759
    },
    {
      "entropy": 1.6979150076707203,
      "epoch": 0.7426327208810525,
      "grad_norm": 0.8373980522155762,
      "learning_rate": 1.5041126762960774e-05,
      "loss": 1.3267,
      "mean_token_accuracy": 0.6588234305381775,
      "num_tokens": 1135172577.0,
      "step": 6760
    },
    {
      "entropy": 1.700280745824178,
      "epoch": 0.7427425777924254,
      "grad_norm": 0.7200369834899902,
      "learning_rate": 1.503969605090122e-05,
      "loss": 1.3094,
      "mean_token_accuracy": 0.6659737030665079,
      "num_tokens": 1135299828.0,
      "step": 6761
    },
    {
      "entropy": 1.7104643682638805,
      "epoch": 0.7428524347037982,
      "grad_norm": 0.8385793566703796,
      "learning_rate": 1.5038265210987109e-05,
      "loss": 1.3116,
      "mean_token_accuracy": 0.677546814084053,
      "num_tokens": 1135459026.0,
      "step": 6762
    },
    {
      "entropy": 1.6308595538139343,
      "epoch": 0.7429622916151712,
      "grad_norm": 0.6230477690696716,
      "learning_rate": 1.5036834243263718e-05,
      "loss": 1.4281,
      "mean_token_accuracy": 0.6566774696111679,
      "num_tokens": 1135670612.0,
      "step": 6763
    },
    {
      "entropy": 1.709012786547343,
      "epoch": 0.7430721485265441,
      "grad_norm": 0.9405829906463623,
      "learning_rate": 1.5035403147776348e-05,
      "loss": 1.3462,
      "mean_token_accuracy": 0.662533774971962,
      "num_tokens": 1135792652.0,
      "step": 6764
    },
    {
      "entropy": 1.6998238166173298,
      "epoch": 0.7431820054379171,
      "grad_norm": 0.7661788463592529,
      "learning_rate": 1.5033971924570283e-05,
      "loss": 1.3654,
      "mean_token_accuracy": 0.6749661912520727,
      "num_tokens": 1135970182.0,
      "step": 6765
    },
    {
      "entropy": 1.6655668715635936,
      "epoch": 0.74329186234929,
      "grad_norm": 0.7080719470977783,
      "learning_rate": 1.5032540573690828e-05,
      "loss": 1.4305,
      "mean_token_accuracy": 0.651120533545812,
      "num_tokens": 1136142615.0,
      "step": 6766
    },
    {
      "entropy": 1.7483255763848622,
      "epoch": 0.743401719260663,
      "grad_norm": 0.7917311191558838,
      "learning_rate": 1.5031109095183278e-05,
      "loss": 1.5119,
      "mean_token_accuracy": 0.6534301191568375,
      "num_tokens": 1136350269.0,
      "step": 6767
    },
    {
      "entropy": 1.633179912964503,
      "epoch": 0.7435115761720359,
      "grad_norm": 0.5961988568305969,
      "learning_rate": 1.5029677489092944e-05,
      "loss": 1.3725,
      "mean_token_accuracy": 0.6645344644784927,
      "num_tokens": 1136531760.0,
      "step": 6768
    },
    {
      "entropy": 1.7083572447299957,
      "epoch": 0.7436214330834089,
      "grad_norm": 0.7430605292320251,
      "learning_rate": 1.5028245755465129e-05,
      "loss": 1.3712,
      "mean_token_accuracy": 0.6828558494647344,
      "num_tokens": 1136674495.0,
      "step": 6769
    },
    {
      "entropy": 1.6955423951148987,
      "epoch": 0.7437312899947818,
      "grad_norm": 0.6523454785346985,
      "learning_rate": 1.5026813894345159e-05,
      "loss": 1.4493,
      "mean_token_accuracy": 0.6469675749540329,
      "num_tokens": 1136869151.0,
      "step": 6770
    },
    {
      "entropy": 1.7560264070828755,
      "epoch": 0.7438411469061548,
      "grad_norm": 0.6248143911361694,
      "learning_rate": 1.5025381905778336e-05,
      "loss": 1.392,
      "mean_token_accuracy": 0.6438594659169515,
      "num_tokens": 1137053577.0,
      "step": 6771
    },
    {
      "entropy": 1.7154277463754017,
      "epoch": 0.7439510038175277,
      "grad_norm": 0.6773508191108704,
      "learning_rate": 1.5023949789809991e-05,
      "loss": 1.3957,
      "mean_token_accuracy": 0.6574154595534006,
      "num_tokens": 1137208972.0,
      "step": 6772
    },
    {
      "entropy": 1.6735303401947021,
      "epoch": 0.7440608607289007,
      "grad_norm": 0.7054452896118164,
      "learning_rate": 1.5022517546485451e-05,
      "loss": 1.2731,
      "mean_token_accuracy": 0.6664699663718542,
      "num_tokens": 1137320522.0,
      "step": 6773
    },
    {
      "entropy": 1.7122906744480133,
      "epoch": 0.7441707176402735,
      "grad_norm": 0.6373655796051025,
      "learning_rate": 1.502108517585004e-05,
      "loss": 1.4198,
      "mean_token_accuracy": 0.6484536776940028,
      "num_tokens": 1137490263.0,
      "step": 6774
    },
    {
      "entropy": 1.6470833718776703,
      "epoch": 0.7442805745516465,
      "grad_norm": 0.6568727493286133,
      "learning_rate": 1.50196526779491e-05,
      "loss": 1.441,
      "mean_token_accuracy": 0.647697259982427,
      "num_tokens": 1137726786.0,
      "step": 6775
    },
    {
      "entropy": 1.6590462823708851,
      "epoch": 0.7443904314630194,
      "grad_norm": 0.8282439112663269,
      "learning_rate": 1.501822005282796e-05,
      "loss": 1.3672,
      "mean_token_accuracy": 0.6522834698359171,
      "num_tokens": 1137919330.0,
      "step": 6776
    },
    {
      "entropy": 1.6876604358355205,
      "epoch": 0.7445002883743923,
      "grad_norm": 0.6368933320045471,
      "learning_rate": 1.5016787300531965e-05,
      "loss": 1.3694,
      "mean_token_accuracy": 0.6590426663557688,
      "num_tokens": 1138061019.0,
      "step": 6777
    },
    {
      "entropy": 1.6871869663397472,
      "epoch": 0.7446101452857653,
      "grad_norm": 0.6821638345718384,
      "learning_rate": 1.5015354421106464e-05,
      "loss": 1.5103,
      "mean_token_accuracy": 0.6524971077839533,
      "num_tokens": 1138230811.0,
      "step": 6778
    },
    {
      "entropy": 1.6363123655319214,
      "epoch": 0.7447200021971382,
      "grad_norm": 0.6159114837646484,
      "learning_rate": 1.5013921414596806e-05,
      "loss": 1.3712,
      "mean_token_accuracy": 0.6576385100682577,
      "num_tokens": 1138422996.0,
      "step": 6779
    },
    {
      "entropy": 1.6642758349577587,
      "epoch": 0.7448298591085112,
      "grad_norm": 0.6397916674613953,
      "learning_rate": 1.5012488281048344e-05,
      "loss": 1.3105,
      "mean_token_accuracy": 0.6616799881060919,
      "num_tokens": 1138559976.0,
      "step": 6780
    },
    {
      "entropy": 1.6806075970331829,
      "epoch": 0.7449397160198841,
      "grad_norm": 0.6554465889930725,
      "learning_rate": 1.5011055020506432e-05,
      "loss": 1.3143,
      "mean_token_accuracy": 0.6696526308854421,
      "num_tokens": 1138716321.0,
      "step": 6781
    },
    {
      "entropy": 1.7737302879492443,
      "epoch": 0.7450495729312571,
      "grad_norm": 0.7125297784805298,
      "learning_rate": 1.500962163301644e-05,
      "loss": 1.3339,
      "mean_token_accuracy": 0.6506142367919286,
      "num_tokens": 1138844468.0,
      "step": 6782
    },
    {
      "entropy": 1.7082662880420685,
      "epoch": 0.74515942984263,
      "grad_norm": 0.690348744392395,
      "learning_rate": 1.500818811862373e-05,
      "loss": 1.5161,
      "mean_token_accuracy": 0.643420398235321,
      "num_tokens": 1138993642.0,
      "step": 6783
    },
    {
      "entropy": 1.7463260293006897,
      "epoch": 0.745269286754003,
      "grad_norm": 1.0192396640777588,
      "learning_rate": 1.500675447737367e-05,
      "loss": 1.5818,
      "mean_token_accuracy": 0.6677199751138687,
      "num_tokens": 1139162652.0,
      "step": 6784
    },
    {
      "entropy": 1.6664335330327351,
      "epoch": 0.7453791436653758,
      "grad_norm": 0.6164513826370239,
      "learning_rate": 1.5005320709311638e-05,
      "loss": 1.4417,
      "mean_token_accuracy": 0.6483336140712103,
      "num_tokens": 1139341551.0,
      "step": 6785
    },
    {
      "entropy": 1.7031769156455994,
      "epoch": 0.7454890005767488,
      "grad_norm": 0.8442233204841614,
      "learning_rate": 1.5003886814483011e-05,
      "loss": 1.302,
      "mean_token_accuracy": 0.6629199633995692,
      "num_tokens": 1139484565.0,
      "step": 6786
    },
    {
      "entropy": 1.7150315344333649,
      "epoch": 0.7455988574881217,
      "grad_norm": 0.7291525602340698,
      "learning_rate": 1.5002452792933166e-05,
      "loss": 1.3973,
      "mean_token_accuracy": 0.6579045653343201,
      "num_tokens": 1139653727.0,
      "step": 6787
    },
    {
      "entropy": 1.6477097769578297,
      "epoch": 0.7457087143994947,
      "grad_norm": 0.6176000833511353,
      "learning_rate": 1.50010186447075e-05,
      "loss": 1.2534,
      "mean_token_accuracy": 0.6797188719113668,
      "num_tokens": 1139808285.0,
      "step": 6788
    },
    {
      "entropy": 1.6606711745262146,
      "epoch": 0.7458185713108676,
      "grad_norm": 0.705842912197113,
      "learning_rate": 1.4999584369851392e-05,
      "loss": 1.4349,
      "mean_token_accuracy": 0.6436782528956732,
      "num_tokens": 1140008061.0,
      "step": 6789
    },
    {
      "entropy": 1.7517486015955608,
      "epoch": 0.7459284282222405,
      "grad_norm": 0.625238835811615,
      "learning_rate": 1.4998149968410243e-05,
      "loss": 1.4634,
      "mean_token_accuracy": 0.625215545296669,
      "num_tokens": 1140198927.0,
      "step": 6790
    },
    {
      "entropy": 1.7464244266351063,
      "epoch": 0.7460382851336135,
      "grad_norm": 0.7666485905647278,
      "learning_rate": 1.4996715440429447e-05,
      "loss": 1.4979,
      "mean_token_accuracy": 0.6369941085577011,
      "num_tokens": 1140359162.0,
      "step": 6791
    },
    {
      "entropy": 1.667342593272527,
      "epoch": 0.7461481420449864,
      "grad_norm": 0.6632201671600342,
      "learning_rate": 1.4995280785954413e-05,
      "loss": 1.3564,
      "mean_token_accuracy": 0.6578471561272939,
      "num_tokens": 1140549770.0,
      "step": 6792
    },
    {
      "entropy": 1.7453742424647014,
      "epoch": 0.7462579989563594,
      "grad_norm": 0.7090116739273071,
      "learning_rate": 1.4993846005030537e-05,
      "loss": 1.4562,
      "mean_token_accuracy": 0.653822178641955,
      "num_tokens": 1140699614.0,
      "step": 6793
    },
    {
      "entropy": 1.7000041206677754,
      "epoch": 0.7463678558677322,
      "grad_norm": 0.7104377150535583,
      "learning_rate": 1.4992411097703237e-05,
      "loss": 1.3719,
      "mean_token_accuracy": 0.6573426475127538,
      "num_tokens": 1140867840.0,
      "step": 6794
    },
    {
      "entropy": 1.6723633507887523,
      "epoch": 0.7464777127791052,
      "grad_norm": 0.7225411534309387,
      "learning_rate": 1.4990976064017925e-05,
      "loss": 1.2767,
      "mean_token_accuracy": 0.6692603131135305,
      "num_tokens": 1140998012.0,
      "step": 6795
    },
    {
      "entropy": 1.6979938050111134,
      "epoch": 0.7465875696904781,
      "grad_norm": 0.6646689176559448,
      "learning_rate": 1.4989540904020018e-05,
      "loss": 1.2908,
      "mean_token_accuracy": 0.6694482167561849,
      "num_tokens": 1141117803.0,
      "step": 6796
    },
    {
      "entropy": 1.68376824259758,
      "epoch": 0.7466974266018511,
      "grad_norm": 0.6983800530433655,
      "learning_rate": 1.4988105617754942e-05,
      "loss": 1.5562,
      "mean_token_accuracy": 0.6386436770359675,
      "num_tokens": 1141368730.0,
      "step": 6797
    },
    {
      "entropy": 1.6934349636236827,
      "epoch": 0.746807283513224,
      "grad_norm": 0.9968954920768738,
      "learning_rate": 1.498667020526812e-05,
      "loss": 1.4534,
      "mean_token_accuracy": 0.6503161440292994,
      "num_tokens": 1141576192.0,
      "step": 6798
    },
    {
      "entropy": 1.7412570118904114,
      "epoch": 0.746917140424597,
      "grad_norm": 0.5900823473930359,
      "learning_rate": 1.4985234666604978e-05,
      "loss": 1.5797,
      "mean_token_accuracy": 0.6377448340257009,
      "num_tokens": 1141774836.0,
      "step": 6799
    },
    {
      "entropy": 1.659286359945933,
      "epoch": 0.7470269973359699,
      "grad_norm": 0.6186773180961609,
      "learning_rate": 1.4983799001810957e-05,
      "loss": 1.39,
      "mean_token_accuracy": 0.6724599103132883,
      "num_tokens": 1141944431.0,
      "step": 6800
    },
    {
      "entropy": 1.6813781360785167,
      "epoch": 0.7471368542473429,
      "grad_norm": 0.7697616219520569,
      "learning_rate": 1.4982363210931495e-05,
      "loss": 1.3546,
      "mean_token_accuracy": 0.6622022340695063,
      "num_tokens": 1142128048.0,
      "step": 6801
    },
    {
      "entropy": 1.7053708632787068,
      "epoch": 0.7472467111587158,
      "grad_norm": 0.625506579875946,
      "learning_rate": 1.498092729401203e-05,
      "loss": 1.3282,
      "mean_token_accuracy": 0.6647703299919764,
      "num_tokens": 1142326201.0,
      "step": 6802
    },
    {
      "entropy": 1.668170581261317,
      "epoch": 0.7473565680700887,
      "grad_norm": 0.6538956761360168,
      "learning_rate": 1.4979491251098008e-05,
      "loss": 1.3052,
      "mean_token_accuracy": 0.6595268547534943,
      "num_tokens": 1142502759.0,
      "step": 6803
    },
    {
      "entropy": 1.6516262590885162,
      "epoch": 0.7474664249814617,
      "grad_norm": 0.5898981690406799,
      "learning_rate": 1.4978055082234883e-05,
      "loss": 1.3253,
      "mean_token_accuracy": 0.6630469312270483,
      "num_tokens": 1142677014.0,
      "step": 6804
    },
    {
      "entropy": 1.7548083265622456,
      "epoch": 0.7475762818928345,
      "grad_norm": 0.7785349488258362,
      "learning_rate": 1.4976618787468109e-05,
      "loss": 1.3407,
      "mean_token_accuracy": 0.6611214627822241,
      "num_tokens": 1142821725.0,
      "step": 6805
    },
    {
      "entropy": 1.6554772853851318,
      "epoch": 0.7476861388042075,
      "grad_norm": 0.6662288308143616,
      "learning_rate": 1.497518236684314e-05,
      "loss": 1.4193,
      "mean_token_accuracy": 0.6535109380880991,
      "num_tokens": 1143014793.0,
      "step": 6806
    },
    {
      "entropy": 1.6847680111726124,
      "epoch": 0.7477959957155804,
      "grad_norm": 0.7195385098457336,
      "learning_rate": 1.4973745820405442e-05,
      "loss": 1.3784,
      "mean_token_accuracy": 0.6672850747903188,
      "num_tokens": 1143166310.0,
      "step": 6807
    },
    {
      "entropy": 1.7305493354797363,
      "epoch": 0.7479058526269534,
      "grad_norm": 0.7656927704811096,
      "learning_rate": 1.497230914820048e-05,
      "loss": 1.4317,
      "mean_token_accuracy": 0.656554693977038,
      "num_tokens": 1143316576.0,
      "step": 6808
    },
    {
      "entropy": 1.6923631529013317,
      "epoch": 0.7480157095383263,
      "grad_norm": 0.7529177069664001,
      "learning_rate": 1.4970872350273717e-05,
      "loss": 1.1828,
      "mean_token_accuracy": 0.688283234834671,
      "num_tokens": 1143455530.0,
      "step": 6809
    },
    {
      "entropy": 1.7461569805939992,
      "epoch": 0.7481255664496993,
      "grad_norm": 0.5634061694145203,
      "learning_rate": 1.496943542667064e-05,
      "loss": 1.3979,
      "mean_token_accuracy": 0.6512090861797333,
      "num_tokens": 1143626650.0,
      "step": 6810
    },
    {
      "entropy": 1.6781017482280731,
      "epoch": 0.7482354233610722,
      "grad_norm": 0.7326881885528564,
      "learning_rate": 1.4967998377436717e-05,
      "loss": 1.4369,
      "mean_token_accuracy": 0.6579112311204275,
      "num_tokens": 1143767777.0,
      "step": 6811
    },
    {
      "entropy": 1.6676452855269115,
      "epoch": 0.7483452802724452,
      "grad_norm": 0.8091786503791809,
      "learning_rate": 1.4966561202617435e-05,
      "loss": 1.4482,
      "mean_token_accuracy": 0.6634651124477386,
      "num_tokens": 1143955831.0,
      "step": 6812
    },
    {
      "entropy": 1.7290521661440532,
      "epoch": 0.7484551371838181,
      "grad_norm": 0.6584422588348389,
      "learning_rate": 1.4965123902258279e-05,
      "loss": 1.3347,
      "mean_token_accuracy": 0.6581239700317383,
      "num_tokens": 1144071834.0,
      "step": 6813
    },
    {
      "entropy": 1.6535277366638184,
      "epoch": 0.7485649940951911,
      "grad_norm": 0.6501061916351318,
      "learning_rate": 1.4963686476404737e-05,
      "loss": 1.4189,
      "mean_token_accuracy": 0.6524655272563299,
      "num_tokens": 1144258749.0,
      "step": 6814
    },
    {
      "entropy": 1.6799985071023305,
      "epoch": 0.748674851006564,
      "grad_norm": 0.8732005953788757,
      "learning_rate": 1.4962248925102305e-05,
      "loss": 1.4393,
      "mean_token_accuracy": 0.6538581599791845,
      "num_tokens": 1144394205.0,
      "step": 6815
    },
    {
      "entropy": 1.7935606241226196,
      "epoch": 0.7487847079179369,
      "grad_norm": 0.7209190726280212,
      "learning_rate": 1.496081124839648e-05,
      "loss": 1.4205,
      "mean_token_accuracy": 0.6454559167226156,
      "num_tokens": 1144522534.0,
      "step": 6816
    },
    {
      "entropy": 1.6710129082202911,
      "epoch": 0.7488945648293098,
      "grad_norm": 0.5794231295585632,
      "learning_rate": 1.4959373446332762e-05,
      "loss": 1.3592,
      "mean_token_accuracy": 0.6566446522871653,
      "num_tokens": 1144710283.0,
      "step": 6817
    },
    {
      "entropy": 1.6727528870105743,
      "epoch": 0.7490044217406827,
      "grad_norm": 1.6803122758865356,
      "learning_rate": 1.4957935518956658e-05,
      "loss": 1.3172,
      "mean_token_accuracy": 0.6655105352401733,
      "num_tokens": 1144865494.0,
      "step": 6818
    },
    {
      "entropy": 1.6749801139036815,
      "epoch": 0.7491142786520557,
      "grad_norm": 0.6018057465553284,
      "learning_rate": 1.4956497466313682e-05,
      "loss": 1.3718,
      "mean_token_accuracy": 0.6562728782494863,
      "num_tokens": 1145060596.0,
      "step": 6819
    },
    {
      "entropy": 1.6236327687899272,
      "epoch": 0.7492241355634286,
      "grad_norm": 0.7080875635147095,
      "learning_rate": 1.4955059288449343e-05,
      "loss": 1.4342,
      "mean_token_accuracy": 0.6543013006448746,
      "num_tokens": 1145299929.0,
      "step": 6820
    },
    {
      "entropy": 1.7417059342066448,
      "epoch": 0.7493339924748016,
      "grad_norm": 0.6856288313865662,
      "learning_rate": 1.4953620985409156e-05,
      "loss": 1.4524,
      "mean_token_accuracy": 0.6499587247769038,
      "num_tokens": 1145473231.0,
      "step": 6821
    },
    {
      "entropy": 1.7538205881913502,
      "epoch": 0.7494438493861745,
      "grad_norm": 0.6540340781211853,
      "learning_rate": 1.495218255723865e-05,
      "loss": 1.4127,
      "mean_token_accuracy": 0.6443704416354498,
      "num_tokens": 1145635824.0,
      "step": 6822
    },
    {
      "entropy": 1.8043759365876515,
      "epoch": 0.7495537062975475,
      "grad_norm": 0.7414424419403076,
      "learning_rate": 1.4950744003983346e-05,
      "loss": 1.2803,
      "mean_token_accuracy": 0.6785912364721298,
      "num_tokens": 1145771367.0,
      "step": 6823
    },
    {
      "entropy": 1.6939500371615093,
      "epoch": 0.7496635632089204,
      "grad_norm": 0.7015360593795776,
      "learning_rate": 1.4949305325688776e-05,
      "loss": 1.2973,
      "mean_token_accuracy": 0.6717601070801417,
      "num_tokens": 1145898356.0,
      "step": 6824
    },
    {
      "entropy": 1.719683289527893,
      "epoch": 0.7497734201202934,
      "grad_norm": 0.7223207950592041,
      "learning_rate": 1.4947866522400469e-05,
      "loss": 1.3485,
      "mean_token_accuracy": 0.6610392481088638,
      "num_tokens": 1146043519.0,
      "step": 6825
    },
    {
      "entropy": 1.726772169272105,
      "epoch": 0.7498832770316662,
      "grad_norm": 0.7367146611213684,
      "learning_rate": 1.494642759416397e-05,
      "loss": 1.3865,
      "mean_token_accuracy": 0.6567636330922445,
      "num_tokens": 1146210946.0,
      "step": 6826
    },
    {
      "entropy": 1.6836354335149128,
      "epoch": 0.7499931339430392,
      "grad_norm": 0.6234486103057861,
      "learning_rate": 1.494498854102481e-05,
      "loss": 1.4224,
      "mean_token_accuracy": 0.6549923866987228,
      "num_tokens": 1146431560.0,
      "step": 6827
    },
    {
      "entropy": 1.7541552980740864,
      "epoch": 0.7501029908544121,
      "grad_norm": 0.6722849607467651,
      "learning_rate": 1.4943549363028544e-05,
      "loss": 1.4151,
      "mean_token_accuracy": 0.6468459516763687,
      "num_tokens": 1146608356.0,
      "step": 6828
    },
    {
      "entropy": 1.7377861142158508,
      "epoch": 0.7502128477657851,
      "grad_norm": 0.6956329941749573,
      "learning_rate": 1.4942110060220718e-05,
      "loss": 1.492,
      "mean_token_accuracy": 0.645117849111557,
      "num_tokens": 1146763510.0,
      "step": 6829
    },
    {
      "entropy": 1.7091150482495625,
      "epoch": 0.750322704677158,
      "grad_norm": 0.5567704439163208,
      "learning_rate": 1.4940670632646886e-05,
      "loss": 1.512,
      "mean_token_accuracy": 0.6451121767361959,
      "num_tokens": 1146972167.0,
      "step": 6830
    },
    {
      "entropy": 1.7323314944903057,
      "epoch": 0.7504325615885309,
      "grad_norm": 0.6515035629272461,
      "learning_rate": 1.49392310803526e-05,
      "loss": 1.4759,
      "mean_token_accuracy": 0.6642122765382131,
      "num_tokens": 1147157436.0,
      "step": 6831
    },
    {
      "entropy": 1.6438543101151784,
      "epoch": 0.7505424184999039,
      "grad_norm": 0.826503574848175,
      "learning_rate": 1.4937791403383429e-05,
      "loss": 1.2688,
      "mean_token_accuracy": 0.6719188491503397,
      "num_tokens": 1147301711.0,
      "step": 6832
    },
    {
      "entropy": 1.7450671792030334,
      "epoch": 0.7506522754112768,
      "grad_norm": 0.7970007658004761,
      "learning_rate": 1.4936351601784936e-05,
      "loss": 1.4347,
      "mean_token_accuracy": 0.6608226199944814,
      "num_tokens": 1147448757.0,
      "step": 6833
    },
    {
      "entropy": 1.7097887794176738,
      "epoch": 0.7507621323226498,
      "grad_norm": 0.6782563328742981,
      "learning_rate": 1.4934911675602684e-05,
      "loss": 1.4367,
      "mean_token_accuracy": 0.6495286400119463,
      "num_tokens": 1147583520.0,
      "step": 6834
    },
    {
      "entropy": 1.6653445859750111,
      "epoch": 0.7508719892340227,
      "grad_norm": 0.6241797804832458,
      "learning_rate": 1.4933471624882252e-05,
      "loss": 1.4375,
      "mean_token_accuracy": 0.6648624936739603,
      "num_tokens": 1147772528.0,
      "step": 6835
    },
    {
      "entropy": 1.6597016155719757,
      "epoch": 0.7509818461453956,
      "grad_norm": 0.6311061382293701,
      "learning_rate": 1.4932031449669216e-05,
      "loss": 1.3328,
      "mean_token_accuracy": 0.6625900516907374,
      "num_tokens": 1147914543.0,
      "step": 6836
    },
    {
      "entropy": 1.7220198810100555,
      "epoch": 0.7510917030567685,
      "grad_norm": 0.6737807393074036,
      "learning_rate": 1.4930591150009153e-05,
      "loss": 1.3936,
      "mean_token_accuracy": 0.6545198758443197,
      "num_tokens": 1148060878.0,
      "step": 6837
    },
    {
      "entropy": 1.7228451172510784,
      "epoch": 0.7512015599681415,
      "grad_norm": 0.5968870520591736,
      "learning_rate": 1.4929150725947657e-05,
      "loss": 1.4637,
      "mean_token_accuracy": 0.6343479951222738,
      "num_tokens": 1148284690.0,
      "step": 6838
    },
    {
      "entropy": 1.7416771451632183,
      "epoch": 0.7513114168795144,
      "grad_norm": 0.6965200901031494,
      "learning_rate": 1.4927710177530308e-05,
      "loss": 1.553,
      "mean_token_accuracy": 0.6420968150099119,
      "num_tokens": 1148448260.0,
      "step": 6839
    },
    {
      "entropy": 1.6946365038553874,
      "epoch": 0.7514212737908874,
      "grad_norm": 0.6708457469940186,
      "learning_rate": 1.4926269504802702e-05,
      "loss": 1.3724,
      "mean_token_accuracy": 0.6507139702637991,
      "num_tokens": 1148660677.0,
      "step": 6840
    },
    {
      "entropy": 1.7274916470050812,
      "epoch": 0.7515311307022603,
      "grad_norm": 0.8043560981750488,
      "learning_rate": 1.4924828707810434e-05,
      "loss": 1.4065,
      "mean_token_accuracy": 0.6550286362568537,
      "num_tokens": 1148845422.0,
      "step": 6841
    },
    {
      "entropy": 1.6953127483526866,
      "epoch": 0.7516409876136333,
      "grad_norm": 0.615106463432312,
      "learning_rate": 1.4923387786599111e-05,
      "loss": 1.3215,
      "mean_token_accuracy": 0.6688494135936102,
      "num_tokens": 1148998827.0,
      "step": 6842
    },
    {
      "entropy": 1.6872650881608326,
      "epoch": 0.7517508445250062,
      "grad_norm": 0.6760332584381104,
      "learning_rate": 1.4921946741214328e-05,
      "loss": 1.4611,
      "mean_token_accuracy": 0.6474284629027048,
      "num_tokens": 1149163526.0,
      "step": 6843
    },
    {
      "entropy": 1.7162937223911285,
      "epoch": 0.7518607014363791,
      "grad_norm": 0.6299443244934082,
      "learning_rate": 1.49205055717017e-05,
      "loss": 1.4696,
      "mean_token_accuracy": 0.6503280848264694,
      "num_tokens": 1149379885.0,
      "step": 6844
    },
    {
      "entropy": 1.707916518052419,
      "epoch": 0.7519705583477521,
      "grad_norm": 0.6752136945724487,
      "learning_rate": 1.4919064278106837e-05,
      "loss": 1.3816,
      "mean_token_accuracy": 0.66462242603302,
      "num_tokens": 1149545097.0,
      "step": 6845
    },
    {
      "entropy": 1.708972801764806,
      "epoch": 0.752080415259125,
      "grad_norm": 0.746783435344696,
      "learning_rate": 1.4917622860475355e-05,
      "loss": 1.292,
      "mean_token_accuracy": 0.6678305218617121,
      "num_tokens": 1149699714.0,
      "step": 6846
    },
    {
      "entropy": 1.7258944114049275,
      "epoch": 0.7521902721704979,
      "grad_norm": 0.7096854448318481,
      "learning_rate": 1.4916181318852872e-05,
      "loss": 1.5354,
      "mean_token_accuracy": 0.6471205502748489,
      "num_tokens": 1149911864.0,
      "step": 6847
    },
    {
      "entropy": 1.7283643583456676,
      "epoch": 0.7523001290818708,
      "grad_norm": 0.8113722801208496,
      "learning_rate": 1.491473965328502e-05,
      "loss": 1.5158,
      "mean_token_accuracy": 0.6531914075215658,
      "num_tokens": 1150075121.0,
      "step": 6848
    },
    {
      "entropy": 1.6454201638698578,
      "epoch": 0.7524099859932438,
      "grad_norm": 0.6000940203666687,
      "learning_rate": 1.4913297863817417e-05,
      "loss": 1.3858,
      "mean_token_accuracy": 0.6618871788183848,
      "num_tokens": 1150257842.0,
      "step": 6849
    },
    {
      "entropy": 1.7098387082417805,
      "epoch": 0.7525198429046167,
      "grad_norm": 0.6875969767570496,
      "learning_rate": 1.4911855950495707e-05,
      "loss": 1.5528,
      "mean_token_accuracy": 0.6489702612161636,
      "num_tokens": 1150479789.0,
      "step": 6850
    },
    {
      "entropy": 1.7067073086897533,
      "epoch": 0.7526296998159897,
      "grad_norm": 0.6003955602645874,
      "learning_rate": 1.4910413913365511e-05,
      "loss": 1.4514,
      "mean_token_accuracy": 0.6396404554446539,
      "num_tokens": 1150666377.0,
      "step": 6851
    },
    {
      "entropy": 1.7154656648635864,
      "epoch": 0.7527395567273626,
      "grad_norm": 0.7262822389602661,
      "learning_rate": 1.490897175247248e-05,
      "loss": 1.3599,
      "mean_token_accuracy": 0.6746832331021627,
      "num_tokens": 1150801744.0,
      "step": 6852
    },
    {
      "entropy": 1.7396377523740132,
      "epoch": 0.7528494136387356,
      "grad_norm": 0.6769723892211914,
      "learning_rate": 1.4907529467862254e-05,
      "loss": 1.6661,
      "mean_token_accuracy": 0.6230086013674736,
      "num_tokens": 1151017918.0,
      "step": 6853
    },
    {
      "entropy": 1.6834344764550526,
      "epoch": 0.7529592705501085,
      "grad_norm": 0.580190122127533,
      "learning_rate": 1.4906087059580483e-05,
      "loss": 1.3398,
      "mean_token_accuracy": 0.6577950765689214,
      "num_tokens": 1151202898.0,
      "step": 6854
    },
    {
      "entropy": 1.7219790021578472,
      "epoch": 0.7530691274614815,
      "grad_norm": 0.7568797469139099,
      "learning_rate": 1.4904644527672813e-05,
      "loss": 1.3304,
      "mean_token_accuracy": 0.657778725028038,
      "num_tokens": 1151353607.0,
      "step": 6855
    },
    {
      "entropy": 1.7640255590279896,
      "epoch": 0.7531789843728544,
      "grad_norm": 0.7201240658760071,
      "learning_rate": 1.4903201872184909e-05,
      "loss": 1.5171,
      "mean_token_accuracy": 0.6397636433442434,
      "num_tokens": 1151519388.0,
      "step": 6856
    },
    {
      "entropy": 1.6551097631454468,
      "epoch": 0.7532888412842272,
      "grad_norm": 0.6681106686592102,
      "learning_rate": 1.4901759093162423e-05,
      "loss": 1.2624,
      "mean_token_accuracy": 0.6762852072715759,
      "num_tokens": 1151672154.0,
      "step": 6857
    },
    {
      "entropy": 1.6735802292823792,
      "epoch": 0.7533986981956002,
      "grad_norm": 0.635806679725647,
      "learning_rate": 1.4900316190651013e-05,
      "loss": 1.422,
      "mean_token_accuracy": 0.6669272085030874,
      "num_tokens": 1151816351.0,
      "step": 6858
    },
    {
      "entropy": 1.7274777193864186,
      "epoch": 0.7535085551069731,
      "grad_norm": 0.7612840533256531,
      "learning_rate": 1.4898873164696361e-05,
      "loss": 1.2724,
      "mean_token_accuracy": 0.668310264746348,
      "num_tokens": 1151944344.0,
      "step": 6859
    },
    {
      "entropy": 1.7404861251513164,
      "epoch": 0.7536184120183461,
      "grad_norm": 0.7002642750740051,
      "learning_rate": 1.4897430015344128e-05,
      "loss": 1.376,
      "mean_token_accuracy": 0.6616505285104116,
      "num_tokens": 1152096710.0,
      "step": 6860
    },
    {
      "entropy": 1.7473096946875255,
      "epoch": 0.753728268929719,
      "grad_norm": 0.9548206925392151,
      "learning_rate": 1.489598674263999e-05,
      "loss": 1.5039,
      "mean_token_accuracy": 0.6459807008504868,
      "num_tokens": 1152222865.0,
      "step": 6861
    },
    {
      "entropy": 1.7407631874084473,
      "epoch": 0.753838125841092,
      "grad_norm": 0.7236599326133728,
      "learning_rate": 1.4894543346629628e-05,
      "loss": 1.4074,
      "mean_token_accuracy": 0.6461221228043238,
      "num_tokens": 1152370024.0,
      "step": 6862
    },
    {
      "entropy": 1.706801136334737,
      "epoch": 0.7539479827524649,
      "grad_norm": 0.6131123304367065,
      "learning_rate": 1.4893099827358725e-05,
      "loss": 1.4282,
      "mean_token_accuracy": 0.640210434794426,
      "num_tokens": 1152551295.0,
      "step": 6863
    },
    {
      "entropy": 1.7038409014542897,
      "epoch": 0.7540578396638379,
      "grad_norm": 0.849195122718811,
      "learning_rate": 1.4891656184872967e-05,
      "loss": 1.4797,
      "mean_token_accuracy": 0.6482670257488886,
      "num_tokens": 1152715725.0,
      "step": 6864
    },
    {
      "entropy": 1.671141008536021,
      "epoch": 0.7541676965752108,
      "grad_norm": 0.7273076772689819,
      "learning_rate": 1.4890212419218042e-05,
      "loss": 1.3456,
      "mean_token_accuracy": 0.6643229325612386,
      "num_tokens": 1152856152.0,
      "step": 6865
    },
    {
      "entropy": 1.7077520688374836,
      "epoch": 0.7542775534865838,
      "grad_norm": 0.6826111078262329,
      "learning_rate": 1.4888768530439648e-05,
      "loss": 1.3934,
      "mean_token_accuracy": 0.6760113835334778,
      "num_tokens": 1153011787.0,
      "step": 6866
    },
    {
      "entropy": 1.7440832058588664,
      "epoch": 0.7543874103979566,
      "grad_norm": 0.766875684261322,
      "learning_rate": 1.4887324518583482e-05,
      "loss": 1.5279,
      "mean_token_accuracy": 0.6481309731801351,
      "num_tokens": 1153194581.0,
      "step": 6867
    },
    {
      "entropy": 1.696602463722229,
      "epoch": 0.7544972673093296,
      "grad_norm": 0.6051673293113708,
      "learning_rate": 1.4885880383695245e-05,
      "loss": 1.3711,
      "mean_token_accuracy": 0.6530511478583018,
      "num_tokens": 1153426371.0,
      "step": 6868
    },
    {
      "entropy": 1.6467144290606182,
      "epoch": 0.7546071242207025,
      "grad_norm": 0.7292453646659851,
      "learning_rate": 1.4884436125820647e-05,
      "loss": 1.4731,
      "mean_token_accuracy": 0.6530012140671412,
      "num_tokens": 1153573291.0,
      "step": 6869
    },
    {
      "entropy": 1.7314301331837971,
      "epoch": 0.7547169811320755,
      "grad_norm": 0.6091862916946411,
      "learning_rate": 1.4882991745005398e-05,
      "loss": 1.4244,
      "mean_token_accuracy": 0.6590274671713511,
      "num_tokens": 1153732528.0,
      "step": 6870
    },
    {
      "entropy": 1.7819582720597584,
      "epoch": 0.7548268380434484,
      "grad_norm": 0.7857415676116943,
      "learning_rate": 1.4881547241295207e-05,
      "loss": 1.491,
      "mean_token_accuracy": 0.650216872493426,
      "num_tokens": 1153921075.0,
      "step": 6871
    },
    {
      "entropy": 1.723918507496516,
      "epoch": 0.7549366949548213,
      "grad_norm": 0.8788068294525146,
      "learning_rate": 1.4880102614735793e-05,
      "loss": 1.3552,
      "mean_token_accuracy": 0.6704768786827723,
      "num_tokens": 1154081656.0,
      "step": 6872
    },
    {
      "entropy": 1.762155642112096,
      "epoch": 0.7550465518661943,
      "grad_norm": 0.6839030981063843,
      "learning_rate": 1.4878657865372885e-05,
      "loss": 1.4846,
      "mean_token_accuracy": 0.6490776985883713,
      "num_tokens": 1154251448.0,
      "step": 6873
    },
    {
      "entropy": 1.69782950480779,
      "epoch": 0.7551564087775672,
      "grad_norm": 0.710850715637207,
      "learning_rate": 1.48772129932522e-05,
      "loss": 1.3765,
      "mean_token_accuracy": 0.6583685626586279,
      "num_tokens": 1154429721.0,
      "step": 6874
    },
    {
      "entropy": 1.6837405562400818,
      "epoch": 0.7552662656889402,
      "grad_norm": 0.6713438630104065,
      "learning_rate": 1.487576799841947e-05,
      "loss": 1.3999,
      "mean_token_accuracy": 0.6706645538409551,
      "num_tokens": 1154576709.0,
      "step": 6875
    },
    {
      "entropy": 1.697175920009613,
      "epoch": 0.7553761226003131,
      "grad_norm": 0.6505449414253235,
      "learning_rate": 1.4874322880920433e-05,
      "loss": 1.4259,
      "mean_token_accuracy": 0.6693024138609568,
      "num_tokens": 1154713459.0,
      "step": 6876
    },
    {
      "entropy": 1.6716215113798778,
      "epoch": 0.7554859795116861,
      "grad_norm": 0.6013683080673218,
      "learning_rate": 1.4872877640800818e-05,
      "loss": 1.4185,
      "mean_token_accuracy": 0.6550382524728775,
      "num_tokens": 1154916105.0,
      "step": 6877
    },
    {
      "entropy": 1.727581520875295,
      "epoch": 0.7555958364230589,
      "grad_norm": 0.634597897529602,
      "learning_rate": 1.4871432278106376e-05,
      "loss": 1.4924,
      "mean_token_accuracy": 0.6589693377415339,
      "num_tokens": 1155124626.0,
      "step": 6878
    },
    {
      "entropy": 1.6853844324747722,
      "epoch": 0.7557056933344319,
      "grad_norm": 0.7113041281700134,
      "learning_rate": 1.4869986792882842e-05,
      "loss": 1.393,
      "mean_token_accuracy": 0.6586426496505737,
      "num_tokens": 1155315768.0,
      "step": 6879
    },
    {
      "entropy": 1.720129370689392,
      "epoch": 0.7558155502458048,
      "grad_norm": 0.758216381072998,
      "learning_rate": 1.4868541185175973e-05,
      "loss": 1.2764,
      "mean_token_accuracy": 0.6894825349251429,
      "num_tokens": 1155458375.0,
      "step": 6880
    },
    {
      "entropy": 1.7519591550032299,
      "epoch": 0.7559254071571778,
      "grad_norm": 0.785953164100647,
      "learning_rate": 1.4867095455031515e-05,
      "loss": 1.4353,
      "mean_token_accuracy": 0.6612924883762995,
      "num_tokens": 1155625543.0,
      "step": 6881
    },
    {
      "entropy": 1.7473149696985881,
      "epoch": 0.7560352640685507,
      "grad_norm": 0.7062848210334778,
      "learning_rate": 1.4865649602495233e-05,
      "loss": 1.4931,
      "mean_token_accuracy": 0.6371675978104273,
      "num_tokens": 1155805083.0,
      "step": 6882
    },
    {
      "entropy": 1.6948178907235463,
      "epoch": 0.7561451209799237,
      "grad_norm": 0.6578991413116455,
      "learning_rate": 1.4864203627612878e-05,
      "loss": 1.2472,
      "mean_token_accuracy": 0.6706608285506567,
      "num_tokens": 1155948315.0,
      "step": 6883
    },
    {
      "entropy": 1.7165430684884389,
      "epoch": 0.7562549778912966,
      "grad_norm": 0.6664071083068848,
      "learning_rate": 1.4862757530430228e-05,
      "loss": 1.3434,
      "mean_token_accuracy": 0.6707089493672053,
      "num_tokens": 1156127831.0,
      "step": 6884
    },
    {
      "entropy": 1.643526017665863,
      "epoch": 0.7563648348026695,
      "grad_norm": 0.7331792116165161,
      "learning_rate": 1.4861311310993037e-05,
      "loss": 1.3877,
      "mean_token_accuracy": 0.6548557827870051,
      "num_tokens": 1156308750.0,
      "step": 6885
    },
    {
      "entropy": 1.709174503882726,
      "epoch": 0.7564746917140425,
      "grad_norm": 0.6824013590812683,
      "learning_rate": 1.485986496934708e-05,
      "loss": 1.3598,
      "mean_token_accuracy": 0.6605821500221888,
      "num_tokens": 1156454330.0,
      "step": 6886
    },
    {
      "entropy": 1.6876440346240997,
      "epoch": 0.7565845486254154,
      "grad_norm": 0.7022239565849304,
      "learning_rate": 1.485841850553814e-05,
      "loss": 1.4559,
      "mean_token_accuracy": 0.659210721651713,
      "num_tokens": 1156623224.0,
      "step": 6887
    },
    {
      "entropy": 1.670984039704005,
      "epoch": 0.7566944055367884,
      "grad_norm": 0.8806616067886353,
      "learning_rate": 1.4856971919611993e-05,
      "loss": 1.5488,
      "mean_token_accuracy": 0.6296228965123495,
      "num_tokens": 1156899766.0,
      "step": 6888
    },
    {
      "entropy": 1.6433234910170238,
      "epoch": 0.7568042624481612,
      "grad_norm": 0.6585554480552673,
      "learning_rate": 1.485552521161442e-05,
      "loss": 1.2847,
      "mean_token_accuracy": 0.663401777545611,
      "num_tokens": 1157043630.0,
      "step": 6889
    },
    {
      "entropy": 1.7140738268693287,
      "epoch": 0.7569141193595342,
      "grad_norm": 0.6763997077941895,
      "learning_rate": 1.4854078381591215e-05,
      "loss": 1.3165,
      "mean_token_accuracy": 0.6577816307544708,
      "num_tokens": 1157198891.0,
      "step": 6890
    },
    {
      "entropy": 1.7322425842285156,
      "epoch": 0.7570239762709071,
      "grad_norm": 0.6586790680885315,
      "learning_rate": 1.4852631429588164e-05,
      "loss": 1.4056,
      "mean_token_accuracy": 0.6535748243331909,
      "num_tokens": 1157367746.0,
      "step": 6891
    },
    {
      "entropy": 1.7426089147726695,
      "epoch": 0.7571338331822801,
      "grad_norm": 0.6329144835472107,
      "learning_rate": 1.4851184355651063e-05,
      "loss": 1.347,
      "mean_token_accuracy": 0.6626821060975393,
      "num_tokens": 1157518999.0,
      "step": 6892
    },
    {
      "entropy": 1.727944056193034,
      "epoch": 0.757243690093653,
      "grad_norm": 0.6308918595314026,
      "learning_rate": 1.4849737159825714e-05,
      "loss": 1.3709,
      "mean_token_accuracy": 0.6626657843589783,
      "num_tokens": 1157679031.0,
      "step": 6893
    },
    {
      "entropy": 1.7070819934209187,
      "epoch": 0.757353547005026,
      "grad_norm": 0.6136558055877686,
      "learning_rate": 1.4848289842157922e-05,
      "loss": 1.3357,
      "mean_token_accuracy": 0.6673356592655182,
      "num_tokens": 1157823732.0,
      "step": 6894
    },
    {
      "entropy": 1.7385432024796803,
      "epoch": 0.7574634039163989,
      "grad_norm": 0.6450533270835876,
      "learning_rate": 1.4846842402693485e-05,
      "loss": 1.3576,
      "mean_token_accuracy": 0.6694497863451639,
      "num_tokens": 1157968223.0,
      "step": 6895
    },
    {
      "entropy": 1.7011185189088185,
      "epoch": 0.7575732608277719,
      "grad_norm": 0.7629391551017761,
      "learning_rate": 1.4845394841478223e-05,
      "loss": 1.417,
      "mean_token_accuracy": 0.6586320847272873,
      "num_tokens": 1158093485.0,
      "step": 6896
    },
    {
      "entropy": 1.7235964337984722,
      "epoch": 0.7576831177391448,
      "grad_norm": 0.6074236631393433,
      "learning_rate": 1.4843947158557943e-05,
      "loss": 1.5449,
      "mean_token_accuracy": 0.6520265738169352,
      "num_tokens": 1158302727.0,
      "step": 6897
    },
    {
      "entropy": 1.6836207310358684,
      "epoch": 0.7577929746505176,
      "grad_norm": 0.6065682172775269,
      "learning_rate": 1.484249935397847e-05,
      "loss": 1.3707,
      "mean_token_accuracy": 0.6710223456223806,
      "num_tokens": 1158455241.0,
      "step": 6898
    },
    {
      "entropy": 1.7246917287508647,
      "epoch": 0.7579028315618906,
      "grad_norm": 0.7016457915306091,
      "learning_rate": 1.4841051427785625e-05,
      "loss": 1.4724,
      "mean_token_accuracy": 0.6549848715464274,
      "num_tokens": 1158625284.0,
      "step": 6899
    },
    {
      "entropy": 1.6922398805618286,
      "epoch": 0.7580126884732635,
      "grad_norm": 0.6993584036827087,
      "learning_rate": 1.4839603380025236e-05,
      "loss": 1.37,
      "mean_token_accuracy": 0.662392814954122,
      "num_tokens": 1158788784.0,
      "step": 6900
    },
    {
      "entropy": 1.6558389564355214,
      "epoch": 0.7581225453846365,
      "grad_norm": 0.7079626321792603,
      "learning_rate": 1.4838155210743124e-05,
      "loss": 1.2161,
      "mean_token_accuracy": 0.68675068517526,
      "num_tokens": 1158934601.0,
      "step": 6901
    },
    {
      "entropy": 1.7894011040528615,
      "epoch": 0.7582324022960094,
      "grad_norm": 0.7190823554992676,
      "learning_rate": 1.4836706919985131e-05,
      "loss": 1.517,
      "mean_token_accuracy": 0.6554691096146902,
      "num_tokens": 1159073338.0,
      "step": 6902
    },
    {
      "entropy": 1.7235852877298992,
      "epoch": 0.7583422592073824,
      "grad_norm": 0.6851528882980347,
      "learning_rate": 1.4835258507797094e-05,
      "loss": 1.3269,
      "mean_token_accuracy": 0.6659359286228815,
      "num_tokens": 1159221997.0,
      "step": 6903
    },
    {
      "entropy": 1.6805242598056793,
      "epoch": 0.7584521161187553,
      "grad_norm": 0.5390611886978149,
      "learning_rate": 1.4833809974224853e-05,
      "loss": 1.3438,
      "mean_token_accuracy": 0.6687274475892385,
      "num_tokens": 1159431862.0,
      "step": 6904
    },
    {
      "entropy": 1.7057210902372997,
      "epoch": 0.7585619730301283,
      "grad_norm": 0.6051385402679443,
      "learning_rate": 1.4832361319314252e-05,
      "loss": 1.4902,
      "mean_token_accuracy": 0.6540891279776891,
      "num_tokens": 1159648613.0,
      "step": 6905
    },
    {
      "entropy": 1.6478383739789326,
      "epoch": 0.7586718299415012,
      "grad_norm": 0.6398272514343262,
      "learning_rate": 1.4830912543111146e-05,
      "loss": 1.4191,
      "mean_token_accuracy": 0.6588562329610189,
      "num_tokens": 1159819964.0,
      "step": 6906
    },
    {
      "entropy": 1.7082193195819855,
      "epoch": 0.7587816868528742,
      "grad_norm": 0.7104562520980835,
      "learning_rate": 1.4829463645661382e-05,
      "loss": 1.3546,
      "mean_token_accuracy": 0.6578278988599777,
      "num_tokens": 1159996948.0,
      "step": 6907
    },
    {
      "entropy": 1.7297697563966115,
      "epoch": 0.7588915437642471,
      "grad_norm": 0.6430516242980957,
      "learning_rate": 1.4828014627010819e-05,
      "loss": 1.3365,
      "mean_token_accuracy": 0.6678340236345927,
      "num_tokens": 1160156500.0,
      "step": 6908
    },
    {
      "entropy": 1.639371891816457,
      "epoch": 0.75900140067562,
      "grad_norm": 0.6583812832832336,
      "learning_rate": 1.4826565487205319e-05,
      "loss": 1.3132,
      "mean_token_accuracy": 0.6856881082057953,
      "num_tokens": 1160300199.0,
      "step": 6909
    },
    {
      "entropy": 1.7579985360304515,
      "epoch": 0.7591112575869929,
      "grad_norm": 0.8110305666923523,
      "learning_rate": 1.4825116226290746e-05,
      "loss": 1.6068,
      "mean_token_accuracy": 0.6306049029032389,
      "num_tokens": 1160545710.0,
      "step": 6910
    },
    {
      "entropy": 1.6936591267585754,
      "epoch": 0.7592211144983658,
      "grad_norm": 0.6707553863525391,
      "learning_rate": 1.4823666844312962e-05,
      "loss": 1.29,
      "mean_token_accuracy": 0.6731418470541636,
      "num_tokens": 1160680981.0,
      "step": 6911
    },
    {
      "entropy": 1.705474744240443,
      "epoch": 0.7593309714097388,
      "grad_norm": 0.764737069606781,
      "learning_rate": 1.4822217341317852e-05,
      "loss": 1.4305,
      "mean_token_accuracy": 0.6555500676234564,
      "num_tokens": 1160819936.0,
      "step": 6912
    },
    {
      "entropy": 1.6776454746723175,
      "epoch": 0.7594408283211117,
      "grad_norm": 0.6505389213562012,
      "learning_rate": 1.4820767717351285e-05,
      "loss": 1.3035,
      "mean_token_accuracy": 0.6752181301514307,
      "num_tokens": 1161006775.0,
      "step": 6913
    },
    {
      "entropy": 1.6627070903778076,
      "epoch": 0.7595506852324847,
      "grad_norm": 0.6468442678451538,
      "learning_rate": 1.481931797245914e-05,
      "loss": 1.4297,
      "mean_token_accuracy": 0.6586330334345499,
      "num_tokens": 1161241820.0,
      "step": 6914
    },
    {
      "entropy": 1.6682479977607727,
      "epoch": 0.7596605421438576,
      "grad_norm": 0.6730937361717224,
      "learning_rate": 1.4817868106687303e-05,
      "loss": 1.4197,
      "mean_token_accuracy": 0.6521937002738317,
      "num_tokens": 1161416726.0,
      "step": 6915
    },
    {
      "entropy": 1.6636716326077778,
      "epoch": 0.7597703990552306,
      "grad_norm": 0.6824373006820679,
      "learning_rate": 1.4816418120081662e-05,
      "loss": 1.3944,
      "mean_token_accuracy": 0.6513000329335531,
      "num_tokens": 1161583847.0,
      "step": 6916
    },
    {
      "entropy": 1.7242677907148998,
      "epoch": 0.7598802559666035,
      "grad_norm": 0.686144232749939,
      "learning_rate": 1.4814968012688102e-05,
      "loss": 1.4005,
      "mean_token_accuracy": 0.656681497891744,
      "num_tokens": 1161736676.0,
      "step": 6917
    },
    {
      "entropy": 1.6589552164077759,
      "epoch": 0.7599901128779765,
      "grad_norm": 0.6163228154182434,
      "learning_rate": 1.4813517784552529e-05,
      "loss": 1.4136,
      "mean_token_accuracy": 0.6552829394737879,
      "num_tokens": 1161954113.0,
      "step": 6918
    },
    {
      "entropy": 1.678790142138799,
      "epoch": 0.7600999697893494,
      "grad_norm": 0.6521669030189514,
      "learning_rate": 1.4812067435720834e-05,
      "loss": 1.1138,
      "mean_token_accuracy": 0.6720156023899714,
      "num_tokens": 1162176443.0,
      "step": 6919
    },
    {
      "entropy": 1.6968080500761669,
      "epoch": 0.7602098267007223,
      "grad_norm": 0.6458204388618469,
      "learning_rate": 1.4810616966238922e-05,
      "loss": 1.4491,
      "mean_token_accuracy": 0.6454138110081354,
      "num_tokens": 1162348356.0,
      "step": 6920
    },
    {
      "entropy": 1.6829048295815785,
      "epoch": 0.7603196836120952,
      "grad_norm": 0.7455350756645203,
      "learning_rate": 1.4809166376152701e-05,
      "loss": 1.3664,
      "mean_token_accuracy": 0.6672768096129099,
      "num_tokens": 1162488148.0,
      "step": 6921
    },
    {
      "entropy": 1.6659102042516072,
      "epoch": 0.7604295405234682,
      "grad_norm": 0.7293592095375061,
      "learning_rate": 1.4807715665508083e-05,
      "loss": 1.3741,
      "mean_token_accuracy": 0.6664891839027405,
      "num_tokens": 1162650930.0,
      "step": 6922
    },
    {
      "entropy": 1.6555348932743073,
      "epoch": 0.7605393974348411,
      "grad_norm": 0.727997899055481,
      "learning_rate": 1.4806264834350976e-05,
      "loss": 1.3346,
      "mean_token_accuracy": 0.6639738827943802,
      "num_tokens": 1162797968.0,
      "step": 6923
    },
    {
      "entropy": 1.7288571496804555,
      "epoch": 0.7606492543462141,
      "grad_norm": 0.7030077576637268,
      "learning_rate": 1.4804813882727305e-05,
      "loss": 1.3352,
      "mean_token_accuracy": 0.6633950720230738,
      "num_tokens": 1163010773.0,
      "step": 6924
    },
    {
      "entropy": 1.6670528650283813,
      "epoch": 0.760759111257587,
      "grad_norm": 0.8227211236953735,
      "learning_rate": 1.4803362810682988e-05,
      "loss": 1.2828,
      "mean_token_accuracy": 0.678699125846227,
      "num_tokens": 1163144830.0,
      "step": 6925
    },
    {
      "entropy": 1.7120730479558308,
      "epoch": 0.7608689681689599,
      "grad_norm": 0.6343841552734375,
      "learning_rate": 1.480191161826395e-05,
      "loss": 1.4498,
      "mean_token_accuracy": 0.638987218340238,
      "num_tokens": 1163435423.0,
      "step": 6926
    },
    {
      "entropy": 1.7124398946762085,
      "epoch": 0.7609788250803329,
      "grad_norm": 0.5454217791557312,
      "learning_rate": 1.4800460305516125e-05,
      "loss": 1.523,
      "mean_token_accuracy": 0.6400202016035715,
      "num_tokens": 1163644758.0,
      "step": 6927
    },
    {
      "entropy": 1.7238081296284993,
      "epoch": 0.7610886819917058,
      "grad_norm": 0.9346860647201538,
      "learning_rate": 1.4799008872485442e-05,
      "loss": 1.4065,
      "mean_token_accuracy": 0.6679123987754186,
      "num_tokens": 1163827583.0,
      "step": 6928
    },
    {
      "entropy": 1.7018209397792816,
      "epoch": 0.7611985389030788,
      "grad_norm": 0.7219953536987305,
      "learning_rate": 1.4797557319217844e-05,
      "loss": 1.3688,
      "mean_token_accuracy": 0.6602154572804769,
      "num_tokens": 1163970324.0,
      "step": 6929
    },
    {
      "entropy": 1.668403019507726,
      "epoch": 0.7613083958144516,
      "grad_norm": 0.7923089861869812,
      "learning_rate": 1.4796105645759265e-05,
      "loss": 1.3472,
      "mean_token_accuracy": 0.6825543294350306,
      "num_tokens": 1164133261.0,
      "step": 6930
    },
    {
      "entropy": 1.717042436202367,
      "epoch": 0.7614182527258246,
      "grad_norm": 0.6521219611167908,
      "learning_rate": 1.4794653852155652e-05,
      "loss": 1.3194,
      "mean_token_accuracy": 0.679710810383161,
      "num_tokens": 1164291576.0,
      "step": 6931
    },
    {
      "entropy": 1.6769898136456807,
      "epoch": 0.7615281096371975,
      "grad_norm": 0.720014214515686,
      "learning_rate": 1.4793201938452954e-05,
      "loss": 1.2698,
      "mean_token_accuracy": 0.6756969839334488,
      "num_tokens": 1164403028.0,
      "step": 6932
    },
    {
      "entropy": 1.6898697714010875,
      "epoch": 0.7616379665485705,
      "grad_norm": 0.7772789001464844,
      "learning_rate": 1.4791749904697126e-05,
      "loss": 1.4018,
      "mean_token_accuracy": 0.6722168525060018,
      "num_tokens": 1164542964.0,
      "step": 6933
    },
    {
      "entropy": 1.7483848134676616,
      "epoch": 0.7617478234599434,
      "grad_norm": 0.7039276957511902,
      "learning_rate": 1.4790297750934122e-05,
      "loss": 1.5323,
      "mean_token_accuracy": 0.6407303462425867,
      "num_tokens": 1164715324.0,
      "step": 6934
    },
    {
      "entropy": 1.7075275778770447,
      "epoch": 0.7618576803713164,
      "grad_norm": 0.8316227197647095,
      "learning_rate": 1.4788845477209902e-05,
      "loss": 1.2911,
      "mean_token_accuracy": 0.6719946066538492,
      "num_tokens": 1164865136.0,
      "step": 6935
    },
    {
      "entropy": 1.7587328751881917,
      "epoch": 0.7619675372826893,
      "grad_norm": 0.7186470031738281,
      "learning_rate": 1.478739308357043e-05,
      "loss": 1.5645,
      "mean_token_accuracy": 0.6294473161300024,
      "num_tokens": 1165022876.0,
      "step": 6936
    },
    {
      "entropy": 1.6595724324385326,
      "epoch": 0.7620773941940623,
      "grad_norm": 0.7300217151641846,
      "learning_rate": 1.4785940570061674e-05,
      "loss": 1.2741,
      "mean_token_accuracy": 0.6697218616803488,
      "num_tokens": 1165153628.0,
      "step": 6937
    },
    {
      "entropy": 1.7758424580097198,
      "epoch": 0.7621872511054352,
      "grad_norm": 0.7241067886352539,
      "learning_rate": 1.4784487936729603e-05,
      "loss": 1.4515,
      "mean_token_accuracy": 0.6553726196289062,
      "num_tokens": 1165289807.0,
      "step": 6938
    },
    {
      "entropy": 1.6955066323280334,
      "epoch": 0.7622971080168081,
      "grad_norm": 0.7136008143424988,
      "learning_rate": 1.4783035183620195e-05,
      "loss": 1.3052,
      "mean_token_accuracy": 0.6689305007457733,
      "num_tokens": 1165443874.0,
      "step": 6939
    },
    {
      "entropy": 1.6818625926971436,
      "epoch": 0.762406964928181,
      "grad_norm": 0.7151510119438171,
      "learning_rate": 1.478158231077943e-05,
      "loss": 1.3418,
      "mean_token_accuracy": 0.6611978759368261,
      "num_tokens": 1165609704.0,
      "step": 6940
    },
    {
      "entropy": 1.6454001367092133,
      "epoch": 0.7625168218395539,
      "grad_norm": 0.7376065850257874,
      "learning_rate": 1.4780129318253287e-05,
      "loss": 1.262,
      "mean_token_accuracy": 0.6749721119801203,
      "num_tokens": 1165748280.0,
      "step": 6941
    },
    {
      "entropy": 1.7588698168595631,
      "epoch": 0.7626266787509269,
      "grad_norm": 0.8318473100662231,
      "learning_rate": 1.4778676206087757e-05,
      "loss": 1.3082,
      "mean_token_accuracy": 0.6613359103600184,
      "num_tokens": 1165874711.0,
      "step": 6942
    },
    {
      "entropy": 1.6534738838672638,
      "epoch": 0.7627365356622998,
      "grad_norm": 0.7632639408111572,
      "learning_rate": 1.4777222974328823e-05,
      "loss": 1.2516,
      "mean_token_accuracy": 0.6722172896067301,
      "num_tokens": 1166003519.0,
      "step": 6943
    },
    {
      "entropy": 1.716422309478124,
      "epoch": 0.7628463925736728,
      "grad_norm": 0.6576639413833618,
      "learning_rate": 1.4775769623022488e-05,
      "loss": 1.3884,
      "mean_token_accuracy": 0.6642766098181406,
      "num_tokens": 1166160623.0,
      "step": 6944
    },
    {
      "entropy": 1.6622655391693115,
      "epoch": 0.7629562494850457,
      "grad_norm": 0.619766116142273,
      "learning_rate": 1.477431615221474e-05,
      "loss": 1.3108,
      "mean_token_accuracy": 0.6632679601510366,
      "num_tokens": 1166325809.0,
      "step": 6945
    },
    {
      "entropy": 1.6929753025372822,
      "epoch": 0.7630661063964187,
      "grad_norm": 0.6698241829872131,
      "learning_rate": 1.4772862561951595e-05,
      "loss": 1.3187,
      "mean_token_accuracy": 0.6679337720076243,
      "num_tokens": 1166463053.0,
      "step": 6946
    },
    {
      "entropy": 1.6616682608922322,
      "epoch": 0.7631759633077916,
      "grad_norm": 0.5817018747329712,
      "learning_rate": 1.4771408852279045e-05,
      "loss": 1.358,
      "mean_token_accuracy": 0.6618844419717789,
      "num_tokens": 1166652937.0,
      "step": 6947
    },
    {
      "entropy": 1.6677273412545521,
      "epoch": 0.7632858202191646,
      "grad_norm": 0.7584317326545715,
      "learning_rate": 1.4769955023243104e-05,
      "loss": 1.2932,
      "mean_token_accuracy": 0.6745211482048035,
      "num_tokens": 1166780191.0,
      "step": 6948
    },
    {
      "entropy": 1.6915989518165588,
      "epoch": 0.7633956771305375,
      "grad_norm": 0.6527446508407593,
      "learning_rate": 1.4768501074889787e-05,
      "loss": 1.431,
      "mean_token_accuracy": 0.641153042515119,
      "num_tokens": 1166943637.0,
      "step": 6949
    },
    {
      "entropy": 1.722637156645457,
      "epoch": 0.7635055340419105,
      "grad_norm": 0.712783694267273,
      "learning_rate": 1.476704700726511e-05,
      "loss": 1.4764,
      "mean_token_accuracy": 0.6418820122877756,
      "num_tokens": 1167072984.0,
      "step": 6950
    },
    {
      "entropy": 1.6762286921342213,
      "epoch": 0.7636153909532833,
      "grad_norm": 0.7010881900787354,
      "learning_rate": 1.4765592820415087e-05,
      "loss": 1.3241,
      "mean_token_accuracy": 0.6702330708503723,
      "num_tokens": 1167222121.0,
      "step": 6951
    },
    {
      "entropy": 1.6860096454620361,
      "epoch": 0.7637252478646562,
      "grad_norm": 0.720114529132843,
      "learning_rate": 1.4764138514385755e-05,
      "loss": 1.3242,
      "mean_token_accuracy": 0.6637054880460104,
      "num_tokens": 1167366067.0,
      "step": 6952
    },
    {
      "entropy": 1.685429056485494,
      "epoch": 0.7638351047760292,
      "grad_norm": 0.6480314135551453,
      "learning_rate": 1.4762684089223133e-05,
      "loss": 1.4365,
      "mean_token_accuracy": 0.6541512509187063,
      "num_tokens": 1167560550.0,
      "step": 6953
    },
    {
      "entropy": 1.7416847745577495,
      "epoch": 0.7639449616874021,
      "grad_norm": 0.7204356789588928,
      "learning_rate": 1.4761229544973253e-05,
      "loss": 1.3083,
      "mean_token_accuracy": 0.6680977592865626,
      "num_tokens": 1167682119.0,
      "step": 6954
    },
    {
      "entropy": 1.7352920869986217,
      "epoch": 0.7640548185987751,
      "grad_norm": 0.6415309906005859,
      "learning_rate": 1.4759774881682154e-05,
      "loss": 1.4291,
      "mean_token_accuracy": 0.6526644130547842,
      "num_tokens": 1167920712.0,
      "step": 6955
    },
    {
      "entropy": 1.7168652017911274,
      "epoch": 0.764164675510148,
      "grad_norm": 0.7147775292396545,
      "learning_rate": 1.4758320099395878e-05,
      "loss": 1.4244,
      "mean_token_accuracy": 0.6459483454624811,
      "num_tokens": 1168098347.0,
      "step": 6956
    },
    {
      "entropy": 1.716566542784373,
      "epoch": 0.764274532421521,
      "grad_norm": 0.6769205331802368,
      "learning_rate": 1.475686519816046e-05,
      "loss": 1.3462,
      "mean_token_accuracy": 0.6656129608551661,
      "num_tokens": 1168227173.0,
      "step": 6957
    },
    {
      "entropy": 1.7634214858214061,
      "epoch": 0.7643843893328939,
      "grad_norm": 0.6557965874671936,
      "learning_rate": 1.475541017802195e-05,
      "loss": 1.3621,
      "mean_token_accuracy": 0.6519608447949091,
      "num_tokens": 1168383497.0,
      "step": 6958
    },
    {
      "entropy": 1.7473195095856984,
      "epoch": 0.7644942462442669,
      "grad_norm": 0.7062838673591614,
      "learning_rate": 1.4753955039026404e-05,
      "loss": 1.3984,
      "mean_token_accuracy": 0.6513441602389017,
      "num_tokens": 1168533793.0,
      "step": 6959
    },
    {
      "entropy": 1.6654168864091237,
      "epoch": 0.7646041031556398,
      "grad_norm": 0.6767547726631165,
      "learning_rate": 1.4752499781219872e-05,
      "loss": 1.2874,
      "mean_token_accuracy": 0.6723661124706268,
      "num_tokens": 1168672243.0,
      "step": 6960
    },
    {
      "entropy": 1.6357990304629009,
      "epoch": 0.7647139600670128,
      "grad_norm": 0.7614895105361938,
      "learning_rate": 1.4751044404648408e-05,
      "loss": 1.2983,
      "mean_token_accuracy": 0.6715351541837057,
      "num_tokens": 1168857075.0,
      "step": 6961
    },
    {
      "entropy": 1.7005026539166768,
      "epoch": 0.7648238169783856,
      "grad_norm": 0.666313648223877,
      "learning_rate": 1.4749588909358083e-05,
      "loss": 1.3576,
      "mean_token_accuracy": 0.6531829734643301,
      "num_tokens": 1169003694.0,
      "step": 6962
    },
    {
      "entropy": 1.6825850903987885,
      "epoch": 0.7649336738897586,
      "grad_norm": 0.6583350896835327,
      "learning_rate": 1.474813329539496e-05,
      "loss": 1.4258,
      "mean_token_accuracy": 0.6811217963695526,
      "num_tokens": 1169167340.0,
      "step": 6963
    },
    {
      "entropy": 1.6577100853125255,
      "epoch": 0.7650435308011315,
      "grad_norm": 0.9120500087738037,
      "learning_rate": 1.4746677562805105e-05,
      "loss": 1.1814,
      "mean_token_accuracy": 0.6874327609936396,
      "num_tokens": 1169279246.0,
      "step": 6964
    },
    {
      "entropy": 1.7242598036924999,
      "epoch": 0.7651533877125045,
      "grad_norm": 0.9223476052284241,
      "learning_rate": 1.4745221711634595e-05,
      "loss": 1.2861,
      "mean_token_accuracy": 0.6691893190145493,
      "num_tokens": 1169427675.0,
      "step": 6965
    },
    {
      "entropy": 1.727004200220108,
      "epoch": 0.7652632446238774,
      "grad_norm": 0.7496103644371033,
      "learning_rate": 1.4743765741929503e-05,
      "loss": 1.4509,
      "mean_token_accuracy": 0.646850789586703,
      "num_tokens": 1169595749.0,
      "step": 6966
    },
    {
      "entropy": 1.644486020008723,
      "epoch": 0.7653731015352503,
      "grad_norm": 0.5539238452911377,
      "learning_rate": 1.4742309653735911e-05,
      "loss": 1.3391,
      "mean_token_accuracy": 0.655859500169754,
      "num_tokens": 1169788192.0,
      "step": 6967
    },
    {
      "entropy": 1.7506780723730724,
      "epoch": 0.7654829584466233,
      "grad_norm": 0.7031539678573608,
      "learning_rate": 1.4740853447099912e-05,
      "loss": 1.4266,
      "mean_token_accuracy": 0.6525140305360159,
      "num_tokens": 1169919266.0,
      "step": 6968
    },
    {
      "entropy": 1.7322252094745636,
      "epoch": 0.7655928153579962,
      "grad_norm": 0.712948203086853,
      "learning_rate": 1.4739397122067583e-05,
      "loss": 1.4078,
      "mean_token_accuracy": 0.6520160535971323,
      "num_tokens": 1170084069.0,
      "step": 6969
    },
    {
      "entropy": 1.6913042962551117,
      "epoch": 0.7657026722693692,
      "grad_norm": 0.6860613226890564,
      "learning_rate": 1.4737940678685016e-05,
      "loss": 1.3426,
      "mean_token_accuracy": 0.6700414170821508,
      "num_tokens": 1170236546.0,
      "step": 6970
    },
    {
      "entropy": 1.7662197053432465,
      "epoch": 0.765812529180742,
      "grad_norm": 0.696919858455658,
      "learning_rate": 1.4736484116998315e-05,
      "loss": 1.4445,
      "mean_token_accuracy": 0.6526474754015604,
      "num_tokens": 1170412715.0,
      "step": 6971
    },
    {
      "entropy": 1.703002353509267,
      "epoch": 0.765922386092115,
      "grad_norm": 0.6996424198150635,
      "learning_rate": 1.4735027437053576e-05,
      "loss": 1.2528,
      "mean_token_accuracy": 0.6738860954840978,
      "num_tokens": 1170516111.0,
      "step": 6972
    },
    {
      "entropy": 1.7598189612229664,
      "epoch": 0.7660322430034879,
      "grad_norm": 0.6697201132774353,
      "learning_rate": 1.47335706388969e-05,
      "loss": 1.4846,
      "mean_token_accuracy": 0.6326592018206915,
      "num_tokens": 1170683915.0,
      "step": 6973
    },
    {
      "entropy": 1.744869331518809,
      "epoch": 0.7661420999148609,
      "grad_norm": 0.6344386339187622,
      "learning_rate": 1.4732113722574395e-05,
      "loss": 1.3379,
      "mean_token_accuracy": 0.6556073526541392,
      "num_tokens": 1170823388.0,
      "step": 6974
    },
    {
      "entropy": 1.6862431168556213,
      "epoch": 0.7662519568262338,
      "grad_norm": 0.6660764217376709,
      "learning_rate": 1.4730656688132173e-05,
      "loss": 1.4486,
      "mean_token_accuracy": 0.6581073055664698,
      "num_tokens": 1170965077.0,
      "step": 6975
    },
    {
      "entropy": 1.7214731673399608,
      "epoch": 0.7663618137376068,
      "grad_norm": 0.6826305389404297,
      "learning_rate": 1.472919953561635e-05,
      "loss": 1.3649,
      "mean_token_accuracy": 0.6637348333994547,
      "num_tokens": 1171116343.0,
      "step": 6976
    },
    {
      "entropy": 1.7036389410495758,
      "epoch": 0.7664716706489797,
      "grad_norm": 0.6430275440216064,
      "learning_rate": 1.472774226507304e-05,
      "loss": 1.3781,
      "mean_token_accuracy": 0.6487658222516378,
      "num_tokens": 1171264476.0,
      "step": 6977
    },
    {
      "entropy": 1.6874217987060547,
      "epoch": 0.7665815275603527,
      "grad_norm": 0.6152638792991638,
      "learning_rate": 1.4726284876548367e-05,
      "loss": 1.3798,
      "mean_token_accuracy": 0.6498878498872122,
      "num_tokens": 1171468339.0,
      "step": 6978
    },
    {
      "entropy": 1.7156427005926769,
      "epoch": 0.7666913844717256,
      "grad_norm": 0.6952628493309021,
      "learning_rate": 1.4724827370088457e-05,
      "loss": 1.4389,
      "mean_token_accuracy": 0.6459887872139612,
      "num_tokens": 1171683447.0,
      "step": 6979
    },
    {
      "entropy": 1.6867701709270477,
      "epoch": 0.7668012413830985,
      "grad_norm": 0.6468155980110168,
      "learning_rate": 1.472336974573944e-05,
      "loss": 1.4697,
      "mean_token_accuracy": 0.6447963615258535,
      "num_tokens": 1171853214.0,
      "step": 6980
    },
    {
      "entropy": 1.710288276274999,
      "epoch": 0.7669110982944715,
      "grad_norm": 0.5480025410652161,
      "learning_rate": 1.4721912003547447e-05,
      "loss": 1.4186,
      "mean_token_accuracy": 0.648127923409144,
      "num_tokens": 1172038628.0,
      "step": 6981
    },
    {
      "entropy": 1.6937748491764069,
      "epoch": 0.7670209552058443,
      "grad_norm": 0.6765931844711304,
      "learning_rate": 1.4720454143558618e-05,
      "loss": 1.4487,
      "mean_token_accuracy": 0.6704505582650503,
      "num_tokens": 1172249770.0,
      "step": 6982
    },
    {
      "entropy": 1.7202177445093791,
      "epoch": 0.7671308121172173,
      "grad_norm": 0.7446685433387756,
      "learning_rate": 1.4718996165819093e-05,
      "loss": 1.3326,
      "mean_token_accuracy": 0.6584400335947672,
      "num_tokens": 1172391864.0,
      "step": 6983
    },
    {
      "entropy": 1.6548251410325368,
      "epoch": 0.7672406690285902,
      "grad_norm": 0.7036621570587158,
      "learning_rate": 1.471753807037501e-05,
      "loss": 1.2375,
      "mean_token_accuracy": 0.680665984749794,
      "num_tokens": 1172535215.0,
      "step": 6984
    },
    {
      "entropy": 1.6808474858601887,
      "epoch": 0.7673505259399632,
      "grad_norm": 0.6487118601799011,
      "learning_rate": 1.4716079857272527e-05,
      "loss": 1.3899,
      "mean_token_accuracy": 0.6563947548468908,
      "num_tokens": 1172692357.0,
      "step": 6985
    },
    {
      "entropy": 1.695367197195689,
      "epoch": 0.7674603828513361,
      "grad_norm": 1.2500559091567993,
      "learning_rate": 1.4714621526557788e-05,
      "loss": 1.3457,
      "mean_token_accuracy": 0.6743065714836121,
      "num_tokens": 1172820590.0,
      "step": 6986
    },
    {
      "entropy": 1.6751854817072551,
      "epoch": 0.7675702397627091,
      "grad_norm": 0.5937096476554871,
      "learning_rate": 1.4713163078276953e-05,
      "loss": 1.4562,
      "mean_token_accuracy": 0.6525317927201589,
      "num_tokens": 1173063549.0,
      "step": 6987
    },
    {
      "entropy": 1.6620129545529683,
      "epoch": 0.767680096674082,
      "grad_norm": 0.7316376566886902,
      "learning_rate": 1.471170451247618e-05,
      "loss": 1.3667,
      "mean_token_accuracy": 0.666183148821195,
      "num_tokens": 1173292913.0,
      "step": 6988
    },
    {
      "entropy": 1.7417064011096954,
      "epoch": 0.767789953585455,
      "grad_norm": 0.6786331534385681,
      "learning_rate": 1.471024582920163e-05,
      "loss": 1.3281,
      "mean_token_accuracy": 0.6628505686918894,
      "num_tokens": 1173481347.0,
      "step": 6989
    },
    {
      "entropy": 1.6276845037937164,
      "epoch": 0.7678998104968279,
      "grad_norm": 0.8080840706825256,
      "learning_rate": 1.4708787028499475e-05,
      "loss": 1.2766,
      "mean_token_accuracy": 0.670835038026174,
      "num_tokens": 1173610214.0,
      "step": 6990
    },
    {
      "entropy": 1.725032518307368,
      "epoch": 0.7680096674082009,
      "grad_norm": 0.9934976696968079,
      "learning_rate": 1.470732811041588e-05,
      "loss": 1.3939,
      "mean_token_accuracy": 0.6700426588455836,
      "num_tokens": 1173748546.0,
      "step": 6991
    },
    {
      "entropy": 1.7025299568970997,
      "epoch": 0.7681195243195738,
      "grad_norm": 0.6891453266143799,
      "learning_rate": 1.4705869074997022e-05,
      "loss": 1.5514,
      "mean_token_accuracy": 0.6387580533822378,
      "num_tokens": 1173940859.0,
      "step": 6992
    },
    {
      "entropy": 1.7296819686889648,
      "epoch": 0.7682293812309466,
      "grad_norm": 0.6920235753059387,
      "learning_rate": 1.4704409922289074e-05,
      "loss": 1.3289,
      "mean_token_accuracy": 0.6593838532765707,
      "num_tokens": 1174139950.0,
      "step": 6993
    },
    {
      "entropy": 1.7431517243385315,
      "epoch": 0.7683392381423196,
      "grad_norm": 0.6889626979827881,
      "learning_rate": 1.4702950652338224e-05,
      "loss": 1.5143,
      "mean_token_accuracy": 0.6448341409365336,
      "num_tokens": 1174281330.0,
      "step": 6994
    },
    {
      "entropy": 1.6172963281472523,
      "epoch": 0.7684490950536925,
      "grad_norm": 0.6094475388526917,
      "learning_rate": 1.4701491265190652e-05,
      "loss": 1.3748,
      "mean_token_accuracy": 0.6714093685150146,
      "num_tokens": 1174444111.0,
      "step": 6995
    },
    {
      "entropy": 1.7066385547320049,
      "epoch": 0.7685589519650655,
      "grad_norm": 0.5568619966506958,
      "learning_rate": 1.4700031760892552e-05,
      "loss": 1.3955,
      "mean_token_accuracy": 0.6417905241250992,
      "num_tokens": 1174677634.0,
      "step": 6996
    },
    {
      "entropy": 1.7028604447841644,
      "epoch": 0.7686688088764384,
      "grad_norm": 0.8622896075248718,
      "learning_rate": 1.4698572139490113e-05,
      "loss": 1.3625,
      "mean_token_accuracy": 0.6595305403073629,
      "num_tokens": 1174829291.0,
      "step": 6997
    },
    {
      "entropy": 1.748704065879186,
      "epoch": 0.7687786657878114,
      "grad_norm": 0.7469777464866638,
      "learning_rate": 1.4697112401029532e-05,
      "loss": 1.6273,
      "mean_token_accuracy": 0.6403237904111544,
      "num_tokens": 1175037549.0,
      "step": 6998
    },
    {
      "entropy": 1.6959306299686432,
      "epoch": 0.7688885226991843,
      "grad_norm": 0.7172491550445557,
      "learning_rate": 1.4695652545557009e-05,
      "loss": 1.3416,
      "mean_token_accuracy": 0.6578481743733088,
      "num_tokens": 1175213614.0,
      "step": 6999
    },
    {
      "entropy": 1.7542682588100433,
      "epoch": 0.7689983796105573,
      "grad_norm": 0.665587306022644,
      "learning_rate": 1.469419257311875e-05,
      "loss": 1.3778,
      "mean_token_accuracy": 0.6552835355202357,
      "num_tokens": 1175337289.0,
      "step": 7000
    },
    {
      "entropy": 1.6769481201966603,
      "epoch": 0.7691082365219302,
      "grad_norm": 0.8862442374229431,
      "learning_rate": 1.4692732483760958e-05,
      "loss": 1.347,
      "mean_token_accuracy": 0.6755407452583313,
      "num_tokens": 1175483112.0,
      "step": 7001
    },
    {
      "entropy": 1.719422310590744,
      "epoch": 0.7692180934333032,
      "grad_norm": 0.755631148815155,
      "learning_rate": 1.4691272277529852e-05,
      "loss": 1.3332,
      "mean_token_accuracy": 0.6593481749296188,
      "num_tokens": 1175630991.0,
      "step": 7002
    },
    {
      "entropy": 1.6748768985271454,
      "epoch": 0.769327950344676,
      "grad_norm": 0.6282011270523071,
      "learning_rate": 1.4689811954471638e-05,
      "loss": 1.3524,
      "mean_token_accuracy": 0.6604679971933365,
      "num_tokens": 1175801098.0,
      "step": 7003
    },
    {
      "entropy": 1.6717474361260731,
      "epoch": 0.769437807256049,
      "grad_norm": 0.7004813551902771,
      "learning_rate": 1.4688351514632539e-05,
      "loss": 1.255,
      "mean_token_accuracy": 0.6758040388425192,
      "num_tokens": 1175949273.0,
      "step": 7004
    },
    {
      "entropy": 1.7221704920132954,
      "epoch": 0.7695476641674219,
      "grad_norm": 0.6526414752006531,
      "learning_rate": 1.4686890958058774e-05,
      "loss": 1.3306,
      "mean_token_accuracy": 0.6652916769186655,
      "num_tokens": 1176111924.0,
      "step": 7005
    },
    {
      "entropy": 1.7045084337393444,
      "epoch": 0.7696575210787948,
      "grad_norm": 0.6869589686393738,
      "learning_rate": 1.4685430284796575e-05,
      "loss": 1.3229,
      "mean_token_accuracy": 0.6639479349056879,
      "num_tokens": 1176252812.0,
      "step": 7006
    },
    {
      "entropy": 1.6703706979751587,
      "epoch": 0.7697673779901678,
      "grad_norm": 0.6456193923950195,
      "learning_rate": 1.4683969494892168e-05,
      "loss": 1.3546,
      "mean_token_accuracy": 0.6619254897038142,
      "num_tokens": 1176420918.0,
      "step": 7007
    },
    {
      "entropy": 1.7053408324718475,
      "epoch": 0.7698772349015407,
      "grad_norm": 0.724219560623169,
      "learning_rate": 1.4682508588391786e-05,
      "loss": 1.3881,
      "mean_token_accuracy": 0.6580935915311178,
      "num_tokens": 1176594950.0,
      "step": 7008
    },
    {
      "entropy": 1.6640128095944722,
      "epoch": 0.7699870918129137,
      "grad_norm": 0.7082245349884033,
      "learning_rate": 1.4681047565341664e-05,
      "loss": 1.4806,
      "mean_token_accuracy": 0.6520075996716818,
      "num_tokens": 1176779499.0,
      "step": 7009
    },
    {
      "entropy": 1.6447947323322296,
      "epoch": 0.7700969487242866,
      "grad_norm": 0.7441786527633667,
      "learning_rate": 1.4679586425788051e-05,
      "loss": 1.3688,
      "mean_token_accuracy": 0.657518689831098,
      "num_tokens": 1176947062.0,
      "step": 7010
    },
    {
      "entropy": 1.7106069127718608,
      "epoch": 0.7702068056356596,
      "grad_norm": 0.8191734552383423,
      "learning_rate": 1.467812516977718e-05,
      "loss": 1.4011,
      "mean_token_accuracy": 0.6573437452316284,
      "num_tokens": 1177110501.0,
      "step": 7011
    },
    {
      "entropy": 1.7322260042031605,
      "epoch": 0.7703166625470325,
      "grad_norm": 0.7164145708084106,
      "learning_rate": 1.4676663797355307e-05,
      "loss": 1.3584,
      "mean_token_accuracy": 0.6518987119197845,
      "num_tokens": 1177271454.0,
      "step": 7012
    },
    {
      "entropy": 1.6704432566960652,
      "epoch": 0.7704265194584055,
      "grad_norm": 0.7696778774261475,
      "learning_rate": 1.4675202308568682e-05,
      "loss": 1.2934,
      "mean_token_accuracy": 0.6695187787214915,
      "num_tokens": 1177410556.0,
      "step": 7013
    },
    {
      "entropy": 1.6978066364924114,
      "epoch": 0.7705363763697783,
      "grad_norm": 0.8118786811828613,
      "learning_rate": 1.4673740703463559e-05,
      "loss": 1.2362,
      "mean_token_accuracy": 0.6846217463413874,
      "num_tokens": 1177543278.0,
      "step": 7014
    },
    {
      "entropy": 1.6863240996996562,
      "epoch": 0.7706462332811513,
      "grad_norm": 0.7545218467712402,
      "learning_rate": 1.46722789820862e-05,
      "loss": 1.3926,
      "mean_token_accuracy": 0.6479389071464539,
      "num_tokens": 1177711545.0,
      "step": 7015
    },
    {
      "entropy": 1.6915642023086548,
      "epoch": 0.7707560901925242,
      "grad_norm": 0.6925393342971802,
      "learning_rate": 1.4670817144482864e-05,
      "loss": 1.2654,
      "mean_token_accuracy": 0.6772432029247284,
      "num_tokens": 1177877618.0,
      "step": 7016
    },
    {
      "entropy": 1.7470574875672658,
      "epoch": 0.7708659471038972,
      "grad_norm": 0.67853844165802,
      "learning_rate": 1.466935519069982e-05,
      "loss": 1.6348,
      "mean_token_accuracy": 0.6177881682912508,
      "num_tokens": 1178092438.0,
      "step": 7017
    },
    {
      "entropy": 1.7246305743853252,
      "epoch": 0.7709758040152701,
      "grad_norm": 0.6471522450447083,
      "learning_rate": 1.4667893120783337e-05,
      "loss": 1.4376,
      "mean_token_accuracy": 0.6511177718639374,
      "num_tokens": 1178263593.0,
      "step": 7018
    },
    {
      "entropy": 1.7667359312375386,
      "epoch": 0.7710856609266431,
      "grad_norm": 0.7176552414894104,
      "learning_rate": 1.4666430934779692e-05,
      "loss": 1.3189,
      "mean_token_accuracy": 0.6782967547575632,
      "num_tokens": 1178415863.0,
      "step": 7019
    },
    {
      "entropy": 1.7315512498219807,
      "epoch": 0.771195517838016,
      "grad_norm": 0.6310048699378967,
      "learning_rate": 1.4664968632735157e-05,
      "loss": 1.5482,
      "mean_token_accuracy": 0.6332679738601049,
      "num_tokens": 1178636690.0,
      "step": 7020
    },
    {
      "entropy": 1.6622104545434315,
      "epoch": 0.7713053747493889,
      "grad_norm": 0.5793983340263367,
      "learning_rate": 1.4663506214696019e-05,
      "loss": 1.5111,
      "mean_token_accuracy": 0.6406310300032297,
      "num_tokens": 1178883992.0,
      "step": 7021
    },
    {
      "entropy": 1.6803521513938904,
      "epoch": 0.7714152316607619,
      "grad_norm": 0.5114834308624268,
      "learning_rate": 1.4662043680708557e-05,
      "loss": 1.55,
      "mean_token_accuracy": 0.6302276899417242,
      "num_tokens": 1179137785.0,
      "step": 7022
    },
    {
      "entropy": 1.7061661183834076,
      "epoch": 0.7715250885721348,
      "grad_norm": 0.6063534617424011,
      "learning_rate": 1.4660581030819063e-05,
      "loss": 1.3733,
      "mean_token_accuracy": 0.6526365379492441,
      "num_tokens": 1179295006.0,
      "step": 7023
    },
    {
      "entropy": 1.7167406380176544,
      "epoch": 0.7716349454835078,
      "grad_norm": 0.6147019267082214,
      "learning_rate": 1.4659118265073832e-05,
      "loss": 1.394,
      "mean_token_accuracy": 0.6613097737232844,
      "num_tokens": 1179510820.0,
      "step": 7024
    },
    {
      "entropy": 1.6936827500661213,
      "epoch": 0.7717448023948806,
      "grad_norm": 0.7615833878517151,
      "learning_rate": 1.4657655383519157e-05,
      "loss": 1.3649,
      "mean_token_accuracy": 0.6567181398471197,
      "num_tokens": 1179665016.0,
      "step": 7025
    },
    {
      "entropy": 1.7460854351520538,
      "epoch": 0.7718546593062536,
      "grad_norm": 0.8454451560974121,
      "learning_rate": 1.4656192386201333e-05,
      "loss": 1.4548,
      "mean_token_accuracy": 0.6643540759881338,
      "num_tokens": 1179813832.0,
      "step": 7026
    },
    {
      "entropy": 1.6930663386980693,
      "epoch": 0.7719645162176265,
      "grad_norm": 0.7514932155609131,
      "learning_rate": 1.465472927316667e-05,
      "loss": 1.5265,
      "mean_token_accuracy": 0.6348920861879984,
      "num_tokens": 1180021268.0,
      "step": 7027
    },
    {
      "entropy": 1.7139446039994557,
      "epoch": 0.7720743731289995,
      "grad_norm": 0.6872261762619019,
      "learning_rate": 1.4653266044461474e-05,
      "loss": 1.4672,
      "mean_token_accuracy": 0.648734375834465,
      "num_tokens": 1180163008.0,
      "step": 7028
    },
    {
      "entropy": 1.7607576847076416,
      "epoch": 0.7721842300403724,
      "grad_norm": 0.6853843927383423,
      "learning_rate": 1.465180270013205e-05,
      "loss": 1.4754,
      "mean_token_accuracy": 0.6421893537044525,
      "num_tokens": 1180316292.0,
      "step": 7029
    },
    {
      "entropy": 1.6858061254024506,
      "epoch": 0.7722940869517454,
      "grad_norm": 0.684089720249176,
      "learning_rate": 1.465033924022472e-05,
      "loss": 1.4033,
      "mean_token_accuracy": 0.6613581776618958,
      "num_tokens": 1180452591.0,
      "step": 7030
    },
    {
      "entropy": 1.692560573418935,
      "epoch": 0.7724039438631183,
      "grad_norm": 0.6754666566848755,
      "learning_rate": 1.4648875664785797e-05,
      "loss": 1.4735,
      "mean_token_accuracy": 0.6475921819607416,
      "num_tokens": 1180654465.0,
      "step": 7031
    },
    {
      "entropy": 1.7072215179602306,
      "epoch": 0.7725138007744913,
      "grad_norm": 0.6174911260604858,
      "learning_rate": 1.4647411973861601e-05,
      "loss": 1.5394,
      "mean_token_accuracy": 0.6355844636758169,
      "num_tokens": 1180883593.0,
      "step": 7032
    },
    {
      "entropy": 1.7164014180501301,
      "epoch": 0.7726236576858642,
      "grad_norm": 0.760221004486084,
      "learning_rate": 1.464594816749846e-05,
      "loss": 1.3237,
      "mean_token_accuracy": 0.6593389511108398,
      "num_tokens": 1181049298.0,
      "step": 7033
    },
    {
      "entropy": 1.7105709115664165,
      "epoch": 0.772733514597237,
      "grad_norm": 0.7115726470947266,
      "learning_rate": 1.4644484245742704e-05,
      "loss": 1.568,
      "mean_token_accuracy": 0.642639140288035,
      "num_tokens": 1181262923.0,
      "step": 7034
    },
    {
      "entropy": 1.7091182271639507,
      "epoch": 0.77284337150861,
      "grad_norm": 0.7895721197128296,
      "learning_rate": 1.4643020208640664e-05,
      "loss": 1.4203,
      "mean_token_accuracy": 0.652391200264295,
      "num_tokens": 1181432024.0,
      "step": 7035
    },
    {
      "entropy": 1.6460919280846913,
      "epoch": 0.7729532284199829,
      "grad_norm": 0.5189076662063599,
      "learning_rate": 1.4641556056238675e-05,
      "loss": 1.532,
      "mean_token_accuracy": 0.6269241819779078,
      "num_tokens": 1181703567.0,
      "step": 7036
    },
    {
      "entropy": 1.738191584746043,
      "epoch": 0.7730630853313559,
      "grad_norm": 0.8178884983062744,
      "learning_rate": 1.4640091788583079e-05,
      "loss": 1.5218,
      "mean_token_accuracy": 0.6404098868370056,
      "num_tokens": 1181891405.0,
      "step": 7037
    },
    {
      "entropy": 1.7580572366714478,
      "epoch": 0.7731729422427288,
      "grad_norm": 0.594333291053772,
      "learning_rate": 1.4638627405720216e-05,
      "loss": 1.5078,
      "mean_token_accuracy": 0.6458245019117991,
      "num_tokens": 1182086324.0,
      "step": 7038
    },
    {
      "entropy": 1.7033535142739613,
      "epoch": 0.7732827991541018,
      "grad_norm": 0.6162420511245728,
      "learning_rate": 1.4637162907696438e-05,
      "loss": 1.2653,
      "mean_token_accuracy": 0.6843320180972418,
      "num_tokens": 1182290496.0,
      "step": 7039
    },
    {
      "entropy": 1.7195685009161632,
      "epoch": 0.7733926560654747,
      "grad_norm": 0.7166089415550232,
      "learning_rate": 1.4635698294558092e-05,
      "loss": 1.4405,
      "mean_token_accuracy": 0.6487057308355967,
      "num_tokens": 1182489457.0,
      "step": 7040
    },
    {
      "entropy": 1.7417178054650624,
      "epoch": 0.7735025129768477,
      "grad_norm": 0.8565784096717834,
      "learning_rate": 1.463423356635153e-05,
      "loss": 1.4438,
      "mean_token_accuracy": 0.643385499715805,
      "num_tokens": 1182731014.0,
      "step": 7041
    },
    {
      "entropy": 1.7084386845429738,
      "epoch": 0.7736123698882206,
      "grad_norm": 0.5510115027427673,
      "learning_rate": 1.4632768723123119e-05,
      "loss": 1.5365,
      "mean_token_accuracy": 0.642001653711001,
      "num_tokens": 1182947354.0,
      "step": 7042
    },
    {
      "entropy": 1.7248138189315796,
      "epoch": 0.7737222267995936,
      "grad_norm": 0.7305212616920471,
      "learning_rate": 1.4631303764919208e-05,
      "loss": 1.1954,
      "mean_token_accuracy": 0.6862581819295883,
      "num_tokens": 1183074561.0,
      "step": 7043
    },
    {
      "entropy": 1.7128371099630992,
      "epoch": 0.7738320837109665,
      "grad_norm": 0.7132003307342529,
      "learning_rate": 1.4629838691786176e-05,
      "loss": 1.3073,
      "mean_token_accuracy": 0.6683625827232996,
      "num_tokens": 1183198631.0,
      "step": 7044
    },
    {
      "entropy": 1.7525557577610016,
      "epoch": 0.7739419406223395,
      "grad_norm": 0.724991500377655,
      "learning_rate": 1.462837350377038e-05,
      "loss": 1.5135,
      "mean_token_accuracy": 0.6378008325894674,
      "num_tokens": 1183375784.0,
      "step": 7045
    },
    {
      "entropy": 1.717278391122818,
      "epoch": 0.7740517975337123,
      "grad_norm": 0.674461841583252,
      "learning_rate": 1.4626908200918201e-05,
      "loss": 1.3914,
      "mean_token_accuracy": 0.6517154922087988,
      "num_tokens": 1183544082.0,
      "step": 7046
    },
    {
      "entropy": 1.5977116922537486,
      "epoch": 0.7741616544450852,
      "grad_norm": 0.6767549514770508,
      "learning_rate": 1.4625442783276012e-05,
      "loss": 1.2301,
      "mean_token_accuracy": 0.6752993414799372,
      "num_tokens": 1183679452.0,
      "step": 7047
    },
    {
      "entropy": 1.7543257574240367,
      "epoch": 0.7742715113564582,
      "grad_norm": 0.6589480638504028,
      "learning_rate": 1.462397725089019e-05,
      "loss": 1.4896,
      "mean_token_accuracy": 0.65002969900767,
      "num_tokens": 1183809390.0,
      "step": 7048
    },
    {
      "entropy": 1.6917062997817993,
      "epoch": 0.7743813682678311,
      "grad_norm": 0.6566320061683655,
      "learning_rate": 1.462251160380712e-05,
      "loss": 1.3941,
      "mean_token_accuracy": 0.6552205433448156,
      "num_tokens": 1183967409.0,
      "step": 7049
    },
    {
      "entropy": 1.6994734903176625,
      "epoch": 0.7744912251792041,
      "grad_norm": 0.7120063900947571,
      "learning_rate": 1.4621045842073194e-05,
      "loss": 1.4939,
      "mean_token_accuracy": 0.6527921060721079,
      "num_tokens": 1184183390.0,
      "step": 7050
    },
    {
      "entropy": 1.6695085167884827,
      "epoch": 0.774601082090577,
      "grad_norm": 0.8632370829582214,
      "learning_rate": 1.4619579965734797e-05,
      "loss": 1.4014,
      "mean_token_accuracy": 0.6676080425580343,
      "num_tokens": 1184346247.0,
      "step": 7051
    },
    {
      "entropy": 1.6956228117148082,
      "epoch": 0.77471093900195,
      "grad_norm": 0.6049069166183472,
      "learning_rate": 1.4618113974838324e-05,
      "loss": 1.3815,
      "mean_token_accuracy": 0.6569184164206187,
      "num_tokens": 1184519454.0,
      "step": 7052
    },
    {
      "entropy": 1.6839020152886708,
      "epoch": 0.7748207959133229,
      "grad_norm": 0.6516950726509094,
      "learning_rate": 1.4616647869430174e-05,
      "loss": 1.3496,
      "mean_token_accuracy": 0.665029858549436,
      "num_tokens": 1184698002.0,
      "step": 7053
    },
    {
      "entropy": 1.706792841355006,
      "epoch": 0.7749306528246959,
      "grad_norm": 0.6899370551109314,
      "learning_rate": 1.4615181649556751e-05,
      "loss": 1.5164,
      "mean_token_accuracy": 0.6479889204104742,
      "num_tokens": 1184859559.0,
      "step": 7054
    },
    {
      "entropy": 1.726404498020808,
      "epoch": 0.7750405097360688,
      "grad_norm": 0.5813102126121521,
      "learning_rate": 1.4613715315264453e-05,
      "loss": 1.4043,
      "mean_token_accuracy": 0.6609879980484644,
      "num_tokens": 1185057723.0,
      "step": 7055
    },
    {
      "entropy": 1.7247681121031444,
      "epoch": 0.7751503666474417,
      "grad_norm": 0.6459679007530212,
      "learning_rate": 1.4612248866599698e-05,
      "loss": 1.438,
      "mean_token_accuracy": 0.6407895038525263,
      "num_tokens": 1185236310.0,
      "step": 7056
    },
    {
      "entropy": 1.696563959121704,
      "epoch": 0.7752602235588146,
      "grad_norm": 0.8122643828392029,
      "learning_rate": 1.4610782303608895e-05,
      "loss": 1.5251,
      "mean_token_accuracy": 0.662423754731814,
      "num_tokens": 1185411741.0,
      "step": 7057
    },
    {
      "entropy": 1.6828083793322246,
      "epoch": 0.7753700804701876,
      "grad_norm": 0.7139939665794373,
      "learning_rate": 1.4609315626338455e-05,
      "loss": 1.2945,
      "mean_token_accuracy": 0.671471560994784,
      "num_tokens": 1185540548.0,
      "step": 7058
    },
    {
      "entropy": 1.6743756433327992,
      "epoch": 0.7754799373815605,
      "grad_norm": 0.6616625785827637,
      "learning_rate": 1.4607848834834808e-05,
      "loss": 1.307,
      "mean_token_accuracy": 0.6813914626836777,
      "num_tokens": 1185668124.0,
      "step": 7059
    },
    {
      "entropy": 1.6928254266579945,
      "epoch": 0.7755897942929334,
      "grad_norm": 0.7479018568992615,
      "learning_rate": 1.4606381929144366e-05,
      "loss": 1.373,
      "mean_token_accuracy": 0.6539994676907858,
      "num_tokens": 1185800426.0,
      "step": 7060
    },
    {
      "entropy": 1.6936748921871185,
      "epoch": 0.7756996512043064,
      "grad_norm": 0.8162828087806702,
      "learning_rate": 1.4604914909313562e-05,
      "loss": 1.211,
      "mean_token_accuracy": 0.6736436436573664,
      "num_tokens": 1185908583.0,
      "step": 7061
    },
    {
      "entropy": 1.713008721669515,
      "epoch": 0.7758095081156793,
      "grad_norm": 0.6247701644897461,
      "learning_rate": 1.4603447775388825e-05,
      "loss": 1.5041,
      "mean_token_accuracy": 0.6550228893756866,
      "num_tokens": 1186056753.0,
      "step": 7062
    },
    {
      "entropy": 1.752008448044459,
      "epoch": 0.7759193650270523,
      "grad_norm": 0.6326964497566223,
      "learning_rate": 1.4601980527416593e-05,
      "loss": 1.4098,
      "mean_token_accuracy": 0.6500469148159027,
      "num_tokens": 1186254903.0,
      "step": 7063
    },
    {
      "entropy": 1.71945525209109,
      "epoch": 0.7760292219384252,
      "grad_norm": 0.6365431547164917,
      "learning_rate": 1.4600513165443298e-05,
      "loss": 1.4776,
      "mean_token_accuracy": 0.6456809441248575,
      "num_tokens": 1186449812.0,
      "step": 7064
    },
    {
      "entropy": 1.7330725888411205,
      "epoch": 0.7761390788497982,
      "grad_norm": 0.7301865816116333,
      "learning_rate": 1.4599045689515383e-05,
      "loss": 1.2947,
      "mean_token_accuracy": 0.6618055999279022,
      "num_tokens": 1186602119.0,
      "step": 7065
    },
    {
      "entropy": 1.732138842344284,
      "epoch": 0.776248935761171,
      "grad_norm": 0.639707624912262,
      "learning_rate": 1.4597578099679293e-05,
      "loss": 1.3862,
      "mean_token_accuracy": 0.6675709386666616,
      "num_tokens": 1186752684.0,
      "step": 7066
    },
    {
      "entropy": 1.7195107837518055,
      "epoch": 0.776358792672544,
      "grad_norm": 0.6329506635665894,
      "learning_rate": 1.4596110395981477e-05,
      "loss": 1.5057,
      "mean_token_accuracy": 0.6421088526646296,
      "num_tokens": 1186923028.0,
      "step": 7067
    },
    {
      "entropy": 1.7601061860720317,
      "epoch": 0.7764686495839169,
      "grad_norm": 0.7304174304008484,
      "learning_rate": 1.459464257846839e-05,
      "loss": 1.4543,
      "mean_token_accuracy": 0.6482264697551727,
      "num_tokens": 1187126827.0,
      "step": 7068
    },
    {
      "entropy": 1.6720358630021412,
      "epoch": 0.7765785064952899,
      "grad_norm": 0.6124829649925232,
      "learning_rate": 1.4593174647186484e-05,
      "loss": 1.3228,
      "mean_token_accuracy": 0.6597183843453726,
      "num_tokens": 1187279117.0,
      "step": 7069
    },
    {
      "entropy": 1.7097432514031727,
      "epoch": 0.7766883634066628,
      "grad_norm": 0.6492157578468323,
      "learning_rate": 1.459170660218222e-05,
      "loss": 1.4168,
      "mean_token_accuracy": 0.6490695029497147,
      "num_tokens": 1187477267.0,
      "step": 7070
    },
    {
      "entropy": 1.6731528639793396,
      "epoch": 0.7767982203180358,
      "grad_norm": 0.6846409440040588,
      "learning_rate": 1.4590238443502062e-05,
      "loss": 1.3208,
      "mean_token_accuracy": 0.6802329818407694,
      "num_tokens": 1187640442.0,
      "step": 7071
    },
    {
      "entropy": 1.694802353779475,
      "epoch": 0.7769080772294087,
      "grad_norm": 0.6815143823623657,
      "learning_rate": 1.458877017119247e-05,
      "loss": 1.442,
      "mean_token_accuracy": 0.6708350131909052,
      "num_tokens": 1187819222.0,
      "step": 7072
    },
    {
      "entropy": 1.7885936399300892,
      "epoch": 0.7770179341407817,
      "grad_norm": 0.6548523902893066,
      "learning_rate": 1.4587301785299925e-05,
      "loss": 1.4269,
      "mean_token_accuracy": 0.6466637452443441,
      "num_tokens": 1188034722.0,
      "step": 7073
    },
    {
      "entropy": 1.7135749161243439,
      "epoch": 0.7771277910521546,
      "grad_norm": 0.7812349796295166,
      "learning_rate": 1.4585833285870891e-05,
      "loss": 1.3671,
      "mean_token_accuracy": 0.6483140687147776,
      "num_tokens": 1188216014.0,
      "step": 7074
    },
    {
      "entropy": 1.6287512878576915,
      "epoch": 0.7772376479635275,
      "grad_norm": 0.7831335663795471,
      "learning_rate": 1.4584364672951851e-05,
      "loss": 1.3522,
      "mean_token_accuracy": 0.6784834712743759,
      "num_tokens": 1188410952.0,
      "step": 7075
    },
    {
      "entropy": 1.7114653885364532,
      "epoch": 0.7773475048749005,
      "grad_norm": 0.7758569121360779,
      "learning_rate": 1.4582895946589287e-05,
      "loss": 1.3488,
      "mean_token_accuracy": 0.6737766712903976,
      "num_tokens": 1188548783.0,
      "step": 7076
    },
    {
      "entropy": 1.7152994672457378,
      "epoch": 0.7774573617862733,
      "grad_norm": 0.6986987590789795,
      "learning_rate": 1.4581427106829675e-05,
      "loss": 1.4113,
      "mean_token_accuracy": 0.6604458590348562,
      "num_tokens": 1188715804.0,
      "step": 7077
    },
    {
      "entropy": 1.7589812874794006,
      "epoch": 0.7775672186976463,
      "grad_norm": 0.9140593409538269,
      "learning_rate": 1.4579958153719513e-05,
      "loss": 1.2027,
      "mean_token_accuracy": 0.6834556410710017,
      "num_tokens": 1188807708.0,
      "step": 7078
    },
    {
      "entropy": 1.6676159103711445,
      "epoch": 0.7776770756090192,
      "grad_norm": 0.6604957580566406,
      "learning_rate": 1.4578489087305286e-05,
      "loss": 1.395,
      "mean_token_accuracy": 0.6646223912636439,
      "num_tokens": 1189019253.0,
      "step": 7079
    },
    {
      "entropy": 1.701384961605072,
      "epoch": 0.7777869325203922,
      "grad_norm": 0.6634955406188965,
      "learning_rate": 1.4577019907633494e-05,
      "loss": 1.3598,
      "mean_token_accuracy": 0.6663598666588465,
      "num_tokens": 1189162079.0,
      "step": 7080
    },
    {
      "entropy": 1.7295205891132355,
      "epoch": 0.7778967894317651,
      "grad_norm": 0.7290459275245667,
      "learning_rate": 1.4575550614750636e-05,
      "loss": 1.4276,
      "mean_token_accuracy": 0.6518198847770691,
      "num_tokens": 1189348501.0,
      "step": 7081
    },
    {
      "entropy": 1.6786798735459645,
      "epoch": 0.7780066463431381,
      "grad_norm": 0.8376657962799072,
      "learning_rate": 1.4574081208703205e-05,
      "loss": 1.5544,
      "mean_token_accuracy": 0.6468896766503652,
      "num_tokens": 1189516193.0,
      "step": 7082
    },
    {
      "entropy": 1.6363192001978557,
      "epoch": 0.778116503254511,
      "grad_norm": 0.7634339332580566,
      "learning_rate": 1.457261168953772e-05,
      "loss": 1.4173,
      "mean_token_accuracy": 0.6621982008218765,
      "num_tokens": 1189666179.0,
      "step": 7083
    },
    {
      "entropy": 1.6522767841815948,
      "epoch": 0.778226360165884,
      "grad_norm": 0.6967000365257263,
      "learning_rate": 1.4571142057300683e-05,
      "loss": 1.2449,
      "mean_token_accuracy": 0.677667478720347,
      "num_tokens": 1189784559.0,
      "step": 7084
    },
    {
      "entropy": 1.667193869749705,
      "epoch": 0.7783362170772569,
      "grad_norm": 0.6377148032188416,
      "learning_rate": 1.4569672312038607e-05,
      "loss": 1.4232,
      "mean_token_accuracy": 0.6659876654545466,
      "num_tokens": 1189964900.0,
      "step": 7085
    },
    {
      "entropy": 1.7085439264774323,
      "epoch": 0.7784460739886299,
      "grad_norm": 0.743248701095581,
      "learning_rate": 1.4568202453798014e-05,
      "loss": 1.372,
      "mean_token_accuracy": 0.6602604488531748,
      "num_tokens": 1190156829.0,
      "step": 7086
    },
    {
      "entropy": 1.6639246940612793,
      "epoch": 0.7785559309000027,
      "grad_norm": 0.718908429145813,
      "learning_rate": 1.4566732482625423e-05,
      "loss": 1.3575,
      "mean_token_accuracy": 0.6681891083717346,
      "num_tokens": 1190316623.0,
      "step": 7087
    },
    {
      "entropy": 1.6937816043694813,
      "epoch": 0.7786657878113756,
      "grad_norm": 0.7970039248466492,
      "learning_rate": 1.4565262398567352e-05,
      "loss": 1.2439,
      "mean_token_accuracy": 0.6761472771565119,
      "num_tokens": 1190464941.0,
      "step": 7088
    },
    {
      "entropy": 1.639806220928828,
      "epoch": 0.7787756447227486,
      "grad_norm": 0.5538852214813232,
      "learning_rate": 1.4563792201670334e-05,
      "loss": 1.3917,
      "mean_token_accuracy": 0.6550086786349615,
      "num_tokens": 1190671240.0,
      "step": 7089
    },
    {
      "entropy": 1.7520277798175812,
      "epoch": 0.7788855016341215,
      "grad_norm": 0.7734472751617432,
      "learning_rate": 1.45623218919809e-05,
      "loss": 1.3325,
      "mean_token_accuracy": 0.6582324057817459,
      "num_tokens": 1190786339.0,
      "step": 7090
    },
    {
      "entropy": 1.715962419907252,
      "epoch": 0.7789953585454945,
      "grad_norm": 0.682809054851532,
      "learning_rate": 1.456085146954558e-05,
      "loss": 1.3316,
      "mean_token_accuracy": 0.6533773044745127,
      "num_tokens": 1190936395.0,
      "step": 7091
    },
    {
      "entropy": 1.6548383732636769,
      "epoch": 0.7791052154568674,
      "grad_norm": 0.7674005627632141,
      "learning_rate": 1.4559380934410918e-05,
      "loss": 1.4276,
      "mean_token_accuracy": 0.6647045860687891,
      "num_tokens": 1191063187.0,
      "step": 7092
    },
    {
      "entropy": 1.7424963613351185,
      "epoch": 0.7792150723682404,
      "grad_norm": 0.8039253950119019,
      "learning_rate": 1.4557910286623456e-05,
      "loss": 1.4081,
      "mean_token_accuracy": 0.6619451393683752,
      "num_tokens": 1191216376.0,
      "step": 7093
    },
    {
      "entropy": 1.673016995191574,
      "epoch": 0.7793249292796133,
      "grad_norm": 0.750651478767395,
      "learning_rate": 1.455643952622973e-05,
      "loss": 1.4322,
      "mean_token_accuracy": 0.6569622804721197,
      "num_tokens": 1191362087.0,
      "step": 7094
    },
    {
      "entropy": 1.7055266002813976,
      "epoch": 0.7794347861909863,
      "grad_norm": 0.74098801612854,
      "learning_rate": 1.4554968653276303e-05,
      "loss": 1.4917,
      "mean_token_accuracy": 0.6539320250352224,
      "num_tokens": 1191506306.0,
      "step": 7095
    },
    {
      "entropy": 1.6832468211650848,
      "epoch": 0.7795446431023592,
      "grad_norm": 0.6400901675224304,
      "learning_rate": 1.4553497667809716e-05,
      "loss": 1.5095,
      "mean_token_accuracy": 0.637568806608518,
      "num_tokens": 1191702148.0,
      "step": 7096
    },
    {
      "entropy": 1.6865523755550385,
      "epoch": 0.7796545000137322,
      "grad_norm": 0.7597500681877136,
      "learning_rate": 1.455202656987653e-05,
      "loss": 1.5815,
      "mean_token_accuracy": 0.6512685567140579,
      "num_tokens": 1191868681.0,
      "step": 7097
    },
    {
      "entropy": 1.7562141319115956,
      "epoch": 0.779764356925105,
      "grad_norm": 0.7682708501815796,
      "learning_rate": 1.4550555359523303e-05,
      "loss": 1.3168,
      "mean_token_accuracy": 0.6706572075684866,
      "num_tokens": 1192009219.0,
      "step": 7098
    },
    {
      "entropy": 1.7148883839448292,
      "epoch": 0.779874213836478,
      "grad_norm": 0.7574900984764099,
      "learning_rate": 1.45490840367966e-05,
      "loss": 1.6325,
      "mean_token_accuracy": 0.6384792327880859,
      "num_tokens": 1192191135.0,
      "step": 7099
    },
    {
      "entropy": 1.6949690977732341,
      "epoch": 0.7799840707478509,
      "grad_norm": 0.643990695476532,
      "learning_rate": 1.4547612601742984e-05,
      "loss": 1.3238,
      "mean_token_accuracy": 0.6610787808895111,
      "num_tokens": 1192365786.0,
      "step": 7100
    },
    {
      "entropy": 1.6968937317530315,
      "epoch": 0.7800939276592238,
      "grad_norm": 0.6925724744796753,
      "learning_rate": 1.4546141054409026e-05,
      "loss": 1.3673,
      "mean_token_accuracy": 0.6582049876451492,
      "num_tokens": 1192499916.0,
      "step": 7101
    },
    {
      "entropy": 1.6771467129389446,
      "epoch": 0.7802037845705968,
      "grad_norm": 6.278994560241699,
      "learning_rate": 1.4544669394841307e-05,
      "loss": 1.3181,
      "mean_token_accuracy": 0.676389808456103,
      "num_tokens": 1192644459.0,
      "step": 7102
    },
    {
      "entropy": 1.7438280681769054,
      "epoch": 0.7803136414819697,
      "grad_norm": 0.6767034530639648,
      "learning_rate": 1.4543197623086398e-05,
      "loss": 1.2602,
      "mean_token_accuracy": 0.6726950407028198,
      "num_tokens": 1192759155.0,
      "step": 7103
    },
    {
      "entropy": 1.6500231822331746,
      "epoch": 0.7804234983933427,
      "grad_norm": 0.642570972442627,
      "learning_rate": 1.454172573919088e-05,
      "loss": 1.3393,
      "mean_token_accuracy": 0.6680295219024023,
      "num_tokens": 1192903425.0,
      "step": 7104
    },
    {
      "entropy": 1.6823652784029643,
      "epoch": 0.7805333553047156,
      "grad_norm": 0.7715455889701843,
      "learning_rate": 1.4540253743201336e-05,
      "loss": 1.1928,
      "mean_token_accuracy": 0.6783884565035502,
      "num_tokens": 1193030964.0,
      "step": 7105
    },
    {
      "entropy": 1.67123677333196,
      "epoch": 0.7806432122160886,
      "grad_norm": 0.6010688543319702,
      "learning_rate": 1.4538781635164359e-05,
      "loss": 1.4498,
      "mean_token_accuracy": 0.6451991299788157,
      "num_tokens": 1193238226.0,
      "step": 7106
    },
    {
      "entropy": 1.7276023924350739,
      "epoch": 0.7807530691274615,
      "grad_norm": 0.7072981595993042,
      "learning_rate": 1.4537309415126535e-05,
      "loss": 1.2735,
      "mean_token_accuracy": 0.677293395002683,
      "num_tokens": 1193368968.0,
      "step": 7107
    },
    {
      "entropy": 1.7027284701665242,
      "epoch": 0.7808629260388344,
      "grad_norm": 1.048176884651184,
      "learning_rate": 1.4535837083134465e-05,
      "loss": 1.5693,
      "mean_token_accuracy": 0.6457755664984385,
      "num_tokens": 1193493783.0,
      "step": 7108
    },
    {
      "entropy": 1.710277110338211,
      "epoch": 0.7809727829502073,
      "grad_norm": 0.7665229439735413,
      "learning_rate": 1.4534364639234744e-05,
      "loss": 1.3597,
      "mean_token_accuracy": 0.6668632626533508,
      "num_tokens": 1193646619.0,
      "step": 7109
    },
    {
      "entropy": 1.7380196849505107,
      "epoch": 0.7810826398615803,
      "grad_norm": 0.6514268517494202,
      "learning_rate": 1.4532892083473973e-05,
      "loss": 1.4335,
      "mean_token_accuracy": 0.6352319270372391,
      "num_tokens": 1193853184.0,
      "step": 7110
    },
    {
      "entropy": 1.659955104192098,
      "epoch": 0.7811924967729532,
      "grad_norm": 0.6248233914375305,
      "learning_rate": 1.4531419415898762e-05,
      "loss": 1.4731,
      "mean_token_accuracy": 0.6436507304509481,
      "num_tokens": 1194058800.0,
      "step": 7111
    },
    {
      "entropy": 1.766392429669698,
      "epoch": 0.7813023536843262,
      "grad_norm": 0.6671506762504578,
      "learning_rate": 1.4529946636555716e-05,
      "loss": 1.4857,
      "mean_token_accuracy": 0.642402226726214,
      "num_tokens": 1194250202.0,
      "step": 7112
    },
    {
      "entropy": 1.737959663073222,
      "epoch": 0.7814122105956991,
      "grad_norm": 0.5975798964500427,
      "learning_rate": 1.452847374549145e-05,
      "loss": 1.3968,
      "mean_token_accuracy": 0.6597791264454523,
      "num_tokens": 1194441641.0,
      "step": 7113
    },
    {
      "entropy": 1.7000750998655956,
      "epoch": 0.7815220675070721,
      "grad_norm": 0.6063849329948425,
      "learning_rate": 1.452700074275258e-05,
      "loss": 1.4046,
      "mean_token_accuracy": 0.6620944837729136,
      "num_tokens": 1194625979.0,
      "step": 7114
    },
    {
      "entropy": 1.7005607883135478,
      "epoch": 0.781631924418445,
      "grad_norm": 0.5850129127502441,
      "learning_rate": 1.4525527628385728e-05,
      "loss": 1.3936,
      "mean_token_accuracy": 0.6443201154470444,
      "num_tokens": 1194826016.0,
      "step": 7115
    },
    {
      "entropy": 1.728336493174235,
      "epoch": 0.7817417813298179,
      "grad_norm": 0.6136082410812378,
      "learning_rate": 1.4524054402437511e-05,
      "loss": 1.4068,
      "mean_token_accuracy": 0.6534546116987864,
      "num_tokens": 1194994162.0,
      "step": 7116
    },
    {
      "entropy": 1.7266682982444763,
      "epoch": 0.7818516382411909,
      "grad_norm": 0.6669444441795349,
      "learning_rate": 1.4522581064954563e-05,
      "loss": 1.3809,
      "mean_token_accuracy": 0.6540538171927134,
      "num_tokens": 1195189176.0,
      "step": 7117
    },
    {
      "entropy": 1.756045748790105,
      "epoch": 0.7819614951525637,
      "grad_norm": 0.674505889415741,
      "learning_rate": 1.4521107615983511e-05,
      "loss": 1.3878,
      "mean_token_accuracy": 0.6560290704170862,
      "num_tokens": 1195346345.0,
      "step": 7118
    },
    {
      "entropy": 1.6180338263511658,
      "epoch": 0.7820713520639367,
      "grad_norm": 0.6228286623954773,
      "learning_rate": 1.4519634055570988e-05,
      "loss": 1.2565,
      "mean_token_accuracy": 0.6812761723995209,
      "num_tokens": 1195480456.0,
      "step": 7119
    },
    {
      "entropy": 1.7572944561640422,
      "epoch": 0.7821812089753096,
      "grad_norm": 0.6308412551879883,
      "learning_rate": 1.4518160383763635e-05,
      "loss": 1.4338,
      "mean_token_accuracy": 0.6442923347155253,
      "num_tokens": 1195630768.0,
      "step": 7120
    },
    {
      "entropy": 1.7162999709447224,
      "epoch": 0.7822910658866826,
      "grad_norm": 0.7594370245933533,
      "learning_rate": 1.4516686600608089e-05,
      "loss": 1.4204,
      "mean_token_accuracy": 0.656131515900294,
      "num_tokens": 1195813359.0,
      "step": 7121
    },
    {
      "entropy": 1.721927394469579,
      "epoch": 0.7824009227980555,
      "grad_norm": 0.7334505915641785,
      "learning_rate": 1.4515212706151001e-05,
      "loss": 1.2533,
      "mean_token_accuracy": 0.6717882007360458,
      "num_tokens": 1195918100.0,
      "step": 7122
    },
    {
      "entropy": 1.7734851737817128,
      "epoch": 0.7825107797094285,
      "grad_norm": 0.949683427810669,
      "learning_rate": 1.4513738700439014e-05,
      "loss": 1.5294,
      "mean_token_accuracy": 0.642572283744812,
      "num_tokens": 1196061449.0,
      "step": 7123
    },
    {
      "entropy": 1.7282946904500325,
      "epoch": 0.7826206366208014,
      "grad_norm": 0.7295317649841309,
      "learning_rate": 1.4512264583518776e-05,
      "loss": 1.4733,
      "mean_token_accuracy": 0.6531463364760081,
      "num_tokens": 1196213722.0,
      "step": 7124
    },
    {
      "entropy": 1.6672942737738292,
      "epoch": 0.7827304935321744,
      "grad_norm": 0.620469868183136,
      "learning_rate": 1.451079035543695e-05,
      "loss": 1.3513,
      "mean_token_accuracy": 0.6611681828896204,
      "num_tokens": 1196354639.0,
      "step": 7125
    },
    {
      "entropy": 1.743516246477763,
      "epoch": 0.7828403504435473,
      "grad_norm": 0.7476531863212585,
      "learning_rate": 1.4509316016240189e-05,
      "loss": 1.4161,
      "mean_token_accuracy": 0.6624071647723516,
      "num_tokens": 1196531954.0,
      "step": 7126
    },
    {
      "entropy": 1.6648136377334595,
      "epoch": 0.7829502073549203,
      "grad_norm": 0.6160597801208496,
      "learning_rate": 1.4507841565975163e-05,
      "loss": 1.3679,
      "mean_token_accuracy": 0.6603780339161555,
      "num_tokens": 1196696042.0,
      "step": 7127
    },
    {
      "entropy": 1.6777517398198445,
      "epoch": 0.7830600642662932,
      "grad_norm": 0.667905330657959,
      "learning_rate": 1.4506367004688526e-05,
      "loss": 1.2421,
      "mean_token_accuracy": 0.6805467208226522,
      "num_tokens": 1196869852.0,
      "step": 7128
    },
    {
      "entropy": 1.773158888022105,
      "epoch": 0.783169921177666,
      "grad_norm": 0.8235062956809998,
      "learning_rate": 1.4504892332426954e-05,
      "loss": 1.497,
      "mean_token_accuracy": 0.6440630505482355,
      "num_tokens": 1197042159.0,
      "step": 7129
    },
    {
      "entropy": 1.67943408091863,
      "epoch": 0.783279778089039,
      "grad_norm": 0.6340872049331665,
      "learning_rate": 1.450341754923712e-05,
      "loss": 1.3416,
      "mean_token_accuracy": 0.6593078672885895,
      "num_tokens": 1197192533.0,
      "step": 7130
    },
    {
      "entropy": 1.6706339716911316,
      "epoch": 0.7833896350004119,
      "grad_norm": 0.5731471180915833,
      "learning_rate": 1.4501942655165701e-05,
      "loss": 1.4853,
      "mean_token_accuracy": 0.6310961991548538,
      "num_tokens": 1197393580.0,
      "step": 7131
    },
    {
      "entropy": 1.698110560576121,
      "epoch": 0.7834994919117849,
      "grad_norm": 0.7156584858894348,
      "learning_rate": 1.4500467650259373e-05,
      "loss": 1.3617,
      "mean_token_accuracy": 0.6580530057350794,
      "num_tokens": 1197545276.0,
      "step": 7132
    },
    {
      "entropy": 1.6475163499514263,
      "epoch": 0.7836093488231578,
      "grad_norm": 0.8746734261512756,
      "learning_rate": 1.4498992534564823e-05,
      "loss": 1.3337,
      "mean_token_accuracy": 0.6697489966948827,
      "num_tokens": 1197712691.0,
      "step": 7133
    },
    {
      "entropy": 1.7037550906340282,
      "epoch": 0.7837192057345308,
      "grad_norm": 0.6587815284729004,
      "learning_rate": 1.4497517308128734e-05,
      "loss": 1.4479,
      "mean_token_accuracy": 0.6581203639507294,
      "num_tokens": 1197877900.0,
      "step": 7134
    },
    {
      "entropy": 1.6985561152299244,
      "epoch": 0.7838290626459037,
      "grad_norm": 0.6671653985977173,
      "learning_rate": 1.44960419709978e-05,
      "loss": 1.2729,
      "mean_token_accuracy": 0.6706394900878271,
      "num_tokens": 1198012365.0,
      "step": 7135
    },
    {
      "entropy": 1.68305508295695,
      "epoch": 0.7839389195572767,
      "grad_norm": 0.6679463982582092,
      "learning_rate": 1.449456652321871e-05,
      "loss": 1.2377,
      "mean_token_accuracy": 0.6831518908341726,
      "num_tokens": 1198152717.0,
      "step": 7136
    },
    {
      "entropy": 1.7280430893103282,
      "epoch": 0.7840487764686496,
      "grad_norm": 0.8825252056121826,
      "learning_rate": 1.4493090964838167e-05,
      "loss": 1.3264,
      "mean_token_accuracy": 0.6597543060779572,
      "num_tokens": 1198339044.0,
      "step": 7137
    },
    {
      "entropy": 1.7101606527964275,
      "epoch": 0.7841586333800226,
      "grad_norm": 0.6220462322235107,
      "learning_rate": 1.449161529590287e-05,
      "loss": 1.3644,
      "mean_token_accuracy": 0.6578847219546636,
      "num_tokens": 1198461351.0,
      "step": 7138
    },
    {
      "entropy": 1.6869953870773315,
      "epoch": 0.7842684902913954,
      "grad_norm": 0.6071659922599792,
      "learning_rate": 1.449013951645952e-05,
      "loss": 1.552,
      "mean_token_accuracy": 0.636215329170227,
      "num_tokens": 1198670100.0,
      "step": 7139
    },
    {
      "entropy": 1.6908225218454997,
      "epoch": 0.7843783472027684,
      "grad_norm": 0.72711580991745,
      "learning_rate": 1.4488663626554826e-05,
      "loss": 1.4751,
      "mean_token_accuracy": 0.6628256092468897,
      "num_tokens": 1198842301.0,
      "step": 7140
    },
    {
      "entropy": 1.7508656183878581,
      "epoch": 0.7844882041141413,
      "grad_norm": 0.6913683414459229,
      "learning_rate": 1.4487187626235504e-05,
      "loss": 1.4579,
      "mean_token_accuracy": 0.6502855817476908,
      "num_tokens": 1198992313.0,
      "step": 7141
    },
    {
      "entropy": 1.6920421818892162,
      "epoch": 0.7845980610255142,
      "grad_norm": 0.711681604385376,
      "learning_rate": 1.4485711515548261e-05,
      "loss": 1.37,
      "mean_token_accuracy": 0.6575459539890289,
      "num_tokens": 1199136804.0,
      "step": 7142
    },
    {
      "entropy": 1.6301299730936687,
      "epoch": 0.7847079179368872,
      "grad_norm": 0.7222129106521606,
      "learning_rate": 1.4484235294539824e-05,
      "loss": 1.3653,
      "mean_token_accuracy": 0.669685035943985,
      "num_tokens": 1199302100.0,
      "step": 7143
    },
    {
      "entropy": 1.6759273211161296,
      "epoch": 0.7848177748482601,
      "grad_norm": 0.727353036403656,
      "learning_rate": 1.4482758963256904e-05,
      "loss": 1.2621,
      "mean_token_accuracy": 0.6747185587882996,
      "num_tokens": 1199431204.0,
      "step": 7144
    },
    {
      "entropy": 1.7488112548987071,
      "epoch": 0.7849276317596331,
      "grad_norm": 0.6163308024406433,
      "learning_rate": 1.4481282521746236e-05,
      "loss": 1.5528,
      "mean_token_accuracy": 0.6342363655567169,
      "num_tokens": 1199615484.0,
      "step": 7145
    },
    {
      "entropy": 1.7138899366060893,
      "epoch": 0.785037488671006,
      "grad_norm": 0.619773268699646,
      "learning_rate": 1.4479805970054544e-05,
      "loss": 1.4131,
      "mean_token_accuracy": 0.6630217432975769,
      "num_tokens": 1199768737.0,
      "step": 7146
    },
    {
      "entropy": 1.7128514150778453,
      "epoch": 0.785147345582379,
      "grad_norm": 0.7631600499153137,
      "learning_rate": 1.447832930822856e-05,
      "loss": 1.4182,
      "mean_token_accuracy": 0.6703273256619772,
      "num_tokens": 1199917429.0,
      "step": 7147
    },
    {
      "entropy": 1.7253048022588093,
      "epoch": 0.7852572024937519,
      "grad_norm": 0.6738438010215759,
      "learning_rate": 1.4476852536315022e-05,
      "loss": 1.2802,
      "mean_token_accuracy": 0.6651460230350494,
      "num_tokens": 1200032163.0,
      "step": 7148
    },
    {
      "entropy": 1.673990160226822,
      "epoch": 0.7853670594051249,
      "grad_norm": 0.6391650438308716,
      "learning_rate": 1.4475375654360669e-05,
      "loss": 1.3706,
      "mean_token_accuracy": 0.6688804576794306,
      "num_tokens": 1200202637.0,
      "step": 7149
    },
    {
      "entropy": 1.7560782929261525,
      "epoch": 0.7854769163164977,
      "grad_norm": 0.683594286441803,
      "learning_rate": 1.447389866241224e-05,
      "loss": 1.4088,
      "mean_token_accuracy": 0.6569011211395264,
      "num_tokens": 1200359101.0,
      "step": 7150
    },
    {
      "entropy": 1.7138656278451283,
      "epoch": 0.7855867732278707,
      "grad_norm": 0.6900503635406494,
      "learning_rate": 1.4472421560516485e-05,
      "loss": 1.4651,
      "mean_token_accuracy": 0.6426846434672674,
      "num_tokens": 1200560872.0,
      "step": 7151
    },
    {
      "entropy": 1.7244854867458344,
      "epoch": 0.7856966301392436,
      "grad_norm": 0.6141315698623657,
      "learning_rate": 1.4470944348720155e-05,
      "loss": 1.4302,
      "mean_token_accuracy": 0.6623003830512365,
      "num_tokens": 1200716958.0,
      "step": 7152
    },
    {
      "entropy": 1.712331473827362,
      "epoch": 0.7858064870506166,
      "grad_norm": 0.6378352046012878,
      "learning_rate": 1.4469467027069996e-05,
      "loss": 1.4881,
      "mean_token_accuracy": 0.6507144321997961,
      "num_tokens": 1200953835.0,
      "step": 7153
    },
    {
      "entropy": 1.7112789849440257,
      "epoch": 0.7859163439619895,
      "grad_norm": 0.6243149042129517,
      "learning_rate": 1.446798959561277e-05,
      "loss": 1.3715,
      "mean_token_accuracy": 0.6659561494986216,
      "num_tokens": 1201154401.0,
      "step": 7154
    },
    {
      "entropy": 1.6723881363868713,
      "epoch": 0.7860262008733624,
      "grad_norm": 0.7144157290458679,
      "learning_rate": 1.4466512054395238e-05,
      "loss": 1.2879,
      "mean_token_accuracy": 0.672190397977829,
      "num_tokens": 1201292259.0,
      "step": 7155
    },
    {
      "entropy": 1.6763904094696045,
      "epoch": 0.7861360577847354,
      "grad_norm": 0.6170639395713806,
      "learning_rate": 1.446503440346416e-05,
      "loss": 1.2683,
      "mean_token_accuracy": 0.6757438133160273,
      "num_tokens": 1201434618.0,
      "step": 7156
    },
    {
      "entropy": 1.7109374403953552,
      "epoch": 0.7862459146961083,
      "grad_norm": 0.7301081418991089,
      "learning_rate": 1.4463556642866305e-05,
      "loss": 1.3605,
      "mean_token_accuracy": 0.6616794069608053,
      "num_tokens": 1201592457.0,
      "step": 7157
    },
    {
      "entropy": 1.6911123394966125,
      "epoch": 0.7863557716074813,
      "grad_norm": 0.6597540974617004,
      "learning_rate": 1.4462078772648445e-05,
      "loss": 1.4674,
      "mean_token_accuracy": 0.6407536615928014,
      "num_tokens": 1201781440.0,
      "step": 7158
    },
    {
      "entropy": 1.6666575372219086,
      "epoch": 0.7864656285188542,
      "grad_norm": 0.5943217873573303,
      "learning_rate": 1.4460600792857349e-05,
      "loss": 1.4631,
      "mean_token_accuracy": 0.6552510807911555,
      "num_tokens": 1201987350.0,
      "step": 7159
    },
    {
      "entropy": 1.736344705025355,
      "epoch": 0.7865754854302272,
      "grad_norm": 0.6110522150993347,
      "learning_rate": 1.4459122703539796e-05,
      "loss": 1.5263,
      "mean_token_accuracy": 0.6426798502604166,
      "num_tokens": 1202207575.0,
      "step": 7160
    },
    {
      "entropy": 1.7043259739875793,
      "epoch": 0.7866853423416,
      "grad_norm": 0.763015866279602,
      "learning_rate": 1.4457644504742572e-05,
      "loss": 1.4422,
      "mean_token_accuracy": 0.654599666595459,
      "num_tokens": 1202348000.0,
      "step": 7161
    },
    {
      "entropy": 1.7122917970021565,
      "epoch": 0.786795199252973,
      "grad_norm": 0.8961231112480164,
      "learning_rate": 1.4456166196512453e-05,
      "loss": 1.4143,
      "mean_token_accuracy": 0.6518704841534296,
      "num_tokens": 1202509044.0,
      "step": 7162
    },
    {
      "entropy": 1.6719779272874196,
      "epoch": 0.7869050561643459,
      "grad_norm": 0.6332946419715881,
      "learning_rate": 1.4454687778896235e-05,
      "loss": 1.4086,
      "mean_token_accuracy": 0.6405781507492065,
      "num_tokens": 1202724539.0,
      "step": 7163
    },
    {
      "entropy": 1.7168918947378795,
      "epoch": 0.7870149130757189,
      "grad_norm": 0.7975315451622009,
      "learning_rate": 1.4453209251940706e-05,
      "loss": 1.3936,
      "mean_token_accuracy": 0.6588208178679148,
      "num_tokens": 1202860338.0,
      "step": 7164
    },
    {
      "entropy": 1.7201037506262462,
      "epoch": 0.7871247699870918,
      "grad_norm": 0.7638601660728455,
      "learning_rate": 1.4451730615692658e-05,
      "loss": 1.3508,
      "mean_token_accuracy": 0.6692859182755152,
      "num_tokens": 1202992554.0,
      "step": 7165
    },
    {
      "entropy": 1.6601012448469799,
      "epoch": 0.7872346268984648,
      "grad_norm": 0.5404378175735474,
      "learning_rate": 1.445025187019889e-05,
      "loss": 1.3115,
      "mean_token_accuracy": 0.6680645495653152,
      "num_tokens": 1203174793.0,
      "step": 7166
    },
    {
      "entropy": 1.7655375202496846,
      "epoch": 0.7873444838098377,
      "grad_norm": 0.7130011320114136,
      "learning_rate": 1.444877301550621e-05,
      "loss": 1.4636,
      "mean_token_accuracy": 0.6438860942920049,
      "num_tokens": 1203369080.0,
      "step": 7167
    },
    {
      "entropy": 1.7369131445884705,
      "epoch": 0.7874543407212107,
      "grad_norm": 0.6770559549331665,
      "learning_rate": 1.4447294051661414e-05,
      "loss": 1.3676,
      "mean_token_accuracy": 0.6571057687203089,
      "num_tokens": 1203515924.0,
      "step": 7168
    },
    {
      "entropy": 1.7329241931438446,
      "epoch": 0.7875641976325836,
      "grad_norm": 0.6496652960777283,
      "learning_rate": 1.4445814978711317e-05,
      "loss": 1.5801,
      "mean_token_accuracy": 0.6215295642614365,
      "num_tokens": 1203718060.0,
      "step": 7169
    },
    {
      "entropy": 1.7130872507890065,
      "epoch": 0.7876740545439564,
      "grad_norm": 0.6565669178962708,
      "learning_rate": 1.4444335796702726e-05,
      "loss": 1.449,
      "mean_token_accuracy": 0.6431066493193308,
      "num_tokens": 1203949259.0,
      "step": 7170
    },
    {
      "entropy": 1.7333206037680309,
      "epoch": 0.7877839114553294,
      "grad_norm": 0.7088605165481567,
      "learning_rate": 1.4442856505682462e-05,
      "loss": 1.4145,
      "mean_token_accuracy": 0.6694990048805872,
      "num_tokens": 1204132043.0,
      "step": 7171
    },
    {
      "entropy": 1.697807510693868,
      "epoch": 0.7878937683667023,
      "grad_norm": 0.8567109704017639,
      "learning_rate": 1.4441377105697339e-05,
      "loss": 1.4784,
      "mean_token_accuracy": 0.6585593720277151,
      "num_tokens": 1204333339.0,
      "step": 7172
    },
    {
      "entropy": 1.6664861639340718,
      "epoch": 0.7880036252780753,
      "grad_norm": 0.711167573928833,
      "learning_rate": 1.443989759679418e-05,
      "loss": 1.3998,
      "mean_token_accuracy": 0.6541877388954163,
      "num_tokens": 1204476596.0,
      "step": 7173
    },
    {
      "entropy": 1.7098850707213085,
      "epoch": 0.7881134821894482,
      "grad_norm": 0.6929422616958618,
      "learning_rate": 1.4438417979019817e-05,
      "loss": 1.5313,
      "mean_token_accuracy": 0.634042297800382,
      "num_tokens": 1204657222.0,
      "step": 7174
    },
    {
      "entropy": 1.7105639080206554,
      "epoch": 0.7882233391008212,
      "grad_norm": 0.6769076585769653,
      "learning_rate": 1.443693825242107e-05,
      "loss": 1.4749,
      "mean_token_accuracy": 0.6523736665646235,
      "num_tokens": 1204808131.0,
      "step": 7175
    },
    {
      "entropy": 1.6820484797159831,
      "epoch": 0.7883331960121941,
      "grad_norm": 0.6611175537109375,
      "learning_rate": 1.4435458417044777e-05,
      "loss": 1.3882,
      "mean_token_accuracy": 0.6505205978949865,
      "num_tokens": 1204971165.0,
      "step": 7176
    },
    {
      "entropy": 1.6880492369333904,
      "epoch": 0.7884430529235671,
      "grad_norm": 0.7320232391357422,
      "learning_rate": 1.4433978472937776e-05,
      "loss": 1.312,
      "mean_token_accuracy": 0.6604448159535726,
      "num_tokens": 1205093123.0,
      "step": 7177
    },
    {
      "entropy": 1.736960728963216,
      "epoch": 0.78855290983494,
      "grad_norm": 0.6706869602203369,
      "learning_rate": 1.44324984201469e-05,
      "loss": 1.3149,
      "mean_token_accuracy": 0.6695601592461268,
      "num_tokens": 1205218514.0,
      "step": 7178
    },
    {
      "entropy": 1.7094795008500416,
      "epoch": 0.788662766746313,
      "grad_norm": 0.6586654186248779,
      "learning_rate": 1.4431018258718996e-05,
      "loss": 1.3724,
      "mean_token_accuracy": 0.649998739361763,
      "num_tokens": 1205350578.0,
      "step": 7179
    },
    {
      "entropy": 1.6713014940420787,
      "epoch": 0.7887726236576859,
      "grad_norm": 0.6533616781234741,
      "learning_rate": 1.4429537988700913e-05,
      "loss": 1.3621,
      "mean_token_accuracy": 0.6759164482355118,
      "num_tokens": 1205503254.0,
      "step": 7180
    },
    {
      "entropy": 1.683766891558965,
      "epoch": 0.7888824805690589,
      "grad_norm": 0.67979496717453,
      "learning_rate": 1.4428057610139495e-05,
      "loss": 1.3932,
      "mean_token_accuracy": 0.6734537233908972,
      "num_tokens": 1205639667.0,
      "step": 7181
    },
    {
      "entropy": 1.7113385399182637,
      "epoch": 0.7889923374804317,
      "grad_norm": 0.712390124797821,
      "learning_rate": 1.4426577123081597e-05,
      "loss": 1.2857,
      "mean_token_accuracy": 0.6757234086592993,
      "num_tokens": 1205769605.0,
      "step": 7182
    },
    {
      "entropy": 1.6981197694937389,
      "epoch": 0.7891021943918046,
      "grad_norm": 0.6102924942970276,
      "learning_rate": 1.4425096527574082e-05,
      "loss": 1.3276,
      "mean_token_accuracy": 0.6542087992032369,
      "num_tokens": 1205933495.0,
      "step": 7183
    },
    {
      "entropy": 1.6887332499027252,
      "epoch": 0.7892120513031776,
      "grad_norm": 0.745152473449707,
      "learning_rate": 1.4423615823663804e-05,
      "loss": 1.3603,
      "mean_token_accuracy": 0.6610602786143621,
      "num_tokens": 1206050631.0,
      "step": 7184
    },
    {
      "entropy": 1.7006172637144725,
      "epoch": 0.7893219082145505,
      "grad_norm": 0.6827918887138367,
      "learning_rate": 1.4422135011397627e-05,
      "loss": 1.2546,
      "mean_token_accuracy": 0.6747910380363464,
      "num_tokens": 1206167560.0,
      "step": 7185
    },
    {
      "entropy": 1.7094734410444896,
      "epoch": 0.7894317651259235,
      "grad_norm": 0.7063429951667786,
      "learning_rate": 1.4420654090822416e-05,
      "loss": 1.3133,
      "mean_token_accuracy": 0.6641270716985067,
      "num_tokens": 1206342612.0,
      "step": 7186
    },
    {
      "entropy": 1.6872341831525166,
      "epoch": 0.7895416220372964,
      "grad_norm": 0.7216169238090515,
      "learning_rate": 1.4419173061985048e-05,
      "loss": 1.3068,
      "mean_token_accuracy": 0.6675632099310557,
      "num_tokens": 1206480850.0,
      "step": 7187
    },
    {
      "entropy": 1.7280444105466206,
      "epoch": 0.7896514789486694,
      "grad_norm": 0.7706807851791382,
      "learning_rate": 1.4417691924932394e-05,
      "loss": 1.3474,
      "mean_token_accuracy": 0.6651838620503744,
      "num_tokens": 1206625169.0,
      "step": 7188
    },
    {
      "entropy": 1.719985653956731,
      "epoch": 0.7897613358600423,
      "grad_norm": 0.7672920227050781,
      "learning_rate": 1.441621067971133e-05,
      "loss": 1.3996,
      "mean_token_accuracy": 0.6526385049025217,
      "num_tokens": 1206774389.0,
      "step": 7189
    },
    {
      "entropy": 1.7050624787807465,
      "epoch": 0.7898711927714153,
      "grad_norm": 0.8137822151184082,
      "learning_rate": 1.4414729326368736e-05,
      "loss": 1.4153,
      "mean_token_accuracy": 0.657172903418541,
      "num_tokens": 1206920548.0,
      "step": 7190
    },
    {
      "entropy": 1.7352370421091716,
      "epoch": 0.7899810496827882,
      "grad_norm": 0.6931704878807068,
      "learning_rate": 1.4413247864951499e-05,
      "loss": 1.4766,
      "mean_token_accuracy": 0.6547851413488388,
      "num_tokens": 1207111742.0,
      "step": 7191
    },
    {
      "entropy": 1.6695275406042736,
      "epoch": 0.7900909065941611,
      "grad_norm": 0.7764499187469482,
      "learning_rate": 1.4411766295506502e-05,
      "loss": 1.1244,
      "mean_token_accuracy": 0.7065702676773071,
      "num_tokens": 1207238801.0,
      "step": 7192
    },
    {
      "entropy": 1.651973952849706,
      "epoch": 0.790200763505534,
      "grad_norm": 0.8136328458786011,
      "learning_rate": 1.4410284618080644e-05,
      "loss": 1.3584,
      "mean_token_accuracy": 0.6729863931735357,
      "num_tokens": 1207392700.0,
      "step": 7193
    },
    {
      "entropy": 1.6933129529158275,
      "epoch": 0.790310620416907,
      "grad_norm": 0.7404091954231262,
      "learning_rate": 1.440880283272081e-05,
      "loss": 1.407,
      "mean_token_accuracy": 0.6515365193287531,
      "num_tokens": 1207583914.0,
      "step": 7194
    },
    {
      "entropy": 1.7414989471435547,
      "epoch": 0.7904204773282799,
      "grad_norm": 0.7047650814056396,
      "learning_rate": 1.4407320939473903e-05,
      "loss": 1.386,
      "mean_token_accuracy": 0.6629294902086258,
      "num_tokens": 1207747681.0,
      "step": 7195
    },
    {
      "entropy": 1.7473087112108867,
      "epoch": 0.7905303342396528,
      "grad_norm": 0.6341284513473511,
      "learning_rate": 1.4405838938386827e-05,
      "loss": 1.4854,
      "mean_token_accuracy": 0.6382193118333817,
      "num_tokens": 1207993633.0,
      "step": 7196
    },
    {
      "entropy": 1.7010388871033986,
      "epoch": 0.7906401911510258,
      "grad_norm": 0.7494300603866577,
      "learning_rate": 1.440435682950648e-05,
      "loss": 1.3331,
      "mean_token_accuracy": 0.669193853934606,
      "num_tokens": 1208164918.0,
      "step": 7197
    },
    {
      "entropy": 1.7257753908634186,
      "epoch": 0.7907500480623987,
      "grad_norm": 0.7151653170585632,
      "learning_rate": 1.4402874612879774e-05,
      "loss": 1.2647,
      "mean_token_accuracy": 0.6737553824981054,
      "num_tokens": 1208275864.0,
      "step": 7198
    },
    {
      "entropy": 1.7049545844395955,
      "epoch": 0.7908599049737717,
      "grad_norm": 0.8426851630210876,
      "learning_rate": 1.4401392288553622e-05,
      "loss": 1.4961,
      "mean_token_accuracy": 0.6478038181861242,
      "num_tokens": 1208466701.0,
      "step": 7199
    },
    {
      "entropy": 1.7350122928619385,
      "epoch": 0.7909697618851446,
      "grad_norm": 0.816241979598999,
      "learning_rate": 1.4399909856574931e-05,
      "loss": 1.3144,
      "mean_token_accuracy": 0.6634030193090439,
      "num_tokens": 1208595401.0,
      "step": 7200
    },
    {
      "entropy": 1.7607790033022563,
      "epoch": 0.7910796187965176,
      "grad_norm": 0.6901513934135437,
      "learning_rate": 1.4398427316990633e-05,
      "loss": 1.348,
      "mean_token_accuracy": 0.6634863515694936,
      "num_tokens": 1208778298.0,
      "step": 7201
    },
    {
      "entropy": 1.7141740421454112,
      "epoch": 0.7911894757078904,
      "grad_norm": 0.6500587463378906,
      "learning_rate": 1.4396944669847637e-05,
      "loss": 1.4433,
      "mean_token_accuracy": 0.6416673759619395,
      "num_tokens": 1208970192.0,
      "step": 7202
    },
    {
      "entropy": 1.68813360730807,
      "epoch": 0.7912993326192634,
      "grad_norm": 0.6901952624320984,
      "learning_rate": 1.4395461915192875e-05,
      "loss": 1.366,
      "mean_token_accuracy": 0.6568211714426676,
      "num_tokens": 1209101142.0,
      "step": 7203
    },
    {
      "entropy": 1.6981943150361378,
      "epoch": 0.7914091895306363,
      "grad_norm": 0.7170037627220154,
      "learning_rate": 1.439397905307327e-05,
      "loss": 1.5666,
      "mean_token_accuracy": 0.6461018125216166,
      "num_tokens": 1209262785.0,
      "step": 7204
    },
    {
      "entropy": 1.5867635409037273,
      "epoch": 0.7915190464420093,
      "grad_norm": 0.7785094976425171,
      "learning_rate": 1.4392496083535764e-05,
      "loss": 1.3767,
      "mean_token_accuracy": 0.6633408665657043,
      "num_tokens": 1209442179.0,
      "step": 7205
    },
    {
      "entropy": 1.7308302025000255,
      "epoch": 0.7916289033533822,
      "grad_norm": 0.6985065937042236,
      "learning_rate": 1.4391013006627276e-05,
      "loss": 1.4598,
      "mean_token_accuracy": 0.6464549154043198,
      "num_tokens": 1209665973.0,
      "step": 7206
    },
    {
      "entropy": 1.7229714790980022,
      "epoch": 0.7917387602647552,
      "grad_norm": 0.6461872458457947,
      "learning_rate": 1.438952982239476e-05,
      "loss": 1.4052,
      "mean_token_accuracy": 0.6459956765174866,
      "num_tokens": 1209842142.0,
      "step": 7207
    },
    {
      "entropy": 1.6630838414033253,
      "epoch": 0.7918486171761281,
      "grad_norm": 0.7045498490333557,
      "learning_rate": 1.4388046530885156e-05,
      "loss": 1.2883,
      "mean_token_accuracy": 0.6830503195524216,
      "num_tokens": 1209971675.0,
      "step": 7208
    },
    {
      "entropy": 1.712927410999934,
      "epoch": 0.7919584740875011,
      "grad_norm": 0.8392392992973328,
      "learning_rate": 1.43865631321454e-05,
      "loss": 1.3648,
      "mean_token_accuracy": 0.6657893657684326,
      "num_tokens": 1210119563.0,
      "step": 7209
    },
    {
      "entropy": 1.67608709136645,
      "epoch": 0.792068330998874,
      "grad_norm": 0.6663906574249268,
      "learning_rate": 1.438507962622245e-05,
      "loss": 1.2885,
      "mean_token_accuracy": 0.6710440864165624,
      "num_tokens": 1210253870.0,
      "step": 7210
    },
    {
      "entropy": 1.7072576979796092,
      "epoch": 0.7921781879102469,
      "grad_norm": 0.6991833448410034,
      "learning_rate": 1.4383596013163254e-05,
      "loss": 1.5431,
      "mean_token_accuracy": 0.641920750339826,
      "num_tokens": 1210486487.0,
      "step": 7211
    },
    {
      "entropy": 1.6564313073952992,
      "epoch": 0.7922880448216199,
      "grad_norm": 0.8407886028289795,
      "learning_rate": 1.4382112293014767e-05,
      "loss": 1.2964,
      "mean_token_accuracy": 0.6637519697348276,
      "num_tokens": 1210607227.0,
      "step": 7212
    },
    {
      "entropy": 1.72148593266805,
      "epoch": 0.7923979017329927,
      "grad_norm": 0.8114281892776489,
      "learning_rate": 1.4380628465823954e-05,
      "loss": 1.371,
      "mean_token_accuracy": 0.6630014181137085,
      "num_tokens": 1210763126.0,
      "step": 7213
    },
    {
      "entropy": 1.6811268826325734,
      "epoch": 0.7925077586443657,
      "grad_norm": 0.6577451825141907,
      "learning_rate": 1.4379144531637773e-05,
      "loss": 1.4008,
      "mean_token_accuracy": 0.6475434551636378,
      "num_tokens": 1210944851.0,
      "step": 7214
    },
    {
      "entropy": 1.6897524297237396,
      "epoch": 0.7926176155557386,
      "grad_norm": 0.6809960603713989,
      "learning_rate": 1.4377660490503187e-05,
      "loss": 1.3815,
      "mean_token_accuracy": 0.665686676899592,
      "num_tokens": 1211129884.0,
      "step": 7215
    },
    {
      "entropy": 1.7260896265506744,
      "epoch": 0.7927274724671116,
      "grad_norm": 0.6479694247245789,
      "learning_rate": 1.437617634246717e-05,
      "loss": 1.3552,
      "mean_token_accuracy": 0.6604562699794769,
      "num_tokens": 1211273138.0,
      "step": 7216
    },
    {
      "entropy": 1.704200655221939,
      "epoch": 0.7928373293784845,
      "grad_norm": 0.8002914190292358,
      "learning_rate": 1.4374692087576694e-05,
      "loss": 1.2478,
      "mean_token_accuracy": 0.6780698845783869,
      "num_tokens": 1211401771.0,
      "step": 7217
    },
    {
      "entropy": 1.7003964483737946,
      "epoch": 0.7929471862898575,
      "grad_norm": 0.6824570894241333,
      "learning_rate": 1.4373207725878736e-05,
      "loss": 1.417,
      "mean_token_accuracy": 0.6604044139385223,
      "num_tokens": 1211525125.0,
      "step": 7218
    },
    {
      "entropy": 1.756047526995341,
      "epoch": 0.7930570432012304,
      "grad_norm": 0.7336795926094055,
      "learning_rate": 1.437172325742027e-05,
      "loss": 1.4541,
      "mean_token_accuracy": 0.6522673020760218,
      "num_tokens": 1211688977.0,
      "step": 7219
    },
    {
      "entropy": 1.674008419116338,
      "epoch": 0.7931669001126034,
      "grad_norm": 0.5697746872901917,
      "learning_rate": 1.4370238682248284e-05,
      "loss": 1.4325,
      "mean_token_accuracy": 0.6417450805505117,
      "num_tokens": 1211915500.0,
      "step": 7220
    },
    {
      "entropy": 1.669522186120351,
      "epoch": 0.7932767570239763,
      "grad_norm": 0.7043665051460266,
      "learning_rate": 1.4368754000409759e-05,
      "loss": 1.2599,
      "mean_token_accuracy": 0.6736998210350672,
      "num_tokens": 1212019533.0,
      "step": 7221
    },
    {
      "entropy": 1.7614585657914479,
      "epoch": 0.7933866139353493,
      "grad_norm": 0.6837732791900635,
      "learning_rate": 1.4367269211951688e-05,
      "loss": 1.3755,
      "mean_token_accuracy": 0.6557194739580154,
      "num_tokens": 1212154651.0,
      "step": 7222
    },
    {
      "entropy": 1.7001692553361256,
      "epoch": 0.7934964708467221,
      "grad_norm": 0.7408974170684814,
      "learning_rate": 1.436578431692107e-05,
      "loss": 1.4553,
      "mean_token_accuracy": 0.6416794806718826,
      "num_tokens": 1212298701.0,
      "step": 7223
    },
    {
      "entropy": 1.7324201961358388,
      "epoch": 0.793606327758095,
      "grad_norm": 0.7774471640586853,
      "learning_rate": 1.436429931536489e-05,
      "loss": 1.4997,
      "mean_token_accuracy": 0.6496329059203466,
      "num_tokens": 1212477054.0,
      "step": 7224
    },
    {
      "entropy": 1.6642400324344635,
      "epoch": 0.793716184669468,
      "grad_norm": 0.5790720582008362,
      "learning_rate": 1.4362814207330154e-05,
      "loss": 1.372,
      "mean_token_accuracy": 0.6617165555556616,
      "num_tokens": 1212697010.0,
      "step": 7225
    },
    {
      "entropy": 1.662980963786443,
      "epoch": 0.7938260415808409,
      "grad_norm": 0.6963479518890381,
      "learning_rate": 1.4361328992863863e-05,
      "loss": 1.3915,
      "mean_token_accuracy": 0.6623529940843582,
      "num_tokens": 1212835136.0,
      "step": 7226
    },
    {
      "entropy": 1.697847972313563,
      "epoch": 0.7939358984922139,
      "grad_norm": 0.676906943321228,
      "learning_rate": 1.4359843672013025e-05,
      "loss": 1.2866,
      "mean_token_accuracy": 0.669852097829183,
      "num_tokens": 1212964012.0,
      "step": 7227
    },
    {
      "entropy": 1.7281867067019145,
      "epoch": 0.7940457554035868,
      "grad_norm": 0.7022289633750916,
      "learning_rate": 1.4358358244824646e-05,
      "loss": 1.356,
      "mean_token_accuracy": 0.6543090840180715,
      "num_tokens": 1213170176.0,
      "step": 7228
    },
    {
      "entropy": 1.726097176472346,
      "epoch": 0.7941556123149598,
      "grad_norm": 0.799540638923645,
      "learning_rate": 1.4356872711345746e-05,
      "loss": 1.5969,
      "mean_token_accuracy": 0.6627245545387268,
      "num_tokens": 1213333780.0,
      "step": 7229
    },
    {
      "entropy": 1.6588218410809834,
      "epoch": 0.7942654692263327,
      "grad_norm": 0.7514909505844116,
      "learning_rate": 1.4355387071623335e-05,
      "loss": 1.4477,
      "mean_token_accuracy": 0.6484199364980062,
      "num_tokens": 1213525486.0,
      "step": 7230
    },
    {
      "entropy": 1.7335455020268757,
      "epoch": 0.7943753261377057,
      "grad_norm": 0.6512316465377808,
      "learning_rate": 1.4353901325704439e-05,
      "loss": 1.3723,
      "mean_token_accuracy": 0.6515757242838541,
      "num_tokens": 1213713590.0,
      "step": 7231
    },
    {
      "entropy": 1.7147459487120311,
      "epoch": 0.7944851830490786,
      "grad_norm": 0.7964367270469666,
      "learning_rate": 1.4352415473636071e-05,
      "loss": 1.2251,
      "mean_token_accuracy": 0.6848846276601156,
      "num_tokens": 1213837877.0,
      "step": 7232
    },
    {
      "entropy": 1.680985818306605,
      "epoch": 0.7945950399604516,
      "grad_norm": 1.0966331958770752,
      "learning_rate": 1.4350929515465269e-05,
      "loss": 1.447,
      "mean_token_accuracy": 0.6554000427325567,
      "num_tokens": 1213994774.0,
      "step": 7233
    },
    {
      "entropy": 1.7075146635373433,
      "epoch": 0.7947048968718244,
      "grad_norm": 0.6517575979232788,
      "learning_rate": 1.4349443451239052e-05,
      "loss": 1.3756,
      "mean_token_accuracy": 0.6637918055057526,
      "num_tokens": 1214150146.0,
      "step": 7234
    },
    {
      "entropy": 1.7310162385304768,
      "epoch": 0.7948147537831974,
      "grad_norm": 0.6323092579841614,
      "learning_rate": 1.4347957281004466e-05,
      "loss": 1.5208,
      "mean_token_accuracy": 0.6204556177059809,
      "num_tokens": 1214404039.0,
      "step": 7235
    },
    {
      "entropy": 1.722548524538676,
      "epoch": 0.7949246106945703,
      "grad_norm": 0.7502648234367371,
      "learning_rate": 1.4346471004808536e-05,
      "loss": 1.2681,
      "mean_token_accuracy": 0.6832453906536102,
      "num_tokens": 1214523130.0,
      "step": 7236
    },
    {
      "entropy": 1.7112720509370167,
      "epoch": 0.7950344676059432,
      "grad_norm": 0.71775221824646,
      "learning_rate": 1.4344984622698308e-05,
      "loss": 1.2868,
      "mean_token_accuracy": 0.6676936894655228,
      "num_tokens": 1214672632.0,
      "step": 7237
    },
    {
      "entropy": 1.6758712430795033,
      "epoch": 0.7951443245173162,
      "grad_norm": 0.7727818489074707,
      "learning_rate": 1.4343498134720823e-05,
      "loss": 1.3304,
      "mean_token_accuracy": 0.6693208316961924,
      "num_tokens": 1214805275.0,
      "step": 7238
    },
    {
      "entropy": 1.7423097888628643,
      "epoch": 0.7952541814286891,
      "grad_norm": 0.6385967135429382,
      "learning_rate": 1.434201154092313e-05,
      "loss": 1.5397,
      "mean_token_accuracy": 0.6438859502474467,
      "num_tokens": 1215023577.0,
      "step": 7239
    },
    {
      "entropy": 1.7130355834960938,
      "epoch": 0.7953640383400621,
      "grad_norm": 0.6498627662658691,
      "learning_rate": 1.4340524841352278e-05,
      "loss": 1.343,
      "mean_token_accuracy": 0.6625998119513193,
      "num_tokens": 1215162413.0,
      "step": 7240
    },
    {
      "entropy": 1.6157074769337971,
      "epoch": 0.795473895251435,
      "grad_norm": 0.669402003288269,
      "learning_rate": 1.433903803605532e-05,
      "loss": 1.298,
      "mean_token_accuracy": 0.6726977676153183,
      "num_tokens": 1215324282.0,
      "step": 7241
    },
    {
      "entropy": 1.679003765185674,
      "epoch": 0.795583752162808,
      "grad_norm": 0.6385429501533508,
      "learning_rate": 1.4337551125079315e-05,
      "loss": 1.5047,
      "mean_token_accuracy": 0.6625163654486338,
      "num_tokens": 1215524603.0,
      "step": 7242
    },
    {
      "entropy": 1.7556110223134358,
      "epoch": 0.7956936090741809,
      "grad_norm": 0.7021380662918091,
      "learning_rate": 1.4336064108471315e-05,
      "loss": 1.3767,
      "mean_token_accuracy": 0.6701732029517492,
      "num_tokens": 1215652188.0,
      "step": 7243
    },
    {
      "entropy": 1.7281469702720642,
      "epoch": 0.7958034659855538,
      "grad_norm": 0.6799027323722839,
      "learning_rate": 1.4334576986278392e-05,
      "loss": 1.431,
      "mean_token_accuracy": 0.6460000276565552,
      "num_tokens": 1215885275.0,
      "step": 7244
    },
    {
      "entropy": 1.7195940514405568,
      "epoch": 0.7959133228969267,
      "grad_norm": 0.720520555973053,
      "learning_rate": 1.4333089758547611e-05,
      "loss": 1.3475,
      "mean_token_accuracy": 0.6720231225093206,
      "num_tokens": 1216073716.0,
      "step": 7245
    },
    {
      "entropy": 1.7394606570402782,
      "epoch": 0.7960231798082997,
      "grad_norm": 0.7158997058868408,
      "learning_rate": 1.4331602425326038e-05,
      "loss": 1.5034,
      "mean_token_accuracy": 0.6467889149983724,
      "num_tokens": 1216232381.0,
      "step": 7246
    },
    {
      "entropy": 1.6945938964684804,
      "epoch": 0.7961330367196726,
      "grad_norm": 0.5890840291976929,
      "learning_rate": 1.4330114986660755e-05,
      "loss": 1.5163,
      "mean_token_accuracy": 0.6420510311921438,
      "num_tokens": 1216438001.0,
      "step": 7247
    },
    {
      "entropy": 1.7162805596987407,
      "epoch": 0.7962428936310456,
      "grad_norm": 0.7011001110076904,
      "learning_rate": 1.4328627442598827e-05,
      "loss": 1.4178,
      "mean_token_accuracy": 0.6583675543467203,
      "num_tokens": 1216579926.0,
      "step": 7248
    },
    {
      "entropy": 1.7298036813735962,
      "epoch": 0.7963527505424185,
      "grad_norm": 0.6295740008354187,
      "learning_rate": 1.4327139793187343e-05,
      "loss": 1.3503,
      "mean_token_accuracy": 0.6574052224556605,
      "num_tokens": 1216725414.0,
      "step": 7249
    },
    {
      "entropy": 1.6822136640548706,
      "epoch": 0.7964626074537914,
      "grad_norm": 0.8162563443183899,
      "learning_rate": 1.4325652038473386e-05,
      "loss": 1.516,
      "mean_token_accuracy": 0.6439789732297262,
      "num_tokens": 1216913110.0,
      "step": 7250
    },
    {
      "entropy": 1.68292702237765,
      "epoch": 0.7965724643651644,
      "grad_norm": 0.6158664226531982,
      "learning_rate": 1.432416417850404e-05,
      "loss": 1.3995,
      "mean_token_accuracy": 0.6543232848246893,
      "num_tokens": 1217101697.0,
      "step": 7251
    },
    {
      "entropy": 1.7199612259864807,
      "epoch": 0.7966823212765373,
      "grad_norm": 0.6690497398376465,
      "learning_rate": 1.4322676213326392e-05,
      "loss": 1.3827,
      "mean_token_accuracy": 0.6606669773658117,
      "num_tokens": 1217278700.0,
      "step": 7252
    },
    {
      "entropy": 1.6890186369419098,
      "epoch": 0.7967921781879103,
      "grad_norm": 0.6910893321037292,
      "learning_rate": 1.4321188142987545e-05,
      "loss": 1.3698,
      "mean_token_accuracy": 0.656900112827619,
      "num_tokens": 1217443444.0,
      "step": 7253
    },
    {
      "entropy": 1.7530109186967213,
      "epoch": 0.7969020350992831,
      "grad_norm": 0.6086611747741699,
      "learning_rate": 1.4319699967534584e-05,
      "loss": 1.6023,
      "mean_token_accuracy": 0.6309465765953064,
      "num_tokens": 1217637360.0,
      "step": 7254
    },
    {
      "entropy": 1.7479777733484905,
      "epoch": 0.7970118920106561,
      "grad_norm": 0.8288069367408752,
      "learning_rate": 1.4318211687014618e-05,
      "loss": 1.5313,
      "mean_token_accuracy": 0.6323782056570053,
      "num_tokens": 1217803903.0,
      "step": 7255
    },
    {
      "entropy": 1.7118703424930573,
      "epoch": 0.797121748922029,
      "grad_norm": 0.6841630339622498,
      "learning_rate": 1.4316723301474744e-05,
      "loss": 1.3312,
      "mean_token_accuracy": 0.6639546205600103,
      "num_tokens": 1217950265.0,
      "step": 7256
    },
    {
      "entropy": 1.6801489094893138,
      "epoch": 0.797231605833402,
      "grad_norm": 0.785036027431488,
      "learning_rate": 1.4315234810962077e-05,
      "loss": 1.5764,
      "mean_token_accuracy": 0.6401002655426661,
      "num_tokens": 1218123645.0,
      "step": 7257
    },
    {
      "entropy": 1.7071903347969055,
      "epoch": 0.7973414627447749,
      "grad_norm": 0.6923706531524658,
      "learning_rate": 1.431374621552372e-05,
      "loss": 1.3916,
      "mean_token_accuracy": 0.6654524803161621,
      "num_tokens": 1218284414.0,
      "step": 7258
    },
    {
      "entropy": 1.6701487104098003,
      "epoch": 0.7974513196561479,
      "grad_norm": 0.6866686344146729,
      "learning_rate": 1.4312257515206788e-05,
      "loss": 1.4887,
      "mean_token_accuracy": 0.6344787627458572,
      "num_tokens": 1218489559.0,
      "step": 7259
    },
    {
      "entropy": 1.6827106575171153,
      "epoch": 0.7975611765675208,
      "grad_norm": 0.6273086667060852,
      "learning_rate": 1.4310768710058398e-05,
      "loss": 1.4382,
      "mean_token_accuracy": 0.6519757409890493,
      "num_tokens": 1218759113.0,
      "step": 7260
    },
    {
      "entropy": 1.703356256087621,
      "epoch": 0.7976710334788938,
      "grad_norm": 0.7796327471733093,
      "learning_rate": 1.4309279800125673e-05,
      "loss": 1.4105,
      "mean_token_accuracy": 0.6624956379334132,
      "num_tokens": 1218906762.0,
      "step": 7261
    },
    {
      "entropy": 1.661956379810969,
      "epoch": 0.7977808903902667,
      "grad_norm": 0.5531797409057617,
      "learning_rate": 1.4307790785455729e-05,
      "loss": 1.4883,
      "mean_token_accuracy": 0.6515692820151647,
      "num_tokens": 1219102172.0,
      "step": 7262
    },
    {
      "entropy": 1.7754519681135814,
      "epoch": 0.7978907473016397,
      "grad_norm": 0.7891526222229004,
      "learning_rate": 1.4306301666095702e-05,
      "loss": 1.4952,
      "mean_token_accuracy": 0.644075925151507,
      "num_tokens": 1219278956.0,
      "step": 7263
    },
    {
      "entropy": 1.6872022251288097,
      "epoch": 0.7980006042130126,
      "grad_norm": 0.6932452321052551,
      "learning_rate": 1.4304812442092713e-05,
      "loss": 1.1952,
      "mean_token_accuracy": 0.6833833257357279,
      "num_tokens": 1219417575.0,
      "step": 7264
    },
    {
      "entropy": 1.7105295658111572,
      "epoch": 0.7981104611243854,
      "grad_norm": 0.6524655818939209,
      "learning_rate": 1.43033231134939e-05,
      "loss": 1.3186,
      "mean_token_accuracy": 0.6636832803487778,
      "num_tokens": 1219558072.0,
      "step": 7265
    },
    {
      "entropy": 1.6755134363969166,
      "epoch": 0.7982203180357584,
      "grad_norm": 0.6954984664916992,
      "learning_rate": 1.43018336803464e-05,
      "loss": 1.3372,
      "mean_token_accuracy": 0.6699787775675455,
      "num_tokens": 1219718681.0,
      "step": 7266
    },
    {
      "entropy": 1.7518522143363953,
      "epoch": 0.7983301749471313,
      "grad_norm": 0.6694498658180237,
      "learning_rate": 1.4300344142697353e-05,
      "loss": 1.4487,
      "mean_token_accuracy": 0.6395488778750101,
      "num_tokens": 1219883865.0,
      "step": 7267
    },
    {
      "entropy": 1.6969805459181468,
      "epoch": 0.7984400318585043,
      "grad_norm": 0.6084674000740051,
      "learning_rate": 1.4298854500593897e-05,
      "loss": 1.3776,
      "mean_token_accuracy": 0.6505701790253321,
      "num_tokens": 1220093180.0,
      "step": 7268
    },
    {
      "entropy": 1.7364482978979747,
      "epoch": 0.7985498887698772,
      "grad_norm": 0.7209011912345886,
      "learning_rate": 1.4297364754083187e-05,
      "loss": 1.5423,
      "mean_token_accuracy": 0.6337501257658005,
      "num_tokens": 1220270122.0,
      "step": 7269
    },
    {
      "entropy": 1.7650366127490997,
      "epoch": 0.7986597456812502,
      "grad_norm": 0.7382558584213257,
      "learning_rate": 1.4295874903212365e-05,
      "loss": 1.4628,
      "mean_token_accuracy": 0.6457639882961909,
      "num_tokens": 1220450090.0,
      "step": 7270
    },
    {
      "entropy": 1.7180620034535725,
      "epoch": 0.7987696025926231,
      "grad_norm": 0.7159477472305298,
      "learning_rate": 1.4294384948028592e-05,
      "loss": 1.4328,
      "mean_token_accuracy": 0.6519068032503128,
      "num_tokens": 1220627437.0,
      "step": 7271
    },
    {
      "entropy": 1.7323042750358582,
      "epoch": 0.7988794595039961,
      "grad_norm": 0.6927447319030762,
      "learning_rate": 1.4292894888579014e-05,
      "loss": 1.3658,
      "mean_token_accuracy": 0.6517662604649862,
      "num_tokens": 1220748500.0,
      "step": 7272
    },
    {
      "entropy": 1.7364622453848522,
      "epoch": 0.798989316415369,
      "grad_norm": 0.6226632595062256,
      "learning_rate": 1.4291404724910803e-05,
      "loss": 1.4278,
      "mean_token_accuracy": 0.6461608906586965,
      "num_tokens": 1220930228.0,
      "step": 7273
    },
    {
      "entropy": 1.7141484121481578,
      "epoch": 0.799099173326742,
      "grad_norm": 0.6916367411613464,
      "learning_rate": 1.428991445707111e-05,
      "loss": 1.2965,
      "mean_token_accuracy": 0.669938306013743,
      "num_tokens": 1221053000.0,
      "step": 7274
    },
    {
      "entropy": 1.7483568787574768,
      "epoch": 0.7992090302381148,
      "grad_norm": 0.7176331877708435,
      "learning_rate": 1.428842408510711e-05,
      "loss": 1.2919,
      "mean_token_accuracy": 0.6726898650328318,
      "num_tokens": 1221164118.0,
      "step": 7275
    },
    {
      "entropy": 1.7342201670010884,
      "epoch": 0.7993188871494878,
      "grad_norm": 0.6409656405448914,
      "learning_rate": 1.4286933609065967e-05,
      "loss": 1.4841,
      "mean_token_accuracy": 0.6403429557879766,
      "num_tokens": 1221324965.0,
      "step": 7276
    },
    {
      "entropy": 1.6586043238639832,
      "epoch": 0.7994287440608607,
      "grad_norm": 0.8449923396110535,
      "learning_rate": 1.4285443028994859e-05,
      "loss": 1.2365,
      "mean_token_accuracy": 0.6813416828711828,
      "num_tokens": 1221465842.0,
      "step": 7277
    },
    {
      "entropy": 1.696493277947108,
      "epoch": 0.7995386009722336,
      "grad_norm": 0.7281336784362793,
      "learning_rate": 1.4283952344940957e-05,
      "loss": 1.247,
      "mean_token_accuracy": 0.681158721446991,
      "num_tokens": 1221591240.0,
      "step": 7278
    },
    {
      "entropy": 1.7007083594799042,
      "epoch": 0.7996484578836066,
      "grad_norm": 0.6635676622390747,
      "learning_rate": 1.4282461556951445e-05,
      "loss": 1.3977,
      "mean_token_accuracy": 0.6511793335278829,
      "num_tokens": 1221772023.0,
      "step": 7279
    },
    {
      "entropy": 1.7213706970214844,
      "epoch": 0.7997583147949795,
      "grad_norm": 0.7881171107292175,
      "learning_rate": 1.4280970665073503e-05,
      "loss": 1.1846,
      "mean_token_accuracy": 0.6822384099165598,
      "num_tokens": 1221870566.0,
      "step": 7280
    },
    {
      "entropy": 1.658156931400299,
      "epoch": 0.7998681717063525,
      "grad_norm": 0.7354137897491455,
      "learning_rate": 1.4279479669354319e-05,
      "loss": 1.362,
      "mean_token_accuracy": 0.6667267928520838,
      "num_tokens": 1222061004.0,
      "step": 7281
    },
    {
      "entropy": 1.7199231286843617,
      "epoch": 0.7999780286177254,
      "grad_norm": 0.6585229635238647,
      "learning_rate": 1.4277988569841082e-05,
      "loss": 1.4833,
      "mean_token_accuracy": 0.6446650822957357,
      "num_tokens": 1222247129.0,
      "step": 7282
    },
    {
      "entropy": 1.6953574518362682,
      "epoch": 0.8000878855290984,
      "grad_norm": 0.581791341304779,
      "learning_rate": 1.4276497366580982e-05,
      "loss": 1.4653,
      "mean_token_accuracy": 0.6526039590438207,
      "num_tokens": 1222436035.0,
      "step": 7283
    },
    {
      "entropy": 1.7320642570654552,
      "epoch": 0.8001977424404713,
      "grad_norm": 0.7845410704612732,
      "learning_rate": 1.4275006059621217e-05,
      "loss": 1.5006,
      "mean_token_accuracy": 0.6406663705905279,
      "num_tokens": 1222625280.0,
      "step": 7284
    },
    {
      "entropy": 1.7656051715215046,
      "epoch": 0.8003075993518443,
      "grad_norm": 0.8226374983787537,
      "learning_rate": 1.4273514649008989e-05,
      "loss": 1.3163,
      "mean_token_accuracy": 0.6708792199691137,
      "num_tokens": 1222743645.0,
      "step": 7285
    },
    {
      "entropy": 1.764061023791631,
      "epoch": 0.8004174562632171,
      "grad_norm": 0.6624506115913391,
      "learning_rate": 1.4272023134791493e-05,
      "loss": 1.4877,
      "mean_token_accuracy": 0.6504695763190588,
      "num_tokens": 1222947630.0,
      "step": 7286
    },
    {
      "entropy": 1.738725354274114,
      "epoch": 0.8005273131745901,
      "grad_norm": 0.827363133430481,
      "learning_rate": 1.4270531517015943e-05,
      "loss": 1.4878,
      "mean_token_accuracy": 0.6427379300196966,
      "num_tokens": 1223111073.0,
      "step": 7287
    },
    {
      "entropy": 1.7238669991493225,
      "epoch": 0.800637170085963,
      "grad_norm": 0.665775716304779,
      "learning_rate": 1.426903979572954e-05,
      "loss": 1.4706,
      "mean_token_accuracy": 0.6543847819169363,
      "num_tokens": 1223269067.0,
      "step": 7288
    },
    {
      "entropy": 1.659266859292984,
      "epoch": 0.800747026997336,
      "grad_norm": 0.6303220391273499,
      "learning_rate": 1.4267547970979502e-05,
      "loss": 1.2609,
      "mean_token_accuracy": 0.679823304216067,
      "num_tokens": 1223420407.0,
      "step": 7289
    },
    {
      "entropy": 1.672978659470876,
      "epoch": 0.8008568839087089,
      "grad_norm": 0.5509341359138489,
      "learning_rate": 1.4266056042813043e-05,
      "loss": 1.3959,
      "mean_token_accuracy": 0.6600791364908218,
      "num_tokens": 1223639283.0,
      "step": 7290
    },
    {
      "entropy": 1.6871724128723145,
      "epoch": 0.8009667408200818,
      "grad_norm": 0.6795254349708557,
      "learning_rate": 1.4264564011277384e-05,
      "loss": 1.3352,
      "mean_token_accuracy": 0.6592608243227005,
      "num_tokens": 1223817100.0,
      "step": 7291
    },
    {
      "entropy": 1.7118334273497264,
      "epoch": 0.8010765977314548,
      "grad_norm": 0.7024778723716736,
      "learning_rate": 1.4263071876419744e-05,
      "loss": 1.6732,
      "mean_token_accuracy": 0.6494659408926964,
      "num_tokens": 1224030111.0,
      "step": 7292
    },
    {
      "entropy": 1.6586161156495411,
      "epoch": 0.8011864546428277,
      "grad_norm": 0.7682591676712036,
      "learning_rate": 1.4261579638287351e-05,
      "loss": 1.201,
      "mean_token_accuracy": 0.6980761736631393,
      "num_tokens": 1224163835.0,
      "step": 7293
    },
    {
      "entropy": 1.7308415472507477,
      "epoch": 0.8012963115542007,
      "grad_norm": 0.7771059274673462,
      "learning_rate": 1.4260087296927427e-05,
      "loss": 1.4017,
      "mean_token_accuracy": 0.6600347012281418,
      "num_tokens": 1224300825.0,
      "step": 7294
    },
    {
      "entropy": 1.695349782705307,
      "epoch": 0.8014061684655736,
      "grad_norm": 13.370857238769531,
      "learning_rate": 1.4258594852387213e-05,
      "loss": 1.5951,
      "mean_token_accuracy": 0.6378213365872701,
      "num_tokens": 1224469121.0,
      "step": 7295
    },
    {
      "entropy": 1.7092136939366658,
      "epoch": 0.8015160253769466,
      "grad_norm": 0.7703883647918701,
      "learning_rate": 1.425710230471394e-05,
      "loss": 1.3407,
      "mean_token_accuracy": 0.6662224382162094,
      "num_tokens": 1224620305.0,
      "step": 7296
    },
    {
      "entropy": 1.7132171392440796,
      "epoch": 0.8016258822883194,
      "grad_norm": 0.6171491146087646,
      "learning_rate": 1.4255609653954847e-05,
      "loss": 1.3658,
      "mean_token_accuracy": 0.6527489374081293,
      "num_tokens": 1224785259.0,
      "step": 7297
    },
    {
      "entropy": 1.6952051520347595,
      "epoch": 0.8017357391996924,
      "grad_norm": 0.7840876579284668,
      "learning_rate": 1.4254116900157173e-05,
      "loss": 1.4597,
      "mean_token_accuracy": 0.6597426682710648,
      "num_tokens": 1224930212.0,
      "step": 7298
    },
    {
      "entropy": 1.785047431786855,
      "epoch": 0.8018455961110653,
      "grad_norm": 1.3836613893508911,
      "learning_rate": 1.4252624043368169e-05,
      "loss": 1.4614,
      "mean_token_accuracy": 0.6522940744956335,
      "num_tokens": 1225052106.0,
      "step": 7299
    },
    {
      "entropy": 1.6921504139900208,
      "epoch": 0.8019554530224383,
      "grad_norm": 0.6270791888237,
      "learning_rate": 1.4251131083635079e-05,
      "loss": 1.4451,
      "mean_token_accuracy": 0.6468443423509598,
      "num_tokens": 1225221791.0,
      "step": 7300
    },
    {
      "entropy": 1.745924452940623,
      "epoch": 0.8020653099338112,
      "grad_norm": 0.8254175186157227,
      "learning_rate": 1.4249638021005154e-05,
      "loss": 1.4149,
      "mean_token_accuracy": 0.6477925777435303,
      "num_tokens": 1225366690.0,
      "step": 7301
    },
    {
      "entropy": 1.6810812751452129,
      "epoch": 0.8021751668451842,
      "grad_norm": 0.6022759675979614,
      "learning_rate": 1.4248144855525649e-05,
      "loss": 1.2906,
      "mean_token_accuracy": 0.683276375134786,
      "num_tokens": 1225516260.0,
      "step": 7302
    },
    {
      "entropy": 1.647108296553294,
      "epoch": 0.8022850237565571,
      "grad_norm": 0.7280488610267639,
      "learning_rate": 1.4246651587243825e-05,
      "loss": 1.3632,
      "mean_token_accuracy": 0.6681808729966482,
      "num_tokens": 1225722689.0,
      "step": 7303
    },
    {
      "entropy": 1.6735007365544636,
      "epoch": 0.80239488066793,
      "grad_norm": 0.6589364409446716,
      "learning_rate": 1.424515821620694e-05,
      "loss": 1.3376,
      "mean_token_accuracy": 0.6602647950251898,
      "num_tokens": 1225891479.0,
      "step": 7304
    },
    {
      "entropy": 1.7428459525108337,
      "epoch": 0.802504737579303,
      "grad_norm": 0.7700157165527344,
      "learning_rate": 1.424366474246226e-05,
      "loss": 1.3954,
      "mean_token_accuracy": 0.6708898593982061,
      "num_tokens": 1226034151.0,
      "step": 7305
    },
    {
      "entropy": 1.7126306494077046,
      "epoch": 0.8026145944906758,
      "grad_norm": 0.7041934728622437,
      "learning_rate": 1.4242171166057053e-05,
      "loss": 1.551,
      "mean_token_accuracy": 0.6539329538742701,
      "num_tokens": 1226215865.0,
      "step": 7306
    },
    {
      "entropy": 1.6650786697864532,
      "epoch": 0.8027244514020488,
      "grad_norm": 0.6044019460678101,
      "learning_rate": 1.4240677487038593e-05,
      "loss": 1.3191,
      "mean_token_accuracy": 0.6622636218865713,
      "num_tokens": 1226372708.0,
      "step": 7307
    },
    {
      "entropy": 1.723981390396754,
      "epoch": 0.8028343083134217,
      "grad_norm": 0.8162484765052795,
      "learning_rate": 1.4239183705454142e-05,
      "loss": 1.4615,
      "mean_token_accuracy": 0.6413914859294891,
      "num_tokens": 1226535459.0,
      "step": 7308
    },
    {
      "entropy": 1.7149596611658733,
      "epoch": 0.8029441652247947,
      "grad_norm": 0.73653644323349,
      "learning_rate": 1.4237689821350992e-05,
      "loss": 1.3971,
      "mean_token_accuracy": 0.6685678660869598,
      "num_tokens": 1226686426.0,
      "step": 7309
    },
    {
      "entropy": 1.6466976702213287,
      "epoch": 0.8030540221361676,
      "grad_norm": 0.743812084197998,
      "learning_rate": 1.4236195834776418e-05,
      "loss": 1.3838,
      "mean_token_accuracy": 0.6726710299650828,
      "num_tokens": 1226842592.0,
      "step": 7310
    },
    {
      "entropy": 1.8227874239285786,
      "epoch": 0.8031638790475406,
      "grad_norm": 0.9089652299880981,
      "learning_rate": 1.4234701745777704e-05,
      "loss": 1.6301,
      "mean_token_accuracy": 0.6158707390228907,
      "num_tokens": 1227021023.0,
      "step": 7311
    },
    {
      "entropy": 1.6785000363985698,
      "epoch": 0.8032737359589135,
      "grad_norm": 0.6702415347099304,
      "learning_rate": 1.4233207554402138e-05,
      "loss": 1.4478,
      "mean_token_accuracy": 0.6375938355922699,
      "num_tokens": 1227242256.0,
      "step": 7312
    },
    {
      "entropy": 1.719922512769699,
      "epoch": 0.8033835928702865,
      "grad_norm": 0.8157113790512085,
      "learning_rate": 1.423171326069701e-05,
      "loss": 1.4502,
      "mean_token_accuracy": 0.6464798400799433,
      "num_tokens": 1227418743.0,
      "step": 7313
    },
    {
      "entropy": 1.6604024668534596,
      "epoch": 0.8034934497816594,
      "grad_norm": 0.7159737348556519,
      "learning_rate": 1.4230218864709612e-05,
      "loss": 1.4431,
      "mean_token_accuracy": 0.6605499237775803,
      "num_tokens": 1227635822.0,
      "step": 7314
    },
    {
      "entropy": 1.706661621729533,
      "epoch": 0.8036033066930324,
      "grad_norm": 0.6185526251792908,
      "learning_rate": 1.4228724366487242e-05,
      "loss": 1.3767,
      "mean_token_accuracy": 0.67093226313591,
      "num_tokens": 1227818074.0,
      "step": 7315
    },
    {
      "entropy": 1.6483195424079895,
      "epoch": 0.8037131636044053,
      "grad_norm": 0.6785904765129089,
      "learning_rate": 1.4227229766077202e-05,
      "loss": 1.3335,
      "mean_token_accuracy": 0.67606753607591,
      "num_tokens": 1227982171.0,
      "step": 7316
    },
    {
      "entropy": 1.6934054692586262,
      "epoch": 0.8038230205157783,
      "grad_norm": 0.6464650630950928,
      "learning_rate": 1.4225735063526792e-05,
      "loss": 1.3717,
      "mean_token_accuracy": 0.6636403550704321,
      "num_tokens": 1228125554.0,
      "step": 7317
    },
    {
      "entropy": 1.636114815870921,
      "epoch": 0.8039328774271511,
      "grad_norm": 0.6265885233879089,
      "learning_rate": 1.4224240258883324e-05,
      "loss": 1.2675,
      "mean_token_accuracy": 0.6773168394962946,
      "num_tokens": 1228305404.0,
      "step": 7318
    },
    {
      "entropy": 1.73605677485466,
      "epoch": 0.804042734338524,
      "grad_norm": 0.659631073474884,
      "learning_rate": 1.4222745352194102e-05,
      "loss": 1.4094,
      "mean_token_accuracy": 0.6566009968519211,
      "num_tokens": 1228493229.0,
      "step": 7319
    },
    {
      "entropy": 1.6943889657656352,
      "epoch": 0.804152591249897,
      "grad_norm": 0.7117233276367188,
      "learning_rate": 1.4221250343506445e-05,
      "loss": 1.1594,
      "mean_token_accuracy": 0.6870453854401907,
      "num_tokens": 1228603511.0,
      "step": 7320
    },
    {
      "entropy": 1.6649406949679058,
      "epoch": 0.8042624481612699,
      "grad_norm": 0.7140738368034363,
      "learning_rate": 1.4219755232867662e-05,
      "loss": 1.2535,
      "mean_token_accuracy": 0.6795340776443481,
      "num_tokens": 1228720218.0,
      "step": 7321
    },
    {
      "entropy": 1.7426091035207112,
      "epoch": 0.8043723050726429,
      "grad_norm": 0.6925419569015503,
      "learning_rate": 1.4218260020325079e-05,
      "loss": 1.3582,
      "mean_token_accuracy": 0.655068372686704,
      "num_tokens": 1228895991.0,
      "step": 7322
    },
    {
      "entropy": 1.7241126894950867,
      "epoch": 0.8044821619840158,
      "grad_norm": 0.6894976496696472,
      "learning_rate": 1.4216764705926019e-05,
      "loss": 1.3149,
      "mean_token_accuracy": 0.6623408049345016,
      "num_tokens": 1229066649.0,
      "step": 7323
    },
    {
      "entropy": 1.725894719362259,
      "epoch": 0.8045920188953888,
      "grad_norm": 0.669735848903656,
      "learning_rate": 1.4215269289717802e-05,
      "loss": 1.3299,
      "mean_token_accuracy": 0.6665193190177282,
      "num_tokens": 1229214694.0,
      "step": 7324
    },
    {
      "entropy": 1.6697326302528381,
      "epoch": 0.8047018758067617,
      "grad_norm": 0.9352332353591919,
      "learning_rate": 1.4213773771747763e-05,
      "loss": 1.3784,
      "mean_token_accuracy": 0.6521992981433868,
      "num_tokens": 1229407333.0,
      "step": 7325
    },
    {
      "entropy": 1.6702334781487782,
      "epoch": 0.8048117327181347,
      "grad_norm": 0.7152570486068726,
      "learning_rate": 1.4212278152063228e-05,
      "loss": 1.3232,
      "mean_token_accuracy": 0.6703629096349081,
      "num_tokens": 1229536389.0,
      "step": 7326
    },
    {
      "entropy": 1.714383860429128,
      "epoch": 0.8049215896295076,
      "grad_norm": 0.7807464599609375,
      "learning_rate": 1.4210782430711541e-05,
      "loss": 1.2982,
      "mean_token_accuracy": 0.6688077251116434,
      "num_tokens": 1229662562.0,
      "step": 7327
    },
    {
      "entropy": 1.699068009853363,
      "epoch": 0.8050314465408805,
      "grad_norm": 0.6622336506843567,
      "learning_rate": 1.4209286607740036e-05,
      "loss": 1.3098,
      "mean_token_accuracy": 0.6640769392251968,
      "num_tokens": 1229832222.0,
      "step": 7328
    },
    {
      "entropy": 1.7409149905045826,
      "epoch": 0.8051413034522534,
      "grad_norm": 0.6264408826828003,
      "learning_rate": 1.4207790683196056e-05,
      "loss": 1.3233,
      "mean_token_accuracy": 0.6729765981435776,
      "num_tokens": 1229979504.0,
      "step": 7329
    },
    {
      "entropy": 1.696464866399765,
      "epoch": 0.8052511603636264,
      "grad_norm": 0.6128476858139038,
      "learning_rate": 1.4206294657126944e-05,
      "loss": 1.3835,
      "mean_token_accuracy": 0.6473323603471121,
      "num_tokens": 1230154418.0,
      "step": 7330
    },
    {
      "entropy": 1.7256540358066559,
      "epoch": 0.8053610172749993,
      "grad_norm": 0.6184810400009155,
      "learning_rate": 1.4204798529580055e-05,
      "loss": 1.424,
      "mean_token_accuracy": 0.6607218682765961,
      "num_tokens": 1230355844.0,
      "step": 7331
    },
    {
      "entropy": 1.6991771360238392,
      "epoch": 0.8054708741863722,
      "grad_norm": 0.6512514352798462,
      "learning_rate": 1.4203302300602735e-05,
      "loss": 1.3036,
      "mean_token_accuracy": 0.6798295130332311,
      "num_tokens": 1230493084.0,
      "step": 7332
    },
    {
      "entropy": 1.6824211478233337,
      "epoch": 0.8055807310977452,
      "grad_norm": 0.6564586758613586,
      "learning_rate": 1.420180597024234e-05,
      "loss": 1.3671,
      "mean_token_accuracy": 0.6743087867895762,
      "num_tokens": 1230629324.0,
      "step": 7333
    },
    {
      "entropy": 1.691230148077011,
      "epoch": 0.8056905880091181,
      "grad_norm": 0.6371413469314575,
      "learning_rate": 1.420030953854623e-05,
      "loss": 1.3799,
      "mean_token_accuracy": 0.649422844250997,
      "num_tokens": 1230812422.0,
      "step": 7334
    },
    {
      "entropy": 1.6784875591595967,
      "epoch": 0.8058004449204911,
      "grad_norm": 0.8957354426383972,
      "learning_rate": 1.4198813005561765e-05,
      "loss": 1.4552,
      "mean_token_accuracy": 0.6490340381860733,
      "num_tokens": 1231007507.0,
      "step": 7335
    },
    {
      "entropy": 1.7226787110169728,
      "epoch": 0.805910301831864,
      "grad_norm": 0.7002930641174316,
      "learning_rate": 1.4197316371336307e-05,
      "loss": 1.3037,
      "mean_token_accuracy": 0.6610642572244009,
      "num_tokens": 1231148630.0,
      "step": 7336
    },
    {
      "entropy": 1.6683934728304546,
      "epoch": 0.806020158743237,
      "grad_norm": 0.6079908013343811,
      "learning_rate": 1.419581963591723e-05,
      "loss": 1.3604,
      "mean_token_accuracy": 0.6693431635697683,
      "num_tokens": 1231354998.0,
      "step": 7337
    },
    {
      "entropy": 1.7245097557703655,
      "epoch": 0.8061300156546098,
      "grad_norm": 0.5906463265419006,
      "learning_rate": 1.41943227993519e-05,
      "loss": 1.4765,
      "mean_token_accuracy": 0.6449787418047587,
      "num_tokens": 1231548058.0,
      "step": 7338
    },
    {
      "entropy": 1.757252832253774,
      "epoch": 0.8062398725659828,
      "grad_norm": 0.6691707968711853,
      "learning_rate": 1.4192825861687694e-05,
      "loss": 1.2934,
      "mean_token_accuracy": 0.6613676349322001,
      "num_tokens": 1231674981.0,
      "step": 7339
    },
    {
      "entropy": 1.7177879710992177,
      "epoch": 0.8063497294773557,
      "grad_norm": 0.7445343136787415,
      "learning_rate": 1.4191328822971988e-05,
      "loss": 1.2699,
      "mean_token_accuracy": 0.6711633503437042,
      "num_tokens": 1231810236.0,
      "step": 7340
    },
    {
      "entropy": 1.7406736811002095,
      "epoch": 0.8064595863887287,
      "grad_norm": 0.5835939645767212,
      "learning_rate": 1.4189831683252162e-05,
      "loss": 1.3592,
      "mean_token_accuracy": 0.6513313700755438,
      "num_tokens": 1231967375.0,
      "step": 7341
    },
    {
      "entropy": 1.714879075686137,
      "epoch": 0.8065694433001016,
      "grad_norm": 0.723407506942749,
      "learning_rate": 1.41883344425756e-05,
      "loss": 1.4315,
      "mean_token_accuracy": 0.6485263953606287,
      "num_tokens": 1232124514.0,
      "step": 7342
    },
    {
      "entropy": 1.7313550611337025,
      "epoch": 0.8066793002114746,
      "grad_norm": 0.671328067779541,
      "learning_rate": 1.4186837100989693e-05,
      "loss": 1.4934,
      "mean_token_accuracy": 0.6444969574610392,
      "num_tokens": 1232311836.0,
      "step": 7343
    },
    {
      "entropy": 1.7535496056079865,
      "epoch": 0.8067891571228475,
      "grad_norm": 0.7109101414680481,
      "learning_rate": 1.4185339658541824e-05,
      "loss": 1.5029,
      "mean_token_accuracy": 0.6288647800683975,
      "num_tokens": 1232511838.0,
      "step": 7344
    },
    {
      "entropy": 1.6992291112740834,
      "epoch": 0.8068990140342204,
      "grad_norm": 0.6878111958503723,
      "learning_rate": 1.4183842115279391e-05,
      "loss": 1.3329,
      "mean_token_accuracy": 0.6704870462417603,
      "num_tokens": 1232683222.0,
      "step": 7345
    },
    {
      "entropy": 1.664991666873296,
      "epoch": 0.8070088709455934,
      "grad_norm": 0.6333096623420715,
      "learning_rate": 1.4182344471249789e-05,
      "loss": 1.4144,
      "mean_token_accuracy": 0.6521175851424535,
      "num_tokens": 1232883037.0,
      "step": 7346
    },
    {
      "entropy": 1.7921419044335682,
      "epoch": 0.8071187278569663,
      "grad_norm": 0.7302199602127075,
      "learning_rate": 1.4180846726500422e-05,
      "loss": 1.417,
      "mean_token_accuracy": 0.6555136690537134,
      "num_tokens": 1233037865.0,
      "step": 7347
    },
    {
      "entropy": 1.7335894107818604,
      "epoch": 0.8072285847683393,
      "grad_norm": 0.6250348687171936,
      "learning_rate": 1.4179348881078687e-05,
      "loss": 1.4014,
      "mean_token_accuracy": 0.6503031303485235,
      "num_tokens": 1233208316.0,
      "step": 7348
    },
    {
      "entropy": 1.7149858474731445,
      "epoch": 0.8073384416797121,
      "grad_norm": 0.6429965496063232,
      "learning_rate": 1.4177850935031991e-05,
      "loss": 1.4741,
      "mean_token_accuracy": 0.6448526183764139,
      "num_tokens": 1233386088.0,
      "step": 7349
    },
    {
      "entropy": 1.7311444580554962,
      "epoch": 0.8074482985910851,
      "grad_norm": 0.6727426052093506,
      "learning_rate": 1.4176352888407748e-05,
      "loss": 1.4227,
      "mean_token_accuracy": 0.6663500418265661,
      "num_tokens": 1233510643.0,
      "step": 7350
    },
    {
      "entropy": 1.7784233887990315,
      "epoch": 0.807558155502458,
      "grad_norm": 0.7476586699485779,
      "learning_rate": 1.4174854741253368e-05,
      "loss": 1.3135,
      "mean_token_accuracy": 0.6639601538578669,
      "num_tokens": 1233678361.0,
      "step": 7351
    },
    {
      "entropy": 1.6666496098041534,
      "epoch": 0.807668012413831,
      "grad_norm": 0.7939883470535278,
      "learning_rate": 1.417335649361626e-05,
      "loss": 1.3468,
      "mean_token_accuracy": 0.6685838301976522,
      "num_tokens": 1233827347.0,
      "step": 7352
    },
    {
      "entropy": 1.6903888583183289,
      "epoch": 0.8077778693252039,
      "grad_norm": 0.6927181482315063,
      "learning_rate": 1.4171858145543856e-05,
      "loss": 1.4467,
      "mean_token_accuracy": 0.6569238354762396,
      "num_tokens": 1233951478.0,
      "step": 7353
    },
    {
      "entropy": 1.6132766505082448,
      "epoch": 0.8078877262365769,
      "grad_norm": 0.6065834164619446,
      "learning_rate": 1.4170359697083564e-05,
      "loss": 1.378,
      "mean_token_accuracy": 0.6582773874203364,
      "num_tokens": 1234135918.0,
      "step": 7354
    },
    {
      "entropy": 1.667845626672109,
      "epoch": 0.8079975831479498,
      "grad_norm": 0.5912481546401978,
      "learning_rate": 1.416886114828282e-05,
      "loss": 1.3259,
      "mean_token_accuracy": 0.6613271286090215,
      "num_tokens": 1234318765.0,
      "step": 7355
    },
    {
      "entropy": 1.7094935675462086,
      "epoch": 0.8081074400593228,
      "grad_norm": 0.6756147742271423,
      "learning_rate": 1.416736249918905e-05,
      "loss": 1.3621,
      "mean_token_accuracy": 0.6520873159170151,
      "num_tokens": 1234459417.0,
      "step": 7356
    },
    {
      "entropy": 1.7112588385740917,
      "epoch": 0.8082172969706957,
      "grad_norm": 0.703292965888977,
      "learning_rate": 1.4165863749849684e-05,
      "loss": 1.4601,
      "mean_token_accuracy": 0.6652803619702657,
      "num_tokens": 1234622325.0,
      "step": 7357
    },
    {
      "entropy": 1.733866771062215,
      "epoch": 0.8083271538820687,
      "grad_norm": 0.6714462637901306,
      "learning_rate": 1.4164364900312152e-05,
      "loss": 1.429,
      "mean_token_accuracy": 0.6481720258792242,
      "num_tokens": 1234820943.0,
      "step": 7358
    },
    {
      "entropy": 1.6990663806597393,
      "epoch": 0.8084370107934415,
      "grad_norm": 0.7425878643989563,
      "learning_rate": 1.4162865950623903e-05,
      "loss": 1.4332,
      "mean_token_accuracy": 0.6520752906799316,
      "num_tokens": 1234974817.0,
      "step": 7359
    },
    {
      "entropy": 1.6746714909871419,
      "epoch": 0.8085468677048144,
      "grad_norm": 0.7591057419776917,
      "learning_rate": 1.416136690083237e-05,
      "loss": 1.4892,
      "mean_token_accuracy": 0.6340252707401911,
      "num_tokens": 1235191091.0,
      "step": 7360
    },
    {
      "entropy": 1.7674211462338765,
      "epoch": 0.8086567246161874,
      "grad_norm": 0.7490597367286682,
      "learning_rate": 1.4159867750984998e-05,
      "loss": 1.523,
      "mean_token_accuracy": 0.6239955872297287,
      "num_tokens": 1235418947.0,
      "step": 7361
    },
    {
      "entropy": 1.758747826019923,
      "epoch": 0.8087665815275603,
      "grad_norm": 0.7145038843154907,
      "learning_rate": 1.4158368501129234e-05,
      "loss": 1.3235,
      "mean_token_accuracy": 0.6654741416374842,
      "num_tokens": 1235562850.0,
      "step": 7362
    },
    {
      "entropy": 1.6892236868540447,
      "epoch": 0.8088764384389333,
      "grad_norm": 0.6746348142623901,
      "learning_rate": 1.4156869151312536e-05,
      "loss": 1.3841,
      "mean_token_accuracy": 0.6534732679526011,
      "num_tokens": 1235704318.0,
      "step": 7363
    },
    {
      "entropy": 1.7318583031495411,
      "epoch": 0.8089862953503062,
      "grad_norm": 0.7424976825714111,
      "learning_rate": 1.4155369701582344e-05,
      "loss": 1.5392,
      "mean_token_accuracy": 0.6394655803839365,
      "num_tokens": 1235921680.0,
      "step": 7364
    },
    {
      "entropy": 1.7026897370815277,
      "epoch": 0.8090961522616792,
      "grad_norm": 0.6459017395973206,
      "learning_rate": 1.4153870151986127e-05,
      "loss": 1.4672,
      "mean_token_accuracy": 0.6501971036195755,
      "num_tokens": 1236149444.0,
      "step": 7365
    },
    {
      "entropy": 1.7260268131891887,
      "epoch": 0.8092060091730521,
      "grad_norm": 0.6344119906425476,
      "learning_rate": 1.4152370502571343e-05,
      "loss": 1.3406,
      "mean_token_accuracy": 0.6541385352611542,
      "num_tokens": 1236288713.0,
      "step": 7366
    },
    {
      "entropy": 1.6736855705579121,
      "epoch": 0.8093158660844251,
      "grad_norm": 0.7475732564926147,
      "learning_rate": 1.415087075338545e-05,
      "loss": 1.3069,
      "mean_token_accuracy": 0.6776044766108195,
      "num_tokens": 1236442000.0,
      "step": 7367
    },
    {
      "entropy": 1.6757760147253673,
      "epoch": 0.809425722995798,
      "grad_norm": 0.6088912487030029,
      "learning_rate": 1.4149370904475916e-05,
      "loss": 1.4567,
      "mean_token_accuracy": 0.6608283271392187,
      "num_tokens": 1236620361.0,
      "step": 7368
    },
    {
      "entropy": 1.635620504617691,
      "epoch": 0.809535579907171,
      "grad_norm": 1.5183919668197632,
      "learning_rate": 1.4147870955890217e-05,
      "loss": 1.3127,
      "mean_token_accuracy": 0.6584126055240631,
      "num_tokens": 1236884490.0,
      "step": 7369
    },
    {
      "entropy": 1.6411939958731334,
      "epoch": 0.8096454368185438,
      "grad_norm": 0.6386780142784119,
      "learning_rate": 1.4146370907675816e-05,
      "loss": 1.3192,
      "mean_token_accuracy": 0.6725454529126486,
      "num_tokens": 1237042264.0,
      "step": 7370
    },
    {
      "entropy": 1.7076645493507385,
      "epoch": 0.8097552937299168,
      "grad_norm": 0.7984034419059753,
      "learning_rate": 1.4144870759880196e-05,
      "loss": 1.5304,
      "mean_token_accuracy": 0.633898084362348,
      "num_tokens": 1237194352.0,
      "step": 7371
    },
    {
      "entropy": 1.756166120370229,
      "epoch": 0.8098651506412897,
      "grad_norm": 0.7380567789077759,
      "learning_rate": 1.4143370512550831e-05,
      "loss": 1.4426,
      "mean_token_accuracy": 0.6379890193541845,
      "num_tokens": 1237324596.0,
      "step": 7372
    },
    {
      "entropy": 1.7159120738506317,
      "epoch": 0.8099750075526626,
      "grad_norm": 0.6627910733222961,
      "learning_rate": 1.414187016573521e-05,
      "loss": 1.3909,
      "mean_token_accuracy": 0.6649558494488398,
      "num_tokens": 1237483038.0,
      "step": 7373
    },
    {
      "entropy": 1.7520929177602131,
      "epoch": 0.8100848644640356,
      "grad_norm": 0.7027316093444824,
      "learning_rate": 1.4140369719480812e-05,
      "loss": 1.665,
      "mean_token_accuracy": 0.6250251233577728,
      "num_tokens": 1237657133.0,
      "step": 7374
    },
    {
      "entropy": 1.700265755256017,
      "epoch": 0.8101947213754085,
      "grad_norm": 0.6161781549453735,
      "learning_rate": 1.4138869173835128e-05,
      "loss": 1.4111,
      "mean_token_accuracy": 0.661478283504645,
      "num_tokens": 1237839093.0,
      "step": 7375
    },
    {
      "entropy": 1.666181892156601,
      "epoch": 0.8103045782867815,
      "grad_norm": 0.7483380436897278,
      "learning_rate": 1.4137368528845648e-05,
      "loss": 1.3713,
      "mean_token_accuracy": 0.6747563034296036,
      "num_tokens": 1237973528.0,
      "step": 7376
    },
    {
      "entropy": 1.7163873811562855,
      "epoch": 0.8104144351981544,
      "grad_norm": 0.6816152930259705,
      "learning_rate": 1.4135867784559867e-05,
      "loss": 1.4682,
      "mean_token_accuracy": 0.645609254638354,
      "num_tokens": 1238112424.0,
      "step": 7377
    },
    {
      "entropy": 1.6794928908348083,
      "epoch": 0.8105242921095274,
      "grad_norm": 0.7110916376113892,
      "learning_rate": 1.4134366941025283e-05,
      "loss": 1.4644,
      "mean_token_accuracy": 0.6717881063620249,
      "num_tokens": 1238254177.0,
      "step": 7378
    },
    {
      "entropy": 1.6711277862389882,
      "epoch": 0.8106341490209003,
      "grad_norm": 0.6988908648490906,
      "learning_rate": 1.4132865998289402e-05,
      "loss": 1.3469,
      "mean_token_accuracy": 0.652699887752533,
      "num_tokens": 1238443003.0,
      "step": 7379
    },
    {
      "entropy": 1.679229776064555,
      "epoch": 0.8107440059322732,
      "grad_norm": 0.6412124037742615,
      "learning_rate": 1.413136495639972e-05,
      "loss": 1.4704,
      "mean_token_accuracy": 0.6530571530262629,
      "num_tokens": 1238623416.0,
      "step": 7380
    },
    {
      "entropy": 1.6649984618028004,
      "epoch": 0.8108538628436461,
      "grad_norm": 0.6781518459320068,
      "learning_rate": 1.412986381540375e-05,
      "loss": 1.2339,
      "mean_token_accuracy": 0.6802275578180949,
      "num_tokens": 1238797372.0,
      "step": 7381
    },
    {
      "entropy": 1.739145537217458,
      "epoch": 0.8109637197550191,
      "grad_norm": 0.7031247019767761,
      "learning_rate": 1.4128362575349e-05,
      "loss": 1.2742,
      "mean_token_accuracy": 0.6698156992594401,
      "num_tokens": 1238931134.0,
      "step": 7382
    },
    {
      "entropy": 1.6609701414903004,
      "epoch": 0.811073576666392,
      "grad_norm": 0.6347212791442871,
      "learning_rate": 1.4126861236282985e-05,
      "loss": 1.3583,
      "mean_token_accuracy": 0.6621866772572199,
      "num_tokens": 1239089834.0,
      "step": 7383
    },
    {
      "entropy": 1.6577509045600891,
      "epoch": 0.811183433577765,
      "grad_norm": 1.0662569999694824,
      "learning_rate": 1.412535979825322e-05,
      "loss": 1.3994,
      "mean_token_accuracy": 0.6656260589758555,
      "num_tokens": 1239250886.0,
      "step": 7384
    },
    {
      "entropy": 1.73176771402359,
      "epoch": 0.8112932904891379,
      "grad_norm": 0.8225398659706116,
      "learning_rate": 1.4123858261307227e-05,
      "loss": 1.2648,
      "mean_token_accuracy": 0.6719925204912821,
      "num_tokens": 1239372148.0,
      "step": 7385
    },
    {
      "entropy": 1.6916013360023499,
      "epoch": 0.8114031474005108,
      "grad_norm": 0.7312498092651367,
      "learning_rate": 1.4122356625492524e-05,
      "loss": 1.4389,
      "mean_token_accuracy": 0.6483626465002695,
      "num_tokens": 1239549194.0,
      "step": 7386
    },
    {
      "entropy": 1.715633491675059,
      "epoch": 0.8115130043118838,
      "grad_norm": 0.7113534808158875,
      "learning_rate": 1.4120854890856643e-05,
      "loss": 1.4785,
      "mean_token_accuracy": 0.6499229570229849,
      "num_tokens": 1239715171.0,
      "step": 7387
    },
    {
      "entropy": 1.6997787555058796,
      "epoch": 0.8116228612232567,
      "grad_norm": 0.7462812662124634,
      "learning_rate": 1.4119353057447112e-05,
      "loss": 1.2767,
      "mean_token_accuracy": 0.677174707253774,
      "num_tokens": 1239820052.0,
      "step": 7388
    },
    {
      "entropy": 1.7284424602985382,
      "epoch": 0.8117327181346297,
      "grad_norm": 0.6025354862213135,
      "learning_rate": 1.4117851125311462e-05,
      "loss": 1.4262,
      "mean_token_accuracy": 0.6419772803783417,
      "num_tokens": 1239981429.0,
      "step": 7389
    },
    {
      "entropy": 1.7345656553904216,
      "epoch": 0.8118425750460025,
      "grad_norm": 0.6548384428024292,
      "learning_rate": 1.4116349094497228e-05,
      "loss": 1.3457,
      "mean_token_accuracy": 0.6590167085329691,
      "num_tokens": 1240144145.0,
      "step": 7390
    },
    {
      "entropy": 1.7846961518128712,
      "epoch": 0.8119524319573755,
      "grad_norm": 0.7144470810890198,
      "learning_rate": 1.4114846965051952e-05,
      "loss": 1.5711,
      "mean_token_accuracy": 0.643833170334498,
      "num_tokens": 1240324650.0,
      "step": 7391
    },
    {
      "entropy": 1.7715802987416585,
      "epoch": 0.8120622888687484,
      "grad_norm": 0.8290162682533264,
      "learning_rate": 1.4113344737023167e-05,
      "loss": 1.2688,
      "mean_token_accuracy": 0.6774558126926422,
      "num_tokens": 1240451300.0,
      "step": 7392
    },
    {
      "entropy": 1.658871442079544,
      "epoch": 0.8121721457801214,
      "grad_norm": 0.6699681878089905,
      "learning_rate": 1.411184241045843e-05,
      "loss": 1.4638,
      "mean_token_accuracy": 0.6388088216384252,
      "num_tokens": 1240657822.0,
      "step": 7393
    },
    {
      "entropy": 1.733129362265269,
      "epoch": 0.8122820026914943,
      "grad_norm": 0.7511906623840332,
      "learning_rate": 1.411033998540528e-05,
      "loss": 1.3968,
      "mean_token_accuracy": 0.657474105556806,
      "num_tokens": 1240814705.0,
      "step": 7394
    },
    {
      "entropy": 1.7295902868111928,
      "epoch": 0.8123918596028673,
      "grad_norm": 0.7865959405899048,
      "learning_rate": 1.4108837461911273e-05,
      "loss": 1.477,
      "mean_token_accuracy": 0.6377530843019485,
      "num_tokens": 1240969971.0,
      "step": 7395
    },
    {
      "entropy": 1.695414235194524,
      "epoch": 0.8125017165142402,
      "grad_norm": 0.6054057478904724,
      "learning_rate": 1.410733484002396e-05,
      "loss": 1.4033,
      "mean_token_accuracy": 0.6436779797077179,
      "num_tokens": 1241149681.0,
      "step": 7396
    },
    {
      "entropy": 1.6878659625848134,
      "epoch": 0.8126115734256132,
      "grad_norm": 0.6600765585899353,
      "learning_rate": 1.4105832119790898e-05,
      "loss": 1.2499,
      "mean_token_accuracy": 0.68401571114858,
      "num_tokens": 1241269068.0,
      "step": 7397
    },
    {
      "entropy": 1.68837175766627,
      "epoch": 0.8127214303369861,
      "grad_norm": 0.788350522518158,
      "learning_rate": 1.4104329301259652e-05,
      "loss": 1.447,
      "mean_token_accuracy": 0.6587880005439123,
      "num_tokens": 1241425698.0,
      "step": 7398
    },
    {
      "entropy": 1.7728902697563171,
      "epoch": 0.812831287248359,
      "grad_norm": 0.839996337890625,
      "learning_rate": 1.4102826384477782e-05,
      "loss": 1.4142,
      "mean_token_accuracy": 0.6632864475250244,
      "num_tokens": 1241542424.0,
      "step": 7399
    },
    {
      "entropy": 1.679862250884374,
      "epoch": 0.812941144159732,
      "grad_norm": 0.7468640804290771,
      "learning_rate": 1.4101323369492854e-05,
      "loss": 1.3749,
      "mean_token_accuracy": 0.6650107949972153,
      "num_tokens": 1241699390.0,
      "step": 7400
    },
    {
      "entropy": 1.7201584080855052,
      "epoch": 0.8130510010711048,
      "grad_norm": 0.633568525314331,
      "learning_rate": 1.4099820256352436e-05,
      "loss": 1.4956,
      "mean_token_accuracy": 0.6278330336014429,
      "num_tokens": 1241877531.0,
      "step": 7401
    },
    {
      "entropy": 1.6532767017682393,
      "epoch": 0.8131608579824778,
      "grad_norm": 1.0218884944915771,
      "learning_rate": 1.4098317045104106e-05,
      "loss": 1.47,
      "mean_token_accuracy": 0.6716248542070389,
      "num_tokens": 1241999071.0,
      "step": 7402
    },
    {
      "entropy": 1.7018433213233948,
      "epoch": 0.8132707148938507,
      "grad_norm": 0.7204262018203735,
      "learning_rate": 1.4096813735795443e-05,
      "loss": 1.3745,
      "mean_token_accuracy": 0.6768209586540858,
      "num_tokens": 1242125538.0,
      "step": 7403
    },
    {
      "entropy": 1.6862289508183796,
      "epoch": 0.8133805718052237,
      "grad_norm": 0.6623913049697876,
      "learning_rate": 1.4095310328474015e-05,
      "loss": 1.4319,
      "mean_token_accuracy": 0.6565775275230408,
      "num_tokens": 1242318229.0,
      "step": 7404
    },
    {
      "entropy": 1.6885381937026978,
      "epoch": 0.8134904287165966,
      "grad_norm": 0.7589840888977051,
      "learning_rate": 1.4093806823187408e-05,
      "loss": 1.3628,
      "mean_token_accuracy": 0.6577220807472864,
      "num_tokens": 1242448793.0,
      "step": 7405
    },
    {
      "entropy": 1.6763391296068828,
      "epoch": 0.8136002856279696,
      "grad_norm": 0.8346347212791443,
      "learning_rate": 1.4092303219983215e-05,
      "loss": 1.3303,
      "mean_token_accuracy": 0.6764725148677826,
      "num_tokens": 1242553987.0,
      "step": 7406
    },
    {
      "entropy": 1.657248059908549,
      "epoch": 0.8137101425393425,
      "grad_norm": 0.7094236612319946,
      "learning_rate": 1.4090799518909015e-05,
      "loss": 1.3725,
      "mean_token_accuracy": 0.6620489905277888,
      "num_tokens": 1242749089.0,
      "step": 7407
    },
    {
      "entropy": 1.7001424332459767,
      "epoch": 0.8138199994507155,
      "grad_norm": 0.7831171751022339,
      "learning_rate": 1.4089295720012402e-05,
      "loss": 1.3146,
      "mean_token_accuracy": 0.6626470337311426,
      "num_tokens": 1242871762.0,
      "step": 7408
    },
    {
      "entropy": 1.7205629646778107,
      "epoch": 0.8139298563620884,
      "grad_norm": 0.744288980960846,
      "learning_rate": 1.4087791823340975e-05,
      "loss": 1.4054,
      "mean_token_accuracy": 0.6607886006434759,
      "num_tokens": 1243041832.0,
      "step": 7409
    },
    {
      "entropy": 1.688971887032191,
      "epoch": 0.8140397132734614,
      "grad_norm": 0.6575775742530823,
      "learning_rate": 1.4086287828942326e-05,
      "loss": 1.5004,
      "mean_token_accuracy": 0.6478760689496994,
      "num_tokens": 1243182302.0,
      "step": 7410
    },
    {
      "entropy": 1.6879553596178691,
      "epoch": 0.8141495701848342,
      "grad_norm": 0.6473801136016846,
      "learning_rate": 1.4084783736864055e-05,
      "loss": 1.273,
      "mean_token_accuracy": 0.6795784085988998,
      "num_tokens": 1243333276.0,
      "step": 7411
    },
    {
      "entropy": 1.771759420633316,
      "epoch": 0.8142594270962072,
      "grad_norm": 0.8150290250778198,
      "learning_rate": 1.4083279547153774e-05,
      "loss": 1.5647,
      "mean_token_accuracy": 0.6433297594388326,
      "num_tokens": 1243491601.0,
      "step": 7412
    },
    {
      "entropy": 1.6955374677975972,
      "epoch": 0.8143692840075801,
      "grad_norm": 0.5659390091896057,
      "learning_rate": 1.4081775259859083e-05,
      "loss": 1.5195,
      "mean_token_accuracy": 0.6323159287373225,
      "num_tokens": 1243669031.0,
      "step": 7413
    },
    {
      "entropy": 1.6806012392044067,
      "epoch": 0.814479140918953,
      "grad_norm": 0.7607001066207886,
      "learning_rate": 1.408027087502759e-05,
      "loss": 1.3539,
      "mean_token_accuracy": 0.6575177957614263,
      "num_tokens": 1243784885.0,
      "step": 7414
    },
    {
      "entropy": 1.735370695590973,
      "epoch": 0.814588997830326,
      "grad_norm": 0.6500069499015808,
      "learning_rate": 1.4078766392706919e-05,
      "loss": 1.3712,
      "mean_token_accuracy": 0.6685160199801127,
      "num_tokens": 1243908604.0,
      "step": 7415
    },
    {
      "entropy": 1.7190530995527904,
      "epoch": 0.8146988547416989,
      "grad_norm": 0.6073886156082153,
      "learning_rate": 1.4077261812944675e-05,
      "loss": 1.4499,
      "mean_token_accuracy": 0.6379290819168091,
      "num_tokens": 1244149442.0,
      "step": 7416
    },
    {
      "entropy": 1.7028957704703014,
      "epoch": 0.8148087116530719,
      "grad_norm": 0.7936030626296997,
      "learning_rate": 1.4075757135788481e-05,
      "loss": 1.3337,
      "mean_token_accuracy": 0.663459782799085,
      "num_tokens": 1244299370.0,
      "step": 7417
    },
    {
      "entropy": 1.6539308826128643,
      "epoch": 0.8149185685644448,
      "grad_norm": 0.6710909605026245,
      "learning_rate": 1.4074252361285961e-05,
      "loss": 1.3521,
      "mean_token_accuracy": 0.6716783146063486,
      "num_tokens": 1244465781.0,
      "step": 7418
    },
    {
      "entropy": 1.7069568435351055,
      "epoch": 0.8150284254758178,
      "grad_norm": 0.8002110123634338,
      "learning_rate": 1.4072747489484736e-05,
      "loss": 1.2018,
      "mean_token_accuracy": 0.6825656940539678,
      "num_tokens": 1244599995.0,
      "step": 7419
    },
    {
      "entropy": 1.663703719774882,
      "epoch": 0.8151382823871907,
      "grad_norm": 0.7054318785667419,
      "learning_rate": 1.407124252043244e-05,
      "loss": 1.3063,
      "mean_token_accuracy": 0.6676364541053772,
      "num_tokens": 1244739287.0,
      "step": 7420
    },
    {
      "entropy": 1.7169875999291737,
      "epoch": 0.8152481392985637,
      "grad_norm": 0.7952367067337036,
      "learning_rate": 1.4069737454176704e-05,
      "loss": 1.5895,
      "mean_token_accuracy": 0.6387151479721069,
      "num_tokens": 1244927614.0,
      "step": 7421
    },
    {
      "entropy": 1.7815453708171844,
      "epoch": 0.8153579962099365,
      "grad_norm": 0.959420919418335,
      "learning_rate": 1.4068232290765158e-05,
      "loss": 1.3701,
      "mean_token_accuracy": 0.6549298316240311,
      "num_tokens": 1245061586.0,
      "step": 7422
    },
    {
      "entropy": 1.681764543056488,
      "epoch": 0.8154678531213095,
      "grad_norm": 0.6878554224967957,
      "learning_rate": 1.4066727030245442e-05,
      "loss": 1.384,
      "mean_token_accuracy": 0.6570885529120764,
      "num_tokens": 1245214907.0,
      "step": 7423
    },
    {
      "entropy": 1.7041710217793782,
      "epoch": 0.8155777100326824,
      "grad_norm": 0.8578292727470398,
      "learning_rate": 1.4065221672665199e-05,
      "loss": 1.4803,
      "mean_token_accuracy": 0.6547748496135076,
      "num_tokens": 1245366976.0,
      "step": 7424
    },
    {
      "entropy": 1.7255032062530518,
      "epoch": 0.8156875669440554,
      "grad_norm": 0.6222707033157349,
      "learning_rate": 1.4063716218072072e-05,
      "loss": 1.3239,
      "mean_token_accuracy": 0.6556070099274317,
      "num_tokens": 1245497096.0,
      "step": 7425
    },
    {
      "entropy": 1.721158226331075,
      "epoch": 0.8157974238554283,
      "grad_norm": 0.7585559487342834,
      "learning_rate": 1.4062210666513705e-05,
      "loss": 1.55,
      "mean_token_accuracy": 0.6495650957028071,
      "num_tokens": 1245700324.0,
      "step": 7426
    },
    {
      "entropy": 1.6588152348995209,
      "epoch": 0.8159072807668012,
      "grad_norm": 0.6037783622741699,
      "learning_rate": 1.4060705018037752e-05,
      "loss": 1.2474,
      "mean_token_accuracy": 0.6797231733798981,
      "num_tokens": 1245829906.0,
      "step": 7427
    },
    {
      "entropy": 1.7529727220535278,
      "epoch": 0.8160171376781742,
      "grad_norm": 0.6627152562141418,
      "learning_rate": 1.4059199272691864e-05,
      "loss": 1.274,
      "mean_token_accuracy": 0.6731006652116776,
      "num_tokens": 1245965202.0,
      "step": 7428
    },
    {
      "entropy": 1.7085862557093303,
      "epoch": 0.8161269945895471,
      "grad_norm": 0.7288098931312561,
      "learning_rate": 1.4057693430523696e-05,
      "loss": 1.405,
      "mean_token_accuracy": 0.6680357307195663,
      "num_tokens": 1246151767.0,
      "step": 7429
    },
    {
      "entropy": 1.690618246793747,
      "epoch": 0.8162368515009201,
      "grad_norm": 0.8623577952384949,
      "learning_rate": 1.4056187491580911e-05,
      "loss": 1.4846,
      "mean_token_accuracy": 0.6495842784643173,
      "num_tokens": 1246308268.0,
      "step": 7430
    },
    {
      "entropy": 1.7508464058240254,
      "epoch": 0.816346708412293,
      "grad_norm": 0.716978132724762,
      "learning_rate": 1.4054681455911168e-05,
      "loss": 1.337,
      "mean_token_accuracy": 0.6598278482755026,
      "num_tokens": 1246427848.0,
      "step": 7431
    },
    {
      "entropy": 1.6642480889956157,
      "epoch": 0.816456565323666,
      "grad_norm": 0.632388174533844,
      "learning_rate": 1.4053175323562132e-05,
      "loss": 1.3534,
      "mean_token_accuracy": 0.6599838187297186,
      "num_tokens": 1246615964.0,
      "step": 7432
    },
    {
      "entropy": 1.6865338583787282,
      "epoch": 0.8165664222350388,
      "grad_norm": 0.7921580672264099,
      "learning_rate": 1.4051669094581478e-05,
      "loss": 1.4469,
      "mean_token_accuracy": 0.6657046775023142,
      "num_tokens": 1246761618.0,
      "step": 7433
    },
    {
      "entropy": 1.7106922467549641,
      "epoch": 0.8166762791464118,
      "grad_norm": 0.6639615893363953,
      "learning_rate": 1.4050162769016867e-05,
      "loss": 1.3718,
      "mean_token_accuracy": 0.6516933192809423,
      "num_tokens": 1246914824.0,
      "step": 7434
    },
    {
      "entropy": 1.6909891565640767,
      "epoch": 0.8167861360577847,
      "grad_norm": 0.6576387882232666,
      "learning_rate": 1.4048656346915984e-05,
      "loss": 1.4314,
      "mean_token_accuracy": 0.6656709363063177,
      "num_tokens": 1247129112.0,
      "step": 7435
    },
    {
      "entropy": 1.7483769953250885,
      "epoch": 0.8168959929691577,
      "grad_norm": 0.9580649733543396,
      "learning_rate": 1.4047149828326491e-05,
      "loss": 1.4487,
      "mean_token_accuracy": 0.648655946056048,
      "num_tokens": 1247272520.0,
      "step": 7436
    },
    {
      "entropy": 1.76641050974528,
      "epoch": 0.8170058498805306,
      "grad_norm": 0.7349089980125427,
      "learning_rate": 1.404564321329609e-05,
      "loss": 1.5273,
      "mean_token_accuracy": 0.6450001696745554,
      "num_tokens": 1247422308.0,
      "step": 7437
    },
    {
      "entropy": 1.7038010954856873,
      "epoch": 0.8171157067919036,
      "grad_norm": 0.612480878829956,
      "learning_rate": 1.4044136501872447e-05,
      "loss": 1.4251,
      "mean_token_accuracy": 0.6478384385506312,
      "num_tokens": 1247602434.0,
      "step": 7438
    },
    {
      "entropy": 1.7296733955542247,
      "epoch": 0.8172255637032765,
      "grad_norm": 0.6623514294624329,
      "learning_rate": 1.4042629694103259e-05,
      "loss": 1.4849,
      "mean_token_accuracy": 0.6379480262597402,
      "num_tokens": 1247765918.0,
      "step": 7439
    },
    {
      "entropy": 1.7219422558943431,
      "epoch": 0.8173354206146494,
      "grad_norm": 0.756436288356781,
      "learning_rate": 1.404112279003621e-05,
      "loss": 1.3645,
      "mean_token_accuracy": 0.6643207172552744,
      "num_tokens": 1247913353.0,
      "step": 7440
    },
    {
      "entropy": 1.6891942123572032,
      "epoch": 0.8174452775260224,
      "grad_norm": 0.7340204119682312,
      "learning_rate": 1.4039615789719e-05,
      "loss": 1.4962,
      "mean_token_accuracy": 0.6556605597337087,
      "num_tokens": 1248126159.0,
      "step": 7441
    },
    {
      "entropy": 1.7491665681203206,
      "epoch": 0.8175551344373952,
      "grad_norm": 0.7347027659416199,
      "learning_rate": 1.4038108693199313e-05,
      "loss": 1.3362,
      "mean_token_accuracy": 0.6711843659480413,
      "num_tokens": 1248263141.0,
      "step": 7442
    },
    {
      "entropy": 1.705857555071513,
      "epoch": 0.8176649913487682,
      "grad_norm": 0.8173395991325378,
      "learning_rate": 1.4036601500524858e-05,
      "loss": 1.5044,
      "mean_token_accuracy": 0.6398077656825384,
      "num_tokens": 1248453485.0,
      "step": 7443
    },
    {
      "entropy": 1.7155713438987732,
      "epoch": 0.8177748482601411,
      "grad_norm": 0.6897460222244263,
      "learning_rate": 1.4035094211743335e-05,
      "loss": 1.4384,
      "mean_token_accuracy": 0.6557023028532664,
      "num_tokens": 1248605375.0,
      "step": 7444
    },
    {
      "entropy": 1.7846886813640594,
      "epoch": 0.8178847051715141,
      "grad_norm": 0.7669224739074707,
      "learning_rate": 1.4033586826902446e-05,
      "loss": 1.4515,
      "mean_token_accuracy": 0.6553824543952942,
      "num_tokens": 1248829634.0,
      "step": 7445
    },
    {
      "entropy": 1.7502902050813038,
      "epoch": 0.817994562082887,
      "grad_norm": 0.9004881978034973,
      "learning_rate": 1.40320793460499e-05,
      "loss": 1.4205,
      "mean_token_accuracy": 0.6514177868763605,
      "num_tokens": 1249052664.0,
      "step": 7446
    },
    {
      "entropy": 1.7154946823914845,
      "epoch": 0.81810441899426,
      "grad_norm": 0.7069644927978516,
      "learning_rate": 1.4030571769233411e-05,
      "loss": 1.3711,
      "mean_token_accuracy": 0.6522306303183237,
      "num_tokens": 1249220107.0,
      "step": 7447
    },
    {
      "entropy": 1.7312849462032318,
      "epoch": 0.8182142759056329,
      "grad_norm": 0.7484097480773926,
      "learning_rate": 1.4029064096500689e-05,
      "loss": 1.2812,
      "mean_token_accuracy": 0.6704812347888947,
      "num_tokens": 1249347873.0,
      "step": 7448
    },
    {
      "entropy": 1.7800405323505402,
      "epoch": 0.8183241328170059,
      "grad_norm": 0.635948657989502,
      "learning_rate": 1.4027556327899456e-05,
      "loss": 1.3237,
      "mean_token_accuracy": 0.6623754402001699,
      "num_tokens": 1249477584.0,
      "step": 7449
    },
    {
      "entropy": 1.7426054279009502,
      "epoch": 0.8184339897283788,
      "grad_norm": 0.6542919874191284,
      "learning_rate": 1.402604846347743e-05,
      "loss": 1.5097,
      "mean_token_accuracy": 0.6329874048630396,
      "num_tokens": 1249683768.0,
      "step": 7450
    },
    {
      "entropy": 1.7369756003220875,
      "epoch": 0.8185438466397518,
      "grad_norm": 0.7994239330291748,
      "learning_rate": 1.402454050328233e-05,
      "loss": 1.4815,
      "mean_token_accuracy": 0.6522703667481741,
      "num_tokens": 1249832625.0,
      "step": 7451
    },
    {
      "entropy": 1.6854838530222576,
      "epoch": 0.8186537035511247,
      "grad_norm": 0.6902982592582703,
      "learning_rate": 1.4023032447361888e-05,
      "loss": 1.3764,
      "mean_token_accuracy": 0.6690236181020737,
      "num_tokens": 1249979361.0,
      "step": 7452
    },
    {
      "entropy": 1.717117150624593,
      "epoch": 0.8187635604624975,
      "grad_norm": 0.7572975158691406,
      "learning_rate": 1.4021524295763832e-05,
      "loss": 1.5046,
      "mean_token_accuracy": 0.6426510065793991,
      "num_tokens": 1250141814.0,
      "step": 7453
    },
    {
      "entropy": 1.6960802574952443,
      "epoch": 0.8188734173738705,
      "grad_norm": 0.6628535985946655,
      "learning_rate": 1.4020016048535894e-05,
      "loss": 1.4133,
      "mean_token_accuracy": 0.6609309216340383,
      "num_tokens": 1250311504.0,
      "step": 7454
    },
    {
      "entropy": 1.7238394518693287,
      "epoch": 0.8189832742852434,
      "grad_norm": 0.6855142712593079,
      "learning_rate": 1.401850770572581e-05,
      "loss": 1.3652,
      "mean_token_accuracy": 0.6540437589089075,
      "num_tokens": 1250445247.0,
      "step": 7455
    },
    {
      "entropy": 1.7303275068600972,
      "epoch": 0.8190931311966164,
      "grad_norm": 0.6414943933486938,
      "learning_rate": 1.4016999267381312e-05,
      "loss": 1.4394,
      "mean_token_accuracy": 0.6512100994586945,
      "num_tokens": 1250642583.0,
      "step": 7456
    },
    {
      "entropy": 1.6663293739159901,
      "epoch": 0.8192029881079893,
      "grad_norm": 0.6580475568771362,
      "learning_rate": 1.401549073355015e-05,
      "loss": 1.3234,
      "mean_token_accuracy": 0.6663972685734431,
      "num_tokens": 1250818999.0,
      "step": 7457
    },
    {
      "entropy": 1.7176962395509083,
      "epoch": 0.8193128450193623,
      "grad_norm": 0.5929837822914124,
      "learning_rate": 1.4013982104280063e-05,
      "loss": 1.5187,
      "mean_token_accuracy": 0.6359325100978216,
      "num_tokens": 1251021224.0,
      "step": 7458
    },
    {
      "entropy": 1.7315525313218434,
      "epoch": 0.8194227019307352,
      "grad_norm": 0.7245919108390808,
      "learning_rate": 1.4012473379618804e-05,
      "loss": 1.4878,
      "mean_token_accuracy": 0.6452689071496328,
      "num_tokens": 1251185042.0,
      "step": 7459
    },
    {
      "entropy": 1.7084216177463531,
      "epoch": 0.8195325588421082,
      "grad_norm": 0.713031530380249,
      "learning_rate": 1.4010964559614118e-05,
      "loss": 1.492,
      "mean_token_accuracy": 0.6423763384421667,
      "num_tokens": 1251383890.0,
      "step": 7460
    },
    {
      "entropy": 1.7116627792517345,
      "epoch": 0.8196424157534811,
      "grad_norm": 0.7990723848342896,
      "learning_rate": 1.4009455644313764e-05,
      "loss": 1.462,
      "mean_token_accuracy": 0.6500266542037328,
      "num_tokens": 1251560097.0,
      "step": 7461
    },
    {
      "entropy": 1.659277429183324,
      "epoch": 0.8197522726648541,
      "grad_norm": 0.6893109083175659,
      "learning_rate": 1.400794663376549e-05,
      "loss": 1.4211,
      "mean_token_accuracy": 0.6517892877260844,
      "num_tokens": 1251745264.0,
      "step": 7462
    },
    {
      "entropy": 1.6505893170833588,
      "epoch": 0.819862129576227,
      "grad_norm": 0.806117057800293,
      "learning_rate": 1.4006437528017063e-05,
      "loss": 1.4743,
      "mean_token_accuracy": 0.6712833146254221,
      "num_tokens": 1251939883.0,
      "step": 7463
    },
    {
      "entropy": 1.6510307888189952,
      "epoch": 0.8199719864876,
      "grad_norm": 0.6745132803916931,
      "learning_rate": 1.400492832711624e-05,
      "loss": 1.3437,
      "mean_token_accuracy": 0.6679824143648148,
      "num_tokens": 1252128793.0,
      "step": 7464
    },
    {
      "entropy": 1.706537942091624,
      "epoch": 0.8200818433989728,
      "grad_norm": 0.6287968158721924,
      "learning_rate": 1.4003419031110794e-05,
      "loss": 1.3509,
      "mean_token_accuracy": 0.6736375490824381,
      "num_tokens": 1252315132.0,
      "step": 7465
    },
    {
      "entropy": 1.6979309916496277,
      "epoch": 0.8201917003103458,
      "grad_norm": 0.7194148302078247,
      "learning_rate": 1.4001909640048485e-05,
      "loss": 1.2779,
      "mean_token_accuracy": 0.6610195636749268,
      "num_tokens": 1252483018.0,
      "step": 7466
    },
    {
      "entropy": 1.6625094612439473,
      "epoch": 0.8203015572217187,
      "grad_norm": 0.7005951404571533,
      "learning_rate": 1.4000400153977092e-05,
      "loss": 1.2451,
      "mean_token_accuracy": 0.6797448396682739,
      "num_tokens": 1252621050.0,
      "step": 7467
    },
    {
      "entropy": 1.635416607062022,
      "epoch": 0.8204114141330916,
      "grad_norm": 0.5949429273605347,
      "learning_rate": 1.3998890572944383e-05,
      "loss": 1.3522,
      "mean_token_accuracy": 0.6722677995761236,
      "num_tokens": 1252787245.0,
      "step": 7468
    },
    {
      "entropy": 1.6553764442602794,
      "epoch": 0.8205212710444646,
      "grad_norm": 0.7361176013946533,
      "learning_rate": 1.3997380896998141e-05,
      "loss": 1.4988,
      "mean_token_accuracy": 0.6553371498982111,
      "num_tokens": 1252949574.0,
      "step": 7469
    },
    {
      "entropy": 1.6532206336657207,
      "epoch": 0.8206311279558375,
      "grad_norm": 0.7868068814277649,
      "learning_rate": 1.3995871126186142e-05,
      "loss": 1.3155,
      "mean_token_accuracy": 0.6697768618663152,
      "num_tokens": 1253093237.0,
      "step": 7470
    },
    {
      "entropy": 1.6919066905975342,
      "epoch": 0.8207409848672105,
      "grad_norm": 0.7258913516998291,
      "learning_rate": 1.3994361260556175e-05,
      "loss": 1.4628,
      "mean_token_accuracy": 0.6440849602222443,
      "num_tokens": 1253248303.0,
      "step": 7471
    },
    {
      "entropy": 1.7257492740948994,
      "epoch": 0.8208508417785834,
      "grad_norm": 0.6986476182937622,
      "learning_rate": 1.3992851300156024e-05,
      "loss": 1.3161,
      "mean_token_accuracy": 0.6773944149414698,
      "num_tokens": 1253458286.0,
      "step": 7472
    },
    {
      "entropy": 1.7134167353312175,
      "epoch": 0.8209606986899564,
      "grad_norm": 0.6301187872886658,
      "learning_rate": 1.3991341245033474e-05,
      "loss": 1.2863,
      "mean_token_accuracy": 0.6769869873921076,
      "num_tokens": 1253628175.0,
      "step": 7473
    },
    {
      "entropy": 1.7503137389818828,
      "epoch": 0.8210705556013292,
      "grad_norm": 0.706662654876709,
      "learning_rate": 1.3989831095236321e-05,
      "loss": 1.4009,
      "mean_token_accuracy": 0.639786938826243,
      "num_tokens": 1253775675.0,
      "step": 7474
    },
    {
      "entropy": 1.678730736176173,
      "epoch": 0.8211804125127022,
      "grad_norm": 0.6688277721405029,
      "learning_rate": 1.3988320850812367e-05,
      "loss": 1.2569,
      "mean_token_accuracy": 0.6795259167750677,
      "num_tokens": 1253917761.0,
      "step": 7475
    },
    {
      "entropy": 1.6687143941720326,
      "epoch": 0.8212902694240751,
      "grad_norm": 0.7596714496612549,
      "learning_rate": 1.3986810511809396e-05,
      "loss": 1.2865,
      "mean_token_accuracy": 0.679057906071345,
      "num_tokens": 1254076456.0,
      "step": 7476
    },
    {
      "entropy": 1.7445678611596425,
      "epoch": 0.8214001263354481,
      "grad_norm": 0.7357975244522095,
      "learning_rate": 1.3985300078275226e-05,
      "loss": 1.3714,
      "mean_token_accuracy": 0.6583857784668604,
      "num_tokens": 1254202651.0,
      "step": 7477
    },
    {
      "entropy": 1.7018981575965881,
      "epoch": 0.821509983246821,
      "grad_norm": 0.7750345468521118,
      "learning_rate": 1.398378955025765e-05,
      "loss": 1.3008,
      "mean_token_accuracy": 0.6796058019002279,
      "num_tokens": 1254359741.0,
      "step": 7478
    },
    {
      "entropy": 1.8074349462985992,
      "epoch": 0.821619840158194,
      "grad_norm": 0.9239285588264465,
      "learning_rate": 1.398227892780448e-05,
      "loss": 1.4871,
      "mean_token_accuracy": 0.6412616769472758,
      "num_tokens": 1254504105.0,
      "step": 7479
    },
    {
      "entropy": 1.8056731621424358,
      "epoch": 0.8217296970695669,
      "grad_norm": 0.8136707544326782,
      "learning_rate": 1.3980768210963524e-05,
      "loss": 1.4746,
      "mean_token_accuracy": 0.6449335664510727,
      "num_tokens": 1254705954.0,
      "step": 7480
    },
    {
      "entropy": 1.6646238962809246,
      "epoch": 0.8218395539809398,
      "grad_norm": 0.6531665921211243,
      "learning_rate": 1.3979257399782603e-05,
      "loss": 1.4227,
      "mean_token_accuracy": 0.6651426901419958,
      "num_tokens": 1254843961.0,
      "step": 7481
    },
    {
      "entropy": 1.7323362529277802,
      "epoch": 0.8219494108923128,
      "grad_norm": 0.9482001662254333,
      "learning_rate": 1.3977746494309521e-05,
      "loss": 1.3124,
      "mean_token_accuracy": 0.6612970530986786,
      "num_tokens": 1254957021.0,
      "step": 7482
    },
    {
      "entropy": 1.7369599243005116,
      "epoch": 0.8220592678036857,
      "grad_norm": 0.7881601452827454,
      "learning_rate": 1.3976235494592107e-05,
      "loss": 1.3393,
      "mean_token_accuracy": 0.6736653447151184,
      "num_tokens": 1255084387.0,
      "step": 7483
    },
    {
      "entropy": 1.7011582553386688,
      "epoch": 0.8221691247150587,
      "grad_norm": 0.6895524859428406,
      "learning_rate": 1.3974724400678183e-05,
      "loss": 1.4111,
      "mean_token_accuracy": 0.6459124386310577,
      "num_tokens": 1255274711.0,
      "step": 7484
    },
    {
      "entropy": 1.767829418182373,
      "epoch": 0.8222789816264315,
      "grad_norm": 0.6690332293510437,
      "learning_rate": 1.3973213212615569e-05,
      "loss": 1.5124,
      "mean_token_accuracy": 0.6429779479900996,
      "num_tokens": 1255410443.0,
      "step": 7485
    },
    {
      "entropy": 1.756785641113917,
      "epoch": 0.8223888385378045,
      "grad_norm": 0.6052453517913818,
      "learning_rate": 1.3971701930452097e-05,
      "loss": 1.4162,
      "mean_token_accuracy": 0.6490946312745413,
      "num_tokens": 1255596887.0,
      "step": 7486
    },
    {
      "entropy": 1.6892687578996022,
      "epoch": 0.8224986954491774,
      "grad_norm": 0.7892059683799744,
      "learning_rate": 1.39701905542356e-05,
      "loss": 1.2558,
      "mean_token_accuracy": 0.6721896727879842,
      "num_tokens": 1255744213.0,
      "step": 7487
    },
    {
      "entropy": 1.7740124762058258,
      "epoch": 0.8226085523605504,
      "grad_norm": 0.6680493950843811,
      "learning_rate": 1.3968679084013905e-05,
      "loss": 1.3391,
      "mean_token_accuracy": 0.6599594056606293,
      "num_tokens": 1255886708.0,
      "step": 7488
    },
    {
      "entropy": 1.6903804937998455,
      "epoch": 0.8227184092719233,
      "grad_norm": 0.6269848346710205,
      "learning_rate": 1.396716751983486e-05,
      "loss": 1.4869,
      "mean_token_accuracy": 0.6487141301234564,
      "num_tokens": 1256060601.0,
      "step": 7489
    },
    {
      "entropy": 1.74964839220047,
      "epoch": 0.8228282661832963,
      "grad_norm": 0.6463726758956909,
      "learning_rate": 1.3965655861746302e-05,
      "loss": 1.3761,
      "mean_token_accuracy": 0.6572670241196951,
      "num_tokens": 1256223609.0,
      "step": 7490
    },
    {
      "entropy": 1.6653203467528026,
      "epoch": 0.8229381230946692,
      "grad_norm": 0.701028048992157,
      "learning_rate": 1.3964144109796067e-05,
      "loss": 1.3633,
      "mean_token_accuracy": 0.6773179620504379,
      "num_tokens": 1256361202.0,
      "step": 7491
    },
    {
      "entropy": 1.7040152450402577,
      "epoch": 0.8230479800060422,
      "grad_norm": 0.7073589563369751,
      "learning_rate": 1.396263226403201e-05,
      "loss": 1.4705,
      "mean_token_accuracy": 0.664089247584343,
      "num_tokens": 1256517961.0,
      "step": 7492
    },
    {
      "entropy": 1.6980151931444805,
      "epoch": 0.8231578369174151,
      "grad_norm": 0.5834183692932129,
      "learning_rate": 1.3961120324501978e-05,
      "loss": 1.4236,
      "mean_token_accuracy": 0.6516111840804418,
      "num_tokens": 1256713181.0,
      "step": 7493
    },
    {
      "entropy": 1.6546641091505687,
      "epoch": 0.823267693828788,
      "grad_norm": 0.686537504196167,
      "learning_rate": 1.3959608291253815e-05,
      "loss": 1.2607,
      "mean_token_accuracy": 0.6846804320812225,
      "num_tokens": 1256923364.0,
      "step": 7494
    },
    {
      "entropy": 1.7012316783269246,
      "epoch": 0.823377550740161,
      "grad_norm": 0.6142180562019348,
      "learning_rate": 1.3958096164335391e-05,
      "loss": 1.4143,
      "mean_token_accuracy": 0.6444648404916128,
      "num_tokens": 1257106231.0,
      "step": 7495
    },
    {
      "entropy": 1.707035501797994,
      "epoch": 0.8234874076515338,
      "grad_norm": 0.7143438458442688,
      "learning_rate": 1.395658394379455e-05,
      "loss": 1.4001,
      "mean_token_accuracy": 0.6408938119808832,
      "num_tokens": 1257276313.0,
      "step": 7496
    },
    {
      "entropy": 1.7746020754178364,
      "epoch": 0.8235972645629068,
      "grad_norm": 0.7095411419868469,
      "learning_rate": 1.3955071629679164e-05,
      "loss": 1.4486,
      "mean_token_accuracy": 0.6568672706683477,
      "num_tokens": 1257442953.0,
      "step": 7497
    },
    {
      "entropy": 1.683940976858139,
      "epoch": 0.8237071214742797,
      "grad_norm": 0.7230114340782166,
      "learning_rate": 1.395355922203709e-05,
      "loss": 1.3716,
      "mean_token_accuracy": 0.6584843943516413,
      "num_tokens": 1257589278.0,
      "step": 7498
    },
    {
      "entropy": 1.7272027730941772,
      "epoch": 0.8238169783856527,
      "grad_norm": 0.8744773268699646,
      "learning_rate": 1.39520467209162e-05,
      "loss": 1.4112,
      "mean_token_accuracy": 0.6432114988565445,
      "num_tokens": 1257732387.0,
      "step": 7499
    },
    {
      "entropy": 1.7044003407160442,
      "epoch": 0.8239268352970256,
      "grad_norm": 0.659590482711792,
      "learning_rate": 1.395053412636436e-05,
      "loss": 1.4211,
      "mean_token_accuracy": 0.652682383855184,
      "num_tokens": 1257916824.0,
      "step": 7500
    },
    {
      "entropy": 1.7109976410865784,
      "epoch": 0.8240366922083986,
      "grad_norm": 0.6942122578620911,
      "learning_rate": 1.3949021438429445e-05,
      "loss": 1.4207,
      "mean_token_accuracy": 0.6466724226872126,
      "num_tokens": 1258102470.0,
      "step": 7501
    },
    {
      "entropy": 1.6839348375797272,
      "epoch": 0.8241465491197715,
      "grad_norm": 0.6320016980171204,
      "learning_rate": 1.3947508657159328e-05,
      "loss": 1.3188,
      "mean_token_accuracy": 0.671158974369367,
      "num_tokens": 1258260131.0,
      "step": 7502
    },
    {
      "entropy": 1.7140422860781352,
      "epoch": 0.8242564060311445,
      "grad_norm": 0.9178858995437622,
      "learning_rate": 1.3945995782601893e-05,
      "loss": 1.3831,
      "mean_token_accuracy": 0.6665874371925989,
      "num_tokens": 1258411004.0,
      "step": 7503
    },
    {
      "entropy": 1.682992508014043,
      "epoch": 0.8243662629425174,
      "grad_norm": 0.6360436081886292,
      "learning_rate": 1.3944482814805018e-05,
      "loss": 1.2866,
      "mean_token_accuracy": 0.675972451766332,
      "num_tokens": 1258560249.0,
      "step": 7504
    },
    {
      "entropy": 1.7603969275951385,
      "epoch": 0.8244761198538904,
      "grad_norm": 0.6871092915534973,
      "learning_rate": 1.3942969753816589e-05,
      "loss": 1.295,
      "mean_token_accuracy": 0.6693955262502035,
      "num_tokens": 1258691545.0,
      "step": 7505
    },
    {
      "entropy": 1.7000905573368073,
      "epoch": 0.8245859767652632,
      "grad_norm": 0.6371673941612244,
      "learning_rate": 1.3941456599684493e-05,
      "loss": 1.4154,
      "mean_token_accuracy": 0.644666830698649,
      "num_tokens": 1258870586.0,
      "step": 7506
    },
    {
      "entropy": 1.6680241823196411,
      "epoch": 0.8246958336766362,
      "grad_norm": 0.6976217031478882,
      "learning_rate": 1.3939943352456623e-05,
      "loss": 1.3481,
      "mean_token_accuracy": 0.6589303016662598,
      "num_tokens": 1259046324.0,
      "step": 7507
    },
    {
      "entropy": 1.6960498293240864,
      "epoch": 0.8248056905880091,
      "grad_norm": 0.7053700685501099,
      "learning_rate": 1.3938430012180868e-05,
      "loss": 1.4329,
      "mean_token_accuracy": 0.6613789896170298,
      "num_tokens": 1259217515.0,
      "step": 7508
    },
    {
      "entropy": 1.712292194366455,
      "epoch": 0.824915547499382,
      "grad_norm": 0.6611363291740417,
      "learning_rate": 1.393691657890513e-05,
      "loss": 1.4571,
      "mean_token_accuracy": 0.6506155629952749,
      "num_tokens": 1259405409.0,
      "step": 7509
    },
    {
      "entropy": 1.698621819416682,
      "epoch": 0.825025404410755,
      "grad_norm": 0.7005683183670044,
      "learning_rate": 1.39354030526773e-05,
      "loss": 1.3047,
      "mean_token_accuracy": 0.6643372923135757,
      "num_tokens": 1259524807.0,
      "step": 7510
    },
    {
      "entropy": 1.612492283185323,
      "epoch": 0.8251352613221279,
      "grad_norm": 0.6348177194595337,
      "learning_rate": 1.3933889433545292e-05,
      "loss": 1.3432,
      "mean_token_accuracy": 0.6589316080013911,
      "num_tokens": 1259689565.0,
      "step": 7511
    },
    {
      "entropy": 1.6569429437319438,
      "epoch": 0.8252451182335009,
      "grad_norm": 0.6412181258201599,
      "learning_rate": 1.3932375721557004e-05,
      "loss": 1.3133,
      "mean_token_accuracy": 0.6661182244618734,
      "num_tokens": 1259862375.0,
      "step": 7512
    },
    {
      "entropy": 1.7173986732959747,
      "epoch": 0.8253549751448738,
      "grad_norm": 0.673636257648468,
      "learning_rate": 1.3930861916760343e-05,
      "loss": 1.5394,
      "mean_token_accuracy": 0.6368442674477895,
      "num_tokens": 1260043863.0,
      "step": 7513
    },
    {
      "entropy": 1.7598693370819092,
      "epoch": 0.8254648320562468,
      "grad_norm": 0.7226663827896118,
      "learning_rate": 1.3929348019203223e-05,
      "loss": 1.4727,
      "mean_token_accuracy": 0.6370566139618555,
      "num_tokens": 1260163201.0,
      "step": 7514
    },
    {
      "entropy": 1.7205652197202046,
      "epoch": 0.8255746889676197,
      "grad_norm": 1.0138691663742065,
      "learning_rate": 1.3927834028933565e-05,
      "loss": 1.2895,
      "mean_token_accuracy": 0.6636170645554861,
      "num_tokens": 1260282440.0,
      "step": 7515
    },
    {
      "entropy": 1.700068513552348,
      "epoch": 0.8256845458789926,
      "grad_norm": 0.7420987486839294,
      "learning_rate": 1.3926319945999272e-05,
      "loss": 1.4072,
      "mean_token_accuracy": 0.6525601297616959,
      "num_tokens": 1260443719.0,
      "step": 7516
    },
    {
      "entropy": 1.69573841492335,
      "epoch": 0.8257944027903655,
      "grad_norm": 0.5588994026184082,
      "learning_rate": 1.3924805770448275e-05,
      "loss": 1.3833,
      "mean_token_accuracy": 0.6473828703165054,
      "num_tokens": 1260653846.0,
      "step": 7517
    },
    {
      "entropy": 1.7026591698328655,
      "epoch": 0.8259042597017385,
      "grad_norm": 0.6840011477470398,
      "learning_rate": 1.3923291502328493e-05,
      "loss": 1.3299,
      "mean_token_accuracy": 0.6716416925191879,
      "num_tokens": 1260834311.0,
      "step": 7518
    },
    {
      "entropy": 1.7089744905630748,
      "epoch": 0.8260141166131114,
      "grad_norm": 0.8017948865890503,
      "learning_rate": 1.3921777141687851e-05,
      "loss": 1.3692,
      "mean_token_accuracy": 0.6594879478216171,
      "num_tokens": 1260978152.0,
      "step": 7519
    },
    {
      "entropy": 1.717678815126419,
      "epoch": 0.8261239735244844,
      "grad_norm": 0.6748639941215515,
      "learning_rate": 1.392026268857428e-05,
      "loss": 1.5332,
      "mean_token_accuracy": 0.6416458636522293,
      "num_tokens": 1261161530.0,
      "step": 7520
    },
    {
      "entropy": 1.7014433046181996,
      "epoch": 0.8262338304358573,
      "grad_norm": 0.5452734231948853,
      "learning_rate": 1.3918748143035712e-05,
      "loss": 1.4928,
      "mean_token_accuracy": 0.6255062818527222,
      "num_tokens": 1261392764.0,
      "step": 7521
    },
    {
      "entropy": 1.6911316414674122,
      "epoch": 0.8263436873472302,
      "grad_norm": 0.694558322429657,
      "learning_rate": 1.3917233505120073e-05,
      "loss": 1.4584,
      "mean_token_accuracy": 0.6488548169533411,
      "num_tokens": 1261521560.0,
      "step": 7522
    },
    {
      "entropy": 1.6891414125760396,
      "epoch": 0.8264535442586032,
      "grad_norm": 0.6259676814079285,
      "learning_rate": 1.3915718774875317e-05,
      "loss": 1.4898,
      "mean_token_accuracy": 0.632416253288587,
      "num_tokens": 1261714723.0,
      "step": 7523
    },
    {
      "entropy": 1.7080417772134144,
      "epoch": 0.8265634011699761,
      "grad_norm": 0.7242565751075745,
      "learning_rate": 1.3914203952349374e-05,
      "loss": 1.3847,
      "mean_token_accuracy": 0.6655266831318537,
      "num_tokens": 1261850914.0,
      "step": 7524
    },
    {
      "entropy": 1.6633085012435913,
      "epoch": 0.8266732580813491,
      "grad_norm": 0.7950205206871033,
      "learning_rate": 1.3912689037590189e-05,
      "loss": 1.5695,
      "mean_token_accuracy": 0.6606140186389288,
      "num_tokens": 1261993356.0,
      "step": 7525
    },
    {
      "entropy": 1.7180237174034119,
      "epoch": 0.826783114992722,
      "grad_norm": 0.6543428301811218,
      "learning_rate": 1.3911174030645705e-05,
      "loss": 1.4543,
      "mean_token_accuracy": 0.660189817349116,
      "num_tokens": 1262170004.0,
      "step": 7526
    },
    {
      "entropy": 1.6681218047936757,
      "epoch": 0.8268929719040949,
      "grad_norm": 0.6747716069221497,
      "learning_rate": 1.390965893156388e-05,
      "loss": 1.3851,
      "mean_token_accuracy": 0.650188018878301,
      "num_tokens": 1262325407.0,
      "step": 7527
    },
    {
      "entropy": 1.69178702433904,
      "epoch": 0.8270028288154678,
      "grad_norm": 0.7375442385673523,
      "learning_rate": 1.3908143740392657e-05,
      "loss": 1.4235,
      "mean_token_accuracy": 0.6644584635893503,
      "num_tokens": 1262479364.0,
      "step": 7528
    },
    {
      "entropy": 1.7722974220911663,
      "epoch": 0.8271126857268408,
      "grad_norm": 0.720845103263855,
      "learning_rate": 1.3906628457179994e-05,
      "loss": 1.3381,
      "mean_token_accuracy": 0.66179092725118,
      "num_tokens": 1262577801.0,
      "step": 7529
    },
    {
      "entropy": 1.7099088231722515,
      "epoch": 0.8272225426382137,
      "grad_norm": 0.8065167665481567,
      "learning_rate": 1.3905113081973854e-05,
      "loss": 1.3695,
      "mean_token_accuracy": 0.656641498208046,
      "num_tokens": 1262761100.0,
      "step": 7530
    },
    {
      "entropy": 1.665325830380122,
      "epoch": 0.8273323995495867,
      "grad_norm": 0.7184627056121826,
      "learning_rate": 1.390359761482219e-05,
      "loss": 1.3796,
      "mean_token_accuracy": 0.6679128209749857,
      "num_tokens": 1262899915.0,
      "step": 7531
    },
    {
      "entropy": 1.7003116806348164,
      "epoch": 0.8274422564609596,
      "grad_norm": 0.7257794141769409,
      "learning_rate": 1.390208205577297e-05,
      "loss": 1.3098,
      "mean_token_accuracy": 0.6723635445038477,
      "num_tokens": 1263025397.0,
      "step": 7532
    },
    {
      "entropy": 1.6903511186440785,
      "epoch": 0.8275521133723326,
      "grad_norm": 0.7771725058555603,
      "learning_rate": 1.3900566404874165e-05,
      "loss": 1.3125,
      "mean_token_accuracy": 0.6623782813549042,
      "num_tokens": 1263172104.0,
      "step": 7533
    },
    {
      "entropy": 1.738791823387146,
      "epoch": 0.8276619702837055,
      "grad_norm": 0.6048402786254883,
      "learning_rate": 1.3899050662173736e-05,
      "loss": 1.3476,
      "mean_token_accuracy": 0.6545044680436453,
      "num_tokens": 1263335359.0,
      "step": 7534
    },
    {
      "entropy": 1.7750772138436635,
      "epoch": 0.8277718271950784,
      "grad_norm": 0.7775545120239258,
      "learning_rate": 1.3897534827719663e-05,
      "loss": 1.6391,
      "mean_token_accuracy": 0.6482603698968887,
      "num_tokens": 1263472462.0,
      "step": 7535
    },
    {
      "entropy": 1.7368451058864594,
      "epoch": 0.8278816841064514,
      "grad_norm": 0.7810788750648499,
      "learning_rate": 1.3896018901559915e-05,
      "loss": 1.5206,
      "mean_token_accuracy": 0.6479092240333557,
      "num_tokens": 1263615854.0,
      "step": 7536
    },
    {
      "entropy": 1.7175723016262054,
      "epoch": 0.8279915410178242,
      "grad_norm": 0.675439178943634,
      "learning_rate": 1.389450288374248e-05,
      "loss": 1.4315,
      "mean_token_accuracy": 0.6542692532142004,
      "num_tokens": 1263767613.0,
      "step": 7537
    },
    {
      "entropy": 1.6717278858025868,
      "epoch": 0.8281013979291972,
      "grad_norm": 0.8180225491523743,
      "learning_rate": 1.3892986774315325e-05,
      "loss": 1.2958,
      "mean_token_accuracy": 0.6851775397857031,
      "num_tokens": 1263942570.0,
      "step": 7538
    },
    {
      "entropy": 1.7367408871650696,
      "epoch": 0.8282112548405701,
      "grad_norm": 0.7362589240074158,
      "learning_rate": 1.3891470573326446e-05,
      "loss": 1.5338,
      "mean_token_accuracy": 0.6389251748720804,
      "num_tokens": 1264115819.0,
      "step": 7539
    },
    {
      "entropy": 1.7383471826712291,
      "epoch": 0.8283211117519431,
      "grad_norm": 0.6163108348846436,
      "learning_rate": 1.3889954280823828e-05,
      "loss": 1.4486,
      "mean_token_accuracy": 0.6470398008823395,
      "num_tokens": 1264290334.0,
      "step": 7540
    },
    {
      "entropy": 1.697384923696518,
      "epoch": 0.828430968663316,
      "grad_norm": 0.6724095344543457,
      "learning_rate": 1.3888437896855456e-05,
      "loss": 1.2777,
      "mean_token_accuracy": 0.6817297836144766,
      "num_tokens": 1264414382.0,
      "step": 7541
    },
    {
      "entropy": 1.6797985633214314,
      "epoch": 0.828540825574689,
      "grad_norm": 0.6427711844444275,
      "learning_rate": 1.3886921421469329e-05,
      "loss": 1.2919,
      "mean_token_accuracy": 0.6724950323502222,
      "num_tokens": 1264550399.0,
      "step": 7542
    },
    {
      "entropy": 1.7129569550355275,
      "epoch": 0.8286506824860619,
      "grad_norm": 0.6985865831375122,
      "learning_rate": 1.3885404854713437e-05,
      "loss": 1.2449,
      "mean_token_accuracy": 0.6730537166198095,
      "num_tokens": 1264690996.0,
      "step": 7543
    },
    {
      "entropy": 1.7042374809583027,
      "epoch": 0.8287605393974349,
      "grad_norm": 0.6594078540802002,
      "learning_rate": 1.3883888196635785e-05,
      "loss": 1.4256,
      "mean_token_accuracy": 0.643621101975441,
      "num_tokens": 1264927827.0,
      "step": 7544
    },
    {
      "entropy": 1.7009220818678539,
      "epoch": 0.8288703963088078,
      "grad_norm": 0.8057886362075806,
      "learning_rate": 1.3882371447284369e-05,
      "loss": 1.4477,
      "mean_token_accuracy": 0.6611939668655396,
      "num_tokens": 1265053926.0,
      "step": 7545
    },
    {
      "entropy": 1.6498080094655354,
      "epoch": 0.8289802532201808,
      "grad_norm": 0.6930307149887085,
      "learning_rate": 1.3880854606707195e-05,
      "loss": 1.4983,
      "mean_token_accuracy": 0.6612697939078013,
      "num_tokens": 1265206127.0,
      "step": 7546
    },
    {
      "entropy": 1.694092224041621,
      "epoch": 0.8290901101315536,
      "grad_norm": 0.6370811462402344,
      "learning_rate": 1.3879337674952274e-05,
      "loss": 1.3453,
      "mean_token_accuracy": 0.6520874202251434,
      "num_tokens": 1265360777.0,
      "step": 7547
    },
    {
      "entropy": 1.7223928372065227,
      "epoch": 0.8291999670429265,
      "grad_norm": 0.6785632967948914,
      "learning_rate": 1.3877820652067609e-05,
      "loss": 1.4052,
      "mean_token_accuracy": 0.6524649461110433,
      "num_tokens": 1265517050.0,
      "step": 7548
    },
    {
      "entropy": 1.7133225500583649,
      "epoch": 0.8293098239542995,
      "grad_norm": 0.6474944353103638,
      "learning_rate": 1.3876303538101218e-05,
      "loss": 1.3002,
      "mean_token_accuracy": 0.6698809812466303,
      "num_tokens": 1265665927.0,
      "step": 7549
    },
    {
      "entropy": 1.7734433313210805,
      "epoch": 0.8294196808656724,
      "grad_norm": 0.7001741528511047,
      "learning_rate": 1.3874786333101117e-05,
      "loss": 1.3274,
      "mean_token_accuracy": 0.6608901371558508,
      "num_tokens": 1265774674.0,
      "step": 7550
    },
    {
      "entropy": 1.633638968070348,
      "epoch": 0.8295295377770454,
      "grad_norm": 0.6309921741485596,
      "learning_rate": 1.3873269037115325e-05,
      "loss": 1.4088,
      "mean_token_accuracy": 0.6554737389087677,
      "num_tokens": 1265997082.0,
      "step": 7551
    },
    {
      "entropy": 1.677928477525711,
      "epoch": 0.8296393946884183,
      "grad_norm": 2.2038040161132812,
      "learning_rate": 1.3871751650191861e-05,
      "loss": 1.1266,
      "mean_token_accuracy": 0.6781335373719534,
      "num_tokens": 1266160041.0,
      "step": 7552
    },
    {
      "entropy": 1.7169209221998851,
      "epoch": 0.8297492515997913,
      "grad_norm": 0.6631376147270203,
      "learning_rate": 1.387023417237875e-05,
      "loss": 1.4185,
      "mean_token_accuracy": 0.6488533268372217,
      "num_tokens": 1266332720.0,
      "step": 7553
    },
    {
      "entropy": 1.698218435049057,
      "epoch": 0.8298591085111642,
      "grad_norm": 0.6376110911369324,
      "learning_rate": 1.3868716603724024e-05,
      "loss": 1.4032,
      "mean_token_accuracy": 0.6554437925418218,
      "num_tokens": 1266512357.0,
      "step": 7554
    },
    {
      "entropy": 1.7614865104357402,
      "epoch": 0.8299689654225372,
      "grad_norm": 0.6769449710845947,
      "learning_rate": 1.386719894427571e-05,
      "loss": 1.457,
      "mean_token_accuracy": 0.640682727098465,
      "num_tokens": 1266656391.0,
      "step": 7555
    },
    {
      "entropy": 1.6298018097877502,
      "epoch": 0.8300788223339101,
      "grad_norm": 0.6778908371925354,
      "learning_rate": 1.386568119408184e-05,
      "loss": 1.3012,
      "mean_token_accuracy": 0.6756581912438074,
      "num_tokens": 1266798263.0,
      "step": 7556
    },
    {
      "entropy": 1.725428541501363,
      "epoch": 0.8301886792452831,
      "grad_norm": 0.6709782481193542,
      "learning_rate": 1.3864163353190453e-05,
      "loss": 1.3906,
      "mean_token_accuracy": 0.66632479429245,
      "num_tokens": 1266924812.0,
      "step": 7557
    },
    {
      "entropy": 1.6883962154388428,
      "epoch": 0.8302985361566559,
      "grad_norm": 0.68055260181427,
      "learning_rate": 1.3862645421649582e-05,
      "loss": 1.3803,
      "mean_token_accuracy": 0.6522450596094131,
      "num_tokens": 1267073930.0,
      "step": 7558
    },
    {
      "entropy": 1.7249091962973278,
      "epoch": 0.8304083930680289,
      "grad_norm": 0.669360339641571,
      "learning_rate": 1.386112739950728e-05,
      "loss": 1.3908,
      "mean_token_accuracy": 0.6687298119068146,
      "num_tokens": 1267263523.0,
      "step": 7559
    },
    {
      "entropy": 1.7766032218933105,
      "epoch": 0.8305182499794018,
      "grad_norm": 0.8653247952461243,
      "learning_rate": 1.3859609286811576e-05,
      "loss": 1.4976,
      "mean_token_accuracy": 0.6408978551626205,
      "num_tokens": 1267408031.0,
      "step": 7560
    },
    {
      "entropy": 1.7056670884291332,
      "epoch": 0.8306281068907748,
      "grad_norm": 0.7807538509368896,
      "learning_rate": 1.3858091083610537e-05,
      "loss": 1.4544,
      "mean_token_accuracy": 0.658196692665418,
      "num_tokens": 1267607695.0,
      "step": 7561
    },
    {
      "entropy": 1.7037642896175385,
      "epoch": 0.8307379638021477,
      "grad_norm": 0.6015084981918335,
      "learning_rate": 1.3856572789952197e-05,
      "loss": 1.4094,
      "mean_token_accuracy": 0.6588554928700129,
      "num_tokens": 1267778360.0,
      "step": 7562
    },
    {
      "entropy": 1.677244524161021,
      "epoch": 0.8308478207135206,
      "grad_norm": 0.6811591982841492,
      "learning_rate": 1.3855054405884619e-05,
      "loss": 1.3449,
      "mean_token_accuracy": 0.6656729827324549,
      "num_tokens": 1267937117.0,
      "step": 7563
    },
    {
      "entropy": 1.6949976682662964,
      "epoch": 0.8309576776248936,
      "grad_norm": 0.8715330362319946,
      "learning_rate": 1.385353593145585e-05,
      "loss": 1.4748,
      "mean_token_accuracy": 0.6535067111253738,
      "num_tokens": 1268150134.0,
      "step": 7564
    },
    {
      "entropy": 1.742262860139211,
      "epoch": 0.8310675345362665,
      "grad_norm": 0.7902666330337524,
      "learning_rate": 1.3852017366713962e-05,
      "loss": 1.6062,
      "mean_token_accuracy": 0.642037237683932,
      "num_tokens": 1268318445.0,
      "step": 7565
    },
    {
      "entropy": 1.707626740137736,
      "epoch": 0.8311773914476395,
      "grad_norm": 0.7191417813301086,
      "learning_rate": 1.3850498711707001e-05,
      "loss": 1.3055,
      "mean_token_accuracy": 0.6673828760782877,
      "num_tokens": 1268422008.0,
      "step": 7566
    },
    {
      "entropy": 1.689712017774582,
      "epoch": 0.8312872483590124,
      "grad_norm": 0.6316739916801453,
      "learning_rate": 1.3848979966483048e-05,
      "loss": 1.5149,
      "mean_token_accuracy": 0.6431446621815363,
      "num_tokens": 1268691031.0,
      "step": 7567
    },
    {
      "entropy": 1.6952175498008728,
      "epoch": 0.8313971052703854,
      "grad_norm": 0.6542701125144958,
      "learning_rate": 1.3847461131090159e-05,
      "loss": 1.3766,
      "mean_token_accuracy": 0.6535580505927404,
      "num_tokens": 1268869666.0,
      "step": 7568
    },
    {
      "entropy": 1.6646797557671864,
      "epoch": 0.8315069621817582,
      "grad_norm": 0.7026156187057495,
      "learning_rate": 1.3845942205576408e-05,
      "loss": 1.3871,
      "mean_token_accuracy": 0.6553316861391068,
      "num_tokens": 1269053305.0,
      "step": 7569
    },
    {
      "entropy": 1.6775665481885274,
      "epoch": 0.8316168190931312,
      "grad_norm": 0.7035835981369019,
      "learning_rate": 1.3844423189989868e-05,
      "loss": 1.2915,
      "mean_token_accuracy": 0.6790016442537308,
      "num_tokens": 1269181271.0,
      "step": 7570
    },
    {
      "entropy": 1.6944467822710674,
      "epoch": 0.8317266760045041,
      "grad_norm": 0.6992266178131104,
      "learning_rate": 1.3842904084378619e-05,
      "loss": 1.2448,
      "mean_token_accuracy": 0.6773143957058588,
      "num_tokens": 1269291180.0,
      "step": 7571
    },
    {
      "entropy": 1.7388213972250621,
      "epoch": 0.8318365329158771,
      "grad_norm": 0.7684722542762756,
      "learning_rate": 1.3841384888790734e-05,
      "loss": 1.5707,
      "mean_token_accuracy": 0.6360517491896948,
      "num_tokens": 1269452126.0,
      "step": 7572
    },
    {
      "entropy": 1.749897877375285,
      "epoch": 0.83194638982725,
      "grad_norm": 0.6144039630889893,
      "learning_rate": 1.38398656032743e-05,
      "loss": 1.4208,
      "mean_token_accuracy": 0.6549445589383444,
      "num_tokens": 1269616125.0,
      "step": 7573
    },
    {
      "entropy": 1.7409840126832326,
      "epoch": 0.832056246738623,
      "grad_norm": 0.687271773815155,
      "learning_rate": 1.3838346227877398e-05,
      "loss": 1.3635,
      "mean_token_accuracy": 0.6573161135117213,
      "num_tokens": 1269735340.0,
      "step": 7574
    },
    {
      "entropy": 1.650204559167226,
      "epoch": 0.8321661036499959,
      "grad_norm": 0.6359143257141113,
      "learning_rate": 1.3836826762648117e-05,
      "loss": 1.3908,
      "mean_token_accuracy": 0.6477119276920954,
      "num_tokens": 1269901539.0,
      "step": 7575
    },
    {
      "entropy": 1.7002926965554555,
      "epoch": 0.8322759605613688,
      "grad_norm": 0.6047689914703369,
      "learning_rate": 1.3835307207634545e-05,
      "loss": 1.3467,
      "mean_token_accuracy": 0.6575921724239985,
      "num_tokens": 1270036658.0,
      "step": 7576
    },
    {
      "entropy": 1.699533224105835,
      "epoch": 0.8323858174727418,
      "grad_norm": 0.690969705581665,
      "learning_rate": 1.3833787562884784e-05,
      "loss": 1.3226,
      "mean_token_accuracy": 0.6634237319231033,
      "num_tokens": 1270178148.0,
      "step": 7577
    },
    {
      "entropy": 1.664102743069331,
      "epoch": 0.8324956743841146,
      "grad_norm": 0.663180947303772,
      "learning_rate": 1.3832267828446914e-05,
      "loss": 1.2973,
      "mean_token_accuracy": 0.6731946070988973,
      "num_tokens": 1270323103.0,
      "step": 7578
    },
    {
      "entropy": 1.6971265574296315,
      "epoch": 0.8326055312954876,
      "grad_norm": 0.9087331295013428,
      "learning_rate": 1.383074800436905e-05,
      "loss": 1.4288,
      "mean_token_accuracy": 0.6556025594472885,
      "num_tokens": 1270488548.0,
      "step": 7579
    },
    {
      "entropy": 1.6653367976347606,
      "epoch": 0.8327153882068605,
      "grad_norm": 0.6120437979698181,
      "learning_rate": 1.3829228090699286e-05,
      "loss": 1.4193,
      "mean_token_accuracy": 0.6514114042123159,
      "num_tokens": 1270694474.0,
      "step": 7580
    },
    {
      "entropy": 1.7614048818747203,
      "epoch": 0.8328252451182335,
      "grad_norm": 0.6478108763694763,
      "learning_rate": 1.3827708087485727e-05,
      "loss": 1.5128,
      "mean_token_accuracy": 0.6446801622708639,
      "num_tokens": 1270918826.0,
      "step": 7581
    },
    {
      "entropy": 1.7623259325822194,
      "epoch": 0.8329351020296064,
      "grad_norm": 0.6244803667068481,
      "learning_rate": 1.3826187994776484e-05,
      "loss": 1.3796,
      "mean_token_accuracy": 0.6532119462887446,
      "num_tokens": 1271092214.0,
      "step": 7582
    },
    {
      "entropy": 1.6713003118832905,
      "epoch": 0.8330449589409794,
      "grad_norm": 0.8507984280586243,
      "learning_rate": 1.382466781261966e-05,
      "loss": 1.3142,
      "mean_token_accuracy": 0.6736680517594019,
      "num_tokens": 1271207600.0,
      "step": 7583
    },
    {
      "entropy": 1.7317315141359966,
      "epoch": 0.8331548158523523,
      "grad_norm": 0.6434891819953918,
      "learning_rate": 1.3823147541063376e-05,
      "loss": 1.5426,
      "mean_token_accuracy": 0.6401833097139994,
      "num_tokens": 1271386603.0,
      "step": 7584
    },
    {
      "entropy": 1.7154659231503804,
      "epoch": 0.8332646727637253,
      "grad_norm": 0.6992514133453369,
      "learning_rate": 1.3821627180155743e-05,
      "loss": 1.4521,
      "mean_token_accuracy": 0.6397911409536997,
      "num_tokens": 1271565473.0,
      "step": 7585
    },
    {
      "entropy": 1.6124655902385712,
      "epoch": 0.8333745296750982,
      "grad_norm": 0.5322008728981018,
      "learning_rate": 1.3820106729944882e-05,
      "loss": 1.411,
      "mean_token_accuracy": 0.6569860825935999,
      "num_tokens": 1271800335.0,
      "step": 7586
    },
    {
      "entropy": 1.693232387304306,
      "epoch": 0.8334843865864712,
      "grad_norm": 0.6390825510025024,
      "learning_rate": 1.3818586190478916e-05,
      "loss": 1.5123,
      "mean_token_accuracy": 0.6511318882306417,
      "num_tokens": 1271963559.0,
      "step": 7587
    },
    {
      "entropy": 1.7264248430728912,
      "epoch": 0.8335942434978441,
      "grad_norm": 0.8136751651763916,
      "learning_rate": 1.3817065561805962e-05,
      "loss": 1.3956,
      "mean_token_accuracy": 0.6575086663166682,
      "num_tokens": 1272120985.0,
      "step": 7588
    },
    {
      "entropy": 1.7141720652580261,
      "epoch": 0.8337041004092169,
      "grad_norm": 0.8287689089775085,
      "learning_rate": 1.3815544843974156e-05,
      "loss": 1.4675,
      "mean_token_accuracy": 0.661083827416102,
      "num_tokens": 1272246029.0,
      "step": 7589
    },
    {
      "entropy": 1.712748219569524,
      "epoch": 0.8338139573205899,
      "grad_norm": 0.6662017703056335,
      "learning_rate": 1.3814024037031624e-05,
      "loss": 1.4793,
      "mean_token_accuracy": 0.6412945588429769,
      "num_tokens": 1272428836.0,
      "step": 7590
    },
    {
      "entropy": 1.694316158692042,
      "epoch": 0.8339238142319628,
      "grad_norm": 0.7065073251724243,
      "learning_rate": 1.3812503141026497e-05,
      "loss": 1.4966,
      "mean_token_accuracy": 0.6386247078577677,
      "num_tokens": 1272662052.0,
      "step": 7591
    },
    {
      "entropy": 1.6363686819871266,
      "epoch": 0.8340336711433358,
      "grad_norm": 0.7142933011054993,
      "learning_rate": 1.3810982156006914e-05,
      "loss": 1.2562,
      "mean_token_accuracy": 0.6731893370548884,
      "num_tokens": 1272810815.0,
      "step": 7592
    },
    {
      "entropy": 1.705398678779602,
      "epoch": 0.8341435280547087,
      "grad_norm": 0.7638614773750305,
      "learning_rate": 1.3809461082021015e-05,
      "loss": 1.3403,
      "mean_token_accuracy": 0.6670798907677332,
      "num_tokens": 1272950592.0,
      "step": 7593
    },
    {
      "entropy": 1.7166258593400319,
      "epoch": 0.8342533849660817,
      "grad_norm": 0.7492454648017883,
      "learning_rate": 1.3807939919116935e-05,
      "loss": 1.4619,
      "mean_token_accuracy": 0.6594860553741455,
      "num_tokens": 1273083671.0,
      "step": 7594
    },
    {
      "entropy": 1.7036760747432709,
      "epoch": 0.8343632418774546,
      "grad_norm": 0.6306270360946655,
      "learning_rate": 1.3806418667342825e-05,
      "loss": 1.4087,
      "mean_token_accuracy": 0.6539557129144669,
      "num_tokens": 1273249788.0,
      "step": 7595
    },
    {
      "entropy": 1.7021053830782573,
      "epoch": 0.8344730987888276,
      "grad_norm": 0.7657412886619568,
      "learning_rate": 1.3804897326746826e-05,
      "loss": 1.2697,
      "mean_token_accuracy": 0.664386381705602,
      "num_tokens": 1273375149.0,
      "step": 7596
    },
    {
      "entropy": 1.7494820058345795,
      "epoch": 0.8345829557002005,
      "grad_norm": 0.6962859630584717,
      "learning_rate": 1.3803375897377091e-05,
      "loss": 1.3636,
      "mean_token_accuracy": 0.6591188112894694,
      "num_tokens": 1273491406.0,
      "step": 7597
    },
    {
      "entropy": 1.727548082669576,
      "epoch": 0.8346928126115735,
      "grad_norm": 0.5763877034187317,
      "learning_rate": 1.3801854379281772e-05,
      "loss": 1.4143,
      "mean_token_accuracy": 0.6519613862037659,
      "num_tokens": 1273691352.0,
      "step": 7598
    },
    {
      "entropy": 1.7307646075884502,
      "epoch": 0.8348026695229464,
      "grad_norm": 0.6695159077644348,
      "learning_rate": 1.3800332772509028e-05,
      "loss": 1.3111,
      "mean_token_accuracy": 0.6668645044167837,
      "num_tokens": 1273843898.0,
      "step": 7599
    },
    {
      "entropy": 1.7181670566399891,
      "epoch": 0.8349125264343193,
      "grad_norm": 0.675504207611084,
      "learning_rate": 1.3798811077107008e-05,
      "loss": 1.3693,
      "mean_token_accuracy": 0.6546612332264582,
      "num_tokens": 1273988852.0,
      "step": 7600
    },
    {
      "entropy": 1.7171874046325684,
      "epoch": 0.8350223833456922,
      "grad_norm": 0.8511648774147034,
      "learning_rate": 1.3797289293123884e-05,
      "loss": 1.4898,
      "mean_token_accuracy": 0.6442197859287262,
      "num_tokens": 1274195068.0,
      "step": 7601
    },
    {
      "entropy": 1.7084606885910034,
      "epoch": 0.8351322402570651,
      "grad_norm": 0.6916182637214661,
      "learning_rate": 1.379576742060781e-05,
      "loss": 1.5412,
      "mean_token_accuracy": 0.6330763747294744,
      "num_tokens": 1274428299.0,
      "step": 7602
    },
    {
      "entropy": 1.7000287473201752,
      "epoch": 0.8352420971684381,
      "grad_norm": 0.7107706069946289,
      "learning_rate": 1.379424545960696e-05,
      "loss": 1.2805,
      "mean_token_accuracy": 0.6748431076606115,
      "num_tokens": 1274598715.0,
      "step": 7603
    },
    {
      "entropy": 1.6960639754931133,
      "epoch": 0.835351954079811,
      "grad_norm": 0.6091739535331726,
      "learning_rate": 1.3792723410169498e-05,
      "loss": 1.4367,
      "mean_token_accuracy": 0.6490481595198313,
      "num_tokens": 1274769825.0,
      "step": 7604
    },
    {
      "entropy": 1.6969983875751495,
      "epoch": 0.835461810991184,
      "grad_norm": 0.6014200448989868,
      "learning_rate": 1.3791201272343602e-05,
      "loss": 1.4189,
      "mean_token_accuracy": 0.657557855049769,
      "num_tokens": 1274963060.0,
      "step": 7605
    },
    {
      "entropy": 1.7252587974071503,
      "epoch": 0.8355716679025569,
      "grad_norm": 0.6048182249069214,
      "learning_rate": 1.3789679046177438e-05,
      "loss": 1.3069,
      "mean_token_accuracy": 0.6655952880779902,
      "num_tokens": 1275104494.0,
      "step": 7606
    },
    {
      "entropy": 1.7161117593447368,
      "epoch": 0.8356815248139299,
      "grad_norm": 0.7150284647941589,
      "learning_rate": 1.3788156731719196e-05,
      "loss": 1.3054,
      "mean_token_accuracy": 0.6586286971966425,
      "num_tokens": 1275219815.0,
      "step": 7607
    },
    {
      "entropy": 1.7322356899579365,
      "epoch": 0.8357913817253028,
      "grad_norm": 0.719291627407074,
      "learning_rate": 1.3786634329017044e-05,
      "loss": 1.4993,
      "mean_token_accuracy": 0.6435506194829941,
      "num_tokens": 1275361651.0,
      "step": 7608
    },
    {
      "entropy": 1.7530653476715088,
      "epoch": 0.8359012386366758,
      "grad_norm": 0.6821619868278503,
      "learning_rate": 1.3785111838119174e-05,
      "loss": 1.4983,
      "mean_token_accuracy": 0.6553416550159454,
      "num_tokens": 1275492520.0,
      "step": 7609
    },
    {
      "entropy": 1.691613495349884,
      "epoch": 0.8360110955480486,
      "grad_norm": 0.6883498430252075,
      "learning_rate": 1.3783589259073766e-05,
      "loss": 1.3471,
      "mean_token_accuracy": 0.6675893068313599,
      "num_tokens": 1275630876.0,
      "step": 7610
    },
    {
      "entropy": 1.7405516107877095,
      "epoch": 0.8361209524594216,
      "grad_norm": 0.7199444770812988,
      "learning_rate": 1.3782066591929017e-05,
      "loss": 1.2501,
      "mean_token_accuracy": 0.6688971618811289,
      "num_tokens": 1275742939.0,
      "step": 7611
    },
    {
      "entropy": 1.6530592640240986,
      "epoch": 0.8362308093707945,
      "grad_norm": 0.7949721813201904,
      "learning_rate": 1.3780543836733112e-05,
      "loss": 1.4701,
      "mean_token_accuracy": 0.6404084165891012,
      "num_tokens": 1275941141.0,
      "step": 7612
    },
    {
      "entropy": 1.7587747077147167,
      "epoch": 0.8363406662821675,
      "grad_norm": 0.7122784852981567,
      "learning_rate": 1.3779020993534249e-05,
      "loss": 1.3668,
      "mean_token_accuracy": 0.6711858014265696,
      "num_tokens": 1276087415.0,
      "step": 7613
    },
    {
      "entropy": 1.6879003842671711,
      "epoch": 0.8364505231935404,
      "grad_norm": 0.7349809408187866,
      "learning_rate": 1.3777498062380622e-05,
      "loss": 1.4567,
      "mean_token_accuracy": 0.661365215977033,
      "num_tokens": 1276239252.0,
      "step": 7614
    },
    {
      "entropy": 1.6400221586227417,
      "epoch": 0.8365603801049134,
      "grad_norm": 0.7023922204971313,
      "learning_rate": 1.3775975043320433e-05,
      "loss": 1.2416,
      "mean_token_accuracy": 0.6837769548098246,
      "num_tokens": 1276403009.0,
      "step": 7615
    },
    {
      "entropy": 1.7130279938379924,
      "epoch": 0.8366702370162863,
      "grad_norm": 0.7748481631278992,
      "learning_rate": 1.3774451936401882e-05,
      "loss": 1.4081,
      "mean_token_accuracy": 0.670517255862554,
      "num_tokens": 1276574324.0,
      "step": 7616
    },
    {
      "entropy": 1.762073000272115,
      "epoch": 0.8367800939276592,
      "grad_norm": 0.7048318386077881,
      "learning_rate": 1.3772928741673184e-05,
      "loss": 1.5452,
      "mean_token_accuracy": 0.6333042333523432,
      "num_tokens": 1276765168.0,
      "step": 7617
    },
    {
      "entropy": 1.6817299922307332,
      "epoch": 0.8368899508390322,
      "grad_norm": 0.6088959574699402,
      "learning_rate": 1.3771405459182536e-05,
      "loss": 1.3579,
      "mean_token_accuracy": 0.6705379237731298,
      "num_tokens": 1276951991.0,
      "step": 7618
    },
    {
      "entropy": 1.6863965789477031,
      "epoch": 0.8369998077504051,
      "grad_norm": 0.7418268918991089,
      "learning_rate": 1.3769882088978154e-05,
      "loss": 1.2244,
      "mean_token_accuracy": 0.6815223594506582,
      "num_tokens": 1277059043.0,
      "step": 7619
    },
    {
      "entropy": 1.6903445621331532,
      "epoch": 0.837109664661778,
      "grad_norm": 0.6564303636550903,
      "learning_rate": 1.3768358631108254e-05,
      "loss": 1.4957,
      "mean_token_accuracy": 0.6512309859196345,
      "num_tokens": 1277229644.0,
      "step": 7620
    },
    {
      "entropy": 1.7503305276234944,
      "epoch": 0.8372195215731509,
      "grad_norm": 0.6145588159561157,
      "learning_rate": 1.376683508562105e-05,
      "loss": 1.3732,
      "mean_token_accuracy": 0.6656107902526855,
      "num_tokens": 1277367439.0,
      "step": 7621
    },
    {
      "entropy": 1.6609105666478474,
      "epoch": 0.8373293784845239,
      "grad_norm": 0.635491669178009,
      "learning_rate": 1.376531145256476e-05,
      "loss": 1.3981,
      "mean_token_accuracy": 0.6671904375155767,
      "num_tokens": 1277528410.0,
      "step": 7622
    },
    {
      "entropy": 1.6996264060338337,
      "epoch": 0.8374392353958968,
      "grad_norm": 0.6683711409568787,
      "learning_rate": 1.3763787731987614e-05,
      "loss": 1.3574,
      "mean_token_accuracy": 0.6552396714687347,
      "num_tokens": 1277707936.0,
      "step": 7623
    },
    {
      "entropy": 1.7298993468284607,
      "epoch": 0.8375490923072698,
      "grad_norm": 0.7171658873558044,
      "learning_rate": 1.3762263923937829e-05,
      "loss": 1.3435,
      "mean_token_accuracy": 0.6661288539568583,
      "num_tokens": 1277857298.0,
      "step": 7624
    },
    {
      "entropy": 1.6921402116616566,
      "epoch": 0.8376589492186427,
      "grad_norm": 0.6446428894996643,
      "learning_rate": 1.3760740028463632e-05,
      "loss": 1.3402,
      "mean_token_accuracy": 0.6615449984868368,
      "num_tokens": 1277989822.0,
      "step": 7625
    },
    {
      "entropy": 1.6879879732926686,
      "epoch": 0.8377688061300157,
      "grad_norm": 0.6671029925346375,
      "learning_rate": 1.3759216045613262e-05,
      "loss": 1.3044,
      "mean_token_accuracy": 0.6745457847913107,
      "num_tokens": 1278178157.0,
      "step": 7626
    },
    {
      "entropy": 1.6387710173924763,
      "epoch": 0.8378786630413886,
      "grad_norm": 0.5973528027534485,
      "learning_rate": 1.3757691975434949e-05,
      "loss": 1.4271,
      "mean_token_accuracy": 0.6483223338921865,
      "num_tokens": 1278350974.0,
      "step": 7627
    },
    {
      "entropy": 1.726877639691035,
      "epoch": 0.8379885199527616,
      "grad_norm": 0.7956101894378662,
      "learning_rate": 1.375616781797692e-05,
      "loss": 1.3057,
      "mean_token_accuracy": 0.6639814128478368,
      "num_tokens": 1278481024.0,
      "step": 7628
    },
    {
      "entropy": 1.6962241232395172,
      "epoch": 0.8380983768641345,
      "grad_norm": 0.7772151827812195,
      "learning_rate": 1.3754643573287428e-05,
      "loss": 1.3155,
      "mean_token_accuracy": 0.6763526697953542,
      "num_tokens": 1278635659.0,
      "step": 7629
    },
    {
      "entropy": 1.7717609802881877,
      "epoch": 0.8382082337755073,
      "grad_norm": 0.6711469292640686,
      "learning_rate": 1.3753119241414706e-05,
      "loss": 1.3777,
      "mean_token_accuracy": 0.6482406208912531,
      "num_tokens": 1278798975.0,
      "step": 7630
    },
    {
      "entropy": 1.7128020922342937,
      "epoch": 0.8383180906868803,
      "grad_norm": 0.6757957339286804,
      "learning_rate": 1.3751594822407e-05,
      "loss": 1.3464,
      "mean_token_accuracy": 0.6667918612559637,
      "num_tokens": 1278927300.0,
      "step": 7631
    },
    {
      "entropy": 1.7163095275561016,
      "epoch": 0.8384279475982532,
      "grad_norm": 0.6230423450469971,
      "learning_rate": 1.3750070316312559e-05,
      "loss": 1.4484,
      "mean_token_accuracy": 0.6352711419264475,
      "num_tokens": 1279138435.0,
      "step": 7632
    },
    {
      "entropy": 1.7445255815982819,
      "epoch": 0.8385378045096262,
      "grad_norm": 0.6208248734474182,
      "learning_rate": 1.374854572317963e-05,
      "loss": 1.594,
      "mean_token_accuracy": 0.6226391047239304,
      "num_tokens": 1279332164.0,
      "step": 7633
    },
    {
      "entropy": 1.6468991041183472,
      "epoch": 0.8386476614209991,
      "grad_norm": 0.7001860737800598,
      "learning_rate": 1.3747021043056468e-05,
      "loss": 1.4056,
      "mean_token_accuracy": 0.674930676817894,
      "num_tokens": 1279498135.0,
      "step": 7634
    },
    {
      "entropy": 1.7082558274269104,
      "epoch": 0.8387575183323721,
      "grad_norm": 0.6932383179664612,
      "learning_rate": 1.3745496275991328e-05,
      "loss": 1.329,
      "mean_token_accuracy": 0.6606937795877457,
      "num_tokens": 1279642711.0,
      "step": 7635
    },
    {
      "entropy": 1.7408236265182495,
      "epoch": 0.838867375243745,
      "grad_norm": 0.6592848896980286,
      "learning_rate": 1.374397142203247e-05,
      "loss": 1.4983,
      "mean_token_accuracy": 0.6435133467117945,
      "num_tokens": 1279837041.0,
      "step": 7636
    },
    {
      "entropy": 1.6659258703390758,
      "epoch": 0.838977232155118,
      "grad_norm": 0.7573028802871704,
      "learning_rate": 1.3742446481228149e-05,
      "loss": 1.5325,
      "mean_token_accuracy": 0.6281823118527731,
      "num_tokens": 1280043404.0,
      "step": 7637
    },
    {
      "entropy": 1.7001129885514576,
      "epoch": 0.8390870890664909,
      "grad_norm": 0.7068085670471191,
      "learning_rate": 1.3740921453626635e-05,
      "loss": 1.4459,
      "mean_token_accuracy": 0.6530873229106268,
      "num_tokens": 1280220340.0,
      "step": 7638
    },
    {
      "entropy": 1.7399956981341045,
      "epoch": 0.8391969459778639,
      "grad_norm": 0.7076330184936523,
      "learning_rate": 1.3739396339276194e-05,
      "loss": 1.5227,
      "mean_token_accuracy": 0.6424537748098373,
      "num_tokens": 1280364296.0,
      "step": 7639
    },
    {
      "entropy": 1.653020828962326,
      "epoch": 0.8393068028892368,
      "grad_norm": 0.7728797793388367,
      "learning_rate": 1.373787113822509e-05,
      "loss": 1.3846,
      "mean_token_accuracy": 0.6617040187120438,
      "num_tokens": 1280503851.0,
      "step": 7640
    },
    {
      "entropy": 1.7436749835809071,
      "epoch": 0.8394166598006098,
      "grad_norm": 0.7593557238578796,
      "learning_rate": 1.3736345850521602e-05,
      "loss": 1.4094,
      "mean_token_accuracy": 0.6662583450476328,
      "num_tokens": 1280648876.0,
      "step": 7641
    },
    {
      "entropy": 1.7310488323370616,
      "epoch": 0.8395265167119826,
      "grad_norm": 0.6699831485748291,
      "learning_rate": 1.3734820476213997e-05,
      "loss": 1.3641,
      "mean_token_accuracy": 0.6698733866214752,
      "num_tokens": 1280785864.0,
      "step": 7642
    },
    {
      "entropy": 1.6108634571234386,
      "epoch": 0.8396363736233555,
      "grad_norm": 0.667095959186554,
      "learning_rate": 1.3733295015350557e-05,
      "loss": 1.2481,
      "mean_token_accuracy": 0.6830354034900665,
      "num_tokens": 1280910220.0,
      "step": 7643
    },
    {
      "entropy": 1.8118035594622295,
      "epoch": 0.8397462305347285,
      "grad_norm": 0.7681687474250793,
      "learning_rate": 1.373176946797956e-05,
      "loss": 1.476,
      "mean_token_accuracy": 0.6538631469011307,
      "num_tokens": 1281025428.0,
      "step": 7644
    },
    {
      "entropy": 1.7167300780614216,
      "epoch": 0.8398560874461014,
      "grad_norm": 0.5978860259056091,
      "learning_rate": 1.3730243834149295e-05,
      "loss": 1.5872,
      "mean_token_accuracy": 0.6373479117949804,
      "num_tokens": 1281203179.0,
      "step": 7645
    },
    {
      "entropy": 1.613272448380788,
      "epoch": 0.8399659443574744,
      "grad_norm": 0.657454252243042,
      "learning_rate": 1.3728718113908039e-05,
      "loss": 1.3732,
      "mean_token_accuracy": 0.666471059123675,
      "num_tokens": 1281375107.0,
      "step": 7646
    },
    {
      "entropy": 1.699168860912323,
      "epoch": 0.8400758012688473,
      "grad_norm": 0.6724218726158142,
      "learning_rate": 1.3727192307304085e-05,
      "loss": 1.3107,
      "mean_token_accuracy": 0.6698317726453146,
      "num_tokens": 1281502914.0,
      "step": 7647
    },
    {
      "entropy": 1.6800562342007954,
      "epoch": 0.8401856581802203,
      "grad_norm": 0.6762789487838745,
      "learning_rate": 1.3725666414385723e-05,
      "loss": 1.3332,
      "mean_token_accuracy": 0.6533271272977194,
      "num_tokens": 1281663636.0,
      "step": 7648
    },
    {
      "entropy": 1.774364064137141,
      "epoch": 0.8402955150915932,
      "grad_norm": 0.7857850193977356,
      "learning_rate": 1.372414043520125e-05,
      "loss": 1.4153,
      "mean_token_accuracy": 0.6500428368647894,
      "num_tokens": 1281789745.0,
      "step": 7649
    },
    {
      "entropy": 1.7148446440696716,
      "epoch": 0.8404053720029662,
      "grad_norm": 0.650869607925415,
      "learning_rate": 1.3722614369798957e-05,
      "loss": 1.439,
      "mean_token_accuracy": 0.6369368185599645,
      "num_tokens": 1282005721.0,
      "step": 7650
    },
    {
      "entropy": 1.6923074920972188,
      "epoch": 0.840515228914339,
      "grad_norm": 0.7095004916191101,
      "learning_rate": 1.3721088218227148e-05,
      "loss": 1.3425,
      "mean_token_accuracy": 0.6514080464839935,
      "num_tokens": 1282166997.0,
      "step": 7651
    },
    {
      "entropy": 1.6772983868916829,
      "epoch": 0.840625085825712,
      "grad_norm": 0.6236726641654968,
      "learning_rate": 1.3719561980534122e-05,
      "loss": 1.4042,
      "mean_token_accuracy": 0.6637339144945145,
      "num_tokens": 1282356185.0,
      "step": 7652
    },
    {
      "entropy": 1.7177359561125438,
      "epoch": 0.8407349427370849,
      "grad_norm": 0.7458381652832031,
      "learning_rate": 1.3718035656768182e-05,
      "loss": 1.4507,
      "mean_token_accuracy": 0.6659137606620789,
      "num_tokens": 1282520253.0,
      "step": 7653
    },
    {
      "entropy": 1.6357039312521617,
      "epoch": 0.8408447996484579,
      "grad_norm": 0.5765164494514465,
      "learning_rate": 1.3716509246977643e-05,
      "loss": 1.4195,
      "mean_token_accuracy": 0.6570479621489843,
      "num_tokens": 1282709467.0,
      "step": 7654
    },
    {
      "entropy": 1.7260218759377797,
      "epoch": 0.8409546565598308,
      "grad_norm": 0.7507497668266296,
      "learning_rate": 1.3714982751210808e-05,
      "loss": 1.314,
      "mean_token_accuracy": 0.6629079331954321,
      "num_tokens": 1282831662.0,
      "step": 7655
    },
    {
      "entropy": 1.675975243250529,
      "epoch": 0.8410645134712038,
      "grad_norm": 0.7367669343948364,
      "learning_rate": 1.371345616951599e-05,
      "loss": 1.2233,
      "mean_token_accuracy": 0.6800348659356436,
      "num_tokens": 1282976248.0,
      "step": 7656
    },
    {
      "entropy": 1.7002997398376465,
      "epoch": 0.8411743703825767,
      "grad_norm": 0.6870225071907043,
      "learning_rate": 1.3711929501941512e-05,
      "loss": 1.3712,
      "mean_token_accuracy": 0.6616632044315338,
      "num_tokens": 1283105621.0,
      "step": 7657
    },
    {
      "entropy": 1.710231105486552,
      "epoch": 0.8412842272939496,
      "grad_norm": 0.6416940093040466,
      "learning_rate": 1.3710402748535688e-05,
      "loss": 1.3102,
      "mean_token_accuracy": 0.6693031589190165,
      "num_tokens": 1283251344.0,
      "step": 7658
    },
    {
      "entropy": 1.6835933824380238,
      "epoch": 0.8413940842053226,
      "grad_norm": 0.6878907680511475,
      "learning_rate": 1.3708875909346832e-05,
      "loss": 1.4185,
      "mean_token_accuracy": 0.6552811364332835,
      "num_tokens": 1283435304.0,
      "step": 7659
    },
    {
      "entropy": 1.671914945046107,
      "epoch": 0.8415039411166955,
      "grad_norm": 0.6930204033851624,
      "learning_rate": 1.3707348984423277e-05,
      "loss": 1.3017,
      "mean_token_accuracy": 0.6702569822470347,
      "num_tokens": 1283566399.0,
      "step": 7660
    },
    {
      "entropy": 1.6549534698327382,
      "epoch": 0.8416137980280685,
      "grad_norm": 0.6953391432762146,
      "learning_rate": 1.3705821973813352e-05,
      "loss": 1.4282,
      "mean_token_accuracy": 0.6581354439258575,
      "num_tokens": 1283720803.0,
      "step": 7661
    },
    {
      "entropy": 1.735606461763382,
      "epoch": 0.8417236549394413,
      "grad_norm": 0.8534516096115112,
      "learning_rate": 1.3704294877565372e-05,
      "loss": 1.3774,
      "mean_token_accuracy": 0.6662740260362625,
      "num_tokens": 1283849961.0,
      "step": 7662
    },
    {
      "entropy": 1.7239322364330292,
      "epoch": 0.8418335118508143,
      "grad_norm": 0.6426288485527039,
      "learning_rate": 1.3702767695727684e-05,
      "loss": 1.4996,
      "mean_token_accuracy": 0.6409449676672617,
      "num_tokens": 1284040809.0,
      "step": 7663
    },
    {
      "entropy": 1.6683675050735474,
      "epoch": 0.8419433687621872,
      "grad_norm": 0.7720414400100708,
      "learning_rate": 1.3701240428348612e-05,
      "loss": 1.482,
      "mean_token_accuracy": 0.6555820008118948,
      "num_tokens": 1284206147.0,
      "step": 7664
    },
    {
      "entropy": 1.7035513420899708,
      "epoch": 0.8420532256735602,
      "grad_norm": 0.5820039510726929,
      "learning_rate": 1.36997130754765e-05,
      "loss": 1.421,
      "mean_token_accuracy": 0.6452493071556091,
      "num_tokens": 1284370393.0,
      "step": 7665
    },
    {
      "entropy": 1.681229054927826,
      "epoch": 0.8421630825849331,
      "grad_norm": 0.7429522275924683,
      "learning_rate": 1.3698185637159682e-05,
      "loss": 1.235,
      "mean_token_accuracy": 0.6775188346703848,
      "num_tokens": 1284493127.0,
      "step": 7666
    },
    {
      "entropy": 1.7138707240422566,
      "epoch": 0.8422729394963061,
      "grad_norm": 0.5457119345664978,
      "learning_rate": 1.369665811344651e-05,
      "loss": 1.4761,
      "mean_token_accuracy": 0.6490335464477539,
      "num_tokens": 1284771528.0,
      "step": 7667
    },
    {
      "entropy": 1.6924820840358734,
      "epoch": 0.842382796407679,
      "grad_norm": 0.6924734115600586,
      "learning_rate": 1.369513050438532e-05,
      "loss": 1.3606,
      "mean_token_accuracy": 0.6642278035481771,
      "num_tokens": 1284923425.0,
      "step": 7668
    },
    {
      "entropy": 1.6925741334756215,
      "epoch": 0.842492653319052,
      "grad_norm": 0.6529973745346069,
      "learning_rate": 1.3693602810024466e-05,
      "loss": 1.2482,
      "mean_token_accuracy": 0.6726948221524557,
      "num_tokens": 1285060828.0,
      "step": 7669
    },
    {
      "entropy": 1.6858268876870472,
      "epoch": 0.8426025102304249,
      "grad_norm": 0.649381160736084,
      "learning_rate": 1.3692075030412295e-05,
      "loss": 1.462,
      "mean_token_accuracy": 0.6515221893787384,
      "num_tokens": 1285247826.0,
      "step": 7670
    },
    {
      "entropy": 1.7777485251426697,
      "epoch": 0.8427123671417978,
      "grad_norm": 0.713453471660614,
      "learning_rate": 1.3690547165597166e-05,
      "loss": 1.4854,
      "mean_token_accuracy": 0.643087034424146,
      "num_tokens": 1285378746.0,
      "step": 7671
    },
    {
      "entropy": 1.6306644082069397,
      "epoch": 0.8428222240531708,
      "grad_norm": 0.6652552485466003,
      "learning_rate": 1.3689019215627428e-05,
      "loss": 1.3156,
      "mean_token_accuracy": 0.671681821346283,
      "num_tokens": 1285560412.0,
      "step": 7672
    },
    {
      "entropy": 1.7075538237889607,
      "epoch": 0.8429320809645436,
      "grad_norm": 0.7357656359672546,
      "learning_rate": 1.3687491180551447e-05,
      "loss": 1.4037,
      "mean_token_accuracy": 0.6523735970258713,
      "num_tokens": 1285702229.0,
      "step": 7673
    },
    {
      "entropy": 1.7711325983206432,
      "epoch": 0.8430419378759166,
      "grad_norm": 0.686625599861145,
      "learning_rate": 1.3685963060417576e-05,
      "loss": 1.4509,
      "mean_token_accuracy": 0.6421075165271759,
      "num_tokens": 1285900255.0,
      "step": 7674
    },
    {
      "entropy": 1.6846754550933838,
      "epoch": 0.8431517947872895,
      "grad_norm": 0.7092203497886658,
      "learning_rate": 1.3684434855274189e-05,
      "loss": 1.2795,
      "mean_token_accuracy": 0.6742515216271082,
      "num_tokens": 1286027859.0,
      "step": 7675
    },
    {
      "entropy": 1.6374373237291973,
      "epoch": 0.8432616516986625,
      "grad_norm": 0.6417721509933472,
      "learning_rate": 1.3682906565169646e-05,
      "loss": 1.3225,
      "mean_token_accuracy": 0.6675249536832174,
      "num_tokens": 1286181159.0,
      "step": 7676
    },
    {
      "entropy": 1.6539149185021718,
      "epoch": 0.8433715086100354,
      "grad_norm": 0.6134423017501831,
      "learning_rate": 1.3681378190152321e-05,
      "loss": 1.4416,
      "mean_token_accuracy": 0.6583320200443268,
      "num_tokens": 1286380359.0,
      "step": 7677
    },
    {
      "entropy": 1.7651469906171162,
      "epoch": 0.8434813655214084,
      "grad_norm": 0.6425126791000366,
      "learning_rate": 1.3679849730270582e-05,
      "loss": 1.4183,
      "mean_token_accuracy": 0.6462546785672506,
      "num_tokens": 1286545480.0,
      "step": 7678
    },
    {
      "entropy": 1.6872264842192333,
      "epoch": 0.8435912224327813,
      "grad_norm": 0.6594815254211426,
      "learning_rate": 1.367832118557281e-05,
      "loss": 1.3546,
      "mean_token_accuracy": 0.6645703117052714,
      "num_tokens": 1286686590.0,
      "step": 7679
    },
    {
      "entropy": 1.7343334058920543,
      "epoch": 0.8437010793441543,
      "grad_norm": 0.7362040877342224,
      "learning_rate": 1.3676792556107376e-05,
      "loss": 1.3422,
      "mean_token_accuracy": 0.667659322420756,
      "num_tokens": 1286859906.0,
      "step": 7680
    },
    {
      "entropy": 1.7099198997020721,
      "epoch": 0.8438109362555272,
      "grad_norm": 0.6804381608963013,
      "learning_rate": 1.3675263841922665e-05,
      "loss": 1.643,
      "mean_token_accuracy": 0.6239674588044485,
      "num_tokens": 1287079553.0,
      "step": 7681
    },
    {
      "entropy": 1.7008231182893117,
      "epoch": 0.8439207931669002,
      "grad_norm": 0.7834773063659668,
      "learning_rate": 1.367373504306706e-05,
      "loss": 1.3961,
      "mean_token_accuracy": 0.6471186677614847,
      "num_tokens": 1287215979.0,
      "step": 7682
    },
    {
      "entropy": 1.7217775185902913,
      "epoch": 0.844030650078273,
      "grad_norm": 0.6311613917350769,
      "learning_rate": 1.3672206159588945e-05,
      "loss": 1.4119,
      "mean_token_accuracy": 0.6476258685191473,
      "num_tokens": 1287372294.0,
      "step": 7683
    },
    {
      "entropy": 1.7093331813812256,
      "epoch": 0.8441405069896459,
      "grad_norm": 2.1464595794677734,
      "learning_rate": 1.3670677191536707e-05,
      "loss": 1.2492,
      "mean_token_accuracy": 0.664307658871015,
      "num_tokens": 1287584672.0,
      "step": 7684
    },
    {
      "entropy": 1.7259198725223541,
      "epoch": 0.8442503639010189,
      "grad_norm": 0.6909459829330444,
      "learning_rate": 1.3669148138958744e-05,
      "loss": 1.4728,
      "mean_token_accuracy": 0.6467719525098801,
      "num_tokens": 1287755964.0,
      "step": 7685
    },
    {
      "entropy": 1.72645503282547,
      "epoch": 0.8443602208123918,
      "grad_norm": 0.6276677846908569,
      "learning_rate": 1.3667619001903442e-05,
      "loss": 1.4365,
      "mean_token_accuracy": 0.6519429683685303,
      "num_tokens": 1287962476.0,
      "step": 7686
    },
    {
      "entropy": 1.7283104161421459,
      "epoch": 0.8444700777237648,
      "grad_norm": 0.7658132314682007,
      "learning_rate": 1.3666089780419201e-05,
      "loss": 1.497,
      "mean_token_accuracy": 0.6409247318903605,
      "num_tokens": 1288111416.0,
      "step": 7687
    },
    {
      "entropy": 1.6543226341406505,
      "epoch": 0.8445799346351377,
      "grad_norm": 0.686872124671936,
      "learning_rate": 1.3664560474554419e-05,
      "loss": 1.4009,
      "mean_token_accuracy": 0.655271073182424,
      "num_tokens": 1288308554.0,
      "step": 7688
    },
    {
      "entropy": 1.6488666733105977,
      "epoch": 0.8446897915465107,
      "grad_norm": 0.6725640296936035,
      "learning_rate": 1.3663031084357501e-05,
      "loss": 1.3845,
      "mean_token_accuracy": 0.658675899108251,
      "num_tokens": 1288486606.0,
      "step": 7689
    },
    {
      "entropy": 1.7219010492165883,
      "epoch": 0.8447996484578836,
      "grad_norm": 0.6540157794952393,
      "learning_rate": 1.3661501609876847e-05,
      "loss": 1.3808,
      "mean_token_accuracy": 0.6512012432018915,
      "num_tokens": 1288658497.0,
      "step": 7690
    },
    {
      "entropy": 1.7627086639404297,
      "epoch": 0.8449095053692566,
      "grad_norm": 0.7566828727722168,
      "learning_rate": 1.3659972051160868e-05,
      "loss": 1.4124,
      "mean_token_accuracy": 0.6677108506361643,
      "num_tokens": 1288811315.0,
      "step": 7691
    },
    {
      "entropy": 1.7626505196094513,
      "epoch": 0.8450193622806295,
      "grad_norm": 0.6381642818450928,
      "learning_rate": 1.3658442408257972e-05,
      "loss": 1.4573,
      "mean_token_accuracy": 0.6391281684239706,
      "num_tokens": 1289035418.0,
      "step": 7692
    },
    {
      "entropy": 1.731861154238383,
      "epoch": 0.8451292191920025,
      "grad_norm": 0.6614934802055359,
      "learning_rate": 1.365691268121657e-05,
      "loss": 1.4221,
      "mean_token_accuracy": 0.6379889895518621,
      "num_tokens": 1289211468.0,
      "step": 7693
    },
    {
      "entropy": 1.737843285004298,
      "epoch": 0.8452390761033753,
      "grad_norm": 0.6590113043785095,
      "learning_rate": 1.3655382870085078e-05,
      "loss": 1.4666,
      "mean_token_accuracy": 0.6468397031227747,
      "num_tokens": 1289389121.0,
      "step": 7694
    },
    {
      "entropy": 1.723410467306773,
      "epoch": 0.8453489330147483,
      "grad_norm": 0.7802287936210632,
      "learning_rate": 1.3653852974911919e-05,
      "loss": 1.4251,
      "mean_token_accuracy": 0.6476560135682424,
      "num_tokens": 1289559256.0,
      "step": 7695
    },
    {
      "entropy": 1.7518675525983174,
      "epoch": 0.8454587899261212,
      "grad_norm": 0.7318578958511353,
      "learning_rate": 1.3652322995745504e-05,
      "loss": 1.2606,
      "mean_token_accuracy": 0.6652724295854568,
      "num_tokens": 1289658783.0,
      "step": 7696
    },
    {
      "entropy": 1.749257892370224,
      "epoch": 0.8455686468374941,
      "grad_norm": 0.7955240607261658,
      "learning_rate": 1.3650792932634268e-05,
      "loss": 1.2613,
      "mean_token_accuracy": 0.6822487364212672,
      "num_tokens": 1289795148.0,
      "step": 7697
    },
    {
      "entropy": 1.7356181144714355,
      "epoch": 0.8456785037488671,
      "grad_norm": 0.7357754707336426,
      "learning_rate": 1.3649262785626624e-05,
      "loss": 1.5575,
      "mean_token_accuracy": 0.6548448453346888,
      "num_tokens": 1289948148.0,
      "step": 7698
    },
    {
      "entropy": 1.7077325284481049,
      "epoch": 0.84578836066024,
      "grad_norm": 0.7098826169967651,
      "learning_rate": 1.3647732554771009e-05,
      "loss": 1.502,
      "mean_token_accuracy": 0.6426471124092737,
      "num_tokens": 1290138416.0,
      "step": 7699
    },
    {
      "entropy": 1.735207627216975,
      "epoch": 0.845898217571613,
      "grad_norm": 0.6340279579162598,
      "learning_rate": 1.3646202240115852e-05,
      "loss": 1.3897,
      "mean_token_accuracy": 0.6579069246848425,
      "num_tokens": 1290340173.0,
      "step": 7700
    },
    {
      "entropy": 1.6785156230131786,
      "epoch": 0.8460080744829859,
      "grad_norm": 0.8312824964523315,
      "learning_rate": 1.3644671841709586e-05,
      "loss": 1.2704,
      "mean_token_accuracy": 0.6747389038403829,
      "num_tokens": 1290456610.0,
      "step": 7701
    },
    {
      "entropy": 1.6480493446191151,
      "epoch": 0.8461179313943589,
      "grad_norm": 0.6698850989341736,
      "learning_rate": 1.3643141359600647e-05,
      "loss": 1.267,
      "mean_token_accuracy": 0.6753464639186859,
      "num_tokens": 1290626267.0,
      "step": 7702
    },
    {
      "entropy": 1.7196992834409077,
      "epoch": 0.8462277883057318,
      "grad_norm": 0.7034914493560791,
      "learning_rate": 1.3641610793837478e-05,
      "loss": 1.4121,
      "mean_token_accuracy": 0.6590729554494222,
      "num_tokens": 1290772213.0,
      "step": 7703
    },
    {
      "entropy": 1.7197033961613972,
      "epoch": 0.8463376452171048,
      "grad_norm": 0.6949339509010315,
      "learning_rate": 1.3640080144468515e-05,
      "loss": 1.3447,
      "mean_token_accuracy": 0.6591121902068456,
      "num_tokens": 1290899259.0,
      "step": 7704
    },
    {
      "entropy": 1.7233955065409343,
      "epoch": 0.8464475021284776,
      "grad_norm": 0.7986577749252319,
      "learning_rate": 1.3638549411542205e-05,
      "loss": 1.4605,
      "mean_token_accuracy": 0.660988504687945,
      "num_tokens": 1291113194.0,
      "step": 7705
    },
    {
      "entropy": 1.6643975575764973,
      "epoch": 0.8465573590398506,
      "grad_norm": 0.6427856683731079,
      "learning_rate": 1.3637018595106996e-05,
      "loss": 1.4165,
      "mean_token_accuracy": 0.6534582326809565,
      "num_tokens": 1291263837.0,
      "step": 7706
    },
    {
      "entropy": 1.7111331125100453,
      "epoch": 0.8466672159512235,
      "grad_norm": 0.7272197008132935,
      "learning_rate": 1.3635487695211337e-05,
      "loss": 1.3851,
      "mean_token_accuracy": 0.6659311503171921,
      "num_tokens": 1291412707.0,
      "step": 7707
    },
    {
      "entropy": 1.7255754868189495,
      "epoch": 0.8467770728625965,
      "grad_norm": 0.6733617782592773,
      "learning_rate": 1.3633956711903682e-05,
      "loss": 1.4219,
      "mean_token_accuracy": 0.6492577840884527,
      "num_tokens": 1291572306.0,
      "step": 7708
    },
    {
      "entropy": 1.7116366227467854,
      "epoch": 0.8468869297739694,
      "grad_norm": 0.6349593997001648,
      "learning_rate": 1.363242564523248e-05,
      "loss": 1.4648,
      "mean_token_accuracy": 0.6612848242123922,
      "num_tokens": 1291738907.0,
      "step": 7709
    },
    {
      "entropy": 1.782869964838028,
      "epoch": 0.8469967866853424,
      "grad_norm": 0.8094156384468079,
      "learning_rate": 1.3630894495246194e-05,
      "loss": 1.3299,
      "mean_token_accuracy": 0.6685720980167389,
      "num_tokens": 1291866880.0,
      "step": 7710
    },
    {
      "entropy": 1.6088589231173198,
      "epoch": 0.8471066435967153,
      "grad_norm": 1.1662250757217407,
      "learning_rate": 1.3629363261993285e-05,
      "loss": 1.2702,
      "mean_token_accuracy": 0.6650574405988058,
      "num_tokens": 1292039473.0,
      "step": 7711
    },
    {
      "entropy": 1.7531055708726246,
      "epoch": 0.8472165005080882,
      "grad_norm": 0.680927038192749,
      "learning_rate": 1.362783194552221e-05,
      "loss": 1.4834,
      "mean_token_accuracy": 0.6375831713279089,
      "num_tokens": 1292229376.0,
      "step": 7712
    },
    {
      "entropy": 1.694258709748586,
      "epoch": 0.8473263574194612,
      "grad_norm": 0.7578868865966797,
      "learning_rate": 1.3626300545881442e-05,
      "loss": 1.2226,
      "mean_token_accuracy": 0.6796438743670782,
      "num_tokens": 1292349842.0,
      "step": 7713
    },
    {
      "entropy": 1.6762607991695404,
      "epoch": 0.847436214330834,
      "grad_norm": 0.6741758584976196,
      "learning_rate": 1.362476906311944e-05,
      "loss": 1.4122,
      "mean_token_accuracy": 0.6557339429855347,
      "num_tokens": 1292545481.0,
      "step": 7714
    },
    {
      "entropy": 1.7098297476768494,
      "epoch": 0.847546071242207,
      "grad_norm": 0.6798667907714844,
      "learning_rate": 1.3623237497284683e-05,
      "loss": 1.4471,
      "mean_token_accuracy": 0.6456852555274963,
      "num_tokens": 1292734742.0,
      "step": 7715
    },
    {
      "entropy": 1.7433710793654125,
      "epoch": 0.8476559281535799,
      "grad_norm": 0.7019221186637878,
      "learning_rate": 1.3621705848425641e-05,
      "loss": 1.4745,
      "mean_token_accuracy": 0.6478450198968252,
      "num_tokens": 1292893188.0,
      "step": 7716
    },
    {
      "entropy": 1.731772820154826,
      "epoch": 0.8477657850649529,
      "grad_norm": 0.7611411213874817,
      "learning_rate": 1.3620174116590791e-05,
      "loss": 1.3669,
      "mean_token_accuracy": 0.6490048070748647,
      "num_tokens": 1293055710.0,
      "step": 7717
    },
    {
      "entropy": 1.7181940376758575,
      "epoch": 0.8478756419763258,
      "grad_norm": 0.8934732675552368,
      "learning_rate": 1.361864230182861e-05,
      "loss": 1.5196,
      "mean_token_accuracy": 0.6444053202867508,
      "num_tokens": 1293253973.0,
      "step": 7718
    },
    {
      "entropy": 1.685392697652181,
      "epoch": 0.8479854988876988,
      "grad_norm": 0.6858906149864197,
      "learning_rate": 1.361711040418758e-05,
      "loss": 1.2893,
      "mean_token_accuracy": 0.6633900205294291,
      "num_tokens": 1293387605.0,
      "step": 7719
    },
    {
      "entropy": 1.713352640469869,
      "epoch": 0.8480953557990717,
      "grad_norm": 0.6775051355361938,
      "learning_rate": 1.3615578423716187e-05,
      "loss": 1.513,
      "mean_token_accuracy": 0.6740926851828893,
      "num_tokens": 1293564698.0,
      "step": 7720
    },
    {
      "entropy": 1.767835130294164,
      "epoch": 0.8482052127104447,
      "grad_norm": 0.6613144278526306,
      "learning_rate": 1.3614046360462912e-05,
      "loss": 1.5051,
      "mean_token_accuracy": 0.6474483261505762,
      "num_tokens": 1293727382.0,
      "step": 7721
    },
    {
      "entropy": 1.7436497310797374,
      "epoch": 0.8483150696218176,
      "grad_norm": 0.6383576989173889,
      "learning_rate": 1.3612514214476249e-05,
      "loss": 1.2954,
      "mean_token_accuracy": 0.6786330391963323,
      "num_tokens": 1293878593.0,
      "step": 7722
    },
    {
      "entropy": 1.7230326632658641,
      "epoch": 0.8484249265331906,
      "grad_norm": 0.7083463668823242,
      "learning_rate": 1.361098198580469e-05,
      "loss": 1.3808,
      "mean_token_accuracy": 0.6482375711202621,
      "num_tokens": 1294025781.0,
      "step": 7723
    },
    {
      "entropy": 1.7545043329397838,
      "epoch": 0.8485347834445635,
      "grad_norm": 0.5937564969062805,
      "learning_rate": 1.3609449674496726e-05,
      "loss": 1.501,
      "mean_token_accuracy": 0.6370914578437805,
      "num_tokens": 1294227008.0,
      "step": 7724
    },
    {
      "entropy": 1.700508326292038,
      "epoch": 0.8486446403559363,
      "grad_norm": 0.8746032118797302,
      "learning_rate": 1.3607917280600855e-05,
      "loss": 1.3259,
      "mean_token_accuracy": 0.6724284738302231,
      "num_tokens": 1294393254.0,
      "step": 7725
    },
    {
      "entropy": 1.661549021800359,
      "epoch": 0.8487544972673093,
      "grad_norm": 0.7372915744781494,
      "learning_rate": 1.360638480416558e-05,
      "loss": 1.4659,
      "mean_token_accuracy": 0.6515500744183859,
      "num_tokens": 1294571064.0,
      "step": 7726
    },
    {
      "entropy": 1.7442650695641835,
      "epoch": 0.8488643541786822,
      "grad_norm": 0.6306323409080505,
      "learning_rate": 1.3604852245239397e-05,
      "loss": 1.5477,
      "mean_token_accuracy": 0.6327639867862066,
      "num_tokens": 1294744598.0,
      "step": 7727
    },
    {
      "entropy": 1.712537129720052,
      "epoch": 0.8489742110900552,
      "grad_norm": 0.7366087436676025,
      "learning_rate": 1.3603319603870818e-05,
      "loss": 1.3154,
      "mean_token_accuracy": 0.67984339594841,
      "num_tokens": 1294886218.0,
      "step": 7728
    },
    {
      "entropy": 1.7154980301856995,
      "epoch": 0.8490840680014281,
      "grad_norm": 0.8025618195533752,
      "learning_rate": 1.3601786880108343e-05,
      "loss": 1.5105,
      "mean_token_accuracy": 0.6657672872145971,
      "num_tokens": 1295017541.0,
      "step": 7729
    },
    {
      "entropy": 1.711490790049235,
      "epoch": 0.8491939249128011,
      "grad_norm": 0.6536463499069214,
      "learning_rate": 1.3600254074000488e-05,
      "loss": 1.4221,
      "mean_token_accuracy": 0.6637669056653976,
      "num_tokens": 1295227688.0,
      "step": 7730
    },
    {
      "entropy": 1.6762659549713135,
      "epoch": 0.849303781824174,
      "grad_norm": 0.7155306339263916,
      "learning_rate": 1.359872118559576e-05,
      "loss": 1.3234,
      "mean_token_accuracy": 0.6701004455486933,
      "num_tokens": 1295379203.0,
      "step": 7731
    },
    {
      "entropy": 1.6928722262382507,
      "epoch": 0.849413638735547,
      "grad_norm": 0.7518654465675354,
      "learning_rate": 1.359718821494268e-05,
      "loss": 1.5937,
      "mean_token_accuracy": 0.6596247951189677,
      "num_tokens": 1295542003.0,
      "step": 7732
    },
    {
      "entropy": 1.6721904973189037,
      "epoch": 0.8495234956469199,
      "grad_norm": 0.7368571758270264,
      "learning_rate": 1.3595655162089763e-05,
      "loss": 1.4228,
      "mean_token_accuracy": 0.6764175544182459,
      "num_tokens": 1295695454.0,
      "step": 7733
    },
    {
      "entropy": 1.7590387463569641,
      "epoch": 0.8496333525582929,
      "grad_norm": 0.7963206768035889,
      "learning_rate": 1.359412202708553e-05,
      "loss": 1.4675,
      "mean_token_accuracy": 0.647629976272583,
      "num_tokens": 1295827314.0,
      "step": 7734
    },
    {
      "entropy": 1.731603890657425,
      "epoch": 0.8497432094696658,
      "grad_norm": 0.6758211851119995,
      "learning_rate": 1.3592588809978506e-05,
      "loss": 1.3838,
      "mean_token_accuracy": 0.659120092789332,
      "num_tokens": 1295996986.0,
      "step": 7735
    },
    {
      "entropy": 1.6921556492646534,
      "epoch": 0.8498530663810387,
      "grad_norm": 0.5895377993583679,
      "learning_rate": 1.3591055510817213e-05,
      "loss": 1.3931,
      "mean_token_accuracy": 0.652939553062121,
      "num_tokens": 1296164645.0,
      "step": 7736
    },
    {
      "entropy": 1.6915649970372517,
      "epoch": 0.8499629232924116,
      "grad_norm": 0.7645225524902344,
      "learning_rate": 1.358952212965018e-05,
      "loss": 1.3265,
      "mean_token_accuracy": 0.6632872621218363,
      "num_tokens": 1296327910.0,
      "step": 7737
    },
    {
      "entropy": 1.7159571647644043,
      "epoch": 0.8500727802037845,
      "grad_norm": 0.7446976900100708,
      "learning_rate": 1.3587988666525935e-05,
      "loss": 1.4285,
      "mean_token_accuracy": 0.6510045429070791,
      "num_tokens": 1296466186.0,
      "step": 7738
    },
    {
      "entropy": 1.6824923356374104,
      "epoch": 0.8501826371151575,
      "grad_norm": 0.6190294027328491,
      "learning_rate": 1.358645512149302e-05,
      "loss": 1.4375,
      "mean_token_accuracy": 0.6470278948545456,
      "num_tokens": 1296637794.0,
      "step": 7739
    },
    {
      "entropy": 1.7388030588626862,
      "epoch": 0.8502924940265304,
      "grad_norm": 0.7785733938217163,
      "learning_rate": 1.3584921494599963e-05,
      "loss": 1.3741,
      "mean_token_accuracy": 0.657695472240448,
      "num_tokens": 1296760052.0,
      "step": 7740
    },
    {
      "entropy": 1.7327676912148793,
      "epoch": 0.8504023509379034,
      "grad_norm": 0.7766647338867188,
      "learning_rate": 1.3583387785895307e-05,
      "loss": 1.2975,
      "mean_token_accuracy": 0.673372263709704,
      "num_tokens": 1296869236.0,
      "step": 7741
    },
    {
      "entropy": 1.718622773885727,
      "epoch": 0.8505122078492763,
      "grad_norm": 0.690539538860321,
      "learning_rate": 1.3581853995427591e-05,
      "loss": 1.3776,
      "mean_token_accuracy": 0.6660670936107635,
      "num_tokens": 1297011769.0,
      "step": 7742
    },
    {
      "entropy": 1.6976758639017742,
      "epoch": 0.8506220647606493,
      "grad_norm": 0.6688826084136963,
      "learning_rate": 1.3580320123245361e-05,
      "loss": 1.3505,
      "mean_token_accuracy": 0.6525122026602427,
      "num_tokens": 1297178554.0,
      "step": 7743
    },
    {
      "entropy": 1.691978245973587,
      "epoch": 0.8507319216720222,
      "grad_norm": 0.6021746397018433,
      "learning_rate": 1.3578786169397158e-05,
      "loss": 1.3599,
      "mean_token_accuracy": 0.6527169843514761,
      "num_tokens": 1297364819.0,
      "step": 7744
    },
    {
      "entropy": 1.6742048561573029,
      "epoch": 0.8508417785833952,
      "grad_norm": 0.8681425452232361,
      "learning_rate": 1.357725213393154e-05,
      "loss": 1.2843,
      "mean_token_accuracy": 0.6764674683411916,
      "num_tokens": 1297516573.0,
      "step": 7745
    },
    {
      "entropy": 1.7442771196365356,
      "epoch": 0.850951635494768,
      "grad_norm": 0.6213224530220032,
      "learning_rate": 1.3575718016897046e-05,
      "loss": 1.4259,
      "mean_token_accuracy": 0.6503079384565353,
      "num_tokens": 1297672956.0,
      "step": 7746
    },
    {
      "entropy": 1.7606963614622753,
      "epoch": 0.851061492406141,
      "grad_norm": 0.7436356544494629,
      "learning_rate": 1.3574183818342245e-05,
      "loss": 1.3349,
      "mean_token_accuracy": 0.6708455085754395,
      "num_tokens": 1297818809.0,
      "step": 7747
    },
    {
      "entropy": 1.672513614098231,
      "epoch": 0.8511713493175139,
      "grad_norm": 0.73287034034729,
      "learning_rate": 1.3572649538315683e-05,
      "loss": 1.3939,
      "mean_token_accuracy": 0.6704998711744944,
      "num_tokens": 1297980662.0,
      "step": 7748
    },
    {
      "entropy": 1.7294066945711772,
      "epoch": 0.8512812062288869,
      "grad_norm": 0.6251292824745178,
      "learning_rate": 1.3571115176865923e-05,
      "loss": 1.542,
      "mean_token_accuracy": 0.643743579586347,
      "num_tokens": 1298143653.0,
      "step": 7749
    },
    {
      "entropy": 1.6557518442471821,
      "epoch": 0.8513910631402598,
      "grad_norm": 0.6958547830581665,
      "learning_rate": 1.3569580734041524e-05,
      "loss": 1.3905,
      "mean_token_accuracy": 0.6798481444517771,
      "num_tokens": 1298331907.0,
      "step": 7750
    },
    {
      "entropy": 1.6850103636582692,
      "epoch": 0.8515009200516328,
      "grad_norm": 0.7102126479148865,
      "learning_rate": 1.3568046209891055e-05,
      "loss": 1.2097,
      "mean_token_accuracy": 0.6820806463559469,
      "num_tokens": 1298488338.0,
      "step": 7751
    },
    {
      "entropy": 1.7033019761244457,
      "epoch": 0.8516107769630057,
      "grad_norm": 0.639173686504364,
      "learning_rate": 1.356651160446308e-05,
      "loss": 1.4144,
      "mean_token_accuracy": 0.6469381103912989,
      "num_tokens": 1298684159.0,
      "step": 7752
    },
    {
      "entropy": 1.7016167442003887,
      "epoch": 0.8517206338743786,
      "grad_norm": 0.9110562801361084,
      "learning_rate": 1.356497691780617e-05,
      "loss": 1.7517,
      "mean_token_accuracy": 0.6370747834444046,
      "num_tokens": 1298844311.0,
      "step": 7753
    },
    {
      "entropy": 1.6738309760888417,
      "epoch": 0.8518304907857516,
      "grad_norm": 0.7459472417831421,
      "learning_rate": 1.3563442149968896e-05,
      "loss": 1.3617,
      "mean_token_accuracy": 0.6658263305823008,
      "num_tokens": 1298991771.0,
      "step": 7754
    },
    {
      "entropy": 1.6745908459027607,
      "epoch": 0.8519403476971245,
      "grad_norm": 0.8173218369483948,
      "learning_rate": 1.356190730099983e-05,
      "loss": 1.3996,
      "mean_token_accuracy": 0.6685936997334162,
      "num_tokens": 1299145840.0,
      "step": 7755
    },
    {
      "entropy": 1.7424539625644684,
      "epoch": 0.8520502046084975,
      "grad_norm": 0.6466085314750671,
      "learning_rate": 1.3560372370947557e-05,
      "loss": 1.3801,
      "mean_token_accuracy": 0.6733126441637675,
      "num_tokens": 1299315556.0,
      "step": 7756
    },
    {
      "entropy": 1.6781065960725148,
      "epoch": 0.8521600615198703,
      "grad_norm": 0.6531357765197754,
      "learning_rate": 1.3558837359860651e-05,
      "loss": 1.3956,
      "mean_token_accuracy": 0.6521165718634924,
      "num_tokens": 1299491636.0,
      "step": 7757
    },
    {
      "entropy": 1.7538845141728718,
      "epoch": 0.8522699184312433,
      "grad_norm": 0.6810640692710876,
      "learning_rate": 1.3557302267787691e-05,
      "loss": 1.5143,
      "mean_token_accuracy": 0.6484838575124741,
      "num_tokens": 1299682671.0,
      "step": 7758
    },
    {
      "entropy": 1.734057645003001,
      "epoch": 0.8523797753426162,
      "grad_norm": 0.6916408538818359,
      "learning_rate": 1.3555767094777272e-05,
      "loss": 1.3975,
      "mean_token_accuracy": 0.6555085331201553,
      "num_tokens": 1299884491.0,
      "step": 7759
    },
    {
      "entropy": 1.7141314844290416,
      "epoch": 0.8524896322539892,
      "grad_norm": 0.6095522046089172,
      "learning_rate": 1.3554231840877973e-05,
      "loss": 1.3404,
      "mean_token_accuracy": 0.653201217452685,
      "num_tokens": 1300048240.0,
      "step": 7760
    },
    {
      "entropy": 1.73670361439387,
      "epoch": 0.8525994891653621,
      "grad_norm": 0.615277111530304,
      "learning_rate": 1.355269650613839e-05,
      "loss": 1.3983,
      "mean_token_accuracy": 0.653611977895101,
      "num_tokens": 1300238035.0,
      "step": 7761
    },
    {
      "entropy": 1.7244941194852192,
      "epoch": 0.8527093460767351,
      "grad_norm": 0.689967155456543,
      "learning_rate": 1.3551161090607113e-05,
      "loss": 1.3408,
      "mean_token_accuracy": 0.668989489475886,
      "num_tokens": 1300408112.0,
      "step": 7762
    },
    {
      "entropy": 1.7187703053156536,
      "epoch": 0.852819202988108,
      "grad_norm": 0.7365146279335022,
      "learning_rate": 1.3549625594332734e-05,
      "loss": 1.4606,
      "mean_token_accuracy": 0.6453435768683752,
      "num_tokens": 1300635927.0,
      "step": 7763
    },
    {
      "entropy": 1.7673336962858837,
      "epoch": 0.852929059899481,
      "grad_norm": 0.7960333824157715,
      "learning_rate": 1.3548090017363853e-05,
      "loss": 1.3389,
      "mean_token_accuracy": 0.658059557278951,
      "num_tokens": 1300768798.0,
      "step": 7764
    },
    {
      "entropy": 1.7308455010255177,
      "epoch": 0.8530389168108539,
      "grad_norm": 0.6843191385269165,
      "learning_rate": 1.3546554359749078e-05,
      "loss": 1.3368,
      "mean_token_accuracy": 0.6665947139263153,
      "num_tokens": 1300927812.0,
      "step": 7765
    },
    {
      "entropy": 1.708117683728536,
      "epoch": 0.8531487737222267,
      "grad_norm": 0.7319220900535583,
      "learning_rate": 1.3545018621537e-05,
      "loss": 1.4025,
      "mean_token_accuracy": 0.6578193108240763,
      "num_tokens": 1301110237.0,
      "step": 7766
    },
    {
      "entropy": 1.7092965046564739,
      "epoch": 0.8532586306335997,
      "grad_norm": 0.7056390047073364,
      "learning_rate": 1.354348280277623e-05,
      "loss": 1.4762,
      "mean_token_accuracy": 0.645611047744751,
      "num_tokens": 1301280209.0,
      "step": 7767
    },
    {
      "entropy": 1.6814217766125996,
      "epoch": 0.8533684875449726,
      "grad_norm": 0.6106694936752319,
      "learning_rate": 1.3541946903515373e-05,
      "loss": 1.4101,
      "mean_token_accuracy": 0.6508079369862875,
      "num_tokens": 1301471786.0,
      "step": 7768
    },
    {
      "entropy": 1.7410283883412678,
      "epoch": 0.8534783444563456,
      "grad_norm": 0.5932704210281372,
      "learning_rate": 1.3540410923803047e-05,
      "loss": 1.322,
      "mean_token_accuracy": 0.65825983385245,
      "num_tokens": 1301608122.0,
      "step": 7769
    },
    {
      "entropy": 1.654642830292384,
      "epoch": 0.8535882013677185,
      "grad_norm": 0.6340963840484619,
      "learning_rate": 1.3538874863687857e-05,
      "loss": 1.3904,
      "mean_token_accuracy": 0.6750276188055674,
      "num_tokens": 1301774068.0,
      "step": 7770
    },
    {
      "entropy": 1.8286733229955037,
      "epoch": 0.8536980582790915,
      "grad_norm": 0.8947479128837585,
      "learning_rate": 1.353733872321842e-05,
      "loss": 1.4883,
      "mean_token_accuracy": 0.6447364389896393,
      "num_tokens": 1301942077.0,
      "step": 7771
    },
    {
      "entropy": 1.734379122654597,
      "epoch": 0.8538079151904644,
      "grad_norm": 0.7082586884498596,
      "learning_rate": 1.3535802502443358e-05,
      "loss": 1.424,
      "mean_token_accuracy": 0.6567316949367523,
      "num_tokens": 1302111046.0,
      "step": 7772
    },
    {
      "entropy": 1.7233747939268749,
      "epoch": 0.8539177721018374,
      "grad_norm": 0.7988469004631042,
      "learning_rate": 1.353426620141129e-05,
      "loss": 1.2831,
      "mean_token_accuracy": 0.6733775039513906,
      "num_tokens": 1302216832.0,
      "step": 7773
    },
    {
      "entropy": 1.6604902148246765,
      "epoch": 0.8540276290132103,
      "grad_norm": 0.780096173286438,
      "learning_rate": 1.3532729820170835e-05,
      "loss": 1.2723,
      "mean_token_accuracy": 0.6720686207214991,
      "num_tokens": 1302337836.0,
      "step": 7774
    },
    {
      "entropy": 1.6743205388387044,
      "epoch": 0.8541374859245833,
      "grad_norm": 0.9057300090789795,
      "learning_rate": 1.353119335877063e-05,
      "loss": 1.4191,
      "mean_token_accuracy": 0.6672864605983099,
      "num_tokens": 1302489417.0,
      "step": 7775
    },
    {
      "entropy": 1.6898978352546692,
      "epoch": 0.8542473428359562,
      "grad_norm": 0.7002508044242859,
      "learning_rate": 1.3529656817259287e-05,
      "loss": 1.4303,
      "mean_token_accuracy": 0.6622383644183477,
      "num_tokens": 1302686661.0,
      "step": 7776
    },
    {
      "entropy": 1.6237229605515797,
      "epoch": 0.8543571997473292,
      "grad_norm": 0.7121983170509338,
      "learning_rate": 1.3528120195685451e-05,
      "loss": 1.3871,
      "mean_token_accuracy": 0.6706487536430359,
      "num_tokens": 1302863425.0,
      "step": 7777
    },
    {
      "entropy": 1.7381801307201385,
      "epoch": 0.854467056658702,
      "grad_norm": 0.7030956149101257,
      "learning_rate": 1.3526583494097749e-05,
      "loss": 1.3846,
      "mean_token_accuracy": 0.6603255172570547,
      "num_tokens": 1303005875.0,
      "step": 7778
    },
    {
      "entropy": 1.7050376236438751,
      "epoch": 0.8545769135700749,
      "grad_norm": 0.737881600856781,
      "learning_rate": 1.3525046712544818e-05,
      "loss": 1.4434,
      "mean_token_accuracy": 0.650563602646192,
      "num_tokens": 1303199958.0,
      "step": 7779
    },
    {
      "entropy": 1.65973166624705,
      "epoch": 0.8546867704814479,
      "grad_norm": 0.8631945848464966,
      "learning_rate": 1.3523509851075293e-05,
      "loss": 1.3929,
      "mean_token_accuracy": 0.6690235982338587,
      "num_tokens": 1303349109.0,
      "step": 7780
    },
    {
      "entropy": 1.7056522568066914,
      "epoch": 0.8547966273928208,
      "grad_norm": 0.6538403630256653,
      "learning_rate": 1.3521972909737824e-05,
      "loss": 1.4684,
      "mean_token_accuracy": 0.6520558893680573,
      "num_tokens": 1303526369.0,
      "step": 7781
    },
    {
      "entropy": 1.664311518271764,
      "epoch": 0.8549064843041938,
      "grad_norm": 0.5570957064628601,
      "learning_rate": 1.3520435888581044e-05,
      "loss": 1.3669,
      "mean_token_accuracy": 0.6615254829327265,
      "num_tokens": 1303777805.0,
      "step": 7782
    },
    {
      "entropy": 1.7221255699793498,
      "epoch": 0.8550163412155667,
      "grad_norm": 0.6258386969566345,
      "learning_rate": 1.351889878765361e-05,
      "loss": 1.3535,
      "mean_token_accuracy": 0.6568758289019266,
      "num_tokens": 1303942723.0,
      "step": 7783
    },
    {
      "entropy": 1.716312845547994,
      "epoch": 0.8551261981269397,
      "grad_norm": 0.6711044907569885,
      "learning_rate": 1.3517361607004158e-05,
      "loss": 1.3727,
      "mean_token_accuracy": 0.6513389696677526,
      "num_tokens": 1304117546.0,
      "step": 7784
    },
    {
      "entropy": 1.7806439300378163,
      "epoch": 0.8552360550383126,
      "grad_norm": 0.7212101817131042,
      "learning_rate": 1.3515824346681348e-05,
      "loss": 1.4373,
      "mean_token_accuracy": 0.6462565610806147,
      "num_tokens": 1304261647.0,
      "step": 7785
    },
    {
      "entropy": 1.5951051115989685,
      "epoch": 0.8553459119496856,
      "grad_norm": 0.6845982074737549,
      "learning_rate": 1.351428700673383e-05,
      "loss": 1.2047,
      "mean_token_accuracy": 0.6924866537253062,
      "num_tokens": 1304411452.0,
      "step": 7786
    },
    {
      "entropy": 1.709506740172704,
      "epoch": 0.8554557688610585,
      "grad_norm": 0.5833786129951477,
      "learning_rate": 1.3512749587210264e-05,
      "loss": 1.3802,
      "mean_token_accuracy": 0.6559178431828817,
      "num_tokens": 1304591192.0,
      "step": 7787
    },
    {
      "entropy": 1.6945497194925945,
      "epoch": 0.8555656257724314,
      "grad_norm": 0.7337885499000549,
      "learning_rate": 1.3511212088159302e-05,
      "loss": 1.426,
      "mean_token_accuracy": 0.6539691934982935,
      "num_tokens": 1304787587.0,
      "step": 7788
    },
    {
      "entropy": 1.7732653816541035,
      "epoch": 0.8556754826838043,
      "grad_norm": 0.7243953347206116,
      "learning_rate": 1.3509674509629612e-05,
      "loss": 1.5344,
      "mean_token_accuracy": 0.6324852307637533,
      "num_tokens": 1304969243.0,
      "step": 7789
    },
    {
      "entropy": 1.7157978514830272,
      "epoch": 0.8557853395951773,
      "grad_norm": 0.6849737763404846,
      "learning_rate": 1.3508136851669853e-05,
      "loss": 1.3162,
      "mean_token_accuracy": 0.6636256823937098,
      "num_tokens": 1305132204.0,
      "step": 7790
    },
    {
      "entropy": 1.6959392031033833,
      "epoch": 0.8558951965065502,
      "grad_norm": 0.65585857629776,
      "learning_rate": 1.3506599114328695e-05,
      "loss": 1.262,
      "mean_token_accuracy": 0.6834282577037811,
      "num_tokens": 1305276090.0,
      "step": 7791
    },
    {
      "entropy": 1.6683409810066223,
      "epoch": 0.8560050534179231,
      "grad_norm": 0.7357686758041382,
      "learning_rate": 1.35050612976548e-05,
      "loss": 1.5049,
      "mean_token_accuracy": 0.6626105507214864,
      "num_tokens": 1305470955.0,
      "step": 7792
    },
    {
      "entropy": 1.6899990141391754,
      "epoch": 0.8561149103292961,
      "grad_norm": 0.7392531633377075,
      "learning_rate": 1.3503523401696849e-05,
      "loss": 1.4496,
      "mean_token_accuracy": 0.6497561434904734,
      "num_tokens": 1305631140.0,
      "step": 7793
    },
    {
      "entropy": 1.6974543333053589,
      "epoch": 0.856224767240669,
      "grad_norm": 0.6308239102363586,
      "learning_rate": 1.3501985426503508e-05,
      "loss": 1.3712,
      "mean_token_accuracy": 0.6657331734895706,
      "num_tokens": 1305789255.0,
      "step": 7794
    },
    {
      "entropy": 1.6489758292833965,
      "epoch": 0.856334624152042,
      "grad_norm": 0.5670278668403625,
      "learning_rate": 1.3500447372123455e-05,
      "loss": 1.4481,
      "mean_token_accuracy": 0.6598306248585383,
      "num_tokens": 1305971505.0,
      "step": 7795
    },
    {
      "entropy": 1.640490214029948,
      "epoch": 0.8564444810634149,
      "grad_norm": 0.7669674754142761,
      "learning_rate": 1.3498909238605371e-05,
      "loss": 1.2363,
      "mean_token_accuracy": 0.68501316010952,
      "num_tokens": 1306085158.0,
      "step": 7796
    },
    {
      "entropy": 1.697544554869334,
      "epoch": 0.8565543379747879,
      "grad_norm": 0.7241058349609375,
      "learning_rate": 1.3497371025997938e-05,
      "loss": 1.3508,
      "mean_token_accuracy": 0.6685928404331207,
      "num_tokens": 1306257026.0,
      "step": 7797
    },
    {
      "entropy": 1.694200575351715,
      "epoch": 0.8566641948861607,
      "grad_norm": 0.7969628572463989,
      "learning_rate": 1.3495832734349831e-05,
      "loss": 1.3376,
      "mean_token_accuracy": 0.6603265057007471,
      "num_tokens": 1306376894.0,
      "step": 7798
    },
    {
      "entropy": 1.7276227374871571,
      "epoch": 0.8567740517975337,
      "grad_norm": 0.7449766397476196,
      "learning_rate": 1.3494294363709746e-05,
      "loss": 1.4243,
      "mean_token_accuracy": 0.6657720059156418,
      "num_tokens": 1306503412.0,
      "step": 7799
    },
    {
      "entropy": 1.6635934511820476,
      "epoch": 0.8568839087089066,
      "grad_norm": 0.7158152461051941,
      "learning_rate": 1.349275591412637e-05,
      "loss": 1.3208,
      "mean_token_accuracy": 0.6728008190790812,
      "num_tokens": 1306649874.0,
      "step": 7800
    },
    {
      "entropy": 1.7274696131547291,
      "epoch": 0.8569937656202796,
      "grad_norm": 0.7230932116508484,
      "learning_rate": 1.3491217385648392e-05,
      "loss": 1.5066,
      "mean_token_accuracy": 0.6431404302517573,
      "num_tokens": 1306837527.0,
      "step": 7801
    },
    {
      "entropy": 1.7124834557374318,
      "epoch": 0.8571036225316525,
      "grad_norm": 0.6679414510726929,
      "learning_rate": 1.3489678778324501e-05,
      "loss": 1.343,
      "mean_token_accuracy": 0.660656655828158,
      "num_tokens": 1306992011.0,
      "step": 7802
    },
    {
      "entropy": 1.730410397052765,
      "epoch": 0.8572134794430255,
      "grad_norm": 0.676726758480072,
      "learning_rate": 1.3488140092203405e-05,
      "loss": 1.4971,
      "mean_token_accuracy": 0.6543196365237236,
      "num_tokens": 1307160616.0,
      "step": 7803
    },
    {
      "entropy": 1.6937486827373505,
      "epoch": 0.8573233363543984,
      "grad_norm": 0.8226978182792664,
      "learning_rate": 1.3486601327333795e-05,
      "loss": 1.3941,
      "mean_token_accuracy": 0.6554071108500162,
      "num_tokens": 1307301087.0,
      "step": 7804
    },
    {
      "entropy": 1.6323599517345428,
      "epoch": 0.8574331932657714,
      "grad_norm": 0.7059171199798584,
      "learning_rate": 1.3485062483764372e-05,
      "loss": 1.3001,
      "mean_token_accuracy": 0.6734863370656967,
      "num_tokens": 1307429854.0,
      "step": 7805
    },
    {
      "entropy": 1.6826396882534027,
      "epoch": 0.8575430501771443,
      "grad_norm": 0.6876824498176575,
      "learning_rate": 1.3483523561543842e-05,
      "loss": 1.4278,
      "mean_token_accuracy": 0.6498329937458038,
      "num_tokens": 1307587225.0,
      "step": 7806
    },
    {
      "entropy": 1.7240065733591716,
      "epoch": 0.8576529070885172,
      "grad_norm": 0.7715162634849548,
      "learning_rate": 1.348198456072091e-05,
      "loss": 1.4212,
      "mean_token_accuracy": 0.6564840972423553,
      "num_tokens": 1307748629.0,
      "step": 7807
    },
    {
      "entropy": 1.7205755809942882,
      "epoch": 0.8577627639998902,
      "grad_norm": 0.68276047706604,
      "learning_rate": 1.3480445481344282e-05,
      "loss": 1.467,
      "mean_token_accuracy": 0.6505002329746882,
      "num_tokens": 1307912570.0,
      "step": 7808
    },
    {
      "entropy": 1.754823088645935,
      "epoch": 0.857872620911263,
      "grad_norm": 0.6763650178909302,
      "learning_rate": 1.3478906323462677e-05,
      "loss": 1.5182,
      "mean_token_accuracy": 0.6330088227987289,
      "num_tokens": 1308180580.0,
      "step": 7809
    },
    {
      "entropy": 1.722066303094228,
      "epoch": 0.857982477822636,
      "grad_norm": 0.7227879166603088,
      "learning_rate": 1.3477367087124801e-05,
      "loss": 1.3975,
      "mean_token_accuracy": 0.6556669274965922,
      "num_tokens": 1308325653.0,
      "step": 7810
    },
    {
      "entropy": 1.6812674701213837,
      "epoch": 0.8580923347340089,
      "grad_norm": 0.5938608050346375,
      "learning_rate": 1.3475827772379374e-05,
      "loss": 1.421,
      "mean_token_accuracy": 0.6548441002766291,
      "num_tokens": 1308530259.0,
      "step": 7811
    },
    {
      "entropy": 1.7212364772955577,
      "epoch": 0.8582021916453819,
      "grad_norm": 0.7832656502723694,
      "learning_rate": 1.3474288379275116e-05,
      "loss": 1.375,
      "mean_token_accuracy": 0.6673020124435425,
      "num_tokens": 1308688364.0,
      "step": 7812
    },
    {
      "entropy": 1.6957217554251354,
      "epoch": 0.8583120485567548,
      "grad_norm": 0.8879761695861816,
      "learning_rate": 1.3472748907860745e-05,
      "loss": 1.3826,
      "mean_token_accuracy": 0.6552250782648722,
      "num_tokens": 1308826808.0,
      "step": 7813
    },
    {
      "entropy": 1.6911301414171855,
      "epoch": 0.8584219054681278,
      "grad_norm": 0.7592836022377014,
      "learning_rate": 1.347120935818498e-05,
      "loss": 1.3259,
      "mean_token_accuracy": 0.6610475679238638,
      "num_tokens": 1308965132.0,
      "step": 7814
    },
    {
      "entropy": 1.6509084304173787,
      "epoch": 0.8585317623795007,
      "grad_norm": 0.6882309317588806,
      "learning_rate": 1.3469669730296558e-05,
      "loss": 1.5456,
      "mean_token_accuracy": 0.6430366585652033,
      "num_tokens": 1309185918.0,
      "step": 7815
    },
    {
      "entropy": 1.6446500718593597,
      "epoch": 0.8586416192908737,
      "grad_norm": 0.7358518838882446,
      "learning_rate": 1.34681300242442e-05,
      "loss": 1.277,
      "mean_token_accuracy": 0.6738730818033218,
      "num_tokens": 1309312422.0,
      "step": 7816
    },
    {
      "entropy": 1.7559974590937297,
      "epoch": 0.8587514762022466,
      "grad_norm": 0.682422399520874,
      "learning_rate": 1.346659024007664e-05,
      "loss": 1.3794,
      "mean_token_accuracy": 0.6634985208511353,
      "num_tokens": 1309441403.0,
      "step": 7817
    },
    {
      "entropy": 1.663654625415802,
      "epoch": 0.8588613331136196,
      "grad_norm": 0.6666421890258789,
      "learning_rate": 1.3465050377842608e-05,
      "loss": 1.4686,
      "mean_token_accuracy": 0.659173255165418,
      "num_tokens": 1309669132.0,
      "step": 7818
    },
    {
      "entropy": 1.6507892608642578,
      "epoch": 0.8589711900249924,
      "grad_norm": 0.6008228659629822,
      "learning_rate": 1.3463510437590846e-05,
      "loss": 1.4239,
      "mean_token_accuracy": 0.6523040185372034,
      "num_tokens": 1309852500.0,
      "step": 7819
    },
    {
      "entropy": 1.7078345616658528,
      "epoch": 0.8590810469363653,
      "grad_norm": 0.6348268985748291,
      "learning_rate": 1.3461970419370083e-05,
      "loss": 1.4027,
      "mean_token_accuracy": 0.6630667001008987,
      "num_tokens": 1310008578.0,
      "step": 7820
    },
    {
      "entropy": 1.7023847003777821,
      "epoch": 0.8591909038477383,
      "grad_norm": 0.8338757157325745,
      "learning_rate": 1.3460430323229071e-05,
      "loss": 1.3093,
      "mean_token_accuracy": 0.6611761053403219,
      "num_tokens": 1310151323.0,
      "step": 7821
    },
    {
      "entropy": 1.6935268541177113,
      "epoch": 0.8593007607591112,
      "grad_norm": 0.7700740098953247,
      "learning_rate": 1.3458890149216546e-05,
      "loss": 1.4202,
      "mean_token_accuracy": 0.6526497304439545,
      "num_tokens": 1310313628.0,
      "step": 7822
    },
    {
      "entropy": 1.7246541380882263,
      "epoch": 0.8594106176704842,
      "grad_norm": 0.6157558560371399,
      "learning_rate": 1.3457349897381256e-05,
      "loss": 1.2788,
      "mean_token_accuracy": 0.6698776682217916,
      "num_tokens": 1310453120.0,
      "step": 7823
    },
    {
      "entropy": 1.7128772636254628,
      "epoch": 0.8595204745818571,
      "grad_norm": 0.8066511750221252,
      "learning_rate": 1.345580956777195e-05,
      "loss": 1.3368,
      "mean_token_accuracy": 0.6596921930710474,
      "num_tokens": 1310607539.0,
      "step": 7824
    },
    {
      "entropy": 1.7081545094648998,
      "epoch": 0.8596303314932301,
      "grad_norm": 0.754356324672699,
      "learning_rate": 1.3454269160437377e-05,
      "loss": 1.4662,
      "mean_token_accuracy": 0.638428787390391,
      "num_tokens": 1310768768.0,
      "step": 7825
    },
    {
      "entropy": 1.6387466490268707,
      "epoch": 0.859740188404603,
      "grad_norm": 0.6813954710960388,
      "learning_rate": 1.345272867542629e-05,
      "loss": 1.2403,
      "mean_token_accuracy": 0.6748148997624716,
      "num_tokens": 1310885892.0,
      "step": 7826
    },
    {
      "entropy": 1.7912492752075195,
      "epoch": 0.859850045315976,
      "grad_norm": 0.7757691144943237,
      "learning_rate": 1.3451188112787446e-05,
      "loss": 1.3154,
      "mean_token_accuracy": 0.6780353983243307,
      "num_tokens": 1311037679.0,
      "step": 7827
    },
    {
      "entropy": 1.6761020123958588,
      "epoch": 0.8599599022273489,
      "grad_norm": 0.8084965348243713,
      "learning_rate": 1.3449647472569603e-05,
      "loss": 1.3014,
      "mean_token_accuracy": 0.6743810077508291,
      "num_tokens": 1311198055.0,
      "step": 7828
    },
    {
      "entropy": 1.708401362101237,
      "epoch": 0.8600697591387219,
      "grad_norm": 0.6399450898170471,
      "learning_rate": 1.344810675482152e-05,
      "loss": 1.2311,
      "mean_token_accuracy": 0.6786706000566483,
      "num_tokens": 1311322715.0,
      "step": 7829
    },
    {
      "entropy": 1.662269651889801,
      "epoch": 0.8601796160500947,
      "grad_norm": 0.6289361715316772,
      "learning_rate": 1.3446565959591963e-05,
      "loss": 1.2845,
      "mean_token_accuracy": 0.6679496963818868,
      "num_tokens": 1311461506.0,
      "step": 7830
    },
    {
      "entropy": 1.682697872320811,
      "epoch": 0.8602894729614677,
      "grad_norm": 0.613720715045929,
      "learning_rate": 1.3445025086929698e-05,
      "loss": 1.4083,
      "mean_token_accuracy": 0.65741033355395,
      "num_tokens": 1311626696.0,
      "step": 7831
    },
    {
      "entropy": 1.7680631478627522,
      "epoch": 0.8603993298728406,
      "grad_norm": 0.7231320142745972,
      "learning_rate": 1.3443484136883486e-05,
      "loss": 1.3911,
      "mean_token_accuracy": 0.6568551162878672,
      "num_tokens": 1311757726.0,
      "step": 7832
    },
    {
      "entropy": 1.722759485244751,
      "epoch": 0.8605091867842135,
      "grad_norm": 0.8545400500297546,
      "learning_rate": 1.3441943109502105e-05,
      "loss": 1.2789,
      "mean_token_accuracy": 0.6633422871430715,
      "num_tokens": 1311870074.0,
      "step": 7833
    },
    {
      "entropy": 1.7299232880274455,
      "epoch": 0.8606190436955865,
      "grad_norm": 0.765442430973053,
      "learning_rate": 1.3440402004834323e-05,
      "loss": 1.5995,
      "mean_token_accuracy": 0.633381262421608,
      "num_tokens": 1312052301.0,
      "step": 7834
    },
    {
      "entropy": 1.7414843638737996,
      "epoch": 0.8607289006069594,
      "grad_norm": 0.72737717628479,
      "learning_rate": 1.343886082292892e-05,
      "loss": 1.4679,
      "mean_token_accuracy": 0.6508069137732188,
      "num_tokens": 1312225655.0,
      "step": 7835
    },
    {
      "entropy": 1.7260840733846028,
      "epoch": 0.8608387575183324,
      "grad_norm": 0.7150377035140991,
      "learning_rate": 1.343731956383467e-05,
      "loss": 1.5002,
      "mean_token_accuracy": 0.6485694497823715,
      "num_tokens": 1312371137.0,
      "step": 7836
    },
    {
      "entropy": 1.7633921603361766,
      "epoch": 0.8609486144297053,
      "grad_norm": 0.7518701553344727,
      "learning_rate": 1.3435778227600354e-05,
      "loss": 1.4145,
      "mean_token_accuracy": 0.6541777650515238,
      "num_tokens": 1312486083.0,
      "step": 7837
    },
    {
      "entropy": 1.7039452989896138,
      "epoch": 0.8610584713410783,
      "grad_norm": 0.744445264339447,
      "learning_rate": 1.3434236814274752e-05,
      "loss": 1.3822,
      "mean_token_accuracy": 0.6768287618954977,
      "num_tokens": 1312646037.0,
      "step": 7838
    },
    {
      "entropy": 1.691188375155131,
      "epoch": 0.8611683282524512,
      "grad_norm": 0.6668843030929565,
      "learning_rate": 1.3432695323906657e-05,
      "loss": 1.3382,
      "mean_token_accuracy": 0.66710098584493,
      "num_tokens": 1312772973.0,
      "step": 7839
    },
    {
      "entropy": 1.7686751286188762,
      "epoch": 0.8612781851638242,
      "grad_norm": 0.8265035152435303,
      "learning_rate": 1.3431153756544849e-05,
      "loss": 1.4093,
      "mean_token_accuracy": 0.654551645119985,
      "num_tokens": 1312935895.0,
      "step": 7840
    },
    {
      "entropy": 1.7481578489144642,
      "epoch": 0.861388042075197,
      "grad_norm": 0.6910483241081238,
      "learning_rate": 1.3429612112238119e-05,
      "loss": 1.4032,
      "mean_token_accuracy": 0.6643613328536352,
      "num_tokens": 1313100695.0,
      "step": 7841
    },
    {
      "entropy": 1.7362829943497975,
      "epoch": 0.86149789898657,
      "grad_norm": 0.7029606699943542,
      "learning_rate": 1.342807039103526e-05,
      "loss": 1.4679,
      "mean_token_accuracy": 0.6628567526737849,
      "num_tokens": 1313272040.0,
      "step": 7842
    },
    {
      "entropy": 1.756723831097285,
      "epoch": 0.8616077558979429,
      "grad_norm": 3.727766513824463,
      "learning_rate": 1.3426528592985068e-05,
      "loss": 1.2346,
      "mean_token_accuracy": 0.6736096292734146,
      "num_tokens": 1313460210.0,
      "step": 7843
    },
    {
      "entropy": 1.678599238395691,
      "epoch": 0.8617176128093159,
      "grad_norm": 0.5941556692123413,
      "learning_rate": 1.342498671813634e-05,
      "loss": 1.423,
      "mean_token_accuracy": 0.6411783198515574,
      "num_tokens": 1313628236.0,
      "step": 7844
    },
    {
      "entropy": 1.6739432116349537,
      "epoch": 0.8618274697206888,
      "grad_norm": 0.6052295565605164,
      "learning_rate": 1.3423444766537874e-05,
      "loss": 1.3497,
      "mean_token_accuracy": 0.6628371526797613,
      "num_tokens": 1313794912.0,
      "step": 7845
    },
    {
      "entropy": 1.7657102247079213,
      "epoch": 0.8619373266320617,
      "grad_norm": 0.6851087212562561,
      "learning_rate": 1.3421902738238473e-05,
      "loss": 1.5192,
      "mean_token_accuracy": 0.6398663818836212,
      "num_tokens": 1313957418.0,
      "step": 7846
    },
    {
      "entropy": 1.7496927479902904,
      "epoch": 0.8620471835434347,
      "grad_norm": 0.675603449344635,
      "learning_rate": 1.3420360633286944e-05,
      "loss": 1.3619,
      "mean_token_accuracy": 0.6570636580387751,
      "num_tokens": 1314089818.0,
      "step": 7847
    },
    {
      "entropy": 1.7162054479122162,
      "epoch": 0.8621570404548076,
      "grad_norm": 0.8953336477279663,
      "learning_rate": 1.3418818451732087e-05,
      "loss": 1.4036,
      "mean_token_accuracy": 0.6674930676817894,
      "num_tokens": 1314213824.0,
      "step": 7848
    },
    {
      "entropy": 1.6898426910241444,
      "epoch": 0.8622668973661806,
      "grad_norm": 0.721627414226532,
      "learning_rate": 1.3417276193622721e-05,
      "loss": 1.5284,
      "mean_token_accuracy": 0.6341640055179596,
      "num_tokens": 1314457495.0,
      "step": 7849
    },
    {
      "entropy": 1.7005638281504314,
      "epoch": 0.8623767542775534,
      "grad_norm": 0.8751857876777649,
      "learning_rate": 1.3415733859007652e-05,
      "loss": 1.1988,
      "mean_token_accuracy": 0.6919720123211542,
      "num_tokens": 1314566939.0,
      "step": 7850
    },
    {
      "entropy": 1.7131429314613342,
      "epoch": 0.8624866111889264,
      "grad_norm": 0.7577322125434875,
      "learning_rate": 1.3414191447935695e-05,
      "loss": 1.3949,
      "mean_token_accuracy": 0.6738038708766302,
      "num_tokens": 1314734429.0,
      "step": 7851
    },
    {
      "entropy": 1.6478227376937866,
      "epoch": 0.8625964681002993,
      "grad_norm": 0.6248055696487427,
      "learning_rate": 1.341264896045566e-05,
      "loss": 1.4491,
      "mean_token_accuracy": 0.6442533234755198,
      "num_tokens": 1314953465.0,
      "step": 7852
    },
    {
      "entropy": 1.7321637471516926,
      "epoch": 0.8627063250116723,
      "grad_norm": 0.7030457258224487,
      "learning_rate": 1.3411106396616382e-05,
      "loss": 1.3662,
      "mean_token_accuracy": 0.6582097162803014,
      "num_tokens": 1315141404.0,
      "step": 7853
    },
    {
      "entropy": 1.7090543111165364,
      "epoch": 0.8628161819230452,
      "grad_norm": 0.6939349174499512,
      "learning_rate": 1.3409563756466667e-05,
      "loss": 1.4836,
      "mean_token_accuracy": 0.63978943725427,
      "num_tokens": 1315296574.0,
      "step": 7854
    },
    {
      "entropy": 1.7191306352615356,
      "epoch": 0.8629260388344182,
      "grad_norm": 0.654860258102417,
      "learning_rate": 1.3408021040055348e-05,
      "loss": 1.2846,
      "mean_token_accuracy": 0.6714579413334528,
      "num_tokens": 1315419882.0,
      "step": 7855
    },
    {
      "entropy": 1.6892946660518646,
      "epoch": 0.8630358957457911,
      "grad_norm": 0.7134132385253906,
      "learning_rate": 1.3406478247431246e-05,
      "loss": 1.4268,
      "mean_token_accuracy": 0.6599131226539612,
      "num_tokens": 1315635983.0,
      "step": 7856
    },
    {
      "entropy": 1.7296896080176036,
      "epoch": 0.8631457526571641,
      "grad_norm": 0.7645989656448364,
      "learning_rate": 1.340493537864319e-05,
      "loss": 1.3553,
      "mean_token_accuracy": 0.6631773064533869,
      "num_tokens": 1315842488.0,
      "step": 7857
    },
    {
      "entropy": 1.7573328018188477,
      "epoch": 0.863255609568537,
      "grad_norm": 0.6863840222358704,
      "learning_rate": 1.3403392433740017e-05,
      "loss": 1.406,
      "mean_token_accuracy": 0.6623306075731913,
      "num_tokens": 1316019789.0,
      "step": 7858
    },
    {
      "entropy": 1.680842439333598,
      "epoch": 0.86336546647991,
      "grad_norm": 0.6738454699516296,
      "learning_rate": 1.3401849412770556e-05,
      "loss": 1.3635,
      "mean_token_accuracy": 0.6600955078999201,
      "num_tokens": 1316184981.0,
      "step": 7859
    },
    {
      "entropy": 1.7413969735304515,
      "epoch": 0.8634753233912829,
      "grad_norm": 0.7007496953010559,
      "learning_rate": 1.3400306315783641e-05,
      "loss": 1.4063,
      "mean_token_accuracy": 0.6600519170363744,
      "num_tokens": 1316341745.0,
      "step": 7860
    },
    {
      "entropy": 1.6591811577479045,
      "epoch": 0.8635851803026557,
      "grad_norm": 0.711081326007843,
      "learning_rate": 1.3398763142828115e-05,
      "loss": 1.33,
      "mean_token_accuracy": 0.6715270678202311,
      "num_tokens": 1316453593.0,
      "step": 7861
    },
    {
      "entropy": 1.7344895700613658,
      "epoch": 0.8636950372140287,
      "grad_norm": 0.6897302865982056,
      "learning_rate": 1.3397219893952816e-05,
      "loss": 1.3221,
      "mean_token_accuracy": 0.6635162134965261,
      "num_tokens": 1316620759.0,
      "step": 7862
    },
    {
      "entropy": 1.7110367218653362,
      "epoch": 0.8638048941254016,
      "grad_norm": 0.7375456690788269,
      "learning_rate": 1.3395676569206587e-05,
      "loss": 1.3048,
      "mean_token_accuracy": 0.6686635613441467,
      "num_tokens": 1316744902.0,
      "step": 7863
    },
    {
      "entropy": 1.7058011094729106,
      "epoch": 0.8639147510367746,
      "grad_norm": 0.7151663303375244,
      "learning_rate": 1.3394133168638274e-05,
      "loss": 1.3693,
      "mean_token_accuracy": 0.6559457530577978,
      "num_tokens": 1316872149.0,
      "step": 7864
    },
    {
      "entropy": 1.6610862414042156,
      "epoch": 0.8640246079481475,
      "grad_norm": 0.660163402557373,
      "learning_rate": 1.3392589692296727e-05,
      "loss": 1.3023,
      "mean_token_accuracy": 0.6779667536417643,
      "num_tokens": 1317040405.0,
      "step": 7865
    },
    {
      "entropy": 1.7064382135868073,
      "epoch": 0.8641344648595205,
      "grad_norm": 0.7105300426483154,
      "learning_rate": 1.3391046140230792e-05,
      "loss": 1.2392,
      "mean_token_accuracy": 0.6803303956985474,
      "num_tokens": 1317174030.0,
      "step": 7866
    },
    {
      "entropy": 1.7627345124880474,
      "epoch": 0.8642443217708934,
      "grad_norm": 0.7074387073516846,
      "learning_rate": 1.3389502512489326e-05,
      "loss": 1.5413,
      "mean_token_accuracy": 0.6326200217008591,
      "num_tokens": 1317350387.0,
      "step": 7867
    },
    {
      "entropy": 1.7101947367191315,
      "epoch": 0.8643541786822664,
      "grad_norm": 0.6427745819091797,
      "learning_rate": 1.3387958809121177e-05,
      "loss": 1.3858,
      "mean_token_accuracy": 0.6644566704829534,
      "num_tokens": 1317502704.0,
      "step": 7868
    },
    {
      "entropy": 1.6640800833702087,
      "epoch": 0.8644640355936393,
      "grad_norm": 0.618799090385437,
      "learning_rate": 1.3386415030175212e-05,
      "loss": 1.4887,
      "mean_token_accuracy": 0.6454523503780365,
      "num_tokens": 1317730335.0,
      "step": 7869
    },
    {
      "entropy": 1.7683025399843852,
      "epoch": 0.8645738925050123,
      "grad_norm": 0.6431897282600403,
      "learning_rate": 1.3384871175700287e-05,
      "loss": 1.4189,
      "mean_token_accuracy": 0.6522246897220612,
      "num_tokens": 1317876056.0,
      "step": 7870
    },
    {
      "entropy": 1.6496396660804749,
      "epoch": 0.8646837494163852,
      "grad_norm": 0.6853657364845276,
      "learning_rate": 1.3383327245745266e-05,
      "loss": 1.3756,
      "mean_token_accuracy": 0.6567689329385757,
      "num_tokens": 1318062538.0,
      "step": 7871
    },
    {
      "entropy": 1.6585274438063304,
      "epoch": 0.8647936063277581,
      "grad_norm": 0.5792921185493469,
      "learning_rate": 1.3381783240359007e-05,
      "loss": 1.427,
      "mean_token_accuracy": 0.6579019178946813,
      "num_tokens": 1318242979.0,
      "step": 7872
    },
    {
      "entropy": 1.7485062181949615,
      "epoch": 0.864903463239131,
      "grad_norm": 1.0194803476333618,
      "learning_rate": 1.3380239159590385e-05,
      "loss": 1.7003,
      "mean_token_accuracy": 0.648332287867864,
      "num_tokens": 1318393747.0,
      "step": 7873
    },
    {
      "entropy": 1.6931703289349873,
      "epoch": 0.8650133201505039,
      "grad_norm": 0.665524423122406,
      "learning_rate": 1.3378695003488264e-05,
      "loss": 1.3505,
      "mean_token_accuracy": 0.6695401221513748,
      "num_tokens": 1318562851.0,
      "step": 7874
    },
    {
      "entropy": 1.7432339489459991,
      "epoch": 0.8651231770618769,
      "grad_norm": 0.70815509557724,
      "learning_rate": 1.3377150772101517e-05,
      "loss": 1.4095,
      "mean_token_accuracy": 0.6534250229597092,
      "num_tokens": 1318737443.0,
      "step": 7875
    },
    {
      "entropy": 1.6439895927906036,
      "epoch": 0.8652330339732498,
      "grad_norm": 0.6177237629890442,
      "learning_rate": 1.3375606465479024e-05,
      "loss": 1.3875,
      "mean_token_accuracy": 0.6528783192237219,
      "num_tokens": 1318906562.0,
      "step": 7876
    },
    {
      "entropy": 1.672441154718399,
      "epoch": 0.8653428908846228,
      "grad_norm": 0.6379650235176086,
      "learning_rate": 1.3374062083669653e-05,
      "loss": 1.3043,
      "mean_token_accuracy": 0.6697641412417094,
      "num_tokens": 1319050646.0,
      "step": 7877
    },
    {
      "entropy": 1.668338378270467,
      "epoch": 0.8654527477959957,
      "grad_norm": 0.7436346411705017,
      "learning_rate": 1.3372517626722288e-05,
      "loss": 1.3871,
      "mean_token_accuracy": 0.6683712204297384,
      "num_tokens": 1319219239.0,
      "step": 7878
    },
    {
      "entropy": 1.642588605483373,
      "epoch": 0.8655626047073687,
      "grad_norm": 0.7161867022514343,
      "learning_rate": 1.3370973094685809e-05,
      "loss": 1.4992,
      "mean_token_accuracy": 0.6446088055769602,
      "num_tokens": 1319395389.0,
      "step": 7879
    },
    {
      "entropy": 1.639831284681956,
      "epoch": 0.8656724616187416,
      "grad_norm": 0.6735728979110718,
      "learning_rate": 1.33694284876091e-05,
      "loss": 1.3289,
      "mean_token_accuracy": 0.6666930864254633,
      "num_tokens": 1319561485.0,
      "step": 7880
    },
    {
      "entropy": 1.6760977109273274,
      "epoch": 0.8657823185301146,
      "grad_norm": 0.5775339007377625,
      "learning_rate": 1.3367883805541048e-05,
      "loss": 1.4283,
      "mean_token_accuracy": 0.6341107288996378,
      "num_tokens": 1319788535.0,
      "step": 7881
    },
    {
      "entropy": 1.6838768422603607,
      "epoch": 0.8658921754414874,
      "grad_norm": 0.8022451400756836,
      "learning_rate": 1.3366339048530537e-05,
      "loss": 1.6205,
      "mean_token_accuracy": 0.6297398805618286,
      "num_tokens": 1320001016.0,
      "step": 7882
    },
    {
      "entropy": 1.636765331029892,
      "epoch": 0.8660020323528604,
      "grad_norm": 0.6422226428985596,
      "learning_rate": 1.3364794216626467e-05,
      "loss": 1.3239,
      "mean_token_accuracy": 0.6695540249347687,
      "num_tokens": 1320153921.0,
      "step": 7883
    },
    {
      "entropy": 1.7224363684654236,
      "epoch": 0.8661118892642333,
      "grad_norm": 0.6930742859840393,
      "learning_rate": 1.3363249309877719e-05,
      "loss": 1.373,
      "mean_token_accuracy": 0.6712667942047119,
      "num_tokens": 1320321110.0,
      "step": 7884
    },
    {
      "entropy": 1.6932853261629741,
      "epoch": 0.8662217461756063,
      "grad_norm": 0.771900475025177,
      "learning_rate": 1.3361704328333198e-05,
      "loss": 1.4568,
      "mean_token_accuracy": 0.6484440217415491,
      "num_tokens": 1320473455.0,
      "step": 7885
    },
    {
      "entropy": 1.7034966945648193,
      "epoch": 0.8663316030869792,
      "grad_norm": 0.6940920352935791,
      "learning_rate": 1.3360159272041801e-05,
      "loss": 1.394,
      "mean_token_accuracy": 0.6586278776327769,
      "num_tokens": 1320651894.0,
      "step": 7886
    },
    {
      "entropy": 1.701320121685664,
      "epoch": 0.8664414599983521,
      "grad_norm": 0.614683985710144,
      "learning_rate": 1.3358614141052429e-05,
      "loss": 1.4261,
      "mean_token_accuracy": 0.6411514133214951,
      "num_tokens": 1320841977.0,
      "step": 7887
    },
    {
      "entropy": 1.6840573747952778,
      "epoch": 0.8665513169097251,
      "grad_norm": 0.7097548842430115,
      "learning_rate": 1.3357068935413975e-05,
      "loss": 1.4517,
      "mean_token_accuracy": 0.6532600124677023,
      "num_tokens": 1321017646.0,
      "step": 7888
    },
    {
      "entropy": 1.7255522906780243,
      "epoch": 0.866661173821098,
      "grad_norm": 0.7355175614356995,
      "learning_rate": 1.3355523655175357e-05,
      "loss": 1.2392,
      "mean_token_accuracy": 0.682395468155543,
      "num_tokens": 1321169484.0,
      "step": 7889
    },
    {
      "entropy": 1.6489202578862507,
      "epoch": 0.866771030732471,
      "grad_norm": 0.6251848936080933,
      "learning_rate": 1.3353978300385472e-05,
      "loss": 1.2982,
      "mean_token_accuracy": 0.6671447803576788,
      "num_tokens": 1321319826.0,
      "step": 7890
    },
    {
      "entropy": 1.6924934685230255,
      "epoch": 0.8668808876438439,
      "grad_norm": 0.6230257749557495,
      "learning_rate": 1.3352432871093239e-05,
      "loss": 1.3966,
      "mean_token_accuracy": 0.6617010831832886,
      "num_tokens": 1321482330.0,
      "step": 7891
    },
    {
      "entropy": 1.7230217059453328,
      "epoch": 0.8669907445552169,
      "grad_norm": 0.6096069812774658,
      "learning_rate": 1.3350887367347565e-05,
      "loss": 1.5194,
      "mean_token_accuracy": 0.6552851547797521,
      "num_tokens": 1321660671.0,
      "step": 7892
    },
    {
      "entropy": 1.6864555577437084,
      "epoch": 0.8671006014665897,
      "grad_norm": 0.604369044303894,
      "learning_rate": 1.3349341789197365e-05,
      "loss": 1.3665,
      "mean_token_accuracy": 0.6564571112394333,
      "num_tokens": 1321849446.0,
      "step": 7893
    },
    {
      "entropy": 1.7439285119374592,
      "epoch": 0.8672104583779627,
      "grad_norm": 0.802845299243927,
      "learning_rate": 1.3347796136691553e-05,
      "loss": 1.4116,
      "mean_token_accuracy": 0.6643748581409454,
      "num_tokens": 1322003294.0,
      "step": 7894
    },
    {
      "entropy": 1.6520594159762065,
      "epoch": 0.8673203152893356,
      "grad_norm": 1.0191586017608643,
      "learning_rate": 1.3346250409879056e-05,
      "loss": 1.4608,
      "mean_token_accuracy": 0.6599269956350327,
      "num_tokens": 1322132928.0,
      "step": 7895
    },
    {
      "entropy": 1.6756224830945332,
      "epoch": 0.8674301722007086,
      "grad_norm": 0.5737661123275757,
      "learning_rate": 1.3344704608808787e-05,
      "loss": 0.9707,
      "mean_token_accuracy": 0.696823646624883,
      "num_tokens": 1322293646.0,
      "step": 7896
    },
    {
      "entropy": 1.720400442679723,
      "epoch": 0.8675400291120815,
      "grad_norm": 0.7352355122566223,
      "learning_rate": 1.3343158733529673e-05,
      "loss": 1.3443,
      "mean_token_accuracy": 0.6619482586781184,
      "num_tokens": 1322472406.0,
      "step": 7897
    },
    {
      "entropy": 1.726184109846751,
      "epoch": 0.8676498860234545,
      "grad_norm": 0.7784338593482971,
      "learning_rate": 1.3341612784090643e-05,
      "loss": 1.2061,
      "mean_token_accuracy": 0.683728352189064,
      "num_tokens": 1322582080.0,
      "step": 7898
    },
    {
      "entropy": 1.754507710536321,
      "epoch": 0.8677597429348274,
      "grad_norm": 0.8482814431190491,
      "learning_rate": 1.3340066760540624e-05,
      "loss": 1.4338,
      "mean_token_accuracy": 0.6534205625454584,
      "num_tokens": 1322768188.0,
      "step": 7899
    },
    {
      "entropy": 1.7251827617486317,
      "epoch": 0.8678695998462004,
      "grad_norm": 0.6221253871917725,
      "learning_rate": 1.3338520662928545e-05,
      "loss": 1.525,
      "mean_token_accuracy": 0.6393624295790991,
      "num_tokens": 1322947115.0,
      "step": 7900
    },
    {
      "entropy": 1.673731615146001,
      "epoch": 0.8679794567575733,
      "grad_norm": 0.748742938041687,
      "learning_rate": 1.3336974491303343e-05,
      "loss": 1.2827,
      "mean_token_accuracy": 0.6780743896961212,
      "num_tokens": 1323119216.0,
      "step": 7901
    },
    {
      "entropy": 1.6825636823972066,
      "epoch": 0.8680893136689461,
      "grad_norm": 0.5840120911598206,
      "learning_rate": 1.3335428245713949e-05,
      "loss": 1.2393,
      "mean_token_accuracy": 0.6743812263011932,
      "num_tokens": 1323274126.0,
      "step": 7902
    },
    {
      "entropy": 1.7099784115950267,
      "epoch": 0.8681991705803191,
      "grad_norm": 0.6230765581130981,
      "learning_rate": 1.3333881926209304e-05,
      "loss": 1.5362,
      "mean_token_accuracy": 0.6441142161687216,
      "num_tokens": 1323465046.0,
      "step": 7903
    },
    {
      "entropy": 1.7780559460322063,
      "epoch": 0.868309027491692,
      "grad_norm": 0.778548538684845,
      "learning_rate": 1.3332335532838347e-05,
      "loss": 1.2601,
      "mean_token_accuracy": 0.6791570882002512,
      "num_tokens": 1323603989.0,
      "step": 7904
    },
    {
      "entropy": 1.6974503993988037,
      "epoch": 0.868418884403065,
      "grad_norm": 0.771642804145813,
      "learning_rate": 1.3330789065650025e-05,
      "loss": 1.4817,
      "mean_token_accuracy": 0.6580607742071152,
      "num_tokens": 1323792589.0,
      "step": 7905
    },
    {
      "entropy": 1.7237968544165294,
      "epoch": 0.8685287413144379,
      "grad_norm": 0.674707293510437,
      "learning_rate": 1.3329242524693278e-05,
      "loss": 1.3211,
      "mean_token_accuracy": 0.657488743464152,
      "num_tokens": 1323964176.0,
      "step": 7906
    },
    {
      "entropy": 1.68796439965566,
      "epoch": 0.8686385982258109,
      "grad_norm": 0.6906165480613708,
      "learning_rate": 1.3327695910017051e-05,
      "loss": 1.3029,
      "mean_token_accuracy": 0.6650421073039373,
      "num_tokens": 1324089399.0,
      "step": 7907
    },
    {
      "entropy": 1.6761383811632793,
      "epoch": 0.8687484551371838,
      "grad_norm": 0.6780588626861572,
      "learning_rate": 1.33261492216703e-05,
      "loss": 1.3755,
      "mean_token_accuracy": 0.6589695960283279,
      "num_tokens": 1324248925.0,
      "step": 7908
    },
    {
      "entropy": 1.6557303369045258,
      "epoch": 0.8688583120485568,
      "grad_norm": 0.6261764764785767,
      "learning_rate": 1.3324602459701973e-05,
      "loss": 1.3346,
      "mean_token_accuracy": 0.6587485869725546,
      "num_tokens": 1324440175.0,
      "step": 7909
    },
    {
      "entropy": 1.700795332590739,
      "epoch": 0.8689681689599297,
      "grad_norm": 0.6909230351448059,
      "learning_rate": 1.332305562416103e-05,
      "loss": 1.3137,
      "mean_token_accuracy": 0.6629070142904917,
      "num_tokens": 1324596366.0,
      "step": 7910
    },
    {
      "entropy": 1.7026448547840118,
      "epoch": 0.8690780258713027,
      "grad_norm": 0.6621904373168945,
      "learning_rate": 1.3321508715096418e-05,
      "loss": 1.3886,
      "mean_token_accuracy": 0.6658767014741898,
      "num_tokens": 1324743986.0,
      "step": 7911
    },
    {
      "entropy": 1.7210921943187714,
      "epoch": 0.8691878827826756,
      "grad_norm": 0.660092294216156,
      "learning_rate": 1.3319961732557105e-05,
      "loss": 1.3884,
      "mean_token_accuracy": 0.6560011406739553,
      "num_tokens": 1324875317.0,
      "step": 7912
    },
    {
      "entropy": 1.6727829774220784,
      "epoch": 0.8692977396940486,
      "grad_norm": 0.6397646069526672,
      "learning_rate": 1.3318414676592047e-05,
      "loss": 1.3876,
      "mean_token_accuracy": 0.6527626812458038,
      "num_tokens": 1325061131.0,
      "step": 7913
    },
    {
      "entropy": 1.671280860900879,
      "epoch": 0.8694075966054214,
      "grad_norm": 0.6057349443435669,
      "learning_rate": 1.3316867547250207e-05,
      "loss": 1.3217,
      "mean_token_accuracy": 0.6597979366779327,
      "num_tokens": 1325235395.0,
      "step": 7914
    },
    {
      "entropy": 1.7142386734485626,
      "epoch": 0.8695174535167943,
      "grad_norm": 0.6590214967727661,
      "learning_rate": 1.3315320344580556e-05,
      "loss": 1.3788,
      "mean_token_accuracy": 0.6602257490158081,
      "num_tokens": 1325394926.0,
      "step": 7915
    },
    {
      "entropy": 1.687685916821162,
      "epoch": 0.8696273104281673,
      "grad_norm": 0.8642633557319641,
      "learning_rate": 1.3313773068632058e-05,
      "loss": 1.2531,
      "mean_token_accuracy": 0.6789219677448273,
      "num_tokens": 1325582463.0,
      "step": 7916
    },
    {
      "entropy": 1.6729052861531575,
      "epoch": 0.8697371673395402,
      "grad_norm": 0.6398195028305054,
      "learning_rate": 1.3312225719453688e-05,
      "loss": 1.386,
      "mean_token_accuracy": 0.6651468873023987,
      "num_tokens": 1325770243.0,
      "step": 7917
    },
    {
      "entropy": 1.6908937791983287,
      "epoch": 0.8698470242509132,
      "grad_norm": 0.5825358033180237,
      "learning_rate": 1.3310678297094412e-05,
      "loss": 1.4217,
      "mean_token_accuracy": 0.658950557311376,
      "num_tokens": 1325994900.0,
      "step": 7918
    },
    {
      "entropy": 1.717313547929128,
      "epoch": 0.8699568811622861,
      "grad_norm": 0.6195710897445679,
      "learning_rate": 1.3309130801603209e-05,
      "loss": 1.4411,
      "mean_token_accuracy": 0.651375080148379,
      "num_tokens": 1326175599.0,
      "step": 7919
    },
    {
      "entropy": 1.7254052360852559,
      "epoch": 0.8700667380736591,
      "grad_norm": 0.6985616087913513,
      "learning_rate": 1.330758323302906e-05,
      "loss": 1.5164,
      "mean_token_accuracy": 0.6510032018025717,
      "num_tokens": 1326384995.0,
      "step": 7920
    },
    {
      "entropy": 1.7191411058108013,
      "epoch": 0.870176594985032,
      "grad_norm": 0.7221682667732239,
      "learning_rate": 1.330603559142094e-05,
      "loss": 1.593,
      "mean_token_accuracy": 0.6362573454777399,
      "num_tokens": 1326565564.0,
      "step": 7921
    },
    {
      "entropy": 1.6968744397163391,
      "epoch": 0.870286451896405,
      "grad_norm": 0.6443734765052795,
      "learning_rate": 1.3304487876827831e-05,
      "loss": 1.418,
      "mean_token_accuracy": 0.6536405632893244,
      "num_tokens": 1326738893.0,
      "step": 7922
    },
    {
      "entropy": 1.71379288037618,
      "epoch": 0.8703963088077779,
      "grad_norm": 0.6184552311897278,
      "learning_rate": 1.3302940089298722e-05,
      "loss": 1.3953,
      "mean_token_accuracy": 0.661503846446673,
      "num_tokens": 1326894910.0,
      "step": 7923
    },
    {
      "entropy": 1.7957302431265514,
      "epoch": 0.8705061657191508,
      "grad_norm": 0.6591717600822449,
      "learning_rate": 1.3301392228882598e-05,
      "loss": 1.5458,
      "mean_token_accuracy": 0.6335903803507487,
      "num_tokens": 1327137563.0,
      "step": 7924
    },
    {
      "entropy": 1.6927340527375538,
      "epoch": 0.8706160226305237,
      "grad_norm": 0.7157540917396545,
      "learning_rate": 1.3299844295628442e-05,
      "loss": 1.4384,
      "mean_token_accuracy": 0.6635022660096487,
      "num_tokens": 1327287689.0,
      "step": 7925
    },
    {
      "entropy": 1.6452916463216145,
      "epoch": 0.8707258795418967,
      "grad_norm": 1.110607624053955,
      "learning_rate": 1.3298296289585254e-05,
      "loss": 1.2155,
      "mean_token_accuracy": 0.6726205994685491,
      "num_tokens": 1327496091.0,
      "step": 7926
    },
    {
      "entropy": 1.6707601845264435,
      "epoch": 0.8708357364532696,
      "grad_norm": 1.3014352321624756,
      "learning_rate": 1.3296748210802022e-05,
      "loss": 1.361,
      "mean_token_accuracy": 0.6518186579147974,
      "num_tokens": 1327691641.0,
      "step": 7927
    },
    {
      "entropy": 1.6890023251374562,
      "epoch": 0.8709455933646425,
      "grad_norm": 0.759329080581665,
      "learning_rate": 1.3295200059327744e-05,
      "loss": 1.2898,
      "mean_token_accuracy": 0.6639624188343684,
      "num_tokens": 1327858295.0,
      "step": 7928
    },
    {
      "entropy": 1.765195220708847,
      "epoch": 0.8710554502760155,
      "grad_norm": 0.8240900039672852,
      "learning_rate": 1.329365183521142e-05,
      "loss": 1.6451,
      "mean_token_accuracy": 0.6218532472848892,
      "num_tokens": 1328056850.0,
      "step": 7929
    },
    {
      "entropy": 1.7044878403345745,
      "epoch": 0.8711653071873884,
      "grad_norm": 0.7272043824195862,
      "learning_rate": 1.3292103538502048e-05,
      "loss": 1.4744,
      "mean_token_accuracy": 0.6585461994012197,
      "num_tokens": 1328221991.0,
      "step": 7930
    },
    {
      "entropy": 1.6718167662620544,
      "epoch": 0.8712751640987614,
      "grad_norm": 0.7868055701255798,
      "learning_rate": 1.3290555169248631e-05,
      "loss": 1.2644,
      "mean_token_accuracy": 0.683634286125501,
      "num_tokens": 1328351299.0,
      "step": 7931
    },
    {
      "entropy": 1.7744904160499573,
      "epoch": 0.8713850210101343,
      "grad_norm": 1.1038771867752075,
      "learning_rate": 1.3289006727500179e-05,
      "loss": 1.5812,
      "mean_token_accuracy": 0.6369357059399287,
      "num_tokens": 1328547843.0,
      "step": 7932
    },
    {
      "entropy": 1.731363942225774,
      "epoch": 0.8714948779215073,
      "grad_norm": 0.6608824729919434,
      "learning_rate": 1.3287458213305693e-05,
      "loss": 1.3958,
      "mean_token_accuracy": 0.6688510825236639,
      "num_tokens": 1328733249.0,
      "step": 7933
    },
    {
      "entropy": 1.6438096066315968,
      "epoch": 0.8716047348328801,
      "grad_norm": 0.6863547563552856,
      "learning_rate": 1.3285909626714184e-05,
      "loss": 1.394,
      "mean_token_accuracy": 0.6732639074325562,
      "num_tokens": 1328944621.0,
      "step": 7934
    },
    {
      "entropy": 1.752169926961263,
      "epoch": 0.8717145917442531,
      "grad_norm": 0.7345601320266724,
      "learning_rate": 1.3284360967774668e-05,
      "loss": 1.5279,
      "mean_token_accuracy": 0.639055406053861,
      "num_tokens": 1329117591.0,
      "step": 7935
    },
    {
      "entropy": 1.7430291771888733,
      "epoch": 0.871824448655626,
      "grad_norm": 0.684219241142273,
      "learning_rate": 1.3282812236536153e-05,
      "loss": 1.2381,
      "mean_token_accuracy": 0.6767359425624212,
      "num_tokens": 1329257421.0,
      "step": 7936
    },
    {
      "entropy": 1.7502950926621754,
      "epoch": 0.871934305566999,
      "grad_norm": 0.6932651996612549,
      "learning_rate": 1.328126343304766e-05,
      "loss": 1.4658,
      "mean_token_accuracy": 0.6520059059063593,
      "num_tokens": 1329399517.0,
      "step": 7937
    },
    {
      "entropy": 1.6875435908635457,
      "epoch": 0.8720441624783719,
      "grad_norm": 0.7229261994361877,
      "learning_rate": 1.3279714557358207e-05,
      "loss": 1.2595,
      "mean_token_accuracy": 0.678600956996282,
      "num_tokens": 1329537962.0,
      "step": 7938
    },
    {
      "entropy": 1.6786061922709148,
      "epoch": 0.8721540193897449,
      "grad_norm": 0.707375168800354,
      "learning_rate": 1.327816560951682e-05,
      "loss": 1.3806,
      "mean_token_accuracy": 0.679164374868075,
      "num_tokens": 1329678550.0,
      "step": 7939
    },
    {
      "entropy": 1.695389598608017,
      "epoch": 0.8722638763011178,
      "grad_norm": 0.7458509206771851,
      "learning_rate": 1.3276616589572516e-05,
      "loss": 1.3762,
      "mean_token_accuracy": 0.646119033296903,
      "num_tokens": 1329866491.0,
      "step": 7940
    },
    {
      "entropy": 1.7952686448891957,
      "epoch": 0.8723737332124907,
      "grad_norm": 0.9156729578971863,
      "learning_rate": 1.3275067497574323e-05,
      "loss": 1.4037,
      "mean_token_accuracy": 0.6545374641815821,
      "num_tokens": 1330008220.0,
      "step": 7941
    },
    {
      "entropy": 1.704797516266505,
      "epoch": 0.8724835901238637,
      "grad_norm": 0.7488060593605042,
      "learning_rate": 1.3273518333571267e-05,
      "loss": 1.4559,
      "mean_token_accuracy": 0.6578322052955627,
      "num_tokens": 1330177595.0,
      "step": 7942
    },
    {
      "entropy": 1.7436169187227886,
      "epoch": 0.8725934470352366,
      "grad_norm": 0.6806449294090271,
      "learning_rate": 1.3271969097612381e-05,
      "loss": 1.5533,
      "mean_token_accuracy": 0.6280863881111145,
      "num_tokens": 1330355286.0,
      "step": 7943
    },
    {
      "entropy": 1.7313541571299236,
      "epoch": 0.8727033039466096,
      "grad_norm": 0.7117105722427368,
      "learning_rate": 1.3270419789746696e-05,
      "loss": 1.4541,
      "mean_token_accuracy": 0.6451993534962336,
      "num_tokens": 1330539558.0,
      "step": 7944
    },
    {
      "entropy": 1.8234418034553528,
      "epoch": 0.8728131608579824,
      "grad_norm": 0.8532108068466187,
      "learning_rate": 1.326887041002325e-05,
      "loss": 1.5098,
      "mean_token_accuracy": 0.6385622421900431,
      "num_tokens": 1330714292.0,
      "step": 7945
    },
    {
      "entropy": 1.7574726343154907,
      "epoch": 0.8729230177693554,
      "grad_norm": 0.7637962102890015,
      "learning_rate": 1.3267320958491078e-05,
      "loss": 1.299,
      "mean_token_accuracy": 0.6635063340266546,
      "num_tokens": 1330836527.0,
      "step": 7946
    },
    {
      "entropy": 1.7145869135856628,
      "epoch": 0.8730328746807283,
      "grad_norm": 0.6418426036834717,
      "learning_rate": 1.3265771435199214e-05,
      "loss": 1.3584,
      "mean_token_accuracy": 0.6642368783553442,
      "num_tokens": 1330995034.0,
      "step": 7947
    },
    {
      "entropy": 1.7334729234377544,
      "epoch": 0.8731427315921013,
      "grad_norm": 0.7519394159317017,
      "learning_rate": 1.3264221840196712e-05,
      "loss": 1.3698,
      "mean_token_accuracy": 0.6525163898865382,
      "num_tokens": 1331131359.0,
      "step": 7948
    },
    {
      "entropy": 1.720908761024475,
      "epoch": 0.8732525885034742,
      "grad_norm": 0.7024477124214172,
      "learning_rate": 1.3262672173532607e-05,
      "loss": 1.3505,
      "mean_token_accuracy": 0.6521359930435816,
      "num_tokens": 1331265467.0,
      "step": 7949
    },
    {
      "entropy": 1.6730608840783436,
      "epoch": 0.8733624454148472,
      "grad_norm": 0.6420222520828247,
      "learning_rate": 1.3261122435255946e-05,
      "loss": 1.338,
      "mean_token_accuracy": 0.6632480919361115,
      "num_tokens": 1331421892.0,
      "step": 7950
    },
    {
      "entropy": 1.7371685206890106,
      "epoch": 0.8734723023262201,
      "grad_norm": 0.7718887329101562,
      "learning_rate": 1.3259572625415778e-05,
      "loss": 1.3936,
      "mean_token_accuracy": 0.65486179292202,
      "num_tokens": 1331550141.0,
      "step": 7951
    },
    {
      "entropy": 1.6655554672082264,
      "epoch": 0.8735821592375931,
      "grad_norm": 0.646058201789856,
      "learning_rate": 1.3258022744061157e-05,
      "loss": 1.3398,
      "mean_token_accuracy": 0.6610534985860189,
      "num_tokens": 1331802988.0,
      "step": 7952
    },
    {
      "entropy": 1.7078120807806652,
      "epoch": 0.873692016148966,
      "grad_norm": 0.8628278374671936,
      "learning_rate": 1.3256472791241131e-05,
      "loss": 1.4658,
      "mean_token_accuracy": 0.6470666378736496,
      "num_tokens": 1331979281.0,
      "step": 7953
    },
    {
      "entropy": 1.7339671850204468,
      "epoch": 0.873801873060339,
      "grad_norm": 0.8818228244781494,
      "learning_rate": 1.3254922767004759e-05,
      "loss": 1.2851,
      "mean_token_accuracy": 0.6744043976068497,
      "num_tokens": 1332118565.0,
      "step": 7954
    },
    {
      "entropy": 1.6598787903785706,
      "epoch": 0.8739117299717118,
      "grad_norm": 0.7136387228965759,
      "learning_rate": 1.3253372671401099e-05,
      "loss": 1.3051,
      "mean_token_accuracy": 0.6756090174118677,
      "num_tokens": 1332233805.0,
      "step": 7955
    },
    {
      "entropy": 1.7392461498578389,
      "epoch": 0.8740215868830847,
      "grad_norm": 0.6263501644134521,
      "learning_rate": 1.3251822504479207e-05,
      "loss": 1.3962,
      "mean_token_accuracy": 0.6539953947067261,
      "num_tokens": 1332404169.0,
      "step": 7956
    },
    {
      "entropy": 1.7147627174854279,
      "epoch": 0.8741314437944577,
      "grad_norm": 0.7884214520454407,
      "learning_rate": 1.3250272266288149e-05,
      "loss": 1.577,
      "mean_token_accuracy": 0.6330409099658331,
      "num_tokens": 1332570136.0,
      "step": 7957
    },
    {
      "entropy": 1.7000277042388916,
      "epoch": 0.8742413007058306,
      "grad_norm": 0.9027677178382874,
      "learning_rate": 1.324872195687699e-05,
      "loss": 1.3856,
      "mean_token_accuracy": 0.6580591748158137,
      "num_tokens": 1332706178.0,
      "step": 7958
    },
    {
      "entropy": 1.7484715183575947,
      "epoch": 0.8743511576172036,
      "grad_norm": 0.8269484639167786,
      "learning_rate": 1.3247171576294791e-05,
      "loss": 1.4001,
      "mean_token_accuracy": 0.6555562863747278,
      "num_tokens": 1332886733.0,
      "step": 7959
    },
    {
      "entropy": 1.698500504096349,
      "epoch": 0.8744610145285765,
      "grad_norm": 0.7188910245895386,
      "learning_rate": 1.3245621124590625e-05,
      "loss": 1.4849,
      "mean_token_accuracy": 0.6570742378632227,
      "num_tokens": 1333091324.0,
      "step": 7960
    },
    {
      "entropy": 1.691120167573293,
      "epoch": 0.8745708714399495,
      "grad_norm": 0.6104452610015869,
      "learning_rate": 1.3244070601813564e-05,
      "loss": 1.4192,
      "mean_token_accuracy": 0.6446485817432404,
      "num_tokens": 1333253616.0,
      "step": 7961
    },
    {
      "entropy": 1.6805418034394581,
      "epoch": 0.8746807283513224,
      "grad_norm": 1.033692717552185,
      "learning_rate": 1.3242520008012676e-05,
      "loss": 1.5897,
      "mean_token_accuracy": 0.6430460214614868,
      "num_tokens": 1333449657.0,
      "step": 7962
    },
    {
      "entropy": 1.650507350762685,
      "epoch": 0.8747905852626954,
      "grad_norm": 0.6361247301101685,
      "learning_rate": 1.3240969343237042e-05,
      "loss": 1.2264,
      "mean_token_accuracy": 0.6698981175820032,
      "num_tokens": 1333679417.0,
      "step": 7963
    },
    {
      "entropy": 1.6824390292167664,
      "epoch": 0.8749004421740683,
      "grad_norm": 0.7842257618904114,
      "learning_rate": 1.3239418607535737e-05,
      "loss": 1.2012,
      "mean_token_accuracy": 0.6809289256731669,
      "num_tokens": 1333808944.0,
      "step": 7964
    },
    {
      "entropy": 1.6636536419391632,
      "epoch": 0.8750102990854413,
      "grad_norm": 0.6498377919197083,
      "learning_rate": 1.3237867800957843e-05,
      "loss": 1.2811,
      "mean_token_accuracy": 0.6815899511178335,
      "num_tokens": 1334018959.0,
      "step": 7965
    },
    {
      "entropy": 1.7166621784369152,
      "epoch": 0.8751201559968141,
      "grad_norm": 0.678538978099823,
      "learning_rate": 1.3236316923552443e-05,
      "loss": 1.4701,
      "mean_token_accuracy": 0.6503576040267944,
      "num_tokens": 1334162080.0,
      "step": 7966
    },
    {
      "entropy": 1.6881644229094188,
      "epoch": 0.8752300129081871,
      "grad_norm": 0.8077633380889893,
      "learning_rate": 1.3234765975368622e-05,
      "loss": 1.515,
      "mean_token_accuracy": 0.6426454931497574,
      "num_tokens": 1334344960.0,
      "step": 7967
    },
    {
      "entropy": 1.7116271654764812,
      "epoch": 0.87533986981956,
      "grad_norm": 0.6946110725402832,
      "learning_rate": 1.3233214956455461e-05,
      "loss": 1.3035,
      "mean_token_accuracy": 0.6665644148985544,
      "num_tokens": 1334564958.0,
      "step": 7968
    },
    {
      "entropy": 1.699356774489085,
      "epoch": 0.8754497267309329,
      "grad_norm": 0.7314174175262451,
      "learning_rate": 1.3231663866862052e-05,
      "loss": 1.4564,
      "mean_token_accuracy": 0.6603659292062124,
      "num_tokens": 1334742349.0,
      "step": 7969
    },
    {
      "entropy": 1.7104867994785309,
      "epoch": 0.8755595836423059,
      "grad_norm": 0.6361663341522217,
      "learning_rate": 1.323011270663749e-05,
      "loss": 1.546,
      "mean_token_accuracy": 0.6363288114468256,
      "num_tokens": 1334924134.0,
      "step": 7970
    },
    {
      "entropy": 1.703242838382721,
      "epoch": 0.8756694405536788,
      "grad_norm": 0.6855658888816833,
      "learning_rate": 1.3228561475830866e-05,
      "loss": 1.256,
      "mean_token_accuracy": 0.6767214983701706,
      "num_tokens": 1335041877.0,
      "step": 7971
    },
    {
      "entropy": 1.7060719430446625,
      "epoch": 0.8757792974650518,
      "grad_norm": 0.6562889218330383,
      "learning_rate": 1.3227010174491272e-05,
      "loss": 1.5151,
      "mean_token_accuracy": 0.6551367143789927,
      "num_tokens": 1335195526.0,
      "step": 7972
    },
    {
      "entropy": 1.6942510604858398,
      "epoch": 0.8758891543764247,
      "grad_norm": 0.680708646774292,
      "learning_rate": 1.3225458802667814e-05,
      "loss": 1.3885,
      "mean_token_accuracy": 0.6581521232922872,
      "num_tokens": 1335342529.0,
      "step": 7973
    },
    {
      "entropy": 1.6612178683280945,
      "epoch": 0.8759990112877977,
      "grad_norm": 0.641156017780304,
      "learning_rate": 1.3223907360409585e-05,
      "loss": 1.4741,
      "mean_token_accuracy": 0.6471780588229498,
      "num_tokens": 1335590113.0,
      "step": 7974
    },
    {
      "entropy": 1.7183683415253956,
      "epoch": 0.8761088681991706,
      "grad_norm": 0.72384113073349,
      "learning_rate": 1.3222355847765691e-05,
      "loss": 1.2578,
      "mean_token_accuracy": 0.6796244730552038,
      "num_tokens": 1335743664.0,
      "step": 7975
    },
    {
      "entropy": 1.6416078209877014,
      "epoch": 0.8762187251105436,
      "grad_norm": 0.6154013276100159,
      "learning_rate": 1.3220804264785233e-05,
      "loss": 1.4331,
      "mean_token_accuracy": 0.6597521007061005,
      "num_tokens": 1335926381.0,
      "step": 7976
    },
    {
      "entropy": 1.7263556321461995,
      "epoch": 0.8763285820219164,
      "grad_norm": 0.6627217531204224,
      "learning_rate": 1.3219252611517326e-05,
      "loss": 1.3985,
      "mean_token_accuracy": 0.6437351852655411,
      "num_tokens": 1336093870.0,
      "step": 7977
    },
    {
      "entropy": 1.7286728123823802,
      "epoch": 0.8764384389332894,
      "grad_norm": 0.7835181355476379,
      "learning_rate": 1.3217700888011072e-05,
      "loss": 1.3356,
      "mean_token_accuracy": 0.6737496505180994,
      "num_tokens": 1336228546.0,
      "step": 7978
    },
    {
      "entropy": 1.6983933846155803,
      "epoch": 0.8765482958446623,
      "grad_norm": 0.8094499707221985,
      "learning_rate": 1.3216149094315585e-05,
      "loss": 1.3539,
      "mean_token_accuracy": 0.6737185815970103,
      "num_tokens": 1336384984.0,
      "step": 7979
    },
    {
      "entropy": 1.6982168157895405,
      "epoch": 0.8766581527560353,
      "grad_norm": 0.7010941505432129,
      "learning_rate": 1.3214597230479973e-05,
      "loss": 1.4708,
      "mean_token_accuracy": 0.6522993097702662,
      "num_tokens": 1336542390.0,
      "step": 7980
    },
    {
      "entropy": 1.6157186627388,
      "epoch": 0.8767680096674082,
      "grad_norm": 0.6266676187515259,
      "learning_rate": 1.321304529655336e-05,
      "loss": 1.2673,
      "mean_token_accuracy": 0.6801381210486094,
      "num_tokens": 1336752692.0,
      "step": 7981
    },
    {
      "entropy": 1.671266903479894,
      "epoch": 0.8768778665787811,
      "grad_norm": 0.7309592962265015,
      "learning_rate": 1.3211493292584861e-05,
      "loss": 1.3975,
      "mean_token_accuracy": 0.6700055301189423,
      "num_tokens": 1336903638.0,
      "step": 7982
    },
    {
      "entropy": 1.677875409523646,
      "epoch": 0.8769877234901541,
      "grad_norm": 0.7530861496925354,
      "learning_rate": 1.3209941218623594e-05,
      "loss": 1.4529,
      "mean_token_accuracy": 0.6435393045345942,
      "num_tokens": 1337079040.0,
      "step": 7983
    },
    {
      "entropy": 1.695750226577123,
      "epoch": 0.877097580401527,
      "grad_norm": 9.608741760253906,
      "learning_rate": 1.3208389074718686e-05,
      "loss": 1.3589,
      "mean_token_accuracy": 0.6756584992011389,
      "num_tokens": 1337261289.0,
      "step": 7984
    },
    {
      "entropy": 1.7192882398764293,
      "epoch": 0.8772074373129,
      "grad_norm": 0.6504213213920593,
      "learning_rate": 1.3206836860919258e-05,
      "loss": 1.4516,
      "mean_token_accuracy": 0.6443294088045756,
      "num_tokens": 1337445749.0,
      "step": 7985
    },
    {
      "entropy": 1.6834936439990997,
      "epoch": 0.8773172942242728,
      "grad_norm": 0.6355934739112854,
      "learning_rate": 1.3205284577274438e-05,
      "loss": 1.365,
      "mean_token_accuracy": 0.6607343057791392,
      "num_tokens": 1337641026.0,
      "step": 7986
    },
    {
      "entropy": 1.6866546074549358,
      "epoch": 0.8774271511356458,
      "grad_norm": 0.5846768021583557,
      "learning_rate": 1.3203732223833352e-05,
      "loss": 1.4117,
      "mean_token_accuracy": 0.6505334079265594,
      "num_tokens": 1337845504.0,
      "step": 7987
    },
    {
      "entropy": 1.6987277269363403,
      "epoch": 0.8775370080470187,
      "grad_norm": 0.6802120804786682,
      "learning_rate": 1.3202179800645137e-05,
      "loss": 1.3893,
      "mean_token_accuracy": 0.6545873979727427,
      "num_tokens": 1338027155.0,
      "step": 7988
    },
    {
      "entropy": 1.8231212794780731,
      "epoch": 0.8776468649583917,
      "grad_norm": 0.7370648980140686,
      "learning_rate": 1.3200627307758922e-05,
      "loss": 1.5404,
      "mean_token_accuracy": 0.6349399189154307,
      "num_tokens": 1338177966.0,
      "step": 7989
    },
    {
      "entropy": 1.7170870800813038,
      "epoch": 0.8777567218697646,
      "grad_norm": 0.6052808165550232,
      "learning_rate": 1.3199074745223849e-05,
      "loss": 1.3193,
      "mean_token_accuracy": 0.6577565719683965,
      "num_tokens": 1338338646.0,
      "step": 7990
    },
    {
      "entropy": 1.6922166148821514,
      "epoch": 0.8778665787811376,
      "grad_norm": 0.5780960917472839,
      "learning_rate": 1.3197522113089045e-05,
      "loss": 1.3872,
      "mean_token_accuracy": 0.6465161889791489,
      "num_tokens": 1338520517.0,
      "step": 7991
    },
    {
      "entropy": 1.7829012076059978,
      "epoch": 0.8779764356925105,
      "grad_norm": 0.6546869277954102,
      "learning_rate": 1.3195969411403657e-05,
      "loss": 1.5343,
      "mean_token_accuracy": 0.6399548500776291,
      "num_tokens": 1338703551.0,
      "step": 7992
    },
    {
      "entropy": 1.7429544230302174,
      "epoch": 0.8780862926038835,
      "grad_norm": 0.6422476172447205,
      "learning_rate": 1.319441664021683e-05,
      "loss": 1.421,
      "mean_token_accuracy": 0.6439397037029266,
      "num_tokens": 1338876260.0,
      "step": 7993
    },
    {
      "entropy": 1.7216396530469258,
      "epoch": 0.8781961495152564,
      "grad_norm": 0.7357894778251648,
      "learning_rate": 1.3192863799577702e-05,
      "loss": 1.5756,
      "mean_token_accuracy": 0.6361222863197327,
      "num_tokens": 1339067416.0,
      "step": 7994
    },
    {
      "entropy": 1.712314208348592,
      "epoch": 0.8783060064266293,
      "grad_norm": 0.6917596459388733,
      "learning_rate": 1.3191310889535425e-05,
      "loss": 1.4794,
      "mean_token_accuracy": 0.6355889936288198,
      "num_tokens": 1339228303.0,
      "step": 7995
    },
    {
      "entropy": 1.7267231245835621,
      "epoch": 0.8784158633380023,
      "grad_norm": 0.7089694738388062,
      "learning_rate": 1.3189757910139144e-05,
      "loss": 1.4635,
      "mean_token_accuracy": 0.6534610986709595,
      "num_tokens": 1339364859.0,
      "step": 7996
    },
    {
      "entropy": 1.7212253610293071,
      "epoch": 0.8785257202493751,
      "grad_norm": 0.782818078994751,
      "learning_rate": 1.3188204861438014e-05,
      "loss": 1.3417,
      "mean_token_accuracy": 0.6555100381374359,
      "num_tokens": 1339513208.0,
      "step": 7997
    },
    {
      "entropy": 1.7673552135626476,
      "epoch": 0.8786355771607481,
      "grad_norm": 0.6749922633171082,
      "learning_rate": 1.3186651743481185e-05,
      "loss": 1.366,
      "mean_token_accuracy": 0.6576452553272247,
      "num_tokens": 1339679215.0,
      "step": 7998
    },
    {
      "entropy": 1.7615666389465332,
      "epoch": 0.878745434072121,
      "grad_norm": 0.7322090268135071,
      "learning_rate": 1.3185098556317814e-05,
      "loss": 1.5279,
      "mean_token_accuracy": 0.644319606324037,
      "num_tokens": 1339867935.0,
      "step": 7999
    },
    {
      "entropy": 1.7344570557276409,
      "epoch": 0.878855290983494,
      "grad_norm": 0.6841682195663452,
      "learning_rate": 1.3183545299997059e-05,
      "loss": 1.465,
      "mean_token_accuracy": 0.6409310499827067,
      "num_tokens": 1340072053.0,
      "step": 8000
    },
    {
      "entropy": 1.6895175874233246,
      "epoch": 0.8789651478948669,
      "grad_norm": 0.622738242149353,
      "learning_rate": 1.3181991974568078e-05,
      "loss": 1.371,
      "mean_token_accuracy": 0.6549272984266281,
      "num_tokens": 1340258625.0,
      "step": 8001
    },
    {
      "entropy": 1.7024616301059723,
      "epoch": 0.8790750048062399,
      "grad_norm": 0.6197877526283264,
      "learning_rate": 1.3180438580080035e-05,
      "loss": 1.3511,
      "mean_token_accuracy": 0.6649558196465174,
      "num_tokens": 1340444952.0,
      "step": 8002
    },
    {
      "entropy": 1.6654754877090454,
      "epoch": 0.8791848617176128,
      "grad_norm": 1.9219154119491577,
      "learning_rate": 1.3178885116582092e-05,
      "loss": 1.2438,
      "mean_token_accuracy": 0.6720800052086512,
      "num_tokens": 1340670642.0,
      "step": 8003
    },
    {
      "entropy": 1.7420108218987782,
      "epoch": 0.8792947186289858,
      "grad_norm": 0.6763916015625,
      "learning_rate": 1.3177331584123415e-05,
      "loss": 1.3347,
      "mean_token_accuracy": 0.6596690714359283,
      "num_tokens": 1340838356.0,
      "step": 8004
    },
    {
      "entropy": 1.7406767507394154,
      "epoch": 0.8794045755403587,
      "grad_norm": 0.6398903727531433,
      "learning_rate": 1.3175777982753181e-05,
      "loss": 1.4552,
      "mean_token_accuracy": 0.6480192442735037,
      "num_tokens": 1340984070.0,
      "step": 8005
    },
    {
      "entropy": 1.6723910371462505,
      "epoch": 0.8795144324517317,
      "grad_norm": 0.6995456218719482,
      "learning_rate": 1.317422431252055e-05,
      "loss": 1.2322,
      "mean_token_accuracy": 0.684855322043101,
      "num_tokens": 1341178363.0,
      "step": 8006
    },
    {
      "entropy": 1.656785657008489,
      "epoch": 0.8796242893631046,
      "grad_norm": 0.6289657354354858,
      "learning_rate": 1.3172670573474702e-05,
      "loss": 1.3367,
      "mean_token_accuracy": 0.6745680520931879,
      "num_tokens": 1341321368.0,
      "step": 8007
    },
    {
      "entropy": 1.6708788673082988,
      "epoch": 0.8797341462744775,
      "grad_norm": 0.6338051557540894,
      "learning_rate": 1.3171116765664806e-05,
      "loss": 1.5384,
      "mean_token_accuracy": 0.6278170545895895,
      "num_tokens": 1341560129.0,
      "step": 8008
    },
    {
      "entropy": 1.6958947479724884,
      "epoch": 0.8798440031858504,
      "grad_norm": 0.8811983466148376,
      "learning_rate": 1.3169562889140044e-05,
      "loss": 1.3398,
      "mean_token_accuracy": 0.6620439837376276,
      "num_tokens": 1341696606.0,
      "step": 8009
    },
    {
      "entropy": 1.7053867677847545,
      "epoch": 0.8799538600972233,
      "grad_norm": 1.529905915260315,
      "learning_rate": 1.3168008943949595e-05,
      "loss": 1.3059,
      "mean_token_accuracy": 0.6612508594989777,
      "num_tokens": 1341886733.0,
      "step": 8010
    },
    {
      "entropy": 1.6900759637355804,
      "epoch": 0.8800637170085963,
      "grad_norm": 0.6369670629501343,
      "learning_rate": 1.3166454930142638e-05,
      "loss": 1.4512,
      "mean_token_accuracy": 0.6452312916517258,
      "num_tokens": 1342084201.0,
      "step": 8011
    },
    {
      "entropy": 1.6731635133425395,
      "epoch": 0.8801735739199692,
      "grad_norm": 0.772038996219635,
      "learning_rate": 1.316490084776836e-05,
      "loss": 1.2925,
      "mean_token_accuracy": 0.6838527768850327,
      "num_tokens": 1342258577.0,
      "step": 8012
    },
    {
      "entropy": 1.7299912571907043,
      "epoch": 0.8802834308313422,
      "grad_norm": 0.6461442708969116,
      "learning_rate": 1.3163346696875948e-05,
      "loss": 1.4096,
      "mean_token_accuracy": 0.6662061562140783,
      "num_tokens": 1342489971.0,
      "step": 8013
    },
    {
      "entropy": 1.6888580024242401,
      "epoch": 0.8803932877427151,
      "grad_norm": 0.6851293444633484,
      "learning_rate": 1.3161792477514581e-05,
      "loss": 1.5714,
      "mean_token_accuracy": 0.648188849290212,
      "num_tokens": 1342667835.0,
      "step": 8014
    },
    {
      "entropy": 1.7008213798205059,
      "epoch": 0.8805031446540881,
      "grad_norm": 0.5513099431991577,
      "learning_rate": 1.3160238189733461e-05,
      "loss": 1.4225,
      "mean_token_accuracy": 0.6414727667967478,
      "num_tokens": 1342901022.0,
      "step": 8015
    },
    {
      "entropy": 1.6794636050860088,
      "epoch": 0.880613001565461,
      "grad_norm": 0.6192083358764648,
      "learning_rate": 1.3158683833581776e-05,
      "loss": 1.3251,
      "mean_token_accuracy": 0.664734274148941,
      "num_tokens": 1343050141.0,
      "step": 8016
    },
    {
      "entropy": 1.6627166867256165,
      "epoch": 0.880722858476834,
      "grad_norm": 0.7238250970840454,
      "learning_rate": 1.315712940910872e-05,
      "loss": 1.3705,
      "mean_token_accuracy": 0.6606160700321198,
      "num_tokens": 1343257130.0,
      "step": 8017
    },
    {
      "entropy": 1.6578301588694255,
      "epoch": 0.8808327153882068,
      "grad_norm": 0.644854724407196,
      "learning_rate": 1.3155574916363489e-05,
      "loss": 1.4382,
      "mean_token_accuracy": 0.6555332243442535,
      "num_tokens": 1343435487.0,
      "step": 8018
    },
    {
      "entropy": 1.662944386402766,
      "epoch": 0.8809425722995798,
      "grad_norm": 0.7258864641189575,
      "learning_rate": 1.3154020355395285e-05,
      "loss": 1.352,
      "mean_token_accuracy": 0.6717381527026495,
      "num_tokens": 1343561950.0,
      "step": 8019
    },
    {
      "entropy": 1.701594094435374,
      "epoch": 0.8810524292109527,
      "grad_norm": 0.7201105952262878,
      "learning_rate": 1.3152465726253307e-05,
      "loss": 1.3787,
      "mean_token_accuracy": 0.6671847403049469,
      "num_tokens": 1343705589.0,
      "step": 8020
    },
    {
      "entropy": 1.704057554403941,
      "epoch": 0.8811622861223257,
      "grad_norm": 0.6907951831817627,
      "learning_rate": 1.3150911028986756e-05,
      "loss": 1.2673,
      "mean_token_accuracy": 0.6720318496227264,
      "num_tokens": 1343840657.0,
      "step": 8021
    },
    {
      "entropy": 1.6859318315982819,
      "epoch": 0.8812721430336986,
      "grad_norm": 0.7433066368103027,
      "learning_rate": 1.3149356263644844e-05,
      "loss": 1.386,
      "mean_token_accuracy": 0.6604318271080653,
      "num_tokens": 1343965621.0,
      "step": 8022
    },
    {
      "entropy": 1.730026255051295,
      "epoch": 0.8813819999450715,
      "grad_norm": 0.9503698348999023,
      "learning_rate": 1.3147801430276771e-05,
      "loss": 1.4897,
      "mean_token_accuracy": 0.6525371472040812,
      "num_tokens": 1344127435.0,
      "step": 8023
    },
    {
      "entropy": 1.6777367393175762,
      "epoch": 0.8814918568564445,
      "grad_norm": 0.6132991909980774,
      "learning_rate": 1.3146246528931757e-05,
      "loss": 1.4217,
      "mean_token_accuracy": 0.6546296526988348,
      "num_tokens": 1344296015.0,
      "step": 8024
    },
    {
      "entropy": 1.6886170705159504,
      "epoch": 0.8816017137678174,
      "grad_norm": 0.6643725633621216,
      "learning_rate": 1.3144691559659e-05,
      "loss": 1.4503,
      "mean_token_accuracy": 0.6464731891949972,
      "num_tokens": 1344487057.0,
      "step": 8025
    },
    {
      "entropy": 1.694665402173996,
      "epoch": 0.8817115706791904,
      "grad_norm": 0.8616427183151245,
      "learning_rate": 1.3143136522507727e-05,
      "loss": 1.3552,
      "mean_token_accuracy": 0.6591685314973196,
      "num_tokens": 1344651179.0,
      "step": 8026
    },
    {
      "entropy": 1.705785721540451,
      "epoch": 0.8818214275905633,
      "grad_norm": 0.6112991571426392,
      "learning_rate": 1.3141581417527142e-05,
      "loss": 1.4192,
      "mean_token_accuracy": 0.6488917469978333,
      "num_tokens": 1344852823.0,
      "step": 8027
    },
    {
      "entropy": 1.6365499794483185,
      "epoch": 0.8819312845019363,
      "grad_norm": 0.6156476736068726,
      "learning_rate": 1.3140026244766474e-05,
      "loss": 1.407,
      "mean_token_accuracy": 0.6569693684577942,
      "num_tokens": 1345024193.0,
      "step": 8028
    },
    {
      "entropy": 1.7127653062343597,
      "epoch": 0.8820411414133091,
      "grad_norm": 0.6506058573722839,
      "learning_rate": 1.3138471004274942e-05,
      "loss": 1.3516,
      "mean_token_accuracy": 0.6794911821683248,
      "num_tokens": 1345221187.0,
      "step": 8029
    },
    {
      "entropy": 1.709245463212331,
      "epoch": 0.8821509983246821,
      "grad_norm": 0.7298224568367004,
      "learning_rate": 1.3136915696101768e-05,
      "loss": 1.5062,
      "mean_token_accuracy": 0.6443512787421545,
      "num_tokens": 1345408682.0,
      "step": 8030
    },
    {
      "entropy": 1.753902445236842,
      "epoch": 0.882260855236055,
      "grad_norm": 0.6582000255584717,
      "learning_rate": 1.3135360320296172e-05,
      "loss": 1.2243,
      "mean_token_accuracy": 0.6782107502222061,
      "num_tokens": 1345548857.0,
      "step": 8031
    },
    {
      "entropy": 1.689902792374293,
      "epoch": 0.882370712147428,
      "grad_norm": 0.6262725591659546,
      "learning_rate": 1.3133804876907381e-05,
      "loss": 1.4091,
      "mean_token_accuracy": 0.669882799188296,
      "num_tokens": 1345724951.0,
      "step": 8032
    },
    {
      "entropy": 1.7034416993459065,
      "epoch": 0.8824805690588009,
      "grad_norm": 0.6859605312347412,
      "learning_rate": 1.313224936598463e-05,
      "loss": 1.4119,
      "mean_token_accuracy": 0.6529233107964197,
      "num_tokens": 1345847774.0,
      "step": 8033
    },
    {
      "entropy": 1.6871616741021473,
      "epoch": 0.8825904259701739,
      "grad_norm": 0.7056890726089478,
      "learning_rate": 1.3130693787577149e-05,
      "loss": 1.4314,
      "mean_token_accuracy": 0.6448503235975901,
      "num_tokens": 1346052041.0,
      "step": 8034
    },
    {
      "entropy": 1.6991152167320251,
      "epoch": 0.8827002828815468,
      "grad_norm": 0.7343994975090027,
      "learning_rate": 1.312913814173417e-05,
      "loss": 1.465,
      "mean_token_accuracy": 0.636786495645841,
      "num_tokens": 1346230977.0,
      "step": 8035
    },
    {
      "entropy": 1.740164339542389,
      "epoch": 0.8828101397929197,
      "grad_norm": 0.6870355606079102,
      "learning_rate": 1.3127582428504924e-05,
      "loss": 1.3112,
      "mean_token_accuracy": 0.6617578764756521,
      "num_tokens": 1346377875.0,
      "step": 8036
    },
    {
      "entropy": 1.6937303443749745,
      "epoch": 0.8829199967042927,
      "grad_norm": 0.6445454359054565,
      "learning_rate": 1.3126026647938656e-05,
      "loss": 1.4059,
      "mean_token_accuracy": 0.6537498732407888,
      "num_tokens": 1346547610.0,
      "step": 8037
    },
    {
      "entropy": 1.7122799456119537,
      "epoch": 0.8830298536156655,
      "grad_norm": 0.6448954343795776,
      "learning_rate": 1.3124470800084602e-05,
      "loss": 1.4434,
      "mean_token_accuracy": 0.6424995213747025,
      "num_tokens": 1346735778.0,
      "step": 8038
    },
    {
      "entropy": 1.7327117224534352,
      "epoch": 0.8831397105270385,
      "grad_norm": 0.6899316310882568,
      "learning_rate": 1.3122914884992001e-05,
      "loss": 1.3337,
      "mean_token_accuracy": 0.6604535380999247,
      "num_tokens": 1346857791.0,
      "step": 8039
    },
    {
      "entropy": 1.6908073723316193,
      "epoch": 0.8832495674384114,
      "grad_norm": 0.6724409461021423,
      "learning_rate": 1.3121358902710106e-05,
      "loss": 1.3755,
      "mean_token_accuracy": 0.6658162524302801,
      "num_tokens": 1347035627.0,
      "step": 8040
    },
    {
      "entropy": 1.6952118575572968,
      "epoch": 0.8833594243497844,
      "grad_norm": 1.6206833124160767,
      "learning_rate": 1.3119802853288157e-05,
      "loss": 1.176,
      "mean_token_accuracy": 0.6623029261827469,
      "num_tokens": 1347231666.0,
      "step": 8041
    },
    {
      "entropy": 1.6843286454677582,
      "epoch": 0.8834692812611573,
      "grad_norm": 0.6928609609603882,
      "learning_rate": 1.31182467367754e-05,
      "loss": 1.3903,
      "mean_token_accuracy": 0.6516619374354681,
      "num_tokens": 1347406884.0,
      "step": 8042
    },
    {
      "entropy": 1.6303186118602753,
      "epoch": 0.8835791381725303,
      "grad_norm": 0.6562328934669495,
      "learning_rate": 1.311669055322109e-05,
      "loss": 1.3083,
      "mean_token_accuracy": 0.6617482751607895,
      "num_tokens": 1347573182.0,
      "step": 8043
    },
    {
      "entropy": 1.7110784550507863,
      "epoch": 0.8836889950839032,
      "grad_norm": 0.6911236643791199,
      "learning_rate": 1.3115134302674476e-05,
      "loss": 1.3642,
      "mean_token_accuracy": 0.6580260396003723,
      "num_tokens": 1347729826.0,
      "step": 8044
    },
    {
      "entropy": 1.7337822914123535,
      "epoch": 0.8837988519952762,
      "grad_norm": 0.840054988861084,
      "learning_rate": 1.3113577985184815e-05,
      "loss": 1.3266,
      "mean_token_accuracy": 0.6658614228169123,
      "num_tokens": 1347900052.0,
      "step": 8045
    },
    {
      "entropy": 1.7084493140379589,
      "epoch": 0.8839087089066491,
      "grad_norm": 0.749947726726532,
      "learning_rate": 1.3112021600801367e-05,
      "loss": 1.474,
      "mean_token_accuracy": 0.6458921432495117,
      "num_tokens": 1348105613.0,
      "step": 8046
    },
    {
      "entropy": 1.620888243118922,
      "epoch": 0.8840185658180221,
      "grad_norm": 0.6167489290237427,
      "learning_rate": 1.3110465149573384e-05,
      "loss": 1.398,
      "mean_token_accuracy": 0.6520049870014191,
      "num_tokens": 1348336198.0,
      "step": 8047
    },
    {
      "entropy": 1.7000917494297028,
      "epoch": 0.884128422729395,
      "grad_norm": 0.6212296485900879,
      "learning_rate": 1.3108908631550128e-05,
      "loss": 1.491,
      "mean_token_accuracy": 0.6476211200157801,
      "num_tokens": 1348499904.0,
      "step": 8048
    },
    {
      "entropy": 1.6660768489042919,
      "epoch": 0.884238279640768,
      "grad_norm": 0.8931158781051636,
      "learning_rate": 1.3107352046780865e-05,
      "loss": 1.0585,
      "mean_token_accuracy": 0.6905455191930135,
      "num_tokens": 1348668149.0,
      "step": 8049
    },
    {
      "entropy": 1.7104520897070568,
      "epoch": 0.8843481365521408,
      "grad_norm": 0.7820631861686707,
      "learning_rate": 1.3105795395314863e-05,
      "loss": 1.3984,
      "mean_token_accuracy": 0.6557039568821589,
      "num_tokens": 1348803873.0,
      "step": 8050
    },
    {
      "entropy": 1.7667625844478607,
      "epoch": 0.8844579934635137,
      "grad_norm": 0.6352094411849976,
      "learning_rate": 1.3104238677201382e-05,
      "loss": 1.3466,
      "mean_token_accuracy": 0.6517351716756821,
      "num_tokens": 1348947762.0,
      "step": 8051
    },
    {
      "entropy": 1.6937001744906108,
      "epoch": 0.8845678503748867,
      "grad_norm": 0.700639009475708,
      "learning_rate": 1.3102681892489698e-05,
      "loss": 1.4141,
      "mean_token_accuracy": 0.6588475555181503,
      "num_tokens": 1349135921.0,
      "step": 8052
    },
    {
      "entropy": 1.7913443545500438,
      "epoch": 0.8846777072862596,
      "grad_norm": 0.719153881072998,
      "learning_rate": 1.3101125041229077e-05,
      "loss": 1.3666,
      "mean_token_accuracy": 0.654579242070516,
      "num_tokens": 1349279170.0,
      "step": 8053
    },
    {
      "entropy": 1.7504811882972717,
      "epoch": 0.8847875641976326,
      "grad_norm": 0.7166516184806824,
      "learning_rate": 1.3099568123468796e-05,
      "loss": 1.6457,
      "mean_token_accuracy": 0.6370598326126734,
      "num_tokens": 1349463834.0,
      "step": 8054
    },
    {
      "entropy": 1.7077268064022064,
      "epoch": 0.8848974211090055,
      "grad_norm": 0.6966634392738342,
      "learning_rate": 1.309801113925813e-05,
      "loss": 1.3574,
      "mean_token_accuracy": 0.6640727718671163,
      "num_tokens": 1349625453.0,
      "step": 8055
    },
    {
      "entropy": 1.718926727771759,
      "epoch": 0.8850072780203785,
      "grad_norm": 0.6505473852157593,
      "learning_rate": 1.3096454088646355e-05,
      "loss": 1.2966,
      "mean_token_accuracy": 0.6705836703379949,
      "num_tokens": 1349759088.0,
      "step": 8056
    },
    {
      "entropy": 1.659464915593465,
      "epoch": 0.8851171349317514,
      "grad_norm": 0.5969595909118652,
      "learning_rate": 1.3094896971682756e-05,
      "loss": 1.3489,
      "mean_token_accuracy": 0.6619338194529215,
      "num_tokens": 1349958910.0,
      "step": 8057
    },
    {
      "entropy": 1.7118416329224904,
      "epoch": 0.8852269918431244,
      "grad_norm": 0.7195928692817688,
      "learning_rate": 1.3093339788416611e-05,
      "loss": 1.3853,
      "mean_token_accuracy": 0.6494811822970709,
      "num_tokens": 1350096253.0,
      "step": 8058
    },
    {
      "entropy": 1.7227883338928223,
      "epoch": 0.8853368487544973,
      "grad_norm": 0.7288689613342285,
      "learning_rate": 1.3091782538897204e-05,
      "loss": 1.5027,
      "mean_token_accuracy": 0.6574197262525558,
      "num_tokens": 1350239891.0,
      "step": 8059
    },
    {
      "entropy": 1.6495947043100994,
      "epoch": 0.8854467056658702,
      "grad_norm": 0.6621578335762024,
      "learning_rate": 1.3090225223173822e-05,
      "loss": 1.463,
      "mean_token_accuracy": 0.6442839155594507,
      "num_tokens": 1350454281.0,
      "step": 8060
    },
    {
      "entropy": 1.7141701777776082,
      "epoch": 0.8855565625772431,
      "grad_norm": 0.7444977164268494,
      "learning_rate": 1.3088667841295755e-05,
      "loss": 1.3837,
      "mean_token_accuracy": 0.6679119020700455,
      "num_tokens": 1350628019.0,
      "step": 8061
    },
    {
      "entropy": 1.7080074946085613,
      "epoch": 0.8856664194886161,
      "grad_norm": 0.6999690532684326,
      "learning_rate": 1.308711039331229e-05,
      "loss": 1.3976,
      "mean_token_accuracy": 0.6628955900669098,
      "num_tokens": 1350818224.0,
      "step": 8062
    },
    {
      "entropy": 1.7163402338822682,
      "epoch": 0.885776276399989,
      "grad_norm": 0.7445178627967834,
      "learning_rate": 1.3085552879272723e-05,
      "loss": 1.5502,
      "mean_token_accuracy": 0.6500421464443207,
      "num_tokens": 1350961323.0,
      "step": 8063
    },
    {
      "entropy": 1.6648909350236256,
      "epoch": 0.8858861333113619,
      "grad_norm": 0.6955971717834473,
      "learning_rate": 1.3083995299226349e-05,
      "loss": 1.222,
      "mean_token_accuracy": 0.6757313311100006,
      "num_tokens": 1351090851.0,
      "step": 8064
    },
    {
      "entropy": 1.7097779909769695,
      "epoch": 0.8859959902227349,
      "grad_norm": 0.7316083908081055,
      "learning_rate": 1.308243765322246e-05,
      "loss": 1.4142,
      "mean_token_accuracy": 0.6512270569801331,
      "num_tokens": 1351338598.0,
      "step": 8065
    },
    {
      "entropy": 1.7168799837430317,
      "epoch": 0.8861058471341078,
      "grad_norm": 0.8173125386238098,
      "learning_rate": 1.3080879941310357e-05,
      "loss": 1.431,
      "mean_token_accuracy": 0.6548661192258199,
      "num_tokens": 1351471043.0,
      "step": 8066
    },
    {
      "entropy": 1.7480222483476002,
      "epoch": 0.8862157040454808,
      "grad_norm": 3.3873794078826904,
      "learning_rate": 1.3079322163539343e-05,
      "loss": 1.1677,
      "mean_token_accuracy": 0.677946095665296,
      "num_tokens": 1351661275.0,
      "step": 8067
    },
    {
      "entropy": 1.75862056016922,
      "epoch": 0.8863255609568537,
      "grad_norm": 0.7313094735145569,
      "learning_rate": 1.307776431995872e-05,
      "loss": 1.5896,
      "mean_token_accuracy": 0.6547629435857137,
      "num_tokens": 1351818032.0,
      "step": 8068
    },
    {
      "entropy": 1.736459106206894,
      "epoch": 0.8864354178682267,
      "grad_norm": 0.6745466589927673,
      "learning_rate": 1.3076206410617792e-05,
      "loss": 1.3345,
      "mean_token_accuracy": 0.6557362129290899,
      "num_tokens": 1351960721.0,
      "step": 8069
    },
    {
      "entropy": 1.6622845729192097,
      "epoch": 0.8865452747795995,
      "grad_norm": 0.6415925621986389,
      "learning_rate": 1.3074648435565866e-05,
      "loss": 1.4075,
      "mean_token_accuracy": 0.6481207013130188,
      "num_tokens": 1352103987.0,
      "step": 8070
    },
    {
      "entropy": 1.760219156742096,
      "epoch": 0.8866551316909725,
      "grad_norm": 0.6308138370513916,
      "learning_rate": 1.3073090394852253e-05,
      "loss": 1.3635,
      "mean_token_accuracy": 0.6509590496619543,
      "num_tokens": 1352236836.0,
      "step": 8071
    },
    {
      "entropy": 1.665820409854253,
      "epoch": 0.8867649886023454,
      "grad_norm": 0.7212702035903931,
      "learning_rate": 1.307153228852626e-05,
      "loss": 1.3673,
      "mean_token_accuracy": 0.6518625418345133,
      "num_tokens": 1352428604.0,
      "step": 8072
    },
    {
      "entropy": 1.7342944145202637,
      "epoch": 0.8868748455137184,
      "grad_norm": 0.7079007029533386,
      "learning_rate": 1.3069974116637207e-05,
      "loss": 1.2633,
      "mean_token_accuracy": 0.6728782703479131,
      "num_tokens": 1352562805.0,
      "step": 8073
    },
    {
      "entropy": 1.728011429309845,
      "epoch": 0.8869847024250913,
      "grad_norm": 0.6237488389015198,
      "learning_rate": 1.3068415879234409e-05,
      "loss": 1.389,
      "mean_token_accuracy": 0.6614675124486288,
      "num_tokens": 1352798623.0,
      "step": 8074
    },
    {
      "entropy": 1.6492702066898346,
      "epoch": 0.8870945593364643,
      "grad_norm": 0.744462251663208,
      "learning_rate": 1.3066857576367173e-05,
      "loss": 1.4776,
      "mean_token_accuracy": 0.6488187313079834,
      "num_tokens": 1352998143.0,
      "step": 8075
    },
    {
      "entropy": 1.7421591877937317,
      "epoch": 0.8872044162478372,
      "grad_norm": 0.6387677788734436,
      "learning_rate": 1.306529920808483e-05,
      "loss": 1.5294,
      "mean_token_accuracy": 0.6411878218253454,
      "num_tokens": 1353150077.0,
      "step": 8076
    },
    {
      "entropy": 1.7408295770486195,
      "epoch": 0.8873142731592101,
      "grad_norm": 0.7120410799980164,
      "learning_rate": 1.3063740774436699e-05,
      "loss": 1.3272,
      "mean_token_accuracy": 0.6632676968971888,
      "num_tokens": 1353315861.0,
      "step": 8077
    },
    {
      "entropy": 1.6731611490249634,
      "epoch": 0.8874241300705831,
      "grad_norm": 0.706117570400238,
      "learning_rate": 1.3062182275472097e-05,
      "loss": 1.316,
      "mean_token_accuracy": 0.6600356449683508,
      "num_tokens": 1353424738.0,
      "step": 8078
    },
    {
      "entropy": 1.6679266492525737,
      "epoch": 0.887533986981956,
      "grad_norm": 0.7776505351066589,
      "learning_rate": 1.3060623711240362e-05,
      "loss": 1.3721,
      "mean_token_accuracy": 0.669564555088679,
      "num_tokens": 1353592283.0,
      "step": 8079
    },
    {
      "entropy": 1.6982711652914684,
      "epoch": 0.887643843893329,
      "grad_norm": 0.7552779316902161,
      "learning_rate": 1.3059065081790814e-05,
      "loss": 1.4374,
      "mean_token_accuracy": 0.6687319328387579,
      "num_tokens": 1353771761.0,
      "step": 8080
    },
    {
      "entropy": 1.638779918352763,
      "epoch": 0.8877537008047018,
      "grad_norm": 0.5680516362190247,
      "learning_rate": 1.305750638717278e-05,
      "loss": 1.3348,
      "mean_token_accuracy": 0.6778454432884852,
      "num_tokens": 1353939394.0,
      "step": 8081
    },
    {
      "entropy": 1.6758286853631337,
      "epoch": 0.8878635577160748,
      "grad_norm": 0.6949761509895325,
      "learning_rate": 1.3055947627435597e-05,
      "loss": 1.3651,
      "mean_token_accuracy": 0.6731551140546799,
      "num_tokens": 1354080326.0,
      "step": 8082
    },
    {
      "entropy": 1.688368280728658,
      "epoch": 0.8879734146274477,
      "grad_norm": 0.6399317979812622,
      "learning_rate": 1.30543888026286e-05,
      "loss": 1.357,
      "mean_token_accuracy": 0.6511105100313822,
      "num_tokens": 1354217646.0,
      "step": 8083
    },
    {
      "entropy": 1.691909670829773,
      "epoch": 0.8880832715388207,
      "grad_norm": 0.6731947660446167,
      "learning_rate": 1.3052829912801121e-05,
      "loss": 1.5381,
      "mean_token_accuracy": 0.6489096581935883,
      "num_tokens": 1354406834.0,
      "step": 8084
    },
    {
      "entropy": 1.6758221685886383,
      "epoch": 0.8881931284501936,
      "grad_norm": 0.6500033140182495,
      "learning_rate": 1.3051270958002503e-05,
      "loss": 1.3698,
      "mean_token_accuracy": 0.6664744565884272,
      "num_tokens": 1354556751.0,
      "step": 8085
    },
    {
      "entropy": 1.6546663045883179,
      "epoch": 0.8883029853615666,
      "grad_norm": 0.6402091979980469,
      "learning_rate": 1.3049711938282084e-05,
      "loss": 1.35,
      "mean_token_accuracy": 0.6814102729161581,
      "num_tokens": 1354717236.0,
      "step": 8086
    },
    {
      "entropy": 1.6440533498922985,
      "epoch": 0.8884128422729395,
      "grad_norm": 0.7296947836875916,
      "learning_rate": 1.3048152853689202e-05,
      "loss": 1.3896,
      "mean_token_accuracy": 0.6694160799185435,
      "num_tokens": 1354912353.0,
      "step": 8087
    },
    {
      "entropy": 1.7287603914737701,
      "epoch": 0.8885226991843125,
      "grad_norm": 0.8662500977516174,
      "learning_rate": 1.3046593704273205e-05,
      "loss": 1.2404,
      "mean_token_accuracy": 0.686885267496109,
      "num_tokens": 1355040756.0,
      "step": 8088
    },
    {
      "entropy": 1.741082489490509,
      "epoch": 0.8886325560956854,
      "grad_norm": 0.7242109775543213,
      "learning_rate": 1.3045034490083442e-05,
      "loss": 1.4916,
      "mean_token_accuracy": 0.6341162770986557,
      "num_tokens": 1355257903.0,
      "step": 8089
    },
    {
      "entropy": 1.7150556246439617,
      "epoch": 0.8887424130070583,
      "grad_norm": 0.67889803647995,
      "learning_rate": 1.3043475211169257e-05,
      "loss": 1.4755,
      "mean_token_accuracy": 0.6414446582396826,
      "num_tokens": 1355428402.0,
      "step": 8090
    },
    {
      "entropy": 1.6610381305217743,
      "epoch": 0.8888522699184312,
      "grad_norm": 0.6266405582427979,
      "learning_rate": 1.3041915867580004e-05,
      "loss": 1.3219,
      "mean_token_accuracy": 0.6615271915992101,
      "num_tokens": 1355587479.0,
      "step": 8091
    },
    {
      "entropy": 1.7193395793437958,
      "epoch": 0.8889621268298041,
      "grad_norm": 0.6784216165542603,
      "learning_rate": 1.3040356459365035e-05,
      "loss": 1.3691,
      "mean_token_accuracy": 0.6642310122648875,
      "num_tokens": 1355710721.0,
      "step": 8092
    },
    {
      "entropy": 1.671286831299464,
      "epoch": 0.8890719837411771,
      "grad_norm": 0.6728245615959167,
      "learning_rate": 1.30387969865737e-05,
      "loss": 1.3102,
      "mean_token_accuracy": 0.666391134262085,
      "num_tokens": 1355856077.0,
      "step": 8093
    },
    {
      "entropy": 1.6652600566546123,
      "epoch": 0.88918184065255,
      "grad_norm": 0.8366493582725525,
      "learning_rate": 1.3037237449255363e-05,
      "loss": 1.1922,
      "mean_token_accuracy": 0.6832515945037206,
      "num_tokens": 1356007976.0,
      "step": 8094
    },
    {
      "entropy": 1.7026143074035645,
      "epoch": 0.889291697563923,
      "grad_norm": 0.7122969031333923,
      "learning_rate": 1.3035677847459376e-05,
      "loss": 1.3912,
      "mean_token_accuracy": 0.6449934641520182,
      "num_tokens": 1356202823.0,
      "step": 8095
    },
    {
      "entropy": 1.712339609861374,
      "epoch": 0.8894015544752959,
      "grad_norm": 0.6235902309417725,
      "learning_rate": 1.3034118181235103e-05,
      "loss": 1.3057,
      "mean_token_accuracy": 0.6651495695114136,
      "num_tokens": 1356362943.0,
      "step": 8096
    },
    {
      "entropy": 1.6995584865411122,
      "epoch": 0.8895114113866689,
      "grad_norm": 0.6809194684028625,
      "learning_rate": 1.3032558450631905e-05,
      "loss": 1.4245,
      "mean_token_accuracy": 0.6478584508101145,
      "num_tokens": 1356528585.0,
      "step": 8097
    },
    {
      "entropy": 1.6661972502867382,
      "epoch": 0.8896212682980418,
      "grad_norm": 0.7444778680801392,
      "learning_rate": 1.3030998655699152e-05,
      "loss": 1.4135,
      "mean_token_accuracy": 0.6626001720627149,
      "num_tokens": 1356696607.0,
      "step": 8098
    },
    {
      "entropy": 1.666017969449361,
      "epoch": 0.8897311252094148,
      "grad_norm": 0.6592122912406921,
      "learning_rate": 1.3029438796486205e-05,
      "loss": 1.4551,
      "mean_token_accuracy": 0.6414574682712555,
      "num_tokens": 1356874909.0,
      "step": 8099
    },
    {
      "entropy": 1.7365792989730835,
      "epoch": 0.8898409821207877,
      "grad_norm": 0.7328019738197327,
      "learning_rate": 1.3027878873042431e-05,
      "loss": 1.4733,
      "mean_token_accuracy": 0.6426637371381124,
      "num_tokens": 1357089568.0,
      "step": 8100
    },
    {
      "entropy": 1.7083971202373505,
      "epoch": 0.8899508390321607,
      "grad_norm": 0.6374284625053406,
      "learning_rate": 1.3026318885417208e-05,
      "loss": 1.2617,
      "mean_token_accuracy": 0.6822344164053599,
      "num_tokens": 1357196677.0,
      "step": 8101
    },
    {
      "entropy": 1.7009641925493877,
      "epoch": 0.8900606959435335,
      "grad_norm": 0.6936139464378357,
      "learning_rate": 1.3024758833659906e-05,
      "loss": 1.4522,
      "mean_token_accuracy": 0.654137596487999,
      "num_tokens": 1357358345.0,
      "step": 8102
    },
    {
      "entropy": 1.6674350996812184,
      "epoch": 0.8901705528549065,
      "grad_norm": 0.6887747049331665,
      "learning_rate": 1.3023198717819896e-05,
      "loss": 1.2265,
      "mean_token_accuracy": 0.675381526350975,
      "num_tokens": 1357473542.0,
      "step": 8103
    },
    {
      "entropy": 1.7373623251914978,
      "epoch": 0.8902804097662794,
      "grad_norm": 0.8778982162475586,
      "learning_rate": 1.3021638537946562e-05,
      "loss": 1.4434,
      "mean_token_accuracy": 0.6643926252921423,
      "num_tokens": 1357646759.0,
      "step": 8104
    },
    {
      "entropy": 1.7153649926185608,
      "epoch": 0.8903902666776523,
      "grad_norm": 0.6064153909683228,
      "learning_rate": 1.3020078294089276e-05,
      "loss": 1.379,
      "mean_token_accuracy": 0.6452821493148804,
      "num_tokens": 1357837941.0,
      "step": 8105
    },
    {
      "entropy": 1.7316668430964153,
      "epoch": 0.8905001235890253,
      "grad_norm": 0.7943192720413208,
      "learning_rate": 1.3018517986297423e-05,
      "loss": 1.3593,
      "mean_token_accuracy": 0.6662193487087885,
      "num_tokens": 1358041225.0,
      "step": 8106
    },
    {
      "entropy": 1.7015369435151417,
      "epoch": 0.8906099805003982,
      "grad_norm": 0.6925376057624817,
      "learning_rate": 1.3016957614620385e-05,
      "loss": 1.4367,
      "mean_token_accuracy": 0.6497325003147125,
      "num_tokens": 1358238077.0,
      "step": 8107
    },
    {
      "entropy": 1.7462484240531921,
      "epoch": 0.8907198374117712,
      "grad_norm": 0.6663040518760681,
      "learning_rate": 1.301539717910755e-05,
      "loss": 1.4275,
      "mean_token_accuracy": 0.663551022609075,
      "num_tokens": 1358404375.0,
      "step": 8108
    },
    {
      "entropy": 1.7458167274792988,
      "epoch": 0.8908296943231441,
      "grad_norm": 0.7102859020233154,
      "learning_rate": 1.3013836679808299e-05,
      "loss": 1.4161,
      "mean_token_accuracy": 0.6619683603445689,
      "num_tokens": 1358590647.0,
      "step": 8109
    },
    {
      "entropy": 1.6818938553333282,
      "epoch": 0.8909395512345171,
      "grad_norm": 0.6789277195930481,
      "learning_rate": 1.3012276116772027e-05,
      "loss": 1.2391,
      "mean_token_accuracy": 0.6869035313526789,
      "num_tokens": 1358735171.0,
      "step": 8110
    },
    {
      "entropy": 1.7530201375484467,
      "epoch": 0.89104940814589,
      "grad_norm": 0.849226713180542,
      "learning_rate": 1.301071549004812e-05,
      "loss": 1.4003,
      "mean_token_accuracy": 0.6840375413497289,
      "num_tokens": 1358913878.0,
      "step": 8111
    },
    {
      "entropy": 1.766763836145401,
      "epoch": 0.891159265057263,
      "grad_norm": 0.6677963733673096,
      "learning_rate": 1.3009154799685977e-05,
      "loss": 1.4964,
      "mean_token_accuracy": 0.6554523011048635,
      "num_tokens": 1359064147.0,
      "step": 8112
    },
    {
      "entropy": 1.7489437560240428,
      "epoch": 0.8912691219686358,
      "grad_norm": 0.7236900329589844,
      "learning_rate": 1.3007594045734986e-05,
      "loss": 1.439,
      "mean_token_accuracy": 0.6437687029441198,
      "num_tokens": 1359239467.0,
      "step": 8113
    },
    {
      "entropy": 1.7261870900789897,
      "epoch": 0.8913789788800088,
      "grad_norm": 0.6887776851654053,
      "learning_rate": 1.3006033228244551e-05,
      "loss": 1.4056,
      "mean_token_accuracy": 0.6591099550326666,
      "num_tokens": 1359378786.0,
      "step": 8114
    },
    {
      "entropy": 1.6371654470761616,
      "epoch": 0.8914888357913817,
      "grad_norm": 0.8251991868019104,
      "learning_rate": 1.300447234726407e-05,
      "loss": 1.3108,
      "mean_token_accuracy": 0.68764096001784,
      "num_tokens": 1359534184.0,
      "step": 8115
    },
    {
      "entropy": 1.6558915674686432,
      "epoch": 0.8915986927027547,
      "grad_norm": 0.7391266822814941,
      "learning_rate": 1.3002911402842941e-05,
      "loss": 1.3898,
      "mean_token_accuracy": 0.6650058180093765,
      "num_tokens": 1359685889.0,
      "step": 8116
    },
    {
      "entropy": 1.7229611972967784,
      "epoch": 0.8917085496141276,
      "grad_norm": 0.8075942993164062,
      "learning_rate": 1.3001350395030568e-05,
      "loss": 1.3773,
      "mean_token_accuracy": 0.6721263627211252,
      "num_tokens": 1359898074.0,
      "step": 8117
    },
    {
      "entropy": 1.6780574719111125,
      "epoch": 0.8918184065255005,
      "grad_norm": 0.6064956784248352,
      "learning_rate": 1.2999789323876355e-05,
      "loss": 1.3074,
      "mean_token_accuracy": 0.6772323052088419,
      "num_tokens": 1360031925.0,
      "step": 8118
    },
    {
      "entropy": 1.7141193449497223,
      "epoch": 0.8919282634368735,
      "grad_norm": 0.7515255808830261,
      "learning_rate": 1.2998228189429713e-05,
      "loss": 1.411,
      "mean_token_accuracy": 0.6621668885151545,
      "num_tokens": 1360194172.0,
      "step": 8119
    },
    {
      "entropy": 1.7168916761875153,
      "epoch": 0.8920381203482464,
      "grad_norm": 0.6676003932952881,
      "learning_rate": 1.299666699174005e-05,
      "loss": 1.4152,
      "mean_token_accuracy": 0.6431319614251455,
      "num_tokens": 1360408050.0,
      "step": 8120
    },
    {
      "entropy": 1.7273538609345753,
      "epoch": 0.8921479772596194,
      "grad_norm": 0.7413110136985779,
      "learning_rate": 1.2995105730856774e-05,
      "loss": 1.3913,
      "mean_token_accuracy": 0.6430693517128626,
      "num_tokens": 1360572401.0,
      "step": 8121
    },
    {
      "entropy": 1.6615086793899536,
      "epoch": 0.8922578341709922,
      "grad_norm": 0.7433538436889648,
      "learning_rate": 1.2993544406829303e-05,
      "loss": 1.473,
      "mean_token_accuracy": 0.6483894636233648,
      "num_tokens": 1360765523.0,
      "step": 8122
    },
    {
      "entropy": 1.708322823047638,
      "epoch": 0.8923676910823652,
      "grad_norm": 0.6540583372116089,
      "learning_rate": 1.299198301970705e-05,
      "loss": 1.3412,
      "mean_token_accuracy": 0.6675945669412613,
      "num_tokens": 1360935268.0,
      "step": 8123
    },
    {
      "entropy": 1.6495771209398906,
      "epoch": 0.8924775479937381,
      "grad_norm": 0.6546026468276978,
      "learning_rate": 1.2990421569539429e-05,
      "loss": 1.4705,
      "mean_token_accuracy": 0.6375894794861475,
      "num_tokens": 1361161749.0,
      "step": 8124
    },
    {
      "entropy": 1.6485347251097362,
      "epoch": 0.8925874049051111,
      "grad_norm": 0.6614772081375122,
      "learning_rate": 1.2988860056375864e-05,
      "loss": 1.4092,
      "mean_token_accuracy": 0.660191277662913,
      "num_tokens": 1361334599.0,
      "step": 8125
    },
    {
      "entropy": 1.7235966821511586,
      "epoch": 0.892697261816484,
      "grad_norm": 0.6788547039031982,
      "learning_rate": 1.2987298480265775e-05,
      "loss": 1.5024,
      "mean_token_accuracy": 0.6518261929353079,
      "num_tokens": 1361511927.0,
      "step": 8126
    },
    {
      "entropy": 1.7020771602789562,
      "epoch": 0.892807118727857,
      "grad_norm": 0.7183151841163635,
      "learning_rate": 1.2985736841258585e-05,
      "loss": 1.4419,
      "mean_token_accuracy": 0.6394909024238586,
      "num_tokens": 1361690858.0,
      "step": 8127
    },
    {
      "entropy": 1.68422997991244,
      "epoch": 0.8929169756392299,
      "grad_norm": 0.6331420540809631,
      "learning_rate": 1.2984175139403719e-05,
      "loss": 1.3114,
      "mean_token_accuracy": 0.6713191568851471,
      "num_tokens": 1361842250.0,
      "step": 8128
    },
    {
      "entropy": 1.728828767935435,
      "epoch": 0.8930268325506029,
      "grad_norm": 0.7083820700645447,
      "learning_rate": 1.29826133747506e-05,
      "loss": 1.6225,
      "mean_token_accuracy": 0.6279341727495193,
      "num_tokens": 1362061841.0,
      "step": 8129
    },
    {
      "entropy": 1.718500663836797,
      "epoch": 0.8931366894619758,
      "grad_norm": 0.6595919132232666,
      "learning_rate": 1.2981051547348667e-05,
      "loss": 1.5593,
      "mean_token_accuracy": 0.6272151817878088,
      "num_tokens": 1362318836.0,
      "step": 8130
    },
    {
      "entropy": 1.7139343520005543,
      "epoch": 0.8932465463733487,
      "grad_norm": 0.7923753261566162,
      "learning_rate": 1.297948965724734e-05,
      "loss": 1.534,
      "mean_token_accuracy": 0.6324710150559744,
      "num_tokens": 1362525771.0,
      "step": 8131
    },
    {
      "entropy": 1.722178190946579,
      "epoch": 0.8933564032847217,
      "grad_norm": 0.6958953142166138,
      "learning_rate": 1.2977927704496063e-05,
      "loss": 1.4105,
      "mean_token_accuracy": 0.6546609650055567,
      "num_tokens": 1362697980.0,
      "step": 8132
    },
    {
      "entropy": 1.7218119998772938,
      "epoch": 0.8934662601960945,
      "grad_norm": 0.720320463180542,
      "learning_rate": 1.2976365689144262e-05,
      "loss": 1.3803,
      "mean_token_accuracy": 0.6600370605786642,
      "num_tokens": 1362841672.0,
      "step": 8133
    },
    {
      "entropy": 1.6862787107626598,
      "epoch": 0.8935761171074675,
      "grad_norm": 0.6662365794181824,
      "learning_rate": 1.2974803611241375e-05,
      "loss": 1.5426,
      "mean_token_accuracy": 0.6379824380079905,
      "num_tokens": 1363031283.0,
      "step": 8134
    },
    {
      "entropy": 1.7841876844565074,
      "epoch": 0.8936859740188404,
      "grad_norm": 0.6615442633628845,
      "learning_rate": 1.2973241470836844e-05,
      "loss": 1.3344,
      "mean_token_accuracy": 0.6595032413800558,
      "num_tokens": 1363152561.0,
      "step": 8135
    },
    {
      "entropy": 1.7041483422120411,
      "epoch": 0.8937958309302134,
      "grad_norm": 0.7564711570739746,
      "learning_rate": 1.2971679267980115e-05,
      "loss": 1.3051,
      "mean_token_accuracy": 0.6767140378554662,
      "num_tokens": 1363281399.0,
      "step": 8136
    },
    {
      "entropy": 1.6851592659950256,
      "epoch": 0.8939056878415863,
      "grad_norm": 0.6683154702186584,
      "learning_rate": 1.2970117002720619e-05,
      "loss": 1.4669,
      "mean_token_accuracy": 0.6413289060195287,
      "num_tokens": 1363470077.0,
      "step": 8137
    },
    {
      "entropy": 1.7018636564413707,
      "epoch": 0.8940155447529593,
      "grad_norm": 0.6740677356719971,
      "learning_rate": 1.2968554675107811e-05,
      "loss": 1.4038,
      "mean_token_accuracy": 0.6529013961553574,
      "num_tokens": 1363608254.0,
      "step": 8138
    },
    {
      "entropy": 1.6942344903945923,
      "epoch": 0.8941254016643322,
      "grad_norm": 0.6417088508605957,
      "learning_rate": 1.2966992285191136e-05,
      "loss": 1.3952,
      "mean_token_accuracy": 0.6635211457808813,
      "num_tokens": 1363799347.0,
      "step": 8139
    },
    {
      "entropy": 1.7088079651196797,
      "epoch": 0.8942352585757052,
      "grad_norm": 0.6937258243560791,
      "learning_rate": 1.296542983302004e-05,
      "loss": 1.4418,
      "mean_token_accuracy": 0.6464910159508387,
      "num_tokens": 1363948205.0,
      "step": 8140
    },
    {
      "entropy": 1.7441412607828777,
      "epoch": 0.8943451154870781,
      "grad_norm": 0.6750649809837341,
      "learning_rate": 1.2963867318643977e-05,
      "loss": 1.3852,
      "mean_token_accuracy": 0.6618605355421702,
      "num_tokens": 1364070807.0,
      "step": 8141
    },
    {
      "entropy": 1.7100872000058491,
      "epoch": 0.8944549723984511,
      "grad_norm": 0.6978124976158142,
      "learning_rate": 1.2962304742112398e-05,
      "loss": 1.3172,
      "mean_token_accuracy": 0.6667628437280655,
      "num_tokens": 1364214371.0,
      "step": 8142
    },
    {
      "entropy": 1.7487525542577107,
      "epoch": 0.894564829309824,
      "grad_norm": 0.746597945690155,
      "learning_rate": 1.2960742103474752e-05,
      "loss": 1.3387,
      "mean_token_accuracy": 0.6738084952036539,
      "num_tokens": 1364319641.0,
      "step": 8143
    },
    {
      "entropy": 1.7394179999828339,
      "epoch": 0.894674686221197,
      "grad_norm": 0.676131546497345,
      "learning_rate": 1.2959179402780508e-05,
      "loss": 1.4124,
      "mean_token_accuracy": 0.6497220148642858,
      "num_tokens": 1364460921.0,
      "step": 8144
    },
    {
      "entropy": 1.7177764972050984,
      "epoch": 0.8947845431325698,
      "grad_norm": 0.9208407402038574,
      "learning_rate": 1.2957616640079118e-05,
      "loss": 1.515,
      "mean_token_accuracy": 0.6533168703317642,
      "num_tokens": 1364628805.0,
      "step": 8145
    },
    {
      "entropy": 1.7679544786612194,
      "epoch": 0.8948944000439427,
      "grad_norm": 0.6939182281494141,
      "learning_rate": 1.2956053815420044e-05,
      "loss": 1.3703,
      "mean_token_accuracy": 0.6553449034690857,
      "num_tokens": 1364794603.0,
      "step": 8146
    },
    {
      "entropy": 1.687473217646281,
      "epoch": 0.8950042569553157,
      "grad_norm": 0.7051041722297668,
      "learning_rate": 1.2954490928852746e-05,
      "loss": 1.4056,
      "mean_token_accuracy": 0.6483729779720306,
      "num_tokens": 1365029285.0,
      "step": 8147
    },
    {
      "entropy": 1.7038420736789703,
      "epoch": 0.8951141138666886,
      "grad_norm": 0.8011882901191711,
      "learning_rate": 1.2952927980426696e-05,
      "loss": 1.3818,
      "mean_token_accuracy": 0.6608738501866659,
      "num_tokens": 1365145593.0,
      "step": 8148
    },
    {
      "entropy": 1.6690380970637004,
      "epoch": 0.8952239707780616,
      "grad_norm": 0.6747339963912964,
      "learning_rate": 1.2951364970191347e-05,
      "loss": 1.4883,
      "mean_token_accuracy": 0.6363983005285263,
      "num_tokens": 1365353607.0,
      "step": 8149
    },
    {
      "entropy": 1.7097953756650288,
      "epoch": 0.8953338276894345,
      "grad_norm": 0.7147229909896851,
      "learning_rate": 1.2949801898196182e-05,
      "loss": 1.4018,
      "mean_token_accuracy": 0.6539677331844965,
      "num_tokens": 1365499388.0,
      "step": 8150
    },
    {
      "entropy": 1.7601737678050995,
      "epoch": 0.8954436846008075,
      "grad_norm": 0.6297820806503296,
      "learning_rate": 1.2948238764490664e-05,
      "loss": 1.5235,
      "mean_token_accuracy": 0.6257789582014084,
      "num_tokens": 1365714612.0,
      "step": 8151
    },
    {
      "entropy": 1.6906922459602356,
      "epoch": 0.8955535415121804,
      "grad_norm": 0.837054431438446,
      "learning_rate": 1.2946675569124266e-05,
      "loss": 1.3727,
      "mean_token_accuracy": 0.6722191870212555,
      "num_tokens": 1365845342.0,
      "step": 8152
    },
    {
      "entropy": 1.7662516037623088,
      "epoch": 0.8956633984235534,
      "grad_norm": 0.6832341551780701,
      "learning_rate": 1.2945112312146464e-05,
      "loss": 1.4975,
      "mean_token_accuracy": 0.6488762050867081,
      "num_tokens": 1365980955.0,
      "step": 8153
    },
    {
      "entropy": 1.6681772371133168,
      "epoch": 0.8957732553349262,
      "grad_norm": 0.5820019245147705,
      "learning_rate": 1.2943548993606736e-05,
      "loss": 1.3885,
      "mean_token_accuracy": 0.6611274381478628,
      "num_tokens": 1366185654.0,
      "step": 8154
    },
    {
      "entropy": 1.773647129535675,
      "epoch": 0.8958831122462992,
      "grad_norm": 0.6890908479690552,
      "learning_rate": 1.2941985613554558e-05,
      "loss": 1.4015,
      "mean_token_accuracy": 0.6438634345928828,
      "num_tokens": 1366332030.0,
      "step": 8155
    },
    {
      "entropy": 1.7235575517018635,
      "epoch": 0.8959929691576721,
      "grad_norm": 0.7061694264411926,
      "learning_rate": 1.294042217203941e-05,
      "loss": 1.4915,
      "mean_token_accuracy": 0.6430180122454962,
      "num_tokens": 1366525544.0,
      "step": 8156
    },
    {
      "entropy": 1.670232355594635,
      "epoch": 0.8961028260690451,
      "grad_norm": 0.5871284604072571,
      "learning_rate": 1.293885866911077e-05,
      "loss": 1.3359,
      "mean_token_accuracy": 0.6684425920248032,
      "num_tokens": 1366765534.0,
      "step": 8157
    },
    {
      "entropy": 1.7217474579811096,
      "epoch": 0.896212682980418,
      "grad_norm": 0.6503912806510925,
      "learning_rate": 1.293729510481813e-05,
      "loss": 1.2649,
      "mean_token_accuracy": 0.6772298713525137,
      "num_tokens": 1366890588.0,
      "step": 8158
    },
    {
      "entropy": 1.686649481455485,
      "epoch": 0.8963225398917909,
      "grad_norm": 0.8139302730560303,
      "learning_rate": 1.293573147921097e-05,
      "loss": 1.3724,
      "mean_token_accuracy": 0.6652147769927979,
      "num_tokens": 1367071167.0,
      "step": 8159
    },
    {
      "entropy": 1.7288777728875477,
      "epoch": 0.8964323968031639,
      "grad_norm": 0.6936602592468262,
      "learning_rate": 1.2934167792338788e-05,
      "loss": 1.5265,
      "mean_token_accuracy": 0.6469365855058035,
      "num_tokens": 1367276133.0,
      "step": 8160
    },
    {
      "entropy": 1.689979334672292,
      "epoch": 0.8965422537145368,
      "grad_norm": 0.7575037479400635,
      "learning_rate": 1.2932604044251063e-05,
      "loss": 1.5474,
      "mean_token_accuracy": 0.6251169790824255,
      "num_tokens": 1367539260.0,
      "step": 8161
    },
    {
      "entropy": 1.6986994842688243,
      "epoch": 0.8966521106259098,
      "grad_norm": 0.6705021858215332,
      "learning_rate": 1.293104023499729e-05,
      "loss": 1.4051,
      "mean_token_accuracy": 0.6545246789852778,
      "num_tokens": 1367699048.0,
      "step": 8162
    },
    {
      "entropy": 1.685945173104604,
      "epoch": 0.8967619675372827,
      "grad_norm": 0.7093241214752197,
      "learning_rate": 1.2929476364626965e-05,
      "loss": 1.362,
      "mean_token_accuracy": 0.6544206788142523,
      "num_tokens": 1367871465.0,
      "step": 8163
    },
    {
      "entropy": 1.7687697807947795,
      "epoch": 0.8968718244486557,
      "grad_norm": 0.6797177195549011,
      "learning_rate": 1.2927912433189583e-05,
      "loss": 1.523,
      "mean_token_accuracy": 0.6424828718105952,
      "num_tokens": 1368046329.0,
      "step": 8164
    },
    {
      "entropy": 1.7541530827681224,
      "epoch": 0.8969816813600285,
      "grad_norm": 0.6629700660705566,
      "learning_rate": 1.2926348440734637e-05,
      "loss": 1.369,
      "mean_token_accuracy": 0.6573603600263596,
      "num_tokens": 1368231299.0,
      "step": 8165
    },
    {
      "entropy": 1.7120748162269592,
      "epoch": 0.8970915382714015,
      "grad_norm": 0.6065205335617065,
      "learning_rate": 1.2924784387311638e-05,
      "loss": 1.5206,
      "mean_token_accuracy": 0.6434388856093088,
      "num_tokens": 1368425603.0,
      "step": 8166
    },
    {
      "entropy": 1.6880040764808655,
      "epoch": 0.8972013951827744,
      "grad_norm": 0.6545516848564148,
      "learning_rate": 1.2923220272970074e-05,
      "loss": 1.5294,
      "mean_token_accuracy": 0.6539272020260493,
      "num_tokens": 1368582508.0,
      "step": 8167
    },
    {
      "entropy": 1.7425115207831066,
      "epoch": 0.8973112520941474,
      "grad_norm": 0.8306770920753479,
      "learning_rate": 1.2921656097759459e-05,
      "loss": 1.4239,
      "mean_token_accuracy": 0.6608427713314692,
      "num_tokens": 1368707001.0,
      "step": 8168
    },
    {
      "entropy": 1.6598342955112457,
      "epoch": 0.8974211090055203,
      "grad_norm": 0.5864236950874329,
      "learning_rate": 1.2920091861729291e-05,
      "loss": 1.3178,
      "mean_token_accuracy": 0.6688061058521271,
      "num_tokens": 1368866831.0,
      "step": 8169
    },
    {
      "entropy": 1.7307129402955372,
      "epoch": 0.8975309659168933,
      "grad_norm": 0.7228249907493591,
      "learning_rate": 1.2918527564929084e-05,
      "loss": 1.4023,
      "mean_token_accuracy": 0.6562465329964956,
      "num_tokens": 1369012025.0,
      "step": 8170
    },
    {
      "entropy": 1.6857167681058247,
      "epoch": 0.8976408228282662,
      "grad_norm": 0.7698543071746826,
      "learning_rate": 1.2916963207408339e-05,
      "loss": 1.3763,
      "mean_token_accuracy": 0.6605077634255091,
      "num_tokens": 1369220961.0,
      "step": 8171
    },
    {
      "entropy": 1.6822535892327626,
      "epoch": 0.8977506797396391,
      "grad_norm": 0.6768351197242737,
      "learning_rate": 1.291539878921658e-05,
      "loss": 1.1921,
      "mean_token_accuracy": 0.6810629268487295,
      "num_tokens": 1369395347.0,
      "step": 8172
    },
    {
      "entropy": 1.6895845532417297,
      "epoch": 0.8978605366510121,
      "grad_norm": 0.591072678565979,
      "learning_rate": 1.2913834310403309e-05,
      "loss": 1.3772,
      "mean_token_accuracy": 0.6566944519678751,
      "num_tokens": 1369551940.0,
      "step": 8173
    },
    {
      "entropy": 1.6599336862564087,
      "epoch": 0.897970393562385,
      "grad_norm": 0.5289608836174011,
      "learning_rate": 1.2912269771018042e-05,
      "loss": 1.4677,
      "mean_token_accuracy": 0.6440421094497045,
      "num_tokens": 1369765218.0,
      "step": 8174
    },
    {
      "entropy": 1.7176273266474407,
      "epoch": 0.898080250473758,
      "grad_norm": 0.9386351108551025,
      "learning_rate": 1.29107051711103e-05,
      "loss": 1.4368,
      "mean_token_accuracy": 0.6671102990706762,
      "num_tokens": 1369906301.0,
      "step": 8175
    },
    {
      "entropy": 1.674050102631251,
      "epoch": 0.8981901073851308,
      "grad_norm": 0.659980833530426,
      "learning_rate": 1.2909140510729602e-05,
      "loss": 1.4214,
      "mean_token_accuracy": 0.6602593511343002,
      "num_tokens": 1370085506.0,
      "step": 8176
    },
    {
      "entropy": 1.6822616755962372,
      "epoch": 0.8982999642965038,
      "grad_norm": 0.7302301526069641,
      "learning_rate": 1.2907575789925464e-05,
      "loss": 1.2561,
      "mean_token_accuracy": 0.6732948124408722,
      "num_tokens": 1370218678.0,
      "step": 8177
    },
    {
      "entropy": 1.6883311371008556,
      "epoch": 0.8984098212078767,
      "grad_norm": 0.679049551486969,
      "learning_rate": 1.2906011008747416e-05,
      "loss": 1.533,
      "mean_token_accuracy": 0.6458878070116043,
      "num_tokens": 1370432098.0,
      "step": 8178
    },
    {
      "entropy": 1.7072526613871257,
      "epoch": 0.8985196781192497,
      "grad_norm": 0.6430801153182983,
      "learning_rate": 1.2904446167244975e-05,
      "loss": 1.246,
      "mean_token_accuracy": 0.6781556854645411,
      "num_tokens": 1370555624.0,
      "step": 8179
    },
    {
      "entropy": 1.7674343287944794,
      "epoch": 0.8986295350306226,
      "grad_norm": 0.6533283591270447,
      "learning_rate": 1.2902881265467672e-05,
      "loss": 1.44,
      "mean_token_accuracy": 0.6452242086331049,
      "num_tokens": 1370727544.0,
      "step": 8180
    },
    {
      "entropy": 1.737773100535075,
      "epoch": 0.8987393919419956,
      "grad_norm": 0.6868041157722473,
      "learning_rate": 1.2901316303465034e-05,
      "loss": 1.3688,
      "mean_token_accuracy": 0.6619212180376053,
      "num_tokens": 1370861919.0,
      "step": 8181
    },
    {
      "entropy": 1.6641343732674916,
      "epoch": 0.8988492488533685,
      "grad_norm": 1.105683445930481,
      "learning_rate": 1.2899751281286595e-05,
      "loss": 1.4682,
      "mean_token_accuracy": 0.6598964184522629,
      "num_tokens": 1371063236.0,
      "step": 8182
    },
    {
      "entropy": 1.756370743115743,
      "epoch": 0.8989591057647415,
      "grad_norm": 0.854651927947998,
      "learning_rate": 1.289818619898188e-05,
      "loss": 1.5702,
      "mean_token_accuracy": 0.6351617326339086,
      "num_tokens": 1371203907.0,
      "step": 8183
    },
    {
      "entropy": 1.7830684284369152,
      "epoch": 0.8990689626761144,
      "grad_norm": 0.6945520639419556,
      "learning_rate": 1.2896621056600429e-05,
      "loss": 1.4435,
      "mean_token_accuracy": 0.644214446345965,
      "num_tokens": 1371354131.0,
      "step": 8184
    },
    {
      "entropy": 1.672329713900884,
      "epoch": 0.8991788195874872,
      "grad_norm": 0.6429153084754944,
      "learning_rate": 1.2895055854191776e-05,
      "loss": 1.2707,
      "mean_token_accuracy": 0.6696565896272659,
      "num_tokens": 1371497398.0,
      "step": 8185
    },
    {
      "entropy": 1.6738866865634918,
      "epoch": 0.8992886764988602,
      "grad_norm": 0.676530122756958,
      "learning_rate": 1.2893490591805458e-05,
      "loss": 1.3334,
      "mean_token_accuracy": 0.6663380612929662,
      "num_tokens": 1371708217.0,
      "step": 8186
    },
    {
      "entropy": 1.704796036084493,
      "epoch": 0.8993985334102331,
      "grad_norm": 0.7546509504318237,
      "learning_rate": 1.2891925269491018e-05,
      "loss": 1.2849,
      "mean_token_accuracy": 0.6688467363516489,
      "num_tokens": 1371894274.0,
      "step": 8187
    },
    {
      "entropy": 1.7164516548315685,
      "epoch": 0.8995083903216061,
      "grad_norm": 0.6668331027030945,
      "learning_rate": 1.2890359887297996e-05,
      "loss": 1.5352,
      "mean_token_accuracy": 0.6357905914386114,
      "num_tokens": 1372102280.0,
      "step": 8188
    },
    {
      "entropy": 1.7005331714948018,
      "epoch": 0.899618247232979,
      "grad_norm": 0.6698519587516785,
      "learning_rate": 1.2888794445275931e-05,
      "loss": 1.2379,
      "mean_token_accuracy": 0.6748972535133362,
      "num_tokens": 1372240684.0,
      "step": 8189
    },
    {
      "entropy": 1.7654169201850891,
      "epoch": 0.899728104144352,
      "grad_norm": 0.8310354948043823,
      "learning_rate": 1.2887228943474376e-05,
      "loss": 1.4978,
      "mean_token_accuracy": 0.6487491776545843,
      "num_tokens": 1372380490.0,
      "step": 8190
    },
    {
      "entropy": 1.7207094430923462,
      "epoch": 0.8998379610557249,
      "grad_norm": 0.6810332536697388,
      "learning_rate": 1.2885663381942877e-05,
      "loss": 1.506,
      "mean_token_accuracy": 0.6450515190760294,
      "num_tokens": 1372567918.0,
      "step": 8191
    },
    {
      "entropy": 1.6392219463984172,
      "epoch": 0.8999478179670979,
      "grad_norm": 0.6061927676200867,
      "learning_rate": 1.288409776073098e-05,
      "loss": 1.4508,
      "mean_token_accuracy": 0.6553038557370504,
      "num_tokens": 1372767417.0,
      "step": 8192
    },
    {
      "entropy": 1.6560143133004506,
      "epoch": 0.9000576748784708,
      "grad_norm": 0.7693495750427246,
      "learning_rate": 1.2882532079888234e-05,
      "loss": 1.2824,
      "mean_token_accuracy": 0.6741581360499064,
      "num_tokens": 1372908182.0,
      "step": 8193
    },
    {
      "entropy": 1.7727676530679066,
      "epoch": 0.9001675317898438,
      "grad_norm": 0.7517789602279663,
      "learning_rate": 1.2880966339464203e-05,
      "loss": 1.3932,
      "mean_token_accuracy": 0.6643371681372324,
      "num_tokens": 1373084118.0,
      "step": 8194
    },
    {
      "entropy": 1.6854754785696666,
      "epoch": 0.9002773887012167,
      "grad_norm": 0.7738332152366638,
      "learning_rate": 1.2879400539508431e-05,
      "loss": 1.3219,
      "mean_token_accuracy": 0.6660276005665461,
      "num_tokens": 1373209452.0,
      "step": 8195
    },
    {
      "entropy": 1.6973048547903697,
      "epoch": 0.9003872456125896,
      "grad_norm": 0.6942301392555237,
      "learning_rate": 1.287783468007048e-05,
      "loss": 1.294,
      "mean_token_accuracy": 0.6708059559265772,
      "num_tokens": 1373356174.0,
      "step": 8196
    },
    {
      "entropy": 1.6481784184773762,
      "epoch": 0.9004971025239625,
      "grad_norm": 0.6286212801933289,
      "learning_rate": 1.2876268761199905e-05,
      "loss": 1.3796,
      "mean_token_accuracy": 0.6566238403320312,
      "num_tokens": 1373512786.0,
      "step": 8197
    },
    {
      "entropy": 1.657067855199178,
      "epoch": 0.9006069594353355,
      "grad_norm": 0.6861938238143921,
      "learning_rate": 1.2874702782946273e-05,
      "loss": 1.3017,
      "mean_token_accuracy": 0.6696779529253641,
      "num_tokens": 1373631016.0,
      "step": 8198
    },
    {
      "entropy": 1.6833013196786244,
      "epoch": 0.9007168163467084,
      "grad_norm": 0.6281445026397705,
      "learning_rate": 1.2873136745359138e-05,
      "loss": 1.4777,
      "mean_token_accuracy": 0.6407529513041178,
      "num_tokens": 1373814798.0,
      "step": 8199
    },
    {
      "entropy": 1.7312106589476268,
      "epoch": 0.9008266732580813,
      "grad_norm": 0.6315418481826782,
      "learning_rate": 1.2871570648488074e-05,
      "loss": 1.409,
      "mean_token_accuracy": 0.6527961442867914,
      "num_tokens": 1373963715.0,
      "step": 8200
    },
    {
      "entropy": 1.636249562104543,
      "epoch": 0.9009365301694543,
      "grad_norm": 0.614751935005188,
      "learning_rate": 1.2870004492382639e-05,
      "loss": 1.464,
      "mean_token_accuracy": 0.6453719884157181,
      "num_tokens": 1374167035.0,
      "step": 8201
    },
    {
      "entropy": 1.7170550723870595,
      "epoch": 0.9010463870808272,
      "grad_norm": 0.7123568058013916,
      "learning_rate": 1.2868438277092408e-05,
      "loss": 1.355,
      "mean_token_accuracy": 0.6694580415884653,
      "num_tokens": 1374299248.0,
      "step": 8202
    },
    {
      "entropy": 1.8127153019110362,
      "epoch": 0.9011562439922002,
      "grad_norm": 0.6031003594398499,
      "learning_rate": 1.2866872002666943e-05,
      "loss": 1.4627,
      "mean_token_accuracy": 0.6451161354780197,
      "num_tokens": 1374494985.0,
      "step": 8203
    },
    {
      "entropy": 1.7356827060381572,
      "epoch": 0.9012661009035731,
      "grad_norm": 0.8380510807037354,
      "learning_rate": 1.2865305669155822e-05,
      "loss": 1.4517,
      "mean_token_accuracy": 0.6483780195315679,
      "num_tokens": 1374700001.0,
      "step": 8204
    },
    {
      "entropy": 1.7188110053539276,
      "epoch": 0.9013759578149461,
      "grad_norm": 0.6875895261764526,
      "learning_rate": 1.2863739276608618e-05,
      "loss": 1.3714,
      "mean_token_accuracy": 0.6474323074022929,
      "num_tokens": 1374861646.0,
      "step": 8205
    },
    {
      "entropy": 1.6347064077854156,
      "epoch": 0.901485814726319,
      "grad_norm": 0.6865116953849792,
      "learning_rate": 1.2862172825074906e-05,
      "loss": 1.5043,
      "mean_token_accuracy": 0.6302382349967957,
      "num_tokens": 1375086655.0,
      "step": 8206
    },
    {
      "entropy": 1.664256900548935,
      "epoch": 0.9015956716376919,
      "grad_norm": 0.6529141664505005,
      "learning_rate": 1.2860606314604262e-05,
      "loss": 1.4591,
      "mean_token_accuracy": 0.6522035201390585,
      "num_tokens": 1375273760.0,
      "step": 8207
    },
    {
      "entropy": 1.783077895641327,
      "epoch": 0.9017055285490648,
      "grad_norm": 0.7015360593795776,
      "learning_rate": 1.2859039745246267e-05,
      "loss": 1.3206,
      "mean_token_accuracy": 0.6642241428295771,
      "num_tokens": 1375397296.0,
      "step": 8208
    },
    {
      "entropy": 1.677474598089854,
      "epoch": 0.9018153854604378,
      "grad_norm": 0.6711921095848083,
      "learning_rate": 1.28574731170505e-05,
      "loss": 1.5791,
      "mean_token_accuracy": 0.6554554551839828,
      "num_tokens": 1375570200.0,
      "step": 8209
    },
    {
      "entropy": 1.7532115777333577,
      "epoch": 0.9019252423718107,
      "grad_norm": 0.7770174741744995,
      "learning_rate": 1.2855906430066552e-05,
      "loss": 1.4795,
      "mean_token_accuracy": 0.6456655959288279,
      "num_tokens": 1375729714.0,
      "step": 8210
    },
    {
      "entropy": 1.7668093641599019,
      "epoch": 0.9020350992831837,
      "grad_norm": 0.6325072050094604,
      "learning_rate": 1.2854339684343993e-05,
      "loss": 1.5966,
      "mean_token_accuracy": 0.6250222822030386,
      "num_tokens": 1375963527.0,
      "step": 8211
    },
    {
      "entropy": 1.6405591766039531,
      "epoch": 0.9021449561945566,
      "grad_norm": 0.6002046465873718,
      "learning_rate": 1.2852772879932425e-05,
      "loss": 1.3697,
      "mean_token_accuracy": 0.6608653912941614,
      "num_tokens": 1376118353.0,
      "step": 8212
    },
    {
      "entropy": 1.7306797703107197,
      "epoch": 0.9022548131059295,
      "grad_norm": 0.8113459944725037,
      "learning_rate": 1.285120601688143e-05,
      "loss": 1.4127,
      "mean_token_accuracy": 0.6562537600596746,
      "num_tokens": 1376286365.0,
      "step": 8213
    },
    {
      "entropy": 1.6529719134171803,
      "epoch": 0.9023646700173025,
      "grad_norm": 0.6751854419708252,
      "learning_rate": 1.2849639095240596e-05,
      "loss": 1.3637,
      "mean_token_accuracy": 0.6638490408658981,
      "num_tokens": 1376444760.0,
      "step": 8214
    },
    {
      "entropy": 1.6793536742528279,
      "epoch": 0.9024745269286754,
      "grad_norm": 0.6569497585296631,
      "learning_rate": 1.284807211505952e-05,
      "loss": 1.4346,
      "mean_token_accuracy": 0.643970454732577,
      "num_tokens": 1376679188.0,
      "step": 8215
    },
    {
      "entropy": 1.65372101465861,
      "epoch": 0.9025843838400484,
      "grad_norm": 0.7767542004585266,
      "learning_rate": 1.2846505076387794e-05,
      "loss": 1.3946,
      "mean_token_accuracy": 0.6664103666941324,
      "num_tokens": 1376842688.0,
      "step": 8216
    },
    {
      "entropy": 1.682920217514038,
      "epoch": 0.9026942407514212,
      "grad_norm": 0.6500419974327087,
      "learning_rate": 1.284493797927501e-05,
      "loss": 1.488,
      "mean_token_accuracy": 0.641838863492012,
      "num_tokens": 1377060077.0,
      "step": 8217
    },
    {
      "entropy": 1.6799386739730835,
      "epoch": 0.9028040976627942,
      "grad_norm": 0.7521069049835205,
      "learning_rate": 1.2843370823770776e-05,
      "loss": 1.4117,
      "mean_token_accuracy": 0.6611147572596868,
      "num_tokens": 1377218796.0,
      "step": 8218
    },
    {
      "entropy": 1.6649762590726216,
      "epoch": 0.9029139545741671,
      "grad_norm": 0.8042888641357422,
      "learning_rate": 1.2841803609924684e-05,
      "loss": 1.4148,
      "mean_token_accuracy": 0.6492630541324615,
      "num_tokens": 1377444988.0,
      "step": 8219
    },
    {
      "entropy": 1.6619918942451477,
      "epoch": 0.9030238114855401,
      "grad_norm": 0.6244032382965088,
      "learning_rate": 1.284023633778634e-05,
      "loss": 1.2809,
      "mean_token_accuracy": 0.6721317023038864,
      "num_tokens": 1377588973.0,
      "step": 8220
    },
    {
      "entropy": 1.7610027194023132,
      "epoch": 0.903133668396913,
      "grad_norm": 0.7928817272186279,
      "learning_rate": 1.2838669007405343e-05,
      "loss": 1.4796,
      "mean_token_accuracy": 0.6414338201284409,
      "num_tokens": 1377760628.0,
      "step": 8221
    },
    {
      "entropy": 1.666873186826706,
      "epoch": 0.903243525308286,
      "grad_norm": 0.7573736310005188,
      "learning_rate": 1.2837101618831298e-05,
      "loss": 1.2919,
      "mean_token_accuracy": 0.6718289206425349,
      "num_tokens": 1377896394.0,
      "step": 8222
    },
    {
      "entropy": 1.659334381421407,
      "epoch": 0.9033533822196589,
      "grad_norm": 0.6099801659584045,
      "learning_rate": 1.2835534172113818e-05,
      "loss": 1.3683,
      "mean_token_accuracy": 0.6715717862049738,
      "num_tokens": 1378074075.0,
      "step": 8223
    },
    {
      "entropy": 1.7113625705242157,
      "epoch": 0.9034632391310319,
      "grad_norm": 0.8202866911888123,
      "learning_rate": 1.2833966667302507e-05,
      "loss": 1.3022,
      "mean_token_accuracy": 0.6690480063358942,
      "num_tokens": 1378201013.0,
      "step": 8224
    },
    {
      "entropy": 1.6659850974877675,
      "epoch": 0.9035730960424048,
      "grad_norm": 0.6271844506263733,
      "learning_rate": 1.283239910444698e-05,
      "loss": 1.3199,
      "mean_token_accuracy": 0.659883846839269,
      "num_tokens": 1378393507.0,
      "step": 8225
    },
    {
      "entropy": 1.6229958931605022,
      "epoch": 0.9036829529537777,
      "grad_norm": 0.6993024945259094,
      "learning_rate": 1.2830831483596843e-05,
      "loss": 1.3524,
      "mean_token_accuracy": 0.6596012363831202,
      "num_tokens": 1378561370.0,
      "step": 8226
    },
    {
      "entropy": 1.7114948133627574,
      "epoch": 0.9037928098651506,
      "grad_norm": 0.7609866857528687,
      "learning_rate": 1.2829263804801717e-05,
      "loss": 1.2955,
      "mean_token_accuracy": 0.6641099601984024,
      "num_tokens": 1378671487.0,
      "step": 8227
    },
    {
      "entropy": 1.6923895478248596,
      "epoch": 0.9039026667765235,
      "grad_norm": 0.6936889290809631,
      "learning_rate": 1.2827696068111215e-05,
      "loss": 1.3362,
      "mean_token_accuracy": 0.6670081863800684,
      "num_tokens": 1378865187.0,
      "step": 8228
    },
    {
      "entropy": 1.6573287546634674,
      "epoch": 0.9040125236878965,
      "grad_norm": 0.768925666809082,
      "learning_rate": 1.2826128273574956e-05,
      "loss": 1.2579,
      "mean_token_accuracy": 0.6781423836946487,
      "num_tokens": 1378998735.0,
      "step": 8229
    },
    {
      "entropy": 1.7605082790056865,
      "epoch": 0.9041223805992694,
      "grad_norm": 0.8298249244689941,
      "learning_rate": 1.2824560421242561e-05,
      "loss": 1.3718,
      "mean_token_accuracy": 0.6664842814207077,
      "num_tokens": 1379115376.0,
      "step": 8230
    },
    {
      "entropy": 1.7072460353374481,
      "epoch": 0.9042322375106424,
      "grad_norm": 0.6020426154136658,
      "learning_rate": 1.282299251116365e-05,
      "loss": 1.4243,
      "mean_token_accuracy": 0.6609440296888351,
      "num_tokens": 1379263910.0,
      "step": 8231
    },
    {
      "entropy": 1.684839407602946,
      "epoch": 0.9043420944220153,
      "grad_norm": 0.6894782185554504,
      "learning_rate": 1.2821424543387847e-05,
      "loss": 1.2821,
      "mean_token_accuracy": 0.6726427723964056,
      "num_tokens": 1379417480.0,
      "step": 8232
    },
    {
      "entropy": 1.6503340899944305,
      "epoch": 0.9044519513333883,
      "grad_norm": 0.5822688937187195,
      "learning_rate": 1.281985651796478e-05,
      "loss": 1.4296,
      "mean_token_accuracy": 0.649740070104599,
      "num_tokens": 1379665136.0,
      "step": 8233
    },
    {
      "entropy": 1.6690570612748463,
      "epoch": 0.9045618082447612,
      "grad_norm": 0.6308638453483582,
      "learning_rate": 1.2818288434944072e-05,
      "loss": 1.3888,
      "mean_token_accuracy": 0.6529064277807871,
      "num_tokens": 1379883176.0,
      "step": 8234
    },
    {
      "entropy": 1.7349829475084941,
      "epoch": 0.9046716651561342,
      "grad_norm": 0.6335077881813049,
      "learning_rate": 1.2816720294375356e-05,
      "loss": 1.5175,
      "mean_token_accuracy": 0.6491954425970713,
      "num_tokens": 1380137225.0,
      "step": 8235
    },
    {
      "entropy": 1.754395325978597,
      "epoch": 0.9047815220675071,
      "grad_norm": 0.5818184018135071,
      "learning_rate": 1.281515209630826e-05,
      "loss": 1.4973,
      "mean_token_accuracy": 0.6262113898992538,
      "num_tokens": 1380356095.0,
      "step": 8236
    },
    {
      "entropy": 1.7043922344843547,
      "epoch": 0.9048913789788801,
      "grad_norm": 0.6699923276901245,
      "learning_rate": 1.281358384079242e-05,
      "loss": 1.4521,
      "mean_token_accuracy": 0.6527075817187628,
      "num_tokens": 1380514717.0,
      "step": 8237
    },
    {
      "entropy": 1.690778245528539,
      "epoch": 0.9050012358902529,
      "grad_norm": 0.6731590628623962,
      "learning_rate": 1.2812015527877468e-05,
      "loss": 1.3295,
      "mean_token_accuracy": 0.6692969848712286,
      "num_tokens": 1380638078.0,
      "step": 8238
    },
    {
      "entropy": 1.7137603163719177,
      "epoch": 0.9051110928016258,
      "grad_norm": 0.9683634042739868,
      "learning_rate": 1.281044715761304e-05,
      "loss": 1.0955,
      "mean_token_accuracy": 0.6890260974566141,
      "num_tokens": 1380809601.0,
      "step": 8239
    },
    {
      "entropy": 1.709503750006358,
      "epoch": 0.9052209497129988,
      "grad_norm": 0.6515042781829834,
      "learning_rate": 1.2808878730048776e-05,
      "loss": 1.3787,
      "mean_token_accuracy": 0.6661019821961721,
      "num_tokens": 1380961836.0,
      "step": 8240
    },
    {
      "entropy": 1.7124955157438915,
      "epoch": 0.9053308066243717,
      "grad_norm": 0.6768700480461121,
      "learning_rate": 1.2807310245234315e-05,
      "loss": 1.3232,
      "mean_token_accuracy": 0.6700140833854675,
      "num_tokens": 1381120067.0,
      "step": 8241
    },
    {
      "entropy": 1.7447414994239807,
      "epoch": 0.9054406635357447,
      "grad_norm": 0.6183107495307922,
      "learning_rate": 1.2805741703219298e-05,
      "loss": 1.394,
      "mean_token_accuracy": 0.6493855814139048,
      "num_tokens": 1381295366.0,
      "step": 8242
    },
    {
      "entropy": 1.6751858790715535,
      "epoch": 0.9055505204471176,
      "grad_norm": 0.7140679359436035,
      "learning_rate": 1.280417310405337e-05,
      "loss": 1.2097,
      "mean_token_accuracy": 0.678791751464208,
      "num_tokens": 1381414709.0,
      "step": 8243
    },
    {
      "entropy": 1.7946178317070007,
      "epoch": 0.9056603773584906,
      "grad_norm": 0.7667945027351379,
      "learning_rate": 1.280260444778618e-05,
      "loss": 1.6662,
      "mean_token_accuracy": 0.6264889935652415,
      "num_tokens": 1381601348.0,
      "step": 8244
    },
    {
      "entropy": 1.733892410993576,
      "epoch": 0.9057702342698635,
      "grad_norm": 5.535741806030273,
      "learning_rate": 1.2801035734467367e-05,
      "loss": 1.5474,
      "mean_token_accuracy": 0.6549767504135767,
      "num_tokens": 1381785359.0,
      "step": 8245
    },
    {
      "entropy": 1.6751560469468434,
      "epoch": 0.9058800911812365,
      "grad_norm": 0.6716073751449585,
      "learning_rate": 1.2799466964146588e-05,
      "loss": 1.2718,
      "mean_token_accuracy": 0.6745875130097071,
      "num_tokens": 1381912751.0,
      "step": 8246
    },
    {
      "entropy": 1.6946379244327545,
      "epoch": 0.9059899480926094,
      "grad_norm": 0.7089009284973145,
      "learning_rate": 1.2797898136873488e-05,
      "loss": 1.3159,
      "mean_token_accuracy": 0.6636594186226527,
      "num_tokens": 1382073482.0,
      "step": 8247
    },
    {
      "entropy": 1.6982887486616771,
      "epoch": 0.9060998050039824,
      "grad_norm": 0.7040889263153076,
      "learning_rate": 1.2796329252697723e-05,
      "loss": 1.4122,
      "mean_token_accuracy": 0.6548338035742441,
      "num_tokens": 1382261132.0,
      "step": 8248
    },
    {
      "entropy": 1.7026695410410564,
      "epoch": 0.9062096619153552,
      "grad_norm": 0.6209987998008728,
      "learning_rate": 1.2794760311668946e-05,
      "loss": 1.4881,
      "mean_token_accuracy": 0.6293542782465616,
      "num_tokens": 1382448970.0,
      "step": 8249
    },
    {
      "entropy": 1.7288841704527538,
      "epoch": 0.9063195188267282,
      "grad_norm": 0.6209704875946045,
      "learning_rate": 1.2793191313836815e-05,
      "loss": 1.3709,
      "mean_token_accuracy": 0.6561005115509033,
      "num_tokens": 1382661028.0,
      "step": 8250
    },
    {
      "entropy": 1.6416561702887218,
      "epoch": 0.9064293757381011,
      "grad_norm": 0.8076834678649902,
      "learning_rate": 1.2791622259250986e-05,
      "loss": 1.2379,
      "mean_token_accuracy": 0.6792215506235758,
      "num_tokens": 1382780205.0,
      "step": 8251
    },
    {
      "entropy": 1.6922811170419056,
      "epoch": 0.9065392326494741,
      "grad_norm": 0.5980085730552673,
      "learning_rate": 1.2790053147961119e-05,
      "loss": 1.3521,
      "mean_token_accuracy": 0.6647952993710836,
      "num_tokens": 1382952918.0,
      "step": 8252
    },
    {
      "entropy": 1.6755750874678295,
      "epoch": 0.906649089560847,
      "grad_norm": 0.7372617721557617,
      "learning_rate": 1.2788483980016878e-05,
      "loss": 1.367,
      "mean_token_accuracy": 0.6559625367323557,
      "num_tokens": 1383126488.0,
      "step": 8253
    },
    {
      "entropy": 1.7112425963083904,
      "epoch": 0.9067589464722199,
      "grad_norm": 0.634032666683197,
      "learning_rate": 1.2786914755467924e-05,
      "loss": 1.4346,
      "mean_token_accuracy": 0.6412641257047653,
      "num_tokens": 1383322709.0,
      "step": 8254
    },
    {
      "entropy": 1.6903300682703655,
      "epoch": 0.9068688033835929,
      "grad_norm": 0.6346539855003357,
      "learning_rate": 1.2785345474363922e-05,
      "loss": 1.457,
      "mean_token_accuracy": 0.6424979070822397,
      "num_tokens": 1383520924.0,
      "step": 8255
    },
    {
      "entropy": 1.7225427826245625,
      "epoch": 0.9069786602949658,
      "grad_norm": 0.8833540678024292,
      "learning_rate": 1.2783776136754544e-05,
      "loss": 1.1687,
      "mean_token_accuracy": 0.690707857410113,
      "num_tokens": 1383642044.0,
      "step": 8256
    },
    {
      "entropy": 1.660976231098175,
      "epoch": 0.9070885172063388,
      "grad_norm": 0.6287848353385925,
      "learning_rate": 1.2782206742689453e-05,
      "loss": 1.434,
      "mean_token_accuracy": 0.6516825159390768,
      "num_tokens": 1383861090.0,
      "step": 8257
    },
    {
      "entropy": 1.784266173839569,
      "epoch": 0.9071983741177116,
      "grad_norm": 0.7297434210777283,
      "learning_rate": 1.278063729221832e-05,
      "loss": 1.4181,
      "mean_token_accuracy": 0.6553197354078293,
      "num_tokens": 1384011860.0,
      "step": 8258
    },
    {
      "entropy": 1.704436033964157,
      "epoch": 0.9073082310290846,
      "grad_norm": 0.7265962362289429,
      "learning_rate": 1.2779067785390822e-05,
      "loss": 1.5012,
      "mean_token_accuracy": 0.6423581590255102,
      "num_tokens": 1384221197.0,
      "step": 8259
    },
    {
      "entropy": 1.7151046693325043,
      "epoch": 0.9074180879404575,
      "grad_norm": 0.6915941834449768,
      "learning_rate": 1.277749822225663e-05,
      "loss": 1.2919,
      "mean_token_accuracy": 0.6690166046222051,
      "num_tokens": 1384407824.0,
      "step": 8260
    },
    {
      "entropy": 1.71536985039711,
      "epoch": 0.9075279448518305,
      "grad_norm": 0.6239339709281921,
      "learning_rate": 1.2775928602865418e-05,
      "loss": 1.4164,
      "mean_token_accuracy": 0.646524965763092,
      "num_tokens": 1384587139.0,
      "step": 8261
    },
    {
      "entropy": 1.7479670147101085,
      "epoch": 0.9076378017632034,
      "grad_norm": 0.6657982468605042,
      "learning_rate": 1.2774358927266869e-05,
      "loss": 1.399,
      "mean_token_accuracy": 0.6403181304534277,
      "num_tokens": 1384776964.0,
      "step": 8262
    },
    {
      "entropy": 1.6458578010400136,
      "epoch": 0.9077476586745764,
      "grad_norm": 0.6543890833854675,
      "learning_rate": 1.2772789195510658e-05,
      "loss": 1.382,
      "mean_token_accuracy": 0.6550763497749964,
      "num_tokens": 1384967491.0,
      "step": 8263
    },
    {
      "entropy": 1.7436320980389912,
      "epoch": 0.9078575155859493,
      "grad_norm": 0.683189332485199,
      "learning_rate": 1.2771219407646465e-05,
      "loss": 1.4977,
      "mean_token_accuracy": 0.6435463974873225,
      "num_tokens": 1385186079.0,
      "step": 8264
    },
    {
      "entropy": 1.6882221698760986,
      "epoch": 0.9079673724973223,
      "grad_norm": 0.9108843803405762,
      "learning_rate": 1.2769649563723979e-05,
      "loss": 1.3097,
      "mean_token_accuracy": 0.6750803043444952,
      "num_tokens": 1385311026.0,
      "step": 8265
    },
    {
      "entropy": 1.7177577217419941,
      "epoch": 0.9080772294086952,
      "grad_norm": 0.681003987789154,
      "learning_rate": 1.276807966379288e-05,
      "loss": 1.2956,
      "mean_token_accuracy": 0.6633460720380148,
      "num_tokens": 1385507602.0,
      "step": 8266
    },
    {
      "entropy": 1.7337321539719899,
      "epoch": 0.9081870863200681,
      "grad_norm": 27.118099212646484,
      "learning_rate": 1.2766509707902856e-05,
      "loss": 1.382,
      "mean_token_accuracy": 0.6552288780609766,
      "num_tokens": 1385687771.0,
      "step": 8267
    },
    {
      "entropy": 1.7292255461215973,
      "epoch": 0.9082969432314411,
      "grad_norm": 0.722960352897644,
      "learning_rate": 1.27649396961036e-05,
      "loss": 1.4267,
      "mean_token_accuracy": 0.6583873132864634,
      "num_tokens": 1385851761.0,
      "step": 8268
    },
    {
      "entropy": 1.6824017763137817,
      "epoch": 0.9084068001428139,
      "grad_norm": 0.74224454164505,
      "learning_rate": 1.2763369628444793e-05,
      "loss": 1.4162,
      "mean_token_accuracy": 0.6561558942000071,
      "num_tokens": 1385995094.0,
      "step": 8269
    },
    {
      "entropy": 1.774072657028834,
      "epoch": 0.9085166570541869,
      "grad_norm": 0.6898522973060608,
      "learning_rate": 1.2761799504976133e-05,
      "loss": 1.6522,
      "mean_token_accuracy": 0.6376588419079781,
      "num_tokens": 1386198262.0,
      "step": 8270
    },
    {
      "entropy": 1.7188159724076588,
      "epoch": 0.9086265139655598,
      "grad_norm": 0.6473353505134583,
      "learning_rate": 1.2760229325747316e-05,
      "loss": 1.3344,
      "mean_token_accuracy": 0.6641741444667181,
      "num_tokens": 1386372553.0,
      "step": 8271
    },
    {
      "entropy": 1.6474638481934865,
      "epoch": 0.9087363708769328,
      "grad_norm": 0.6398204565048218,
      "learning_rate": 1.2758659090808032e-05,
      "loss": 1.4653,
      "mean_token_accuracy": 0.6392107456922531,
      "num_tokens": 1386547723.0,
      "step": 8272
    },
    {
      "entropy": 1.7262985209623973,
      "epoch": 0.9088462277883057,
      "grad_norm": 0.7074971199035645,
      "learning_rate": 1.2757088800207977e-05,
      "loss": 1.4144,
      "mean_token_accuracy": 0.6551804691553116,
      "num_tokens": 1386692276.0,
      "step": 8273
    },
    {
      "entropy": 1.7006110846996307,
      "epoch": 0.9089560846996787,
      "grad_norm": 0.7677414417266846,
      "learning_rate": 1.275551845399686e-05,
      "loss": 1.3142,
      "mean_token_accuracy": 0.6622739533583323,
      "num_tokens": 1386841086.0,
      "step": 8274
    },
    {
      "entropy": 1.727352688709895,
      "epoch": 0.9090659416110516,
      "grad_norm": 0.660779595375061,
      "learning_rate": 1.275394805222437e-05,
      "loss": 1.3278,
      "mean_token_accuracy": 0.6708957056204478,
      "num_tokens": 1386990369.0,
      "step": 8275
    },
    {
      "entropy": 1.6799138486385345,
      "epoch": 0.9091757985224246,
      "grad_norm": 0.6254904270172119,
      "learning_rate": 1.2752377594940215e-05,
      "loss": 1.337,
      "mean_token_accuracy": 0.6697245140870413,
      "num_tokens": 1387149561.0,
      "step": 8276
    },
    {
      "entropy": 1.7286913692951202,
      "epoch": 0.9092856554337975,
      "grad_norm": 0.6610144376754761,
      "learning_rate": 1.27508070821941e-05,
      "loss": 1.3642,
      "mean_token_accuracy": 0.6627133886019388,
      "num_tokens": 1387344643.0,
      "step": 8277
    },
    {
      "entropy": 1.764141748348872,
      "epoch": 0.9093955123451705,
      "grad_norm": 0.7539360523223877,
      "learning_rate": 1.2749236514035727e-05,
      "loss": 1.3591,
      "mean_token_accuracy": 0.6495264520247778,
      "num_tokens": 1387478751.0,
      "step": 8278
    },
    {
      "entropy": 1.7027659912904103,
      "epoch": 0.9095053692565434,
      "grad_norm": 0.6264234185218811,
      "learning_rate": 1.2747665890514808e-05,
      "loss": 1.3784,
      "mean_token_accuracy": 0.6494586914777756,
      "num_tokens": 1387632284.0,
      "step": 8279
    },
    {
      "entropy": 1.7547483344872792,
      "epoch": 0.9096152261679162,
      "grad_norm": 0.8345460295677185,
      "learning_rate": 1.2746095211681053e-05,
      "loss": 1.3302,
      "mean_token_accuracy": 0.6681412657101949,
      "num_tokens": 1387757487.0,
      "step": 8280
    },
    {
      "entropy": 1.6923251152038574,
      "epoch": 0.9097250830792892,
      "grad_norm": 0.6497990489006042,
      "learning_rate": 1.2744524477584171e-05,
      "loss": 1.4038,
      "mean_token_accuracy": 0.6624845961729685,
      "num_tokens": 1387931911.0,
      "step": 8281
    },
    {
      "entropy": 1.682264655828476,
      "epoch": 0.9098349399906621,
      "grad_norm": 1.6480847597122192,
      "learning_rate": 1.2742953688273877e-05,
      "loss": 1.2411,
      "mean_token_accuracy": 0.6727783133586248,
      "num_tokens": 1388125678.0,
      "step": 8282
    },
    {
      "entropy": 1.6904015044371288,
      "epoch": 0.9099447969020351,
      "grad_norm": 0.67786705493927,
      "learning_rate": 1.2741382843799879e-05,
      "loss": 1.3375,
      "mean_token_accuracy": 0.6675763030846914,
      "num_tokens": 1388267967.0,
      "step": 8283
    },
    {
      "entropy": 1.7203630308310192,
      "epoch": 0.910054653813408,
      "grad_norm": 0.7089915871620178,
      "learning_rate": 1.2739811944211902e-05,
      "loss": 1.5562,
      "mean_token_accuracy": 0.6400385747353236,
      "num_tokens": 1388461097.0,
      "step": 8284
    },
    {
      "entropy": 1.6640840868155162,
      "epoch": 0.910164510724781,
      "grad_norm": 0.7004643678665161,
      "learning_rate": 1.273824098955966e-05,
      "loss": 1.2948,
      "mean_token_accuracy": 0.6744209975004196,
      "num_tokens": 1388587063.0,
      "step": 8285
    },
    {
      "entropy": 1.7536252836386363,
      "epoch": 0.9102743676361539,
      "grad_norm": 0.7096135020256042,
      "learning_rate": 1.2736669979892874e-05,
      "loss": 1.5139,
      "mean_token_accuracy": 0.6507594784100851,
      "num_tokens": 1388788368.0,
      "step": 8286
    },
    {
      "entropy": 1.7375941177209218,
      "epoch": 0.9103842245475269,
      "grad_norm": 0.6821257472038269,
      "learning_rate": 1.2735098915261264e-05,
      "loss": 1.348,
      "mean_token_accuracy": 0.6525353888670603,
      "num_tokens": 1388976824.0,
      "step": 8287
    },
    {
      "entropy": 1.7107720772425334,
      "epoch": 0.9104940814588998,
      "grad_norm": 0.717570960521698,
      "learning_rate": 1.2733527795714558e-05,
      "loss": 1.4769,
      "mean_token_accuracy": 0.6409533818562826,
      "num_tokens": 1389192824.0,
      "step": 8288
    },
    {
      "entropy": 1.7379231850306194,
      "epoch": 0.9106039383702728,
      "grad_norm": 0.8190452456474304,
      "learning_rate": 1.2731956621302477e-05,
      "loss": 1.4556,
      "mean_token_accuracy": 0.6462369511524836,
      "num_tokens": 1389373761.0,
      "step": 8289
    },
    {
      "entropy": 1.7158324718475342,
      "epoch": 0.9107137952816456,
      "grad_norm": 0.7872406840324402,
      "learning_rate": 1.2730385392074751e-05,
      "loss": 1.63,
      "mean_token_accuracy": 0.6238044649362564,
      "num_tokens": 1389557573.0,
      "step": 8290
    },
    {
      "entropy": 1.7453622718652089,
      "epoch": 0.9108236521930186,
      "grad_norm": 0.7404714226722717,
      "learning_rate": 1.2728814108081105e-05,
      "loss": 1.2521,
      "mean_token_accuracy": 0.6764761656522751,
      "num_tokens": 1389670922.0,
      "step": 8291
    },
    {
      "entropy": 1.7301382223765056,
      "epoch": 0.9109335091043915,
      "grad_norm": 0.6327300071716309,
      "learning_rate": 1.272724276937127e-05,
      "loss": 1.3361,
      "mean_token_accuracy": 0.6668089230855306,
      "num_tokens": 1389851239.0,
      "step": 8292
    },
    {
      "entropy": 1.719651500384013,
      "epoch": 0.9110433660157645,
      "grad_norm": 0.564914882183075,
      "learning_rate": 1.2725671375994984e-05,
      "loss": 1.4253,
      "mean_token_accuracy": 0.6573879073063532,
      "num_tokens": 1390084857.0,
      "step": 8293
    },
    {
      "entropy": 1.695727248986562,
      "epoch": 0.9111532229271374,
      "grad_norm": 0.6507130861282349,
      "learning_rate": 1.2724099928001977e-05,
      "loss": 1.3804,
      "mean_token_accuracy": 0.6489260047674179,
      "num_tokens": 1390242291.0,
      "step": 8294
    },
    {
      "entropy": 1.7323060234387715,
      "epoch": 0.9112630798385103,
      "grad_norm": 0.6349548101425171,
      "learning_rate": 1.2722528425441978e-05,
      "loss": 1.4971,
      "mean_token_accuracy": 0.6366077115138372,
      "num_tokens": 1390456782.0,
      "step": 8295
    },
    {
      "entropy": 1.6607350210348766,
      "epoch": 0.9113729367498833,
      "grad_norm": 0.6189599633216858,
      "learning_rate": 1.2720956868364737e-05,
      "loss": 1.3644,
      "mean_token_accuracy": 0.6537392934163412,
      "num_tokens": 1390624854.0,
      "step": 8296
    },
    {
      "entropy": 1.676759531100591,
      "epoch": 0.9114827936612562,
      "grad_norm": 0.682950496673584,
      "learning_rate": 1.2719385256819983e-05,
      "loss": 1.2863,
      "mean_token_accuracy": 0.6645957181851069,
      "num_tokens": 1390765067.0,
      "step": 8297
    },
    {
      "entropy": 1.7330308457215626,
      "epoch": 0.9115926505726292,
      "grad_norm": 0.7536049485206604,
      "learning_rate": 1.2717813590857462e-05,
      "loss": 1.4905,
      "mean_token_accuracy": 0.6402916212876638,
      "num_tokens": 1390972898.0,
      "step": 8298
    },
    {
      "entropy": 1.706084320942561,
      "epoch": 0.9117025074840021,
      "grad_norm": 0.61712247133255,
      "learning_rate": 1.2716241870526913e-05,
      "loss": 1.412,
      "mean_token_accuracy": 0.6601520677407583,
      "num_tokens": 1391173481.0,
      "step": 8299
    },
    {
      "entropy": 1.7238514224688213,
      "epoch": 0.911812364395375,
      "grad_norm": 0.7173047661781311,
      "learning_rate": 1.2714670095878085e-05,
      "loss": 1.3898,
      "mean_token_accuracy": 0.6515658646821976,
      "num_tokens": 1391342776.0,
      "step": 8300
    },
    {
      "entropy": 1.6747208436330159,
      "epoch": 0.9119222213067479,
      "grad_norm": 0.6746057868003845,
      "learning_rate": 1.2713098266960717e-05,
      "loss": 1.4247,
      "mean_token_accuracy": 0.6679030358791351,
      "num_tokens": 1391480315.0,
      "step": 8301
    },
    {
      "entropy": 1.70952441294988,
      "epoch": 0.9120320782181209,
      "grad_norm": 0.6282344460487366,
      "learning_rate": 1.2711526383824567e-05,
      "loss": 1.3414,
      "mean_token_accuracy": 0.6575956245263418,
      "num_tokens": 1391643523.0,
      "step": 8302
    },
    {
      "entropy": 1.7618720829486847,
      "epoch": 0.9121419351294938,
      "grad_norm": 0.6925609707832336,
      "learning_rate": 1.2709954446519372e-05,
      "loss": 1.3791,
      "mean_token_accuracy": 0.6538346409797668,
      "num_tokens": 1391809693.0,
      "step": 8303
    },
    {
      "entropy": 1.7483843763669331,
      "epoch": 0.9122517920408668,
      "grad_norm": 0.807517945766449,
      "learning_rate": 1.2708382455094893e-05,
      "loss": 1.4168,
      "mean_token_accuracy": 0.6449888050556183,
      "num_tokens": 1391968941.0,
      "step": 8304
    },
    {
      "entropy": 1.6495538353919983,
      "epoch": 0.9123616489522397,
      "grad_norm": 0.5905596017837524,
      "learning_rate": 1.2706810409600877e-05,
      "loss": 1.4587,
      "mean_token_accuracy": 0.6530623485644659,
      "num_tokens": 1392185953.0,
      "step": 8305
    },
    {
      "entropy": 1.638418326775233,
      "epoch": 0.9124715058636127,
      "grad_norm": 0.7588011622428894,
      "learning_rate": 1.2705238310087082e-05,
      "loss": 1.4184,
      "mean_token_accuracy": 0.659953753153483,
      "num_tokens": 1392375019.0,
      "step": 8306
    },
    {
      "entropy": 1.7082325716813405,
      "epoch": 0.9125813627749856,
      "grad_norm": 0.586554229259491,
      "learning_rate": 1.270366615660326e-05,
      "loss": 1.4373,
      "mean_token_accuracy": 0.6499194204807281,
      "num_tokens": 1392615284.0,
      "step": 8307
    },
    {
      "entropy": 1.7017434040705364,
      "epoch": 0.9126912196863585,
      "grad_norm": 0.7278909683227539,
      "learning_rate": 1.2702093949199177e-05,
      "loss": 1.4675,
      "mean_token_accuracy": 0.6527448892593384,
      "num_tokens": 1392790159.0,
      "step": 8308
    },
    {
      "entropy": 1.6655905544757843,
      "epoch": 0.9128010765977315,
      "grad_norm": 1.0901970863342285,
      "learning_rate": 1.2700521687924583e-05,
      "loss": 1.3658,
      "mean_token_accuracy": 0.6630384723345438,
      "num_tokens": 1392957262.0,
      "step": 8309
    },
    {
      "entropy": 1.7326476275920868,
      "epoch": 0.9129109335091043,
      "grad_norm": 0.6388905048370361,
      "learning_rate": 1.2698949372829248e-05,
      "loss": 1.3687,
      "mean_token_accuracy": 0.6470983376105627,
      "num_tokens": 1393116396.0,
      "step": 8310
    },
    {
      "entropy": 1.6326172451178234,
      "epoch": 0.9130207904204773,
      "grad_norm": 0.7294114828109741,
      "learning_rate": 1.2697377003962925e-05,
      "loss": 1.3318,
      "mean_token_accuracy": 0.6786777973175049,
      "num_tokens": 1393326810.0,
      "step": 8311
    },
    {
      "entropy": 1.6858830153942108,
      "epoch": 0.9131306473318502,
      "grad_norm": 0.7388503551483154,
      "learning_rate": 1.269580458137539e-05,
      "loss": 1.4234,
      "mean_token_accuracy": 0.6717520157496134,
      "num_tokens": 1393522621.0,
      "step": 8312
    },
    {
      "entropy": 1.7482396562894185,
      "epoch": 0.9132405042432232,
      "grad_norm": 0.9013400077819824,
      "learning_rate": 1.2694232105116401e-05,
      "loss": 1.5036,
      "mean_token_accuracy": 0.6550756047169367,
      "num_tokens": 1393690191.0,
      "step": 8313
    },
    {
      "entropy": 1.7518030802408855,
      "epoch": 0.9133503611545961,
      "grad_norm": 0.6710026264190674,
      "learning_rate": 1.269265957523573e-05,
      "loss": 1.6336,
      "mean_token_accuracy": 0.629910779496034,
      "num_tokens": 1393926208.0,
      "step": 8314
    },
    {
      "entropy": 1.7153498927752178,
      "epoch": 0.9134602180659691,
      "grad_norm": 0.6707825064659119,
      "learning_rate": 1.2691086991783147e-05,
      "loss": 1.6033,
      "mean_token_accuracy": 0.6374608427286148,
      "num_tokens": 1394147685.0,
      "step": 8315
    },
    {
      "entropy": 1.7012030879656475,
      "epoch": 0.913570074977342,
      "grad_norm": 0.6023955345153809,
      "learning_rate": 1.2689514354808425e-05,
      "loss": 1.4334,
      "mean_token_accuracy": 0.6374744673569998,
      "num_tokens": 1394333296.0,
      "step": 8316
    },
    {
      "entropy": 1.7281060020128887,
      "epoch": 0.913679931888715,
      "grad_norm": 0.714945912361145,
      "learning_rate": 1.268794166436133e-05,
      "loss": 1.5645,
      "mean_token_accuracy": 0.6323638061682383,
      "num_tokens": 1394552789.0,
      "step": 8317
    },
    {
      "entropy": 1.6209270258744557,
      "epoch": 0.9137897888000879,
      "grad_norm": 0.6666091084480286,
      "learning_rate": 1.2686368920491648e-05,
      "loss": 1.2327,
      "mean_token_accuracy": 0.6780135631561279,
      "num_tokens": 1394674019.0,
      "step": 8318
    },
    {
      "entropy": 1.736515998840332,
      "epoch": 0.9138996457114609,
      "grad_norm": 0.7664490938186646,
      "learning_rate": 1.2684796123249145e-05,
      "loss": 1.3157,
      "mean_token_accuracy": 0.6623199184735616,
      "num_tokens": 1394823043.0,
      "step": 8319
    },
    {
      "entropy": 1.6709323624769847,
      "epoch": 0.9140095026228338,
      "grad_norm": 0.6247878670692444,
      "learning_rate": 1.2683223272683604e-05,
      "loss": 1.3596,
      "mean_token_accuracy": 0.6630469262599945,
      "num_tokens": 1395012780.0,
      "step": 8320
    },
    {
      "entropy": 1.7542273203531902,
      "epoch": 0.9141193595342066,
      "grad_norm": 0.6201014518737793,
      "learning_rate": 1.2681650368844804e-05,
      "loss": 1.5317,
      "mean_token_accuracy": 0.6245150317748388,
      "num_tokens": 1395180061.0,
      "step": 8321
    },
    {
      "entropy": 1.7659225364526112,
      "epoch": 0.9142292164455796,
      "grad_norm": 0.8412492275238037,
      "learning_rate": 1.2680077411782533e-05,
      "loss": 1.4629,
      "mean_token_accuracy": 0.6547584036986033,
      "num_tokens": 1395322290.0,
      "step": 8322
    },
    {
      "entropy": 1.7514819204807281,
      "epoch": 0.9143390733569525,
      "grad_norm": 0.6405079960823059,
      "learning_rate": 1.2678504401546563e-05,
      "loss": 1.4131,
      "mean_token_accuracy": 0.6564811915159225,
      "num_tokens": 1395491553.0,
      "step": 8323
    },
    {
      "entropy": 1.692853420972824,
      "epoch": 0.9144489302683255,
      "grad_norm": 0.7179692387580872,
      "learning_rate": 1.2676931338186688e-05,
      "loss": 1.3103,
      "mean_token_accuracy": 0.6628242333730062,
      "num_tokens": 1395638800.0,
      "step": 8324
    },
    {
      "entropy": 1.7319222788016002,
      "epoch": 0.9145587871796984,
      "grad_norm": 0.621341347694397,
      "learning_rate": 1.2675358221752691e-05,
      "loss": 1.3553,
      "mean_token_accuracy": 0.6674741456906,
      "num_tokens": 1395825432.0,
      "step": 8325
    },
    {
      "entropy": 1.7467030783494313,
      "epoch": 0.9146686440910714,
      "grad_norm": 0.712310791015625,
      "learning_rate": 1.2673785052294364e-05,
      "loss": 1.4939,
      "mean_token_accuracy": 0.6631985902786255,
      "num_tokens": 1395995766.0,
      "step": 8326
    },
    {
      "entropy": 1.6573481957117717,
      "epoch": 0.9147785010024443,
      "grad_norm": 0.6593137979507446,
      "learning_rate": 1.267221182986149e-05,
      "loss": 1.3545,
      "mean_token_accuracy": 0.6750344733397166,
      "num_tokens": 1396168861.0,
      "step": 8327
    },
    {
      "entropy": 1.6669391791025798,
      "epoch": 0.9148883579138173,
      "grad_norm": 0.58598792552948,
      "learning_rate": 1.2670638554503867e-05,
      "loss": 1.3189,
      "mean_token_accuracy": 0.6607841104269028,
      "num_tokens": 1396310664.0,
      "step": 8328
    },
    {
      "entropy": 1.7750846942265828,
      "epoch": 0.9149982148251902,
      "grad_norm": 0.6623988747596741,
      "learning_rate": 1.2669065226271284e-05,
      "loss": 1.4966,
      "mean_token_accuracy": 0.6353505253791809,
      "num_tokens": 1396515959.0,
      "step": 8329
    },
    {
      "entropy": 1.6843581199645996,
      "epoch": 0.9151080717365632,
      "grad_norm": 0.6799822449684143,
      "learning_rate": 1.2667491845213545e-05,
      "loss": 1.4068,
      "mean_token_accuracy": 0.6600462645292282,
      "num_tokens": 1396680133.0,
      "step": 8330
    },
    {
      "entropy": 1.6392850279808044,
      "epoch": 0.915217928647936,
      "grad_norm": 0.5755462050437927,
      "learning_rate": 1.2665918411380434e-05,
      "loss": 1.38,
      "mean_token_accuracy": 0.6573647956053416,
      "num_tokens": 1396852839.0,
      "step": 8331
    },
    {
      "entropy": 1.6700959205627441,
      "epoch": 0.915327785559309,
      "grad_norm": 0.6844523549079895,
      "learning_rate": 1.2664344924821758e-05,
      "loss": 1.4268,
      "mean_token_accuracy": 0.6432247956593832,
      "num_tokens": 1397067247.0,
      "step": 8332
    },
    {
      "entropy": 1.8182924290498097,
      "epoch": 0.9154376424706819,
      "grad_norm": 0.6894211173057556,
      "learning_rate": 1.2662771385587317e-05,
      "loss": 1.3992,
      "mean_token_accuracy": 0.649507686495781,
      "num_tokens": 1397187287.0,
      "step": 8333
    },
    {
      "entropy": 1.7245789070924122,
      "epoch": 0.9155474993820548,
      "grad_norm": 0.7190035581588745,
      "learning_rate": 1.266119779372691e-05,
      "loss": 1.5355,
      "mean_token_accuracy": 0.6330128163099289,
      "num_tokens": 1397345435.0,
      "step": 8334
    },
    {
      "entropy": 1.71918981273969,
      "epoch": 0.9156573562934278,
      "grad_norm": 0.782472550868988,
      "learning_rate": 1.2659624149290337e-05,
      "loss": 1.4884,
      "mean_token_accuracy": 0.6548773149649302,
      "num_tokens": 1397524068.0,
      "step": 8335
    },
    {
      "entropy": 1.7045840620994568,
      "epoch": 0.9157672132048007,
      "grad_norm": 0.6515925526618958,
      "learning_rate": 1.2658050452327415e-05,
      "loss": 1.3979,
      "mean_token_accuracy": 0.6536910384893417,
      "num_tokens": 1397679482.0,
      "step": 8336
    },
    {
      "entropy": 1.6657692591349285,
      "epoch": 0.9158770701161737,
      "grad_norm": 0.6342126131057739,
      "learning_rate": 1.2656476702887939e-05,
      "loss": 1.3015,
      "mean_token_accuracy": 0.6769297222296397,
      "num_tokens": 1397858550.0,
      "step": 8337
    },
    {
      "entropy": 1.7451824148495991,
      "epoch": 0.9159869270275466,
      "grad_norm": 0.7401023507118225,
      "learning_rate": 1.2654902901021725e-05,
      "loss": 1.2909,
      "mean_token_accuracy": 0.6768914808829626,
      "num_tokens": 1397963039.0,
      "step": 8338
    },
    {
      "entropy": 1.7285672624905903,
      "epoch": 0.9160967839389196,
      "grad_norm": 0.727428138256073,
      "learning_rate": 1.2653329046778576e-05,
      "loss": 1.4568,
      "mean_token_accuracy": 0.665610060095787,
      "num_tokens": 1398148299.0,
      "step": 8339
    },
    {
      "entropy": 1.7707529664039612,
      "epoch": 0.9162066408502925,
      "grad_norm": 0.8654743432998657,
      "learning_rate": 1.265175514020831e-05,
      "loss": 1.3726,
      "mean_token_accuracy": 0.6515340109666189,
      "num_tokens": 1398290632.0,
      "step": 8340
    },
    {
      "entropy": 1.7380510866641998,
      "epoch": 0.9163164977616655,
      "grad_norm": 0.6711382269859314,
      "learning_rate": 1.2650181181360734e-05,
      "loss": 1.3634,
      "mean_token_accuracy": 0.6581040819485983,
      "num_tokens": 1398430925.0,
      "step": 8341
    },
    {
      "entropy": 1.734023739894231,
      "epoch": 0.9164263546730383,
      "grad_norm": 0.6661319732666016,
      "learning_rate": 1.2648607170285671e-05,
      "loss": 1.3642,
      "mean_token_accuracy": 0.659072607755661,
      "num_tokens": 1398612350.0,
      "step": 8342
    },
    {
      "entropy": 1.70571368932724,
      "epoch": 0.9165362115844113,
      "grad_norm": 0.6126469373703003,
      "learning_rate": 1.2647033107032936e-05,
      "loss": 1.5186,
      "mean_token_accuracy": 0.6387844830751419,
      "num_tokens": 1398842688.0,
      "step": 8343
    },
    {
      "entropy": 1.6804417272408803,
      "epoch": 0.9166460684957842,
      "grad_norm": 0.5771108865737915,
      "learning_rate": 1.2645458991652342e-05,
      "loss": 1.2489,
      "mean_token_accuracy": 0.6804888198773066,
      "num_tokens": 1398998228.0,
      "step": 8344
    },
    {
      "entropy": 1.741776704788208,
      "epoch": 0.9167559254071572,
      "grad_norm": 0.6767376065254211,
      "learning_rate": 1.264388482419371e-05,
      "loss": 1.3365,
      "mean_token_accuracy": 0.6583043287197748,
      "num_tokens": 1399121579.0,
      "step": 8345
    },
    {
      "entropy": 1.6522979438304901,
      "epoch": 0.9168657823185301,
      "grad_norm": 0.7042422294616699,
      "learning_rate": 1.2642310604706868e-05,
      "loss": 1.2792,
      "mean_token_accuracy": 0.6725463817516962,
      "num_tokens": 1399288987.0,
      "step": 8346
    },
    {
      "entropy": 1.7250507672627766,
      "epoch": 0.9169756392299031,
      "grad_norm": 0.5657103657722473,
      "learning_rate": 1.2640736333241634e-05,
      "loss": 1.4876,
      "mean_token_accuracy": 0.6186676770448685,
      "num_tokens": 1399528479.0,
      "step": 8347
    },
    {
      "entropy": 1.7386068999767303,
      "epoch": 0.917085496141276,
      "grad_norm": 0.638064444065094,
      "learning_rate": 1.2639162009847836e-05,
      "loss": 1.4766,
      "mean_token_accuracy": 0.6609574755032858,
      "num_tokens": 1399691992.0,
      "step": 8348
    },
    {
      "entropy": 1.7201377550760906,
      "epoch": 0.9171953530526489,
      "grad_norm": 0.7226953506469727,
      "learning_rate": 1.2637587634575297e-05,
      "loss": 1.4676,
      "mean_token_accuracy": 0.6478322297334671,
      "num_tokens": 1399958317.0,
      "step": 8349
    },
    {
      "entropy": 1.6978058218955994,
      "epoch": 0.9173052099640219,
      "grad_norm": 0.5818222761154175,
      "learning_rate": 1.2636013207473849e-05,
      "loss": 1.4523,
      "mean_token_accuracy": 0.6427704046169916,
      "num_tokens": 1400192788.0,
      "step": 8350
    },
    {
      "entropy": 1.6792748073736827,
      "epoch": 0.9174150668753948,
      "grad_norm": 0.5890861749649048,
      "learning_rate": 1.2634438728593319e-05,
      "loss": 1.3267,
      "mean_token_accuracy": 0.6607906967401505,
      "num_tokens": 1400378162.0,
      "step": 8351
    },
    {
      "entropy": 1.7638347347577412,
      "epoch": 0.9175249237867678,
      "grad_norm": 0.7139198184013367,
      "learning_rate": 1.263286419798354e-05,
      "loss": 1.3686,
      "mean_token_accuracy": 0.6581098288297653,
      "num_tokens": 1400548924.0,
      "step": 8352
    },
    {
      "entropy": 1.7151235540707905,
      "epoch": 0.9176347806981406,
      "grad_norm": 0.6000536680221558,
      "learning_rate": 1.2631289615694347e-05,
      "loss": 1.4582,
      "mean_token_accuracy": 0.6504177699486414,
      "num_tokens": 1400749113.0,
      "step": 8353
    },
    {
      "entropy": 1.727899005015691,
      "epoch": 0.9177446376095136,
      "grad_norm": 0.8415667414665222,
      "learning_rate": 1.262971498177557e-05,
      "loss": 1.3531,
      "mean_token_accuracy": 0.6797670821348826,
      "num_tokens": 1400926683.0,
      "step": 8354
    },
    {
      "entropy": 1.73043093085289,
      "epoch": 0.9178544945208865,
      "grad_norm": 0.7654650211334229,
      "learning_rate": 1.2628140296277049e-05,
      "loss": 1.5241,
      "mean_token_accuracy": 0.6519339581330618,
      "num_tokens": 1401120570.0,
      "step": 8355
    },
    {
      "entropy": 1.7113446791966755,
      "epoch": 0.9179643514322595,
      "grad_norm": 0.7105302810668945,
      "learning_rate": 1.2626565559248622e-05,
      "loss": 1.3434,
      "mean_token_accuracy": 0.6649382462104162,
      "num_tokens": 1401267560.0,
      "step": 8356
    },
    {
      "entropy": 1.7008299330870311,
      "epoch": 0.9180742083436324,
      "grad_norm": 0.5741628408432007,
      "learning_rate": 1.2624990770740123e-05,
      "loss": 1.3885,
      "mean_token_accuracy": 0.6473373621702194,
      "num_tokens": 1401462451.0,
      "step": 8357
    },
    {
      "entropy": 1.7151657938957214,
      "epoch": 0.9181840652550054,
      "grad_norm": 0.6269608736038208,
      "learning_rate": 1.2623415930801405e-05,
      "loss": 1.5253,
      "mean_token_accuracy": 0.6376299858093262,
      "num_tokens": 1401646187.0,
      "step": 8358
    },
    {
      "entropy": 1.7247498830159504,
      "epoch": 0.9182939221663783,
      "grad_norm": 0.7287866473197937,
      "learning_rate": 1.2621841039482303e-05,
      "loss": 1.2987,
      "mean_token_accuracy": 0.6703514059384664,
      "num_tokens": 1401771042.0,
      "step": 8359
    },
    {
      "entropy": 1.6538776357968648,
      "epoch": 0.9184037790777513,
      "grad_norm": 0.6443969011306763,
      "learning_rate": 1.2620266096832663e-05,
      "loss": 1.3982,
      "mean_token_accuracy": 0.6559311151504517,
      "num_tokens": 1401999604.0,
      "step": 8360
    },
    {
      "entropy": 1.7296237647533417,
      "epoch": 0.9185136359891242,
      "grad_norm": 0.8798031210899353,
      "learning_rate": 1.261869110290233e-05,
      "loss": 1.4636,
      "mean_token_accuracy": 0.6591440141201019,
      "num_tokens": 1402164177.0,
      "step": 8361
    },
    {
      "entropy": 1.712800492842992,
      "epoch": 0.918623492900497,
      "grad_norm": 0.7003832459449768,
      "learning_rate": 1.2617116057741152e-05,
      "loss": 1.3247,
      "mean_token_accuracy": 0.6562914500633875,
      "num_tokens": 1402297927.0,
      "step": 8362
    },
    {
      "entropy": 1.6861789226531982,
      "epoch": 0.91873334981187,
      "grad_norm": 0.6626542806625366,
      "learning_rate": 1.261554096139898e-05,
      "loss": 1.5779,
      "mean_token_accuracy": 0.6270742913087209,
      "num_tokens": 1402514465.0,
      "step": 8363
    },
    {
      "entropy": 1.7360760072867076,
      "epoch": 0.9188432067232429,
      "grad_norm": 0.8311833739280701,
      "learning_rate": 1.2613965813925666e-05,
      "loss": 1.3172,
      "mean_token_accuracy": 0.6613505631685257,
      "num_tokens": 1402618003.0,
      "step": 8364
    },
    {
      "entropy": 1.7023787597815196,
      "epoch": 0.9189530636346159,
      "grad_norm": 0.6417757868766785,
      "learning_rate": 1.261239061537106e-05,
      "loss": 1.3442,
      "mean_token_accuracy": 0.6616579592227936,
      "num_tokens": 1402818781.0,
      "step": 8365
    },
    {
      "entropy": 1.732607791821162,
      "epoch": 0.9190629205459888,
      "grad_norm": 0.6801357865333557,
      "learning_rate": 1.261081536578502e-05,
      "loss": 1.3579,
      "mean_token_accuracy": 0.6601632038752238,
      "num_tokens": 1402973852.0,
      "step": 8366
    },
    {
      "entropy": 1.6984934012095134,
      "epoch": 0.9191727774573618,
      "grad_norm": 0.6982681751251221,
      "learning_rate": 1.2609240065217396e-05,
      "loss": 1.4012,
      "mean_token_accuracy": 0.6618342697620392,
      "num_tokens": 1403131167.0,
      "step": 8367
    },
    {
      "entropy": 1.6751105586687725,
      "epoch": 0.9192826343687347,
      "grad_norm": 0.7063464522361755,
      "learning_rate": 1.260766471371805e-05,
      "loss": 1.256,
      "mean_token_accuracy": 0.6785000711679459,
      "num_tokens": 1403267829.0,
      "step": 8368
    },
    {
      "entropy": 1.7225077946980794,
      "epoch": 0.9193924912801077,
      "grad_norm": 0.6618905067443848,
      "learning_rate": 1.260608931133684e-05,
      "loss": 1.4058,
      "mean_token_accuracy": 0.6538095970948538,
      "num_tokens": 1403431242.0,
      "step": 8369
    },
    {
      "entropy": 1.6800328195095062,
      "epoch": 0.9195023481914806,
      "grad_norm": 0.6762068867683411,
      "learning_rate": 1.2604513858123629e-05,
      "loss": 1.4314,
      "mean_token_accuracy": 0.6620854735374451,
      "num_tokens": 1403605335.0,
      "step": 8370
    },
    {
      "entropy": 1.700233409802119,
      "epoch": 0.9196122051028536,
      "grad_norm": 0.6993805170059204,
      "learning_rate": 1.2602938354128276e-05,
      "loss": 1.5316,
      "mean_token_accuracy": 0.6513668298721313,
      "num_tokens": 1403787016.0,
      "step": 8371
    },
    {
      "entropy": 1.6806213955084484,
      "epoch": 0.9197220620142265,
      "grad_norm": 0.9308298826217651,
      "learning_rate": 1.2601362799400648e-05,
      "loss": 1.3191,
      "mean_token_accuracy": 0.6591364145278931,
      "num_tokens": 1403994148.0,
      "step": 8372
    },
    {
      "entropy": 1.6756692230701447,
      "epoch": 0.9198319189255995,
      "grad_norm": 0.6425023674964905,
      "learning_rate": 1.2599787193990605e-05,
      "loss": 1.2729,
      "mean_token_accuracy": 0.6760301639636358,
      "num_tokens": 1404117376.0,
      "step": 8373
    },
    {
      "entropy": 1.6797867914040883,
      "epoch": 0.9199417758369723,
      "grad_norm": 0.6142690777778625,
      "learning_rate": 1.2598211537948022e-05,
      "loss": 1.3994,
      "mean_token_accuracy": 0.6605397313833237,
      "num_tokens": 1404310009.0,
      "step": 8374
    },
    {
      "entropy": 1.6622991561889648,
      "epoch": 0.9200516327483452,
      "grad_norm": 0.7478998899459839,
      "learning_rate": 1.2596635831322761e-05,
      "loss": 1.5679,
      "mean_token_accuracy": 0.6572754432757696,
      "num_tokens": 1404484363.0,
      "step": 8375
    },
    {
      "entropy": 1.6799915730953217,
      "epoch": 0.9201614896597182,
      "grad_norm": 0.6949113607406616,
      "learning_rate": 1.2595060074164698e-05,
      "loss": 1.2796,
      "mean_token_accuracy": 0.6649729063113531,
      "num_tokens": 1404661640.0,
      "step": 8376
    },
    {
      "entropy": 1.7269630233446758,
      "epoch": 0.9202713465710911,
      "grad_norm": 0.7026051878929138,
      "learning_rate": 1.2593484266523701e-05,
      "loss": 1.3694,
      "mean_token_accuracy": 0.6497256408135096,
      "num_tokens": 1404821227.0,
      "step": 8377
    },
    {
      "entropy": 1.7466710011164348,
      "epoch": 0.9203812034824641,
      "grad_norm": 0.9665287733078003,
      "learning_rate": 1.2591908408449647e-05,
      "loss": 1.3825,
      "mean_token_accuracy": 0.6634558041890463,
      "num_tokens": 1404954222.0,
      "step": 8378
    },
    {
      "entropy": 1.6914934416611989,
      "epoch": 0.920491060393837,
      "grad_norm": 0.7472662925720215,
      "learning_rate": 1.2590332499992406e-05,
      "loss": 1.286,
      "mean_token_accuracy": 0.672187735637029,
      "num_tokens": 1405065197.0,
      "step": 8379
    },
    {
      "entropy": 1.6020830969015758,
      "epoch": 0.92060091730521,
      "grad_norm": 0.635012149810791,
      "learning_rate": 1.2588756541201861e-05,
      "loss": 1.2781,
      "mean_token_accuracy": 0.6772213528553644,
      "num_tokens": 1405219589.0,
      "step": 8380
    },
    {
      "entropy": 1.7316095232963562,
      "epoch": 0.9207107742165829,
      "grad_norm": 0.7221272587776184,
      "learning_rate": 1.2587180532127886e-05,
      "loss": 1.6001,
      "mean_token_accuracy": 0.6357069065173467,
      "num_tokens": 1405416476.0,
      "step": 8381
    },
    {
      "entropy": 1.7943975925445557,
      "epoch": 0.9208206311279559,
      "grad_norm": 0.77412348985672,
      "learning_rate": 1.258560447282036e-05,
      "loss": 1.5053,
      "mean_token_accuracy": 0.6331639190514883,
      "num_tokens": 1405601890.0,
      "step": 8382
    },
    {
      "entropy": 1.7066338161627452,
      "epoch": 0.9209304880393288,
      "grad_norm": 0.6691288352012634,
      "learning_rate": 1.2584028363329172e-05,
      "loss": 1.3199,
      "mean_token_accuracy": 0.6606237838665644,
      "num_tokens": 1405752844.0,
      "step": 8383
    },
    {
      "entropy": 1.713592956463496,
      "epoch": 0.9210403449507018,
      "grad_norm": 0.6735867857933044,
      "learning_rate": 1.2582452203704196e-05,
      "loss": 1.3706,
      "mean_token_accuracy": 0.6515240619579951,
      "num_tokens": 1405978966.0,
      "step": 8384
    },
    {
      "entropy": 1.6773227254549663,
      "epoch": 0.9211502018620746,
      "grad_norm": 0.6591025590896606,
      "learning_rate": 1.2580875993995324e-05,
      "loss": 1.3694,
      "mean_token_accuracy": 0.665874645113945,
      "num_tokens": 1406131263.0,
      "step": 8385
    },
    {
      "entropy": 1.7191874583562214,
      "epoch": 0.9212600587734476,
      "grad_norm": 0.6563531160354614,
      "learning_rate": 1.2579299734252435e-05,
      "loss": 1.6292,
      "mean_token_accuracy": 0.6292891552050909,
      "num_tokens": 1406323110.0,
      "step": 8386
    },
    {
      "entropy": 1.7289370795090993,
      "epoch": 0.9213699156848205,
      "grad_norm": 0.659126341342926,
      "learning_rate": 1.2577723424525425e-05,
      "loss": 1.2939,
      "mean_token_accuracy": 0.6766804109017054,
      "num_tokens": 1406466231.0,
      "step": 8387
    },
    {
      "entropy": 1.690926472345988,
      "epoch": 0.9214797725961934,
      "grad_norm": 0.7042950391769409,
      "learning_rate": 1.2576147064864177e-05,
      "loss": 1.4388,
      "mean_token_accuracy": 0.6502556999524435,
      "num_tokens": 1406626762.0,
      "step": 8388
    },
    {
      "entropy": 1.6028278172016144,
      "epoch": 0.9215896295075664,
      "grad_norm": 0.6516503691673279,
      "learning_rate": 1.2574570655318586e-05,
      "loss": 1.2367,
      "mean_token_accuracy": 0.6695101857185364,
      "num_tokens": 1406811606.0,
      "step": 8389
    },
    {
      "entropy": 1.642892986536026,
      "epoch": 0.9216994864189393,
      "grad_norm": 0.6159811615943909,
      "learning_rate": 1.2572994195938543e-05,
      "loss": 1.4283,
      "mean_token_accuracy": 0.6557525595029196,
      "num_tokens": 1406972657.0,
      "step": 8390
    },
    {
      "entropy": 1.7573666175206502,
      "epoch": 0.9218093433303123,
      "grad_norm": 0.6652973890304565,
      "learning_rate": 1.2571417686773942e-05,
      "loss": 1.354,
      "mean_token_accuracy": 0.6559064388275146,
      "num_tokens": 1407093499.0,
      "step": 8391
    },
    {
      "entropy": 1.7429068982601166,
      "epoch": 0.9219192002416852,
      "grad_norm": 0.7107627987861633,
      "learning_rate": 1.256984112787468e-05,
      "loss": 1.4118,
      "mean_token_accuracy": 0.6419812937577566,
      "num_tokens": 1407253457.0,
      "step": 8392
    },
    {
      "entropy": 1.7409753501415253,
      "epoch": 0.9220290571530582,
      "grad_norm": 0.7587690949440002,
      "learning_rate": 1.2568264519290654e-05,
      "loss": 1.3945,
      "mean_token_accuracy": 0.65499414006869,
      "num_tokens": 1407450974.0,
      "step": 8393
    },
    {
      "entropy": 1.7279663681983948,
      "epoch": 0.922138914064431,
      "grad_norm": 0.6342840194702148,
      "learning_rate": 1.2566687861071762e-05,
      "loss": 1.3915,
      "mean_token_accuracy": 0.660114253560702,
      "num_tokens": 1407606742.0,
      "step": 8394
    },
    {
      "entropy": 1.6986714601516724,
      "epoch": 0.922248770975804,
      "grad_norm": 0.6908047795295715,
      "learning_rate": 1.2565111153267904e-05,
      "loss": 1.5053,
      "mean_token_accuracy": 0.6442679464817047,
      "num_tokens": 1407769641.0,
      "step": 8395
    },
    {
      "entropy": 1.7808184325695038,
      "epoch": 0.9223586278871769,
      "grad_norm": 0.6698216199874878,
      "learning_rate": 1.2563534395928987e-05,
      "loss": 1.5286,
      "mean_token_accuracy": 0.642250527938207,
      "num_tokens": 1407933465.0,
      "step": 8396
    },
    {
      "entropy": 1.733227163553238,
      "epoch": 0.9224684847985499,
      "grad_norm": 0.7015756964683533,
      "learning_rate": 1.2561957589104908e-05,
      "loss": 1.2428,
      "mean_token_accuracy": 0.6744599491357803,
      "num_tokens": 1408037394.0,
      "step": 8397
    },
    {
      "entropy": 1.7421282827854156,
      "epoch": 0.9225783417099228,
      "grad_norm": 0.6361960768699646,
      "learning_rate": 1.2560380732845577e-05,
      "loss": 1.2879,
      "mean_token_accuracy": 0.6739509999752045,
      "num_tokens": 1408162511.0,
      "step": 8398
    },
    {
      "entropy": 1.7272718846797943,
      "epoch": 0.9226881986212958,
      "grad_norm": 0.8491674661636353,
      "learning_rate": 1.2558803827200896e-05,
      "loss": 1.4679,
      "mean_token_accuracy": 0.6472969353199005,
      "num_tokens": 1408337595.0,
      "step": 8399
    },
    {
      "entropy": 1.724097619454066,
      "epoch": 0.9227980555326687,
      "grad_norm": 0.6793266534805298,
      "learning_rate": 1.255722687222078e-05,
      "loss": 1.4947,
      "mean_token_accuracy": 0.6494862536589304,
      "num_tokens": 1408563108.0,
      "step": 8400
    },
    {
      "entropy": 1.734597235918045,
      "epoch": 0.9229079124440417,
      "grad_norm": 0.695158064365387,
      "learning_rate": 1.2555649867955128e-05,
      "loss": 1.4444,
      "mean_token_accuracy": 0.6569420943657557,
      "num_tokens": 1408721968.0,
      "step": 8401
    },
    {
      "entropy": 1.715299169222514,
      "epoch": 0.9230177693554146,
      "grad_norm": 0.7081811428070068,
      "learning_rate": 1.2554072814453865e-05,
      "loss": 1.4605,
      "mean_token_accuracy": 0.6608149409294128,
      "num_tokens": 1408873539.0,
      "step": 8402
    },
    {
      "entropy": 1.6958219408988953,
      "epoch": 0.9231276262667875,
      "grad_norm": 0.7010018825531006,
      "learning_rate": 1.2552495711766897e-05,
      "loss": 1.2639,
      "mean_token_accuracy": 0.6718494196732839,
      "num_tokens": 1409024445.0,
      "step": 8403
    },
    {
      "entropy": 1.6861001054445903,
      "epoch": 0.9232374831781605,
      "grad_norm": 0.8214607834815979,
      "learning_rate": 1.2550918559944138e-05,
      "loss": 1.3134,
      "mean_token_accuracy": 0.6580562740564346,
      "num_tokens": 1409185013.0,
      "step": 8404
    },
    {
      "entropy": 1.6605658928553264,
      "epoch": 0.9233473400895333,
      "grad_norm": 0.6449036598205566,
      "learning_rate": 1.2549341359035507e-05,
      "loss": 1.4082,
      "mean_token_accuracy": 0.6663586348295212,
      "num_tokens": 1409335022.0,
      "step": 8405
    },
    {
      "entropy": 1.763859748840332,
      "epoch": 0.9234571970009063,
      "grad_norm": 0.7659093141555786,
      "learning_rate": 1.254776410909092e-05,
      "loss": 1.3732,
      "mean_token_accuracy": 0.6532298525174459,
      "num_tokens": 1409453428.0,
      "step": 8406
    },
    {
      "entropy": 1.696772535641988,
      "epoch": 0.9235670539122792,
      "grad_norm": 0.7647340893745422,
      "learning_rate": 1.2546186810160294e-05,
      "loss": 1.3433,
      "mean_token_accuracy": 0.667681892712911,
      "num_tokens": 1409572864.0,
      "step": 8407
    },
    {
      "entropy": 1.7054913242657979,
      "epoch": 0.9236769108236522,
      "grad_norm": 0.6106885075569153,
      "learning_rate": 1.2544609462293555e-05,
      "loss": 1.4098,
      "mean_token_accuracy": 0.6489782730738322,
      "num_tokens": 1409739736.0,
      "step": 8408
    },
    {
      "entropy": 1.7002596755822499,
      "epoch": 0.9237867677350251,
      "grad_norm": 0.599602997303009,
      "learning_rate": 1.2543032065540622e-05,
      "loss": 1.343,
      "mean_token_accuracy": 0.6687337110439936,
      "num_tokens": 1409932692.0,
      "step": 8409
    },
    {
      "entropy": 1.6986660559972127,
      "epoch": 0.9238966246463981,
      "grad_norm": 0.6248365640640259,
      "learning_rate": 1.2541454619951416e-05,
      "loss": 1.391,
      "mean_token_accuracy": 0.6515335639317831,
      "num_tokens": 1410120104.0,
      "step": 8410
    },
    {
      "entropy": 1.686285485823949,
      "epoch": 0.924006481557771,
      "grad_norm": 0.7016609311103821,
      "learning_rate": 1.253987712557587e-05,
      "loss": 1.358,
      "mean_token_accuracy": 0.6637587447961172,
      "num_tokens": 1410281992.0,
      "step": 8411
    },
    {
      "entropy": 1.740788499514262,
      "epoch": 0.924116338469144,
      "grad_norm": 0.7246219515800476,
      "learning_rate": 1.2538299582463906e-05,
      "loss": 1.4015,
      "mean_token_accuracy": 0.6567526757717133,
      "num_tokens": 1410440576.0,
      "step": 8412
    },
    {
      "entropy": 1.7054814994335175,
      "epoch": 0.9242261953805169,
      "grad_norm": 0.7429696917533875,
      "learning_rate": 1.253672199066545e-05,
      "loss": 1.4615,
      "mean_token_accuracy": 0.6404254684845606,
      "num_tokens": 1410634470.0,
      "step": 8413
    },
    {
      "entropy": 1.6572390894095104,
      "epoch": 0.9243360522918899,
      "grad_norm": 0.713073194026947,
      "learning_rate": 1.2535144350230441e-05,
      "loss": 1.345,
      "mean_token_accuracy": 0.6785429567098618,
      "num_tokens": 1410752529.0,
      "step": 8414
    },
    {
      "entropy": 1.6576418578624725,
      "epoch": 0.9244459092032628,
      "grad_norm": 0.5704638361930847,
      "learning_rate": 1.2533566661208803e-05,
      "loss": 1.3617,
      "mean_token_accuracy": 0.6624558568000793,
      "num_tokens": 1410940518.0,
      "step": 8415
    },
    {
      "entropy": 1.6944686770439148,
      "epoch": 0.9245557661146356,
      "grad_norm": 0.7132385969161987,
      "learning_rate": 1.2531988923650469e-05,
      "loss": 1.3251,
      "mean_token_accuracy": 0.6656810740629832,
      "num_tokens": 1411091487.0,
      "step": 8416
    },
    {
      "entropy": 1.6068796714146931,
      "epoch": 0.9246656230260086,
      "grad_norm": 0.5596727132797241,
      "learning_rate": 1.2530411137605376e-05,
      "loss": 1.3988,
      "mean_token_accuracy": 0.651663064956665,
      "num_tokens": 1411349098.0,
      "step": 8417
    },
    {
      "entropy": 1.6926358838876088,
      "epoch": 0.9247754799373815,
      "grad_norm": 0.6509303450584412,
      "learning_rate": 1.2528833303123464e-05,
      "loss": 1.4295,
      "mean_token_accuracy": 0.6421109537283579,
      "num_tokens": 1411553106.0,
      "step": 8418
    },
    {
      "entropy": 1.6756529609362285,
      "epoch": 0.9248853368487545,
      "grad_norm": 0.7943989038467407,
      "learning_rate": 1.2527255420254663e-05,
      "loss": 1.4821,
      "mean_token_accuracy": 0.6490869422753652,
      "num_tokens": 1411745801.0,
      "step": 8419
    },
    {
      "entropy": 1.6821991205215454,
      "epoch": 0.9249951937601274,
      "grad_norm": 0.6343573331832886,
      "learning_rate": 1.2525677489048919e-05,
      "loss": 1.3901,
      "mean_token_accuracy": 0.6549980839093527,
      "num_tokens": 1411971218.0,
      "step": 8420
    },
    {
      "entropy": 1.7167380253473918,
      "epoch": 0.9251050506715004,
      "grad_norm": 0.6473302841186523,
      "learning_rate": 1.252409950955617e-05,
      "loss": 1.2781,
      "mean_token_accuracy": 0.6656585186719894,
      "num_tokens": 1412093664.0,
      "step": 8421
    },
    {
      "entropy": 1.6299481391906738,
      "epoch": 0.9252149075828733,
      "grad_norm": 0.5957537293434143,
      "learning_rate": 1.2522521481826355e-05,
      "loss": 1.5059,
      "mean_token_accuracy": 0.6492985685666403,
      "num_tokens": 1412312361.0,
      "step": 8422
    },
    {
      "entropy": 1.6707092622915904,
      "epoch": 0.9253247644942463,
      "grad_norm": 0.6398028135299683,
      "learning_rate": 1.2520943405909423e-05,
      "loss": 1.3445,
      "mean_token_accuracy": 0.6681879659493765,
      "num_tokens": 1412486757.0,
      "step": 8423
    },
    {
      "entropy": 1.6841243704160054,
      "epoch": 0.9254346214056192,
      "grad_norm": 0.6823419332504272,
      "learning_rate": 1.251936528185532e-05,
      "loss": 1.4074,
      "mean_token_accuracy": 0.6703370014826456,
      "num_tokens": 1412624400.0,
      "step": 8424
    },
    {
      "entropy": 1.7717651029427846,
      "epoch": 0.9255444783169922,
      "grad_norm": 0.699639618396759,
      "learning_rate": 1.2517787109713986e-05,
      "loss": 1.4845,
      "mean_token_accuracy": 0.6359593768914541,
      "num_tokens": 1412807209.0,
      "step": 8425
    },
    {
      "entropy": 1.7056340873241425,
      "epoch": 0.925654335228365,
      "grad_norm": 0.7243174314498901,
      "learning_rate": 1.2516208889535377e-05,
      "loss": 1.4097,
      "mean_token_accuracy": 0.668630967537562,
      "num_tokens": 1412947855.0,
      "step": 8426
    },
    {
      "entropy": 1.73410764336586,
      "epoch": 0.925764192139738,
      "grad_norm": 0.764216959476471,
      "learning_rate": 1.2514630621369437e-05,
      "loss": 1.368,
      "mean_token_accuracy": 0.670150876045227,
      "num_tokens": 1413110693.0,
      "step": 8427
    },
    {
      "entropy": 1.7153330743312836,
      "epoch": 0.9258740490511109,
      "grad_norm": 0.6585131287574768,
      "learning_rate": 1.2513052305266123e-05,
      "loss": 1.2796,
      "mean_token_accuracy": 0.6731938471396764,
      "num_tokens": 1413242626.0,
      "step": 8428
    },
    {
      "entropy": 1.7023490965366364,
      "epoch": 0.9259839059624838,
      "grad_norm": 0.6882517337799072,
      "learning_rate": 1.2511473941275385e-05,
      "loss": 1.2992,
      "mean_token_accuracy": 0.6625126004219055,
      "num_tokens": 1413400164.0,
      "step": 8429
    },
    {
      "entropy": 1.705989311138789,
      "epoch": 0.9260937628738568,
      "grad_norm": 0.8120949864387512,
      "learning_rate": 1.2509895529447178e-05,
      "loss": 1.3778,
      "mean_token_accuracy": 0.6520531823237737,
      "num_tokens": 1413522941.0,
      "step": 8430
    },
    {
      "entropy": 1.7116830845673878,
      "epoch": 0.9262036197852297,
      "grad_norm": 0.7705047130584717,
      "learning_rate": 1.250831706983146e-05,
      "loss": 1.2424,
      "mean_token_accuracy": 0.681115910410881,
      "num_tokens": 1413645220.0,
      "step": 8431
    },
    {
      "entropy": 1.7691873808701832,
      "epoch": 0.9263134766966027,
      "grad_norm": 0.7861184477806091,
      "learning_rate": 1.250673856247818e-05,
      "loss": 1.4448,
      "mean_token_accuracy": 0.6577897220849991,
      "num_tokens": 1413789562.0,
      "step": 8432
    },
    {
      "entropy": 1.7770712574323018,
      "epoch": 0.9264233336079756,
      "grad_norm": 0.6887810826301575,
      "learning_rate": 1.2505160007437309e-05,
      "loss": 1.4101,
      "mean_token_accuracy": 0.6699302395184835,
      "num_tokens": 1413947460.0,
      "step": 8433
    },
    {
      "entropy": 1.6620681683222454,
      "epoch": 0.9265331905193486,
      "grad_norm": 0.6765469908714294,
      "learning_rate": 1.25035814047588e-05,
      "loss": 1.382,
      "mean_token_accuracy": 0.6652428507804871,
      "num_tokens": 1414106635.0,
      "step": 8434
    },
    {
      "entropy": 1.6912939846515656,
      "epoch": 0.9266430474307215,
      "grad_norm": 0.6659488081932068,
      "learning_rate": 1.2502002754492614e-05,
      "loss": 1.3485,
      "mean_token_accuracy": 0.6623717993497849,
      "num_tokens": 1414283009.0,
      "step": 8435
    },
    {
      "entropy": 1.7182398637135823,
      "epoch": 0.9267529043420945,
      "grad_norm": 0.6735560894012451,
      "learning_rate": 1.2500424056688722e-05,
      "loss": 1.3758,
      "mean_token_accuracy": 0.6657535483439764,
      "num_tokens": 1414423522.0,
      "step": 8436
    },
    {
      "entropy": 1.6874533692995708,
      "epoch": 0.9268627612534673,
      "grad_norm": 0.5966618061065674,
      "learning_rate": 1.2498845311397083e-05,
      "loss": 1.5429,
      "mean_token_accuracy": 0.6355781530340513,
      "num_tokens": 1414625227.0,
      "step": 8437
    },
    {
      "entropy": 1.6916421949863434,
      "epoch": 0.9269726181648403,
      "grad_norm": 0.6825304627418518,
      "learning_rate": 1.2497266518667667e-05,
      "loss": 1.4306,
      "mean_token_accuracy": 0.6556826333204905,
      "num_tokens": 1414808666.0,
      "step": 8438
    },
    {
      "entropy": 1.7351886530717213,
      "epoch": 0.9270824750762132,
      "grad_norm": 0.8129728436470032,
      "learning_rate": 1.249568767855044e-05,
      "loss": 1.3367,
      "mean_token_accuracy": 0.6633518934249878,
      "num_tokens": 1414917866.0,
      "step": 8439
    },
    {
      "entropy": 1.6401391724745433,
      "epoch": 0.9271923319875862,
      "grad_norm": 0.7099363207817078,
      "learning_rate": 1.2494108791095372e-05,
      "loss": 1.3524,
      "mean_token_accuracy": 0.6650873670975367,
      "num_tokens": 1415083152.0,
      "step": 8440
    },
    {
      "entropy": 1.69183216492335,
      "epoch": 0.9273021888989591,
      "grad_norm": 0.637658953666687,
      "learning_rate": 1.2492529856352431e-05,
      "loss": 1.436,
      "mean_token_accuracy": 0.6460116654634476,
      "num_tokens": 1415302375.0,
      "step": 8441
    },
    {
      "entropy": 1.6242200930913289,
      "epoch": 0.9274120458103321,
      "grad_norm": 0.6604406237602234,
      "learning_rate": 1.2490950874371594e-05,
      "loss": 1.2643,
      "mean_token_accuracy": 0.6734424084424973,
      "num_tokens": 1415474824.0,
      "step": 8442
    },
    {
      "entropy": 1.6695034007231395,
      "epoch": 0.927521902721705,
      "grad_norm": 0.7424845695495605,
      "learning_rate": 1.2489371845202836e-05,
      "loss": 1.3691,
      "mean_token_accuracy": 0.6602280388275782,
      "num_tokens": 1415661133.0,
      "step": 8443
    },
    {
      "entropy": 1.7420236865679424,
      "epoch": 0.9276317596330779,
      "grad_norm": 0.8569214940071106,
      "learning_rate": 1.2487792768896127e-05,
      "loss": 1.5441,
      "mean_token_accuracy": 0.6413151572148005,
      "num_tokens": 1415805898.0,
      "step": 8444
    },
    {
      "entropy": 1.686678260564804,
      "epoch": 0.9277416165444509,
      "grad_norm": 0.760896623134613,
      "learning_rate": 1.248621364550145e-05,
      "loss": 1.3362,
      "mean_token_accuracy": 0.667745237549146,
      "num_tokens": 1415925173.0,
      "step": 8445
    },
    {
      "entropy": 1.694368968407313,
      "epoch": 0.9278514734558237,
      "grad_norm": 0.8224613666534424,
      "learning_rate": 1.2484634475068781e-05,
      "loss": 1.4879,
      "mean_token_accuracy": 0.6645511214931806,
      "num_tokens": 1416074408.0,
      "step": 8446
    },
    {
      "entropy": 1.6848430434862773,
      "epoch": 0.9279613303671967,
      "grad_norm": 0.6078700423240662,
      "learning_rate": 1.2483055257648098e-05,
      "loss": 1.3897,
      "mean_token_accuracy": 0.6586156040430069,
      "num_tokens": 1416257726.0,
      "step": 8447
    },
    {
      "entropy": 1.6660497585932414,
      "epoch": 0.9280711872785696,
      "grad_norm": 0.7581548094749451,
      "learning_rate": 1.2481475993289385e-05,
      "loss": 1.4777,
      "mean_token_accuracy": 0.6510738035043081,
      "num_tokens": 1416421922.0,
      "step": 8448
    },
    {
      "entropy": 1.7178461253643036,
      "epoch": 0.9281810441899426,
      "grad_norm": 0.706211507320404,
      "learning_rate": 1.2479896682042625e-05,
      "loss": 1.3219,
      "mean_token_accuracy": 0.6680372059345245,
      "num_tokens": 1416593459.0,
      "step": 8449
    },
    {
      "entropy": 1.684712787469228,
      "epoch": 0.9282909011013155,
      "grad_norm": 0.6404665112495422,
      "learning_rate": 1.24783173239578e-05,
      "loss": 1.3882,
      "mean_token_accuracy": 0.6511215766270956,
      "num_tokens": 1416740179.0,
      "step": 8450
    },
    {
      "entropy": 1.6592655877272289,
      "epoch": 0.9284007580126885,
      "grad_norm": 0.6992117762565613,
      "learning_rate": 1.2476737919084898e-05,
      "loss": 1.3854,
      "mean_token_accuracy": 0.653921420375506,
      "num_tokens": 1416916822.0,
      "step": 8451
    },
    {
      "entropy": 1.698452393213908,
      "epoch": 0.9285106149240614,
      "grad_norm": 0.6352612972259521,
      "learning_rate": 1.2475158467473911e-05,
      "loss": 1.4618,
      "mean_token_accuracy": 0.6499315698941549,
      "num_tokens": 1417107907.0,
      "step": 8452
    },
    {
      "entropy": 1.7192625999450684,
      "epoch": 0.9286204718354344,
      "grad_norm": 0.7419793605804443,
      "learning_rate": 1.2473578969174817e-05,
      "loss": 1.478,
      "mean_token_accuracy": 0.6512725353240967,
      "num_tokens": 1417291830.0,
      "step": 8453
    },
    {
      "entropy": 1.684527148803075,
      "epoch": 0.9287303287468073,
      "grad_norm": 0.6986659169197083,
      "learning_rate": 1.2471999424237615e-05,
      "loss": 1.3782,
      "mean_token_accuracy": 0.658308207988739,
      "num_tokens": 1417446239.0,
      "step": 8454
    },
    {
      "entropy": 1.6121302247047424,
      "epoch": 0.9288401856581803,
      "grad_norm": 0.7182373404502869,
      "learning_rate": 1.2470419832712295e-05,
      "loss": 1.3144,
      "mean_token_accuracy": 0.6786510099967321,
      "num_tokens": 1417581558.0,
      "step": 8455
    },
    {
      "entropy": 1.6011373102664948,
      "epoch": 0.9289500425695532,
      "grad_norm": 0.7618659138679504,
      "learning_rate": 1.246884019464885e-05,
      "loss": 1.2432,
      "mean_token_accuracy": 0.6746308306852976,
      "num_tokens": 1417763013.0,
      "step": 8456
    },
    {
      "entropy": 1.662847876548767,
      "epoch": 0.929059899480926,
      "grad_norm": 0.6191786527633667,
      "learning_rate": 1.2467260510097275e-05,
      "loss": 1.4174,
      "mean_token_accuracy": 0.6469977349042892,
      "num_tokens": 1418005665.0,
      "step": 8457
    },
    {
      "entropy": 1.713506688674291,
      "epoch": 0.929169756392299,
      "grad_norm": 0.7612412571907043,
      "learning_rate": 1.2465680779107564e-05,
      "loss": 1.5276,
      "mean_token_accuracy": 0.6622031579415003,
      "num_tokens": 1418151137.0,
      "step": 8458
    },
    {
      "entropy": 1.7254696488380432,
      "epoch": 0.9292796133036719,
      "grad_norm": 0.6934106945991516,
      "learning_rate": 1.246410100172972e-05,
      "loss": 1.3767,
      "mean_token_accuracy": 0.6779943505922953,
      "num_tokens": 1418282753.0,
      "step": 8459
    },
    {
      "entropy": 1.7169914940992992,
      "epoch": 0.9293894702150449,
      "grad_norm": 0.6493316292762756,
      "learning_rate": 1.2462521178013736e-05,
      "loss": 1.3592,
      "mean_token_accuracy": 0.6591555128494898,
      "num_tokens": 1418439711.0,
      "step": 8460
    },
    {
      "entropy": 1.6799816985925038,
      "epoch": 0.9294993271264178,
      "grad_norm": 0.8348252773284912,
      "learning_rate": 1.2460941308009615e-05,
      "loss": 1.2885,
      "mean_token_accuracy": 0.6671053916215897,
      "num_tokens": 1418565133.0,
      "step": 8461
    },
    {
      "entropy": 1.6939114530881245,
      "epoch": 0.9296091840377908,
      "grad_norm": 0.8337905406951904,
      "learning_rate": 1.2459361391767366e-05,
      "loss": 1.5956,
      "mean_token_accuracy": 0.6368262519439062,
      "num_tokens": 1418758270.0,
      "step": 8462
    },
    {
      "entropy": 1.6878935396671295,
      "epoch": 0.9297190409491637,
      "grad_norm": 0.7053253054618835,
      "learning_rate": 1.245778142933698e-05,
      "loss": 1.3431,
      "mean_token_accuracy": 0.6594057977199554,
      "num_tokens": 1418943386.0,
      "step": 8463
    },
    {
      "entropy": 1.7375274399916332,
      "epoch": 0.9298288978605367,
      "grad_norm": 0.7320691347122192,
      "learning_rate": 1.2456201420768472e-05,
      "loss": 1.4361,
      "mean_token_accuracy": 0.6541687101125717,
      "num_tokens": 1419098061.0,
      "step": 8464
    },
    {
      "entropy": 1.6313360234101613,
      "epoch": 0.9299387547719096,
      "grad_norm": 0.5476987957954407,
      "learning_rate": 1.2454621366111843e-05,
      "loss": 1.436,
      "mean_token_accuracy": 0.6428209195534388,
      "num_tokens": 1419319095.0,
      "step": 8465
    },
    {
      "entropy": 1.713592936595281,
      "epoch": 0.9300486116832826,
      "grad_norm": 0.7491887807846069,
      "learning_rate": 1.2453041265417105e-05,
      "loss": 1.4515,
      "mean_token_accuracy": 0.6389258007208506,
      "num_tokens": 1419463995.0,
      "step": 8466
    },
    {
      "entropy": 1.6619866987069447,
      "epoch": 0.9301584685946555,
      "grad_norm": 0.5975055694580078,
      "learning_rate": 1.2451461118734267e-05,
      "loss": 1.4631,
      "mean_token_accuracy": 0.6633708626031876,
      "num_tokens": 1419650890.0,
      "step": 8467
    },
    {
      "entropy": 1.6842903196811676,
      "epoch": 0.9302683255060284,
      "grad_norm": 0.7102713584899902,
      "learning_rate": 1.2449880926113339e-05,
      "loss": 1.552,
      "mean_token_accuracy": 0.6366306593020757,
      "num_tokens": 1419817492.0,
      "step": 8468
    },
    {
      "entropy": 1.6764464179674785,
      "epoch": 0.9303781824174013,
      "grad_norm": 0.648377001285553,
      "learning_rate": 1.2448300687604327e-05,
      "loss": 1.5442,
      "mean_token_accuracy": 0.6397795329491297,
      "num_tokens": 1420015035.0,
      "step": 8469
    },
    {
      "entropy": 1.736095021168391,
      "epoch": 0.9304880393287742,
      "grad_norm": 0.7206259965896606,
      "learning_rate": 1.2446720403257255e-05,
      "loss": 1.4128,
      "mean_token_accuracy": 0.6519557138284048,
      "num_tokens": 1420202744.0,
      "step": 8470
    },
    {
      "entropy": 1.671694815158844,
      "epoch": 0.9305978962401472,
      "grad_norm": 0.7011840343475342,
      "learning_rate": 1.2445140073122135e-05,
      "loss": 1.452,
      "mean_token_accuracy": 0.6552790006001791,
      "num_tokens": 1420346561.0,
      "step": 8471
    },
    {
      "entropy": 1.649581750233968,
      "epoch": 0.9307077531515201,
      "grad_norm": 0.7680811285972595,
      "learning_rate": 1.244355969724898e-05,
      "loss": 1.2785,
      "mean_token_accuracy": 0.6835348854462305,
      "num_tokens": 1420520670.0,
      "step": 8472
    },
    {
      "entropy": 1.6625533699989319,
      "epoch": 0.9308176100628931,
      "grad_norm": 0.7054336667060852,
      "learning_rate": 1.2441979275687813e-05,
      "loss": 1.3931,
      "mean_token_accuracy": 0.6612143218517303,
      "num_tokens": 1420685237.0,
      "step": 8473
    },
    {
      "entropy": 1.692489633957545,
      "epoch": 0.930927466974266,
      "grad_norm": 0.6488029360771179,
      "learning_rate": 1.2440398808488654e-05,
      "loss": 1.3779,
      "mean_token_accuracy": 0.679279754559199,
      "num_tokens": 1420901387.0,
      "step": 8474
    },
    {
      "entropy": 1.7313298384348552,
      "epoch": 0.931037323885639,
      "grad_norm": 0.7841524481773376,
      "learning_rate": 1.2438818295701515e-05,
      "loss": 1.3249,
      "mean_token_accuracy": 0.6554968257745107,
      "num_tokens": 1421099246.0,
      "step": 8475
    },
    {
      "entropy": 1.715612788995107,
      "epoch": 0.9311471807970119,
      "grad_norm": 0.7147516012191772,
      "learning_rate": 1.2437237737376431e-05,
      "loss": 1.3202,
      "mean_token_accuracy": 0.6654301732778549,
      "num_tokens": 1421270600.0,
      "step": 8476
    },
    {
      "entropy": 1.6151216328144073,
      "epoch": 0.9312570377083849,
      "grad_norm": 0.6839093565940857,
      "learning_rate": 1.2435657133563419e-05,
      "loss": 1.3194,
      "mean_token_accuracy": 0.6828833172718684,
      "num_tokens": 1421443338.0,
      "step": 8477
    },
    {
      "entropy": 1.681669036547343,
      "epoch": 0.9313668946197577,
      "grad_norm": 0.6480600237846375,
      "learning_rate": 1.2434076484312507e-05,
      "loss": 1.3436,
      "mean_token_accuracy": 0.6785709311564764,
      "num_tokens": 1421703636.0,
      "step": 8478
    },
    {
      "entropy": 1.7277530829111736,
      "epoch": 0.9314767515311307,
      "grad_norm": 0.7484097480773926,
      "learning_rate": 1.2432495789673717e-05,
      "loss": 1.3296,
      "mean_token_accuracy": 0.669383779168129,
      "num_tokens": 1421860755.0,
      "step": 8479
    },
    {
      "entropy": 1.694298009077708,
      "epoch": 0.9315866084425036,
      "grad_norm": 0.6591439247131348,
      "learning_rate": 1.2430915049697086e-05,
      "loss": 1.3729,
      "mean_token_accuracy": 0.6702051361401876,
      "num_tokens": 1422006872.0,
      "step": 8480
    },
    {
      "entropy": 1.654652992884318,
      "epoch": 0.9316964653538766,
      "grad_norm": 0.6514762043952942,
      "learning_rate": 1.2429334264432632e-05,
      "loss": 1.2161,
      "mean_token_accuracy": 0.6821036289135615,
      "num_tokens": 1422135857.0,
      "step": 8481
    },
    {
      "entropy": 1.7302643954753876,
      "epoch": 0.9318063222652495,
      "grad_norm": 0.6303740739822388,
      "learning_rate": 1.2427753433930398e-05,
      "loss": 1.3769,
      "mean_token_accuracy": 0.6573646614948908,
      "num_tokens": 1422283990.0,
      "step": 8482
    },
    {
      "entropy": 1.7143929402033489,
      "epoch": 0.9319161791766224,
      "grad_norm": 0.7011592984199524,
      "learning_rate": 1.2426172558240408e-05,
      "loss": 1.6449,
      "mean_token_accuracy": 0.626821535329024,
      "num_tokens": 1422527659.0,
      "step": 8483
    },
    {
      "entropy": 1.6688818732897441,
      "epoch": 0.9320260360879954,
      "grad_norm": 0.707831621170044,
      "learning_rate": 1.24245916374127e-05,
      "loss": 1.4702,
      "mean_token_accuracy": 0.6559558510780334,
      "num_tokens": 1422709784.0,
      "step": 8484
    },
    {
      "entropy": 1.7655527591705322,
      "epoch": 0.9321358929993683,
      "grad_norm": 0.7450686693191528,
      "learning_rate": 1.2423010671497309e-05,
      "loss": 1.363,
      "mean_token_accuracy": 0.6644783665736517,
      "num_tokens": 1422827575.0,
      "step": 8485
    },
    {
      "entropy": 1.7146152754624684,
      "epoch": 0.9322457499107413,
      "grad_norm": 0.7006492614746094,
      "learning_rate": 1.2421429660544274e-05,
      "loss": 1.2541,
      "mean_token_accuracy": 0.6772527098655701,
      "num_tokens": 1422967424.0,
      "step": 8486
    },
    {
      "entropy": 1.6500997145970662,
      "epoch": 0.9323556068221142,
      "grad_norm": 152.7211151123047,
      "learning_rate": 1.2419848604603624e-05,
      "loss": 1.3616,
      "mean_token_accuracy": 0.6649878074725469,
      "num_tokens": 1423124348.0,
      "step": 8487
    },
    {
      "entropy": 1.6900402406851451,
      "epoch": 0.9324654637334872,
      "grad_norm": 0.6380817294120789,
      "learning_rate": 1.2418267503725409e-05,
      "loss": 1.5177,
      "mean_token_accuracy": 0.6421713878711065,
      "num_tokens": 1423284404.0,
      "step": 8488
    },
    {
      "entropy": 1.6533196369806926,
      "epoch": 0.93257532064486,
      "grad_norm": 0.9251922965049744,
      "learning_rate": 1.2416686357959668e-05,
      "loss": 1.1989,
      "mean_token_accuracy": 0.6831783403952917,
      "num_tokens": 1423413353.0,
      "step": 8489
    },
    {
      "entropy": 1.6796255509058635,
      "epoch": 0.932685177556233,
      "grad_norm": 0.6227523684501648,
      "learning_rate": 1.2415105167356442e-05,
      "loss": 1.4729,
      "mean_token_accuracy": 0.6428764114777247,
      "num_tokens": 1423591192.0,
      "step": 8490
    },
    {
      "entropy": 1.7086295584837596,
      "epoch": 0.9327950344676059,
      "grad_norm": 0.6465691924095154,
      "learning_rate": 1.2413523931965775e-05,
      "loss": 1.4636,
      "mean_token_accuracy": 0.6566512435674667,
      "num_tokens": 1423756354.0,
      "step": 8491
    },
    {
      "entropy": 1.7025008797645569,
      "epoch": 0.9329048913789789,
      "grad_norm": 0.6250014901161194,
      "learning_rate": 1.2411942651837712e-05,
      "loss": 1.3253,
      "mean_token_accuracy": 0.6653555085261663,
      "num_tokens": 1423920837.0,
      "step": 8492
    },
    {
      "entropy": 1.7105981409549713,
      "epoch": 0.9330147482903518,
      "grad_norm": 0.7055547833442688,
      "learning_rate": 1.24103613270223e-05,
      "loss": 1.4082,
      "mean_token_accuracy": 0.6560359050830206,
      "num_tokens": 1424106336.0,
      "step": 8493
    },
    {
      "entropy": 1.7495214740435283,
      "epoch": 0.9331246052017248,
      "grad_norm": 0.7928077578544617,
      "learning_rate": 1.2408779957569586e-05,
      "loss": 1.3455,
      "mean_token_accuracy": 0.6681791841983795,
      "num_tokens": 1424236467.0,
      "step": 8494
    },
    {
      "entropy": 1.6718592544396718,
      "epoch": 0.9332344621130977,
      "grad_norm": 1.34169602394104,
      "learning_rate": 1.2407198543529624e-05,
      "loss": 1.4863,
      "mean_token_accuracy": 0.6318272079030672,
      "num_tokens": 1424400906.0,
      "step": 8495
    },
    {
      "entropy": 1.8002726435661316,
      "epoch": 0.9333443190244707,
      "grad_norm": 0.8875370025634766,
      "learning_rate": 1.2405617084952461e-05,
      "loss": 1.4144,
      "mean_token_accuracy": 0.6550916383663813,
      "num_tokens": 1424538191.0,
      "step": 8496
    },
    {
      "entropy": 1.6871886054674785,
      "epoch": 0.9334541759358436,
      "grad_norm": 0.6395008563995361,
      "learning_rate": 1.2404035581888149e-05,
      "loss": 1.4748,
      "mean_token_accuracy": 0.6380327840646108,
      "num_tokens": 1424765006.0,
      "step": 8497
    },
    {
      "entropy": 1.750147004922231,
      "epoch": 0.9335640328472165,
      "grad_norm": 0.7137428522109985,
      "learning_rate": 1.2402454034386747e-05,
      "loss": 1.485,
      "mean_token_accuracy": 0.6527098168929418,
      "num_tokens": 1424918563.0,
      "step": 8498
    },
    {
      "entropy": 1.7322723865509033,
      "epoch": 0.9336738897585894,
      "grad_norm": 0.7444048523902893,
      "learning_rate": 1.2400872442498306e-05,
      "loss": 1.4352,
      "mean_token_accuracy": 0.6530717114607493,
      "num_tokens": 1425078392.0,
      "step": 8499
    },
    {
      "entropy": 1.7369141379992168,
      "epoch": 0.9337837466699623,
      "grad_norm": 0.6727978587150574,
      "learning_rate": 1.239929080627288e-05,
      "loss": 1.4268,
      "mean_token_accuracy": 0.654167448480924,
      "num_tokens": 1425227908.0,
      "step": 8500
    },
    {
      "entropy": 1.7379600306351979,
      "epoch": 0.9338936035813353,
      "grad_norm": 0.8184369802474976,
      "learning_rate": 1.2397709125760533e-05,
      "loss": 1.3786,
      "mean_token_accuracy": 0.6590213775634766,
      "num_tokens": 1425352745.0,
      "step": 8501
    },
    {
      "entropy": 1.674992948770523,
      "epoch": 0.9340034604927082,
      "grad_norm": 0.6965845823287964,
      "learning_rate": 1.2396127401011324e-05,
      "loss": 1.2521,
      "mean_token_accuracy": 0.6741303652524948,
      "num_tokens": 1425458702.0,
      "step": 8502
    },
    {
      "entropy": 1.7390521963437398,
      "epoch": 0.9341133174040812,
      "grad_norm": 0.6826538443565369,
      "learning_rate": 1.2394545632075305e-05,
      "loss": 1.2356,
      "mean_token_accuracy": 0.6743427018324534,
      "num_tokens": 1425560277.0,
      "step": 8503
    },
    {
      "entropy": 1.7002219259738922,
      "epoch": 0.9342231743154541,
      "grad_norm": 0.5916033387184143,
      "learning_rate": 1.2392963819002555e-05,
      "loss": 1.3097,
      "mean_token_accuracy": 0.6765924940506617,
      "num_tokens": 1425736774.0,
      "step": 8504
    },
    {
      "entropy": 1.7539168000221252,
      "epoch": 0.9343330312268271,
      "grad_norm": 0.7708821296691895,
      "learning_rate": 1.2391381961843121e-05,
      "loss": 1.2834,
      "mean_token_accuracy": 0.6643802175919215,
      "num_tokens": 1425859969.0,
      "step": 8505
    },
    {
      "entropy": 1.7002765933672588,
      "epoch": 0.9344428881382,
      "grad_norm": 0.8281891345977783,
      "learning_rate": 1.2389800060647077e-05,
      "loss": 1.3764,
      "mean_token_accuracy": 0.6619481245676676,
      "num_tokens": 1425999977.0,
      "step": 8506
    },
    {
      "entropy": 1.7185891668001811,
      "epoch": 0.934552745049573,
      "grad_norm": 0.8112635612487793,
      "learning_rate": 1.2388218115464486e-05,
      "loss": 1.4361,
      "mean_token_accuracy": 0.6457992345094681,
      "num_tokens": 1426174270.0,
      "step": 8507
    },
    {
      "entropy": 1.7229107817014058,
      "epoch": 0.9346626019609459,
      "grad_norm": 0.6610147953033447,
      "learning_rate": 1.238663612634542e-05,
      "loss": 1.415,
      "mean_token_accuracy": 0.641492078701655,
      "num_tokens": 1426351638.0,
      "step": 8508
    },
    {
      "entropy": 1.7340005536874135,
      "epoch": 0.9347724588723189,
      "grad_norm": 0.729792058467865,
      "learning_rate": 1.2385054093339941e-05,
      "loss": 1.2905,
      "mean_token_accuracy": 0.6576346158981323,
      "num_tokens": 1426491965.0,
      "step": 8509
    },
    {
      "entropy": 1.703254113594691,
      "epoch": 0.9348823157836917,
      "grad_norm": 0.7107172012329102,
      "learning_rate": 1.2383472016498128e-05,
      "loss": 1.423,
      "mean_token_accuracy": 0.6514757623275121,
      "num_tokens": 1426659259.0,
      "step": 8510
    },
    {
      "entropy": 1.652273913224538,
      "epoch": 0.9349921726950646,
      "grad_norm": 0.6343944072723389,
      "learning_rate": 1.2381889895870047e-05,
      "loss": 1.4148,
      "mean_token_accuracy": 0.6528402169545492,
      "num_tokens": 1426855817.0,
      "step": 8511
    },
    {
      "entropy": 1.6305622259775798,
      "epoch": 0.9351020296064376,
      "grad_norm": 0.7010462880134583,
      "learning_rate": 1.2380307731505774e-05,
      "loss": 1.415,
      "mean_token_accuracy": 0.6715733309586843,
      "num_tokens": 1427018351.0,
      "step": 8512
    },
    {
      "entropy": 1.698022296031316,
      "epoch": 0.9352118865178105,
      "grad_norm": 0.7755676507949829,
      "learning_rate": 1.2378725523455385e-05,
      "loss": 1.4059,
      "mean_token_accuracy": 0.6574622690677643,
      "num_tokens": 1427181253.0,
      "step": 8513
    },
    {
      "entropy": 1.6600361963113148,
      "epoch": 0.9353217434291835,
      "grad_norm": 0.6646712422370911,
      "learning_rate": 1.2377143271768952e-05,
      "loss": 1.2889,
      "mean_token_accuracy": 0.6721018751462301,
      "num_tokens": 1427336298.0,
      "step": 8514
    },
    {
      "entropy": 1.7082114418347676,
      "epoch": 0.9354316003405564,
      "grad_norm": 0.681930422782898,
      "learning_rate": 1.2375560976496552e-05,
      "loss": 1.376,
      "mean_token_accuracy": 0.653716524442037,
      "num_tokens": 1427502299.0,
      "step": 8515
    },
    {
      "entropy": 1.7119992474714916,
      "epoch": 0.9355414572519294,
      "grad_norm": 0.6305302977561951,
      "learning_rate": 1.2373978637688273e-05,
      "loss": 1.3506,
      "mean_token_accuracy": 0.6574372202157974,
      "num_tokens": 1427667365.0,
      "step": 8516
    },
    {
      "entropy": 1.6821909447511036,
      "epoch": 0.9356513141633023,
      "grad_norm": 0.6896127462387085,
      "learning_rate": 1.2372396255394187e-05,
      "loss": 1.4327,
      "mean_token_accuracy": 0.6596807638804117,
      "num_tokens": 1427798152.0,
      "step": 8517
    },
    {
      "entropy": 1.6889863014221191,
      "epoch": 0.9357611710746753,
      "grad_norm": 0.6460300087928772,
      "learning_rate": 1.2370813829664378e-05,
      "loss": 1.3724,
      "mean_token_accuracy": 0.6577446510394415,
      "num_tokens": 1427962124.0,
      "step": 8518
    },
    {
      "entropy": 1.7353461384773254,
      "epoch": 0.9358710279860482,
      "grad_norm": 0.7331773638725281,
      "learning_rate": 1.236923136054893e-05,
      "loss": 1.3649,
      "mean_token_accuracy": 0.6644917080799738,
      "num_tokens": 1428118360.0,
      "step": 8519
    },
    {
      "entropy": 1.698060820500056,
      "epoch": 0.9359808848974212,
      "grad_norm": 0.6143467426300049,
      "learning_rate": 1.2367648848097926e-05,
      "loss": 1.3148,
      "mean_token_accuracy": 0.6635189453760783,
      "num_tokens": 1428275558.0,
      "step": 8520
    },
    {
      "entropy": 1.7490674356619518,
      "epoch": 0.936090741808794,
      "grad_norm": 0.7750940918922424,
      "learning_rate": 1.2366066292361452e-05,
      "loss": 1.6152,
      "mean_token_accuracy": 0.6309548219045004,
      "num_tokens": 1428429123.0,
      "step": 8521
    },
    {
      "entropy": 1.7576595544815063,
      "epoch": 0.936200598720167,
      "grad_norm": 0.7605588436126709,
      "learning_rate": 1.2364483693389595e-05,
      "loss": 1.3305,
      "mean_token_accuracy": 0.660569633046786,
      "num_tokens": 1428583904.0,
      "step": 8522
    },
    {
      "entropy": 1.6813994944095612,
      "epoch": 0.9363104556315399,
      "grad_norm": 0.6593738794326782,
      "learning_rate": 1.2362901051232443e-05,
      "loss": 1.424,
      "mean_token_accuracy": 0.6580062558253607,
      "num_tokens": 1428758635.0,
      "step": 8523
    },
    {
      "entropy": 1.6494923929373424,
      "epoch": 0.9364203125429128,
      "grad_norm": 0.6516050696372986,
      "learning_rate": 1.236131836594009e-05,
      "loss": 1.2905,
      "mean_token_accuracy": 0.6730307787656784,
      "num_tokens": 1428897399.0,
      "step": 8524
    },
    {
      "entropy": 1.626155565182368,
      "epoch": 0.9365301694542858,
      "grad_norm": 0.7014347314834595,
      "learning_rate": 1.235973563756262e-05,
      "loss": 1.2858,
      "mean_token_accuracy": 0.6724262833595276,
      "num_tokens": 1429039444.0,
      "step": 8525
    },
    {
      "entropy": 1.709865580002467,
      "epoch": 0.9366400263656587,
      "grad_norm": 0.61009281873703,
      "learning_rate": 1.2358152866150132e-05,
      "loss": 1.3338,
      "mean_token_accuracy": 0.6688801348209381,
      "num_tokens": 1429165058.0,
      "step": 8526
    },
    {
      "entropy": 1.6634798149267833,
      "epoch": 0.9367498832770317,
      "grad_norm": 0.7199569344520569,
      "learning_rate": 1.235657005175272e-05,
      "loss": 1.4218,
      "mean_token_accuracy": 0.6555696477492651,
      "num_tokens": 1429330762.0,
      "step": 8527
    },
    {
      "entropy": 1.7542400260766347,
      "epoch": 0.9368597401884046,
      "grad_norm": 0.6616681814193726,
      "learning_rate": 1.235498719442047e-05,
      "loss": 1.5701,
      "mean_token_accuracy": 0.6374204456806183,
      "num_tokens": 1429540856.0,
      "step": 8528
    },
    {
      "entropy": 1.7321417133013408,
      "epoch": 0.9369695970997776,
      "grad_norm": 0.9613889455795288,
      "learning_rate": 1.2353404294203493e-05,
      "loss": 1.4868,
      "mean_token_accuracy": 0.6607649475336075,
      "num_tokens": 1429656849.0,
      "step": 8529
    },
    {
      "entropy": 1.694995254278183,
      "epoch": 0.9370794540111504,
      "grad_norm": 0.6711973547935486,
      "learning_rate": 1.2351821351151877e-05,
      "loss": 1.4466,
      "mean_token_accuracy": 0.6372744043668112,
      "num_tokens": 1429878375.0,
      "step": 8530
    },
    {
      "entropy": 1.605004479487737,
      "epoch": 0.9371893109225234,
      "grad_norm": 0.7244718074798584,
      "learning_rate": 1.2350238365315725e-05,
      "loss": 1.1491,
      "mean_token_accuracy": 0.6727927128473917,
      "num_tokens": 1430059211.0,
      "step": 8531
    },
    {
      "entropy": 1.6997300287087758,
      "epoch": 0.9372991678338963,
      "grad_norm": 0.669244110584259,
      "learning_rate": 1.2348655336745139e-05,
      "loss": 1.597,
      "mean_token_accuracy": 0.6324973752101263,
      "num_tokens": 1430300402.0,
      "step": 8532
    },
    {
      "entropy": 1.7309175928433735,
      "epoch": 0.9374090247452693,
      "grad_norm": 0.6466419696807861,
      "learning_rate": 1.2347072265490217e-05,
      "loss": 1.3845,
      "mean_token_accuracy": 0.6553378701210022,
      "num_tokens": 1430441031.0,
      "step": 8533
    },
    {
      "entropy": 1.71918390194575,
      "epoch": 0.9375188816566422,
      "grad_norm": 0.7030944228172302,
      "learning_rate": 1.2345489151601065e-05,
      "loss": 1.5114,
      "mean_token_accuracy": 0.6413251161575317,
      "num_tokens": 1430640995.0,
      "step": 8534
    },
    {
      "entropy": 1.735251506169637,
      "epoch": 0.9376287385680152,
      "grad_norm": 0.619408369064331,
      "learning_rate": 1.2343905995127787e-05,
      "loss": 1.4836,
      "mean_token_accuracy": 0.6480836818615595,
      "num_tokens": 1430801643.0,
      "step": 8535
    },
    {
      "entropy": 1.7108490367730458,
      "epoch": 0.9377385954793881,
      "grad_norm": 0.6266258358955383,
      "learning_rate": 1.2342322796120494e-05,
      "loss": 1.4076,
      "mean_token_accuracy": 0.6552125016848246,
      "num_tokens": 1430964465.0,
      "step": 8536
    },
    {
      "entropy": 1.7700796524683635,
      "epoch": 0.9378484523907611,
      "grad_norm": 0.6809885501861572,
      "learning_rate": 1.2340739554629285e-05,
      "loss": 1.4017,
      "mean_token_accuracy": 0.647578035791715,
      "num_tokens": 1431106838.0,
      "step": 8537
    },
    {
      "entropy": 1.722182273864746,
      "epoch": 0.937958309302134,
      "grad_norm": 0.6057953834533691,
      "learning_rate": 1.2339156270704273e-05,
      "loss": 1.3765,
      "mean_token_accuracy": 0.6555658529202143,
      "num_tokens": 1431241799.0,
      "step": 8538
    },
    {
      "entropy": 1.7782465716203053,
      "epoch": 0.9380681662135069,
      "grad_norm": 0.7593392729759216,
      "learning_rate": 1.233757294439557e-05,
      "loss": 1.5713,
      "mean_token_accuracy": 0.6409921248753866,
      "num_tokens": 1431375532.0,
      "step": 8539
    },
    {
      "entropy": 1.6467249592145283,
      "epoch": 0.9381780231248799,
      "grad_norm": 0.6114002466201782,
      "learning_rate": 1.2335989575753287e-05,
      "loss": 1.3017,
      "mean_token_accuracy": 0.666813870271047,
      "num_tokens": 1431556355.0,
      "step": 8540
    },
    {
      "entropy": 1.7343460321426392,
      "epoch": 0.9382878800362527,
      "grad_norm": 0.673979640007019,
      "learning_rate": 1.2334406164827532e-05,
      "loss": 1.2794,
      "mean_token_accuracy": 0.6679557810227076,
      "num_tokens": 1431733091.0,
      "step": 8541
    },
    {
      "entropy": 1.6641011436780293,
      "epoch": 0.9383977369476257,
      "grad_norm": 0.7670729160308838,
      "learning_rate": 1.2332822711668429e-05,
      "loss": 1.3856,
      "mean_token_accuracy": 0.6573190341393153,
      "num_tokens": 1431889217.0,
      "step": 8542
    },
    {
      "entropy": 1.7148659825325012,
      "epoch": 0.9385075938589986,
      "grad_norm": 0.7064855098724365,
      "learning_rate": 1.233123921632608e-05,
      "loss": 1.3523,
      "mean_token_accuracy": 0.665443574388822,
      "num_tokens": 1432021404.0,
      "step": 8543
    },
    {
      "entropy": 1.6672392785549164,
      "epoch": 0.9386174507703716,
      "grad_norm": 0.6361745595932007,
      "learning_rate": 1.2329655678850619e-05,
      "loss": 1.412,
      "mean_token_accuracy": 0.6467155714829763,
      "num_tokens": 1432204022.0,
      "step": 8544
    },
    {
      "entropy": 1.601523111263911,
      "epoch": 0.9387273076817445,
      "grad_norm": 0.5796836018562317,
      "learning_rate": 1.2328072099292148e-05,
      "loss": 1.3599,
      "mean_token_accuracy": 0.6564453194538752,
      "num_tokens": 1432403878.0,
      "step": 8545
    },
    {
      "entropy": 1.699288825194041,
      "epoch": 0.9388371645931175,
      "grad_norm": 0.7255278825759888,
      "learning_rate": 1.2326488477700795e-05,
      "loss": 1.5015,
      "mean_token_accuracy": 0.6359589795271555,
      "num_tokens": 1432602079.0,
      "step": 8546
    },
    {
      "entropy": 1.6769676804542542,
      "epoch": 0.9389470215044904,
      "grad_norm": 0.7669406533241272,
      "learning_rate": 1.2324904814126682e-05,
      "loss": 1.4365,
      "mean_token_accuracy": 0.645541230837504,
      "num_tokens": 1432795695.0,
      "step": 8547
    },
    {
      "entropy": 1.7266658147176106,
      "epoch": 0.9390568784158634,
      "grad_norm": 0.6003899574279785,
      "learning_rate": 1.2323321108619927e-05,
      "loss": 1.5048,
      "mean_token_accuracy": 0.6312548617521921,
      "num_tokens": 1433015547.0,
      "step": 8548
    },
    {
      "entropy": 1.694272110859553,
      "epoch": 0.9391667353272363,
      "grad_norm": 0.597334623336792,
      "learning_rate": 1.2321737361230657e-05,
      "loss": 1.4965,
      "mean_token_accuracy": 0.6420956204334894,
      "num_tokens": 1433216205.0,
      "step": 8549
    },
    {
      "entropy": 1.750846117734909,
      "epoch": 0.9392765922386093,
      "grad_norm": 0.6369536519050598,
      "learning_rate": 1.232015357200899e-05,
      "loss": 1.4068,
      "mean_token_accuracy": 0.6545988370974859,
      "num_tokens": 1433365930.0,
      "step": 8550
    },
    {
      "entropy": 1.7660410205523174,
      "epoch": 0.9393864491499822,
      "grad_norm": 0.7357500195503235,
      "learning_rate": 1.231856974100506e-05,
      "loss": 1.2884,
      "mean_token_accuracy": 0.6664379785458246,
      "num_tokens": 1433474906.0,
      "step": 8551
    },
    {
      "entropy": 1.717143605152766,
      "epoch": 0.939496306061355,
      "grad_norm": 0.7086150050163269,
      "learning_rate": 1.2316985868268996e-05,
      "loss": 1.2126,
      "mean_token_accuracy": 0.6740925163030624,
      "num_tokens": 1433578842.0,
      "step": 8552
    },
    {
      "entropy": 1.689423680305481,
      "epoch": 0.939606162972728,
      "grad_norm": 0.7993782758712769,
      "learning_rate": 1.2315401953850915e-05,
      "loss": 1.3022,
      "mean_token_accuracy": 0.6719008336464564,
      "num_tokens": 1433704238.0,
      "step": 8553
    },
    {
      "entropy": 1.7148550947507222,
      "epoch": 0.9397160198841009,
      "grad_norm": 0.6006395220756531,
      "learning_rate": 1.2313817997800963e-05,
      "loss": 1.3841,
      "mean_token_accuracy": 0.6570403923590978,
      "num_tokens": 1433895168.0,
      "step": 8554
    },
    {
      "entropy": 1.7745637098948162,
      "epoch": 0.9398258767954739,
      "grad_norm": 0.6105915904045105,
      "learning_rate": 1.231223400016926e-05,
      "loss": 1.3853,
      "mean_token_accuracy": 0.6493383248647054,
      "num_tokens": 1434091545.0,
      "step": 8555
    },
    {
      "entropy": 1.6534299850463867,
      "epoch": 0.9399357337068468,
      "grad_norm": 0.630155622959137,
      "learning_rate": 1.2310649961005937e-05,
      "loss": 1.3915,
      "mean_token_accuracy": 0.6596393237511317,
      "num_tokens": 1434295654.0,
      "step": 8556
    },
    {
      "entropy": 1.6820517877737682,
      "epoch": 0.9400455906182198,
      "grad_norm": 0.6753036975860596,
      "learning_rate": 1.2309065880361139e-05,
      "loss": 1.3637,
      "mean_token_accuracy": 0.6623709599177042,
      "num_tokens": 1434465834.0,
      "step": 8557
    },
    {
      "entropy": 1.7782000700632732,
      "epoch": 0.9401554475295927,
      "grad_norm": 0.7968646883964539,
      "learning_rate": 1.2307481758284996e-05,
      "loss": 1.3908,
      "mean_token_accuracy": 0.6523198982079824,
      "num_tokens": 1434654878.0,
      "step": 8558
    },
    {
      "entropy": 1.7569174667199452,
      "epoch": 0.9402653044409657,
      "grad_norm": 0.8099093437194824,
      "learning_rate": 1.2305897594827642e-05,
      "loss": 1.4227,
      "mean_token_accuracy": 0.654918392499288,
      "num_tokens": 1434786625.0,
      "step": 8559
    },
    {
      "entropy": 1.6676458517710369,
      "epoch": 0.9403751613523386,
      "grad_norm": 0.7002986669540405,
      "learning_rate": 1.230431339003922e-05,
      "loss": 1.3799,
      "mean_token_accuracy": 0.6608104457457861,
      "num_tokens": 1434961024.0,
      "step": 8560
    },
    {
      "entropy": 1.7227271993954976,
      "epoch": 0.9404850182637116,
      "grad_norm": 0.6729583144187927,
      "learning_rate": 1.2302729143969864e-05,
      "loss": 1.4044,
      "mean_token_accuracy": 0.6510558873414993,
      "num_tokens": 1435139239.0,
      "step": 8561
    },
    {
      "entropy": 1.7713795006275177,
      "epoch": 0.9405948751750844,
      "grad_norm": 0.6517491340637207,
      "learning_rate": 1.230114485666972e-05,
      "loss": 1.3088,
      "mean_token_accuracy": 0.6703696896632513,
      "num_tokens": 1435306595.0,
      "step": 8562
    },
    {
      "entropy": 1.7000613113244374,
      "epoch": 0.9407047320864574,
      "grad_norm": 0.7172781229019165,
      "learning_rate": 1.2299560528188928e-05,
      "loss": 1.4559,
      "mean_token_accuracy": 0.6527749449014664,
      "num_tokens": 1435512818.0,
      "step": 8563
    },
    {
      "entropy": 1.6688750584920247,
      "epoch": 0.9408145889978303,
      "grad_norm": 0.6413210034370422,
      "learning_rate": 1.2297976158577632e-05,
      "loss": 1.4387,
      "mean_token_accuracy": 0.655961866180102,
      "num_tokens": 1435687791.0,
      "step": 8564
    },
    {
      "entropy": 1.7471512258052826,
      "epoch": 0.9409244459092032,
      "grad_norm": 0.7935196161270142,
      "learning_rate": 1.2296391747885969e-05,
      "loss": 1.4428,
      "mean_token_accuracy": 0.652156800031662,
      "num_tokens": 1435831770.0,
      "step": 8565
    },
    {
      "entropy": 1.645731806755066,
      "epoch": 0.9410343028205762,
      "grad_norm": 0.6245310306549072,
      "learning_rate": 1.22948072961641e-05,
      "loss": 1.3675,
      "mean_token_accuracy": 0.6590336362520853,
      "num_tokens": 1436053698.0,
      "step": 8566
    },
    {
      "entropy": 1.7025697429974873,
      "epoch": 0.9411441597319491,
      "grad_norm": 0.6795003414154053,
      "learning_rate": 1.2293222803462157e-05,
      "loss": 1.3575,
      "mean_token_accuracy": 0.6611177573601404,
      "num_tokens": 1436232464.0,
      "step": 8567
    },
    {
      "entropy": 1.6784963309764862,
      "epoch": 0.9412540166433221,
      "grad_norm": 0.6474406719207764,
      "learning_rate": 1.2291638269830296e-05,
      "loss": 1.5794,
      "mean_token_accuracy": 0.6418151060740153,
      "num_tokens": 1436431748.0,
      "step": 8568
    },
    {
      "entropy": 1.6753207445144653,
      "epoch": 0.941363873554695,
      "grad_norm": 0.7023776769638062,
      "learning_rate": 1.2290053695318666e-05,
      "loss": 1.2703,
      "mean_token_accuracy": 0.6644528806209564,
      "num_tokens": 1436594419.0,
      "step": 8569
    },
    {
      "entropy": 1.693762997786204,
      "epoch": 0.941473730466068,
      "grad_norm": 0.7446289658546448,
      "learning_rate": 1.2288469079977423e-05,
      "loss": 1.4171,
      "mean_token_accuracy": 0.6514114439487457,
      "num_tokens": 1436802609.0,
      "step": 8570
    },
    {
      "entropy": 1.7322840690612793,
      "epoch": 0.9415835873774409,
      "grad_norm": 0.7329487204551697,
      "learning_rate": 1.2286884423856707e-05,
      "loss": 1.3476,
      "mean_token_accuracy": 0.6640298316876093,
      "num_tokens": 1436947973.0,
      "step": 8571
    },
    {
      "entropy": 1.7172012130419414,
      "epoch": 0.9416934442888139,
      "grad_norm": 0.7047858238220215,
      "learning_rate": 1.2285299727006681e-05,
      "loss": 1.2538,
      "mean_token_accuracy": 0.6799323062102,
      "num_tokens": 1437075212.0,
      "step": 8572
    },
    {
      "entropy": 1.7134579122066498,
      "epoch": 0.9418033012001867,
      "grad_norm": 0.7685977816581726,
      "learning_rate": 1.22837149894775e-05,
      "loss": 1.3434,
      "mean_token_accuracy": 0.6664036015669504,
      "num_tokens": 1437204294.0,
      "step": 8573
    },
    {
      "entropy": 1.6684084435304005,
      "epoch": 0.9419131581115597,
      "grad_norm": 0.6283167004585266,
      "learning_rate": 1.2282130211319317e-05,
      "loss": 1.4298,
      "mean_token_accuracy": 0.6495349705219269,
      "num_tokens": 1437409005.0,
      "step": 8574
    },
    {
      "entropy": 1.7082226773103077,
      "epoch": 0.9420230150229326,
      "grad_norm": 0.710364043712616,
      "learning_rate": 1.228054539258229e-05,
      "loss": 1.3381,
      "mean_token_accuracy": 0.6665283391873041,
      "num_tokens": 1437559170.0,
      "step": 8575
    },
    {
      "entropy": 1.6750965019067128,
      "epoch": 0.9421328719343056,
      "grad_norm": 0.7653444409370422,
      "learning_rate": 1.227896053331658e-05,
      "loss": 1.2684,
      "mean_token_accuracy": 0.6685964713493983,
      "num_tokens": 1437700695.0,
      "step": 8576
    },
    {
      "entropy": 1.740403562784195,
      "epoch": 0.9422427288456785,
      "grad_norm": 0.6980507373809814,
      "learning_rate": 1.2277375633572342e-05,
      "loss": 1.4079,
      "mean_token_accuracy": 0.6575213720401129,
      "num_tokens": 1437824155.0,
      "step": 8577
    },
    {
      "entropy": 1.697914143403371,
      "epoch": 0.9423525857570514,
      "grad_norm": 1.6362974643707275,
      "learning_rate": 1.2275790693399742e-05,
      "loss": 1.1908,
      "mean_token_accuracy": 0.6685192883014679,
      "num_tokens": 1438043105.0,
      "step": 8578
    },
    {
      "entropy": 1.7175638178984325,
      "epoch": 0.9424624426684244,
      "grad_norm": 0.7739365696907043,
      "learning_rate": 1.2274205712848946e-05,
      "loss": 1.2582,
      "mean_token_accuracy": 0.6746840725342432,
      "num_tokens": 1438171351.0,
      "step": 8579
    },
    {
      "entropy": 1.7105300724506378,
      "epoch": 0.9425722995797973,
      "grad_norm": 0.6245592832565308,
      "learning_rate": 1.227262069197011e-05,
      "loss": 1.4033,
      "mean_token_accuracy": 0.6511557598908743,
      "num_tokens": 1438333063.0,
      "step": 8580
    },
    {
      "entropy": 1.7435839176177979,
      "epoch": 0.9426821564911703,
      "grad_norm": 1.099191665649414,
      "learning_rate": 1.2271035630813399e-05,
      "loss": 1.6261,
      "mean_token_accuracy": 0.6620939721663793,
      "num_tokens": 1438480683.0,
      "step": 8581
    },
    {
      "entropy": 1.6721567908922832,
      "epoch": 0.9427920134025431,
      "grad_norm": 0.7055137753486633,
      "learning_rate": 1.2269450529428987e-05,
      "loss": 1.3201,
      "mean_token_accuracy": 0.6689964085817337,
      "num_tokens": 1438677861.0,
      "step": 8582
    },
    {
      "entropy": 1.7083663443724315,
      "epoch": 0.9429018703139161,
      "grad_norm": 0.5708084106445312,
      "learning_rate": 1.2267865387867038e-05,
      "loss": 1.3933,
      "mean_token_accuracy": 0.656741683681806,
      "num_tokens": 1438877416.0,
      "step": 8583
    },
    {
      "entropy": 1.706307937701543,
      "epoch": 0.943011727225289,
      "grad_norm": 0.7216012477874756,
      "learning_rate": 1.2266280206177718e-05,
      "loss": 1.4801,
      "mean_token_accuracy": 0.6545088092486063,
      "num_tokens": 1439042236.0,
      "step": 8584
    },
    {
      "entropy": 1.70126873254776,
      "epoch": 0.943121584136662,
      "grad_norm": 0.7581015229225159,
      "learning_rate": 1.2264694984411203e-05,
      "loss": 1.5482,
      "mean_token_accuracy": 0.6490120142698288,
      "num_tokens": 1439220469.0,
      "step": 8585
    },
    {
      "entropy": 1.651670257250468,
      "epoch": 0.9432314410480349,
      "grad_norm": 0.6032636761665344,
      "learning_rate": 1.226310972261766e-05,
      "loss": 1.5364,
      "mean_token_accuracy": 0.6319657365481058,
      "num_tokens": 1439465630.0,
      "step": 8586
    },
    {
      "entropy": 1.6893612047036488,
      "epoch": 0.9433412979594079,
      "grad_norm": 0.5619993805885315,
      "learning_rate": 1.2261524420847265e-05,
      "loss": 1.0479,
      "mean_token_accuracy": 0.6818432062864304,
      "num_tokens": 1439603786.0,
      "step": 8587
    },
    {
      "entropy": 1.7372606893380482,
      "epoch": 0.9434511548707808,
      "grad_norm": 0.8364537954330444,
      "learning_rate": 1.225993907915019e-05,
      "loss": 1.433,
      "mean_token_accuracy": 0.6543504744768143,
      "num_tokens": 1439802054.0,
      "step": 8588
    },
    {
      "entropy": 1.6576914886633556,
      "epoch": 0.9435610117821538,
      "grad_norm": 0.6688291430473328,
      "learning_rate": 1.225835369757661e-05,
      "loss": 1.3298,
      "mean_token_accuracy": 0.6816399743159612,
      "num_tokens": 1439958813.0,
      "step": 8589
    },
    {
      "entropy": 1.6907293200492859,
      "epoch": 0.9436708686935267,
      "grad_norm": 0.657168984413147,
      "learning_rate": 1.2256768276176702e-05,
      "loss": 1.3813,
      "mean_token_accuracy": 0.6570898244778315,
      "num_tokens": 1440161016.0,
      "step": 8590
    },
    {
      "entropy": 1.6189829607804616,
      "epoch": 0.9437807256048997,
      "grad_norm": 0.7953099012374878,
      "learning_rate": 1.2255182815000646e-05,
      "loss": 1.4897,
      "mean_token_accuracy": 0.6546467443307241,
      "num_tokens": 1440331282.0,
      "step": 8591
    },
    {
      "entropy": 1.751821796099345,
      "epoch": 0.9438905825162726,
      "grad_norm": 0.8301904797554016,
      "learning_rate": 1.225359731409862e-05,
      "loss": 1.5474,
      "mean_token_accuracy": 0.6519018063942591,
      "num_tokens": 1440558471.0,
      "step": 8592
    },
    {
      "entropy": 1.741612325112025,
      "epoch": 0.9440004394276454,
      "grad_norm": 0.7195350527763367,
      "learning_rate": 1.22520117735208e-05,
      "loss": 1.4176,
      "mean_token_accuracy": 0.6544721672932307,
      "num_tokens": 1440739587.0,
      "step": 8593
    },
    {
      "entropy": 1.6872974336147308,
      "epoch": 0.9441102963390184,
      "grad_norm": 0.6328041553497314,
      "learning_rate": 1.2250426193317376e-05,
      "loss": 1.5012,
      "mean_token_accuracy": 0.645188053448995,
      "num_tokens": 1440907130.0,
      "step": 8594
    },
    {
      "entropy": 1.7358746826648712,
      "epoch": 0.9442201532503913,
      "grad_norm": 0.6817638278007507,
      "learning_rate": 1.2248840573538522e-05,
      "loss": 1.43,
      "mean_token_accuracy": 0.6595302472511927,
      "num_tokens": 1441080715.0,
      "step": 8595
    },
    {
      "entropy": 1.6565217673778534,
      "epoch": 0.9443300101617643,
      "grad_norm": 0.6565890312194824,
      "learning_rate": 1.224725491423443e-05,
      "loss": 1.5008,
      "mean_token_accuracy": 0.6534999509652456,
      "num_tokens": 1441287677.0,
      "step": 8596
    },
    {
      "entropy": 1.7144455512364705,
      "epoch": 0.9444398670731372,
      "grad_norm": 0.6671959757804871,
      "learning_rate": 1.224566921545528e-05,
      "loss": 1.4134,
      "mean_token_accuracy": 0.6520157555739085,
      "num_tokens": 1441433876.0,
      "step": 8597
    },
    {
      "entropy": 1.690605749686559,
      "epoch": 0.9445497239845102,
      "grad_norm": 0.723557710647583,
      "learning_rate": 1.2244083477251265e-05,
      "loss": 1.5496,
      "mean_token_accuracy": 0.6480442037185034,
      "num_tokens": 1441611098.0,
      "step": 8598
    },
    {
      "entropy": 1.7220774292945862,
      "epoch": 0.9446595808958831,
      "grad_norm": 0.6669568419456482,
      "learning_rate": 1.2242497699672562e-05,
      "loss": 1.547,
      "mean_token_accuracy": 0.6334994534651438,
      "num_tokens": 1441771369.0,
      "step": 8599
    },
    {
      "entropy": 1.7486573259035747,
      "epoch": 0.9447694378072561,
      "grad_norm": 0.6781217455863953,
      "learning_rate": 1.2240911882769372e-05,
      "loss": 1.4171,
      "mean_token_accuracy": 0.645118405421575,
      "num_tokens": 1441916756.0,
      "step": 8600
    },
    {
      "entropy": 1.6590690712134044,
      "epoch": 0.944879294718629,
      "grad_norm": 0.6555703282356262,
      "learning_rate": 1.2239326026591877e-05,
      "loss": 1.2832,
      "mean_token_accuracy": 0.6796758274237314,
      "num_tokens": 1442041756.0,
      "step": 8601
    },
    {
      "entropy": 1.7096993426481883,
      "epoch": 0.944989151630002,
      "grad_norm": 0.690627932548523,
      "learning_rate": 1.2237740131190275e-05,
      "loss": 1.3739,
      "mean_token_accuracy": 0.66547991335392,
      "num_tokens": 1442198769.0,
      "step": 8602
    },
    {
      "entropy": 1.728843520085017,
      "epoch": 0.9450990085413749,
      "grad_norm": 0.7249277830123901,
      "learning_rate": 1.2236154196614754e-05,
      "loss": 1.5124,
      "mean_token_accuracy": 0.6484755227963129,
      "num_tokens": 1442371906.0,
      "step": 8603
    },
    {
      "entropy": 1.7191427449385326,
      "epoch": 0.9452088654527478,
      "grad_norm": 0.6279011368751526,
      "learning_rate": 1.2234568222915511e-05,
      "loss": 1.5187,
      "mean_token_accuracy": 0.6500843664010366,
      "num_tokens": 1442549837.0,
      "step": 8604
    },
    {
      "entropy": 1.7306394279003143,
      "epoch": 0.9453187223641207,
      "grad_norm": 0.7033337950706482,
      "learning_rate": 1.2232982210142734e-05,
      "loss": 1.4231,
      "mean_token_accuracy": 0.649728591243426,
      "num_tokens": 1442708077.0,
      "step": 8605
    },
    {
      "entropy": 1.6703736782073975,
      "epoch": 0.9454285792754936,
      "grad_norm": 0.745704174041748,
      "learning_rate": 1.2231396158346631e-05,
      "loss": 1.4547,
      "mean_token_accuracy": 0.6601613610982895,
      "num_tokens": 1442846251.0,
      "step": 8606
    },
    {
      "entropy": 1.6758897602558136,
      "epoch": 0.9455384361868666,
      "grad_norm": 0.6928910613059998,
      "learning_rate": 1.2229810067577395e-05,
      "loss": 1.5418,
      "mean_token_accuracy": 0.6258559823036194,
      "num_tokens": 1443052093.0,
      "step": 8607
    },
    {
      "entropy": 1.685420682032903,
      "epoch": 0.9456482930982395,
      "grad_norm": 0.6015498042106628,
      "learning_rate": 1.2228223937885222e-05,
      "loss": 1.3963,
      "mean_token_accuracy": 0.6562847743431727,
      "num_tokens": 1443234288.0,
      "step": 8608
    },
    {
      "entropy": 1.7362493971983592,
      "epoch": 0.9457581500096125,
      "grad_norm": 0.7113436460494995,
      "learning_rate": 1.2226637769320316e-05,
      "loss": 1.3335,
      "mean_token_accuracy": 0.6664293905099233,
      "num_tokens": 1443373399.0,
      "step": 8609
    },
    {
      "entropy": 1.7087362408638,
      "epoch": 0.9458680069209854,
      "grad_norm": 0.6327268481254578,
      "learning_rate": 1.2225051561932877e-05,
      "loss": 1.4998,
      "mean_token_accuracy": 0.6323538819948832,
      "num_tokens": 1443518849.0,
      "step": 8610
    },
    {
      "entropy": 1.673716555039088,
      "epoch": 0.9459778638323584,
      "grad_norm": 0.6509339213371277,
      "learning_rate": 1.2223465315773109e-05,
      "loss": 1.3558,
      "mean_token_accuracy": 0.6670020073652267,
      "num_tokens": 1443642314.0,
      "step": 8611
    },
    {
      "entropy": 1.6992060740788777,
      "epoch": 0.9460877207437313,
      "grad_norm": 0.8136547207832336,
      "learning_rate": 1.2221879030891214e-05,
      "loss": 1.5503,
      "mean_token_accuracy": 0.6302010516325632,
      "num_tokens": 1443856184.0,
      "step": 8612
    },
    {
      "entropy": 1.7098911603291829,
      "epoch": 0.9461975776551043,
      "grad_norm": 0.7616743445396423,
      "learning_rate": 1.2220292707337396e-05,
      "loss": 1.4039,
      "mean_token_accuracy": 0.650201790034771,
      "num_tokens": 1443988081.0,
      "step": 8613
    },
    {
      "entropy": 1.679803490638733,
      "epoch": 0.9463074345664771,
      "grad_norm": 0.8417178988456726,
      "learning_rate": 1.2218706345161869e-05,
      "loss": 1.3653,
      "mean_token_accuracy": 0.6717022359371185,
      "num_tokens": 1444134135.0,
      "step": 8614
    },
    {
      "entropy": 1.7369107902050018,
      "epoch": 0.9464172914778501,
      "grad_norm": 0.7196716070175171,
      "learning_rate": 1.221711994441483e-05,
      "loss": 1.259,
      "mean_token_accuracy": 0.6838698089122772,
      "num_tokens": 1444243607.0,
      "step": 8615
    },
    {
      "entropy": 1.6895853380362194,
      "epoch": 0.946527148389223,
      "grad_norm": 0.6455492973327637,
      "learning_rate": 1.2215533505146498e-05,
      "loss": 1.5036,
      "mean_token_accuracy": 0.638408382733663,
      "num_tokens": 1444393001.0,
      "step": 8616
    },
    {
      "entropy": 1.7575147449970245,
      "epoch": 0.946637005300596,
      "grad_norm": 0.7868098020553589,
      "learning_rate": 1.2213947027407074e-05,
      "loss": 1.4593,
      "mean_token_accuracy": 0.6475796749194463,
      "num_tokens": 1444581539.0,
      "step": 8617
    },
    {
      "entropy": 1.6824683447678883,
      "epoch": 0.9467468622119689,
      "grad_norm": 0.7493737936019897,
      "learning_rate": 1.2212360511246775e-05,
      "loss": 1.2181,
      "mean_token_accuracy": 0.6755462735891342,
      "num_tokens": 1444696551.0,
      "step": 8618
    },
    {
      "entropy": 1.685210108757019,
      "epoch": 0.9468567191233418,
      "grad_norm": 0.6668775081634521,
      "learning_rate": 1.221077395671581e-05,
      "loss": 1.3536,
      "mean_token_accuracy": 0.6589836031198502,
      "num_tokens": 1444842322.0,
      "step": 8619
    },
    {
      "entropy": 1.695833792289098,
      "epoch": 0.9469665760347148,
      "grad_norm": 0.6757495403289795,
      "learning_rate": 1.2209187363864403e-05,
      "loss": 1.4149,
      "mean_token_accuracy": 0.6574927568435669,
      "num_tokens": 1444978361.0,
      "step": 8620
    },
    {
      "entropy": 1.6860649983088176,
      "epoch": 0.9470764329460877,
      "grad_norm": 0.8738111853599548,
      "learning_rate": 1.2207600732742753e-05,
      "loss": 1.4086,
      "mean_token_accuracy": 0.672735000650088,
      "num_tokens": 1445114765.0,
      "step": 8621
    },
    {
      "entropy": 1.7755548655986786,
      "epoch": 0.9471862898574607,
      "grad_norm": 0.7084314227104187,
      "learning_rate": 1.2206014063401088e-05,
      "loss": 1.4593,
      "mean_token_accuracy": 0.6394910415013632,
      "num_tokens": 1445280099.0,
      "step": 8622
    },
    {
      "entropy": 1.6687957346439362,
      "epoch": 0.9472961467688336,
      "grad_norm": 0.6261263489723206,
      "learning_rate": 1.2204427355889619e-05,
      "loss": 1.4939,
      "mean_token_accuracy": 0.6568110336860021,
      "num_tokens": 1445470949.0,
      "step": 8623
    },
    {
      "entropy": 1.6220212280750275,
      "epoch": 0.9474060036802066,
      "grad_norm": 0.6310474276542664,
      "learning_rate": 1.2202840610258567e-05,
      "loss": 1.4776,
      "mean_token_accuracy": 0.6486604412396749,
      "num_tokens": 1445669405.0,
      "step": 8624
    },
    {
      "entropy": 1.7591717044512432,
      "epoch": 0.9475158605915794,
      "grad_norm": 0.6975616812705994,
      "learning_rate": 1.2201253826558151e-05,
      "loss": 1.4629,
      "mean_token_accuracy": 0.6384722590446472,
      "num_tokens": 1445848452.0,
      "step": 8625
    },
    {
      "entropy": 1.7158987323443096,
      "epoch": 0.9476257175029524,
      "grad_norm": 0.7575097680091858,
      "learning_rate": 1.2199667004838595e-05,
      "loss": 1.5049,
      "mean_token_accuracy": 0.6423617899417877,
      "num_tokens": 1446025783.0,
      "step": 8626
    },
    {
      "entropy": 1.7229747573534648,
      "epoch": 0.9477355744143253,
      "grad_norm": 0.7464864253997803,
      "learning_rate": 1.2198080145150115e-05,
      "loss": 1.5275,
      "mean_token_accuracy": 0.6419810652732849,
      "num_tokens": 1446233918.0,
      "step": 8627
    },
    {
      "entropy": 1.6983900268872578,
      "epoch": 0.9478454313256983,
      "grad_norm": 0.7038105130195618,
      "learning_rate": 1.2196493247542945e-05,
      "loss": 1.4288,
      "mean_token_accuracy": 0.6560607403516769,
      "num_tokens": 1446397858.0,
      "step": 8628
    },
    {
      "entropy": 1.6872251629829407,
      "epoch": 0.9479552882370712,
      "grad_norm": 0.6693107485771179,
      "learning_rate": 1.2194906312067298e-05,
      "loss": 1.4111,
      "mean_token_accuracy": 0.6616791983445486,
      "num_tokens": 1446572029.0,
      "step": 8629
    },
    {
      "entropy": 1.734555850426356,
      "epoch": 0.9480651451484442,
      "grad_norm": 0.8772332668304443,
      "learning_rate": 1.2193319338773407e-05,
      "loss": 1.2269,
      "mean_token_accuracy": 0.675347904364268,
      "num_tokens": 1446687371.0,
      "step": 8630
    },
    {
      "entropy": 1.7342069049676259,
      "epoch": 0.9481750020598171,
      "grad_norm": 0.7794189453125,
      "learning_rate": 1.2191732327711494e-05,
      "loss": 1.4603,
      "mean_token_accuracy": 0.6412904510895411,
      "num_tokens": 1446848084.0,
      "step": 8631
    },
    {
      "entropy": 1.6514850755532582,
      "epoch": 0.94828485897119,
      "grad_norm": 0.660847544670105,
      "learning_rate": 1.219014527893179e-05,
      "loss": 1.3589,
      "mean_token_accuracy": 0.6614196399847666,
      "num_tokens": 1447020659.0,
      "step": 8632
    },
    {
      "entropy": 1.752412219842275,
      "epoch": 0.948394715882563,
      "grad_norm": 0.7109209895133972,
      "learning_rate": 1.2188558192484524e-05,
      "loss": 1.476,
      "mean_token_accuracy": 0.6500055193901062,
      "num_tokens": 1447193145.0,
      "step": 8633
    },
    {
      "entropy": 1.7354917923609416,
      "epoch": 0.9485045727939359,
      "grad_norm": 0.7011961936950684,
      "learning_rate": 1.2186971068419933e-05,
      "loss": 1.405,
      "mean_token_accuracy": 0.6602567285299301,
      "num_tokens": 1447336250.0,
      "step": 8634
    },
    {
      "entropy": 1.7502802014350891,
      "epoch": 0.9486144297053088,
      "grad_norm": 0.5763677358627319,
      "learning_rate": 1.2185383906788235e-05,
      "loss": 1.3808,
      "mean_token_accuracy": 0.6556936403115591,
      "num_tokens": 1447545615.0,
      "step": 8635
    },
    {
      "entropy": 1.6883324980735779,
      "epoch": 0.9487242866166817,
      "grad_norm": 0.6211029887199402,
      "learning_rate": 1.2183796707639672e-05,
      "loss": 1.412,
      "mean_token_accuracy": 0.6450077096621195,
      "num_tokens": 1447732873.0,
      "step": 8636
    },
    {
      "entropy": 1.7086971402168274,
      "epoch": 0.9488341435280547,
      "grad_norm": 0.7448198199272156,
      "learning_rate": 1.2182209471024478e-05,
      "loss": 1.2632,
      "mean_token_accuracy": 0.6758876889944077,
      "num_tokens": 1447854972.0,
      "step": 8637
    },
    {
      "entropy": 1.7209039429823558,
      "epoch": 0.9489440004394276,
      "grad_norm": 0.770972490310669,
      "learning_rate": 1.2180622196992889e-05,
      "loss": 1.4801,
      "mean_token_accuracy": 0.6674757947524389,
      "num_tokens": 1447990717.0,
      "step": 8638
    },
    {
      "entropy": 1.6779508491357167,
      "epoch": 0.9490538573508006,
      "grad_norm": 0.6987808346748352,
      "learning_rate": 1.2179034885595133e-05,
      "loss": 1.4486,
      "mean_token_accuracy": 0.6476506143808365,
      "num_tokens": 1448146980.0,
      "step": 8639
    },
    {
      "entropy": 1.70108496149381,
      "epoch": 0.9491637142621735,
      "grad_norm": 0.5300113558769226,
      "learning_rate": 1.217744753688146e-05,
      "loss": 1.4492,
      "mean_token_accuracy": 0.6409799307584763,
      "num_tokens": 1448398932.0,
      "step": 8640
    },
    {
      "entropy": 1.7490708430608113,
      "epoch": 0.9492735711735465,
      "grad_norm": 0.7466815710067749,
      "learning_rate": 1.2175860150902103e-05,
      "loss": 1.3808,
      "mean_token_accuracy": 0.6627901097138723,
      "num_tokens": 1448517817.0,
      "step": 8641
    },
    {
      "entropy": 1.8031253119309743,
      "epoch": 0.9493834280849194,
      "grad_norm": 0.7149515748023987,
      "learning_rate": 1.21742727277073e-05,
      "loss": 1.4257,
      "mean_token_accuracy": 0.6576060056686401,
      "num_tokens": 1448680244.0,
      "step": 8642
    },
    {
      "entropy": 1.6629578669865925,
      "epoch": 0.9494932849962924,
      "grad_norm": 0.8295400738716125,
      "learning_rate": 1.2172685267347293e-05,
      "loss": 1.3317,
      "mean_token_accuracy": 0.6723531931638718,
      "num_tokens": 1448837554.0,
      "step": 8643
    },
    {
      "entropy": 1.6949988305568695,
      "epoch": 0.9496031419076653,
      "grad_norm": 0.5842585563659668,
      "learning_rate": 1.2171097769872331e-05,
      "loss": 1.4098,
      "mean_token_accuracy": 0.6408194800217947,
      "num_tokens": 1449029085.0,
      "step": 8644
    },
    {
      "entropy": 1.6800251007080078,
      "epoch": 0.9497129988190383,
      "grad_norm": 0.6801996231079102,
      "learning_rate": 1.216951023533265e-05,
      "loss": 1.2726,
      "mean_token_accuracy": 0.6702685306469599,
      "num_tokens": 1449167357.0,
      "step": 8645
    },
    {
      "entropy": 1.7152654727300007,
      "epoch": 0.9498228557304111,
      "grad_norm": 0.6115834712982178,
      "learning_rate": 1.2167922663778493e-05,
      "loss": 1.4586,
      "mean_token_accuracy": 0.6457581520080566,
      "num_tokens": 1449365920.0,
      "step": 8646
    },
    {
      "entropy": 1.6668970982233684,
      "epoch": 0.949932712641784,
      "grad_norm": 0.6367796063423157,
      "learning_rate": 1.2166335055260112e-05,
      "loss": 1.544,
      "mean_token_accuracy": 0.6396810958782831,
      "num_tokens": 1449592927.0,
      "step": 8647
    },
    {
      "entropy": 1.6488535205523174,
      "epoch": 0.950042569553157,
      "grad_norm": 0.6653515100479126,
      "learning_rate": 1.2164747409827755e-05,
      "loss": 1.3773,
      "mean_token_accuracy": 0.6532280345757803,
      "num_tokens": 1449757980.0,
      "step": 8648
    },
    {
      "entropy": 1.7187113364537556,
      "epoch": 0.9501524264645299,
      "grad_norm": 0.6801130771636963,
      "learning_rate": 1.2163159727531664e-05,
      "loss": 1.4093,
      "mean_token_accuracy": 0.6681001136700312,
      "num_tokens": 1449900483.0,
      "step": 8649
    },
    {
      "entropy": 1.6937756339708965,
      "epoch": 0.9502622833759029,
      "grad_norm": 0.6868298053741455,
      "learning_rate": 1.2161572008422093e-05,
      "loss": 1.4056,
      "mean_token_accuracy": 0.6516019354263941,
      "num_tokens": 1450048324.0,
      "step": 8650
    },
    {
      "entropy": 1.7173837820688884,
      "epoch": 0.9503721402872758,
      "grad_norm": 0.6891928315162659,
      "learning_rate": 1.215998425254929e-05,
      "loss": 1.3734,
      "mean_token_accuracy": 0.6473551144202551,
      "num_tokens": 1450207740.0,
      "step": 8651
    },
    {
      "entropy": 1.68080539504687,
      "epoch": 0.9504819971986488,
      "grad_norm": 0.7287924289703369,
      "learning_rate": 1.2158396459963511e-05,
      "loss": 1.4223,
      "mean_token_accuracy": 0.6610532452662786,
      "num_tokens": 1450370382.0,
      "step": 8652
    },
    {
      "entropy": 1.7321538031101227,
      "epoch": 0.9505918541100217,
      "grad_norm": 0.8169899582862854,
      "learning_rate": 1.2156808630715004e-05,
      "loss": 1.5197,
      "mean_token_accuracy": 0.6509786198536555,
      "num_tokens": 1450555161.0,
      "step": 8653
    },
    {
      "entropy": 1.7048485080401103,
      "epoch": 0.9507017110213947,
      "grad_norm": 0.6728548407554626,
      "learning_rate": 1.2155220764854027e-05,
      "loss": 1.2885,
      "mean_token_accuracy": 0.6768156687418619,
      "num_tokens": 1450701110.0,
      "step": 8654
    },
    {
      "entropy": 1.7684779067834218,
      "epoch": 0.9508115679327676,
      "grad_norm": 0.7296202778816223,
      "learning_rate": 1.2153632862430828e-05,
      "loss": 1.4785,
      "mean_token_accuracy": 0.6470775653918585,
      "num_tokens": 1450896700.0,
      "step": 8655
    },
    {
      "entropy": 1.7234237790107727,
      "epoch": 0.9509214248441406,
      "grad_norm": 0.691101610660553,
      "learning_rate": 1.2152044923495676e-05,
      "loss": 1.4179,
      "mean_token_accuracy": 0.6461136788129807,
      "num_tokens": 1451079096.0,
      "step": 8656
    },
    {
      "entropy": 1.6851498285929363,
      "epoch": 0.9510312817555134,
      "grad_norm": 0.6487606763839722,
      "learning_rate": 1.215045694809882e-05,
      "loss": 1.3169,
      "mean_token_accuracy": 0.6667506843805313,
      "num_tokens": 1451221118.0,
      "step": 8657
    },
    {
      "entropy": 1.709127922852834,
      "epoch": 0.9511411386668864,
      "grad_norm": 0.7377097606658936,
      "learning_rate": 1.2148868936290515e-05,
      "loss": 1.4872,
      "mean_token_accuracy": 0.655120978752772,
      "num_tokens": 1451396693.0,
      "step": 8658
    },
    {
      "entropy": 1.6430183351039886,
      "epoch": 0.9512509955782593,
      "grad_norm": 0.6040515899658203,
      "learning_rate": 1.2147280888121026e-05,
      "loss": 1.5599,
      "mean_token_accuracy": 0.6429479469855627,
      "num_tokens": 1451618865.0,
      "step": 8659
    },
    {
      "entropy": 1.7497617801030476,
      "epoch": 0.9513608524896322,
      "grad_norm": 0.613490104675293,
      "learning_rate": 1.2145692803640621e-05,
      "loss": 1.3799,
      "mean_token_accuracy": 0.6475595831871033,
      "num_tokens": 1451744744.0,
      "step": 8660
    },
    {
      "entropy": 1.7006073792775471,
      "epoch": 0.9514707094010052,
      "grad_norm": 0.6991299986839294,
      "learning_rate": 1.2144104682899548e-05,
      "loss": 1.5495,
      "mean_token_accuracy": 0.6511161873737971,
      "num_tokens": 1451894113.0,
      "step": 8661
    },
    {
      "entropy": 1.6935534576574962,
      "epoch": 0.9515805663123781,
      "grad_norm": 0.7065954208374023,
      "learning_rate": 1.2142516525948083e-05,
      "loss": 1.3041,
      "mean_token_accuracy": 0.6719731688499451,
      "num_tokens": 1452005836.0,
      "step": 8662
    },
    {
      "entropy": 1.6703713536262512,
      "epoch": 0.9516904232237511,
      "grad_norm": 0.6174436211585999,
      "learning_rate": 1.214092833283648e-05,
      "loss": 1.3075,
      "mean_token_accuracy": 0.6695892562468847,
      "num_tokens": 1452146942.0,
      "step": 8663
    },
    {
      "entropy": 1.7062116861343384,
      "epoch": 0.951800280135124,
      "grad_norm": 0.6128714084625244,
      "learning_rate": 1.2139340103615011e-05,
      "loss": 1.398,
      "mean_token_accuracy": 0.6536041001478831,
      "num_tokens": 1452297995.0,
      "step": 8664
    },
    {
      "entropy": 1.691074013710022,
      "epoch": 0.951910137046497,
      "grad_norm": 0.618613600730896,
      "learning_rate": 1.2137751838333943e-05,
      "loss": 1.4527,
      "mean_token_accuracy": 0.6470177272955576,
      "num_tokens": 1452490687.0,
      "step": 8665
    },
    {
      "entropy": 1.7151458064715068,
      "epoch": 0.9520199939578698,
      "grad_norm": 0.6557570695877075,
      "learning_rate": 1.213616353704354e-05,
      "loss": 1.4584,
      "mean_token_accuracy": 0.6519462615251541,
      "num_tokens": 1452657863.0,
      "step": 8666
    },
    {
      "entropy": 1.7122306029001872,
      "epoch": 0.9521298508692428,
      "grad_norm": 0.675037682056427,
      "learning_rate": 1.2134575199794072e-05,
      "loss": 1.4007,
      "mean_token_accuracy": 0.6560028443733851,
      "num_tokens": 1452824357.0,
      "step": 8667
    },
    {
      "entropy": 1.7048703233400981,
      "epoch": 0.9522397077806157,
      "grad_norm": 0.7334290146827698,
      "learning_rate": 1.213298682663581e-05,
      "loss": 1.3043,
      "mean_token_accuracy": 0.6710883726676306,
      "num_tokens": 1452982914.0,
      "step": 8668
    },
    {
      "entropy": 1.7539819777011871,
      "epoch": 0.9523495646919887,
      "grad_norm": 0.7398406267166138,
      "learning_rate": 1.2131398417619029e-05,
      "loss": 1.3738,
      "mean_token_accuracy": 0.6580022970835367,
      "num_tokens": 1453109599.0,
      "step": 8669
    },
    {
      "entropy": 1.6519952714443207,
      "epoch": 0.9524594216033616,
      "grad_norm": 0.7986524701118469,
      "learning_rate": 1.2129809972793997e-05,
      "loss": 1.413,
      "mean_token_accuracy": 0.658644050359726,
      "num_tokens": 1453319483.0,
      "step": 8670
    },
    {
      "entropy": 1.7309541801611583,
      "epoch": 0.9525692785147346,
      "grad_norm": 0.7906885147094727,
      "learning_rate": 1.2128221492210986e-05,
      "loss": 1.3046,
      "mean_token_accuracy": 0.6700306981801987,
      "num_tokens": 1453490803.0,
      "step": 8671
    },
    {
      "entropy": 1.6974034408728282,
      "epoch": 0.9526791354261075,
      "grad_norm": 0.7683852314949036,
      "learning_rate": 1.2126632975920277e-05,
      "loss": 1.3621,
      "mean_token_accuracy": 0.6743018825848898,
      "num_tokens": 1453617883.0,
      "step": 8672
    },
    {
      "entropy": 1.7786914706230164,
      "epoch": 0.9527889923374804,
      "grad_norm": 0.7997028231620789,
      "learning_rate": 1.2125044423972139e-05,
      "loss": 1.588,
      "mean_token_accuracy": 0.6399167478084564,
      "num_tokens": 1453781186.0,
      "step": 8673
    },
    {
      "entropy": 1.7436818778514862,
      "epoch": 0.9528988492488534,
      "grad_norm": 0.702833890914917,
      "learning_rate": 1.2123455836416852e-05,
      "loss": 1.2924,
      "mean_token_accuracy": 0.6721568206946055,
      "num_tokens": 1453888795.0,
      "step": 8674
    },
    {
      "entropy": 1.7169397870699565,
      "epoch": 0.9530087061602263,
      "grad_norm": 0.7126211524009705,
      "learning_rate": 1.2121867213304692e-05,
      "loss": 1.4358,
      "mean_token_accuracy": 0.6485247810681661,
      "num_tokens": 1454039464.0,
      "step": 8675
    },
    {
      "entropy": 1.628256380558014,
      "epoch": 0.9531185630715993,
      "grad_norm": 0.6888135671615601,
      "learning_rate": 1.2120278554685944e-05,
      "loss": 1.3604,
      "mean_token_accuracy": 0.6754744102557501,
      "num_tokens": 1454188174.0,
      "step": 8676
    },
    {
      "entropy": 1.7532523274421692,
      "epoch": 0.9532284199829721,
      "grad_norm": 0.6963343620300293,
      "learning_rate": 1.2118689860610882e-05,
      "loss": 1.3401,
      "mean_token_accuracy": 0.6503902872403463,
      "num_tokens": 1454357110.0,
      "step": 8677
    },
    {
      "entropy": 1.7357207636038463,
      "epoch": 0.9533382768943451,
      "grad_norm": 0.6894516348838806,
      "learning_rate": 1.2117101131129793e-05,
      "loss": 1.3727,
      "mean_token_accuracy": 0.661634643872579,
      "num_tokens": 1454486942.0,
      "step": 8678
    },
    {
      "entropy": 1.674231469631195,
      "epoch": 0.953448133805718,
      "grad_norm": 0.5685495734214783,
      "learning_rate": 1.2115512366292954e-05,
      "loss": 1.3578,
      "mean_token_accuracy": 0.6616425861914953,
      "num_tokens": 1454666674.0,
      "step": 8679
    },
    {
      "entropy": 1.765285313129425,
      "epoch": 0.953557990717091,
      "grad_norm": 0.7109258770942688,
      "learning_rate": 1.2113923566150651e-05,
      "loss": 1.3287,
      "mean_token_accuracy": 0.6567708303531011,
      "num_tokens": 1454802351.0,
      "step": 8680
    },
    {
      "entropy": 1.709367722272873,
      "epoch": 0.9536678476284639,
      "grad_norm": 0.6101370453834534,
      "learning_rate": 1.211233473075317e-05,
      "loss": 1.3885,
      "mean_token_accuracy": 0.6554233133792877,
      "num_tokens": 1454989959.0,
      "step": 8681
    },
    {
      "entropy": 1.7657522161801655,
      "epoch": 0.9537777045398369,
      "grad_norm": 0.6212213039398193,
      "learning_rate": 1.2110745860150798e-05,
      "loss": 1.4819,
      "mean_token_accuracy": 0.6521278421084086,
      "num_tokens": 1455172258.0,
      "step": 8682
    },
    {
      "entropy": 1.7684936622778575,
      "epoch": 0.9538875614512098,
      "grad_norm": 0.8916065692901611,
      "learning_rate": 1.2109156954393815e-05,
      "loss": 1.516,
      "mean_token_accuracy": 0.6521298487981161,
      "num_tokens": 1455316700.0,
      "step": 8683
    },
    {
      "entropy": 1.7200209399064381,
      "epoch": 0.9539974183625828,
      "grad_norm": 0.6917714476585388,
      "learning_rate": 1.210756801353252e-05,
      "loss": 1.5067,
      "mean_token_accuracy": 0.6368722418944041,
      "num_tokens": 1455501678.0,
      "step": 8684
    },
    {
      "entropy": 1.7058296203613281,
      "epoch": 0.9541072752739557,
      "grad_norm": 0.6779616475105286,
      "learning_rate": 1.2105979037617196e-05,
      "loss": 1.4618,
      "mean_token_accuracy": 0.6522943874200186,
      "num_tokens": 1455659558.0,
      "step": 8685
    },
    {
      "entropy": 1.648918906847636,
      "epoch": 0.9542171321853287,
      "grad_norm": 0.5767722725868225,
      "learning_rate": 1.210439002669813e-05,
      "loss": 1.4618,
      "mean_token_accuracy": 0.6379017184178034,
      "num_tokens": 1455914506.0,
      "step": 8686
    },
    {
      "entropy": 1.7035534083843231,
      "epoch": 0.9543269890967016,
      "grad_norm": 0.7029200792312622,
      "learning_rate": 1.2102800980825617e-05,
      "loss": 1.3144,
      "mean_token_accuracy": 0.6641533325115839,
      "num_tokens": 1456036680.0,
      "step": 8687
    },
    {
      "entropy": 1.68134809533755,
      "epoch": 0.9544368460080744,
      "grad_norm": 0.9198618531227112,
      "learning_rate": 1.2101211900049954e-05,
      "loss": 1.3963,
      "mean_token_accuracy": 0.6574839899937311,
      "num_tokens": 1456182571.0,
      "step": 8688
    },
    {
      "entropy": 1.7450095514456432,
      "epoch": 0.9545467029194474,
      "grad_norm": 0.7267429232597351,
      "learning_rate": 1.2099622784421426e-05,
      "loss": 1.4871,
      "mean_token_accuracy": 0.6336076408624649,
      "num_tokens": 1456363555.0,
      "step": 8689
    },
    {
      "entropy": 1.749456803003947,
      "epoch": 0.9546565598308203,
      "grad_norm": 4.669123649597168,
      "learning_rate": 1.2098033633990336e-05,
      "loss": 1.02,
      "mean_token_accuracy": 0.6833541542291641,
      "num_tokens": 1456514456.0,
      "step": 8690
    },
    {
      "entropy": 1.7409884134928386,
      "epoch": 0.9547664167421933,
      "grad_norm": 0.7867989540100098,
      "learning_rate": 1.2096444448806977e-05,
      "loss": 1.4597,
      "mean_token_accuracy": 0.6389687110980352,
      "num_tokens": 1456692736.0,
      "step": 8691
    },
    {
      "entropy": 1.701568841934204,
      "epoch": 0.9548762736535662,
      "grad_norm": 0.6494891047477722,
      "learning_rate": 1.209485522892164e-05,
      "loss": 1.3752,
      "mean_token_accuracy": 0.6650643845399221,
      "num_tokens": 1456880796.0,
      "step": 8692
    },
    {
      "entropy": 1.7152188817660015,
      "epoch": 0.9549861305649392,
      "grad_norm": 0.7680609226226807,
      "learning_rate": 1.2093265974384631e-05,
      "loss": 1.3529,
      "mean_token_accuracy": 0.6595882922410965,
      "num_tokens": 1457008533.0,
      "step": 8693
    },
    {
      "entropy": 1.722943127155304,
      "epoch": 0.9550959874763121,
      "grad_norm": 0.6621650457382202,
      "learning_rate": 1.2091676685246252e-05,
      "loss": 1.5738,
      "mean_token_accuracy": 0.6255774199962616,
      "num_tokens": 1457229767.0,
      "step": 8694
    },
    {
      "entropy": 1.702676256497701,
      "epoch": 0.9552058443876851,
      "grad_norm": 0.5807628631591797,
      "learning_rate": 1.209008736155679e-05,
      "loss": 1.4362,
      "mean_token_accuracy": 0.657213474313418,
      "num_tokens": 1457448218.0,
      "step": 8695
    },
    {
      "entropy": 1.7524159948031108,
      "epoch": 0.955315701299058,
      "grad_norm": 0.9052096605300903,
      "learning_rate": 1.208849800336656e-05,
      "loss": 1.5353,
      "mean_token_accuracy": 0.6409603903690974,
      "num_tokens": 1457652077.0,
      "step": 8696
    },
    {
      "entropy": 1.6945769389470418,
      "epoch": 0.955425558210431,
      "grad_norm": 0.6669119596481323,
      "learning_rate": 1.2086908610725854e-05,
      "loss": 1.5198,
      "mean_token_accuracy": 0.6341730306545893,
      "num_tokens": 1457881605.0,
      "step": 8697
    },
    {
      "entropy": 1.757227510213852,
      "epoch": 0.9555354151218038,
      "grad_norm": 0.6839233636856079,
      "learning_rate": 1.2085319183684981e-05,
      "loss": 1.4284,
      "mean_token_accuracy": 0.6508975972731909,
      "num_tokens": 1458082960.0,
      "step": 8698
    },
    {
      "entropy": 1.7042691508928935,
      "epoch": 0.9556452720331768,
      "grad_norm": 0.6574342846870422,
      "learning_rate": 1.2083729722294246e-05,
      "loss": 1.5346,
      "mean_token_accuracy": 0.6502645313739777,
      "num_tokens": 1458281946.0,
      "step": 8699
    },
    {
      "entropy": 1.6815843482812245,
      "epoch": 0.9557551289445497,
      "grad_norm": 0.7146515846252441,
      "learning_rate": 1.2082140226603955e-05,
      "loss": 1.3785,
      "mean_token_accuracy": 0.6631735612948736,
      "num_tokens": 1458433277.0,
      "step": 8700
    },
    {
      "entropy": 1.6828182240327199,
      "epoch": 0.9558649858559226,
      "grad_norm": 0.6447663307189941,
      "learning_rate": 1.2080550696664413e-05,
      "loss": 1.2576,
      "mean_token_accuracy": 0.6774131655693054,
      "num_tokens": 1458590309.0,
      "step": 8701
    },
    {
      "entropy": 1.6610161860783894,
      "epoch": 0.9559748427672956,
      "grad_norm": 0.5871066451072693,
      "learning_rate": 1.2078961132525929e-05,
      "loss": 1.325,
      "mean_token_accuracy": 0.666997030377388,
      "num_tokens": 1458767372.0,
      "step": 8702
    },
    {
      "entropy": 1.6988926430543263,
      "epoch": 0.9560846996786685,
      "grad_norm": 0.6767246127128601,
      "learning_rate": 1.2077371534238809e-05,
      "loss": 1.4668,
      "mean_token_accuracy": 0.6547530144453049,
      "num_tokens": 1458929290.0,
      "step": 8703
    },
    {
      "entropy": 1.7858167787392933,
      "epoch": 0.9561945565900415,
      "grad_norm": 0.6854000091552734,
      "learning_rate": 1.2075781901853367e-05,
      "loss": 1.3713,
      "mean_token_accuracy": 0.658269797762235,
      "num_tokens": 1459077793.0,
      "step": 8704
    },
    {
      "entropy": 1.6693780521551769,
      "epoch": 0.9563044135014144,
      "grad_norm": 0.6797814965248108,
      "learning_rate": 1.2074192235419908e-05,
      "loss": 1.2583,
      "mean_token_accuracy": 0.6774491270383199,
      "num_tokens": 1459203208.0,
      "step": 8705
    },
    {
      "entropy": 1.7343849937121074,
      "epoch": 0.9564142704127874,
      "grad_norm": 0.588331401348114,
      "learning_rate": 1.2072602534988756e-05,
      "loss": 1.4504,
      "mean_token_accuracy": 0.643997256954511,
      "num_tokens": 1459385818.0,
      "step": 8706
    },
    {
      "entropy": 1.6691008905569713,
      "epoch": 0.9565241273241603,
      "grad_norm": 0.7460022568702698,
      "learning_rate": 1.2071012800610214e-05,
      "loss": 1.3452,
      "mean_token_accuracy": 0.6772498339414597,
      "num_tokens": 1459524006.0,
      "step": 8707
    },
    {
      "entropy": 1.6213213801383972,
      "epoch": 0.9566339842355333,
      "grad_norm": 0.6637667417526245,
      "learning_rate": 1.2069423032334598e-05,
      "loss": 1.3413,
      "mean_token_accuracy": 0.6586452474196752,
      "num_tokens": 1459689191.0,
      "step": 8708
    },
    {
      "entropy": 1.6628740727901459,
      "epoch": 0.9567438411469061,
      "grad_norm": 0.6381793022155762,
      "learning_rate": 1.2067833230212225e-05,
      "loss": 1.4917,
      "mean_token_accuracy": 0.6472151229778925,
      "num_tokens": 1459903129.0,
      "step": 8709
    },
    {
      "entropy": 1.734858940045039,
      "epoch": 0.9568536980582791,
      "grad_norm": 0.7690825462341309,
      "learning_rate": 1.2066243394293412e-05,
      "loss": 1.4222,
      "mean_token_accuracy": 0.6538131634394327,
      "num_tokens": 1460058233.0,
      "step": 8710
    },
    {
      "entropy": 1.7033085723718007,
      "epoch": 0.956963554969652,
      "grad_norm": 0.6803534626960754,
      "learning_rate": 1.2064653524628478e-05,
      "loss": 1.3746,
      "mean_token_accuracy": 0.6563105036815008,
      "num_tokens": 1460257861.0,
      "step": 8711
    },
    {
      "entropy": 1.6802352865537007,
      "epoch": 0.957073411881025,
      "grad_norm": 0.6258231401443481,
      "learning_rate": 1.2063063621267738e-05,
      "loss": 1.3747,
      "mean_token_accuracy": 0.6545542577902476,
      "num_tokens": 1460441507.0,
      "step": 8712
    },
    {
      "entropy": 1.7096125185489655,
      "epoch": 0.9571832687923979,
      "grad_norm": 0.7180109024047852,
      "learning_rate": 1.2061473684261513e-05,
      "loss": 1.3745,
      "mean_token_accuracy": 0.6694450577100118,
      "num_tokens": 1460625014.0,
      "step": 8713
    },
    {
      "entropy": 1.6804834107557933,
      "epoch": 0.9572931257037708,
      "grad_norm": 0.8495198488235474,
      "learning_rate": 1.2059883713660125e-05,
      "loss": 1.3337,
      "mean_token_accuracy": 0.656502236922582,
      "num_tokens": 1460792252.0,
      "step": 8714
    },
    {
      "entropy": 1.6971332728862762,
      "epoch": 0.9574029826151438,
      "grad_norm": 0.6549186706542969,
      "learning_rate": 1.2058293709513896e-05,
      "loss": 1.406,
      "mean_token_accuracy": 0.6549234290917715,
      "num_tokens": 1460980358.0,
      "step": 8715
    },
    {
      "entropy": 1.6848892569541931,
      "epoch": 0.9575128395265167,
      "grad_norm": 0.6425775289535522,
      "learning_rate": 1.2056703671873148e-05,
      "loss": 1.3264,
      "mean_token_accuracy": 0.6857404808203379,
      "num_tokens": 1461152259.0,
      "step": 8716
    },
    {
      "entropy": 1.7091786166032155,
      "epoch": 0.9576226964378897,
      "grad_norm": 8.731441497802734,
      "learning_rate": 1.2055113600788202e-05,
      "loss": 1.2535,
      "mean_token_accuracy": 0.6799486676851908,
      "num_tokens": 1461321663.0,
      "step": 8717
    },
    {
      "entropy": 1.748598317305247,
      "epoch": 0.9577325533492625,
      "grad_norm": 0.6042277812957764,
      "learning_rate": 1.205352349630939e-05,
      "loss": 1.4481,
      "mean_token_accuracy": 0.6515509237845739,
      "num_tokens": 1461516392.0,
      "step": 8718
    },
    {
      "entropy": 1.786596695582072,
      "epoch": 0.9578424102606355,
      "grad_norm": 0.636871337890625,
      "learning_rate": 1.2051933358487031e-05,
      "loss": 1.6215,
      "mean_token_accuracy": 0.6109706809123358,
      "num_tokens": 1461727681.0,
      "step": 8719
    },
    {
      "entropy": 1.7093546092510223,
      "epoch": 0.9579522671720084,
      "grad_norm": 0.6685346364974976,
      "learning_rate": 1.2050343187371457e-05,
      "loss": 1.3936,
      "mean_token_accuracy": 0.6527099361022314,
      "num_tokens": 1461888422.0,
      "step": 8720
    },
    {
      "entropy": 1.7236407697200775,
      "epoch": 0.9580621240833814,
      "grad_norm": 0.750136137008667,
      "learning_rate": 1.2048752983012992e-05,
      "loss": 1.3902,
      "mean_token_accuracy": 0.661915456255277,
      "num_tokens": 1462058752.0,
      "step": 8721
    },
    {
      "entropy": 1.6986550291379292,
      "epoch": 0.9581719809947543,
      "grad_norm": 0.7931959629058838,
      "learning_rate": 1.2047162745461974e-05,
      "loss": 1.255,
      "mean_token_accuracy": 0.6735956718524297,
      "num_tokens": 1462196633.0,
      "step": 8722
    },
    {
      "entropy": 1.6549886465072632,
      "epoch": 0.9582818379061273,
      "grad_norm": 0.6466114521026611,
      "learning_rate": 1.2045572474768718e-05,
      "loss": 1.4337,
      "mean_token_accuracy": 0.671045849720637,
      "num_tokens": 1462409134.0,
      "step": 8723
    },
    {
      "entropy": 1.7527413566907246,
      "epoch": 0.9583916948175002,
      "grad_norm": 0.8396289348602295,
      "learning_rate": 1.2043982170983568e-05,
      "loss": 1.3088,
      "mean_token_accuracy": 0.679228276014328,
      "num_tokens": 1462541782.0,
      "step": 8724
    },
    {
      "entropy": 1.735308289527893,
      "epoch": 0.9585015517288732,
      "grad_norm": 0.6846469044685364,
      "learning_rate": 1.2042391834156854e-05,
      "loss": 1.4979,
      "mean_token_accuracy": 0.652966578801473,
      "num_tokens": 1462722456.0,
      "step": 8725
    },
    {
      "entropy": 1.6945312122503917,
      "epoch": 0.9586114086402461,
      "grad_norm": 0.7038013339042664,
      "learning_rate": 1.2040801464338907e-05,
      "loss": 1.3764,
      "mean_token_accuracy": 0.6591214487950007,
      "num_tokens": 1462916582.0,
      "step": 8726
    },
    {
      "entropy": 1.7100801467895508,
      "epoch": 0.958721265551619,
      "grad_norm": 0.7070258855819702,
      "learning_rate": 1.2039211061580063e-05,
      "loss": 1.5168,
      "mean_token_accuracy": 0.6492930054664612,
      "num_tokens": 1463100418.0,
      "step": 8727
    },
    {
      "entropy": 1.745457837978999,
      "epoch": 0.958831122462992,
      "grad_norm": 0.7946493625640869,
      "learning_rate": 1.2037620625930659e-05,
      "loss": 1.6822,
      "mean_token_accuracy": 0.6400948514540991,
      "num_tokens": 1463263777.0,
      "step": 8728
    },
    {
      "entropy": 1.762039452791214,
      "epoch": 0.9589409793743648,
      "grad_norm": 0.8285095691680908,
      "learning_rate": 1.2036030157441026e-05,
      "loss": 1.3384,
      "mean_token_accuracy": 0.658534953991572,
      "num_tokens": 1463407883.0,
      "step": 8729
    },
    {
      "entropy": 1.7134557962417603,
      "epoch": 0.9590508362857378,
      "grad_norm": 0.6590238809585571,
      "learning_rate": 1.2034439656161509e-05,
      "loss": 1.5242,
      "mean_token_accuracy": 0.6427919020255407,
      "num_tokens": 1463608060.0,
      "step": 8730
    },
    {
      "entropy": 1.6973025898138683,
      "epoch": 0.9591606931971107,
      "grad_norm": 0.6781467199325562,
      "learning_rate": 1.203284912214244e-05,
      "loss": 1.4759,
      "mean_token_accuracy": 0.6487634430329005,
      "num_tokens": 1463783712.0,
      "step": 8731
    },
    {
      "entropy": 1.676356424887975,
      "epoch": 0.9592705501084837,
      "grad_norm": 0.5379504561424255,
      "learning_rate": 1.2031258555434164e-05,
      "loss": 1.3997,
      "mean_token_accuracy": 0.651170089840889,
      "num_tokens": 1464018941.0,
      "step": 8732
    },
    {
      "entropy": 1.6823839048544567,
      "epoch": 0.9593804070198566,
      "grad_norm": 0.6782552003860474,
      "learning_rate": 1.2029667956087017e-05,
      "loss": 1.3481,
      "mean_token_accuracy": 0.6624757548173269,
      "num_tokens": 1464167232.0,
      "step": 8733
    },
    {
      "entropy": 1.7918393512566884,
      "epoch": 0.9594902639312296,
      "grad_norm": 0.7031469345092773,
      "learning_rate": 1.2028077324151347e-05,
      "loss": 1.4965,
      "mean_token_accuracy": 0.6428997168938319,
      "num_tokens": 1464340879.0,
      "step": 8734
    },
    {
      "entropy": 1.6191656390825908,
      "epoch": 0.9596001208426025,
      "grad_norm": 0.7140489816665649,
      "learning_rate": 1.202648665967749e-05,
      "loss": 1.1656,
      "mean_token_accuracy": 0.688547745347023,
      "num_tokens": 1464452058.0,
      "step": 8735
    },
    {
      "entropy": 1.6774865587552388,
      "epoch": 0.9597099777539755,
      "grad_norm": 0.6400611996650696,
      "learning_rate": 1.2024895962715795e-05,
      "loss": 1.476,
      "mean_token_accuracy": 0.6562142173449198,
      "num_tokens": 1464656449.0,
      "step": 8736
    },
    {
      "entropy": 1.7151943445205688,
      "epoch": 0.9598198346653484,
      "grad_norm": 0.7991637587547302,
      "learning_rate": 1.2023305233316602e-05,
      "loss": 1.3804,
      "mean_token_accuracy": 0.6708137293656667,
      "num_tokens": 1464806740.0,
      "step": 8737
    },
    {
      "entropy": 1.7741727034250896,
      "epoch": 0.9599296915767214,
      "grad_norm": 0.7432534694671631,
      "learning_rate": 1.2021714471530262e-05,
      "loss": 1.4837,
      "mean_token_accuracy": 0.6382344514131546,
      "num_tokens": 1464971963.0,
      "step": 8738
    },
    {
      "entropy": 1.701940377553304,
      "epoch": 0.9600395484880943,
      "grad_norm": 0.6169398427009583,
      "learning_rate": 1.2020123677407113e-05,
      "loss": 1.4066,
      "mean_token_accuracy": 0.6589889874060949,
      "num_tokens": 1465162928.0,
      "step": 8739
    },
    {
      "entropy": 1.6859253843625386,
      "epoch": 0.9601494053994672,
      "grad_norm": 0.7215724587440491,
      "learning_rate": 1.2018532850997518e-05,
      "loss": 1.3828,
      "mean_token_accuracy": 0.6706574161847433,
      "num_tokens": 1465300333.0,
      "step": 8740
    },
    {
      "entropy": 1.760906199614207,
      "epoch": 0.9602592623108401,
      "grad_norm": 0.6548580527305603,
      "learning_rate": 1.2016941992351811e-05,
      "loss": 1.5413,
      "mean_token_accuracy": 0.6272419343392054,
      "num_tokens": 1465507133.0,
      "step": 8741
    },
    {
      "entropy": 1.7261857688426971,
      "epoch": 0.960369119222213,
      "grad_norm": 0.6962506771087646,
      "learning_rate": 1.2015351101520354e-05,
      "loss": 1.4314,
      "mean_token_accuracy": 0.6458855321009954,
      "num_tokens": 1465673287.0,
      "step": 8742
    },
    {
      "entropy": 1.7670903007189434,
      "epoch": 0.960478976133586,
      "grad_norm": 0.6517634987831116,
      "learning_rate": 1.2013760178553487e-05,
      "loss": 1.2565,
      "mean_token_accuracy": 0.6761279304822286,
      "num_tokens": 1465809133.0,
      "step": 8743
    },
    {
      "entropy": 1.718291014432907,
      "epoch": 0.9605888330449589,
      "grad_norm": 0.7264907956123352,
      "learning_rate": 1.2012169223501568e-05,
      "loss": 1.3405,
      "mean_token_accuracy": 0.6658484935760498,
      "num_tokens": 1465965362.0,
      "step": 8744
    },
    {
      "entropy": 1.6515865127245586,
      "epoch": 0.9606986899563319,
      "grad_norm": 0.7858138680458069,
      "learning_rate": 1.2010578236414949e-05,
      "loss": 1.4631,
      "mean_token_accuracy": 0.6571001460154852,
      "num_tokens": 1466178520.0,
      "step": 8745
    },
    {
      "entropy": 1.6674973865350087,
      "epoch": 0.9608085468677048,
      "grad_norm": 0.6715067625045776,
      "learning_rate": 1.2008987217343986e-05,
      "loss": 1.3843,
      "mean_token_accuracy": 0.6489299088716507,
      "num_tokens": 1466362772.0,
      "step": 8746
    },
    {
      "entropy": 1.6680465439955394,
      "epoch": 0.9609184037790778,
      "grad_norm": 0.6776669025421143,
      "learning_rate": 1.2007396166339035e-05,
      "loss": 1.402,
      "mean_token_accuracy": 0.649745578567187,
      "num_tokens": 1466526197.0,
      "step": 8747
    },
    {
      "entropy": 1.6848007043202717,
      "epoch": 0.9610282606904507,
      "grad_norm": 0.654761016368866,
      "learning_rate": 1.2005805083450443e-05,
      "loss": 1.3582,
      "mean_token_accuracy": 0.6620151400566101,
      "num_tokens": 1466659274.0,
      "step": 8748
    },
    {
      "entropy": 1.6908719142278035,
      "epoch": 0.9611381176018237,
      "grad_norm": 0.7975518703460693,
      "learning_rate": 1.2004213968728575e-05,
      "loss": 1.3319,
      "mean_token_accuracy": 0.6631641636292139,
      "num_tokens": 1466793078.0,
      "step": 8749
    },
    {
      "entropy": 1.69454359014829,
      "epoch": 0.9612479745131965,
      "grad_norm": 0.6039302349090576,
      "learning_rate": 1.200262282222379e-05,
      "loss": 1.4186,
      "mean_token_accuracy": 0.6558008641004562,
      "num_tokens": 1466937877.0,
      "step": 8750
    },
    {
      "entropy": 1.7083939115206401,
      "epoch": 0.9613578314245695,
      "grad_norm": 0.6897109746932983,
      "learning_rate": 1.200103164398644e-05,
      "loss": 1.3845,
      "mean_token_accuracy": 0.661809429526329,
      "num_tokens": 1467157146.0,
      "step": 8751
    },
    {
      "entropy": 1.6259233554204304,
      "epoch": 0.9614676883359424,
      "grad_norm": 0.6461367607116699,
      "learning_rate": 1.1999440434066896e-05,
      "loss": 1.4192,
      "mean_token_accuracy": 0.6577809949715933,
      "num_tokens": 1467315246.0,
      "step": 8752
    },
    {
      "entropy": 1.7572091619173686,
      "epoch": 0.9615775452473154,
      "grad_norm": 0.8533002734184265,
      "learning_rate": 1.199784919251551e-05,
      "loss": 1.6754,
      "mean_token_accuracy": 0.6236068258682886,
      "num_tokens": 1467482267.0,
      "step": 8753
    },
    {
      "entropy": 1.770795226097107,
      "epoch": 0.9616874021586883,
      "grad_norm": 0.7685062885284424,
      "learning_rate": 1.1996257919382646e-05,
      "loss": 1.6123,
      "mean_token_accuracy": 0.6360293204585711,
      "num_tokens": 1467666169.0,
      "step": 8754
    },
    {
      "entropy": 1.7153681516647339,
      "epoch": 0.9617972590700612,
      "grad_norm": 0.695287823677063,
      "learning_rate": 1.1994666614718667e-05,
      "loss": 1.3786,
      "mean_token_accuracy": 0.6639162302017212,
      "num_tokens": 1467807005.0,
      "step": 8755
    },
    {
      "entropy": 1.7088010211785634,
      "epoch": 0.9619071159814342,
      "grad_norm": 0.701137900352478,
      "learning_rate": 1.1993075278573938e-05,
      "loss": 1.5254,
      "mean_token_accuracy": 0.6290678034226099,
      "num_tokens": 1468014033.0,
      "step": 8756
    },
    {
      "entropy": 1.6555834611256917,
      "epoch": 0.9620169728928071,
      "grad_norm": 0.6522089838981628,
      "learning_rate": 1.1991483910998823e-05,
      "loss": 1.6107,
      "mean_token_accuracy": 0.6368126993378004,
      "num_tokens": 1468194921.0,
      "step": 8757
    },
    {
      "entropy": 1.7156870265801747,
      "epoch": 0.9621268298041801,
      "grad_norm": 0.6632962226867676,
      "learning_rate": 1.1989892512043693e-05,
      "loss": 1.379,
      "mean_token_accuracy": 0.6591578175624212,
      "num_tokens": 1468353097.0,
      "step": 8758
    },
    {
      "entropy": 1.7234142522017162,
      "epoch": 0.962236686715553,
      "grad_norm": 0.6855953335762024,
      "learning_rate": 1.1988301081758908e-05,
      "loss": 1.4963,
      "mean_token_accuracy": 0.6408663143714269,
      "num_tokens": 1468565163.0,
      "step": 8759
    },
    {
      "entropy": 1.6909594734509785,
      "epoch": 0.962346543626926,
      "grad_norm": 0.6290444731712341,
      "learning_rate": 1.1986709620194837e-05,
      "loss": 1.3152,
      "mean_token_accuracy": 0.6744314332803091,
      "num_tokens": 1468717687.0,
      "step": 8760
    },
    {
      "entropy": 1.7224095662434895,
      "epoch": 0.9624564005382988,
      "grad_norm": 0.7756173014640808,
      "learning_rate": 1.1985118127401854e-05,
      "loss": 1.401,
      "mean_token_accuracy": 0.6540177861849467,
      "num_tokens": 1468867338.0,
      "step": 8761
    },
    {
      "entropy": 1.6869498590628307,
      "epoch": 0.9625662574496718,
      "grad_norm": 0.8160791397094727,
      "learning_rate": 1.1983526603430328e-05,
      "loss": 1.4635,
      "mean_token_accuracy": 0.6533959607283274,
      "num_tokens": 1469062599.0,
      "step": 8762
    },
    {
      "entropy": 1.7486900488535564,
      "epoch": 0.9626761143610447,
      "grad_norm": 0.6580154895782471,
      "learning_rate": 1.1981935048330625e-05,
      "loss": 1.3756,
      "mean_token_accuracy": 0.648088201880455,
      "num_tokens": 1469193764.0,
      "step": 8763
    },
    {
      "entropy": 1.7289330164591472,
      "epoch": 0.9627859712724177,
      "grad_norm": 0.8532882928848267,
      "learning_rate": 1.1980343462153121e-05,
      "loss": 1.2638,
      "mean_token_accuracy": 0.6606898903846741,
      "num_tokens": 1469364686.0,
      "step": 8764
    },
    {
      "entropy": 1.6669448614120483,
      "epoch": 0.9628958281837906,
      "grad_norm": 0.6776072978973389,
      "learning_rate": 1.1978751844948188e-05,
      "loss": 1.2815,
      "mean_token_accuracy": 0.6700325111548106,
      "num_tokens": 1469538171.0,
      "step": 8765
    },
    {
      "entropy": 1.7350335617860158,
      "epoch": 0.9630056850951636,
      "grad_norm": 0.6142683029174805,
      "learning_rate": 1.1977160196766203e-05,
      "loss": 1.4018,
      "mean_token_accuracy": 0.6594241609176,
      "num_tokens": 1469706808.0,
      "step": 8766
    },
    {
      "entropy": 1.6608028213183086,
      "epoch": 0.9631155420065365,
      "grad_norm": 0.6166122555732727,
      "learning_rate": 1.1975568517657532e-05,
      "loss": 1.5136,
      "mean_token_accuracy": 0.6444362699985504,
      "num_tokens": 1469920924.0,
      "step": 8767
    },
    {
      "entropy": 1.6671899060408275,
      "epoch": 0.9632253989179094,
      "grad_norm": 0.6786704659461975,
      "learning_rate": 1.1973976807672563e-05,
      "loss": 1.5595,
      "mean_token_accuracy": 0.6488665342330933,
      "num_tokens": 1470140541.0,
      "step": 8768
    },
    {
      "entropy": 1.6928558846314747,
      "epoch": 0.9633352558292824,
      "grad_norm": 0.6339307427406311,
      "learning_rate": 1.1972385066861665e-05,
      "loss": 1.3924,
      "mean_token_accuracy": 0.6605489750703176,
      "num_tokens": 1470311335.0,
      "step": 8769
    },
    {
      "entropy": 1.7137080430984497,
      "epoch": 0.9634451127406553,
      "grad_norm": 0.6629822850227356,
      "learning_rate": 1.1970793295275216e-05,
      "loss": 1.5686,
      "mean_token_accuracy": 0.6393506328264872,
      "num_tokens": 1470533352.0,
      "step": 8770
    },
    {
      "entropy": 1.731887976328532,
      "epoch": 0.9635549696520282,
      "grad_norm": 0.6983689665794373,
      "learning_rate": 1.1969201492963599e-05,
      "loss": 1.3827,
      "mean_token_accuracy": 0.664002334078153,
      "num_tokens": 1470669337.0,
      "step": 8771
    },
    {
      "entropy": 1.6695733070373535,
      "epoch": 0.9636648265634011,
      "grad_norm": 0.6725772023200989,
      "learning_rate": 1.1967609659977188e-05,
      "loss": 1.3551,
      "mean_token_accuracy": 0.6574635605017344,
      "num_tokens": 1470818033.0,
      "step": 8772
    },
    {
      "entropy": 1.688662052154541,
      "epoch": 0.9637746834747741,
      "grad_norm": 0.646634042263031,
      "learning_rate": 1.1966017796366372e-05,
      "loss": 1.5005,
      "mean_token_accuracy": 0.652362714211146,
      "num_tokens": 1470969505.0,
      "step": 8773
    },
    {
      "entropy": 1.7582306861877441,
      "epoch": 0.963884540386147,
      "grad_norm": 0.7543734908103943,
      "learning_rate": 1.1964425902181526e-05,
      "loss": 1.4083,
      "mean_token_accuracy": 0.66182312866052,
      "num_tokens": 1471138254.0,
      "step": 8774
    },
    {
      "entropy": 1.6540814240773518,
      "epoch": 0.96399439729752,
      "grad_norm": 0.7629412412643433,
      "learning_rate": 1.1962833977473035e-05,
      "loss": 1.4068,
      "mean_token_accuracy": 0.6505512396494547,
      "num_tokens": 1471313832.0,
      "step": 8775
    },
    {
      "entropy": 1.7056627968947093,
      "epoch": 0.9641042542088929,
      "grad_norm": 0.7697269320487976,
      "learning_rate": 1.1961242022291281e-05,
      "loss": 1.3822,
      "mean_token_accuracy": 0.6581480453411738,
      "num_tokens": 1471490485.0,
      "step": 8776
    },
    {
      "entropy": 1.7259169320265453,
      "epoch": 0.9642141111202659,
      "grad_norm": 0.6654592156410217,
      "learning_rate": 1.1959650036686652e-05,
      "loss": 1.3186,
      "mean_token_accuracy": 0.659534772237142,
      "num_tokens": 1471647049.0,
      "step": 8777
    },
    {
      "entropy": 1.7011475265026093,
      "epoch": 0.9643239680316388,
      "grad_norm": 0.7446539402008057,
      "learning_rate": 1.195805802070953e-05,
      "loss": 1.4798,
      "mean_token_accuracy": 0.6635573208332062,
      "num_tokens": 1471799236.0,
      "step": 8778
    },
    {
      "entropy": 1.7411305209000905,
      "epoch": 0.9644338249430118,
      "grad_norm": 0.6938983201980591,
      "learning_rate": 1.1956465974410305e-05,
      "loss": 1.3509,
      "mean_token_accuracy": 0.6578657031059265,
      "num_tokens": 1471915469.0,
      "step": 8779
    },
    {
      "entropy": 1.732979655265808,
      "epoch": 0.9645436818543847,
      "grad_norm": 0.7012693881988525,
      "learning_rate": 1.1954873897839363e-05,
      "loss": 1.2764,
      "mean_token_accuracy": 0.6760233988364538,
      "num_tokens": 1472040376.0,
      "step": 8780
    },
    {
      "entropy": 1.707295298576355,
      "epoch": 0.9646535387657575,
      "grad_norm": 0.7303659319877625,
      "learning_rate": 1.1953281791047091e-05,
      "loss": 1.413,
      "mean_token_accuracy": 0.67343603571256,
      "num_tokens": 1472152558.0,
      "step": 8781
    },
    {
      "entropy": 1.6815251310666401,
      "epoch": 0.9647633956771305,
      "grad_norm": 0.5562863945960999,
      "learning_rate": 1.1951689654083883e-05,
      "loss": 1.3436,
      "mean_token_accuracy": 0.6479224115610123,
      "num_tokens": 1472325563.0,
      "step": 8782
    },
    {
      "entropy": 1.6789535880088806,
      "epoch": 0.9648732525885034,
      "grad_norm": 0.7839949131011963,
      "learning_rate": 1.195009748700012e-05,
      "loss": 1.3481,
      "mean_token_accuracy": 0.6642525096734365,
      "num_tokens": 1472504702.0,
      "step": 8783
    },
    {
      "entropy": 1.715220332145691,
      "epoch": 0.9649831094998764,
      "grad_norm": 0.7262733578681946,
      "learning_rate": 1.1948505289846205e-05,
      "loss": 1.421,
      "mean_token_accuracy": 0.6491985072692236,
      "num_tokens": 1472646861.0,
      "step": 8784
    },
    {
      "entropy": 1.7468859950701396,
      "epoch": 0.9650929664112493,
      "grad_norm": 0.6974389553070068,
      "learning_rate": 1.194691306267252e-05,
      "loss": 1.4079,
      "mean_token_accuracy": 0.6441583534081777,
      "num_tokens": 1472806006.0,
      "step": 8785
    },
    {
      "entropy": 1.6872367163499196,
      "epoch": 0.9652028233226223,
      "grad_norm": 0.6552119851112366,
      "learning_rate": 1.194532080552947e-05,
      "loss": 1.4084,
      "mean_token_accuracy": 0.6529111266136169,
      "num_tokens": 1472994372.0,
      "step": 8786
    },
    {
      "entropy": 1.6701744496822357,
      "epoch": 0.9653126802339952,
      "grad_norm": 0.7151638269424438,
      "learning_rate": 1.1943728518467441e-05,
      "loss": 1.2341,
      "mean_token_accuracy": 0.6837707708279291,
      "num_tokens": 1473126393.0,
      "step": 8787
    },
    {
      "entropy": 1.7374973396460216,
      "epoch": 0.9654225371453682,
      "grad_norm": 0.619019091129303,
      "learning_rate": 1.1942136201536827e-05,
      "loss": 1.4518,
      "mean_token_accuracy": 0.6381538957357407,
      "num_tokens": 1473343494.0,
      "step": 8788
    },
    {
      "entropy": 1.6976648370424907,
      "epoch": 0.9655323940567411,
      "grad_norm": 0.7506789565086365,
      "learning_rate": 1.1940543854788026e-05,
      "loss": 1.2836,
      "mean_token_accuracy": 0.67548568546772,
      "num_tokens": 1473474533.0,
      "step": 8789
    },
    {
      "entropy": 1.698626885811488,
      "epoch": 0.9656422509681141,
      "grad_norm": 0.6703222990036011,
      "learning_rate": 1.193895147827144e-05,
      "loss": 1.3658,
      "mean_token_accuracy": 0.6542994330326716,
      "num_tokens": 1473651782.0,
      "step": 8790
    },
    {
      "entropy": 1.7644267777601879,
      "epoch": 0.965752107879487,
      "grad_norm": 0.6878910064697266,
      "learning_rate": 1.1937359072037458e-05,
      "loss": 1.5286,
      "mean_token_accuracy": 0.6460073043902715,
      "num_tokens": 1473864651.0,
      "step": 8791
    },
    {
      "entropy": 1.6762928366661072,
      "epoch": 0.96586196479086,
      "grad_norm": 0.7150443196296692,
      "learning_rate": 1.1935766636136487e-05,
      "loss": 1.3087,
      "mean_token_accuracy": 0.6731075594822565,
      "num_tokens": 1474006770.0,
      "step": 8792
    },
    {
      "entropy": 1.689261128505071,
      "epoch": 0.9659718217022328,
      "grad_norm": 0.6254614591598511,
      "learning_rate": 1.1934174170618921e-05,
      "loss": 1.4649,
      "mean_token_accuracy": 0.6447116434574127,
      "num_tokens": 1474190445.0,
      "step": 8793
    },
    {
      "entropy": 1.6668556829293568,
      "epoch": 0.9660816786136058,
      "grad_norm": 0.7564082741737366,
      "learning_rate": 1.1932581675535167e-05,
      "loss": 1.3167,
      "mean_token_accuracy": 0.6619139909744263,
      "num_tokens": 1474344961.0,
      "step": 8794
    },
    {
      "entropy": 1.7443881531556447,
      "epoch": 0.9661915355249787,
      "grad_norm": 0.7837411761283875,
      "learning_rate": 1.193098915093562e-05,
      "loss": 1.4101,
      "mean_token_accuracy": 0.6615714579820633,
      "num_tokens": 1474529968.0,
      "step": 8795
    },
    {
      "entropy": 1.7280802925427754,
      "epoch": 0.9663013924363516,
      "grad_norm": 0.8796549439430237,
      "learning_rate": 1.1929396596870688e-05,
      "loss": 1.5307,
      "mean_token_accuracy": 0.6449608951807022,
      "num_tokens": 1474654137.0,
      "step": 8796
    },
    {
      "entropy": 1.714556525150935,
      "epoch": 0.9664112493477246,
      "grad_norm": 0.6233653426170349,
      "learning_rate": 1.1927804013390771e-05,
      "loss": 1.292,
      "mean_token_accuracy": 0.6737811714410782,
      "num_tokens": 1474821466.0,
      "step": 8797
    },
    {
      "entropy": 1.7329127391179402,
      "epoch": 0.9665211062590975,
      "grad_norm": 0.6161532402038574,
      "learning_rate": 1.1926211400546276e-05,
      "loss": 1.341,
      "mean_token_accuracy": 0.6685069849093755,
      "num_tokens": 1474978261.0,
      "step": 8798
    },
    {
      "entropy": 1.730038086573283,
      "epoch": 0.9666309631704705,
      "grad_norm": 0.7773633003234863,
      "learning_rate": 1.1924618758387607e-05,
      "loss": 1.3345,
      "mean_token_accuracy": 0.6633727848529816,
      "num_tokens": 1475124005.0,
      "step": 8799
    },
    {
      "entropy": 1.7478882769743602,
      "epoch": 0.9667408200818434,
      "grad_norm": 0.6906635165214539,
      "learning_rate": 1.1923026086965171e-05,
      "loss": 1.4519,
      "mean_token_accuracy": 0.651598185300827,
      "num_tokens": 1475288346.0,
      "step": 8800
    },
    {
      "entropy": 1.749391367038091,
      "epoch": 0.9668506769932164,
      "grad_norm": 0.7163913249969482,
      "learning_rate": 1.1921433386329375e-05,
      "loss": 1.3796,
      "mean_token_accuracy": 0.6630617678165436,
      "num_tokens": 1475422303.0,
      "step": 8801
    },
    {
      "entropy": 1.6840445597966511,
      "epoch": 0.9669605339045892,
      "grad_norm": 0.763927161693573,
      "learning_rate": 1.191984065653063e-05,
      "loss": 1.4901,
      "mean_token_accuracy": 0.6456265101830164,
      "num_tokens": 1475617488.0,
      "step": 8802
    },
    {
      "entropy": 1.7242066264152527,
      "epoch": 0.9670703908159622,
      "grad_norm": 0.6778439283370972,
      "learning_rate": 1.191824789761934e-05,
      "loss": 1.2706,
      "mean_token_accuracy": 0.6764429658651352,
      "num_tokens": 1475727115.0,
      "step": 8803
    },
    {
      "entropy": 1.69703604777654,
      "epoch": 0.9671802477273351,
      "grad_norm": 0.6198210120201111,
      "learning_rate": 1.1916655109645919e-05,
      "loss": 1.2735,
      "mean_token_accuracy": 0.6707077473402023,
      "num_tokens": 1475872434.0,
      "step": 8804
    },
    {
      "entropy": 1.7205248872439067,
      "epoch": 0.9672901046387081,
      "grad_norm": 0.8538046479225159,
      "learning_rate": 1.1915062292660774e-05,
      "loss": 1.3696,
      "mean_token_accuracy": 0.6752174297968546,
      "num_tokens": 1476017139.0,
      "step": 8805
    },
    {
      "entropy": 1.656046062707901,
      "epoch": 0.967399961550081,
      "grad_norm": 0.7897881865501404,
      "learning_rate": 1.1913469446714323e-05,
      "loss": 1.266,
      "mean_token_accuracy": 0.670650397737821,
      "num_tokens": 1476142714.0,
      "step": 8806
    },
    {
      "entropy": 1.7231378157933552,
      "epoch": 0.967509818461454,
      "grad_norm": 0.6750791668891907,
      "learning_rate": 1.1911876571856975e-05,
      "loss": 1.2979,
      "mean_token_accuracy": 0.6721773644288381,
      "num_tokens": 1476278163.0,
      "step": 8807
    },
    {
      "entropy": 1.720835566520691,
      "epoch": 0.9676196753728269,
      "grad_norm": 0.780296266078949,
      "learning_rate": 1.1910283668139147e-05,
      "loss": 1.4398,
      "mean_token_accuracy": 0.6561943292617798,
      "num_tokens": 1476432943.0,
      "step": 8808
    },
    {
      "entropy": 1.6540588239828746,
      "epoch": 0.9677295322841998,
      "grad_norm": 0.6764923334121704,
      "learning_rate": 1.1908690735611246e-05,
      "loss": 1.2985,
      "mean_token_accuracy": 0.6647897958755493,
      "num_tokens": 1476568567.0,
      "step": 8809
    },
    {
      "entropy": 1.6742003659407299,
      "epoch": 0.9678393891955728,
      "grad_norm": 0.6901260018348694,
      "learning_rate": 1.1907097774323693e-05,
      "loss": 1.4862,
      "mean_token_accuracy": 0.6387346585591634,
      "num_tokens": 1476792318.0,
      "step": 8810
    },
    {
      "entropy": 1.673385351896286,
      "epoch": 0.9679492461069457,
      "grad_norm": 0.7130966782569885,
      "learning_rate": 1.1905504784326907e-05,
      "loss": 1.2702,
      "mean_token_accuracy": 0.6630944808324178,
      "num_tokens": 1476905292.0,
      "step": 8811
    },
    {
      "entropy": 1.6886204878489177,
      "epoch": 0.9680591030183187,
      "grad_norm": 0.7114747166633606,
      "learning_rate": 1.19039117656713e-05,
      "loss": 1.2468,
      "mean_token_accuracy": 0.6765016714731852,
      "num_tokens": 1477053287.0,
      "step": 8812
    },
    {
      "entropy": 1.708604981501897,
      "epoch": 0.9681689599296915,
      "grad_norm": 0.6665516495704651,
      "learning_rate": 1.1902318718407295e-05,
      "loss": 1.3936,
      "mean_token_accuracy": 0.6632998138666153,
      "num_tokens": 1477269370.0,
      "step": 8813
    },
    {
      "entropy": 1.7254629333813984,
      "epoch": 0.9682788168410645,
      "grad_norm": 0.8017979860305786,
      "learning_rate": 1.190072564258531e-05,
      "loss": 1.3117,
      "mean_token_accuracy": 0.6620668768882751,
      "num_tokens": 1477459504.0,
      "step": 8814
    },
    {
      "entropy": 1.709552268187205,
      "epoch": 0.9683886737524374,
      "grad_norm": 0.8370741009712219,
      "learning_rate": 1.1899132538255764e-05,
      "loss": 1.3385,
      "mean_token_accuracy": 0.6709966957569122,
      "num_tokens": 1477580950.0,
      "step": 8815
    },
    {
      "entropy": 1.75144029657046,
      "epoch": 0.9684985306638104,
      "grad_norm": 0.7077965140342712,
      "learning_rate": 1.1897539405469079e-05,
      "loss": 1.5018,
      "mean_token_accuracy": 0.642456571261088,
      "num_tokens": 1477766228.0,
      "step": 8816
    },
    {
      "entropy": 1.6804983814557393,
      "epoch": 0.9686083875751833,
      "grad_norm": 0.6244013905525208,
      "learning_rate": 1.189594624427567e-05,
      "loss": 1.4332,
      "mean_token_accuracy": 0.6555044750372568,
      "num_tokens": 1477975630.0,
      "step": 8817
    },
    {
      "entropy": 1.700407882531484,
      "epoch": 0.9687182444865563,
      "grad_norm": 0.5928204655647278,
      "learning_rate": 1.1894353054725976e-05,
      "loss": 1.3642,
      "mean_token_accuracy": 0.6752937485774358,
      "num_tokens": 1478182533.0,
      "step": 8818
    },
    {
      "entropy": 1.7318575084209442,
      "epoch": 0.9688281013979292,
      "grad_norm": 0.7394362092018127,
      "learning_rate": 1.1892759836870402e-05,
      "loss": 1.4435,
      "mean_token_accuracy": 0.6566926191250483,
      "num_tokens": 1478342831.0,
      "step": 8819
    },
    {
      "entropy": 1.7132834196090698,
      "epoch": 0.9689379583093022,
      "grad_norm": 0.6716835498809814,
      "learning_rate": 1.1891166590759386e-05,
      "loss": 1.4787,
      "mean_token_accuracy": 0.6364479611317316,
      "num_tokens": 1478555411.0,
      "step": 8820
    },
    {
      "entropy": 1.66799263159434,
      "epoch": 0.9690478152206751,
      "grad_norm": 0.6324994564056396,
      "learning_rate": 1.1889573316443349e-05,
      "loss": 1.4213,
      "mean_token_accuracy": 0.6493504792451859,
      "num_tokens": 1478775775.0,
      "step": 8821
    },
    {
      "entropy": 1.7549628714720409,
      "epoch": 0.969157672132048,
      "grad_norm": 0.6879369616508484,
      "learning_rate": 1.1887980013972715e-05,
      "loss": 1.4407,
      "mean_token_accuracy": 0.6554758697748184,
      "num_tokens": 1478969172.0,
      "step": 8822
    },
    {
      "entropy": 1.626541276772817,
      "epoch": 0.969267529043421,
      "grad_norm": 0.7112913727760315,
      "learning_rate": 1.1886386683397917e-05,
      "loss": 1.4272,
      "mean_token_accuracy": 0.6542681405941645,
      "num_tokens": 1479172290.0,
      "step": 8823
    },
    {
      "entropy": 1.7104832927385967,
      "epoch": 0.9693773859547938,
      "grad_norm": 0.7072854042053223,
      "learning_rate": 1.1884793324769379e-05,
      "loss": 1.3244,
      "mean_token_accuracy": 0.6610027849674225,
      "num_tokens": 1479371313.0,
      "step": 8824
    },
    {
      "entropy": 1.621906081835429,
      "epoch": 0.9694872428661668,
      "grad_norm": 0.6670812368392944,
      "learning_rate": 1.1883199938137528e-05,
      "loss": 1.4952,
      "mean_token_accuracy": 0.6568761318922043,
      "num_tokens": 1479538947.0,
      "step": 8825
    },
    {
      "entropy": 1.6460838218530018,
      "epoch": 0.9695970997775397,
      "grad_norm": 0.6370675563812256,
      "learning_rate": 1.18816065235528e-05,
      "loss": 1.2052,
      "mean_token_accuracy": 0.6849732001622518,
      "num_tokens": 1479663363.0,
      "step": 8826
    },
    {
      "entropy": 1.7442928353945415,
      "epoch": 0.9697069566889127,
      "grad_norm": 0.7854894995689392,
      "learning_rate": 1.188001308106562e-05,
      "loss": 1.2911,
      "mean_token_accuracy": 0.6643334925174713,
      "num_tokens": 1479797528.0,
      "step": 8827
    },
    {
      "entropy": 1.7473202149073284,
      "epoch": 0.9698168136002856,
      "grad_norm": 0.7597824931144714,
      "learning_rate": 1.1878419610726423e-05,
      "loss": 1.3298,
      "mean_token_accuracy": 0.662042036652565,
      "num_tokens": 1479958379.0,
      "step": 8828
    },
    {
      "entropy": 1.729845941066742,
      "epoch": 0.9699266705116586,
      "grad_norm": 0.7279675602912903,
      "learning_rate": 1.1876826112585645e-05,
      "loss": 1.5532,
      "mean_token_accuracy": 0.6339255919059118,
      "num_tokens": 1480118370.0,
      "step": 8829
    },
    {
      "entropy": 1.6920412480831146,
      "epoch": 0.9700365274230315,
      "grad_norm": 0.6832351684570312,
      "learning_rate": 1.1875232586693712e-05,
      "loss": 1.4446,
      "mean_token_accuracy": 0.653128465016683,
      "num_tokens": 1480289535.0,
      "step": 8830
    },
    {
      "entropy": 1.634282539288203,
      "epoch": 0.9701463843344045,
      "grad_norm": 0.7434066534042358,
      "learning_rate": 1.1873639033101066e-05,
      "loss": 1.2848,
      "mean_token_accuracy": 0.6711482803026835,
      "num_tokens": 1480427662.0,
      "step": 8831
    },
    {
      "entropy": 1.7319086988766987,
      "epoch": 0.9702562412457774,
      "grad_norm": 0.6085994839668274,
      "learning_rate": 1.1872045451858132e-05,
      "loss": 1.3227,
      "mean_token_accuracy": 0.6564686596393585,
      "num_tokens": 1480575924.0,
      "step": 8832
    },
    {
      "entropy": 1.6918261349201202,
      "epoch": 0.9703660981571504,
      "grad_norm": 0.6591848731040955,
      "learning_rate": 1.1870451843015357e-05,
      "loss": 1.2071,
      "mean_token_accuracy": 0.6775870273510615,
      "num_tokens": 1480693963.0,
      "step": 8833
    },
    {
      "entropy": 1.6758748193581898,
      "epoch": 0.9704759550685232,
      "grad_norm": 0.7486820816993713,
      "learning_rate": 1.186885820662317e-05,
      "loss": 1.3314,
      "mean_token_accuracy": 0.6618000318606695,
      "num_tokens": 1480855735.0,
      "step": 8834
    },
    {
      "entropy": 1.7517311076323192,
      "epoch": 0.9705858119798962,
      "grad_norm": 0.6901195049285889,
      "learning_rate": 1.1867264542732013e-05,
      "loss": 1.4552,
      "mean_token_accuracy": 0.6589073191086451,
      "num_tokens": 1480986317.0,
      "step": 8835
    },
    {
      "entropy": 1.6750148733456929,
      "epoch": 0.9706956688912691,
      "grad_norm": 0.6650272011756897,
      "learning_rate": 1.186567085139233e-05,
      "loss": 1.3836,
      "mean_token_accuracy": 0.6477328389883041,
      "num_tokens": 1481124442.0,
      "step": 8836
    },
    {
      "entropy": 1.6886054178078969,
      "epoch": 0.970805525802642,
      "grad_norm": 0.7245535850524902,
      "learning_rate": 1.1864077132654547e-05,
      "loss": 1.246,
      "mean_token_accuracy": 0.6800411989291509,
      "num_tokens": 1481244157.0,
      "step": 8837
    },
    {
      "entropy": 1.755658229192098,
      "epoch": 0.970915382714015,
      "grad_norm": 0.6730127334594727,
      "learning_rate": 1.1862483386569116e-05,
      "loss": 1.3982,
      "mean_token_accuracy": 0.64553735156854,
      "num_tokens": 1481399744.0,
      "step": 8838
    },
    {
      "entropy": 1.726265827814738,
      "epoch": 0.9710252396253879,
      "grad_norm": 0.6427361369132996,
      "learning_rate": 1.1860889613186473e-05,
      "loss": 1.449,
      "mean_token_accuracy": 0.6438863674799601,
      "num_tokens": 1481578751.0,
      "step": 8839
    },
    {
      "entropy": 1.7021092474460602,
      "epoch": 0.9711350965367609,
      "grad_norm": 0.6495327949523926,
      "learning_rate": 1.1859295812557063e-05,
      "loss": 1.3721,
      "mean_token_accuracy": 0.6563242822885513,
      "num_tokens": 1481747669.0,
      "step": 8840
    },
    {
      "entropy": 1.7147242824236553,
      "epoch": 0.9712449534481338,
      "grad_norm": 0.6548023819923401,
      "learning_rate": 1.1857701984731327e-05,
      "loss": 1.5216,
      "mean_token_accuracy": 0.6520404716332754,
      "num_tokens": 1481960498.0,
      "step": 8841
    },
    {
      "entropy": 1.7369143664836884,
      "epoch": 0.9713548103595068,
      "grad_norm": 1.022463083267212,
      "learning_rate": 1.185610812975971e-05,
      "loss": 0.9632,
      "mean_token_accuracy": 0.6833280275265375,
      "num_tokens": 1482092594.0,
      "step": 8842
    },
    {
      "entropy": 1.693136473496755,
      "epoch": 0.9714646672708797,
      "grad_norm": 0.7875451445579529,
      "learning_rate": 1.1854514247692654e-05,
      "loss": 1.4815,
      "mean_token_accuracy": 0.6493118107318878,
      "num_tokens": 1482278952.0,
      "step": 8843
    },
    {
      "entropy": 1.6291471024354298,
      "epoch": 0.9715745241822527,
      "grad_norm": 0.5732967257499695,
      "learning_rate": 1.1852920338580612e-05,
      "loss": 1.3202,
      "mean_token_accuracy": 0.6629867007335027,
      "num_tokens": 1482496222.0,
      "step": 8844
    },
    {
      "entropy": 1.762572060028712,
      "epoch": 0.9716843810936255,
      "grad_norm": 0.7325165867805481,
      "learning_rate": 1.1851326402474021e-05,
      "loss": 1.4403,
      "mean_token_accuracy": 0.647186944882075,
      "num_tokens": 1482638902.0,
      "step": 8845
    },
    {
      "entropy": 1.7113976279894512,
      "epoch": 0.9717942380049985,
      "grad_norm": 0.5798704028129578,
      "learning_rate": 1.1849732439423336e-05,
      "loss": 1.2823,
      "mean_token_accuracy": 0.6795357465744019,
      "num_tokens": 1482850659.0,
      "step": 8846
    },
    {
      "entropy": 1.6824340323607128,
      "epoch": 0.9719040949163714,
      "grad_norm": 0.6129104495048523,
      "learning_rate": 1.1848138449479e-05,
      "loss": 1.3034,
      "mean_token_accuracy": 0.6713794569174448,
      "num_tokens": 1482991261.0,
      "step": 8847
    },
    {
      "entropy": 1.7262922724088032,
      "epoch": 0.9720139518277444,
      "grad_norm": 0.6804250478744507,
      "learning_rate": 1.1846544432691466e-05,
      "loss": 1.4445,
      "mean_token_accuracy": 0.6579902023077011,
      "num_tokens": 1483175630.0,
      "step": 8848
    },
    {
      "entropy": 1.6732697486877441,
      "epoch": 0.9721238087391173,
      "grad_norm": 0.8014521598815918,
      "learning_rate": 1.1844950389111182e-05,
      "loss": 1.4432,
      "mean_token_accuracy": 0.6527867317199707,
      "num_tokens": 1483337929.0,
      "step": 8849
    },
    {
      "entropy": 1.7497017979621887,
      "epoch": 0.9722336656504902,
      "grad_norm": 0.7554667592048645,
      "learning_rate": 1.1843356318788597e-05,
      "loss": 1.5084,
      "mean_token_accuracy": 0.6426639705896378,
      "num_tokens": 1483472141.0,
      "step": 8850
    },
    {
      "entropy": 1.6782042880853016,
      "epoch": 0.9723435225618632,
      "grad_norm": 0.6667650938034058,
      "learning_rate": 1.1841762221774166e-05,
      "loss": 1.3261,
      "mean_token_accuracy": 0.6682502627372742,
      "num_tokens": 1483655083.0,
      "step": 8851
    },
    {
      "entropy": 1.7021657625834148,
      "epoch": 0.9724533794732361,
      "grad_norm": 0.7699475288391113,
      "learning_rate": 1.1840168098118341e-05,
      "loss": 1.2373,
      "mean_token_accuracy": 0.6808784703413645,
      "num_tokens": 1483770294.0,
      "step": 8852
    },
    {
      "entropy": 1.6511710683504741,
      "epoch": 0.9725632363846091,
      "grad_norm": 0.6833035349845886,
      "learning_rate": 1.1838573947871572e-05,
      "loss": 1.3962,
      "mean_token_accuracy": 0.6551846663157145,
      "num_tokens": 1484013632.0,
      "step": 8853
    },
    {
      "entropy": 1.6699829399585724,
      "epoch": 0.972673093295982,
      "grad_norm": 0.6805309057235718,
      "learning_rate": 1.1836979771084319e-05,
      "loss": 1.4132,
      "mean_token_accuracy": 0.6588405172030131,
      "num_tokens": 1484203655.0,
      "step": 8854
    },
    {
      "entropy": 1.7369339366753895,
      "epoch": 0.972782950207355,
      "grad_norm": 0.7582236528396606,
      "learning_rate": 1.183538556780703e-05,
      "loss": 1.3637,
      "mean_token_accuracy": 0.6499685148398081,
      "num_tokens": 1484339577.0,
      "step": 8855
    },
    {
      "entropy": 1.6894344786802928,
      "epoch": 0.9728928071187278,
      "grad_norm": 0.6298988461494446,
      "learning_rate": 1.1833791338090164e-05,
      "loss": 1.4281,
      "mean_token_accuracy": 0.6555620779593786,
      "num_tokens": 1484533014.0,
      "step": 8856
    },
    {
      "entropy": 1.738153209288915,
      "epoch": 0.9730026640301008,
      "grad_norm": 0.8281303644180298,
      "learning_rate": 1.1832197081984178e-05,
      "loss": 1.4179,
      "mean_token_accuracy": 0.6543222516775131,
      "num_tokens": 1484703160.0,
      "step": 8857
    },
    {
      "entropy": 1.7207493782043457,
      "epoch": 0.9731125209414737,
      "grad_norm": 0.6813370585441589,
      "learning_rate": 1.1830602799539532e-05,
      "loss": 1.3754,
      "mean_token_accuracy": 0.6627134084701538,
      "num_tokens": 1484840728.0,
      "step": 8858
    },
    {
      "entropy": 1.6518064538637798,
      "epoch": 0.9732223778528467,
      "grad_norm": 0.6134771108627319,
      "learning_rate": 1.1829008490806682e-05,
      "loss": 1.3939,
      "mean_token_accuracy": 0.6519312014182409,
      "num_tokens": 1485038123.0,
      "step": 8859
    },
    {
      "entropy": 1.7453482647736867,
      "epoch": 0.9733322347642196,
      "grad_norm": 0.6196027398109436,
      "learning_rate": 1.1827414155836083e-05,
      "loss": 1.3782,
      "mean_token_accuracy": 0.6594426184892654,
      "num_tokens": 1485288940.0,
      "step": 8860
    },
    {
      "entropy": 1.6767084399859111,
      "epoch": 0.9734420916755926,
      "grad_norm": 0.7031689286231995,
      "learning_rate": 1.1825819794678201e-05,
      "loss": 1.3408,
      "mean_token_accuracy": 0.6554951965808868,
      "num_tokens": 1485453230.0,
      "step": 8861
    },
    {
      "entropy": 1.7447557151317596,
      "epoch": 0.9735519485869655,
      "grad_norm": 0.658467710018158,
      "learning_rate": 1.1824225407383494e-05,
      "loss": 1.4039,
      "mean_token_accuracy": 0.6553630034128824,
      "num_tokens": 1485639366.0,
      "step": 8862
    },
    {
      "entropy": 1.7522308230400085,
      "epoch": 0.9736618054983384,
      "grad_norm": 0.6083486080169678,
      "learning_rate": 1.1822630994002425e-05,
      "loss": 1.4194,
      "mean_token_accuracy": 0.6455821990966797,
      "num_tokens": 1485812666.0,
      "step": 8863
    },
    {
      "entropy": 1.6696155369281769,
      "epoch": 0.9737716624097114,
      "grad_norm": 0.6207438111305237,
      "learning_rate": 1.1821036554585457e-05,
      "loss": 1.4398,
      "mean_token_accuracy": 0.6514710088570913,
      "num_tokens": 1485967627.0,
      "step": 8864
    },
    {
      "entropy": 1.7358433306217194,
      "epoch": 0.9738815193210842,
      "grad_norm": 0.8131921291351318,
      "learning_rate": 1.1819442089183051e-05,
      "loss": 1.4363,
      "mean_token_accuracy": 0.6631392339865366,
      "num_tokens": 1486133922.0,
      "step": 8865
    },
    {
      "entropy": 1.711951583623886,
      "epoch": 0.9739913762324572,
      "grad_norm": 0.7035873532295227,
      "learning_rate": 1.181784759784567e-05,
      "loss": 1.403,
      "mean_token_accuracy": 0.6459818432728449,
      "num_tokens": 1486288914.0,
      "step": 8866
    },
    {
      "entropy": 1.7438312371571858,
      "epoch": 0.9741012331438301,
      "grad_norm": 0.810245156288147,
      "learning_rate": 1.1816253080623783e-05,
      "loss": 1.2218,
      "mean_token_accuracy": 0.6892569859822592,
      "num_tokens": 1486416868.0,
      "step": 8867
    },
    {
      "entropy": 1.7063380181789398,
      "epoch": 0.9742110900552031,
      "grad_norm": 0.7329069375991821,
      "learning_rate": 1.1814658537567851e-05,
      "loss": 1.3848,
      "mean_token_accuracy": 0.6666723837455114,
      "num_tokens": 1486561189.0,
      "step": 8868
    },
    {
      "entropy": 1.707608977953593,
      "epoch": 0.974320946966576,
      "grad_norm": 0.8022003173828125,
      "learning_rate": 1.1813063968728347e-05,
      "loss": 1.3259,
      "mean_token_accuracy": 0.6613700141509374,
      "num_tokens": 1486705794.0,
      "step": 8869
    },
    {
      "entropy": 1.7382404804229736,
      "epoch": 0.974430803877949,
      "grad_norm": 0.8011891841888428,
      "learning_rate": 1.1811469374155736e-05,
      "loss": 1.2486,
      "mean_token_accuracy": 0.6719160179297129,
      "num_tokens": 1486836957.0,
      "step": 8870
    },
    {
      "entropy": 1.7135269542535145,
      "epoch": 0.9745406607893219,
      "grad_norm": 0.7246976494789124,
      "learning_rate": 1.1809874753900481e-05,
      "loss": 1.4138,
      "mean_token_accuracy": 0.6471135467290878,
      "num_tokens": 1487021960.0,
      "step": 8871
    },
    {
      "entropy": 1.7171033422152202,
      "epoch": 0.9746505177006949,
      "grad_norm": 0.7895018458366394,
      "learning_rate": 1.1808280108013056e-05,
      "loss": 1.4596,
      "mean_token_accuracy": 0.6534997771183649,
      "num_tokens": 1487169618.0,
      "step": 8872
    },
    {
      "entropy": 1.6360890467961628,
      "epoch": 0.9747603746120678,
      "grad_norm": 0.638076901435852,
      "learning_rate": 1.1806685436543929e-05,
      "loss": 1.3767,
      "mean_token_accuracy": 0.6550846695899963,
      "num_tokens": 1487335153.0,
      "step": 8873
    },
    {
      "entropy": 1.7775618036588032,
      "epoch": 0.9748702315234408,
      "grad_norm": 0.7299431562423706,
      "learning_rate": 1.1805090739543574e-05,
      "loss": 1.4693,
      "mean_token_accuracy": 0.6526975681384405,
      "num_tokens": 1487516942.0,
      "step": 8874
    },
    {
      "entropy": 1.717639684677124,
      "epoch": 0.9749800884348137,
      "grad_norm": 0.6354700326919556,
      "learning_rate": 1.1803496017062458e-05,
      "loss": 1.3929,
      "mean_token_accuracy": 0.6608896454175314,
      "num_tokens": 1487720150.0,
      "step": 8875
    },
    {
      "entropy": 1.7499834895133972,
      "epoch": 0.9750899453461865,
      "grad_norm": 0.6952952742576599,
      "learning_rate": 1.1801901269151057e-05,
      "loss": 1.5107,
      "mean_token_accuracy": 0.6322333912054697,
      "num_tokens": 1487928726.0,
      "step": 8876
    },
    {
      "entropy": 1.7447476585706074,
      "epoch": 0.9751998022575595,
      "grad_norm": 0.7346185445785522,
      "learning_rate": 1.180030649585984e-05,
      "loss": 1.3801,
      "mean_token_accuracy": 0.6633228411277136,
      "num_tokens": 1488088706.0,
      "step": 8877
    },
    {
      "entropy": 1.7237921754519145,
      "epoch": 0.9753096591689324,
      "grad_norm": 0.6742929816246033,
      "learning_rate": 1.1798711697239281e-05,
      "loss": 1.542,
      "mean_token_accuracy": 0.6433573961257935,
      "num_tokens": 1488277908.0,
      "step": 8878
    },
    {
      "entropy": 1.7318544387817383,
      "epoch": 0.9754195160803054,
      "grad_norm": 0.7747882604598999,
      "learning_rate": 1.1797116873339862e-05,
      "loss": 1.449,
      "mean_token_accuracy": 0.6521434336900711,
      "num_tokens": 1488421687.0,
      "step": 8879
    },
    {
      "entropy": 1.7487476070721943,
      "epoch": 0.9755293729916783,
      "grad_norm": 0.67233806848526,
      "learning_rate": 1.1795522024212052e-05,
      "loss": 1.4115,
      "mean_token_accuracy": 0.6510422080755234,
      "num_tokens": 1488578364.0,
      "step": 8880
    },
    {
      "entropy": 1.7285469969113667,
      "epoch": 0.9756392299030513,
      "grad_norm": 0.714249312877655,
      "learning_rate": 1.1793927149906329e-05,
      "loss": 1.5166,
      "mean_token_accuracy": 0.6440831869840622,
      "num_tokens": 1488760116.0,
      "step": 8881
    },
    {
      "entropy": 1.7103685835997264,
      "epoch": 0.9757490868144242,
      "grad_norm": 0.6406890749931335,
      "learning_rate": 1.1792332250473167e-05,
      "loss": 1.3169,
      "mean_token_accuracy": 0.6635753909746805,
      "num_tokens": 1488954184.0,
      "step": 8882
    },
    {
      "entropy": 1.7467718720436096,
      "epoch": 0.9758589437257972,
      "grad_norm": 0.713141918182373,
      "learning_rate": 1.1790737325963047e-05,
      "loss": 1.4421,
      "mean_token_accuracy": 0.6507671574751536,
      "num_tokens": 1489118857.0,
      "step": 8883
    },
    {
      "entropy": 1.7769187291463215,
      "epoch": 0.9759688006371701,
      "grad_norm": 0.7039201855659485,
      "learning_rate": 1.1789142376426446e-05,
      "loss": 1.4417,
      "mean_token_accuracy": 0.6531537423531214,
      "num_tokens": 1489241521.0,
      "step": 8884
    },
    {
      "entropy": 1.6950764159361522,
      "epoch": 0.9760786575485431,
      "grad_norm": 0.623028039932251,
      "learning_rate": 1.1787547401913844e-05,
      "loss": 1.4874,
      "mean_token_accuracy": 0.6512324412663778,
      "num_tokens": 1489416640.0,
      "step": 8885
    },
    {
      "entropy": 1.739354799191157,
      "epoch": 0.976188514459916,
      "grad_norm": 0.6581858396530151,
      "learning_rate": 1.1785952402475722e-05,
      "loss": 1.4426,
      "mean_token_accuracy": 0.6493807832400004,
      "num_tokens": 1489591572.0,
      "step": 8886
    },
    {
      "entropy": 1.7338965435822804,
      "epoch": 0.9762983713712889,
      "grad_norm": 0.7526776790618896,
      "learning_rate": 1.1784357378162563e-05,
      "loss": 1.4659,
      "mean_token_accuracy": 0.6593673924605051,
      "num_tokens": 1489730151.0,
      "step": 8887
    },
    {
      "entropy": 1.7149750391642253,
      "epoch": 0.9764082282826618,
      "grad_norm": 0.6592543125152588,
      "learning_rate": 1.1782762329024844e-05,
      "loss": 1.4636,
      "mean_token_accuracy": 0.6369660447041193,
      "num_tokens": 1489951203.0,
      "step": 8888
    },
    {
      "entropy": 1.6767615675926208,
      "epoch": 0.9765180851940348,
      "grad_norm": 0.6977933049201965,
      "learning_rate": 1.178116725511305e-05,
      "loss": 1.3287,
      "mean_token_accuracy": 0.6671111832062403,
      "num_tokens": 1490090010.0,
      "step": 8889
    },
    {
      "entropy": 1.7671857078870137,
      "epoch": 0.9766279421054077,
      "grad_norm": 0.6696137189865112,
      "learning_rate": 1.1779572156477668e-05,
      "loss": 1.4625,
      "mean_token_accuracy": 0.6420988490184149,
      "num_tokens": 1490251825.0,
      "step": 8890
    },
    {
      "entropy": 1.7096356054147084,
      "epoch": 0.9767377990167806,
      "grad_norm": 0.7088844776153564,
      "learning_rate": 1.1777977033169172e-05,
      "loss": 1.4098,
      "mean_token_accuracy": 0.6524170140425364,
      "num_tokens": 1490465675.0,
      "step": 8891
    },
    {
      "entropy": 1.6997392972310383,
      "epoch": 0.9768476559281536,
      "grad_norm": 0.656985342502594,
      "learning_rate": 1.1776381885238061e-05,
      "loss": 1.2332,
      "mean_token_accuracy": 0.6762174765268961,
      "num_tokens": 1490560957.0,
      "step": 8892
    },
    {
      "entropy": 1.7471089363098145,
      "epoch": 0.9769575128395265,
      "grad_norm": 0.7269816994667053,
      "learning_rate": 1.1774786712734809e-05,
      "loss": 1.4095,
      "mean_token_accuracy": 0.6508002032836279,
      "num_tokens": 1490726338.0,
      "step": 8893
    },
    {
      "entropy": 1.7028346260388691,
      "epoch": 0.9770673697508995,
      "grad_norm": 0.6202099919319153,
      "learning_rate": 1.1773191515709906e-05,
      "loss": 1.4608,
      "mean_token_accuracy": 0.6557352344195048,
      "num_tokens": 1490880225.0,
      "step": 8894
    },
    {
      "entropy": 1.7463387648264568,
      "epoch": 0.9771772266622724,
      "grad_norm": 0.7726168632507324,
      "learning_rate": 1.1771596294213843e-05,
      "loss": 1.3347,
      "mean_token_accuracy": 0.6617359022299448,
      "num_tokens": 1490998821.0,
      "step": 8895
    },
    {
      "entropy": 1.7535992066065471,
      "epoch": 0.9772870835736454,
      "grad_norm": 0.7872083187103271,
      "learning_rate": 1.1770001048297102e-05,
      "loss": 1.4472,
      "mean_token_accuracy": 0.6451671719551086,
      "num_tokens": 1491127949.0,
      "step": 8896
    },
    {
      "entropy": 1.6302488346894581,
      "epoch": 0.9773969404850182,
      "grad_norm": 0.6466932892799377,
      "learning_rate": 1.1768405778010175e-05,
      "loss": 1.5216,
      "mean_token_accuracy": 0.6445588419834772,
      "num_tokens": 1491366456.0,
      "step": 8897
    },
    {
      "entropy": 1.703003813823064,
      "epoch": 0.9775067973963912,
      "grad_norm": 0.6098012328147888,
      "learning_rate": 1.1766810483403554e-05,
      "loss": 1.3419,
      "mean_token_accuracy": 0.6562597801287969,
      "num_tokens": 1491508523.0,
      "step": 8898
    },
    {
      "entropy": 1.7005487581094105,
      "epoch": 0.9776166543077641,
      "grad_norm": 0.6172084212303162,
      "learning_rate": 1.1765215164527724e-05,
      "loss": 1.3601,
      "mean_token_accuracy": 0.6567008445660273,
      "num_tokens": 1491676475.0,
      "step": 8899
    },
    {
      "entropy": 1.6621931393941243,
      "epoch": 0.9777265112191371,
      "grad_norm": 0.6719179153442383,
      "learning_rate": 1.176361982143318e-05,
      "loss": 1.4336,
      "mean_token_accuracy": 0.6611567785342535,
      "num_tokens": 1491840435.0,
      "step": 8900
    },
    {
      "entropy": 1.6821343700091045,
      "epoch": 0.97783636813051,
      "grad_norm": 0.7708391547203064,
      "learning_rate": 1.176202445417041e-05,
      "loss": 1.2368,
      "mean_token_accuracy": 0.6823245485623678,
      "num_tokens": 1491954495.0,
      "step": 8901
    },
    {
      "entropy": 1.7113755146662395,
      "epoch": 0.977946225041883,
      "grad_norm": 0.7206063866615295,
      "learning_rate": 1.1760429062789913e-05,
      "loss": 1.3775,
      "mean_token_accuracy": 0.6614246865113577,
      "num_tokens": 1492099534.0,
      "step": 8902
    },
    {
      "entropy": 1.7529734373092651,
      "epoch": 0.9780560819532559,
      "grad_norm": 0.699995219707489,
      "learning_rate": 1.1758833647342176e-05,
      "loss": 1.4319,
      "mean_token_accuracy": 0.6588613192240397,
      "num_tokens": 1492259682.0,
      "step": 8903
    },
    {
      "entropy": 1.7423115372657776,
      "epoch": 0.9781659388646288,
      "grad_norm": 0.6755629777908325,
      "learning_rate": 1.1757238207877702e-05,
      "loss": 1.4738,
      "mean_token_accuracy": 0.6427132934331894,
      "num_tokens": 1492394241.0,
      "step": 8904
    },
    {
      "entropy": 1.6748673518498738,
      "epoch": 0.9782757957760018,
      "grad_norm": 0.6021566987037659,
      "learning_rate": 1.1755642744446976e-05,
      "loss": 1.4454,
      "mean_token_accuracy": 0.6756737381219864,
      "num_tokens": 1492593369.0,
      "step": 8905
    },
    {
      "entropy": 1.688041518131892,
      "epoch": 0.9783856526873747,
      "grad_norm": 0.6667623519897461,
      "learning_rate": 1.1754047257100496e-05,
      "loss": 1.403,
      "mean_token_accuracy": 0.6555336664120356,
      "num_tokens": 1492797945.0,
      "step": 8906
    },
    {
      "entropy": 1.7394044895966847,
      "epoch": 0.9784955095987476,
      "grad_norm": 0.6365262269973755,
      "learning_rate": 1.175245174588876e-05,
      "loss": 0.9444,
      "mean_token_accuracy": 0.6888117839892706,
      "num_tokens": 1492929891.0,
      "step": 8907
    },
    {
      "entropy": 1.7516534825166066,
      "epoch": 0.9786053665101205,
      "grad_norm": 0.6223315596580505,
      "learning_rate": 1.1750856210862267e-05,
      "loss": 1.3887,
      "mean_token_accuracy": 0.6591986964146296,
      "num_tokens": 1493095539.0,
      "step": 8908
    },
    {
      "entropy": 1.7105275094509125,
      "epoch": 0.9787152234214935,
      "grad_norm": 0.8252950310707092,
      "learning_rate": 1.1749260652071513e-05,
      "loss": 1.2241,
      "mean_token_accuracy": 0.6796365777651469,
      "num_tokens": 1493206041.0,
      "step": 8909
    },
    {
      "entropy": 1.7503976225852966,
      "epoch": 0.9788250803328664,
      "grad_norm": 0.7552759051322937,
      "learning_rate": 1.1747665069566998e-05,
      "loss": 1.433,
      "mean_token_accuracy": 0.652017816901207,
      "num_tokens": 1493376417.0,
      "step": 8910
    },
    {
      "entropy": 1.7101737360159557,
      "epoch": 0.9789349372442394,
      "grad_norm": 0.636199414730072,
      "learning_rate": 1.174606946339922e-05,
      "loss": 1.363,
      "mean_token_accuracy": 0.6580263326565424,
      "num_tokens": 1493515476.0,
      "step": 8911
    },
    {
      "entropy": 1.7023467222849529,
      "epoch": 0.9790447941556123,
      "grad_norm": 0.6993868947029114,
      "learning_rate": 1.174447383361868e-05,
      "loss": 1.4091,
      "mean_token_accuracy": 0.6553865273793539,
      "num_tokens": 1493688665.0,
      "step": 8912
    },
    {
      "entropy": 1.689314067363739,
      "epoch": 0.9791546510669853,
      "grad_norm": 0.602799117565155,
      "learning_rate": 1.1742878180275876e-05,
      "loss": 1.3516,
      "mean_token_accuracy": 0.6648583362499872,
      "num_tokens": 1493896130.0,
      "step": 8913
    },
    {
      "entropy": 1.6816753149032593,
      "epoch": 0.9792645079783582,
      "grad_norm": 0.7375824451446533,
      "learning_rate": 1.1741282503421314e-05,
      "loss": 1.5003,
      "mean_token_accuracy": 0.6500919560591379,
      "num_tokens": 1494039815.0,
      "step": 8914
    },
    {
      "entropy": 1.7708214024702709,
      "epoch": 0.9793743648897312,
      "grad_norm": 0.643165647983551,
      "learning_rate": 1.1739686803105497e-05,
      "loss": 1.3811,
      "mean_token_accuracy": 0.6472144474585851,
      "num_tokens": 1494220521.0,
      "step": 8915
    },
    {
      "entropy": 1.7270447909832,
      "epoch": 0.9794842218011041,
      "grad_norm": 0.7264362573623657,
      "learning_rate": 1.1738091079378924e-05,
      "loss": 1.3741,
      "mean_token_accuracy": 0.6521051526069641,
      "num_tokens": 1494408989.0,
      "step": 8916
    },
    {
      "entropy": 1.7155033648014069,
      "epoch": 0.979594078712477,
      "grad_norm": 0.7391374111175537,
      "learning_rate": 1.1736495332292099e-05,
      "loss": 1.5278,
      "mean_token_accuracy": 0.6366018503904343,
      "num_tokens": 1494615976.0,
      "step": 8917
    },
    {
      "entropy": 1.7143846253554027,
      "epoch": 0.9797039356238499,
      "grad_norm": 0.702869713306427,
      "learning_rate": 1.1734899561895532e-05,
      "loss": 1.2975,
      "mean_token_accuracy": 0.6688247273365656,
      "num_tokens": 1494746252.0,
      "step": 8918
    },
    {
      "entropy": 1.7029621005058289,
      "epoch": 0.9798137925352228,
      "grad_norm": 0.6561051607131958,
      "learning_rate": 1.1733303768239721e-05,
      "loss": 1.3749,
      "mean_token_accuracy": 0.6583746274312338,
      "num_tokens": 1494902545.0,
      "step": 8919
    },
    {
      "entropy": 1.7064663370450337,
      "epoch": 0.9799236494465958,
      "grad_norm": 0.6154294013977051,
      "learning_rate": 1.173170795137518e-05,
      "loss": 1.5231,
      "mean_token_accuracy": 0.6378661692142487,
      "num_tokens": 1495137727.0,
      "step": 8920
    },
    {
      "entropy": 1.7173560659090679,
      "epoch": 0.9800335063579687,
      "grad_norm": 0.6912945508956909,
      "learning_rate": 1.1730112111352412e-05,
      "loss": 1.5634,
      "mean_token_accuracy": 0.6340258419513702,
      "num_tokens": 1495314972.0,
      "step": 8921
    },
    {
      "entropy": 1.7897585928440094,
      "epoch": 0.9801433632693417,
      "grad_norm": 0.6243012547492981,
      "learning_rate": 1.1728516248221921e-05,
      "loss": 1.4356,
      "mean_token_accuracy": 0.642118309934934,
      "num_tokens": 1495453177.0,
      "step": 8922
    },
    {
      "entropy": 1.726568082968394,
      "epoch": 0.9802532201807146,
      "grad_norm": 0.7456775903701782,
      "learning_rate": 1.1726920362034222e-05,
      "loss": 1.2715,
      "mean_token_accuracy": 0.6740024735530218,
      "num_tokens": 1495558366.0,
      "step": 8923
    },
    {
      "entropy": 1.661215364933014,
      "epoch": 0.9803630770920876,
      "grad_norm": 0.6240798830986023,
      "learning_rate": 1.172532445283982e-05,
      "loss": 1.4022,
      "mean_token_accuracy": 0.6461461385091146,
      "num_tokens": 1495729811.0,
      "step": 8924
    },
    {
      "entropy": 1.645288070042928,
      "epoch": 0.9804729340034605,
      "grad_norm": 0.6724650263786316,
      "learning_rate": 1.1723728520689226e-05,
      "loss": 1.4172,
      "mean_token_accuracy": 0.660889113942782,
      "num_tokens": 1495907965.0,
      "step": 8925
    },
    {
      "entropy": 1.6819191972414653,
      "epoch": 0.9805827909148335,
      "grad_norm": 0.8175992965698242,
      "learning_rate": 1.172213256563295e-05,
      "loss": 1.5096,
      "mean_token_accuracy": 0.6531357516845068,
      "num_tokens": 1496076569.0,
      "step": 8926
    },
    {
      "entropy": 1.691595862309138,
      "epoch": 0.9806926478262064,
      "grad_norm": 0.6539618372917175,
      "learning_rate": 1.1720536587721506e-05,
      "loss": 1.4512,
      "mean_token_accuracy": 0.6612804333368937,
      "num_tokens": 1496228306.0,
      "step": 8927
    },
    {
      "entropy": 1.6252157092094421,
      "epoch": 0.9808025047375794,
      "grad_norm": 0.6574737429618835,
      "learning_rate": 1.1718940587005403e-05,
      "loss": 1.3293,
      "mean_token_accuracy": 0.6706244150797526,
      "num_tokens": 1496384607.0,
      "step": 8928
    },
    {
      "entropy": 1.6941309372584026,
      "epoch": 0.9809123616489522,
      "grad_norm": 0.7366401553153992,
      "learning_rate": 1.171734456353515e-05,
      "loss": 1.3279,
      "mean_token_accuracy": 0.6707786669333776,
      "num_tokens": 1496503504.0,
      "step": 8929
    },
    {
      "entropy": 1.7239616513252258,
      "epoch": 0.9810222185603251,
      "grad_norm": 0.814553439617157,
      "learning_rate": 1.171574851736127e-05,
      "loss": 1.3939,
      "mean_token_accuracy": 0.651360089580218,
      "num_tokens": 1496619109.0,
      "step": 8930
    },
    {
      "entropy": 1.7386276920636494,
      "epoch": 0.9811320754716981,
      "grad_norm": 0.7365756034851074,
      "learning_rate": 1.171415244853427e-05,
      "loss": 1.2141,
      "mean_token_accuracy": 0.677468384305636,
      "num_tokens": 1496749789.0,
      "step": 8931
    },
    {
      "entropy": 1.6668656865755718,
      "epoch": 0.981241932383071,
      "grad_norm": 0.6614105105400085,
      "learning_rate": 1.1712556357104669e-05,
      "loss": 1.3721,
      "mean_token_accuracy": 0.66343554854393,
      "num_tokens": 1496896836.0,
      "step": 8932
    },
    {
      "entropy": 1.5968853334585826,
      "epoch": 0.981351789294444,
      "grad_norm": 0.624069094657898,
      "learning_rate": 1.1710960243122978e-05,
      "loss": 1.2155,
      "mean_token_accuracy": 0.681601325670878,
      "num_tokens": 1497046633.0,
      "step": 8933
    },
    {
      "entropy": 1.6975778539975483,
      "epoch": 0.9814616462058169,
      "grad_norm": 0.6668051481246948,
      "learning_rate": 1.1709364106639715e-05,
      "loss": 1.4791,
      "mean_token_accuracy": 0.6465711345275243,
      "num_tokens": 1497216701.0,
      "step": 8934
    },
    {
      "entropy": 1.6943465371926625,
      "epoch": 0.9815715031171899,
      "grad_norm": 0.8045838475227356,
      "learning_rate": 1.17077679477054e-05,
      "loss": 1.2983,
      "mean_token_accuracy": 0.6777238150437673,
      "num_tokens": 1497334152.0,
      "step": 8935
    },
    {
      "entropy": 1.6488543053468068,
      "epoch": 0.9816813600285628,
      "grad_norm": 0.6241557598114014,
      "learning_rate": 1.1706171766370546e-05,
      "loss": 1.3189,
      "mean_token_accuracy": 0.678161104520162,
      "num_tokens": 1497515242.0,
      "step": 8936
    },
    {
      "entropy": 1.7082229157288868,
      "epoch": 0.9817912169399358,
      "grad_norm": 0.7065755724906921,
      "learning_rate": 1.1704575562685674e-05,
      "loss": 1.3357,
      "mean_token_accuracy": 0.6597681244214376,
      "num_tokens": 1497716579.0,
      "step": 8937
    },
    {
      "entropy": 1.7012514372666676,
      "epoch": 0.9819010738513086,
      "grad_norm": 0.7709197402000427,
      "learning_rate": 1.1702979336701306e-05,
      "loss": 1.4173,
      "mean_token_accuracy": 0.6548969050248464,
      "num_tokens": 1497869693.0,
      "step": 8938
    },
    {
      "entropy": 1.6415949165821075,
      "epoch": 0.9820109307626816,
      "grad_norm": 0.5932096242904663,
      "learning_rate": 1.1701383088467958e-05,
      "loss": 1.4232,
      "mean_token_accuracy": 0.6544928352038065,
      "num_tokens": 1498106239.0,
      "step": 8939
    },
    {
      "entropy": 1.814208447933197,
      "epoch": 0.9821207876740545,
      "grad_norm": 0.6313380002975464,
      "learning_rate": 1.169978681803615e-05,
      "loss": 1.418,
      "mean_token_accuracy": 0.6428090532620748,
      "num_tokens": 1498265625.0,
      "step": 8940
    },
    {
      "entropy": 1.6680020491282146,
      "epoch": 0.9822306445854275,
      "grad_norm": 0.5956284403800964,
      "learning_rate": 1.1698190525456403e-05,
      "loss": 1.3458,
      "mean_token_accuracy": 0.671937977274259,
      "num_tokens": 1498434182.0,
      "step": 8941
    },
    {
      "entropy": 1.7206951081752777,
      "epoch": 0.9823405014968004,
      "grad_norm": 0.715988278388977,
      "learning_rate": 1.1696594210779242e-05,
      "loss": 1.2887,
      "mean_token_accuracy": 0.6786340028047562,
      "num_tokens": 1498582319.0,
      "step": 8942
    },
    {
      "entropy": 1.7263545493284862,
      "epoch": 0.9824503584081734,
      "grad_norm": 0.6619638800621033,
      "learning_rate": 1.169499787405519e-05,
      "loss": 1.2756,
      "mean_token_accuracy": 0.6720621436834335,
      "num_tokens": 1498690732.0,
      "step": 8943
    },
    {
      "entropy": 1.644078363974889,
      "epoch": 0.9825602153195463,
      "grad_norm": 0.6541385650634766,
      "learning_rate": 1.1693401515334767e-05,
      "loss": 1.4228,
      "mean_token_accuracy": 0.6626478185256323,
      "num_tokens": 1498865749.0,
      "step": 8944
    },
    {
      "entropy": 1.7186622321605682,
      "epoch": 0.9826700722309192,
      "grad_norm": 0.7101624608039856,
      "learning_rate": 1.1691805134668497e-05,
      "loss": 1.563,
      "mean_token_accuracy": 0.6366095294555029,
      "num_tokens": 1499039558.0,
      "step": 8945
    },
    {
      "entropy": 1.679495245218277,
      "epoch": 0.9827799291422922,
      "grad_norm": 0.6966460943222046,
      "learning_rate": 1.169020873210691e-05,
      "loss": 1.4945,
      "mean_token_accuracy": 0.6450996845960617,
      "num_tokens": 1499197333.0,
      "step": 8946
    },
    {
      "entropy": 1.722711722056071,
      "epoch": 0.9828897860536651,
      "grad_norm": 0.7616344094276428,
      "learning_rate": 1.1688612307700522e-05,
      "loss": 1.419,
      "mean_token_accuracy": 0.649802620212237,
      "num_tokens": 1499406096.0,
      "step": 8947
    },
    {
      "entropy": 1.641068955262502,
      "epoch": 0.9829996429650381,
      "grad_norm": 0.7064522504806519,
      "learning_rate": 1.1687015861499866e-05,
      "loss": 1.3548,
      "mean_token_accuracy": 0.6700154940287272,
      "num_tokens": 1499582395.0,
      "step": 8948
    },
    {
      "entropy": 1.709856649239858,
      "epoch": 0.9831094998764109,
      "grad_norm": 0.6546580195426941,
      "learning_rate": 1.1685419393555474e-05,
      "loss": 1.4311,
      "mean_token_accuracy": 0.6408520142237345,
      "num_tokens": 1499777610.0,
      "step": 8949
    },
    {
      "entropy": 1.6791809399922688,
      "epoch": 0.9832193567877839,
      "grad_norm": 0.7274378538131714,
      "learning_rate": 1.168382290391786e-05,
      "loss": 1.357,
      "mean_token_accuracy": 0.668040469288826,
      "num_tokens": 1499945571.0,
      "step": 8950
    },
    {
      "entropy": 1.7598425050576527,
      "epoch": 0.9833292136991568,
      "grad_norm": 1.086031198501587,
      "learning_rate": 1.1682226392637561e-05,
      "loss": 1.4119,
      "mean_token_accuracy": 0.6470048973957697,
      "num_tokens": 1500087592.0,
      "step": 8951
    },
    {
      "entropy": 1.682246168454488,
      "epoch": 0.9834390706105298,
      "grad_norm": 0.6415425539016724,
      "learning_rate": 1.1680629859765107e-05,
      "loss": 1.4473,
      "mean_token_accuracy": 0.6519815276066462,
      "num_tokens": 1500248684.0,
      "step": 8952
    },
    {
      "entropy": 1.646356741587321,
      "epoch": 0.9835489275219027,
      "grad_norm": 0.6637715697288513,
      "learning_rate": 1.167903330535102e-05,
      "loss": 1.4991,
      "mean_token_accuracy": 0.6322367091973623,
      "num_tokens": 1500476242.0,
      "step": 8953
    },
    {
      "entropy": 1.6522825956344604,
      "epoch": 0.9836587844332757,
      "grad_norm": 0.6415530443191528,
      "learning_rate": 1.1677436729445837e-05,
      "loss": 1.4045,
      "mean_token_accuracy": 0.6576189547777176,
      "num_tokens": 1500640691.0,
      "step": 8954
    },
    {
      "entropy": 1.7172890106836955,
      "epoch": 0.9837686413446486,
      "grad_norm": 0.6979526877403259,
      "learning_rate": 1.167584013210009e-05,
      "loss": 1.4555,
      "mean_token_accuracy": 0.6452741970618566,
      "num_tokens": 1500825536.0,
      "step": 8955
    },
    {
      "entropy": 1.726652721563975,
      "epoch": 0.9838784982560216,
      "grad_norm": 0.7327434420585632,
      "learning_rate": 1.1674243513364303e-05,
      "loss": 1.3525,
      "mean_token_accuracy": 0.6641982247432073,
      "num_tokens": 1500971763.0,
      "step": 8956
    },
    {
      "entropy": 1.6420506338278453,
      "epoch": 0.9839883551673945,
      "grad_norm": 0.6714190244674683,
      "learning_rate": 1.1672646873289014e-05,
      "loss": 1.4045,
      "mean_token_accuracy": 0.6655755738417307,
      "num_tokens": 1501155131.0,
      "step": 8957
    },
    {
      "entropy": 1.676787108182907,
      "epoch": 0.9840982120787674,
      "grad_norm": 0.6548340916633606,
      "learning_rate": 1.1671050211924752e-05,
      "loss": 1.3451,
      "mean_token_accuracy": 0.6712605257829031,
      "num_tokens": 1501282420.0,
      "step": 8958
    },
    {
      "entropy": 1.6804224650065105,
      "epoch": 0.9842080689901404,
      "grad_norm": 0.698941171169281,
      "learning_rate": 1.1669453529322056e-05,
      "loss": 1.2366,
      "mean_token_accuracy": 0.6790623267491659,
      "num_tokens": 1501402213.0,
      "step": 8959
    },
    {
      "entropy": 1.6702880064646404,
      "epoch": 0.9843179259015132,
      "grad_norm": 0.7242985963821411,
      "learning_rate": 1.1667856825531458e-05,
      "loss": 1.4095,
      "mean_token_accuracy": 0.6546028355757395,
      "num_tokens": 1501565497.0,
      "step": 8960
    },
    {
      "entropy": 1.736267864704132,
      "epoch": 0.9844277828128862,
      "grad_norm": 0.7420823574066162,
      "learning_rate": 1.1666260100603493e-05,
      "loss": 1.3009,
      "mean_token_accuracy": 0.6798698008060455,
      "num_tokens": 1501742697.0,
      "step": 8961
    },
    {
      "entropy": 1.7749883234500885,
      "epoch": 0.9845376397242591,
      "grad_norm": 0.8388869166374207,
      "learning_rate": 1.1664663354588694e-05,
      "loss": 1.6187,
      "mean_token_accuracy": 0.6209886992971102,
      "num_tokens": 1501930271.0,
      "step": 8962
    },
    {
      "entropy": 1.672831416130066,
      "epoch": 0.9846474966356321,
      "grad_norm": 0.6645883321762085,
      "learning_rate": 1.16630665875376e-05,
      "loss": 1.4393,
      "mean_token_accuracy": 0.6532560338576635,
      "num_tokens": 1502163533.0,
      "step": 8963
    },
    {
      "entropy": 1.7371017535527546,
      "epoch": 0.984757353547005,
      "grad_norm": 0.871916651725769,
      "learning_rate": 1.1661469799500747e-05,
      "loss": 1.4171,
      "mean_token_accuracy": 0.6553890208403269,
      "num_tokens": 1502320064.0,
      "step": 8964
    },
    {
      "entropy": 1.680338740348816,
      "epoch": 0.984867210458378,
      "grad_norm": 0.6550365686416626,
      "learning_rate": 1.1659872990528674e-05,
      "loss": 1.3864,
      "mean_token_accuracy": 0.6682237784067789,
      "num_tokens": 1502525140.0,
      "step": 8965
    },
    {
      "entropy": 1.7634477416674297,
      "epoch": 0.9849770673697509,
      "grad_norm": 0.6921877861022949,
      "learning_rate": 1.1658276160671915e-05,
      "loss": 1.4945,
      "mean_token_accuracy": 0.6510110149780909,
      "num_tokens": 1502673658.0,
      "step": 8966
    },
    {
      "entropy": 1.7780840198198955,
      "epoch": 0.9850869242811239,
      "grad_norm": 0.632499635219574,
      "learning_rate": 1.1656679309981017e-05,
      "loss": 1.5241,
      "mean_token_accuracy": 0.6321147382259369,
      "num_tokens": 1502864453.0,
      "step": 8967
    },
    {
      "entropy": 1.762084702650706,
      "epoch": 0.9851967811924968,
      "grad_norm": 0.6069890260696411,
      "learning_rate": 1.1655082438506511e-05,
      "loss": 1.4161,
      "mean_token_accuracy": 0.6416159570217133,
      "num_tokens": 1503015146.0,
      "step": 8968
    },
    {
      "entropy": 1.6979095737139385,
      "epoch": 0.9853066381038698,
      "grad_norm": 0.6491718888282776,
      "learning_rate": 1.1653485546298941e-05,
      "loss": 1.381,
      "mean_token_accuracy": 0.6543610692024231,
      "num_tokens": 1503180409.0,
      "step": 8969
    },
    {
      "entropy": 1.681455820798874,
      "epoch": 0.9854164950152426,
      "grad_norm": 0.8329312801361084,
      "learning_rate": 1.1651888633408853e-05,
      "loss": 1.301,
      "mean_token_accuracy": 0.6834056129058202,
      "num_tokens": 1503343958.0,
      "step": 8970
    },
    {
      "entropy": 1.7064136465390523,
      "epoch": 0.9855263519266155,
      "grad_norm": 0.7739664316177368,
      "learning_rate": 1.1650291699886778e-05,
      "loss": 1.4141,
      "mean_token_accuracy": 0.6504683097203573,
      "num_tokens": 1503500968.0,
      "step": 8971
    },
    {
      "entropy": 1.6865461766719818,
      "epoch": 0.9856362088379885,
      "grad_norm": 0.7742812633514404,
      "learning_rate": 1.1648694745783265e-05,
      "loss": 1.3123,
      "mean_token_accuracy": 0.6681303232908249,
      "num_tokens": 1503641625.0,
      "step": 8972
    },
    {
      "entropy": 1.708566923936208,
      "epoch": 0.9857460657493614,
      "grad_norm": 0.7213424444198608,
      "learning_rate": 1.1647097771148857e-05,
      "loss": 1.4823,
      "mean_token_accuracy": 0.6548313399155935,
      "num_tokens": 1503804043.0,
      "step": 8973
    },
    {
      "entropy": 1.7305469711621602,
      "epoch": 0.9858559226607344,
      "grad_norm": 0.7062889933586121,
      "learning_rate": 1.1645500776034096e-05,
      "loss": 1.3272,
      "mean_token_accuracy": 0.6624001910289129,
      "num_tokens": 1503908419.0,
      "step": 8974
    },
    {
      "entropy": 1.6859267055988312,
      "epoch": 0.9859657795721073,
      "grad_norm": 0.7024558186531067,
      "learning_rate": 1.1643903760489523e-05,
      "loss": 1.4326,
      "mean_token_accuracy": 0.654796913266182,
      "num_tokens": 1504084648.0,
      "step": 8975
    },
    {
      "entropy": 1.7165729403495789,
      "epoch": 0.9860756364834803,
      "grad_norm": 0.7313957214355469,
      "learning_rate": 1.1642306724565688e-05,
      "loss": 1.4266,
      "mean_token_accuracy": 0.6520107636849085,
      "num_tokens": 1504244529.0,
      "step": 8976
    },
    {
      "entropy": 1.6938693324724834,
      "epoch": 0.9861854933948532,
      "grad_norm": 0.7270261645317078,
      "learning_rate": 1.1640709668313137e-05,
      "loss": 1.2063,
      "mean_token_accuracy": 0.6774415969848633,
      "num_tokens": 1504440015.0,
      "step": 8977
    },
    {
      "entropy": 1.6900843977928162,
      "epoch": 0.9862953503062262,
      "grad_norm": 0.797430157661438,
      "learning_rate": 1.1639112591782413e-05,
      "loss": 1.3578,
      "mean_token_accuracy": 0.6580925136804581,
      "num_tokens": 1504572367.0,
      "step": 8978
    },
    {
      "entropy": 1.6583419442176819,
      "epoch": 0.9864052072175991,
      "grad_norm": 0.711826741695404,
      "learning_rate": 1.1637515495024062e-05,
      "loss": 1.4362,
      "mean_token_accuracy": 0.6491169184446335,
      "num_tokens": 1504721064.0,
      "step": 8979
    },
    {
      "entropy": 1.6519073247909546,
      "epoch": 0.986515064128972,
      "grad_norm": 0.6117995381355286,
      "learning_rate": 1.163591837808863e-05,
      "loss": 1.2617,
      "mean_token_accuracy": 0.6822675367196401,
      "num_tokens": 1504875817.0,
      "step": 8980
    },
    {
      "entropy": 1.742538849512736,
      "epoch": 0.9866249210403449,
      "grad_norm": 0.7913803458213806,
      "learning_rate": 1.1634321241026671e-05,
      "loss": 1.5257,
      "mean_token_accuracy": 0.6468542764584223,
      "num_tokens": 1505024315.0,
      "step": 8981
    },
    {
      "entropy": 1.7452322244644165,
      "epoch": 0.9867347779517179,
      "grad_norm": 0.8122254014015198,
      "learning_rate": 1.163272408388873e-05,
      "loss": 1.3508,
      "mean_token_accuracy": 0.6734697222709656,
      "num_tokens": 1505160858.0,
      "step": 8982
    },
    {
      "entropy": 1.6993557115395863,
      "epoch": 0.9868446348630908,
      "grad_norm": 0.6506452560424805,
      "learning_rate": 1.163112690672536e-05,
      "loss": 1.4257,
      "mean_token_accuracy": 0.6508930325508118,
      "num_tokens": 1505359516.0,
      "step": 8983
    },
    {
      "entropy": 1.7169030010700226,
      "epoch": 0.9869544917744638,
      "grad_norm": 0.8766597509384155,
      "learning_rate": 1.1629529709587103e-05,
      "loss": 1.3419,
      "mean_token_accuracy": 0.6719989031553268,
      "num_tokens": 1505479668.0,
      "step": 8984
    },
    {
      "entropy": 1.7049663464228313,
      "epoch": 0.9870643486858367,
      "grad_norm": 0.751346230506897,
      "learning_rate": 1.1627932492524519e-05,
      "loss": 1.4392,
      "mean_token_accuracy": 0.6511711478233337,
      "num_tokens": 1505669915.0,
      "step": 8985
    },
    {
      "entropy": 1.7046051720778148,
      "epoch": 0.9871742055972096,
      "grad_norm": 0.6194396615028381,
      "learning_rate": 1.1626335255588153e-05,
      "loss": 1.486,
      "mean_token_accuracy": 0.6346323589483897,
      "num_tokens": 1505848159.0,
      "step": 8986
    },
    {
      "entropy": 1.70768607656161,
      "epoch": 0.9872840625085826,
      "grad_norm": 0.5602802038192749,
      "learning_rate": 1.1624737998828556e-05,
      "loss": 1.414,
      "mean_token_accuracy": 0.6471713682015737,
      "num_tokens": 1506088376.0,
      "step": 8987
    },
    {
      "entropy": 1.62164506316185,
      "epoch": 0.9873939194199555,
      "grad_norm": 0.7139067649841309,
      "learning_rate": 1.1623140722296285e-05,
      "loss": 1.5303,
      "mean_token_accuracy": 0.6505985458691915,
      "num_tokens": 1506254740.0,
      "step": 8988
    },
    {
      "entropy": 1.7491505940755208,
      "epoch": 0.9875037763313285,
      "grad_norm": 0.7321544885635376,
      "learning_rate": 1.162154342604189e-05,
      "loss": 1.3151,
      "mean_token_accuracy": 0.6853879491488138,
      "num_tokens": 1506417451.0,
      "step": 8989
    },
    {
      "entropy": 1.6918767988681793,
      "epoch": 0.9876136332427013,
      "grad_norm": 0.6921842098236084,
      "learning_rate": 1.1619946110115928e-05,
      "loss": 1.3741,
      "mean_token_accuracy": 0.6635448783636093,
      "num_tokens": 1506573897.0,
      "step": 8990
    },
    {
      "entropy": 1.6910037795702617,
      "epoch": 0.9877234901540743,
      "grad_norm": 0.6403983235359192,
      "learning_rate": 1.1618348774568946e-05,
      "loss": 1.4347,
      "mean_token_accuracy": 0.6572843343019485,
      "num_tokens": 1506763992.0,
      "step": 8991
    },
    {
      "entropy": 1.724970320860545,
      "epoch": 0.9878333470654472,
      "grad_norm": 0.70880126953125,
      "learning_rate": 1.1616751419451506e-05,
      "loss": 1.3969,
      "mean_token_accuracy": 0.6549189041058222,
      "num_tokens": 1506902471.0,
      "step": 8992
    },
    {
      "entropy": 1.7925910154978435,
      "epoch": 0.9879432039768202,
      "grad_norm": 0.6777533292770386,
      "learning_rate": 1.1615154044814163e-05,
      "loss": 1.3396,
      "mean_token_accuracy": 0.6721122364203135,
      "num_tokens": 1507045033.0,
      "step": 8993
    },
    {
      "entropy": 1.5604525705178578,
      "epoch": 0.9880530608881931,
      "grad_norm": 0.6724399328231812,
      "learning_rate": 1.1613556650707474e-05,
      "loss": 1.2766,
      "mean_token_accuracy": 0.6662530352671941,
      "num_tokens": 1507227734.0,
      "step": 8994
    },
    {
      "entropy": 1.7361294726530712,
      "epoch": 0.9881629177995661,
      "grad_norm": 0.7844634652137756,
      "learning_rate": 1.1611959237181991e-05,
      "loss": 1.2964,
      "mean_token_accuracy": 0.6645766844352087,
      "num_tokens": 1507366369.0,
      "step": 8995
    },
    {
      "entropy": 1.7280752658843994,
      "epoch": 0.988272774710939,
      "grad_norm": 0.721837043762207,
      "learning_rate": 1.1610361804288273e-05,
      "loss": 1.3637,
      "mean_token_accuracy": 0.6476641943057379,
      "num_tokens": 1507549321.0,
      "step": 8996
    },
    {
      "entropy": 1.701300948858261,
      "epoch": 0.988382631622312,
      "grad_norm": 0.6382768750190735,
      "learning_rate": 1.1608764352076878e-05,
      "loss": 1.4257,
      "mean_token_accuracy": 0.6443998465935389,
      "num_tokens": 1507731929.0,
      "step": 8997
    },
    {
      "entropy": 1.703882485628128,
      "epoch": 0.9884924885336849,
      "grad_norm": 0.7071985006332397,
      "learning_rate": 1.1607166880598366e-05,
      "loss": 1.4985,
      "mean_token_accuracy": 0.6458214769760767,
      "num_tokens": 1507918984.0,
      "step": 8998
    },
    {
      "entropy": 1.7094257573286693,
      "epoch": 0.9886023454450578,
      "grad_norm": 0.8170492053031921,
      "learning_rate": 1.1605569389903297e-05,
      "loss": 1.3406,
      "mean_token_accuracy": 0.6753592838843664,
      "num_tokens": 1508052713.0,
      "step": 8999
    },
    {
      "entropy": 1.7019550204277039,
      "epoch": 0.9887122023564308,
      "grad_norm": 0.7124339938163757,
      "learning_rate": 1.1603971880042228e-05,
      "loss": 1.3914,
      "mean_token_accuracy": 0.654958705107371,
      "num_tokens": 1508206066.0,
      "step": 9000
    },
    {
      "entropy": 1.7603452901045482,
      "epoch": 0.9888220592678036,
      "grad_norm": 0.8602905869483948,
      "learning_rate": 1.1602374351065725e-05,
      "loss": 1.5332,
      "mean_token_accuracy": 0.6360108802715937,
      "num_tokens": 1508375603.0,
      "step": 9001
    },
    {
      "entropy": 1.7130256096522014,
      "epoch": 0.9889319161791766,
      "grad_norm": 0.7287706136703491,
      "learning_rate": 1.1600776803024344e-05,
      "loss": 1.4632,
      "mean_token_accuracy": 0.6579320232073466,
      "num_tokens": 1508573102.0,
      "step": 9002
    },
    {
      "entropy": 1.689418117205302,
      "epoch": 0.9890417730905495,
      "grad_norm": 0.6394194960594177,
      "learning_rate": 1.1599179235968646e-05,
      "loss": 1.4721,
      "mean_token_accuracy": 0.6430060019095739,
      "num_tokens": 1508748381.0,
      "step": 9003
    },
    {
      "entropy": 1.635381430387497,
      "epoch": 0.9891516300019225,
      "grad_norm": 0.741367757320404,
      "learning_rate": 1.1597581649949194e-05,
      "loss": 1.3015,
      "mean_token_accuracy": 0.6785789032777151,
      "num_tokens": 1508941115.0,
      "step": 9004
    },
    {
      "entropy": 1.6817569931348164,
      "epoch": 0.9892614869132954,
      "grad_norm": 0.6391214728355408,
      "learning_rate": 1.1595984045016557e-05,
      "loss": 1.4592,
      "mean_token_accuracy": 0.6553023606538773,
      "num_tokens": 1509128859.0,
      "step": 9005
    },
    {
      "entropy": 1.65160737435023,
      "epoch": 0.9893713438246684,
      "grad_norm": 0.723601222038269,
      "learning_rate": 1.1594386421221289e-05,
      "loss": 1.3859,
      "mean_token_accuracy": 0.6749422947565714,
      "num_tokens": 1509267167.0,
      "step": 9006
    },
    {
      "entropy": 1.6834927201271057,
      "epoch": 0.9894812007360413,
      "grad_norm": 0.6616725325584412,
      "learning_rate": 1.1592788778613962e-05,
      "loss": 1.4887,
      "mean_token_accuracy": 0.624958798289299,
      "num_tokens": 1509557371.0,
      "step": 9007
    },
    {
      "entropy": 1.7665310402711232,
      "epoch": 0.9895910576474143,
      "grad_norm": 0.7587254047393799,
      "learning_rate": 1.1591191117245134e-05,
      "loss": 1.4524,
      "mean_token_accuracy": 0.6576088120539983,
      "num_tokens": 1509705073.0,
      "step": 9008
    },
    {
      "entropy": 1.6970743139584858,
      "epoch": 0.9897009145587872,
      "grad_norm": 0.6766437888145447,
      "learning_rate": 1.1589593437165377e-05,
      "loss": 1.413,
      "mean_token_accuracy": 0.6557514518499374,
      "num_tokens": 1509877904.0,
      "step": 9009
    },
    {
      "entropy": 1.6982737878958385,
      "epoch": 0.9898107714701602,
      "grad_norm": 0.7253543138504028,
      "learning_rate": 1.1587995738425249e-05,
      "loss": 1.3851,
      "mean_token_accuracy": 0.6553531636794409,
      "num_tokens": 1510029228.0,
      "step": 9010
    },
    {
      "entropy": 1.6637147863705952,
      "epoch": 0.989920628381533,
      "grad_norm": 0.6019961833953857,
      "learning_rate": 1.1586398021075324e-05,
      "loss": 1.4421,
      "mean_token_accuracy": 0.6378505776325861,
      "num_tokens": 1510279098.0,
      "step": 9011
    },
    {
      "entropy": 1.6774966319402058,
      "epoch": 0.9900304852929059,
      "grad_norm": 0.655983567237854,
      "learning_rate": 1.1584800285166164e-05,
      "loss": 1.3409,
      "mean_token_accuracy": 0.650844136873881,
      "num_tokens": 1510440886.0,
      "step": 9012
    },
    {
      "entropy": 1.6945745448271434,
      "epoch": 0.9901403422042789,
      "grad_norm": 0.62674480676651,
      "learning_rate": 1.1583202530748341e-05,
      "loss": 1.3902,
      "mean_token_accuracy": 0.6639150381088257,
      "num_tokens": 1510656532.0,
      "step": 9013
    },
    {
      "entropy": 1.7257001300652821,
      "epoch": 0.9902501991156518,
      "grad_norm": 0.7610213160514832,
      "learning_rate": 1.1581604757872418e-05,
      "loss": 1.4418,
      "mean_token_accuracy": 0.642704447110494,
      "num_tokens": 1510830217.0,
      "step": 9014
    },
    {
      "entropy": 1.6689273913701375,
      "epoch": 0.9903600560270248,
      "grad_norm": 0.7523655891418457,
      "learning_rate": 1.1580006966588968e-05,
      "loss": 1.2532,
      "mean_token_accuracy": 0.6769355684518814,
      "num_tokens": 1510954384.0,
      "step": 9015
    },
    {
      "entropy": 1.720543771982193,
      "epoch": 0.9904699129383977,
      "grad_norm": 0.7777354121208191,
      "learning_rate": 1.1578409156948558e-05,
      "loss": 1.5624,
      "mean_token_accuracy": 0.6435587803522745,
      "num_tokens": 1511108028.0,
      "step": 9016
    },
    {
      "entropy": 1.6359238624572754,
      "epoch": 0.9905797698497707,
      "grad_norm": 0.8014277219772339,
      "learning_rate": 1.157681132900176e-05,
      "loss": 1.2437,
      "mean_token_accuracy": 0.6720960934956869,
      "num_tokens": 1511244389.0,
      "step": 9017
    },
    {
      "entropy": 1.6672624746958415,
      "epoch": 0.9906896267611436,
      "grad_norm": 0.7083525061607361,
      "learning_rate": 1.1575213482799144e-05,
      "loss": 1.4483,
      "mean_token_accuracy": 0.6651191810766856,
      "num_tokens": 1511417628.0,
      "step": 9018
    },
    {
      "entropy": 1.6869849264621735,
      "epoch": 0.9907994836725166,
      "grad_norm": 0.6426869630813599,
      "learning_rate": 1.1573615618391279e-05,
      "loss": 1.498,
      "mean_token_accuracy": 0.6442697743574778,
      "num_tokens": 1511656313.0,
      "step": 9019
    },
    {
      "entropy": 1.703253189722697,
      "epoch": 0.9909093405838895,
      "grad_norm": 0.6750736832618713,
      "learning_rate": 1.1572017735828738e-05,
      "loss": 1.3201,
      "mean_token_accuracy": 0.6629547973473867,
      "num_tokens": 1511768183.0,
      "step": 9020
    },
    {
      "entropy": 1.7203664779663086,
      "epoch": 0.9910191974952625,
      "grad_norm": 0.6736758947372437,
      "learning_rate": 1.1570419835162093e-05,
      "loss": 1.38,
      "mean_token_accuracy": 0.6648065795501074,
      "num_tokens": 1511913663.0,
      "step": 9021
    },
    {
      "entropy": 1.7273483872413635,
      "epoch": 0.9911290544066353,
      "grad_norm": 0.6232172846794128,
      "learning_rate": 1.1568821916441916e-05,
      "loss": 1.4793,
      "mean_token_accuracy": 0.6454748759667078,
      "num_tokens": 1512131107.0,
      "step": 9022
    },
    {
      "entropy": 1.7320756713549297,
      "epoch": 0.9912389113180083,
      "grad_norm": 0.927398145198822,
      "learning_rate": 1.1567223979718786e-05,
      "loss": 1.3629,
      "mean_token_accuracy": 0.6540378282467524,
      "num_tokens": 1512294920.0,
      "step": 9023
    },
    {
      "entropy": 1.7156847814718883,
      "epoch": 0.9913487682293812,
      "grad_norm": 0.6778035759925842,
      "learning_rate": 1.156562602504327e-05,
      "loss": 1.6711,
      "mean_token_accuracy": 0.6444185674190521,
      "num_tokens": 1512497502.0,
      "step": 9024
    },
    {
      "entropy": 1.7153818408648174,
      "epoch": 0.9914586251407541,
      "grad_norm": 0.6155846118927002,
      "learning_rate": 1.1564028052465945e-05,
      "loss": 1.3561,
      "mean_token_accuracy": 0.6623079578081766,
      "num_tokens": 1512629995.0,
      "step": 9025
    },
    {
      "entropy": 1.6826336582501729,
      "epoch": 0.9915684820521271,
      "grad_norm": 0.6194709539413452,
      "learning_rate": 1.156243006203739e-05,
      "loss": 1.532,
      "mean_token_accuracy": 0.6453428119421005,
      "num_tokens": 1512822020.0,
      "step": 9026
    },
    {
      "entropy": 1.6776429613431294,
      "epoch": 0.9916783389635,
      "grad_norm": 0.6859866976737976,
      "learning_rate": 1.1560832053808172e-05,
      "loss": 1.2609,
      "mean_token_accuracy": 0.6728976418574651,
      "num_tokens": 1512946589.0,
      "step": 9027
    },
    {
      "entropy": 1.6960046589374542,
      "epoch": 0.991788195874873,
      "grad_norm": 0.6310602426528931,
      "learning_rate": 1.1559234027828872e-05,
      "loss": 1.4226,
      "mean_token_accuracy": 0.6640596588452657,
      "num_tokens": 1513133048.0,
      "step": 9028
    },
    {
      "entropy": 1.7602422833442688,
      "epoch": 0.9918980527862459,
      "grad_norm": 0.7083531618118286,
      "learning_rate": 1.155763598415007e-05,
      "loss": 1.5015,
      "mean_token_accuracy": 0.6424345870812734,
      "num_tokens": 1513332237.0,
      "step": 9029
    },
    {
      "entropy": 1.6640680531660716,
      "epoch": 0.9920079096976189,
      "grad_norm": 0.5896248817443848,
      "learning_rate": 1.155603792282234e-05,
      "loss": 1.4749,
      "mean_token_accuracy": 0.6422792822122574,
      "num_tokens": 1513545562.0,
      "step": 9030
    },
    {
      "entropy": 1.732280304034551,
      "epoch": 0.9921177666089918,
      "grad_norm": 0.6422677040100098,
      "learning_rate": 1.1554439843896261e-05,
      "loss": 1.5216,
      "mean_token_accuracy": 0.6359787285327911,
      "num_tokens": 1513726745.0,
      "step": 9031
    },
    {
      "entropy": 1.6377032995224,
      "epoch": 0.9922276235203648,
      "grad_norm": 0.6851502060890198,
      "learning_rate": 1.1552841747422409e-05,
      "loss": 1.2825,
      "mean_token_accuracy": 0.6651904483636221,
      "num_tokens": 1513892498.0,
      "step": 9032
    },
    {
      "entropy": 1.7014533579349518,
      "epoch": 0.9923374804317376,
      "grad_norm": 0.7634040117263794,
      "learning_rate": 1.1551243633451365e-05,
      "loss": 1.3062,
      "mean_token_accuracy": 0.6721664518117905,
      "num_tokens": 1514062306.0,
      "step": 9033
    },
    {
      "entropy": 1.7060857713222504,
      "epoch": 0.9924473373431106,
      "grad_norm": 0.6701831221580505,
      "learning_rate": 1.1549645502033709e-05,
      "loss": 1.4121,
      "mean_token_accuracy": 0.6439545353253683,
      "num_tokens": 1514266388.0,
      "step": 9034
    },
    {
      "entropy": 1.6986914575099945,
      "epoch": 0.9925571942544835,
      "grad_norm": 0.678210437297821,
      "learning_rate": 1.154804735322002e-05,
      "loss": 1.3727,
      "mean_token_accuracy": 0.6620455632607142,
      "num_tokens": 1514432185.0,
      "step": 9035
    },
    {
      "entropy": 1.5856430729230244,
      "epoch": 0.9926670511658565,
      "grad_norm": 0.735240638256073,
      "learning_rate": 1.154644918706088e-05,
      "loss": 1.3048,
      "mean_token_accuracy": 0.6784227043390274,
      "num_tokens": 1514616077.0,
      "step": 9036
    },
    {
      "entropy": 1.7611307700475056,
      "epoch": 0.9927769080772294,
      "grad_norm": 0.7041000127792358,
      "learning_rate": 1.1544851003606867e-05,
      "loss": 1.2482,
      "mean_token_accuracy": 0.6712858428557714,
      "num_tokens": 1514722578.0,
      "step": 9037
    },
    {
      "entropy": 1.7410919765631359,
      "epoch": 0.9928867649886024,
      "grad_norm": 0.9079409837722778,
      "learning_rate": 1.1543252802908569e-05,
      "loss": 1.4019,
      "mean_token_accuracy": 0.6431263387203217,
      "num_tokens": 1514926211.0,
      "step": 9038
    },
    {
      "entropy": 1.7162447571754456,
      "epoch": 0.9929966218999753,
      "grad_norm": 0.8317917585372925,
      "learning_rate": 1.1541654585016564e-05,
      "loss": 1.5269,
      "mean_token_accuracy": 0.6505968123674393,
      "num_tokens": 1515076490.0,
      "step": 9039
    },
    {
      "entropy": 1.7665583193302155,
      "epoch": 0.9931064788113482,
      "grad_norm": 0.675299882888794,
      "learning_rate": 1.154005634998143e-05,
      "loss": 1.4275,
      "mean_token_accuracy": 0.6545489778121313,
      "num_tokens": 1515243623.0,
      "step": 9040
    },
    {
      "entropy": 1.6715355316797893,
      "epoch": 0.9932163357227212,
      "grad_norm": 0.6317136883735657,
      "learning_rate": 1.1538458097853764e-05,
      "loss": 1.5146,
      "mean_token_accuracy": 0.6456638177235922,
      "num_tokens": 1515452950.0,
      "step": 9041
    },
    {
      "entropy": 1.7157903412977855,
      "epoch": 0.993326192634094,
      "grad_norm": 0.7072700262069702,
      "learning_rate": 1.1536859828684134e-05,
      "loss": 1.318,
      "mean_token_accuracy": 0.6620603998502096,
      "num_tokens": 1515563514.0,
      "step": 9042
    },
    {
      "entropy": 1.7313476900259654,
      "epoch": 0.993436049545467,
      "grad_norm": 0.836708664894104,
      "learning_rate": 1.1535261542523137e-05,
      "loss": 1.2703,
      "mean_token_accuracy": 0.6730028490225474,
      "num_tokens": 1515686917.0,
      "step": 9043
    },
    {
      "entropy": 1.7311189671357472,
      "epoch": 0.9935459064568399,
      "grad_norm": 0.6318951845169067,
      "learning_rate": 1.1533663239421354e-05,
      "loss": 1.4732,
      "mean_token_accuracy": 0.6417555063962936,
      "num_tokens": 1515860537.0,
      "step": 9044
    },
    {
      "entropy": 1.7036487360795338,
      "epoch": 0.9936557633682129,
      "grad_norm": 0.7849493026733398,
      "learning_rate": 1.1532064919429369e-05,
      "loss": 1.4322,
      "mean_token_accuracy": 0.6610707342624664,
      "num_tokens": 1516011139.0,
      "step": 9045
    },
    {
      "entropy": 1.7278256515661876,
      "epoch": 0.9937656202795858,
      "grad_norm": 0.6660558581352234,
      "learning_rate": 1.1530466582597766e-05,
      "loss": 1.3744,
      "mean_token_accuracy": 0.6509429017702738,
      "num_tokens": 1516205732.0,
      "step": 9046
    },
    {
      "entropy": 1.723042756319046,
      "epoch": 0.9938754771909588,
      "grad_norm": 0.7152264714241028,
      "learning_rate": 1.152886822897714e-05,
      "loss": 1.5193,
      "mean_token_accuracy": 0.6414504299561182,
      "num_tokens": 1516391979.0,
      "step": 9047
    },
    {
      "entropy": 1.6957969069480896,
      "epoch": 0.9939853341023317,
      "grad_norm": 0.7662060856819153,
      "learning_rate": 1.152726985861807e-05,
      "loss": 1.3979,
      "mean_token_accuracy": 0.6510555545488993,
      "num_tokens": 1516550510.0,
      "step": 9048
    },
    {
      "entropy": 1.6899131039778392,
      "epoch": 0.9940951910137047,
      "grad_norm": 0.7555585503578186,
      "learning_rate": 1.1525671471571148e-05,
      "loss": 1.2768,
      "mean_token_accuracy": 0.6714038848876953,
      "num_tokens": 1516701671.0,
      "step": 9049
    },
    {
      "entropy": 1.7336824933687847,
      "epoch": 0.9942050479250776,
      "grad_norm": 0.7775252461433411,
      "learning_rate": 1.1524073067886958e-05,
      "loss": 1.3336,
      "mean_token_accuracy": 0.6652177522579829,
      "num_tokens": 1516815568.0,
      "step": 9050
    },
    {
      "entropy": 1.672436664501826,
      "epoch": 0.9943149048364506,
      "grad_norm": 0.6073688268661499,
      "learning_rate": 1.1522474647616095e-05,
      "loss": 1.3894,
      "mean_token_accuracy": 0.658691331744194,
      "num_tokens": 1516980970.0,
      "step": 9051
    },
    {
      "entropy": 1.7328505516052246,
      "epoch": 0.9944247617478235,
      "grad_norm": 0.6700348854064941,
      "learning_rate": 1.1520876210809143e-05,
      "loss": 1.4246,
      "mean_token_accuracy": 0.6411223659912745,
      "num_tokens": 1517164909.0,
      "step": 9052
    },
    {
      "entropy": 1.7129102945327759,
      "epoch": 0.9945346186591963,
      "grad_norm": 0.7768635749816895,
      "learning_rate": 1.1519277757516693e-05,
      "loss": 1.3948,
      "mean_token_accuracy": 0.6586629996697108,
      "num_tokens": 1517309049.0,
      "step": 9053
    },
    {
      "entropy": 1.6529461741447449,
      "epoch": 0.9946444755705693,
      "grad_norm": 0.593262255191803,
      "learning_rate": 1.1517679287789335e-05,
      "loss": 1.4001,
      "mean_token_accuracy": 0.6509411931037903,
      "num_tokens": 1517506632.0,
      "step": 9054
    },
    {
      "entropy": 1.6614431242148082,
      "epoch": 0.9947543324819422,
      "grad_norm": 0.6814653277397156,
      "learning_rate": 1.1516080801677662e-05,
      "loss": 1.4424,
      "mean_token_accuracy": 0.6618533333142599,
      "num_tokens": 1517654638.0,
      "step": 9055
    },
    {
      "entropy": 1.6925993263721466,
      "epoch": 0.9948641893933152,
      "grad_norm": 0.6455976963043213,
      "learning_rate": 1.1514482299232266e-05,
      "loss": 1.3165,
      "mean_token_accuracy": 0.6803247978289922,
      "num_tokens": 1517787177.0,
      "step": 9056
    },
    {
      "entropy": 1.693973034620285,
      "epoch": 0.9949740463046881,
      "grad_norm": 0.8472748398780823,
      "learning_rate": 1.1512883780503737e-05,
      "loss": 1.4849,
      "mean_token_accuracy": 0.6628153622150421,
      "num_tokens": 1517914092.0,
      "step": 9057
    },
    {
      "entropy": 1.6954384346803029,
      "epoch": 0.9950839032160611,
      "grad_norm": 0.6717925667762756,
      "learning_rate": 1.1511285245542663e-05,
      "loss": 1.3713,
      "mean_token_accuracy": 0.6591513852278391,
      "num_tokens": 1518076723.0,
      "step": 9058
    },
    {
      "entropy": 1.6373221576213837,
      "epoch": 0.995193760127434,
      "grad_norm": 0.7058557271957397,
      "learning_rate": 1.1509686694399647e-05,
      "loss": 1.2549,
      "mean_token_accuracy": 0.6811738759279251,
      "num_tokens": 1518196658.0,
      "step": 9059
    },
    {
      "entropy": 1.7418764730294545,
      "epoch": 0.995303617038807,
      "grad_norm": 0.642804741859436,
      "learning_rate": 1.1508088127125274e-05,
      "loss": 1.4527,
      "mean_token_accuracy": 0.6466216047604879,
      "num_tokens": 1518384038.0,
      "step": 9060
    },
    {
      "entropy": 1.6919652024904888,
      "epoch": 0.9954134739501799,
      "grad_norm": 2.170675039291382,
      "learning_rate": 1.150648954377014e-05,
      "loss": 1.4643,
      "mean_token_accuracy": 0.6461801479260126,
      "num_tokens": 1518542211.0,
      "step": 9061
    },
    {
      "entropy": 1.7008472084999084,
      "epoch": 0.9955233308615529,
      "grad_norm": 0.6365600228309631,
      "learning_rate": 1.150489094438484e-05,
      "loss": 1.482,
      "mean_token_accuracy": 0.6452033768097559,
      "num_tokens": 1518761319.0,
      "step": 9062
    },
    {
      "entropy": 1.753299355506897,
      "epoch": 0.9956331877729258,
      "grad_norm": 0.6528931260108948,
      "learning_rate": 1.1503292329019972e-05,
      "loss": 1.4625,
      "mean_token_accuracy": 0.6458161721626917,
      "num_tokens": 1518936829.0,
      "step": 9063
    },
    {
      "entropy": 1.6954053243001301,
      "epoch": 0.9957430446842988,
      "grad_norm": 0.788202166557312,
      "learning_rate": 1.1501693697726126e-05,
      "loss": 1.4025,
      "mean_token_accuracy": 0.6617314616839091,
      "num_tokens": 1519101793.0,
      "step": 9064
    },
    {
      "entropy": 1.6784932613372803,
      "epoch": 0.9958529015956716,
      "grad_norm": 0.5653716325759888,
      "learning_rate": 1.1500095050553901e-05,
      "loss": 1.4645,
      "mean_token_accuracy": 0.6363365004460017,
      "num_tokens": 1519305956.0,
      "step": 9065
    },
    {
      "entropy": 1.6899797419706981,
      "epoch": 0.9959627585070445,
      "grad_norm": 0.6082383990287781,
      "learning_rate": 1.1498496387553892e-05,
      "loss": 1.4347,
      "mean_token_accuracy": 0.6532058666149775,
      "num_tokens": 1519531519.0,
      "step": 9066
    },
    {
      "entropy": 1.676472971836726,
      "epoch": 0.9960726154184175,
      "grad_norm": 0.6178333759307861,
      "learning_rate": 1.1496897708776703e-05,
      "loss": 1.3604,
      "mean_token_accuracy": 0.6715668042500814,
      "num_tokens": 1519708888.0,
      "step": 9067
    },
    {
      "entropy": 1.7519252399603527,
      "epoch": 0.9961824723297904,
      "grad_norm": 0.8261198401451111,
      "learning_rate": 1.1495299014272916e-05,
      "loss": 1.6367,
      "mean_token_accuracy": 0.6203742722670237,
      "num_tokens": 1519896103.0,
      "step": 9068
    },
    {
      "entropy": 1.6828113396962483,
      "epoch": 0.9962923292411634,
      "grad_norm": 0.6337330937385559,
      "learning_rate": 1.1493700304093146e-05,
      "loss": 1.4801,
      "mean_token_accuracy": 0.6396347731351852,
      "num_tokens": 1520084614.0,
      "step": 9069
    },
    {
      "entropy": 1.724067787329356,
      "epoch": 0.9964021861525363,
      "grad_norm": 0.5894656181335449,
      "learning_rate": 1.149210157828798e-05,
      "loss": 1.4314,
      "mean_token_accuracy": 0.6514023790756861,
      "num_tokens": 1520279341.0,
      "step": 9070
    },
    {
      "entropy": 1.6811665495236714,
      "epoch": 0.9965120430639093,
      "grad_norm": 0.6790025234222412,
      "learning_rate": 1.1490502836908022e-05,
      "loss": 1.3181,
      "mean_token_accuracy": 0.6632300714651743,
      "num_tokens": 1520407513.0,
      "step": 9071
    },
    {
      "entropy": 1.6569512685139973,
      "epoch": 0.9966218999752822,
      "grad_norm": 0.6046280264854431,
      "learning_rate": 1.1488904080003868e-05,
      "loss": 1.3662,
      "mean_token_accuracy": 0.661707783738772,
      "num_tokens": 1520561581.0,
      "step": 9072
    },
    {
      "entropy": 1.7094461222489674,
      "epoch": 0.9967317568866552,
      "grad_norm": 0.6875105500221252,
      "learning_rate": 1.1487305307626125e-05,
      "loss": 1.267,
      "mean_token_accuracy": 0.667315478126208,
      "num_tokens": 1520702575.0,
      "step": 9073
    },
    {
      "entropy": 1.737904926141103,
      "epoch": 0.996841613798028,
      "grad_norm": 0.7653663158416748,
      "learning_rate": 1.1485706519825384e-05,
      "loss": 1.4828,
      "mean_token_accuracy": 0.6492100208997726,
      "num_tokens": 1520851927.0,
      "step": 9074
    },
    {
      "entropy": 1.6922054886817932,
      "epoch": 0.996951470709401,
      "grad_norm": 0.7423431277275085,
      "learning_rate": 1.1484107716652256e-05,
      "loss": 1.4411,
      "mean_token_accuracy": 0.6581322699785233,
      "num_tokens": 1520996024.0,
      "step": 9075
    },
    {
      "entropy": 1.7260395387808483,
      "epoch": 0.9970613276207739,
      "grad_norm": 0.6210670471191406,
      "learning_rate": 1.148250889815733e-05,
      "loss": 1.5119,
      "mean_token_accuracy": 0.6369271477063497,
      "num_tokens": 1521257653.0,
      "step": 9076
    },
    {
      "entropy": 1.7174350917339325,
      "epoch": 0.9971711845321469,
      "grad_norm": 0.69709712266922,
      "learning_rate": 1.148091006439122e-05,
      "loss": 1.3194,
      "mean_token_accuracy": 0.6692462513844172,
      "num_tokens": 1521373358.0,
      "step": 9077
    },
    {
      "entropy": 1.6322135925292969,
      "epoch": 0.9972810414435198,
      "grad_norm": 0.6395667791366577,
      "learning_rate": 1.1479311215404518e-05,
      "loss": 1.4847,
      "mean_token_accuracy": 0.6553497264782587,
      "num_tokens": 1521538626.0,
      "step": 9078
    },
    {
      "entropy": 1.657319446404775,
      "epoch": 0.9973908983548928,
      "grad_norm": 0.6808715462684631,
      "learning_rate": 1.1477712351247839e-05,
      "loss": 1.3141,
      "mean_token_accuracy": 0.6693860242764155,
      "num_tokens": 1521697083.0,
      "step": 9079
    },
    {
      "entropy": 1.6426800390084584,
      "epoch": 0.9975007552662657,
      "grad_norm": 0.5870410203933716,
      "learning_rate": 1.1476113471971773e-05,
      "loss": 1.3934,
      "mean_token_accuracy": 0.6434798091650009,
      "num_tokens": 1521871698.0,
      "step": 9080
    },
    {
      "entropy": 1.7074416776498158,
      "epoch": 0.9976106121776386,
      "grad_norm": 0.6354272961616516,
      "learning_rate": 1.1474514577626934e-05,
      "loss": 1.437,
      "mean_token_accuracy": 0.6434929817914963,
      "num_tokens": 1522047384.0,
      "step": 9081
    },
    {
      "entropy": 1.749830315510432,
      "epoch": 0.9977204690890116,
      "grad_norm": 0.7293029427528381,
      "learning_rate": 1.147291566826392e-05,
      "loss": 1.3922,
      "mean_token_accuracy": 0.6497508933146795,
      "num_tokens": 1522218336.0,
      "step": 9082
    },
    {
      "entropy": 1.717184990644455,
      "epoch": 0.9978303260003845,
      "grad_norm": 0.6962136626243591,
      "learning_rate": 1.1471316743933339e-05,
      "loss": 1.341,
      "mean_token_accuracy": 0.662678599357605,
      "num_tokens": 1522347386.0,
      "step": 9083
    },
    {
      "entropy": 1.7010120153427124,
      "epoch": 0.9979401829117575,
      "grad_norm": 0.6533600091934204,
      "learning_rate": 1.1469717804685795e-05,
      "loss": 1.142,
      "mean_token_accuracy": 0.6681769291559855,
      "num_tokens": 1522515121.0,
      "step": 9084
    },
    {
      "entropy": 1.7459450960159302,
      "epoch": 0.9980500398231303,
      "grad_norm": 0.655548632144928,
      "learning_rate": 1.1468118850571899e-05,
      "loss": 1.3486,
      "mean_token_accuracy": 0.6624786804119746,
      "num_tokens": 1522668009.0,
      "step": 9085
    },
    {
      "entropy": 1.7290511826674144,
      "epoch": 0.9981598967345033,
      "grad_norm": 0.7485929131507874,
      "learning_rate": 1.1466519881642246e-05,
      "loss": 1.3893,
      "mean_token_accuracy": 0.6591125130653381,
      "num_tokens": 1522843719.0,
      "step": 9086
    },
    {
      "entropy": 1.6899711390336354,
      "epoch": 0.9982697536458762,
      "grad_norm": 0.6839129328727722,
      "learning_rate": 1.146492089794745e-05,
      "loss": 1.3313,
      "mean_token_accuracy": 0.673391396800677,
      "num_tokens": 1522991970.0,
      "step": 9087
    },
    {
      "entropy": 1.7311389843622844,
      "epoch": 0.9983796105572492,
      "grad_norm": 0.6621695756912231,
      "learning_rate": 1.1463321899538117e-05,
      "loss": 1.4378,
      "mean_token_accuracy": 0.6520956506331762,
      "num_tokens": 1523146080.0,
      "step": 9088
    },
    {
      "entropy": 1.7134305437405903,
      "epoch": 0.9984894674686221,
      "grad_norm": 0.5507893562316895,
      "learning_rate": 1.1461722886464856e-05,
      "loss": 1.5207,
      "mean_token_accuracy": 0.6198769162098566,
      "num_tokens": 1523399266.0,
      "step": 9089
    },
    {
      "entropy": 1.7272109687328339,
      "epoch": 0.9985993243799951,
      "grad_norm": 0.9652552008628845,
      "learning_rate": 1.1460123858778276e-05,
      "loss": 1.5345,
      "mean_token_accuracy": 0.6346574972073237,
      "num_tokens": 1523564638.0,
      "step": 9090
    },
    {
      "entropy": 1.7457146843274434,
      "epoch": 0.998709181291368,
      "grad_norm": 0.7757859230041504,
      "learning_rate": 1.1458524816528981e-05,
      "loss": 1.5039,
      "mean_token_accuracy": 0.6465511868397394,
      "num_tokens": 1523748062.0,
      "step": 9091
    },
    {
      "entropy": 1.6893859306971233,
      "epoch": 0.998819038202741,
      "grad_norm": 0.697685718536377,
      "learning_rate": 1.1456925759767582e-05,
      "loss": 1.4123,
      "mean_token_accuracy": 0.6497365186611811,
      "num_tokens": 1523895192.0,
      "step": 9092
    },
    {
      "entropy": 1.6923041641712189,
      "epoch": 0.9989288951141139,
      "grad_norm": 0.7961398363113403,
      "learning_rate": 1.1455326688544688e-05,
      "loss": 1.3345,
      "mean_token_accuracy": 0.6674275547266006,
      "num_tokens": 1524050097.0,
      "step": 9093
    },
    {
      "entropy": 1.6818099617958069,
      "epoch": 0.9990387520254868,
      "grad_norm": 0.6849196553230286,
      "learning_rate": 1.1453727602910909e-05,
      "loss": 1.3496,
      "mean_token_accuracy": 0.6572927534580231,
      "num_tokens": 1524209256.0,
      "step": 9094
    },
    {
      "entropy": 1.6935460070768993,
      "epoch": 0.9991486089368598,
      "grad_norm": 0.6596961617469788,
      "learning_rate": 1.145212850291686e-05,
      "loss": 1.2704,
      "mean_token_accuracy": 0.6796439737081528,
      "num_tokens": 1524398541.0,
      "step": 9095
    },
    {
      "entropy": 1.6655145784219105,
      "epoch": 0.9992584658482326,
      "grad_norm": 0.7738831043243408,
      "learning_rate": 1.1450529388613144e-05,
      "loss": 1.4704,
      "mean_token_accuracy": 0.6514392644166946,
      "num_tokens": 1524586535.0,
      "step": 9096
    },
    {
      "entropy": 1.635209560394287,
      "epoch": 0.9993683227596056,
      "grad_norm": 0.6728395223617554,
      "learning_rate": 1.1448930260050375e-05,
      "loss": 1.2365,
      "mean_token_accuracy": 0.6900093406438828,
      "num_tokens": 1524762897.0,
      "step": 9097
    },
    {
      "entropy": 1.71544353167216,
      "epoch": 0.9994781796709785,
      "grad_norm": 0.8286552429199219,
      "learning_rate": 1.1447331117279168e-05,
      "loss": 1.3268,
      "mean_token_accuracy": 0.6621815711259842,
      "num_tokens": 1524990809.0,
      "step": 9098
    },
    {
      "entropy": 1.6993728578090668,
      "epoch": 0.9995880365823515,
      "grad_norm": 0.6080448031425476,
      "learning_rate": 1.144573196035013e-05,
      "loss": 1.4415,
      "mean_token_accuracy": 0.6439933578173319,
      "num_tokens": 1525244055.0,
      "step": 9099
    },
    {
      "entropy": 1.7140068113803864,
      "epoch": 0.9996978934937244,
      "grad_norm": 0.7794548869132996,
      "learning_rate": 1.144413278931388e-05,
      "loss": 1.3395,
      "mean_token_accuracy": 0.6707132905721664,
      "num_tokens": 1525433832.0,
      "step": 9100
    },
    {
      "entropy": 1.800976832707723,
      "epoch": 0.9998077504050974,
      "grad_norm": 0.6397004723548889,
      "learning_rate": 1.1442533604221025e-05,
      "loss": 1.4958,
      "mean_token_accuracy": 0.6379488656918207,
      "num_tokens": 1525669327.0,
      "step": 9101
    },
    {
      "entropy": 1.7914798657099407,
      "epoch": 0.9999176073164703,
      "grad_norm": 0.7445523738861084,
      "learning_rate": 1.144093440512218e-05,
      "loss": 1.3949,
      "mean_token_accuracy": 0.6527659147977829,
      "num_tokens": 1525797142.0,
      "step": 9102
    },
    {
      "entropy": 1.7685750590430365,
      "epoch": 1.0,
      "grad_norm": 0.8221209049224854,
      "learning_rate": 1.1439335192067961e-05,
      "loss": 1.3113,
      "mean_token_accuracy": 0.6720441844728258,
      "num_tokens": 1525864289.0,
      "step": 9103
    },
    {
      "entropy": 1.7487789193789165,
      "epoch": 1.0001098569113729,
      "grad_norm": 0.6469790935516357,
      "learning_rate": 1.1437735965108982e-05,
      "loss": 1.3983,
      "mean_token_accuracy": 0.6585537244876226,
      "num_tokens": 1526037039.0,
      "step": 9104
    },
    {
      "entropy": 1.7090687155723572,
      "epoch": 1.0002197138227458,
      "grad_norm": 0.6354356408119202,
      "learning_rate": 1.1436136724295855e-05,
      "loss": 1.3507,
      "mean_token_accuracy": 0.6568548729022344,
      "num_tokens": 1526183317.0,
      "step": 9105
    },
    {
      "entropy": 1.778639147679011,
      "epoch": 1.0003295707341189,
      "grad_norm": 0.6832847595214844,
      "learning_rate": 1.1434537469679197e-05,
      "loss": 1.5105,
      "mean_token_accuracy": 0.6421279708544413,
      "num_tokens": 1526347692.0,
      "step": 9106
    },
    {
      "entropy": 1.671216607093811,
      "epoch": 1.0004394276454918,
      "grad_norm": 0.6764916181564331,
      "learning_rate": 1.1432938201309627e-05,
      "loss": 1.4491,
      "mean_token_accuracy": 0.6480690489212672,
      "num_tokens": 1526518664.0,
      "step": 9107
    },
    {
      "entropy": 1.6947729587554932,
      "epoch": 1.0005492845568646,
      "grad_norm": 0.7800838947296143,
      "learning_rate": 1.1431338919237753e-05,
      "loss": 1.4244,
      "mean_token_accuracy": 0.6530092557271322,
      "num_tokens": 1526722405.0,
      "step": 9108
    },
    {
      "entropy": 1.76162455479304,
      "epoch": 1.0006591414682375,
      "grad_norm": 0.6866593360900879,
      "learning_rate": 1.1429739623514202e-05,
      "loss": 1.3098,
      "mean_token_accuracy": 0.6589891264835993,
      "num_tokens": 1526831942.0,
      "step": 9109
    },
    {
      "entropy": 1.706797569990158,
      "epoch": 1.0007689983796106,
      "grad_norm": 0.6604471802711487,
      "learning_rate": 1.1428140314189581e-05,
      "loss": 1.5449,
      "mean_token_accuracy": 0.6446791191895803,
      "num_tokens": 1527004873.0,
      "step": 9110
    },
    {
      "entropy": 1.7111522555351257,
      "epoch": 1.0008788552909835,
      "grad_norm": 0.7985087633132935,
      "learning_rate": 1.1426540991314516e-05,
      "loss": 1.2653,
      "mean_token_accuracy": 0.6687728961308798,
      "num_tokens": 1527118121.0,
      "step": 9111
    },
    {
      "entropy": 1.7522371212641399,
      "epoch": 1.0009887122023564,
      "grad_norm": 0.6903984546661377,
      "learning_rate": 1.1424941654939619e-05,
      "loss": 1.4082,
      "mean_token_accuracy": 0.6500783811012903,
      "num_tokens": 1527289842.0,
      "step": 9112
    },
    {
      "entropy": 1.6945828100045521,
      "epoch": 1.0010985691137293,
      "grad_norm": 0.9061050415039062,
      "learning_rate": 1.1423342305115512e-05,
      "loss": 1.3049,
      "mean_token_accuracy": 0.669381340344747,
      "num_tokens": 1527431687.0,
      "step": 9113
    },
    {
      "entropy": 1.6780508855978649,
      "epoch": 1.0012084260251024,
      "grad_norm": 0.631228506565094,
      "learning_rate": 1.1421742941892808e-05,
      "loss": 1.3588,
      "mean_token_accuracy": 0.6521518329779307,
      "num_tokens": 1527618917.0,
      "step": 9114
    },
    {
      "entropy": 1.707773486773173,
      "epoch": 1.0013182829364753,
      "grad_norm": 0.7094998359680176,
      "learning_rate": 1.1420143565322132e-05,
      "loss": 1.4832,
      "mean_token_accuracy": 0.6415019631385803,
      "num_tokens": 1527828488.0,
      "step": 9115
    },
    {
      "entropy": 1.6614188154538472,
      "epoch": 1.0014281398478482,
      "grad_norm": 0.7236858010292053,
      "learning_rate": 1.1418544175454103e-05,
      "loss": 1.23,
      "mean_token_accuracy": 0.6863870620727539,
      "num_tokens": 1527993879.0,
      "step": 9116
    },
    {
      "entropy": 1.6892668704191844,
      "epoch": 1.001537996759221,
      "grad_norm": 0.6846614480018616,
      "learning_rate": 1.1416944772339335e-05,
      "loss": 1.3371,
      "mean_token_accuracy": 0.6594837407271067,
      "num_tokens": 1528128935.0,
      "step": 9117
    },
    {
      "entropy": 1.7514809270699818,
      "epoch": 1.001647853670594,
      "grad_norm": 0.7638584971427917,
      "learning_rate": 1.1415345356028458e-05,
      "loss": 1.4151,
      "mean_token_accuracy": 0.6582140922546387,
      "num_tokens": 1528297300.0,
      "step": 9118
    },
    {
      "entropy": 1.6739897926648457,
      "epoch": 1.001757710581967,
      "grad_norm": 0.6910973787307739,
      "learning_rate": 1.1413745926572086e-05,
      "loss": 1.3261,
      "mean_token_accuracy": 0.6593633989493052,
      "num_tokens": 1528434737.0,
      "step": 9119
    },
    {
      "entropy": 1.6245358089605968,
      "epoch": 1.00186756749334,
      "grad_norm": 0.6937578916549683,
      "learning_rate": 1.1412146484020841e-05,
      "loss": 1.3433,
      "mean_token_accuracy": 0.6818140596151352,
      "num_tokens": 1528594319.0,
      "step": 9120
    },
    {
      "entropy": 1.780480186144511,
      "epoch": 1.0019774244047128,
      "grad_norm": 0.7517448663711548,
      "learning_rate": 1.1410547028425345e-05,
      "loss": 1.341,
      "mean_token_accuracy": 0.6648537566264471,
      "num_tokens": 1528698660.0,
      "step": 9121
    },
    {
      "entropy": 1.7274539073308308,
      "epoch": 1.0020872813160857,
      "grad_norm": 0.8150880336761475,
      "learning_rate": 1.140894755983622e-05,
      "loss": 1.4617,
      "mean_token_accuracy": 0.6476200868686041,
      "num_tokens": 1528869853.0,
      "step": 9122
    },
    {
      "entropy": 1.6871586740016937,
      "epoch": 1.0021971382274588,
      "grad_norm": 0.6788790225982666,
      "learning_rate": 1.1407348078304094e-05,
      "loss": 1.4679,
      "mean_token_accuracy": 0.6567584524552027,
      "num_tokens": 1529051202.0,
      "step": 9123
    },
    {
      "entropy": 1.6829076210657756,
      "epoch": 1.0023069951388317,
      "grad_norm": 0.5760919451713562,
      "learning_rate": 1.1405748583879578e-05,
      "loss": 1.4402,
      "mean_token_accuracy": 0.65225517253081,
      "num_tokens": 1529253732.0,
      "step": 9124
    },
    {
      "entropy": 1.6780024766921997,
      "epoch": 1.0024168520502046,
      "grad_norm": 0.6377182006835938,
      "learning_rate": 1.1404149076613307e-05,
      "loss": 1.3531,
      "mean_token_accuracy": 0.6596865554650625,
      "num_tokens": 1529399965.0,
      "step": 9125
    },
    {
      "entropy": 1.7208391726016998,
      "epoch": 1.0025267089615775,
      "grad_norm": 0.6458075046539307,
      "learning_rate": 1.1402549556555897e-05,
      "loss": 1.5011,
      "mean_token_accuracy": 0.6317235877116522,
      "num_tokens": 1529603450.0,
      "step": 9126
    },
    {
      "entropy": 1.6888208488623302,
      "epoch": 1.0026365658729506,
      "grad_norm": 0.9376909732818604,
      "learning_rate": 1.1400950023757974e-05,
      "loss": 1.4523,
      "mean_token_accuracy": 0.6374652137358984,
      "num_tokens": 1529778344.0,
      "step": 9127
    },
    {
      "entropy": 1.6820887227853139,
      "epoch": 1.0027464227843235,
      "grad_norm": 0.6910247206687927,
      "learning_rate": 1.1399350478270169e-05,
      "loss": 1.2399,
      "mean_token_accuracy": 0.678116371234258,
      "num_tokens": 1529879742.0,
      "step": 9128
    },
    {
      "entropy": 1.6896148324012756,
      "epoch": 1.0028562796956964,
      "grad_norm": 0.8987225890159607,
      "learning_rate": 1.1397750920143096e-05,
      "loss": 1.1534,
      "mean_token_accuracy": 0.6927760044733683,
      "num_tokens": 1530010877.0,
      "step": 9129
    },
    {
      "entropy": 1.6502757966518402,
      "epoch": 1.0029661366070692,
      "grad_norm": 0.7082890272140503,
      "learning_rate": 1.1396151349427386e-05,
      "loss": 1.3722,
      "mean_token_accuracy": 0.6598286827405294,
      "num_tokens": 1530152017.0,
      "step": 9130
    },
    {
      "entropy": 1.6588487525780995,
      "epoch": 1.0030759935184421,
      "grad_norm": 0.6771763563156128,
      "learning_rate": 1.1394551766173668e-05,
      "loss": 1.4409,
      "mean_token_accuracy": 0.649484987060229,
      "num_tokens": 1530341414.0,
      "step": 9131
    },
    {
      "entropy": 1.6604489584763844,
      "epoch": 1.0031858504298152,
      "grad_norm": 0.6896274089813232,
      "learning_rate": 1.1392952170432561e-05,
      "loss": 1.4544,
      "mean_token_accuracy": 0.6518164028724035,
      "num_tokens": 1530547366.0,
      "step": 9132
    },
    {
      "entropy": 1.7379337052504222,
      "epoch": 1.0032957073411881,
      "grad_norm": 0.7070825695991516,
      "learning_rate": 1.1391352562254696e-05,
      "loss": 1.4681,
      "mean_token_accuracy": 0.6329749723275503,
      "num_tokens": 1530710763.0,
      "step": 9133
    },
    {
      "entropy": 1.7117513318856556,
      "epoch": 1.003405564252561,
      "grad_norm": 0.752705991268158,
      "learning_rate": 1.1389752941690698e-05,
      "loss": 1.3212,
      "mean_token_accuracy": 0.6719024926424026,
      "num_tokens": 1530851989.0,
      "step": 9134
    },
    {
      "entropy": 1.6691398521264393,
      "epoch": 1.0035154211639339,
      "grad_norm": 0.6442150473594666,
      "learning_rate": 1.1388153308791196e-05,
      "loss": 1.2853,
      "mean_token_accuracy": 0.6734344561894735,
      "num_tokens": 1531026173.0,
      "step": 9135
    },
    {
      "entropy": 1.7129848897457123,
      "epoch": 1.003625278075307,
      "grad_norm": 0.643925130367279,
      "learning_rate": 1.1386553663606816e-05,
      "loss": 1.3813,
      "mean_token_accuracy": 0.6649036655823389,
      "num_tokens": 1531167599.0,
      "step": 9136
    },
    {
      "entropy": 1.7421828111012776,
      "epoch": 1.0037351349866799,
      "grad_norm": 0.7078534960746765,
      "learning_rate": 1.1384954006188188e-05,
      "loss": 1.4009,
      "mean_token_accuracy": 0.6498052229483923,
      "num_tokens": 1531284335.0,
      "step": 9137
    },
    {
      "entropy": 1.6620370745658875,
      "epoch": 1.0038449918980528,
      "grad_norm": 0.6959486603736877,
      "learning_rate": 1.1383354336585939e-05,
      "loss": 1.2479,
      "mean_token_accuracy": 0.6867090910673141,
      "num_tokens": 1531411606.0,
      "step": 9138
    },
    {
      "entropy": 1.7095261812210083,
      "epoch": 1.0039548488094256,
      "grad_norm": 0.6359619498252869,
      "learning_rate": 1.1381754654850696e-05,
      "loss": 1.4088,
      "mean_token_accuracy": 0.6495067228873571,
      "num_tokens": 1531650481.0,
      "step": 9139
    },
    {
      "entropy": 1.7148667971293132,
      "epoch": 1.0040647057207988,
      "grad_norm": 0.626611053943634,
      "learning_rate": 1.1380154961033091e-05,
      "loss": 1.4655,
      "mean_token_accuracy": 0.6441022356351217,
      "num_tokens": 1531860240.0,
      "step": 9140
    },
    {
      "entropy": 1.6672312021255493,
      "epoch": 1.0041745626321716,
      "grad_norm": 0.6994165182113647,
      "learning_rate": 1.1378555255183756e-05,
      "loss": 1.3451,
      "mean_token_accuracy": 0.6728704025348028,
      "num_tokens": 1532028027.0,
      "step": 9141
    },
    {
      "entropy": 1.6781473656495411,
      "epoch": 1.0042844195435445,
      "grad_norm": 0.6643490791320801,
      "learning_rate": 1.1376955537353314e-05,
      "loss": 1.3587,
      "mean_token_accuracy": 0.6705238421758016,
      "num_tokens": 1532185194.0,
      "step": 9142
    },
    {
      "entropy": 1.695909669001897,
      "epoch": 1.0043942764549174,
      "grad_norm": 0.7049947381019592,
      "learning_rate": 1.1375355807592401e-05,
      "loss": 1.2133,
      "mean_token_accuracy": 0.6815102944771448,
      "num_tokens": 1532292206.0,
      "step": 9143
    },
    {
      "entropy": 1.6645172834396362,
      "epoch": 1.0045041333662903,
      "grad_norm": 0.8290209174156189,
      "learning_rate": 1.1373756065951645e-05,
      "loss": 1.29,
      "mean_token_accuracy": 0.6677450140317281,
      "num_tokens": 1532417707.0,
      "step": 9144
    },
    {
      "entropy": 1.7276211281617482,
      "epoch": 1.0046139902776634,
      "grad_norm": 0.6277461051940918,
      "learning_rate": 1.1372156312481676e-05,
      "loss": 1.4016,
      "mean_token_accuracy": 0.6529937634865443,
      "num_tokens": 1532596038.0,
      "step": 9145
    },
    {
      "entropy": 1.6773775219917297,
      "epoch": 1.0047238471890363,
      "grad_norm": 0.5622502565383911,
      "learning_rate": 1.1370556547233129e-05,
      "loss": 1.3817,
      "mean_token_accuracy": 0.6580819934606552,
      "num_tokens": 1532837671.0,
      "step": 9146
    },
    {
      "entropy": 1.6747903128465016,
      "epoch": 1.0048337041004092,
      "grad_norm": 0.7736158967018127,
      "learning_rate": 1.1368956770256636e-05,
      "loss": 1.43,
      "mean_token_accuracy": 0.6633151968320211,
      "num_tokens": 1532987212.0,
      "step": 9147
    },
    {
      "entropy": 1.6907167434692383,
      "epoch": 1.004943561011782,
      "grad_norm": 0.6770092248916626,
      "learning_rate": 1.1367356981602824e-05,
      "loss": 1.315,
      "mean_token_accuracy": 0.6748213569323221,
      "num_tokens": 1533166077.0,
      "step": 9148
    },
    {
      "entropy": 1.630173772573471,
      "epoch": 1.0050534179231552,
      "grad_norm": 0.7909526824951172,
      "learning_rate": 1.1365757181322332e-05,
      "loss": 1.2256,
      "mean_token_accuracy": 0.676344245672226,
      "num_tokens": 1533285561.0,
      "step": 9149
    },
    {
      "entropy": 1.6531668106714885,
      "epoch": 1.005163274834528,
      "grad_norm": 0.7197229266166687,
      "learning_rate": 1.1364157369465791e-05,
      "loss": 1.3322,
      "mean_token_accuracy": 0.6645158727963766,
      "num_tokens": 1533446931.0,
      "step": 9150
    },
    {
      "entropy": 1.7534123659133911,
      "epoch": 1.005273131745901,
      "grad_norm": 0.7781052589416504,
      "learning_rate": 1.136255754608383e-05,
      "loss": 1.3887,
      "mean_token_accuracy": 0.6418828169504801,
      "num_tokens": 1533605019.0,
      "step": 9151
    },
    {
      "entropy": 1.711018721262614,
      "epoch": 1.0053829886572738,
      "grad_norm": 0.6242640018463135,
      "learning_rate": 1.1360957711227087e-05,
      "loss": 1.3331,
      "mean_token_accuracy": 0.658738394578298,
      "num_tokens": 1533756344.0,
      "step": 9152
    },
    {
      "entropy": 1.7103002866109211,
      "epoch": 1.005492845568647,
      "grad_norm": 0.7828008532524109,
      "learning_rate": 1.1359357864946197e-05,
      "loss": 1.4497,
      "mean_token_accuracy": 0.6512656211853027,
      "num_tokens": 1533940363.0,
      "step": 9153
    },
    {
      "entropy": 1.7072757482528687,
      "epoch": 1.0056027024800198,
      "grad_norm": 0.6864430904388428,
      "learning_rate": 1.135775800729179e-05,
      "loss": 1.4115,
      "mean_token_accuracy": 0.6535514990488688,
      "num_tokens": 1534129155.0,
      "step": 9154
    },
    {
      "entropy": 1.645534763733546,
      "epoch": 1.0057125593913927,
      "grad_norm": 0.6666370630264282,
      "learning_rate": 1.1356158138314504e-05,
      "loss": 1.3353,
      "mean_token_accuracy": 0.6572008977333704,
      "num_tokens": 1534352556.0,
      "step": 9155
    },
    {
      "entropy": 1.7274697025616963,
      "epoch": 1.0058224163027656,
      "grad_norm": 0.762096107006073,
      "learning_rate": 1.1354558258064974e-05,
      "loss": 1.3457,
      "mean_token_accuracy": 0.6579453647136688,
      "num_tokens": 1534462733.0,
      "step": 9156
    },
    {
      "entropy": 1.7067709763844807,
      "epoch": 1.0059322732141387,
      "grad_norm": 0.7625720500946045,
      "learning_rate": 1.1352958366593838e-05,
      "loss": 1.1324,
      "mean_token_accuracy": 0.7027974327405294,
      "num_tokens": 1534566983.0,
      "step": 9157
    },
    {
      "entropy": 1.6603530049324036,
      "epoch": 1.0060421301255116,
      "grad_norm": 0.6020463705062866,
      "learning_rate": 1.1351358463951722e-05,
      "loss": 1.5009,
      "mean_token_accuracy": 0.6399320860703787,
      "num_tokens": 1534784810.0,
      "step": 9158
    },
    {
      "entropy": 1.7036788860956829,
      "epoch": 1.0061519870368845,
      "grad_norm": 0.6299261450767517,
      "learning_rate": 1.1349758550189276e-05,
      "loss": 1.4234,
      "mean_token_accuracy": 0.6528842945893606,
      "num_tokens": 1534972111.0,
      "step": 9159
    },
    {
      "entropy": 1.69377605120341,
      "epoch": 1.0062618439482574,
      "grad_norm": 0.7959760427474976,
      "learning_rate": 1.1348158625357125e-05,
      "loss": 1.3657,
      "mean_token_accuracy": 0.6739930411179861,
      "num_tokens": 1535118835.0,
      "step": 9160
    },
    {
      "entropy": 1.7244078516960144,
      "epoch": 1.0063717008596302,
      "grad_norm": 0.5939955115318298,
      "learning_rate": 1.1346558689505911e-05,
      "loss": 1.5987,
      "mean_token_accuracy": 0.6203551987806956,
      "num_tokens": 1535344945.0,
      "step": 9161
    },
    {
      "entropy": 1.6984511812527974,
      "epoch": 1.0064815577710033,
      "grad_norm": 0.6517001390457153,
      "learning_rate": 1.134495874268627e-05,
      "loss": 1.3917,
      "mean_token_accuracy": 0.6546116669972738,
      "num_tokens": 1535547924.0,
      "step": 9162
    },
    {
      "entropy": 1.765064944823583,
      "epoch": 1.0065914146823762,
      "grad_norm": 0.6505841612815857,
      "learning_rate": 1.1343358784948841e-05,
      "loss": 1.4628,
      "mean_token_accuracy": 0.6358625143766403,
      "num_tokens": 1535727355.0,
      "step": 9163
    },
    {
      "entropy": 1.652586172024409,
      "epoch": 1.0067012715937491,
      "grad_norm": 0.6075358986854553,
      "learning_rate": 1.1341758816344261e-05,
      "loss": 1.3771,
      "mean_token_accuracy": 0.657783105969429,
      "num_tokens": 1535890845.0,
      "step": 9164
    },
    {
      "entropy": 1.7130601306756337,
      "epoch": 1.006811128505122,
      "grad_norm": 0.6406556963920593,
      "learning_rate": 1.1340158836923169e-05,
      "loss": 1.3664,
      "mean_token_accuracy": 0.6631237914164861,
      "num_tokens": 1536024832.0,
      "step": 9165
    },
    {
      "entropy": 1.6731863021850586,
      "epoch": 1.006920985416495,
      "grad_norm": 0.6789574027061462,
      "learning_rate": 1.1338558846736203e-05,
      "loss": 1.5358,
      "mean_token_accuracy": 0.644293467203776,
      "num_tokens": 1536181406.0,
      "step": 9166
    },
    {
      "entropy": 1.7349721789360046,
      "epoch": 1.007030842327868,
      "grad_norm": 0.754366934299469,
      "learning_rate": 1.1336958845834001e-05,
      "loss": 1.3995,
      "mean_token_accuracy": 0.6601565976937612,
      "num_tokens": 1536312544.0,
      "step": 9167
    },
    {
      "entropy": 1.7296982606252034,
      "epoch": 1.0071406992392409,
      "grad_norm": 0.7296738624572754,
      "learning_rate": 1.1335358834267202e-05,
      "loss": 1.4222,
      "mean_token_accuracy": 0.6510292192300161,
      "num_tokens": 1536477655.0,
      "step": 9168
    },
    {
      "entropy": 1.6839477519194286,
      "epoch": 1.0072505561506138,
      "grad_norm": 0.7424401044845581,
      "learning_rate": 1.1333758812086455e-05,
      "loss": 1.4959,
      "mean_token_accuracy": 0.6491817037264506,
      "num_tokens": 1536682787.0,
      "step": 9169
    },
    {
      "entropy": 1.7023440599441528,
      "epoch": 1.0073604130619869,
      "grad_norm": 0.6158515810966492,
      "learning_rate": 1.1332158779342382e-05,
      "loss": 1.4231,
      "mean_token_accuracy": 0.649179662267367,
      "num_tokens": 1536874196.0,
      "step": 9170
    },
    {
      "entropy": 1.6747990051905315,
      "epoch": 1.0074702699733598,
      "grad_norm": 0.7934166789054871,
      "learning_rate": 1.1330558736085639e-05,
      "loss": 1.4705,
      "mean_token_accuracy": 0.6424223830302557,
      "num_tokens": 1537043636.0,
      "step": 9171
    },
    {
      "entropy": 1.7200193206469219,
      "epoch": 1.0075801268847326,
      "grad_norm": 0.625928521156311,
      "learning_rate": 1.132895868236686e-05,
      "loss": 1.3149,
      "mean_token_accuracy": 0.6662678668896357,
      "num_tokens": 1537192653.0,
      "step": 9172
    },
    {
      "entropy": 1.6934810976187389,
      "epoch": 1.0076899837961055,
      "grad_norm": 0.7504294514656067,
      "learning_rate": 1.1327358618236686e-05,
      "loss": 1.4699,
      "mean_token_accuracy": 0.6619169364372889,
      "num_tokens": 1537364617.0,
      "step": 9173
    },
    {
      "entropy": 1.6977708041667938,
      "epoch": 1.0077998407074784,
      "grad_norm": 0.7154932618141174,
      "learning_rate": 1.132575854374576e-05,
      "loss": 1.3676,
      "mean_token_accuracy": 0.6595998754103979,
      "num_tokens": 1537500964.0,
      "step": 9174
    },
    {
      "entropy": 1.661940226952235,
      "epoch": 1.0079096976188515,
      "grad_norm": 0.6199997067451477,
      "learning_rate": 1.1324158458944724e-05,
      "loss": 1.3844,
      "mean_token_accuracy": 0.6616794715325037,
      "num_tokens": 1537688873.0,
      "step": 9175
    },
    {
      "entropy": 1.7638680438200633,
      "epoch": 1.0080195545302244,
      "grad_norm": 0.6562539339065552,
      "learning_rate": 1.1322558363884215e-05,
      "loss": 1.5134,
      "mean_token_accuracy": 0.6430147786935171,
      "num_tokens": 1537938462.0,
      "step": 9176
    },
    {
      "entropy": 1.706565539042155,
      "epoch": 1.0081294114415973,
      "grad_norm": 0.7883732914924622,
      "learning_rate": 1.1320958258614882e-05,
      "loss": 1.4292,
      "mean_token_accuracy": 0.6586494793494543,
      "num_tokens": 1538090142.0,
      "step": 9177
    },
    {
      "entropy": 1.7051230370998383,
      "epoch": 1.0082392683529702,
      "grad_norm": 0.635830283164978,
      "learning_rate": 1.1319358143187364e-05,
      "loss": 1.4372,
      "mean_token_accuracy": 0.6473241200049719,
      "num_tokens": 1538303825.0,
      "step": 9178
    },
    {
      "entropy": 1.6625941793123882,
      "epoch": 1.0083491252643433,
      "grad_norm": 0.6459980607032776,
      "learning_rate": 1.1317758017652304e-05,
      "loss": 1.3858,
      "mean_token_accuracy": 0.6522909849882126,
      "num_tokens": 1538515668.0,
      "step": 9179
    },
    {
      "entropy": 1.69016495347023,
      "epoch": 1.0084589821757162,
      "grad_norm": 0.8300599455833435,
      "learning_rate": 1.1316157882060347e-05,
      "loss": 1.4209,
      "mean_token_accuracy": 0.6421416252851486,
      "num_tokens": 1538721803.0,
      "step": 9180
    },
    {
      "entropy": 1.7026409308115642,
      "epoch": 1.008568839087089,
      "grad_norm": 0.7141305804252625,
      "learning_rate": 1.131455773646214e-05,
      "loss": 1.3456,
      "mean_token_accuracy": 0.6597028175989786,
      "num_tokens": 1538867063.0,
      "step": 9181
    },
    {
      "entropy": 1.6708631614844005,
      "epoch": 1.008678695998462,
      "grad_norm": 0.7779679298400879,
      "learning_rate": 1.1312957580908316e-05,
      "loss": 1.399,
      "mean_token_accuracy": 0.6662464737892151,
      "num_tokens": 1539025340.0,
      "step": 9182
    },
    {
      "entropy": 1.7861079672972362,
      "epoch": 1.008788552909835,
      "grad_norm": 0.7467420697212219,
      "learning_rate": 1.1311357415449527e-05,
      "loss": 1.409,
      "mean_token_accuracy": 0.6420427312453588,
      "num_tokens": 1539177337.0,
      "step": 9183
    },
    {
      "entropy": 1.6625968714555104,
      "epoch": 1.008898409821208,
      "grad_norm": 0.7059647440910339,
      "learning_rate": 1.1309757240136416e-05,
      "loss": 1.3722,
      "mean_token_accuracy": 0.6587095757325491,
      "num_tokens": 1539350824.0,
      "step": 9184
    },
    {
      "entropy": 1.6715769072373707,
      "epoch": 1.0090082667325808,
      "grad_norm": 0.8573365211486816,
      "learning_rate": 1.130815705501963e-05,
      "loss": 1.2702,
      "mean_token_accuracy": 0.6697567055622736,
      "num_tokens": 1539515545.0,
      "step": 9185
    },
    {
      "entropy": 1.6940159698327382,
      "epoch": 1.0091181236439537,
      "grad_norm": 0.7451865673065186,
      "learning_rate": 1.1306556860149807e-05,
      "loss": 1.2517,
      "mean_token_accuracy": 0.6819993555545807,
      "num_tokens": 1539654828.0,
      "step": 9186
    },
    {
      "entropy": 1.6895244518915813,
      "epoch": 1.0092279805553266,
      "grad_norm": 0.662607729434967,
      "learning_rate": 1.1304956655577603e-05,
      "loss": 1.498,
      "mean_token_accuracy": 0.6299208501974741,
      "num_tokens": 1539887429.0,
      "step": 9187
    },
    {
      "entropy": 1.7312080164750416,
      "epoch": 1.0093378374666997,
      "grad_norm": 0.7649029493331909,
      "learning_rate": 1.1303356441353657e-05,
      "loss": 1.2637,
      "mean_token_accuracy": 0.6721003005901972,
      "num_tokens": 1540007181.0,
      "step": 9188
    },
    {
      "entropy": 1.6537673771381378,
      "epoch": 1.0094476943780726,
      "grad_norm": 0.6279980540275574,
      "learning_rate": 1.1301756217528617e-05,
      "loss": 1.4753,
      "mean_token_accuracy": 0.6382663249969482,
      "num_tokens": 1540226678.0,
      "step": 9189
    },
    {
      "entropy": 1.717966636021932,
      "epoch": 1.0095575512894455,
      "grad_norm": 0.6371181607246399,
      "learning_rate": 1.1300155984153125e-05,
      "loss": 1.5536,
      "mean_token_accuracy": 0.6400111019611359,
      "num_tokens": 1540398417.0,
      "step": 9190
    },
    {
      "entropy": 1.7388447523117065,
      "epoch": 1.0096674082008184,
      "grad_norm": 0.6854660511016846,
      "learning_rate": 1.1298555741277837e-05,
      "loss": 1.4315,
      "mean_token_accuracy": 0.6481965134541193,
      "num_tokens": 1540574257.0,
      "step": 9191
    },
    {
      "entropy": 1.7373858094215393,
      "epoch": 1.0097772651121915,
      "grad_norm": 0.8039863705635071,
      "learning_rate": 1.1296955488953385e-05,
      "loss": 1.5048,
      "mean_token_accuracy": 0.6509123841921488,
      "num_tokens": 1540737286.0,
      "step": 9192
    },
    {
      "entropy": 1.733175406853358,
      "epoch": 1.0098871220235643,
      "grad_norm": 0.7755190134048462,
      "learning_rate": 1.1295355227230434e-05,
      "loss": 1.4932,
      "mean_token_accuracy": 0.6399683107932409,
      "num_tokens": 1540938739.0,
      "step": 9193
    },
    {
      "entropy": 1.7742779056231182,
      "epoch": 1.0099969789349372,
      "grad_norm": 0.8532186150550842,
      "learning_rate": 1.1293754956159622e-05,
      "loss": 1.2785,
      "mean_token_accuracy": 0.681659941871961,
      "num_tokens": 1541076692.0,
      "step": 9194
    },
    {
      "entropy": 1.6056585907936096,
      "epoch": 1.0101068358463101,
      "grad_norm": 0.6729063987731934,
      "learning_rate": 1.1292154675791596e-05,
      "loss": 1.3879,
      "mean_token_accuracy": 0.6605608214934667,
      "num_tokens": 1541267393.0,
      "step": 9195
    },
    {
      "entropy": 1.6868411600589752,
      "epoch": 1.0102166927576832,
      "grad_norm": 0.6951854825019836,
      "learning_rate": 1.1290554386177006e-05,
      "loss": 1.3287,
      "mean_token_accuracy": 0.6730459630489349,
      "num_tokens": 1541408773.0,
      "step": 9196
    },
    {
      "entropy": 1.70897176861763,
      "epoch": 1.010326549669056,
      "grad_norm": 0.7483338117599487,
      "learning_rate": 1.1288954087366504e-05,
      "loss": 1.5295,
      "mean_token_accuracy": 0.6577043558160464,
      "num_tokens": 1541578695.0,
      "step": 9197
    },
    {
      "entropy": 1.6923380196094513,
      "epoch": 1.010436406580429,
      "grad_norm": 0.6193323731422424,
      "learning_rate": 1.128735377941073e-05,
      "loss": 1.4399,
      "mean_token_accuracy": 0.651967058579127,
      "num_tokens": 1541828514.0,
      "step": 9198
    },
    {
      "entropy": 1.6712921659151714,
      "epoch": 1.0105462634918019,
      "grad_norm": 0.6577204465866089,
      "learning_rate": 1.1285753462360343e-05,
      "loss": 1.3324,
      "mean_token_accuracy": 0.6647132039070129,
      "num_tokens": 1541971144.0,
      "step": 9199
    },
    {
      "entropy": 1.6951302190621693,
      "epoch": 1.0106561204031748,
      "grad_norm": 0.67694091796875,
      "learning_rate": 1.1284153136265986e-05,
      "loss": 1.4847,
      "mean_token_accuracy": 0.656242623925209,
      "num_tokens": 1542162549.0,
      "step": 9200
    },
    {
      "entropy": 1.658402919769287,
      "epoch": 1.0107659773145479,
      "grad_norm": 0.6639556884765625,
      "learning_rate": 1.1282552801178308e-05,
      "loss": 1.2398,
      "mean_token_accuracy": 0.6856526831785837,
      "num_tokens": 1542331765.0,
      "step": 9201
    },
    {
      "entropy": 1.7573369940121968,
      "epoch": 1.0108758342259208,
      "grad_norm": 0.7384838461875916,
      "learning_rate": 1.1280952457147964e-05,
      "loss": 1.4386,
      "mean_token_accuracy": 0.6591017047564188,
      "num_tokens": 1542461418.0,
      "step": 9202
    },
    {
      "entropy": 1.7195665736993153,
      "epoch": 1.0109856911372936,
      "grad_norm": 0.7522571086883545,
      "learning_rate": 1.1279352104225603e-05,
      "loss": 1.2697,
      "mean_token_accuracy": 0.6741450677315394,
      "num_tokens": 1542598399.0,
      "step": 9203
    },
    {
      "entropy": 1.7449373702208202,
      "epoch": 1.0110955480486665,
      "grad_norm": 0.7479003071784973,
      "learning_rate": 1.127775174246187e-05,
      "loss": 1.2921,
      "mean_token_accuracy": 0.6684492280085882,
      "num_tokens": 1542703548.0,
      "step": 9204
    },
    {
      "entropy": 1.7740589280923207,
      "epoch": 1.0112054049600396,
      "grad_norm": 0.7149597406387329,
      "learning_rate": 1.1276151371907422e-05,
      "loss": 1.4712,
      "mean_token_accuracy": 0.647121841708819,
      "num_tokens": 1542869904.0,
      "step": 9205
    },
    {
      "entropy": 1.759735494852066,
      "epoch": 1.0113152618714125,
      "grad_norm": 0.616786003112793,
      "learning_rate": 1.1274550992612905e-05,
      "loss": 1.5223,
      "mean_token_accuracy": 0.6346758852402369,
      "num_tokens": 1543072195.0,
      "step": 9206
    },
    {
      "entropy": 1.6773889164129894,
      "epoch": 1.0114251187827854,
      "grad_norm": 0.7276062965393066,
      "learning_rate": 1.1272950604628974e-05,
      "loss": 1.465,
      "mean_token_accuracy": 0.6493238161007563,
      "num_tokens": 1543242043.0,
      "step": 9207
    },
    {
      "entropy": 1.7213714122772217,
      "epoch": 1.0115349756941583,
      "grad_norm": 0.5921209454536438,
      "learning_rate": 1.1271350208006277e-05,
      "loss": 1.4313,
      "mean_token_accuracy": 0.6454088240861893,
      "num_tokens": 1543424668.0,
      "step": 9208
    },
    {
      "entropy": 1.7043544550736744,
      "epoch": 1.0116448326055314,
      "grad_norm": 0.703683078289032,
      "learning_rate": 1.1269749802795475e-05,
      "loss": 1.5242,
      "mean_token_accuracy": 0.639569049080213,
      "num_tokens": 1543590504.0,
      "step": 9209
    },
    {
      "entropy": 1.7013638118902843,
      "epoch": 1.0117546895169043,
      "grad_norm": 0.651660144329071,
      "learning_rate": 1.1268149389047207e-05,
      "loss": 1.3612,
      "mean_token_accuracy": 0.6684914082288742,
      "num_tokens": 1543742205.0,
      "step": 9210
    },
    {
      "entropy": 1.7225966254870098,
      "epoch": 1.0118645464282772,
      "grad_norm": 0.680589497089386,
      "learning_rate": 1.1266548966812136e-05,
      "loss": 1.4609,
      "mean_token_accuracy": 0.6508485525846481,
      "num_tokens": 1543960759.0,
      "step": 9211
    },
    {
      "entropy": 1.690873513619105,
      "epoch": 1.01197440333965,
      "grad_norm": 0.6258131265640259,
      "learning_rate": 1.1264948536140908e-05,
      "loss": 1.2756,
      "mean_token_accuracy": 0.6746162871519724,
      "num_tokens": 1544079815.0,
      "step": 9212
    },
    {
      "entropy": 1.7661484678586323,
      "epoch": 1.012084260251023,
      "grad_norm": 0.7420499324798584,
      "learning_rate": 1.126334809708418e-05,
      "loss": 1.4235,
      "mean_token_accuracy": 0.6455812205870947,
      "num_tokens": 1544236306.0,
      "step": 9213
    },
    {
      "entropy": 1.6909300088882446,
      "epoch": 1.012194117162396,
      "grad_norm": 0.7056745886802673,
      "learning_rate": 1.1261747649692598e-05,
      "loss": 1.4225,
      "mean_token_accuracy": 0.6687211891015371,
      "num_tokens": 1544360026.0,
      "step": 9214
    },
    {
      "entropy": 1.7200450201829274,
      "epoch": 1.012303974073769,
      "grad_norm": 0.6737309694290161,
      "learning_rate": 1.1260147194016826e-05,
      "loss": 1.4383,
      "mean_token_accuracy": 0.6554515163103739,
      "num_tokens": 1544518333.0,
      "step": 9215
    },
    {
      "entropy": 1.6989065408706665,
      "epoch": 1.0124138309851418,
      "grad_norm": 0.7748240232467651,
      "learning_rate": 1.1258546730107511e-05,
      "loss": 1.3029,
      "mean_token_accuracy": 0.6642332822084427,
      "num_tokens": 1544633183.0,
      "step": 9216
    },
    {
      "entropy": 1.684309144814809,
      "epoch": 1.0125236878965147,
      "grad_norm": 0.7276560068130493,
      "learning_rate": 1.1256946258015309e-05,
      "loss": 1.3735,
      "mean_token_accuracy": 0.6629331211249033,
      "num_tokens": 1544766272.0,
      "step": 9217
    },
    {
      "entropy": 1.7121345500151317,
      "epoch": 1.0126335448078878,
      "grad_norm": 0.6448559761047363,
      "learning_rate": 1.1255345777790874e-05,
      "loss": 1.351,
      "mean_token_accuracy": 0.6598079651594162,
      "num_tokens": 1544978083.0,
      "step": 9218
    },
    {
      "entropy": 1.6897433201471965,
      "epoch": 1.0127434017192607,
      "grad_norm": 0.6677665114402771,
      "learning_rate": 1.1253745289484858e-05,
      "loss": 1.2992,
      "mean_token_accuracy": 0.6672473748524984,
      "num_tokens": 1545113400.0,
      "step": 9219
    },
    {
      "entropy": 1.730336219072342,
      "epoch": 1.0128532586306336,
      "grad_norm": 0.7854005694389343,
      "learning_rate": 1.1252144793147919e-05,
      "loss": 1.3935,
      "mean_token_accuracy": 0.666775236527125,
      "num_tokens": 1545256599.0,
      "step": 9220
    },
    {
      "entropy": 1.6706956028938293,
      "epoch": 1.0129631155420065,
      "grad_norm": 0.6474412083625793,
      "learning_rate": 1.1250544288830712e-05,
      "loss": 1.3071,
      "mean_token_accuracy": 0.6717335432767868,
      "num_tokens": 1545436360.0,
      "step": 9221
    },
    {
      "entropy": 1.670490821202596,
      "epoch": 1.0130729724533796,
      "grad_norm": 0.666471004486084,
      "learning_rate": 1.1248943776583892e-05,
      "loss": 1.3748,
      "mean_token_accuracy": 0.6653418590625128,
      "num_tokens": 1545607551.0,
      "step": 9222
    },
    {
      "entropy": 1.6969726085662842,
      "epoch": 1.0131828293647525,
      "grad_norm": 0.7258543968200684,
      "learning_rate": 1.124734325645811e-05,
      "loss": 1.3163,
      "mean_token_accuracy": 0.6724565674861273,
      "num_tokens": 1545796908.0,
      "step": 9223
    },
    {
      "entropy": 1.7342469195524852,
      "epoch": 1.0132926862761253,
      "grad_norm": 0.7631778717041016,
      "learning_rate": 1.1245742728504028e-05,
      "loss": 1.4204,
      "mean_token_accuracy": 0.6610995680093765,
      "num_tokens": 1545909631.0,
      "step": 9224
    },
    {
      "entropy": 1.7213138242562611,
      "epoch": 1.0134025431874982,
      "grad_norm": 0.6091188192367554,
      "learning_rate": 1.1244142192772301e-05,
      "loss": 1.4003,
      "mean_token_accuracy": 0.6554784874121348,
      "num_tokens": 1546167237.0,
      "step": 9225
    },
    {
      "entropy": 1.6888580818970997,
      "epoch": 1.0135124000988711,
      "grad_norm": 0.684411346912384,
      "learning_rate": 1.1242541649313577e-05,
      "loss": 1.4356,
      "mean_token_accuracy": 0.6582817882299423,
      "num_tokens": 1546363932.0,
      "step": 9226
    },
    {
      "entropy": 1.7218577762444813,
      "epoch": 1.0136222570102442,
      "grad_norm": 0.5998579263687134,
      "learning_rate": 1.1240941098178527e-05,
      "loss": 1.4542,
      "mean_token_accuracy": 0.6470504850149155,
      "num_tokens": 1546546664.0,
      "step": 9227
    },
    {
      "entropy": 1.6980265875657399,
      "epoch": 1.013732113921617,
      "grad_norm": 0.9041829109191895,
      "learning_rate": 1.1239340539417796e-05,
      "loss": 1.4107,
      "mean_token_accuracy": 0.651981790860494,
      "num_tokens": 1546699355.0,
      "step": 9228
    },
    {
      "entropy": 1.653926134109497,
      "epoch": 1.01384197083299,
      "grad_norm": 1.0387535095214844,
      "learning_rate": 1.1237739973082045e-05,
      "loss": 1.085,
      "mean_token_accuracy": 0.6834785888592402,
      "num_tokens": 1546888748.0,
      "step": 9229
    },
    {
      "entropy": 1.7255582809448242,
      "epoch": 1.0139518277443629,
      "grad_norm": 0.6586278676986694,
      "learning_rate": 1.123613939922193e-05,
      "loss": 1.3067,
      "mean_token_accuracy": 0.66642597814401,
      "num_tokens": 1547058192.0,
      "step": 9230
    },
    {
      "entropy": 1.6987995107968648,
      "epoch": 1.014061684655736,
      "grad_norm": 0.6259772777557373,
      "learning_rate": 1.1234538817888112e-05,
      "loss": 1.3602,
      "mean_token_accuracy": 0.6535337815682093,
      "num_tokens": 1547227451.0,
      "step": 9231
    },
    {
      "entropy": 1.7403975526491802,
      "epoch": 1.0141715415671089,
      "grad_norm": 0.6632811427116394,
      "learning_rate": 1.1232938229131243e-05,
      "loss": 1.3447,
      "mean_token_accuracy": 0.6578138470649719,
      "num_tokens": 1547376096.0,
      "step": 9232
    },
    {
      "entropy": 1.7203827500343323,
      "epoch": 1.0142813984784818,
      "grad_norm": 0.6725448369979858,
      "learning_rate": 1.1231337633001987e-05,
      "loss": 1.4274,
      "mean_token_accuracy": 0.6475430677334467,
      "num_tokens": 1547535222.0,
      "step": 9233
    },
    {
      "entropy": 1.7150332828362782,
      "epoch": 1.0143912553898546,
      "grad_norm": 0.6448984742164612,
      "learning_rate": 1.1229737029550997e-05,
      "loss": 1.2242,
      "mean_token_accuracy": 0.6787202705939611,
      "num_tokens": 1547643675.0,
      "step": 9234
    },
    {
      "entropy": 1.7125314672787983,
      "epoch": 1.0145011123012277,
      "grad_norm": 0.6407131552696228,
      "learning_rate": 1.1228136418828934e-05,
      "loss": 1.4369,
      "mean_token_accuracy": 0.6412733842929205,
      "num_tokens": 1547864654.0,
      "step": 9235
    },
    {
      "entropy": 1.6636697153250377,
      "epoch": 1.0146109692126006,
      "grad_norm": 0.7547443509101868,
      "learning_rate": 1.1226535800886456e-05,
      "loss": 1.2837,
      "mean_token_accuracy": 0.6684808333714803,
      "num_tokens": 1547998232.0,
      "step": 9236
    },
    {
      "entropy": 1.6625105440616608,
      "epoch": 1.0147208261239735,
      "grad_norm": 0.6787840723991394,
      "learning_rate": 1.1224935175774225e-05,
      "loss": 1.2093,
      "mean_token_accuracy": 0.6760126401980718,
      "num_tokens": 1548179995.0,
      "step": 9237
    },
    {
      "entropy": 1.7261524299780528,
      "epoch": 1.0148306830353464,
      "grad_norm": 0.7945687174797058,
      "learning_rate": 1.1223334543542892e-05,
      "loss": 1.3306,
      "mean_token_accuracy": 0.6550563474496206,
      "num_tokens": 1548324181.0,
      "step": 9238
    },
    {
      "entropy": 1.626392384370168,
      "epoch": 1.0149405399467193,
      "grad_norm": 0.5870576500892639,
      "learning_rate": 1.1221733904243126e-05,
      "loss": 1.314,
      "mean_token_accuracy": 0.6767490158478419,
      "num_tokens": 1548479091.0,
      "step": 9239
    },
    {
      "entropy": 1.62749649087588,
      "epoch": 1.0150503968580924,
      "grad_norm": 0.6715527772903442,
      "learning_rate": 1.1220133257925581e-05,
      "loss": 1.3297,
      "mean_token_accuracy": 0.6707568516333898,
      "num_tokens": 1548664070.0,
      "step": 9240
    },
    {
      "entropy": 1.7191180487473805,
      "epoch": 1.0151602537694653,
      "grad_norm": 0.6779627203941345,
      "learning_rate": 1.1218532604640912e-05,
      "loss": 1.4021,
      "mean_token_accuracy": 0.6458870420853297,
      "num_tokens": 1548850266.0,
      "step": 9241
    },
    {
      "entropy": 1.7357692917188008,
      "epoch": 1.0152701106808382,
      "grad_norm": 0.7277780175209045,
      "learning_rate": 1.121693194443979e-05,
      "loss": 1.2538,
      "mean_token_accuracy": 0.6712505420049032,
      "num_tokens": 1548990486.0,
      "step": 9242
    },
    {
      "entropy": 1.7432827452818553,
      "epoch": 1.015379967592211,
      "grad_norm": 0.6973701119422913,
      "learning_rate": 1.1215331277372869e-05,
      "loss": 1.3871,
      "mean_token_accuracy": 0.6440560271342596,
      "num_tokens": 1549135814.0,
      "step": 9243
    },
    {
      "entropy": 1.707447479168574,
      "epoch": 1.0154898245035842,
      "grad_norm": 0.7135317325592041,
      "learning_rate": 1.1213730603490808e-05,
      "loss": 1.5025,
      "mean_token_accuracy": 0.6496869872013727,
      "num_tokens": 1549283138.0,
      "step": 9244
    },
    {
      "entropy": 1.7765212555726368,
      "epoch": 1.015599681414957,
      "grad_norm": 0.6586817502975464,
      "learning_rate": 1.1212129922844275e-05,
      "loss": 1.3391,
      "mean_token_accuracy": 0.6648561110099157,
      "num_tokens": 1549420931.0,
      "step": 9245
    },
    {
      "entropy": 1.7636926869551341,
      "epoch": 1.01570953832633,
      "grad_norm": 0.6714787483215332,
      "learning_rate": 1.1210529235483921e-05,
      "loss": 1.4032,
      "mean_token_accuracy": 0.6477454006671906,
      "num_tokens": 1549548264.0,
      "step": 9246
    },
    {
      "entropy": 1.7096338669459026,
      "epoch": 1.0158193952377028,
      "grad_norm": 0.7031419277191162,
      "learning_rate": 1.1208928541460413e-05,
      "loss": 1.4511,
      "mean_token_accuracy": 0.6563627272844315,
      "num_tokens": 1549736242.0,
      "step": 9247
    },
    {
      "entropy": 1.6731836001078289,
      "epoch": 1.015929252149076,
      "grad_norm": 0.8989787697792053,
      "learning_rate": 1.1207327840824408e-05,
      "loss": 1.4856,
      "mean_token_accuracy": 0.6486278722683588,
      "num_tokens": 1549903701.0,
      "step": 9248
    },
    {
      "entropy": 1.6696616013844807,
      "epoch": 1.0160391090604488,
      "grad_norm": 0.6424921751022339,
      "learning_rate": 1.1205727133626577e-05,
      "loss": 1.3334,
      "mean_token_accuracy": 0.6658105552196503,
      "num_tokens": 1550064704.0,
      "step": 9249
    },
    {
      "entropy": 1.7057221233844757,
      "epoch": 1.0161489659718217,
      "grad_norm": 0.6833515763282776,
      "learning_rate": 1.1204126419917567e-05,
      "loss": 1.3819,
      "mean_token_accuracy": 0.6675165841976801,
      "num_tokens": 1550210298.0,
      "step": 9250
    },
    {
      "entropy": 1.6603924830754597,
      "epoch": 1.0162588228831946,
      "grad_norm": 0.7398085594177246,
      "learning_rate": 1.1202525699748053e-05,
      "loss": 1.4715,
      "mean_token_accuracy": 0.6583651875456175,
      "num_tokens": 1550374210.0,
      "step": 9251
    },
    {
      "entropy": 1.7534627715746562,
      "epoch": 1.0163686797945677,
      "grad_norm": 0.7214245796203613,
      "learning_rate": 1.120092497316869e-05,
      "loss": 1.5149,
      "mean_token_accuracy": 0.6404918928941091,
      "num_tokens": 1550522260.0,
      "step": 9252
    },
    {
      "entropy": 1.7200071314970653,
      "epoch": 1.0164785367059406,
      "grad_norm": 0.6468613743782043,
      "learning_rate": 1.1199324240230143e-05,
      "loss": 1.4526,
      "mean_token_accuracy": 0.6536131302515665,
      "num_tokens": 1550680157.0,
      "step": 9253
    },
    {
      "entropy": 1.7434161007404327,
      "epoch": 1.0165883936173135,
      "grad_norm": 0.6495728492736816,
      "learning_rate": 1.1197723500983069e-05,
      "loss": 1.3692,
      "mean_token_accuracy": 0.6529008895158768,
      "num_tokens": 1550834840.0,
      "step": 9254
    },
    {
      "entropy": 1.729017287492752,
      "epoch": 1.0166982505286863,
      "grad_norm": 0.6990881562232971,
      "learning_rate": 1.119612275547814e-05,
      "loss": 1.5721,
      "mean_token_accuracy": 0.6412505855162939,
      "num_tokens": 1551054269.0,
      "step": 9255
    },
    {
      "entropy": 1.7043547133604686,
      "epoch": 1.0168081074400592,
      "grad_norm": 0.6473329663276672,
      "learning_rate": 1.1194522003766013e-05,
      "loss": 1.315,
      "mean_token_accuracy": 0.6622092028458914,
      "num_tokens": 1551189361.0,
      "step": 9256
    },
    {
      "entropy": 1.7061095635096233,
      "epoch": 1.0169179643514323,
      "grad_norm": 0.7081418633460999,
      "learning_rate": 1.1192921245897353e-05,
      "loss": 1.4447,
      "mean_token_accuracy": 0.6577693919340769,
      "num_tokens": 1551368041.0,
      "step": 9257
    },
    {
      "entropy": 1.7616630991299946,
      "epoch": 1.0170278212628052,
      "grad_norm": 0.7121334075927734,
      "learning_rate": 1.1191320481922823e-05,
      "loss": 1.264,
      "mean_token_accuracy": 0.6756730278333029,
      "num_tokens": 1551481052.0,
      "step": 9258
    },
    {
      "entropy": 1.6953161557515461,
      "epoch": 1.017137678174178,
      "grad_norm": 0.6922043561935425,
      "learning_rate": 1.1189719711893088e-05,
      "loss": 1.3064,
      "mean_token_accuracy": 0.664389913280805,
      "num_tokens": 1551614812.0,
      "step": 9259
    },
    {
      "entropy": 1.6914753516515095,
      "epoch": 1.017247535085551,
      "grad_norm": 0.7497768402099609,
      "learning_rate": 1.1188118935858802e-05,
      "loss": 1.2366,
      "mean_token_accuracy": 0.6768055210510889,
      "num_tokens": 1551732083.0,
      "step": 9260
    },
    {
      "entropy": 1.6624971628189087,
      "epoch": 1.017357391996924,
      "grad_norm": 0.6488621830940247,
      "learning_rate": 1.1186518153870643e-05,
      "loss": 1.3451,
      "mean_token_accuracy": 0.661164661248525,
      "num_tokens": 1551882678.0,
      "step": 9261
    },
    {
      "entropy": 1.712691217660904,
      "epoch": 1.017467248908297,
      "grad_norm": 0.6433484554290771,
      "learning_rate": 1.1184917365979267e-05,
      "loss": 1.3778,
      "mean_token_accuracy": 0.6611688236395518,
      "num_tokens": 1552010626.0,
      "step": 9262
    },
    {
      "entropy": 1.6859545807043712,
      "epoch": 1.0175771058196699,
      "grad_norm": 0.6317065954208374,
      "learning_rate": 1.118331657223534e-05,
      "loss": 1.307,
      "mean_token_accuracy": 0.6647968838612238,
      "num_tokens": 1552155014.0,
      "step": 9263
    },
    {
      "entropy": 1.7237164676189423,
      "epoch": 1.0176869627310428,
      "grad_norm": 0.5941221117973328,
      "learning_rate": 1.1181715772689524e-05,
      "loss": 1.3943,
      "mean_token_accuracy": 0.6520277112722397,
      "num_tokens": 1552338624.0,
      "step": 9264
    },
    {
      "entropy": 1.7700924972693126,
      "epoch": 1.0177968196424159,
      "grad_norm": 0.8220915794372559,
      "learning_rate": 1.1180114967392488e-05,
      "loss": 1.5014,
      "mean_token_accuracy": 0.6256469786167145,
      "num_tokens": 1552565673.0,
      "step": 9265
    },
    {
      "entropy": 1.6931136548519135,
      "epoch": 1.0179066765537887,
      "grad_norm": 0.7540929913520813,
      "learning_rate": 1.1178514156394893e-05,
      "loss": 1.3396,
      "mean_token_accuracy": 0.6597989400227865,
      "num_tokens": 1552709040.0,
      "step": 9266
    },
    {
      "entropy": 1.7067534426848094,
      "epoch": 1.0180165334651616,
      "grad_norm": 0.720111608505249,
      "learning_rate": 1.1176913339747406e-05,
      "loss": 1.3746,
      "mean_token_accuracy": 0.6579870879650116,
      "num_tokens": 1552884550.0,
      "step": 9267
    },
    {
      "entropy": 1.7605009973049164,
      "epoch": 1.0181263903765345,
      "grad_norm": 0.77629554271698,
      "learning_rate": 1.1175312517500692e-05,
      "loss": 1.3439,
      "mean_token_accuracy": 0.6593941003084183,
      "num_tokens": 1553031590.0,
      "step": 9268
    },
    {
      "entropy": 1.7027594049771626,
      "epoch": 1.0182362472879074,
      "grad_norm": 0.5735223889350891,
      "learning_rate": 1.1173711689705413e-05,
      "loss": 1.5773,
      "mean_token_accuracy": 0.6314045637845993,
      "num_tokens": 1553236524.0,
      "step": 9269
    },
    {
      "entropy": 1.6763208210468292,
      "epoch": 1.0183461041992805,
      "grad_norm": 0.7643057107925415,
      "learning_rate": 1.117211085641224e-05,
      "loss": 1.2915,
      "mean_token_accuracy": 0.6760772267977396,
      "num_tokens": 1553392639.0,
      "step": 9270
    },
    {
      "entropy": 1.6933831572532654,
      "epoch": 1.0184559611106534,
      "grad_norm": 0.6687283515930176,
      "learning_rate": 1.1170510017671836e-05,
      "loss": 1.5079,
      "mean_token_accuracy": 0.636181429028511,
      "num_tokens": 1553611294.0,
      "step": 9271
    },
    {
      "entropy": 1.7319226165612538,
      "epoch": 1.0185658180220263,
      "grad_norm": 0.5630615949630737,
      "learning_rate": 1.1168909173534866e-05,
      "loss": 1.637,
      "mean_token_accuracy": 0.6280501782894135,
      "num_tokens": 1553812798.0,
      "step": 9272
    },
    {
      "entropy": 1.6394573052724202,
      "epoch": 1.0186756749333992,
      "grad_norm": 0.8335058093070984,
      "learning_rate": 1.1167308324051998e-05,
      "loss": 1.5129,
      "mean_token_accuracy": 0.6522385478019714,
      "num_tokens": 1553984737.0,
      "step": 9273
    },
    {
      "entropy": 1.6925493081410725,
      "epoch": 1.0187855318447723,
      "grad_norm": 0.6182948350906372,
      "learning_rate": 1.1165707469273894e-05,
      "loss": 1.3235,
      "mean_token_accuracy": 0.6617102771997452,
      "num_tokens": 1554122672.0,
      "step": 9274
    },
    {
      "entropy": 1.7493834793567657,
      "epoch": 1.0188953887561452,
      "grad_norm": 0.6503170132637024,
      "learning_rate": 1.116410660925123e-05,
      "loss": 1.4509,
      "mean_token_accuracy": 0.6459475109974543,
      "num_tokens": 1554293612.0,
      "step": 9275
    },
    {
      "entropy": 1.7210332651933034,
      "epoch": 1.019005245667518,
      "grad_norm": 0.6399514675140381,
      "learning_rate": 1.1162505744034658e-05,
      "loss": 1.3569,
      "mean_token_accuracy": 0.6521624475717545,
      "num_tokens": 1554536874.0,
      "step": 9276
    },
    {
      "entropy": 1.6515512764453888,
      "epoch": 1.019115102578891,
      "grad_norm": 0.6285982728004456,
      "learning_rate": 1.1160904873674855e-05,
      "loss": 1.275,
      "mean_token_accuracy": 0.6685600280761719,
      "num_tokens": 1554689700.0,
      "step": 9277
    },
    {
      "entropy": 1.7064630885918934,
      "epoch": 1.019224959490264,
      "grad_norm": 0.8239073753356934,
      "learning_rate": 1.1159303998222484e-05,
      "loss": 1.3523,
      "mean_token_accuracy": 0.6559799164533615,
      "num_tokens": 1554826581.0,
      "step": 9278
    },
    {
      "entropy": 1.7321425378322601,
      "epoch": 1.019334816401637,
      "grad_norm": 0.8235211968421936,
      "learning_rate": 1.1157703117728216e-05,
      "loss": 1.3853,
      "mean_token_accuracy": 0.6528972536325455,
      "num_tokens": 1554968925.0,
      "step": 9279
    },
    {
      "entropy": 1.6756745378176372,
      "epoch": 1.0194446733130098,
      "grad_norm": 0.808443009853363,
      "learning_rate": 1.1156102232242714e-05,
      "loss": 1.3856,
      "mean_token_accuracy": 0.6638946781555811,
      "num_tokens": 1555130010.0,
      "step": 9280
    },
    {
      "entropy": 1.7489099601904552,
      "epoch": 1.0195545302243827,
      "grad_norm": 0.7170142531394958,
      "learning_rate": 1.1154501341816648e-05,
      "loss": 1.3066,
      "mean_token_accuracy": 0.6800417453050613,
      "num_tokens": 1555288245.0,
      "step": 9281
    },
    {
      "entropy": 1.707829624414444,
      "epoch": 1.0196643871357556,
      "grad_norm": 0.7252710461616516,
      "learning_rate": 1.115290044650068e-05,
      "loss": 1.3392,
      "mean_token_accuracy": 0.6582317799329758,
      "num_tokens": 1555441544.0,
      "step": 9282
    },
    {
      "entropy": 1.6867429316043854,
      "epoch": 1.0197742440471287,
      "grad_norm": 0.6245051026344299,
      "learning_rate": 1.1151299546345487e-05,
      "loss": 1.3129,
      "mean_token_accuracy": 0.6731636921564738,
      "num_tokens": 1555573014.0,
      "step": 9283
    },
    {
      "entropy": 1.6290603975454967,
      "epoch": 1.0198841009585016,
      "grad_norm": 10.985240936279297,
      "learning_rate": 1.1149698641401729e-05,
      "loss": 1.1759,
      "mean_token_accuracy": 0.6769275714953741,
      "num_tokens": 1555740917.0,
      "step": 9284
    },
    {
      "entropy": 1.7704954346021016,
      "epoch": 1.0199939578698745,
      "grad_norm": 0.7116957306861877,
      "learning_rate": 1.1148097731720075e-05,
      "loss": 1.3332,
      "mean_token_accuracy": 0.6628136684497198,
      "num_tokens": 1555866851.0,
      "step": 9285
    },
    {
      "entropy": 1.7090757687886555,
      "epoch": 1.0201038147812473,
      "grad_norm": 0.7023559808731079,
      "learning_rate": 1.1146496817351198e-05,
      "loss": 1.378,
      "mean_token_accuracy": 0.6548497478167216,
      "num_tokens": 1556020336.0,
      "step": 9286
    },
    {
      "entropy": 1.6991868913173676,
      "epoch": 1.0202136716926204,
      "grad_norm": 0.6621536612510681,
      "learning_rate": 1.1144895898345763e-05,
      "loss": 1.4705,
      "mean_token_accuracy": 0.6551912526289622,
      "num_tokens": 1556223903.0,
      "step": 9287
    },
    {
      "entropy": 1.6916466653347015,
      "epoch": 1.0203235286039933,
      "grad_norm": 0.6319494843482971,
      "learning_rate": 1.1143294974754432e-05,
      "loss": 1.3627,
      "mean_token_accuracy": 0.6651053031285604,
      "num_tokens": 1556404805.0,
      "step": 9288
    },
    {
      "entropy": 1.7253743211428325,
      "epoch": 1.0204333855153662,
      "grad_norm": 0.8715941309928894,
      "learning_rate": 1.1141694046627887e-05,
      "loss": 1.3739,
      "mean_token_accuracy": 0.6772264291842779,
      "num_tokens": 1556567447.0,
      "step": 9289
    },
    {
      "entropy": 1.6666424969832103,
      "epoch": 1.020543242426739,
      "grad_norm": 0.7647740244865417,
      "learning_rate": 1.1140093114016785e-05,
      "loss": 1.5055,
      "mean_token_accuracy": 0.6350631018479665,
      "num_tokens": 1556756290.0,
      "step": 9290
    },
    {
      "entropy": 1.708291381597519,
      "epoch": 1.0206530993381122,
      "grad_norm": 0.6904531121253967,
      "learning_rate": 1.11384921769718e-05,
      "loss": 1.3246,
      "mean_token_accuracy": 0.6716498136520386,
      "num_tokens": 1556892411.0,
      "step": 9291
    },
    {
      "entropy": 1.7041618327299755,
      "epoch": 1.020762956249485,
      "grad_norm": 0.7279467582702637,
      "learning_rate": 1.1136891235543602e-05,
      "loss": 1.3717,
      "mean_token_accuracy": 0.653698722521464,
      "num_tokens": 1557050513.0,
      "step": 9292
    },
    {
      "entropy": 1.6928143699963887,
      "epoch": 1.020872813160858,
      "grad_norm": 0.6164371371269226,
      "learning_rate": 1.1135290289782856e-05,
      "loss": 1.2497,
      "mean_token_accuracy": 0.684166838725408,
      "num_tokens": 1557186695.0,
      "step": 9293
    },
    {
      "entropy": 1.6356267134348552,
      "epoch": 1.0209826700722309,
      "grad_norm": 0.6712630391120911,
      "learning_rate": 1.1133689339740232e-05,
      "loss": 1.2799,
      "mean_token_accuracy": 0.6790573745965958,
      "num_tokens": 1557342961.0,
      "step": 9294
    },
    {
      "entropy": 1.7505371868610382,
      "epoch": 1.0210925269836038,
      "grad_norm": 0.7134815454483032,
      "learning_rate": 1.1132088385466404e-05,
      "loss": 1.3846,
      "mean_token_accuracy": 0.6622013101975123,
      "num_tokens": 1557505250.0,
      "step": 9295
    },
    {
      "entropy": 1.730526864528656,
      "epoch": 1.0212023838949769,
      "grad_norm": 0.7285529971122742,
      "learning_rate": 1.1130487427012035e-05,
      "loss": 1.2494,
      "mean_token_accuracy": 0.671364982922872,
      "num_tokens": 1557626583.0,
      "step": 9296
    },
    {
      "entropy": 1.6375334958235424,
      "epoch": 1.0213122408063497,
      "grad_norm": 0.5679100155830383,
      "learning_rate": 1.11288864644278e-05,
      "loss": 1.5019,
      "mean_token_accuracy": 0.64617853363355,
      "num_tokens": 1557848562.0,
      "step": 9297
    },
    {
      "entropy": 1.6906728843847911,
      "epoch": 1.0214220977177226,
      "grad_norm": 0.7008233070373535,
      "learning_rate": 1.1127285497764366e-05,
      "loss": 1.4128,
      "mean_token_accuracy": 0.6613838970661163,
      "num_tokens": 1558008515.0,
      "step": 9298
    },
    {
      "entropy": 1.7250931958357494,
      "epoch": 1.0215319546290955,
      "grad_norm": 0.7736313343048096,
      "learning_rate": 1.1125684527072403e-05,
      "loss": 1.5166,
      "mean_token_accuracy": 0.6381128629048666,
      "num_tokens": 1558218566.0,
      "step": 9299
    },
    {
      "entropy": 1.7384556730588276,
      "epoch": 1.0216418115404686,
      "grad_norm": 0.7157011032104492,
      "learning_rate": 1.1124083552402578e-05,
      "loss": 1.3946,
      "mean_token_accuracy": 0.6412435173988342,
      "num_tokens": 1558416646.0,
      "step": 9300
    },
    {
      "entropy": 1.7145174245039623,
      "epoch": 1.0217516684518415,
      "grad_norm": 0.5953468680381775,
      "learning_rate": 1.1122482573805572e-05,
      "loss": 1.3498,
      "mean_token_accuracy": 0.6631358712911606,
      "num_tokens": 1558570368.0,
      "step": 9301
    },
    {
      "entropy": 1.5895135502020519,
      "epoch": 1.0218615253632144,
      "grad_norm": 0.6971820592880249,
      "learning_rate": 1.1120881591332042e-05,
      "loss": 1.3617,
      "mean_token_accuracy": 0.6736765454212824,
      "num_tokens": 1558745606.0,
      "step": 9302
    },
    {
      "entropy": 1.7481009860833485,
      "epoch": 1.0219713822745873,
      "grad_norm": 0.6487974524497986,
      "learning_rate": 1.1119280605032667e-05,
      "loss": 1.5241,
      "mean_token_accuracy": 0.629365916053454,
      "num_tokens": 1558940755.0,
      "step": 9303
    },
    {
      "entropy": 1.7577315270900726,
      "epoch": 1.0220812391859604,
      "grad_norm": 0.7471747398376465,
      "learning_rate": 1.111767961495811e-05,
      "loss": 1.5136,
      "mean_token_accuracy": 0.6320231805245081,
      "num_tokens": 1559112446.0,
      "step": 9304
    },
    {
      "entropy": 1.6948171555995941,
      "epoch": 1.0221910960973333,
      "grad_norm": 0.642125129699707,
      "learning_rate": 1.111607862115905e-05,
      "loss": 1.4423,
      "mean_token_accuracy": 0.6560766796271006,
      "num_tokens": 1559341272.0,
      "step": 9305
    },
    {
      "entropy": 1.682332714398702,
      "epoch": 1.0223009530087062,
      "grad_norm": 0.6562165021896362,
      "learning_rate": 1.1114477623686155e-05,
      "loss": 1.3956,
      "mean_token_accuracy": 0.6665085901816686,
      "num_tokens": 1559494474.0,
      "step": 9306
    },
    {
      "entropy": 1.724548449118932,
      "epoch": 1.022410809920079,
      "grad_norm": 0.6904338002204895,
      "learning_rate": 1.1112876622590091e-05,
      "loss": 1.4954,
      "mean_token_accuracy": 0.656151756644249,
      "num_tokens": 1559687605.0,
      "step": 9307
    },
    {
      "entropy": 1.7673320770263672,
      "epoch": 1.022520666831452,
      "grad_norm": 0.6390427350997925,
      "learning_rate": 1.1111275617921538e-05,
      "loss": 1.3457,
      "mean_token_accuracy": 0.6566664973894755,
      "num_tokens": 1559816863.0,
      "step": 9308
    },
    {
      "entropy": 1.7288634777069092,
      "epoch": 1.022630523742825,
      "grad_norm": 0.8318937420845032,
      "learning_rate": 1.1109674609731158e-05,
      "loss": 1.4264,
      "mean_token_accuracy": 0.6647811233997345,
      "num_tokens": 1559943550.0,
      "step": 9309
    },
    {
      "entropy": 1.6661728421847026,
      "epoch": 1.022740380654198,
      "grad_norm": 0.7150062918663025,
      "learning_rate": 1.1108073598069624e-05,
      "loss": 1.3994,
      "mean_token_accuracy": 0.6527441392342249,
      "num_tokens": 1560098393.0,
      "step": 9310
    },
    {
      "entropy": 1.6526323854923248,
      "epoch": 1.0228502375655708,
      "grad_norm": 0.765347421169281,
      "learning_rate": 1.1106472582987615e-05,
      "loss": 1.359,
      "mean_token_accuracy": 0.6697281499703726,
      "num_tokens": 1560239415.0,
      "step": 9311
    },
    {
      "entropy": 1.6831820905208588,
      "epoch": 1.0229600944769437,
      "grad_norm": 0.7733060121536255,
      "learning_rate": 1.1104871564535792e-05,
      "loss": 1.3801,
      "mean_token_accuracy": 0.6575480302174886,
      "num_tokens": 1560411622.0,
      "step": 9312
    },
    {
      "entropy": 1.7815355956554413,
      "epoch": 1.0230699513883168,
      "grad_norm": 0.7969313859939575,
      "learning_rate": 1.1103270542764832e-05,
      "loss": 1.3305,
      "mean_token_accuracy": 0.665749246875445,
      "num_tokens": 1560515174.0,
      "step": 9313
    },
    {
      "entropy": 1.7089110016822815,
      "epoch": 1.0231798082996897,
      "grad_norm": 0.6208791136741638,
      "learning_rate": 1.1101669517725409e-05,
      "loss": 1.4192,
      "mean_token_accuracy": 0.6394672940174738,
      "num_tokens": 1560678366.0,
      "step": 9314
    },
    {
      "entropy": 1.6642550726731618,
      "epoch": 1.0232896652110626,
      "grad_norm": 0.7100003361701965,
      "learning_rate": 1.110006848946819e-05,
      "loss": 1.3558,
      "mean_token_accuracy": 0.672847161690394,
      "num_tokens": 1560836440.0,
      "step": 9315
    },
    {
      "entropy": 1.6587112347284954,
      "epoch": 1.0233995221224355,
      "grad_norm": 0.631491482257843,
      "learning_rate": 1.1098467458043844e-05,
      "loss": 1.3645,
      "mean_token_accuracy": 0.6515796532233556,
      "num_tokens": 1561021294.0,
      "step": 9316
    },
    {
      "entropy": 1.7398035724957783,
      "epoch": 1.0235093790338086,
      "grad_norm": 0.7306511402130127,
      "learning_rate": 1.1096866423503054e-05,
      "loss": 1.5682,
      "mean_token_accuracy": 0.6455154716968536,
      "num_tokens": 1561199258.0,
      "step": 9317
    },
    {
      "entropy": 1.6927287181218464,
      "epoch": 1.0236192359451814,
      "grad_norm": 0.6335356831550598,
      "learning_rate": 1.1095265385896484e-05,
      "loss": 1.4913,
      "mean_token_accuracy": 0.6352100173632304,
      "num_tokens": 1561425004.0,
      "step": 9318
    },
    {
      "entropy": 1.7034152448177338,
      "epoch": 1.0237290928565543,
      "grad_norm": 0.6361052989959717,
      "learning_rate": 1.1093664345274804e-05,
      "loss": 1.5067,
      "mean_token_accuracy": 0.6494300862153372,
      "num_tokens": 1561637991.0,
      "step": 9319
    },
    {
      "entropy": 1.69016628464063,
      "epoch": 1.0238389497679272,
      "grad_norm": 0.6373481750488281,
      "learning_rate": 1.1092063301688691e-05,
      "loss": 1.4863,
      "mean_token_accuracy": 0.6439661830663681,
      "num_tokens": 1561838602.0,
      "step": 9320
    },
    {
      "entropy": 1.6587995290756226,
      "epoch": 1.0239488066793,
      "grad_norm": 0.8336928486824036,
      "learning_rate": 1.1090462255188819e-05,
      "loss": 1.2563,
      "mean_token_accuracy": 0.6774145613114039,
      "num_tokens": 1561963251.0,
      "step": 9321
    },
    {
      "entropy": 1.7257398466269176,
      "epoch": 1.0240586635906732,
      "grad_norm": 0.6993498802185059,
      "learning_rate": 1.1088861205825853e-05,
      "loss": 1.3805,
      "mean_token_accuracy": 0.6668401459852854,
      "num_tokens": 1562127473.0,
      "step": 9322
    },
    {
      "entropy": 1.7249635954697926,
      "epoch": 1.024168520502046,
      "grad_norm": 0.7952443957328796,
      "learning_rate": 1.1087260153650474e-05,
      "loss": 1.7184,
      "mean_token_accuracy": 0.638072150448958,
      "num_tokens": 1562317748.0,
      "step": 9323
    },
    {
      "entropy": 1.6867842574914296,
      "epoch": 1.024278377413419,
      "grad_norm": 0.749860405921936,
      "learning_rate": 1.1085659098713348e-05,
      "loss": 1.4717,
      "mean_token_accuracy": 0.6456845154364904,
      "num_tokens": 1562512974.0,
      "step": 9324
    },
    {
      "entropy": 1.7148866256078084,
      "epoch": 1.0243882343247919,
      "grad_norm": 0.8800878524780273,
      "learning_rate": 1.1084058041065151e-05,
      "loss": 1.4662,
      "mean_token_accuracy": 0.6518640766541163,
      "num_tokens": 1562660251.0,
      "step": 9325
    },
    {
      "entropy": 1.7287410298983257,
      "epoch": 1.024498091236165,
      "grad_norm": 0.7516173720359802,
      "learning_rate": 1.1082456980756553e-05,
      "loss": 1.4594,
      "mean_token_accuracy": 0.6475322792927424,
      "num_tokens": 1562818950.0,
      "step": 9326
    },
    {
      "entropy": 1.6619328260421753,
      "epoch": 1.0246079481475379,
      "grad_norm": 0.589447557926178,
      "learning_rate": 1.1080855917838232e-05,
      "loss": 1.3906,
      "mean_token_accuracy": 0.662062461177508,
      "num_tokens": 1562994934.0,
      "step": 9327
    },
    {
      "entropy": 1.6725085377693176,
      "epoch": 1.0247178050589107,
      "grad_norm": 0.5970123410224915,
      "learning_rate": 1.1079254852360852e-05,
      "loss": 1.4908,
      "mean_token_accuracy": 0.6354695955912272,
      "num_tokens": 1563198043.0,
      "step": 9328
    },
    {
      "entropy": 1.7263079186280568,
      "epoch": 1.0248276619702836,
      "grad_norm": 0.7884548902511597,
      "learning_rate": 1.1077653784375098e-05,
      "loss": 1.3299,
      "mean_token_accuracy": 0.6538351277510325,
      "num_tokens": 1563372999.0,
      "step": 9329
    },
    {
      "entropy": 1.755046049753825,
      "epoch": 1.0249375188816567,
      "grad_norm": 0.8799434900283813,
      "learning_rate": 1.1076052713931633e-05,
      "loss": 1.5743,
      "mean_token_accuracy": 0.6435807049274445,
      "num_tokens": 1563531399.0,
      "step": 9330
    },
    {
      "entropy": 1.6757254600524902,
      "epoch": 1.0250473757930296,
      "grad_norm": 0.7605611085891724,
      "learning_rate": 1.1074451641081135e-05,
      "loss": 1.3706,
      "mean_token_accuracy": 0.6580003201961517,
      "num_tokens": 1563710017.0,
      "step": 9331
    },
    {
      "entropy": 1.7006694972515106,
      "epoch": 1.0251572327044025,
      "grad_norm": 0.7495110630989075,
      "learning_rate": 1.1072850565874274e-05,
      "loss": 1.3559,
      "mean_token_accuracy": 0.6717531283696493,
      "num_tokens": 1563867033.0,
      "step": 9332
    },
    {
      "entropy": 1.6994576354821522,
      "epoch": 1.0252670896157754,
      "grad_norm": 0.7062970399856567,
      "learning_rate": 1.107124948836173e-05,
      "loss": 1.3514,
      "mean_token_accuracy": 0.6614094525575638,
      "num_tokens": 1563988943.0,
      "step": 9333
    },
    {
      "entropy": 1.681195815404256,
      "epoch": 1.0253769465271483,
      "grad_norm": 0.8650986552238464,
      "learning_rate": 1.1069648408594168e-05,
      "loss": 1.444,
      "mean_token_accuracy": 0.6560016522804896,
      "num_tokens": 1564179018.0,
      "step": 9334
    },
    {
      "entropy": 1.734657605489095,
      "epoch": 1.0254868034385214,
      "grad_norm": 0.688232958316803,
      "learning_rate": 1.1068047326622269e-05,
      "loss": 1.5821,
      "mean_token_accuracy": 0.6293347378571829,
      "num_tokens": 1564399374.0,
      "step": 9335
    },
    {
      "entropy": 1.7198534111181896,
      "epoch": 1.0255966603498943,
      "grad_norm": 0.712509036064148,
      "learning_rate": 1.1066446242496697e-05,
      "loss": 1.3292,
      "mean_token_accuracy": 0.6663158188263575,
      "num_tokens": 1564521995.0,
      "step": 9336
    },
    {
      "entropy": 1.752720485130946,
      "epoch": 1.0257065172612672,
      "grad_norm": 1.8393864631652832,
      "learning_rate": 1.1064845156268135e-05,
      "loss": 1.3724,
      "mean_token_accuracy": 0.6571303755044937,
      "num_tokens": 1564664216.0,
      "step": 9337
    },
    {
      "entropy": 1.6954265733559926,
      "epoch": 1.02581637417264,
      "grad_norm": 0.6746184825897217,
      "learning_rate": 1.1063244067987253e-05,
      "loss": 1.4452,
      "mean_token_accuracy": 0.6532609164714813,
      "num_tokens": 1564867480.0,
      "step": 9338
    },
    {
      "entropy": 1.7057288686434429,
      "epoch": 1.0259262310840132,
      "grad_norm": 0.6397607326507568,
      "learning_rate": 1.1061642977704726e-05,
      "loss": 1.5297,
      "mean_token_accuracy": 0.6352156102657318,
      "num_tokens": 1565064367.0,
      "step": 9339
    },
    {
      "entropy": 1.7565435369809468,
      "epoch": 1.026036087995386,
      "grad_norm": 0.7192218899726868,
      "learning_rate": 1.1060041885471224e-05,
      "loss": 1.4612,
      "mean_token_accuracy": 0.6381704757610956,
      "num_tokens": 1565271382.0,
      "step": 9340
    },
    {
      "entropy": 1.7230738202730815,
      "epoch": 1.026145944906759,
      "grad_norm": 0.6718366742134094,
      "learning_rate": 1.1058440791337424e-05,
      "loss": 1.5053,
      "mean_token_accuracy": 0.6260107507308325,
      "num_tokens": 1565498782.0,
      "step": 9341
    },
    {
      "entropy": 1.7352421184380848,
      "epoch": 1.0262558018181318,
      "grad_norm": 0.8205738663673401,
      "learning_rate": 1.1056839695354e-05,
      "loss": 1.6207,
      "mean_token_accuracy": 0.6656580666700999,
      "num_tokens": 1565694130.0,
      "step": 9342
    },
    {
      "entropy": 1.709681620200475,
      "epoch": 1.026365658729505,
      "grad_norm": 0.6529027223587036,
      "learning_rate": 1.1055238597571627e-05,
      "loss": 1.4073,
      "mean_token_accuracy": 0.656768262386322,
      "num_tokens": 1565886376.0,
      "step": 9343
    },
    {
      "entropy": 1.7247290511926014,
      "epoch": 1.0264755156408778,
      "grad_norm": 0.8053439855575562,
      "learning_rate": 1.1053637498040972e-05,
      "loss": 1.3863,
      "mean_token_accuracy": 0.6635664304097494,
      "num_tokens": 1566024854.0,
      "step": 9344
    },
    {
      "entropy": 1.7492102185885112,
      "epoch": 1.0265853725522507,
      "grad_norm": 0.7567391395568848,
      "learning_rate": 1.105203639681272e-05,
      "loss": 1.4823,
      "mean_token_accuracy": 0.6328875770171484,
      "num_tokens": 1566239010.0,
      "step": 9345
    },
    {
      "entropy": 1.6845263640085857,
      "epoch": 1.0266952294636236,
      "grad_norm": 0.658109724521637,
      "learning_rate": 1.1050435293937535e-05,
      "loss": 1.5708,
      "mean_token_accuracy": 0.6598745634158453,
      "num_tokens": 1566396108.0,
      "step": 9346
    },
    {
      "entropy": 1.7013383607069652,
      "epoch": 1.0268050863749965,
      "grad_norm": 0.7290819883346558,
      "learning_rate": 1.10488341894661e-05,
      "loss": 1.309,
      "mean_token_accuracy": 0.6661685655514399,
      "num_tokens": 1566506452.0,
      "step": 9347
    },
    {
      "entropy": 1.7153269449869792,
      "epoch": 1.0269149432863696,
      "grad_norm": 0.6383672952651978,
      "learning_rate": 1.104723308344908e-05,
      "loss": 1.5736,
      "mean_token_accuracy": 0.6496073206265768,
      "num_tokens": 1566669636.0,
      "step": 9348
    },
    {
      "entropy": 1.7498332460721333,
      "epoch": 1.0270248001977424,
      "grad_norm": 1.3603650331497192,
      "learning_rate": 1.1045631975937162e-05,
      "loss": 1.54,
      "mean_token_accuracy": 0.6541606038808823,
      "num_tokens": 1566846993.0,
      "step": 9349
    },
    {
      "entropy": 1.6750881572564442,
      "epoch": 1.0271346571091153,
      "grad_norm": 0.8021945357322693,
      "learning_rate": 1.1044030866981003e-05,
      "loss": 1.4035,
      "mean_token_accuracy": 0.664098913470904,
      "num_tokens": 1567016917.0,
      "step": 9350
    },
    {
      "entropy": 1.680233657360077,
      "epoch": 1.0272445140204882,
      "grad_norm": 0.6845235824584961,
      "learning_rate": 1.1042429756631291e-05,
      "loss": 1.4367,
      "mean_token_accuracy": 0.6555875589450201,
      "num_tokens": 1567176851.0,
      "step": 9351
    },
    {
      "entropy": 1.6933209796746571,
      "epoch": 1.0273543709318613,
      "grad_norm": 0.7372247576713562,
      "learning_rate": 1.1040828644938697e-05,
      "loss": 1.4267,
      "mean_token_accuracy": 0.6577855745951334,
      "num_tokens": 1567371811.0,
      "step": 9352
    },
    {
      "entropy": 1.7011990348498027,
      "epoch": 1.0274642278432342,
      "grad_norm": 0.7555881142616272,
      "learning_rate": 1.1039227531953896e-05,
      "loss": 1.2464,
      "mean_token_accuracy": 0.6763677497704824,
      "num_tokens": 1567559137.0,
      "step": 9353
    },
    {
      "entropy": 1.7057754397392273,
      "epoch": 1.027574084754607,
      "grad_norm": 0.7010595202445984,
      "learning_rate": 1.1037626417727558e-05,
      "loss": 1.4121,
      "mean_token_accuracy": 0.6522766401370367,
      "num_tokens": 1567756111.0,
      "step": 9354
    },
    {
      "entropy": 1.7608352601528168,
      "epoch": 1.02768394166598,
      "grad_norm": 0.7014980912208557,
      "learning_rate": 1.1036025302310364e-05,
      "loss": 1.4579,
      "mean_token_accuracy": 0.6561769843101501,
      "num_tokens": 1567928704.0,
      "step": 9355
    },
    {
      "entropy": 1.7167177398999531,
      "epoch": 1.027793798577353,
      "grad_norm": 0.7096652984619141,
      "learning_rate": 1.1034424185752982e-05,
      "loss": 1.301,
      "mean_token_accuracy": 0.6627550721168518,
      "num_tokens": 1568041208.0,
      "step": 9356
    },
    {
      "entropy": 1.706625332434972,
      "epoch": 1.027903655488726,
      "grad_norm": 0.7294109463691711,
      "learning_rate": 1.1032823068106092e-05,
      "loss": 1.4412,
      "mean_token_accuracy": 0.6564443955818812,
      "num_tokens": 1568214563.0,
      "step": 9357
    },
    {
      "entropy": 1.7395167748133342,
      "epoch": 1.0280135124000989,
      "grad_norm": 0.7195934653282166,
      "learning_rate": 1.1031221949420368e-05,
      "loss": 1.3897,
      "mean_token_accuracy": 0.649207149942716,
      "num_tokens": 1568397977.0,
      "step": 9358
    },
    {
      "entropy": 1.692352334658305,
      "epoch": 1.0281233693114717,
      "grad_norm": 0.6182077527046204,
      "learning_rate": 1.1029620829746482e-05,
      "loss": 1.4435,
      "mean_token_accuracy": 0.6503968785206476,
      "num_tokens": 1568599949.0,
      "step": 9359
    },
    {
      "entropy": 1.7287443379561107,
      "epoch": 1.0282332262228449,
      "grad_norm": 0.7307857871055603,
      "learning_rate": 1.102801970913511e-05,
      "loss": 1.3121,
      "mean_token_accuracy": 0.6638143807649612,
      "num_tokens": 1568741614.0,
      "step": 9360
    },
    {
      "entropy": 1.699091374874115,
      "epoch": 1.0283430831342177,
      "grad_norm": 0.6680180430412292,
      "learning_rate": 1.1026418587636926e-05,
      "loss": 1.4316,
      "mean_token_accuracy": 0.6453281243642172,
      "num_tokens": 1568903127.0,
      "step": 9361
    },
    {
      "entropy": 1.7088652749856312,
      "epoch": 1.0284529400455906,
      "grad_norm": 0.7400436997413635,
      "learning_rate": 1.1024817465302604e-05,
      "loss": 1.3959,
      "mean_token_accuracy": 0.6520246714353561,
      "num_tokens": 1569104488.0,
      "step": 9362
    },
    {
      "entropy": 1.6986040870348613,
      "epoch": 1.0285627969569635,
      "grad_norm": 0.6973623037338257,
      "learning_rate": 1.1023216342182825e-05,
      "loss": 1.3094,
      "mean_token_accuracy": 0.6667328427235285,
      "num_tokens": 1569258463.0,
      "step": 9363
    },
    {
      "entropy": 1.7184610863526661,
      "epoch": 1.0286726538683364,
      "grad_norm": 0.7891613245010376,
      "learning_rate": 1.1021615218328257e-05,
      "loss": 1.5252,
      "mean_token_accuracy": 0.6617070535818735,
      "num_tokens": 1569458294.0,
      "step": 9364
    },
    {
      "entropy": 1.6800651748975117,
      "epoch": 1.0287825107797095,
      "grad_norm": 0.6154624223709106,
      "learning_rate": 1.102001409378958e-05,
      "loss": 1.3427,
      "mean_token_accuracy": 0.6658696780602137,
      "num_tokens": 1569657703.0,
      "step": 9365
    },
    {
      "entropy": 1.6739746828873951,
      "epoch": 1.0288923676910824,
      "grad_norm": 0.5887352228164673,
      "learning_rate": 1.101841296861746e-05,
      "loss": 1.3319,
      "mean_token_accuracy": 0.664004052678744,
      "num_tokens": 1569812239.0,
      "step": 9366
    },
    {
      "entropy": 1.7404913504918416,
      "epoch": 1.0290022246024553,
      "grad_norm": 0.6177912354469299,
      "learning_rate": 1.1016811842862583e-05,
      "loss": 1.3795,
      "mean_token_accuracy": 0.6624182611703873,
      "num_tokens": 1569971143.0,
      "step": 9367
    },
    {
      "entropy": 1.7285182078679402,
      "epoch": 1.0291120815138282,
      "grad_norm": 0.6963897347450256,
      "learning_rate": 1.1015210716575614e-05,
      "loss": 1.2931,
      "mean_token_accuracy": 0.6709794253110886,
      "num_tokens": 1570122158.0,
      "step": 9368
    },
    {
      "entropy": 1.7291064659754436,
      "epoch": 1.0292219384252013,
      "grad_norm": 0.6220366358757019,
      "learning_rate": 1.1013609589807237e-05,
      "loss": 1.3733,
      "mean_token_accuracy": 0.6541631271441778,
      "num_tokens": 1570257383.0,
      "step": 9369
    },
    {
      "entropy": 1.6683486600716908,
      "epoch": 1.0293317953365742,
      "grad_norm": 0.6968728303909302,
      "learning_rate": 1.1012008462608119e-05,
      "loss": 1.3097,
      "mean_token_accuracy": 0.6743961970011393,
      "num_tokens": 1570389364.0,
      "step": 9370
    },
    {
      "entropy": 1.680118163426717,
      "epoch": 1.029441652247947,
      "grad_norm": 0.7007773518562317,
      "learning_rate": 1.1010407335028944e-05,
      "loss": 1.3684,
      "mean_token_accuracy": 0.6575128883123398,
      "num_tokens": 1570532077.0,
      "step": 9371
    },
    {
      "entropy": 1.697032392024994,
      "epoch": 1.02955150915932,
      "grad_norm": 0.6026526093482971,
      "learning_rate": 1.1008806207120376e-05,
      "loss": 1.3735,
      "mean_token_accuracy": 0.6517840176820755,
      "num_tokens": 1570684541.0,
      "step": 9372
    },
    {
      "entropy": 1.6714433928330739,
      "epoch": 1.029661366070693,
      "grad_norm": 0.6352996230125427,
      "learning_rate": 1.1007205078933099e-05,
      "loss": 1.3515,
      "mean_token_accuracy": 0.6700502683719,
      "num_tokens": 1570836377.0,
      "step": 9373
    },
    {
      "entropy": 1.6749180654684703,
      "epoch": 1.029771222982066,
      "grad_norm": 0.6775603890419006,
      "learning_rate": 1.1005603950517783e-05,
      "loss": 1.3308,
      "mean_token_accuracy": 0.6705063283443451,
      "num_tokens": 1571008501.0,
      "step": 9374
    },
    {
      "entropy": 1.6891617675622304,
      "epoch": 1.0298810798934388,
      "grad_norm": 0.6425476670265198,
      "learning_rate": 1.1004002821925104e-05,
      "loss": 1.3842,
      "mean_token_accuracy": 0.6577885945638021,
      "num_tokens": 1571178622.0,
      "step": 9375
    },
    {
      "entropy": 1.6456943849722545,
      "epoch": 1.0299909368048117,
      "grad_norm": 2.2865750789642334,
      "learning_rate": 1.1002401693205738e-05,
      "loss": 1.3875,
      "mean_token_accuracy": 0.6783433457215627,
      "num_tokens": 1571353888.0,
      "step": 9376
    },
    {
      "entropy": 1.6456839342912037,
      "epoch": 1.0301007937161846,
      "grad_norm": 0.7852012515068054,
      "learning_rate": 1.1000800564410362e-05,
      "loss": 1.3242,
      "mean_token_accuracy": 0.6605374266703924,
      "num_tokens": 1571473748.0,
      "step": 9377
    },
    {
      "entropy": 1.699092835187912,
      "epoch": 1.0302106506275577,
      "grad_norm": 0.6551658511161804,
      "learning_rate": 1.0999199435589643e-05,
      "loss": 1.5777,
      "mean_token_accuracy": 0.6421516289313635,
      "num_tokens": 1571656099.0,
      "step": 9378
    },
    {
      "entropy": 1.7373557190100353,
      "epoch": 1.0303205075389306,
      "grad_norm": 0.6427181363105774,
      "learning_rate": 1.0997598306794269e-05,
      "loss": 1.578,
      "mean_token_accuracy": 0.641086682677269,
      "num_tokens": 1571911580.0,
      "step": 9379
    },
    {
      "entropy": 1.6774665514628093,
      "epoch": 1.0304303644503034,
      "grad_norm": 0.6472753286361694,
      "learning_rate": 1.09959971780749e-05,
      "loss": 1.2805,
      "mean_token_accuracy": 0.6775522033373514,
      "num_tokens": 1572069418.0,
      "step": 9380
    },
    {
      "entropy": 1.7251865367094676,
      "epoch": 1.0305402213616763,
      "grad_norm": 0.7229856848716736,
      "learning_rate": 1.0994396049482221e-05,
      "loss": 1.2864,
      "mean_token_accuracy": 0.6660173137982687,
      "num_tokens": 1572223424.0,
      "step": 9381
    },
    {
      "entropy": 1.6989657084147136,
      "epoch": 1.0306500782730494,
      "grad_norm": 0.6592692732810974,
      "learning_rate": 1.0992794921066908e-05,
      "loss": 1.2797,
      "mean_token_accuracy": 0.6701207856337229,
      "num_tokens": 1572364920.0,
      "step": 9382
    },
    {
      "entropy": 1.703797886768977,
      "epoch": 1.0307599351844223,
      "grad_norm": 0.7170230746269226,
      "learning_rate": 1.0991193792879629e-05,
      "loss": 1.3009,
      "mean_token_accuracy": 0.665116066733996,
      "num_tokens": 1572482987.0,
      "step": 9383
    },
    {
      "entropy": 1.7276430229345958,
      "epoch": 1.0308697920957952,
      "grad_norm": 0.7376964092254639,
      "learning_rate": 1.0989592664971061e-05,
      "loss": 1.5201,
      "mean_token_accuracy": 0.6401703308025996,
      "num_tokens": 1572654914.0,
      "step": 9384
    },
    {
      "entropy": 1.7409641345342,
      "epoch": 1.030979649007168,
      "grad_norm": 0.8233011364936829,
      "learning_rate": 1.0987991537391884e-05,
      "loss": 1.4287,
      "mean_token_accuracy": 0.6417080561319987,
      "num_tokens": 1572849673.0,
      "step": 9385
    },
    {
      "entropy": 1.7794389128684998,
      "epoch": 1.0310895059185412,
      "grad_norm": 0.7736028432846069,
      "learning_rate": 1.0986390410192767e-05,
      "loss": 1.5405,
      "mean_token_accuracy": 0.6407246440649033,
      "num_tokens": 1573037823.0,
      "step": 9386
    },
    {
      "entropy": 1.7333606382211049,
      "epoch": 1.031199362829914,
      "grad_norm": 0.6458233594894409,
      "learning_rate": 1.0984789283424389e-05,
      "loss": 1.3172,
      "mean_token_accuracy": 0.6686715831359228,
      "num_tokens": 1573199853.0,
      "step": 9387
    },
    {
      "entropy": 1.6926281054814656,
      "epoch": 1.031309219741287,
      "grad_norm": 0.7213067412376404,
      "learning_rate": 1.0983188157137423e-05,
      "loss": 1.2975,
      "mean_token_accuracy": 0.6710375199715296,
      "num_tokens": 1573346257.0,
      "step": 9388
    },
    {
      "entropy": 1.7269733548164368,
      "epoch": 1.0314190766526599,
      "grad_norm": 0.6135429739952087,
      "learning_rate": 1.0981587031382543e-05,
      "loss": 1.3502,
      "mean_token_accuracy": 0.6585359672705332,
      "num_tokens": 1573502913.0,
      "step": 9389
    },
    {
      "entropy": 1.6842507719993591,
      "epoch": 1.0315289335640327,
      "grad_norm": 0.6283948421478271,
      "learning_rate": 1.0979985906210424e-05,
      "loss": 1.3511,
      "mean_token_accuracy": 0.6634029597043991,
      "num_tokens": 1573673503.0,
      "step": 9390
    },
    {
      "entropy": 1.6653286516666412,
      "epoch": 1.0316387904754059,
      "grad_norm": 0.6210644245147705,
      "learning_rate": 1.0978384781671747e-05,
      "loss": 1.4805,
      "mean_token_accuracy": 0.648143524924914,
      "num_tokens": 1573902167.0,
      "step": 9391
    },
    {
      "entropy": 1.6455399890740712,
      "epoch": 1.0317486473867787,
      "grad_norm": 0.6163156628608704,
      "learning_rate": 1.0976783657817178e-05,
      "loss": 1.4123,
      "mean_token_accuracy": 0.6596850504477819,
      "num_tokens": 1574126639.0,
      "step": 9392
    },
    {
      "entropy": 1.6833748817443848,
      "epoch": 1.0318585042981516,
      "grad_norm": 0.6697494983673096,
      "learning_rate": 1.0975182534697397e-05,
      "loss": 1.3195,
      "mean_token_accuracy": 0.6766639103492101,
      "num_tokens": 1574279133.0,
      "step": 9393
    },
    {
      "entropy": 1.7093348105748494,
      "epoch": 1.0319683612095245,
      "grad_norm": 0.7185570001602173,
      "learning_rate": 1.0973581412363078e-05,
      "loss": 1.381,
      "mean_token_accuracy": 0.6626923183600107,
      "num_tokens": 1574416811.0,
      "step": 9394
    },
    {
      "entropy": 1.6518169144789379,
      "epoch": 1.0320782181208976,
      "grad_norm": 0.6190440654754639,
      "learning_rate": 1.0971980290864896e-05,
      "loss": 1.3933,
      "mean_token_accuracy": 0.6565068662166595,
      "num_tokens": 1574590620.0,
      "step": 9395
    },
    {
      "entropy": 1.7660084863503773,
      "epoch": 1.0321880750322705,
      "grad_norm": 0.8229091167449951,
      "learning_rate": 1.0970379170253523e-05,
      "loss": 1.6284,
      "mean_token_accuracy": 0.6307843253016472,
      "num_tokens": 1574792296.0,
      "step": 9396
    },
    {
      "entropy": 1.674621005853017,
      "epoch": 1.0322979319436434,
      "grad_norm": 0.6914384961128235,
      "learning_rate": 1.0968778050579638e-05,
      "loss": 1.3486,
      "mean_token_accuracy": 0.6684543887774149,
      "num_tokens": 1574979186.0,
      "step": 9397
    },
    {
      "entropy": 1.700808932383855,
      "epoch": 1.0324077888550163,
      "grad_norm": 0.646267831325531,
      "learning_rate": 1.096717693189391e-05,
      "loss": 1.3497,
      "mean_token_accuracy": 0.65216397245725,
      "num_tokens": 1575130170.0,
      "step": 9398
    },
    {
      "entropy": 1.6885426342487335,
      "epoch": 1.0325176457663894,
      "grad_norm": 0.6223624348640442,
      "learning_rate": 1.096557581424702e-05,
      "loss": 1.3716,
      "mean_token_accuracy": 0.6467955311139425,
      "num_tokens": 1575370782.0,
      "step": 9399
    },
    {
      "entropy": 1.7195010880629222,
      "epoch": 1.0326275026777623,
      "grad_norm": 0.6038949489593506,
      "learning_rate": 1.0963974697689644e-05,
      "loss": 1.3991,
      "mean_token_accuracy": 0.6538459608952204,
      "num_tokens": 1575633582.0,
      "step": 9400
    },
    {
      "entropy": 1.7567541698614757,
      "epoch": 1.0327373595891352,
      "grad_norm": 0.770776093006134,
      "learning_rate": 1.0962373582272445e-05,
      "loss": 1.5789,
      "mean_token_accuracy": 0.6492965420087179,
      "num_tokens": 1575782782.0,
      "step": 9401
    },
    {
      "entropy": 1.7692484458287556,
      "epoch": 1.032847216500508,
      "grad_norm": 0.8557153344154358,
      "learning_rate": 1.0960772468046109e-05,
      "loss": 1.4258,
      "mean_token_accuracy": 0.6477571874856949,
      "num_tokens": 1575969960.0,
      "step": 9402
    },
    {
      "entropy": 1.681354542573293,
      "epoch": 1.032957073411881,
      "grad_norm": 0.6943827867507935,
      "learning_rate": 1.095917135506131e-05,
      "loss": 1.2469,
      "mean_token_accuracy": 0.6881647706031799,
      "num_tokens": 1576101672.0,
      "step": 9403
    },
    {
      "entropy": 1.7285095751285553,
      "epoch": 1.033066930323254,
      "grad_norm": 0.6692385673522949,
      "learning_rate": 1.0957570243368711e-05,
      "loss": 1.4383,
      "mean_token_accuracy": 0.6471123496691386,
      "num_tokens": 1576249549.0,
      "step": 9404
    },
    {
      "entropy": 1.74024698138237,
      "epoch": 1.033176787234627,
      "grad_norm": 0.9306145310401917,
      "learning_rate": 1.0955969133019e-05,
      "loss": 1.236,
      "mean_token_accuracy": 0.6720249801874161,
      "num_tokens": 1576405097.0,
      "step": 9405
    },
    {
      "entropy": 1.7044260899225872,
      "epoch": 1.0332866441459998,
      "grad_norm": 0.7469892501831055,
      "learning_rate": 1.0954368024062846e-05,
      "loss": 1.4853,
      "mean_token_accuracy": 0.6485099146763483,
      "num_tokens": 1576584110.0,
      "step": 9406
    },
    {
      "entropy": 1.704027235507965,
      "epoch": 1.0333965010573727,
      "grad_norm": 0.7305955290794373,
      "learning_rate": 1.0952766916550923e-05,
      "loss": 1.4969,
      "mean_token_accuracy": 0.6464851995309194,
      "num_tokens": 1576770943.0,
      "step": 9407
    },
    {
      "entropy": 1.7666937212149303,
      "epoch": 1.0335063579687458,
      "grad_norm": 0.6984846591949463,
      "learning_rate": 1.0951165810533903e-05,
      "loss": 1.3663,
      "mean_token_accuracy": 0.6565556079149246,
      "num_tokens": 1576907284.0,
      "step": 9408
    },
    {
      "entropy": 1.7006201644738514,
      "epoch": 1.0336162148801187,
      "grad_norm": 0.7005829215049744,
      "learning_rate": 1.094956470606247e-05,
      "loss": 1.4357,
      "mean_token_accuracy": 0.6611707657575607,
      "num_tokens": 1577102449.0,
      "step": 9409
    },
    {
      "entropy": 1.673817624648412,
      "epoch": 1.0337260717914916,
      "grad_norm": 0.7164878845214844,
      "learning_rate": 1.0947963603187284e-05,
      "loss": 1.436,
      "mean_token_accuracy": 0.6602627138296763,
      "num_tokens": 1577306757.0,
      "step": 9410
    },
    {
      "entropy": 1.6474266449610393,
      "epoch": 1.0338359287028644,
      "grad_norm": 0.723376452922821,
      "learning_rate": 1.094636250195903e-05,
      "loss": 1.4225,
      "mean_token_accuracy": 0.6634102612733841,
      "num_tokens": 1577508937.0,
      "step": 9411
    },
    {
      "entropy": 1.6886802514394124,
      "epoch": 1.0339457856142376,
      "grad_norm": 0.7515102624893188,
      "learning_rate": 1.094476140242838e-05,
      "loss": 1.3389,
      "mean_token_accuracy": 0.6653014322121938,
      "num_tokens": 1577668263.0,
      "step": 9412
    },
    {
      "entropy": 1.6901151835918427,
      "epoch": 1.0340556425256104,
      "grad_norm": 0.7329745888710022,
      "learning_rate": 1.0943160304646004e-05,
      "loss": 1.2741,
      "mean_token_accuracy": 0.6680738429228464,
      "num_tokens": 1577798964.0,
      "step": 9413
    },
    {
      "entropy": 1.6920847098032634,
      "epoch": 1.0341654994369833,
      "grad_norm": 0.6827352643013,
      "learning_rate": 1.0941559208662575e-05,
      "loss": 1.3344,
      "mean_token_accuracy": 0.6580119580030441,
      "num_tokens": 1577947634.0,
      "step": 9414
    },
    {
      "entropy": 1.7117530802885692,
      "epoch": 1.0342753563483562,
      "grad_norm": 0.6250885725021362,
      "learning_rate": 1.0939958114528782e-05,
      "loss": 1.294,
      "mean_token_accuracy": 0.666492278377215,
      "num_tokens": 1578098070.0,
      "step": 9415
    },
    {
      "entropy": 1.7154468695322673,
      "epoch": 1.034385213259729,
      "grad_norm": 0.6659483909606934,
      "learning_rate": 1.0938357022295277e-05,
      "loss": 1.329,
      "mean_token_accuracy": 0.6750149528185526,
      "num_tokens": 1578226451.0,
      "step": 9416
    },
    {
      "entropy": 1.7065132061640422,
      "epoch": 1.0344950701711022,
      "grad_norm": 0.7499461770057678,
      "learning_rate": 1.0936755932012748e-05,
      "loss": 1.4039,
      "mean_token_accuracy": 0.6496814092000326,
      "num_tokens": 1578361910.0,
      "step": 9417
    },
    {
      "entropy": 1.7363367676734924,
      "epoch": 1.034604927082475,
      "grad_norm": 0.6667954921722412,
      "learning_rate": 1.0935154843731868e-05,
      "loss": 1.3555,
      "mean_token_accuracy": 0.6621254285176595,
      "num_tokens": 1578520491.0,
      "step": 9418
    },
    {
      "entropy": 1.7204224864641826,
      "epoch": 1.034714783993848,
      "grad_norm": 0.7654107213020325,
      "learning_rate": 1.0933553757503306e-05,
      "loss": 1.4836,
      "mean_token_accuracy": 0.6469293584426244,
      "num_tokens": 1578708477.0,
      "step": 9419
    },
    {
      "entropy": 1.725062648455302,
      "epoch": 1.0348246409052209,
      "grad_norm": 0.6829729676246643,
      "learning_rate": 1.0931952673377735e-05,
      "loss": 1.3266,
      "mean_token_accuracy": 0.6637885620196661,
      "num_tokens": 1578888821.0,
      "step": 9420
    },
    {
      "entropy": 1.6738385657469432,
      "epoch": 1.034934497816594,
      "grad_norm": 0.538158655166626,
      "learning_rate": 1.0930351591405836e-05,
      "loss": 1.3432,
      "mean_token_accuracy": 0.6584972242514292,
      "num_tokens": 1579082733.0,
      "step": 9421
    },
    {
      "entropy": 1.7132914861043294,
      "epoch": 1.0350443547279669,
      "grad_norm": 0.6430938839912415,
      "learning_rate": 1.0928750511638272e-05,
      "loss": 1.4578,
      "mean_token_accuracy": 0.6506678561369578,
      "num_tokens": 1579299272.0,
      "step": 9422
    },
    {
      "entropy": 1.7596480747063954,
      "epoch": 1.0351542116393397,
      "grad_norm": 0.7233623266220093,
      "learning_rate": 1.0927149434125725e-05,
      "loss": 1.3634,
      "mean_token_accuracy": 0.6559812525908152,
      "num_tokens": 1579418957.0,
      "step": 9423
    },
    {
      "entropy": 1.6402805646260579,
      "epoch": 1.0352640685507126,
      "grad_norm": 0.7694196701049805,
      "learning_rate": 1.092554835891887e-05,
      "loss": 1.2518,
      "mean_token_accuracy": 0.6738807211319605,
      "num_tokens": 1579551997.0,
      "step": 9424
    },
    {
      "entropy": 1.6636198858420055,
      "epoch": 1.0353739254620857,
      "grad_norm": 0.7831659317016602,
      "learning_rate": 1.092394728606837e-05,
      "loss": 1.4856,
      "mean_token_accuracy": 0.6563919832309087,
      "num_tokens": 1579768552.0,
      "step": 9425
    },
    {
      "entropy": 1.716377208630244,
      "epoch": 1.0354837823734586,
      "grad_norm": 0.6124777793884277,
      "learning_rate": 1.0922346215624905e-05,
      "loss": 1.521,
      "mean_token_accuracy": 0.6268165409564972,
      "num_tokens": 1580016863.0,
      "step": 9426
    },
    {
      "entropy": 1.7089830438296,
      "epoch": 1.0355936392848315,
      "grad_norm": 0.6345846652984619,
      "learning_rate": 1.092074514763915e-05,
      "loss": 1.3273,
      "mean_token_accuracy": 0.655559649070104,
      "num_tokens": 1580174116.0,
      "step": 9427
    },
    {
      "entropy": 1.726669172445933,
      "epoch": 1.0357034961962044,
      "grad_norm": 0.7052589654922485,
      "learning_rate": 1.0919144082161773e-05,
      "loss": 1.3349,
      "mean_token_accuracy": 0.6611567487319311,
      "num_tokens": 1580325786.0,
      "step": 9428
    },
    {
      "entropy": 1.71493865052859,
      "epoch": 1.0358133531075775,
      "grad_norm": 0.6326825618743896,
      "learning_rate": 1.0917543019243451e-05,
      "loss": 1.3176,
      "mean_token_accuracy": 0.6714158058166504,
      "num_tokens": 1580469908.0,
      "step": 9429
    },
    {
      "entropy": 1.6959039668242137,
      "epoch": 1.0359232100189504,
      "grad_norm": 0.6697741746902466,
      "learning_rate": 1.0915941958934855e-05,
      "loss": 1.2301,
      "mean_token_accuracy": 0.6766091585159302,
      "num_tokens": 1580630331.0,
      "step": 9430
    },
    {
      "entropy": 1.672759582599004,
      "epoch": 1.0360330669303233,
      "grad_norm": 0.7174257636070251,
      "learning_rate": 1.0914340901286657e-05,
      "loss": 1.5949,
      "mean_token_accuracy": 0.646736760934194,
      "num_tokens": 1580830522.0,
      "step": 9431
    },
    {
      "entropy": 1.7258618871370952,
      "epoch": 1.0361429238416962,
      "grad_norm": 0.6316325664520264,
      "learning_rate": 1.0912739846349529e-05,
      "loss": 1.419,
      "mean_token_accuracy": 0.6607301781574885,
      "num_tokens": 1581014308.0,
      "step": 9432
    },
    {
      "entropy": 1.7705416182676952,
      "epoch": 1.036252780753069,
      "grad_norm": 0.6447232961654663,
      "learning_rate": 1.0911138794174151e-05,
      "loss": 1.3577,
      "mean_token_accuracy": 0.6522252509991328,
      "num_tokens": 1581141631.0,
      "step": 9433
    },
    {
      "entropy": 1.6815461615721385,
      "epoch": 1.0363626376644421,
      "grad_norm": 0.6908884644508362,
      "learning_rate": 1.0909537744811186e-05,
      "loss": 1.3045,
      "mean_token_accuracy": 0.6645476520061493,
      "num_tokens": 1581289338.0,
      "step": 9434
    },
    {
      "entropy": 1.6792431473731995,
      "epoch": 1.036472494575815,
      "grad_norm": 0.6091166734695435,
      "learning_rate": 1.090793669831131e-05,
      "loss": 1.4287,
      "mean_token_accuracy": 0.6663202345371246,
      "num_tokens": 1581475004.0,
      "step": 9435
    },
    {
      "entropy": 1.6384399731953938,
      "epoch": 1.036582351487188,
      "grad_norm": 0.6524921655654907,
      "learning_rate": 1.0906335654725199e-05,
      "loss": 1.443,
      "mean_token_accuracy": 0.6610978494087855,
      "num_tokens": 1581635537.0,
      "step": 9436
    },
    {
      "entropy": 1.7117190460364025,
      "epoch": 1.0366922083985608,
      "grad_norm": 0.5974973440170288,
      "learning_rate": 1.090473461410352e-05,
      "loss": 1.5023,
      "mean_token_accuracy": 0.6504662285248438,
      "num_tokens": 1581826389.0,
      "step": 9437
    },
    {
      "entropy": 1.7102805376052856,
      "epoch": 1.036802065309934,
      "grad_norm": 0.7070255279541016,
      "learning_rate": 1.0903133576496952e-05,
      "loss": 1.5332,
      "mean_token_accuracy": 0.640349547068278,
      "num_tokens": 1582049870.0,
      "step": 9438
    },
    {
      "entropy": 1.7368799050649006,
      "epoch": 1.0369119222213068,
      "grad_norm": 0.6297962069511414,
      "learning_rate": 1.0901532541956159e-05,
      "loss": 1.389,
      "mean_token_accuracy": 0.64411032696565,
      "num_tokens": 1582205781.0,
      "step": 9439
    },
    {
      "entropy": 1.7114115158716838,
      "epoch": 1.0370217791326797,
      "grad_norm": 0.6687158346176147,
      "learning_rate": 1.0899931510531814e-05,
      "loss": 1.6336,
      "mean_token_accuracy": 0.6240918189287186,
      "num_tokens": 1582406654.0,
      "step": 9440
    },
    {
      "entropy": 1.6156066060066223,
      "epoch": 1.0371316360440526,
      "grad_norm": 0.7124824523925781,
      "learning_rate": 1.0898330482274598e-05,
      "loss": 1.3993,
      "mean_token_accuracy": 0.6696003576119741,
      "num_tokens": 1582566705.0,
      "step": 9441
    },
    {
      "entropy": 1.7156145075956981,
      "epoch": 1.0372414929554257,
      "grad_norm": 0.6782826781272888,
      "learning_rate": 1.089672945723517e-05,
      "loss": 1.4816,
      "mean_token_accuracy": 0.6556824495395025,
      "num_tokens": 1582742277.0,
      "step": 9442
    },
    {
      "entropy": 1.593651960293452,
      "epoch": 1.0373513498667986,
      "grad_norm": 0.8009786009788513,
      "learning_rate": 1.089512843546421e-05,
      "loss": 1.3372,
      "mean_token_accuracy": 0.6646837691466013,
      "num_tokens": 1582926809.0,
      "step": 9443
    },
    {
      "entropy": 1.7035342653592427,
      "epoch": 1.0374612067781714,
      "grad_norm": 0.7360708713531494,
      "learning_rate": 1.0893527417012391e-05,
      "loss": 1.453,
      "mean_token_accuracy": 0.6582255164782206,
      "num_tokens": 1583084184.0,
      "step": 9444
    },
    {
      "entropy": 1.6633445918560028,
      "epoch": 1.0375710636895443,
      "grad_norm": 0.5686823129653931,
      "learning_rate": 1.0891926401930379e-05,
      "loss": 1.3507,
      "mean_token_accuracy": 0.6624014725287756,
      "num_tokens": 1583226432.0,
      "step": 9445
    },
    {
      "entropy": 1.698949267466863,
      "epoch": 1.0376809206009172,
      "grad_norm": 0.757599413394928,
      "learning_rate": 1.0890325390268846e-05,
      "loss": 1.2624,
      "mean_token_accuracy": 0.674264038602511,
      "num_tokens": 1583345570.0,
      "step": 9446
    },
    {
      "entropy": 1.6697109937667847,
      "epoch": 1.0377907775122903,
      "grad_norm": 0.7264062166213989,
      "learning_rate": 1.088872438207847e-05,
      "loss": 1.3789,
      "mean_token_accuracy": 0.6585222283999125,
      "num_tokens": 1583594017.0,
      "step": 9447
    },
    {
      "entropy": 1.664307415485382,
      "epoch": 1.0379006344236632,
      "grad_norm": 0.6853240728378296,
      "learning_rate": 1.0887123377409911e-05,
      "loss": 1.3018,
      "mean_token_accuracy": 0.6689639985561371,
      "num_tokens": 1583728618.0,
      "step": 9448
    },
    {
      "entropy": 1.6331247488657634,
      "epoch": 1.038010491335036,
      "grad_norm": 0.7877902984619141,
      "learning_rate": 1.0885522376313848e-05,
      "loss": 1.3652,
      "mean_token_accuracy": 0.6695854564507803,
      "num_tokens": 1583859662.0,
      "step": 9449
    },
    {
      "entropy": 1.788600593805313,
      "epoch": 1.038120348246409,
      "grad_norm": 0.7138171195983887,
      "learning_rate": 1.0883921378840954e-05,
      "loss": 1.3607,
      "mean_token_accuracy": 0.6501663575569788,
      "num_tokens": 1584058402.0,
      "step": 9450
    },
    {
      "entropy": 1.697994162638982,
      "epoch": 1.038230205157782,
      "grad_norm": 1.0916004180908203,
      "learning_rate": 1.0882320385041893e-05,
      "loss": 1.3157,
      "mean_token_accuracy": 0.6665289948383967,
      "num_tokens": 1584191366.0,
      "step": 9451
    },
    {
      "entropy": 1.698983242114385,
      "epoch": 1.038340062069155,
      "grad_norm": 0.7171838283538818,
      "learning_rate": 1.0880719394967336e-05,
      "loss": 1.4387,
      "mean_token_accuracy": 0.6508918007214864,
      "num_tokens": 1584338635.0,
      "step": 9452
    },
    {
      "entropy": 1.7182096342245738,
      "epoch": 1.0384499189805279,
      "grad_norm": 0.7586554884910583,
      "learning_rate": 1.0879118408667964e-05,
      "loss": 1.2876,
      "mean_token_accuracy": 0.667991022268931,
      "num_tokens": 1584457176.0,
      "step": 9453
    },
    {
      "entropy": 1.6738979419072468,
      "epoch": 1.0385597758919007,
      "grad_norm": 0.706785261631012,
      "learning_rate": 1.0877517426194433e-05,
      "loss": 1.2904,
      "mean_token_accuracy": 0.6816811164220175,
      "num_tokens": 1584625605.0,
      "step": 9454
    },
    {
      "entropy": 1.6561195055643718,
      "epoch": 1.0386696328032738,
      "grad_norm": 0.7076295614242554,
      "learning_rate": 1.0875916447597423e-05,
      "loss": 1.5181,
      "mean_token_accuracy": 0.6429178069035212,
      "num_tokens": 1584812931.0,
      "step": 9455
    },
    {
      "entropy": 1.7122123738129933,
      "epoch": 1.0387794897146467,
      "grad_norm": 0.7200018167495728,
      "learning_rate": 1.0874315472927601e-05,
      "loss": 1.4502,
      "mean_token_accuracy": 0.6555789758761724,
      "num_tokens": 1584970989.0,
      "step": 9456
    },
    {
      "entropy": 1.6943861742814381,
      "epoch": 1.0388893466260196,
      "grad_norm": 0.8031889796257019,
      "learning_rate": 1.087271450223564e-05,
      "loss": 1.5488,
      "mean_token_accuracy": 0.6436296353737513,
      "num_tokens": 1585140553.0,
      "step": 9457
    },
    {
      "entropy": 1.718834122021993,
      "epoch": 1.0389992035373925,
      "grad_norm": 0.5605930089950562,
      "learning_rate": 1.0871113535572203e-05,
      "loss": 1.4931,
      "mean_token_accuracy": 0.6522552420695623,
      "num_tokens": 1585352103.0,
      "step": 9458
    },
    {
      "entropy": 1.6309671302636464,
      "epoch": 1.0391090604487654,
      "grad_norm": 0.6874315142631531,
      "learning_rate": 1.0869512572987971e-05,
      "loss": 1.3105,
      "mean_token_accuracy": 0.6766562660535177,
      "num_tokens": 1585488952.0,
      "step": 9459
    },
    {
      "entropy": 1.7397524615128834,
      "epoch": 1.0392189173601385,
      "grad_norm": 0.7973026037216187,
      "learning_rate": 1.0867911614533599e-05,
      "loss": 1.5217,
      "mean_token_accuracy": 0.6329129338264465,
      "num_tokens": 1585683287.0,
      "step": 9460
    },
    {
      "entropy": 1.6979398131370544,
      "epoch": 1.0393287742715114,
      "grad_norm": 0.7028073668479919,
      "learning_rate": 1.0866310660259769e-05,
      "loss": 1.3715,
      "mean_token_accuracy": 0.6600656112035116,
      "num_tokens": 1585861769.0,
      "step": 9461
    },
    {
      "entropy": 1.6728238761425018,
      "epoch": 1.0394386311828843,
      "grad_norm": 0.6784250736236572,
      "learning_rate": 1.0864709710217149e-05,
      "loss": 1.4738,
      "mean_token_accuracy": 0.64061538875103,
      "num_tokens": 1586053141.0,
      "step": 9462
    },
    {
      "entropy": 1.7052525381247203,
      "epoch": 1.0395484880942572,
      "grad_norm": 0.6356661915779114,
      "learning_rate": 1.0863108764456403e-05,
      "loss": 1.3033,
      "mean_token_accuracy": 0.6688580562671026,
      "num_tokens": 1586187994.0,
      "step": 9463
    },
    {
      "entropy": 1.6879315078258514,
      "epoch": 1.0396583450056303,
      "grad_norm": 0.6088063716888428,
      "learning_rate": 1.0861507823028201e-05,
      "loss": 1.2934,
      "mean_token_accuracy": 0.6732538690169653,
      "num_tokens": 1586321606.0,
      "step": 9464
    },
    {
      "entropy": 1.6835426688194275,
      "epoch": 1.0397682019170031,
      "grad_norm": 0.7947443127632141,
      "learning_rate": 1.0859906885983221e-05,
      "loss": 1.4395,
      "mean_token_accuracy": 0.6450006117423376,
      "num_tokens": 1586497070.0,
      "step": 9465
    },
    {
      "entropy": 1.678231567144394,
      "epoch": 1.039878058828376,
      "grad_norm": 0.6062014102935791,
      "learning_rate": 1.0858305953372117e-05,
      "loss": 1.411,
      "mean_token_accuracy": 0.6603821168343226,
      "num_tokens": 1586704728.0,
      "step": 9466
    },
    {
      "entropy": 1.757646510998408,
      "epoch": 1.039987915739749,
      "grad_norm": 0.7607711553573608,
      "learning_rate": 1.0856705025245566e-05,
      "loss": 1.2984,
      "mean_token_accuracy": 0.6734205285708109,
      "num_tokens": 1586815108.0,
      "step": 9467
    },
    {
      "entropy": 1.6538205246130626,
      "epoch": 1.040097772651122,
      "grad_norm": 0.8425273895263672,
      "learning_rate": 1.0855104101654241e-05,
      "loss": 1.1927,
      "mean_token_accuracy": 0.6824866682291031,
      "num_tokens": 1586938071.0,
      "step": 9468
    },
    {
      "entropy": 1.678248147169749,
      "epoch": 1.040207629562495,
      "grad_norm": 0.6422735452651978,
      "learning_rate": 1.0853503182648806e-05,
      "loss": 1.5994,
      "mean_token_accuracy": 0.6251678119103113,
      "num_tokens": 1587160509.0,
      "step": 9469
    },
    {
      "entropy": 1.7205635011196136,
      "epoch": 1.0403174864738678,
      "grad_norm": 0.717113733291626,
      "learning_rate": 1.0851902268279923e-05,
      "loss": 1.4603,
      "mean_token_accuracy": 0.6581100126107534,
      "num_tokens": 1587294558.0,
      "step": 9470
    },
    {
      "entropy": 1.6604284048080444,
      "epoch": 1.0404273433852407,
      "grad_norm": 0.6005326509475708,
      "learning_rate": 1.0850301358598276e-05,
      "loss": 1.5035,
      "mean_token_accuracy": 0.6511695633331934,
      "num_tokens": 1587540147.0,
      "step": 9471
    },
    {
      "entropy": 1.7822232246398926,
      "epoch": 1.0405372002966136,
      "grad_norm": 0.6600624918937683,
      "learning_rate": 1.0848700453654517e-05,
      "loss": 1.3744,
      "mean_token_accuracy": 0.6612835874160131,
      "num_tokens": 1587676331.0,
      "step": 9472
    },
    {
      "entropy": 1.6617770393689473,
      "epoch": 1.0406470572079867,
      "grad_norm": 0.5907867550849915,
      "learning_rate": 1.0847099553499321e-05,
      "loss": 1.3851,
      "mean_token_accuracy": 0.6616502503554026,
      "num_tokens": 1587839664.0,
      "step": 9473
    },
    {
      "entropy": 1.7285722692807515,
      "epoch": 1.0407569141193596,
      "grad_norm": 0.6949423551559448,
      "learning_rate": 1.0845498658183358e-05,
      "loss": 1.6408,
      "mean_token_accuracy": 0.6250172158082327,
      "num_tokens": 1588028296.0,
      "step": 9474
    },
    {
      "entropy": 1.6520145336786907,
      "epoch": 1.0408667710307324,
      "grad_norm": 0.6275820136070251,
      "learning_rate": 1.084389776775729e-05,
      "loss": 1.3768,
      "mean_token_accuracy": 0.6688976238171259,
      "num_tokens": 1588161759.0,
      "step": 9475
    },
    {
      "entropy": 1.727418303489685,
      "epoch": 1.0409766279421053,
      "grad_norm": 0.690833330154419,
      "learning_rate": 1.0842296882271785e-05,
      "loss": 1.3988,
      "mean_token_accuracy": 0.6522354880968729,
      "num_tokens": 1588316836.0,
      "step": 9476
    },
    {
      "entropy": 1.7261015077431996,
      "epoch": 1.0410864848534784,
      "grad_norm": 0.7379058003425598,
      "learning_rate": 1.0840696001777519e-05,
      "loss": 1.4334,
      "mean_token_accuracy": 0.6473392049471537,
      "num_tokens": 1588497270.0,
      "step": 9477
    },
    {
      "entropy": 1.7033613324165344,
      "epoch": 1.0411963417648513,
      "grad_norm": 0.6721797585487366,
      "learning_rate": 1.0839095126325148e-05,
      "loss": 1.4466,
      "mean_token_accuracy": 0.6510754525661469,
      "num_tokens": 1588687763.0,
      "step": 9478
    },
    {
      "entropy": 1.7521330614884694,
      "epoch": 1.0413061986762242,
      "grad_norm": 0.7003641128540039,
      "learning_rate": 1.0837494255965347e-05,
      "loss": 1.4311,
      "mean_token_accuracy": 0.6499675313631693,
      "num_tokens": 1588893987.0,
      "step": 9479
    },
    {
      "entropy": 1.6936258971691132,
      "epoch": 1.041416055587597,
      "grad_norm": 0.6926009654998779,
      "learning_rate": 1.0835893390748777e-05,
      "loss": 1.3398,
      "mean_token_accuracy": 0.6582322865724564,
      "num_tokens": 1589149049.0,
      "step": 9480
    },
    {
      "entropy": 1.7185107568899791,
      "epoch": 1.0415259124989702,
      "grad_norm": 0.6344667077064514,
      "learning_rate": 1.083429253072611e-05,
      "loss": 1.3841,
      "mean_token_accuracy": 0.6531223158041636,
      "num_tokens": 1589317687.0,
      "step": 9481
    },
    {
      "entropy": 1.7045740981896718,
      "epoch": 1.041635769410343,
      "grad_norm": 0.6675848960876465,
      "learning_rate": 1.0832691675948004e-05,
      "loss": 1.3395,
      "mean_token_accuracy": 0.6758049378792444,
      "num_tokens": 1589477279.0,
      "step": 9482
    },
    {
      "entropy": 1.717594563961029,
      "epoch": 1.041745626321716,
      "grad_norm": 0.9027393460273743,
      "learning_rate": 1.0831090826465139e-05,
      "loss": 1.4093,
      "mean_token_accuracy": 0.6508564899365107,
      "num_tokens": 1589628011.0,
      "step": 9483
    },
    {
      "entropy": 1.5932787358760834,
      "epoch": 1.0418554832330889,
      "grad_norm": 0.5880972146987915,
      "learning_rate": 1.0829489982328168e-05,
      "loss": 1.3118,
      "mean_token_accuracy": 0.6709119379520416,
      "num_tokens": 1589802651.0,
      "step": 9484
    },
    {
      "entropy": 1.728572279214859,
      "epoch": 1.0419653401444617,
      "grad_norm": 0.629753589630127,
      "learning_rate": 1.0827889143587761e-05,
      "loss": 1.3639,
      "mean_token_accuracy": 0.6476372530062994,
      "num_tokens": 1590000495.0,
      "step": 9485
    },
    {
      "entropy": 1.7684464951356251,
      "epoch": 1.0420751970558348,
      "grad_norm": 0.7243369817733765,
      "learning_rate": 1.082628831029459e-05,
      "loss": 1.337,
      "mean_token_accuracy": 0.6554118494192759,
      "num_tokens": 1590147039.0,
      "step": 9486
    },
    {
      "entropy": 1.7246462404727936,
      "epoch": 1.0421850539672077,
      "grad_norm": 0.7119016647338867,
      "learning_rate": 1.0824687482499312e-05,
      "loss": 1.6279,
      "mean_token_accuracy": 0.626791646083196,
      "num_tokens": 1590345057.0,
      "step": 9487
    },
    {
      "entropy": 1.6625853478908539,
      "epoch": 1.0422949108785806,
      "grad_norm": 0.6488005518913269,
      "learning_rate": 1.0823086660252595e-05,
      "loss": 1.3786,
      "mean_token_accuracy": 0.6684714208046595,
      "num_tokens": 1590517394.0,
      "step": 9488
    },
    {
      "entropy": 1.6413832604885101,
      "epoch": 1.0424047677899535,
      "grad_norm": 0.6880024075508118,
      "learning_rate": 1.0821485843605114e-05,
      "loss": 1.3171,
      "mean_token_accuracy": 0.6710259020328522,
      "num_tokens": 1590676951.0,
      "step": 9489
    },
    {
      "entropy": 1.7233413557211559,
      "epoch": 1.0425146247013266,
      "grad_norm": 0.8669329881668091,
      "learning_rate": 1.0819885032607516e-05,
      "loss": 1.4437,
      "mean_token_accuracy": 0.6574445317188898,
      "num_tokens": 1590798961.0,
      "step": 9490
    },
    {
      "entropy": 1.7381323476632435,
      "epoch": 1.0426244816126995,
      "grad_norm": 0.7421051263809204,
      "learning_rate": 1.0818284227310479e-05,
      "loss": 1.3651,
      "mean_token_accuracy": 0.6702295790115992,
      "num_tokens": 1590925866.0,
      "step": 9491
    },
    {
      "entropy": 1.69859579205513,
      "epoch": 1.0427343385240724,
      "grad_norm": 0.6176729202270508,
      "learning_rate": 1.0816683427764665e-05,
      "loss": 1.3806,
      "mean_token_accuracy": 0.6713998268047968,
      "num_tokens": 1591079868.0,
      "step": 9492
    },
    {
      "entropy": 1.6749196946620941,
      "epoch": 1.0428441954354453,
      "grad_norm": 0.766416072845459,
      "learning_rate": 1.0815082634020737e-05,
      "loss": 1.3999,
      "mean_token_accuracy": 0.6613041559855143,
      "num_tokens": 1591232390.0,
      "step": 9493
    },
    {
      "entropy": 1.7065080106258392,
      "epoch": 1.0429540523468184,
      "grad_norm": 0.5942599177360535,
      "learning_rate": 1.0813481846129358e-05,
      "loss": 1.3596,
      "mean_token_accuracy": 0.6696609854698181,
      "num_tokens": 1591415037.0,
      "step": 9494
    },
    {
      "entropy": 1.6899320483207703,
      "epoch": 1.0430639092581913,
      "grad_norm": 0.6180544495582581,
      "learning_rate": 1.0811881064141201e-05,
      "loss": 1.4791,
      "mean_token_accuracy": 0.6475685685873032,
      "num_tokens": 1591633165.0,
      "step": 9495
    },
    {
      "entropy": 1.7490257620811462,
      "epoch": 1.0431737661695641,
      "grad_norm": 0.8704851269721985,
      "learning_rate": 1.0810280288106918e-05,
      "loss": 1.5085,
      "mean_token_accuracy": 0.6373362342516581,
      "num_tokens": 1591830572.0,
      "step": 9496
    },
    {
      "entropy": 1.7038207252820332,
      "epoch": 1.043283623080937,
      "grad_norm": 0.6665728092193604,
      "learning_rate": 1.0808679518077178e-05,
      "loss": 1.3859,
      "mean_token_accuracy": 0.6533089727163315,
      "num_tokens": 1592012205.0,
      "step": 9497
    },
    {
      "entropy": 1.6818484663963318,
      "epoch": 1.04339347999231,
      "grad_norm": 0.7445968985557556,
      "learning_rate": 1.0807078754102649e-05,
      "loss": 1.3426,
      "mean_token_accuracy": 0.662312775850296,
      "num_tokens": 1592147760.0,
      "step": 9498
    },
    {
      "entropy": 1.7490168611208599,
      "epoch": 1.043503336903683,
      "grad_norm": 0.6908554434776306,
      "learning_rate": 1.0805477996233988e-05,
      "loss": 1.409,
      "mean_token_accuracy": 0.649876077969869,
      "num_tokens": 1592273034.0,
      "step": 9499
    },
    {
      "entropy": 1.6453217168649037,
      "epoch": 1.043613193815056,
      "grad_norm": 0.7113070487976074,
      "learning_rate": 1.0803877244521863e-05,
      "loss": 1.3044,
      "mean_token_accuracy": 0.6699142803748449,
      "num_tokens": 1592419247.0,
      "step": 9500
    },
    {
      "entropy": 1.7486879030863445,
      "epoch": 1.0437230507264288,
      "grad_norm": 0.7228788137435913,
      "learning_rate": 1.0802276499016932e-05,
      "loss": 1.4574,
      "mean_token_accuracy": 0.6567816833655039,
      "num_tokens": 1592549064.0,
      "step": 9501
    },
    {
      "entropy": 1.7028538783391316,
      "epoch": 1.0438329076378017,
      "grad_norm": 0.7245208024978638,
      "learning_rate": 1.0800675759769861e-05,
      "loss": 1.4313,
      "mean_token_accuracy": 0.653529609243075,
      "num_tokens": 1592725321.0,
      "step": 9502
    },
    {
      "entropy": 1.6976373294989269,
      "epoch": 1.0439427645491748,
      "grad_norm": 0.5360068678855896,
      "learning_rate": 1.0799075026831317e-05,
      "loss": 1.4317,
      "mean_token_accuracy": 0.6476470828056335,
      "num_tokens": 1592938657.0,
      "step": 9503
    },
    {
      "entropy": 1.6830028196175892,
      "epoch": 1.0440526214605477,
      "grad_norm": 0.5777772665023804,
      "learning_rate": 1.0797474300251952e-05,
      "loss": 1.4256,
      "mean_token_accuracy": 0.6514229973157247,
      "num_tokens": 1593133783.0,
      "step": 9504
    },
    {
      "entropy": 1.6651501556237538,
      "epoch": 1.0441624783719206,
      "grad_norm": 0.6623477935791016,
      "learning_rate": 1.0795873580082434e-05,
      "loss": 1.4702,
      "mean_token_accuracy": 0.6620995352665583,
      "num_tokens": 1593338733.0,
      "step": 9505
    },
    {
      "entropy": 1.698107163111369,
      "epoch": 1.0442723352832934,
      "grad_norm": 0.7003724575042725,
      "learning_rate": 1.0794272866373431e-05,
      "loss": 1.5227,
      "mean_token_accuracy": 0.6455037742853165,
      "num_tokens": 1593586152.0,
      "step": 9506
    },
    {
      "entropy": 1.7461525400479634,
      "epoch": 1.0443821921946665,
      "grad_norm": 0.8416768908500671,
      "learning_rate": 1.0792672159175595e-05,
      "loss": 1.6376,
      "mean_token_accuracy": 0.6324817140897115,
      "num_tokens": 1593765469.0,
      "step": 9507
    },
    {
      "entropy": 1.7584339678287506,
      "epoch": 1.0444920491060394,
      "grad_norm": 0.7773275971412659,
      "learning_rate": 1.079107145853959e-05,
      "loss": 1.4037,
      "mean_token_accuracy": 0.6495963931083679,
      "num_tokens": 1593887086.0,
      "step": 9508
    },
    {
      "entropy": 1.715292066335678,
      "epoch": 1.0446019060174123,
      "grad_norm": 0.7239483594894409,
      "learning_rate": 1.0789470764516084e-05,
      "loss": 1.2976,
      "mean_token_accuracy": 0.6715022226174673,
      "num_tokens": 1594044689.0,
      "step": 9509
    },
    {
      "entropy": 1.6825797359148662,
      "epoch": 1.0447117629287852,
      "grad_norm": 0.7251731753349304,
      "learning_rate": 1.0787870077155728e-05,
      "loss": 1.2752,
      "mean_token_accuracy": 0.6671033104260763,
      "num_tokens": 1594163502.0,
      "step": 9510
    },
    {
      "entropy": 1.7215838134288788,
      "epoch": 1.044821619840158,
      "grad_norm": 0.7168553471565247,
      "learning_rate": 1.0786269396509193e-05,
      "loss": 1.2838,
      "mean_token_accuracy": 0.6646192222833633,
      "num_tokens": 1594317624.0,
      "step": 9511
    },
    {
      "entropy": 1.718077729145686,
      "epoch": 1.0449314767515312,
      "grad_norm": 0.6914111375808716,
      "learning_rate": 1.0784668722627134e-05,
      "loss": 1.3862,
      "mean_token_accuracy": 0.6595685482025146,
      "num_tokens": 1594465247.0,
      "step": 9512
    },
    {
      "entropy": 1.7051511108875275,
      "epoch": 1.045041333662904,
      "grad_norm": 0.7132536768913269,
      "learning_rate": 1.0783068055560212e-05,
      "loss": 1.3335,
      "mean_token_accuracy": 0.6642508854468664,
      "num_tokens": 1594646030.0,
      "step": 9513
    },
    {
      "entropy": 1.7331341405709584,
      "epoch": 1.045151190574277,
      "grad_norm": 0.760560929775238,
      "learning_rate": 1.0781467395359086e-05,
      "loss": 1.4119,
      "mean_token_accuracy": 0.6549452046553293,
      "num_tokens": 1594796111.0,
      "step": 9514
    },
    {
      "entropy": 1.6813835899035137,
      "epoch": 1.0452610474856499,
      "grad_norm": 0.6038804650306702,
      "learning_rate": 1.0779866742074427e-05,
      "loss": 1.3664,
      "mean_token_accuracy": 0.655574768781662,
      "num_tokens": 1594951516.0,
      "step": 9515
    },
    {
      "entropy": 1.753594805796941,
      "epoch": 1.045370904397023,
      "grad_norm": 0.6593688130378723,
      "learning_rate": 1.0778266095756877e-05,
      "loss": 1.3677,
      "mean_token_accuracy": 0.64958788951238,
      "num_tokens": 1595102148.0,
      "step": 9516
    },
    {
      "entropy": 1.696462760368983,
      "epoch": 1.0454807613083958,
      "grad_norm": 0.8179159164428711,
      "learning_rate": 1.077666545645711e-05,
      "loss": 1.342,
      "mean_token_accuracy": 0.6669958929220835,
      "num_tokens": 1595253275.0,
      "step": 9517
    },
    {
      "entropy": 1.7647280593713124,
      "epoch": 1.0455906182197687,
      "grad_norm": 0.7071588039398193,
      "learning_rate": 1.077506482422578e-05,
      "loss": 1.4662,
      "mean_token_accuracy": 0.6489268441994985,
      "num_tokens": 1595420875.0,
      "step": 9518
    },
    {
      "entropy": 1.661277323961258,
      "epoch": 1.0457004751311416,
      "grad_norm": 0.6176816821098328,
      "learning_rate": 1.0773464199113545e-05,
      "loss": 1.4074,
      "mean_token_accuracy": 0.6495037625233332,
      "num_tokens": 1595639530.0,
      "step": 9519
    },
    {
      "entropy": 1.6793854931990306,
      "epoch": 1.0458103320425147,
      "grad_norm": 0.6099405288696289,
      "learning_rate": 1.0771863581171067e-05,
      "loss": 1.4901,
      "mean_token_accuracy": 0.638078898191452,
      "num_tokens": 1595805557.0,
      "step": 9520
    },
    {
      "entropy": 1.6664031247297924,
      "epoch": 1.0459201889538876,
      "grad_norm": 0.7855103611946106,
      "learning_rate": 1.0770262970449007e-05,
      "loss": 1.2644,
      "mean_token_accuracy": 0.6843874802192053,
      "num_tokens": 1596024907.0,
      "step": 9521
    },
    {
      "entropy": 1.7892861366271973,
      "epoch": 1.0460300458652605,
      "grad_norm": 0.6650031208992004,
      "learning_rate": 1.0768662366998017e-05,
      "loss": 1.5564,
      "mean_token_accuracy": 0.6340744346380234,
      "num_tokens": 1596223113.0,
      "step": 9522
    },
    {
      "entropy": 1.6714712381362915,
      "epoch": 1.0461399027766334,
      "grad_norm": 0.6163212656974792,
      "learning_rate": 1.0767061770868758e-05,
      "loss": 1.4224,
      "mean_token_accuracy": 0.6527364104986191,
      "num_tokens": 1596404722.0,
      "step": 9523
    },
    {
      "entropy": 1.7213294704755147,
      "epoch": 1.0462497596880063,
      "grad_norm": 0.7242403030395508,
      "learning_rate": 1.0765461182111894e-05,
      "loss": 1.4046,
      "mean_token_accuracy": 0.6574538151423136,
      "num_tokens": 1596556498.0,
      "step": 9524
    },
    {
      "entropy": 1.70473250746727,
      "epoch": 1.0463596165993794,
      "grad_norm": 0.8077401518821716,
      "learning_rate": 1.0763860600778073e-05,
      "loss": 1.3111,
      "mean_token_accuracy": 0.6717382967472076,
      "num_tokens": 1596692410.0,
      "step": 9525
    },
    {
      "entropy": 1.65737051765124,
      "epoch": 1.0464694735107523,
      "grad_norm": 0.6047679781913757,
      "learning_rate": 1.0762260026917957e-05,
      "loss": 1.5421,
      "mean_token_accuracy": 0.6482739100853602,
      "num_tokens": 1596893524.0,
      "step": 9526
    },
    {
      "entropy": 1.6772952377796173,
      "epoch": 1.0465793304221251,
      "grad_norm": 0.6844344139099121,
      "learning_rate": 1.076065946058221e-05,
      "loss": 1.3097,
      "mean_token_accuracy": 0.6696969568729401,
      "num_tokens": 1597033357.0,
      "step": 9527
    },
    {
      "entropy": 1.690885325272878,
      "epoch": 1.046689187333498,
      "grad_norm": 0.722217857837677,
      "learning_rate": 1.0759058901821478e-05,
      "loss": 1.4674,
      "mean_token_accuracy": 0.6511874943971634,
      "num_tokens": 1597219302.0,
      "step": 9528
    },
    {
      "entropy": 1.7689124047756195,
      "epoch": 1.0467990442448711,
      "grad_norm": 0.7030705809593201,
      "learning_rate": 1.0757458350686423e-05,
      "loss": 1.3782,
      "mean_token_accuracy": 0.6555833717187246,
      "num_tokens": 1597354184.0,
      "step": 9529
    },
    {
      "entropy": 1.7530174255371094,
      "epoch": 1.046908901156244,
      "grad_norm": 0.6865312457084656,
      "learning_rate": 1.0755857807227705e-05,
      "loss": 1.2826,
      "mean_token_accuracy": 0.6668087194363276,
      "num_tokens": 1597483504.0,
      "step": 9530
    },
    {
      "entropy": 1.664690375328064,
      "epoch": 1.047018758067617,
      "grad_norm": 0.7193317413330078,
      "learning_rate": 1.0754257271495976e-05,
      "loss": 1.4993,
      "mean_token_accuracy": 0.6674816509087881,
      "num_tokens": 1597629526.0,
      "step": 9531
    },
    {
      "entropy": 1.6781654755274455,
      "epoch": 1.0471286149789898,
      "grad_norm": 0.8282174468040466,
      "learning_rate": 1.0752656743541892e-05,
      "loss": 1.2977,
      "mean_token_accuracy": 0.6744814167420069,
      "num_tokens": 1597772249.0,
      "step": 9532
    },
    {
      "entropy": 1.653449535369873,
      "epoch": 1.047238471890363,
      "grad_norm": 0.6748833060264587,
      "learning_rate": 1.0751056223416116e-05,
      "loss": 1.4044,
      "mean_token_accuracy": 0.6702044556538264,
      "num_tokens": 1597951987.0,
      "step": 9533
    },
    {
      "entropy": 1.6903007527192433,
      "epoch": 1.0473483288017358,
      "grad_norm": 0.7806357741355896,
      "learning_rate": 1.074945571116929e-05,
      "loss": 1.3952,
      "mean_token_accuracy": 0.6694519221782684,
      "num_tokens": 1598150824.0,
      "step": 9534
    },
    {
      "entropy": 1.681130548318227,
      "epoch": 1.0474581857131087,
      "grad_norm": 0.6809220314025879,
      "learning_rate": 1.0747855206852083e-05,
      "loss": 1.3198,
      "mean_token_accuracy": 0.6696507086356481,
      "num_tokens": 1598324940.0,
      "step": 9535
    },
    {
      "entropy": 1.7262980838616688,
      "epoch": 1.0475680426244816,
      "grad_norm": 0.763521671295166,
      "learning_rate": 1.0746254710515148e-05,
      "loss": 1.4035,
      "mean_token_accuracy": 0.6502132068077723,
      "num_tokens": 1598501856.0,
      "step": 9536
    },
    {
      "entropy": 1.738362580537796,
      "epoch": 1.0476778995358544,
      "grad_norm": 0.6573911309242249,
      "learning_rate": 1.0744654222209132e-05,
      "loss": 1.476,
      "mean_token_accuracy": 0.65400230884552,
      "num_tokens": 1598670504.0,
      "step": 9537
    },
    {
      "entropy": 1.6924460927645366,
      "epoch": 1.0477877564472275,
      "grad_norm": 0.8024819493293762,
      "learning_rate": 1.0743053741984692e-05,
      "loss": 1.3561,
      "mean_token_accuracy": 0.6752625207106272,
      "num_tokens": 1598838975.0,
      "step": 9538
    },
    {
      "entropy": 1.6892497539520264,
      "epoch": 1.0478976133586004,
      "grad_norm": 0.5688782930374146,
      "learning_rate": 1.0741453269892495e-05,
      "loss": 1.3445,
      "mean_token_accuracy": 0.6590389758348465,
      "num_tokens": 1599027494.0,
      "step": 9539
    },
    {
      "entropy": 1.6760010123252869,
      "epoch": 1.0480074702699733,
      "grad_norm": 0.6238588094711304,
      "learning_rate": 1.0739852805983177e-05,
      "loss": 1.3616,
      "mean_token_accuracy": 0.6570176730553309,
      "num_tokens": 1599237306.0,
      "step": 9540
    },
    {
      "entropy": 1.7172687649726868,
      "epoch": 1.0481173271813462,
      "grad_norm": 0.6968215703964233,
      "learning_rate": 1.0738252350307403e-05,
      "loss": 1.3149,
      "mean_token_accuracy": 0.669064129392306,
      "num_tokens": 1599419358.0,
      "step": 9541
    },
    {
      "entropy": 1.7211929361025493,
      "epoch": 1.0482271840927193,
      "grad_norm": 0.8353010416030884,
      "learning_rate": 1.0736651902915827e-05,
      "loss": 1.3156,
      "mean_token_accuracy": 0.6618754814068476,
      "num_tokens": 1599527770.0,
      "step": 9542
    },
    {
      "entropy": 1.6436882019042969,
      "epoch": 1.0483370410040922,
      "grad_norm": 0.6856302618980408,
      "learning_rate": 1.0735051463859097e-05,
      "loss": 1.2963,
      "mean_token_accuracy": 0.6674405237038931,
      "num_tokens": 1599705089.0,
      "step": 9543
    },
    {
      "entropy": 1.6677443285783131,
      "epoch": 1.048446897915465,
      "grad_norm": 0.6206963658332825,
      "learning_rate": 1.0733451033187866e-05,
      "loss": 1.3537,
      "mean_token_accuracy": 0.6627790033817291,
      "num_tokens": 1599908469.0,
      "step": 9544
    },
    {
      "entropy": 1.669652263323466,
      "epoch": 1.048556754826838,
      "grad_norm": 0.6658746004104614,
      "learning_rate": 1.0731850610952796e-05,
      "loss": 1.3356,
      "mean_token_accuracy": 0.6593130081892014,
      "num_tokens": 1600099601.0,
      "step": 9545
    },
    {
      "entropy": 1.6830444832642872,
      "epoch": 1.048666611738211,
      "grad_norm": 0.7324784994125366,
      "learning_rate": 1.0730250197204528e-05,
      "loss": 1.5043,
      "mean_token_accuracy": 0.6441976577043533,
      "num_tokens": 1600322089.0,
      "step": 9546
    },
    {
      "entropy": 1.6887101829051971,
      "epoch": 1.048776468649584,
      "grad_norm": 0.8754149079322815,
      "learning_rate": 1.0728649791993722e-05,
      "loss": 1.7007,
      "mean_token_accuracy": 0.6487985526522001,
      "num_tokens": 1600493611.0,
      "step": 9547
    },
    {
      "entropy": 1.679084559281667,
      "epoch": 1.0488863255609568,
      "grad_norm": 0.8017110228538513,
      "learning_rate": 1.0727049395371029e-05,
      "loss": 1.2833,
      "mean_token_accuracy": 0.6837884237368902,
      "num_tokens": 1600609476.0,
      "step": 9548
    },
    {
      "entropy": 1.7725566426912944,
      "epoch": 1.0489961824723297,
      "grad_norm": 0.7964447736740112,
      "learning_rate": 1.07254490073871e-05,
      "loss": 1.386,
      "mean_token_accuracy": 0.6649324297904968,
      "num_tokens": 1600749785.0,
      "step": 9549
    },
    {
      "entropy": 1.717088649670283,
      "epoch": 1.0491060393837026,
      "grad_norm": 0.7279574871063232,
      "learning_rate": 1.072384862809258e-05,
      "loss": 1.3735,
      "mean_token_accuracy": 0.6538225511709849,
      "num_tokens": 1600931046.0,
      "step": 9550
    },
    {
      "entropy": 1.7207684218883514,
      "epoch": 1.0492158962950757,
      "grad_norm": 0.7171173095703125,
      "learning_rate": 1.0722248257538135e-05,
      "loss": 1.384,
      "mean_token_accuracy": 0.6570334682861964,
      "num_tokens": 1601116183.0,
      "step": 9551
    },
    {
      "entropy": 1.6767055094242096,
      "epoch": 1.0493257532064486,
      "grad_norm": 0.7148609757423401,
      "learning_rate": 1.0720647895774402e-05,
      "loss": 1.2768,
      "mean_token_accuracy": 0.674123153090477,
      "num_tokens": 1601237406.0,
      "step": 9552
    },
    {
      "entropy": 1.7004509270191193,
      "epoch": 1.0494356101178215,
      "grad_norm": 0.5615423321723938,
      "learning_rate": 1.0719047542852037e-05,
      "loss": 1.3725,
      "mean_token_accuracy": 0.6597498307625452,
      "num_tokens": 1601434893.0,
      "step": 9553
    },
    {
      "entropy": 1.6728576719760895,
      "epoch": 1.0495454670291944,
      "grad_norm": 0.6771143078804016,
      "learning_rate": 1.0717447198821693e-05,
      "loss": 1.4928,
      "mean_token_accuracy": 0.6323941498994827,
      "num_tokens": 1601650254.0,
      "step": 9554
    },
    {
      "entropy": 1.6481030186017354,
      "epoch": 1.0496553239405675,
      "grad_norm": 0.6681134104728699,
      "learning_rate": 1.0715846863734019e-05,
      "loss": 1.4834,
      "mean_token_accuracy": 0.6682325402895609,
      "num_tokens": 1601806562.0,
      "step": 9555
    },
    {
      "entropy": 1.6618581414222717,
      "epoch": 1.0497651808519404,
      "grad_norm": 0.6858922839164734,
      "learning_rate": 1.071424653763966e-05,
      "loss": 1.3277,
      "mean_token_accuracy": 0.6726219256718954,
      "num_tokens": 1601992968.0,
      "step": 9556
    },
    {
      "entropy": 1.6976956526438396,
      "epoch": 1.0498750377633133,
      "grad_norm": 0.6189122200012207,
      "learning_rate": 1.0712646220589274e-05,
      "loss": 1.3589,
      "mean_token_accuracy": 0.6756937205791473,
      "num_tokens": 1602146119.0,
      "step": 9557
    },
    {
      "entropy": 1.7072361807028453,
      "epoch": 1.0499848946746861,
      "grad_norm": 0.8546844720840454,
      "learning_rate": 1.07110459126335e-05,
      "loss": 1.4876,
      "mean_token_accuracy": 0.6624875615040461,
      "num_tokens": 1602380098.0,
      "step": 9558
    },
    {
      "entropy": 1.6925819118817647,
      "epoch": 1.0500947515860592,
      "grad_norm": 0.6426894068717957,
      "learning_rate": 1.0709445613822997e-05,
      "loss": 1.3083,
      "mean_token_accuracy": 0.664939691623052,
      "num_tokens": 1602549743.0,
      "step": 9559
    },
    {
      "entropy": 1.731207271416982,
      "epoch": 1.0502046084974321,
      "grad_norm": 0.8742700219154358,
      "learning_rate": 1.0707845324208407e-05,
      "loss": 1.2079,
      "mean_token_accuracy": 0.6823851068814596,
      "num_tokens": 1602677648.0,
      "step": 9560
    },
    {
      "entropy": 1.7196010947227478,
      "epoch": 1.050314465408805,
      "grad_norm": 0.6880813241004944,
      "learning_rate": 1.0706245043840381e-05,
      "loss": 1.5014,
      "mean_token_accuracy": 0.6513290057579676,
      "num_tokens": 1602849621.0,
      "step": 9561
    },
    {
      "entropy": 1.6641053060690563,
      "epoch": 1.050424322320178,
      "grad_norm": 0.6426426768302917,
      "learning_rate": 1.070464477276957e-05,
      "loss": 1.5101,
      "mean_token_accuracy": 0.6436965962251028,
      "num_tokens": 1603025923.0,
      "step": 9562
    },
    {
      "entropy": 1.7633658051490784,
      "epoch": 1.0505341792315508,
      "grad_norm": 0.6683143973350525,
      "learning_rate": 1.0703044511046617e-05,
      "loss": 1.4956,
      "mean_token_accuracy": 0.6683969696362814,
      "num_tokens": 1603184478.0,
      "step": 9563
    },
    {
      "entropy": 1.6500650942325592,
      "epoch": 1.050644036142924,
      "grad_norm": 0.669915497303009,
      "learning_rate": 1.070144425872217e-05,
      "loss": 1.5075,
      "mean_token_accuracy": 0.6701604525248209,
      "num_tokens": 1603368813.0,
      "step": 9564
    },
    {
      "entropy": 1.7405575414498646,
      "epoch": 1.0507538930542968,
      "grad_norm": 0.683010458946228,
      "learning_rate": 1.069984401584688e-05,
      "loss": 1.4898,
      "mean_token_accuracy": 0.6517573595046997,
      "num_tokens": 1603532608.0,
      "step": 9565
    },
    {
      "entropy": 1.6904991964499156,
      "epoch": 1.0508637499656697,
      "grad_norm": 0.7113816738128662,
      "learning_rate": 1.069824378247139e-05,
      "loss": 1.3158,
      "mean_token_accuracy": 0.6657985001802444,
      "num_tokens": 1603688565.0,
      "step": 9566
    },
    {
      "entropy": 1.6928423345088959,
      "epoch": 1.0509736068770426,
      "grad_norm": 0.6442391276359558,
      "learning_rate": 1.0696643558646346e-05,
      "loss": 1.4616,
      "mean_token_accuracy": 0.6492231587568918,
      "num_tokens": 1603907279.0,
      "step": 9567
    },
    {
      "entropy": 1.7089947859446208,
      "epoch": 1.0510834637884157,
      "grad_norm": 0.698707103729248,
      "learning_rate": 1.0695043344422402e-05,
      "loss": 1.4134,
      "mean_token_accuracy": 0.6618327150742213,
      "num_tokens": 1604075541.0,
      "step": 9568
    },
    {
      "entropy": 1.672034611304601,
      "epoch": 1.0511933206997885,
      "grad_norm": 0.5879615545272827,
      "learning_rate": 1.0693443139850194e-05,
      "loss": 1.3688,
      "mean_token_accuracy": 0.670054112871488,
      "num_tokens": 1604239307.0,
      "step": 9569
    },
    {
      "entropy": 1.7428979178269703,
      "epoch": 1.0513031776111614,
      "grad_norm": 0.6346009969711304,
      "learning_rate": 1.0691842944980373e-05,
      "loss": 1.3989,
      "mean_token_accuracy": 0.6469153513511022,
      "num_tokens": 1604416450.0,
      "step": 9570
    },
    {
      "entropy": 1.6811433633168538,
      "epoch": 1.0514130345225343,
      "grad_norm": 0.6256464719772339,
      "learning_rate": 1.0690242759863587e-05,
      "loss": 1.367,
      "mean_token_accuracy": 0.6655552933613459,
      "num_tokens": 1604583184.0,
      "step": 9571
    },
    {
      "entropy": 1.7027230560779572,
      "epoch": 1.0515228914339074,
      "grad_norm": 0.6681546568870544,
      "learning_rate": 1.0688642584550477e-05,
      "loss": 1.3715,
      "mean_token_accuracy": 0.6578748822212219,
      "num_tokens": 1604805908.0,
      "step": 9572
    },
    {
      "entropy": 1.7179262538750966,
      "epoch": 1.0516327483452803,
      "grad_norm": 0.6444426774978638,
      "learning_rate": 1.0687042419091688e-05,
      "loss": 1.5337,
      "mean_token_accuracy": 0.6471273948748907,
      "num_tokens": 1605033262.0,
      "step": 9573
    },
    {
      "entropy": 1.7171581784884136,
      "epoch": 1.0517426052566532,
      "grad_norm": 0.6714052557945251,
      "learning_rate": 1.0685442263537867e-05,
      "loss": 1.427,
      "mean_token_accuracy": 0.6538668225208918,
      "num_tokens": 1605187982.0,
      "step": 9574
    },
    {
      "entropy": 1.698363830645879,
      "epoch": 1.051852462168026,
      "grad_norm": 0.6877774000167847,
      "learning_rate": 1.0683842117939655e-05,
      "loss": 1.3865,
      "mean_token_accuracy": 0.6598330289125443,
      "num_tokens": 1605342223.0,
      "step": 9575
    },
    {
      "entropy": 1.7184595068295796,
      "epoch": 1.0519623190793992,
      "grad_norm": 0.5890787243843079,
      "learning_rate": 1.0682241982347697e-05,
      "loss": 1.5158,
      "mean_token_accuracy": 0.6271322419246038,
      "num_tokens": 1605559031.0,
      "step": 9576
    },
    {
      "entropy": 1.7405591209729512,
      "epoch": 1.052072175990772,
      "grad_norm": 0.7134595513343811,
      "learning_rate": 1.0680641856812638e-05,
      "loss": 1.4408,
      "mean_token_accuracy": 0.6583415667215983,
      "num_tokens": 1605702610.0,
      "step": 9577
    },
    {
      "entropy": 1.6781224409739177,
      "epoch": 1.052182032902145,
      "grad_norm": 0.72991943359375,
      "learning_rate": 1.067904174138512e-05,
      "loss": 1.4711,
      "mean_token_accuracy": 0.6530647377173106,
      "num_tokens": 1605865046.0,
      "step": 9578
    },
    {
      "entropy": 1.7373049159844716,
      "epoch": 1.0522918898135178,
      "grad_norm": 0.9875661134719849,
      "learning_rate": 1.0677441636115786e-05,
      "loss": 1.4841,
      "mean_token_accuracy": 0.6617722262938818,
      "num_tokens": 1605989563.0,
      "step": 9579
    },
    {
      "entropy": 1.7485832075277965,
      "epoch": 1.0524017467248907,
      "grad_norm": 0.7092475295066833,
      "learning_rate": 1.0675841541055283e-05,
      "loss": 1.4333,
      "mean_token_accuracy": 0.6555873850981394,
      "num_tokens": 1606154356.0,
      "step": 9580
    },
    {
      "entropy": 1.6484754184881847,
      "epoch": 1.0525116036362638,
      "grad_norm": 0.7261121869087219,
      "learning_rate": 1.0674241456254244e-05,
      "loss": 1.4312,
      "mean_token_accuracy": 0.6665322482585907,
      "num_tokens": 1606317868.0,
      "step": 9581
    },
    {
      "entropy": 1.6414496501286824,
      "epoch": 1.0526214605476367,
      "grad_norm": 0.6463345289230347,
      "learning_rate": 1.0672641381763315e-05,
      "loss": 1.2341,
      "mean_token_accuracy": 0.6869133959213892,
      "num_tokens": 1606467019.0,
      "step": 9582
    },
    {
      "entropy": 1.7304282387097676,
      "epoch": 1.0527313174590096,
      "grad_norm": 0.6692349910736084,
      "learning_rate": 1.0671041317633144e-05,
      "loss": 1.2577,
      "mean_token_accuracy": 0.6683614204327265,
      "num_tokens": 1606592230.0,
      "step": 9583
    },
    {
      "entropy": 1.6495085159937541,
      "epoch": 1.0528411743703825,
      "grad_norm": 0.6861699223518372,
      "learning_rate": 1.0669441263914364e-05,
      "loss": 1.2424,
      "mean_token_accuracy": 0.6809816161791483,
      "num_tokens": 1606726297.0,
      "step": 9584
    },
    {
      "entropy": 1.6947397887706757,
      "epoch": 1.0529510312817556,
      "grad_norm": 0.6416590213775635,
      "learning_rate": 1.066784122065762e-05,
      "loss": 1.3894,
      "mean_token_accuracy": 0.6536195824543635,
      "num_tokens": 1606944421.0,
      "step": 9585
    },
    {
      "entropy": 1.7330600718657176,
      "epoch": 1.0530608881931285,
      "grad_norm": 0.7335972189903259,
      "learning_rate": 1.0666241187913553e-05,
      "loss": 1.415,
      "mean_token_accuracy": 0.6541456083456675,
      "num_tokens": 1607071607.0,
      "step": 9586
    },
    {
      "entropy": 1.7887234091758728,
      "epoch": 1.0531707451045014,
      "grad_norm": 0.8420895338058472,
      "learning_rate": 1.06646411657328e-05,
      "loss": 1.6066,
      "mean_token_accuracy": 0.6439038117726644,
      "num_tokens": 1607230227.0,
      "step": 9587
    },
    {
      "entropy": 1.7334937155246735,
      "epoch": 1.0532806020158743,
      "grad_norm": 0.7040529251098633,
      "learning_rate": 1.0663041154166e-05,
      "loss": 1.5178,
      "mean_token_accuracy": 0.6528173585732778,
      "num_tokens": 1607420300.0,
      "step": 9588
    },
    {
      "entropy": 1.7212029000123341,
      "epoch": 1.0533904589272474,
      "grad_norm": 0.8923618793487549,
      "learning_rate": 1.0661441153263801e-05,
      "loss": 1.6135,
      "mean_token_accuracy": 0.6504168063402176,
      "num_tokens": 1607561102.0,
      "step": 9589
    },
    {
      "entropy": 1.7322006324927013,
      "epoch": 1.0535003158386202,
      "grad_norm": 0.6851010918617249,
      "learning_rate": 1.0659841163076834e-05,
      "loss": 1.2743,
      "mean_token_accuracy": 0.6731189688046774,
      "num_tokens": 1607681433.0,
      "step": 9590
    },
    {
      "entropy": 1.6935873130957286,
      "epoch": 1.0536101727499931,
      "grad_norm": 0.6381398439407349,
      "learning_rate": 1.0658241183655741e-05,
      "loss": 1.3826,
      "mean_token_accuracy": 0.6610639144976934,
      "num_tokens": 1607883422.0,
      "step": 9591
    },
    {
      "entropy": 1.7271686891714733,
      "epoch": 1.053720029661366,
      "grad_norm": 0.6199973225593567,
      "learning_rate": 1.0656641215051165e-05,
      "loss": 1.5337,
      "mean_token_accuracy": 0.6284688164790472,
      "num_tokens": 1608114811.0,
      "step": 9592
    },
    {
      "entropy": 1.7459026277065277,
      "epoch": 1.053829886572739,
      "grad_norm": 0.9864705204963684,
      "learning_rate": 1.0655041257313735e-05,
      "loss": 1.3567,
      "mean_token_accuracy": 0.6629860103130341,
      "num_tokens": 1608251495.0,
      "step": 9593
    },
    {
      "entropy": 1.7121766805648804,
      "epoch": 1.053939743484112,
      "grad_norm": 0.7664281725883484,
      "learning_rate": 1.0653441310494092e-05,
      "loss": 1.287,
      "mean_token_accuracy": 0.6731170068184534,
      "num_tokens": 1608369641.0,
      "step": 9594
    },
    {
      "entropy": 1.6202069719632466,
      "epoch": 1.054049600395485,
      "grad_norm": 0.5870428681373596,
      "learning_rate": 1.0651841374642882e-05,
      "loss": 1.3897,
      "mean_token_accuracy": 0.6637488653262457,
      "num_tokens": 1608579940.0,
      "step": 9595
    },
    {
      "entropy": 1.727886547644933,
      "epoch": 1.0541594573068578,
      "grad_norm": 0.844563364982605,
      "learning_rate": 1.065024144981073e-05,
      "loss": 1.5118,
      "mean_token_accuracy": 0.6562522749106089,
      "num_tokens": 1608758095.0,
      "step": 9596
    },
    {
      "entropy": 1.7154951989650726,
      "epoch": 1.0542693142182307,
      "grad_norm": 0.7168102860450745,
      "learning_rate": 1.064864153604828e-05,
      "loss": 1.5547,
      "mean_token_accuracy": 0.641726886232694,
      "num_tokens": 1608920813.0,
      "step": 9597
    },
    {
      "entropy": 1.7120743890603383,
      "epoch": 1.0543791711296038,
      "grad_norm": 0.8167440891265869,
      "learning_rate": 1.0647041633406168e-05,
      "loss": 1.4122,
      "mean_token_accuracy": 0.6548740615447363,
      "num_tokens": 1609056254.0,
      "step": 9598
    },
    {
      "entropy": 1.6860410471757252,
      "epoch": 1.0544890280409767,
      "grad_norm": 0.6746973395347595,
      "learning_rate": 1.0645441741935029e-05,
      "loss": 1.4384,
      "mean_token_accuracy": 0.6527743736902872,
      "num_tokens": 1609290219.0,
      "step": 9599
    },
    {
      "entropy": 1.653940111398697,
      "epoch": 1.0545988849523495,
      "grad_norm": 0.7178821563720703,
      "learning_rate": 1.0643841861685498e-05,
      "loss": 1.3891,
      "mean_token_accuracy": 0.6595231195290884,
      "num_tokens": 1609491031.0,
      "step": 9600
    },
    {
      "entropy": 1.6904591818650563,
      "epoch": 1.0547087418637224,
      "grad_norm": 0.6442198157310486,
      "learning_rate": 1.0642241992708215e-05,
      "loss": 1.4274,
      "mean_token_accuracy": 0.6542298197746277,
      "num_tokens": 1609653550.0,
      "step": 9601
    },
    {
      "entropy": 1.7299334208170574,
      "epoch": 1.0548185987750955,
      "grad_norm": 0.7151714563369751,
      "learning_rate": 1.0640642135053807e-05,
      "loss": 1.354,
      "mean_token_accuracy": 0.6594923585653305,
      "num_tokens": 1609798123.0,
      "step": 9602
    },
    {
      "entropy": 1.7396175960699718,
      "epoch": 1.0549284556864684,
      "grad_norm": 0.7707934975624084,
      "learning_rate": 1.0639042288772914e-05,
      "loss": 1.3926,
      "mean_token_accuracy": 0.6571768969297409,
      "num_tokens": 1609941400.0,
      "step": 9603
    },
    {
      "entropy": 1.768477698167165,
      "epoch": 1.0550383125978413,
      "grad_norm": 0.6910679936408997,
      "learning_rate": 1.0637442453916173e-05,
      "loss": 1.5426,
      "mean_token_accuracy": 0.6517347097396851,
      "num_tokens": 1610105272.0,
      "step": 9604
    },
    {
      "entropy": 1.6502993007500966,
      "epoch": 1.0551481695092142,
      "grad_norm": 0.6803098320960999,
      "learning_rate": 1.0635842630534215e-05,
      "loss": 1.4061,
      "mean_token_accuracy": 0.6640617698431015,
      "num_tokens": 1610247173.0,
      "step": 9605
    },
    {
      "entropy": 1.6991427938143413,
      "epoch": 1.055258026420587,
      "grad_norm": 0.6311363577842712,
      "learning_rate": 1.063424281867767e-05,
      "loss": 1.4876,
      "mean_token_accuracy": 0.6401338577270508,
      "num_tokens": 1610423935.0,
      "step": 9606
    },
    {
      "entropy": 1.6480543613433838,
      "epoch": 1.0553678833319602,
      "grad_norm": 0.8264037370681763,
      "learning_rate": 1.063264301839718e-05,
      "loss": 1.5157,
      "mean_token_accuracy": 0.6646409928798676,
      "num_tokens": 1610616702.0,
      "step": 9607
    },
    {
      "entropy": 1.7201192478338878,
      "epoch": 1.055477740243333,
      "grad_norm": 0.7642366886138916,
      "learning_rate": 1.0631043229743367e-05,
      "loss": 1.3135,
      "mean_token_accuracy": 0.6787395030260086,
      "num_tokens": 1610783350.0,
      "step": 9608
    },
    {
      "entropy": 1.7671165466308594,
      "epoch": 1.055587597154706,
      "grad_norm": 0.737358570098877,
      "learning_rate": 1.0629443452766872e-05,
      "loss": 1.5055,
      "mean_token_accuracy": 0.6605880657831827,
      "num_tokens": 1610956661.0,
      "step": 9609
    },
    {
      "entropy": 1.7348363002141316,
      "epoch": 1.0556974540660788,
      "grad_norm": 0.7109798192977905,
      "learning_rate": 1.0627843687518326e-05,
      "loss": 1.4493,
      "mean_token_accuracy": 0.6522191713253657,
      "num_tokens": 1611087838.0,
      "step": 9610
    },
    {
      "entropy": 1.6798150340716045,
      "epoch": 1.055807310977452,
      "grad_norm": 0.6326707601547241,
      "learning_rate": 1.062624393404836e-05,
      "loss": 1.3727,
      "mean_token_accuracy": 0.6628447274367014,
      "num_tokens": 1611244410.0,
      "step": 9611
    },
    {
      "entropy": 1.6709414720535278,
      "epoch": 1.0559171678888248,
      "grad_norm": 0.7551990747451782,
      "learning_rate": 1.06246441924076e-05,
      "loss": 1.2086,
      "mean_token_accuracy": 0.6848486711581548,
      "num_tokens": 1611363852.0,
      "step": 9612
    },
    {
      "entropy": 1.6593234837055206,
      "epoch": 1.0560270248001977,
      "grad_norm": 0.7147453427314758,
      "learning_rate": 1.062304446264669e-05,
      "loss": 1.331,
      "mean_token_accuracy": 0.6691244542598724,
      "num_tokens": 1611543725.0,
      "step": 9613
    },
    {
      "entropy": 1.7118070423603058,
      "epoch": 1.0561368817115706,
      "grad_norm": 0.6040416359901428,
      "learning_rate": 1.0621444744816247e-05,
      "loss": 1.3854,
      "mean_token_accuracy": 0.6613721499840418,
      "num_tokens": 1611719789.0,
      "step": 9614
    },
    {
      "entropy": 1.693102478981018,
      "epoch": 1.0562467386229437,
      "grad_norm": 0.8449906706809998,
      "learning_rate": 1.061984503896691e-05,
      "loss": 1.4027,
      "mean_token_accuracy": 0.684621180097262,
      "num_tokens": 1611874620.0,
      "step": 9615
    },
    {
      "entropy": 1.6907888650894165,
      "epoch": 1.0563565955343166,
      "grad_norm": 0.7158522605895996,
      "learning_rate": 1.0618245345149308e-05,
      "loss": 1.2702,
      "mean_token_accuracy": 0.672495091954867,
      "num_tokens": 1611997469.0,
      "step": 9616
    },
    {
      "entropy": 1.7449814677238464,
      "epoch": 1.0564664524456895,
      "grad_norm": 0.7022985816001892,
      "learning_rate": 1.0616645663414064e-05,
      "loss": 1.3994,
      "mean_token_accuracy": 0.6574458430210749,
      "num_tokens": 1612189165.0,
      "step": 9617
    },
    {
      "entropy": 1.6879704495271046,
      "epoch": 1.0565763093570624,
      "grad_norm": 0.7382509112358093,
      "learning_rate": 1.0615045993811813e-05,
      "loss": 1.288,
      "mean_token_accuracy": 0.6710261305173238,
      "num_tokens": 1612327205.0,
      "step": 9618
    },
    {
      "entropy": 1.7922049760818481,
      "epoch": 1.0566861662684353,
      "grad_norm": 0.7976166009902954,
      "learning_rate": 1.0613446336393187e-05,
      "loss": 1.5642,
      "mean_token_accuracy": 0.6370315402746201,
      "num_tokens": 1612482869.0,
      "step": 9619
    },
    {
      "entropy": 1.7130910356839497,
      "epoch": 1.0567960231798084,
      "grad_norm": 0.6342209577560425,
      "learning_rate": 1.0611846691208805e-05,
      "loss": 1.3953,
      "mean_token_accuracy": 0.6711895515521368,
      "num_tokens": 1612653926.0,
      "step": 9620
    },
    {
      "entropy": 1.68388170003891,
      "epoch": 1.0569058800911812,
      "grad_norm": 0.6616874933242798,
      "learning_rate": 1.0610247058309305e-05,
      "loss": 1.3314,
      "mean_token_accuracy": 0.6681681573390961,
      "num_tokens": 1612792712.0,
      "step": 9621
    },
    {
      "entropy": 1.6615887383619945,
      "epoch": 1.0570157370025541,
      "grad_norm": 0.6471387147903442,
      "learning_rate": 1.0608647437745308e-05,
      "loss": 1.5439,
      "mean_token_accuracy": 0.622841422756513,
      "num_tokens": 1613069195.0,
      "step": 9622
    },
    {
      "entropy": 1.689245601495107,
      "epoch": 1.057125593913927,
      "grad_norm": 0.7069512009620667,
      "learning_rate": 1.0607047829567443e-05,
      "loss": 1.3479,
      "mean_token_accuracy": 0.6640896399815878,
      "num_tokens": 1613260754.0,
      "step": 9623
    },
    {
      "entropy": 1.703204204638799,
      "epoch": 1.0572354508253001,
      "grad_norm": 0.7228965759277344,
      "learning_rate": 1.0605448233826338e-05,
      "loss": 1.2755,
      "mean_token_accuracy": 0.6698009570439657,
      "num_tokens": 1613369068.0,
      "step": 9624
    },
    {
      "entropy": 1.6650657554467518,
      "epoch": 1.057345307736673,
      "grad_norm": 0.661736786365509,
      "learning_rate": 1.0603848650572616e-05,
      "loss": 1.5366,
      "mean_token_accuracy": 0.6506972561279932,
      "num_tokens": 1613545729.0,
      "step": 9625
    },
    {
      "entropy": 1.653905838727951,
      "epoch": 1.057455164648046,
      "grad_norm": 0.725866973400116,
      "learning_rate": 1.0602249079856905e-05,
      "loss": 1.4377,
      "mean_token_accuracy": 0.6448950469493866,
      "num_tokens": 1613757396.0,
      "step": 9626
    },
    {
      "entropy": 1.6793735524018605,
      "epoch": 1.0575650215594188,
      "grad_norm": 0.6681774854660034,
      "learning_rate": 1.0600649521729836e-05,
      "loss": 1.4342,
      "mean_token_accuracy": 0.6574407368898392,
      "num_tokens": 1613895809.0,
      "step": 9627
    },
    {
      "entropy": 1.7233494420846303,
      "epoch": 1.057674878470792,
      "grad_norm": 0.617106556892395,
      "learning_rate": 1.0599049976242028e-05,
      "loss": 1.3149,
      "mean_token_accuracy": 0.6670562823613485,
      "num_tokens": 1614054222.0,
      "step": 9628
    },
    {
      "entropy": 1.7311593393484752,
      "epoch": 1.0577847353821648,
      "grad_norm": 0.791827380657196,
      "learning_rate": 1.0597450443444106e-05,
      "loss": 1.3224,
      "mean_token_accuracy": 0.6638512363036474,
      "num_tokens": 1614246882.0,
      "step": 9629
    },
    {
      "entropy": 1.7481309374173482,
      "epoch": 1.0578945922935377,
      "grad_norm": 0.6565181016921997,
      "learning_rate": 1.0595850923386699e-05,
      "loss": 1.5325,
      "mean_token_accuracy": 0.6478005150953928,
      "num_tokens": 1614418530.0,
      "step": 9630
    },
    {
      "entropy": 1.7112793425718944,
      "epoch": 1.0580044492049105,
      "grad_norm": 0.8694975972175598,
      "learning_rate": 1.0594251416120426e-05,
      "loss": 1.5551,
      "mean_token_accuracy": 0.6495432009299597,
      "num_tokens": 1614553386.0,
      "step": 9631
    },
    {
      "entropy": 1.708936999241511,
      "epoch": 1.0581143061162837,
      "grad_norm": 0.6418928503990173,
      "learning_rate": 1.0592651921695912e-05,
      "loss": 1.4058,
      "mean_token_accuracy": 0.658669908841451,
      "num_tokens": 1614708336.0,
      "step": 9632
    },
    {
      "entropy": 1.6334985593954723,
      "epoch": 1.0582241630276565,
      "grad_norm": 0.7269279360771179,
      "learning_rate": 1.0591052440163783e-05,
      "loss": 1.2101,
      "mean_token_accuracy": 0.6838384419679642,
      "num_tokens": 1614846838.0,
      "step": 9633
    },
    {
      "entropy": 1.7367220322291057,
      "epoch": 1.0583340199390294,
      "grad_norm": 0.930919349193573,
      "learning_rate": 1.0589452971574659e-05,
      "loss": 1.1158,
      "mean_token_accuracy": 0.6759131153424581,
      "num_tokens": 1615008974.0,
      "step": 9634
    },
    {
      "entropy": 1.7149739066759746,
      "epoch": 1.0584438768504023,
      "grad_norm": 0.7244778871536255,
      "learning_rate": 1.0587853515979163e-05,
      "loss": 1.2775,
      "mean_token_accuracy": 0.6694569289684296,
      "num_tokens": 1615125425.0,
      "step": 9635
    },
    {
      "entropy": 1.7364940841992695,
      "epoch": 1.0585537337617752,
      "grad_norm": 0.7459930181503296,
      "learning_rate": 1.0586254073427919e-05,
      "loss": 1.5224,
      "mean_token_accuracy": 0.6431458294391632,
      "num_tokens": 1615289010.0,
      "step": 9636
    },
    {
      "entropy": 1.774601896603902,
      "epoch": 1.0586635906731483,
      "grad_norm": 0.6885215640068054,
      "learning_rate": 1.0584654643971546e-05,
      "loss": 1.5666,
      "mean_token_accuracy": 0.6418042729298273,
      "num_tokens": 1615450775.0,
      "step": 9637
    },
    {
      "entropy": 1.694488286972046,
      "epoch": 1.0587734475845212,
      "grad_norm": 0.6608237624168396,
      "learning_rate": 1.0583055227660666e-05,
      "loss": 1.3102,
      "mean_token_accuracy": 0.6682019531726837,
      "num_tokens": 1615623137.0,
      "step": 9638
    },
    {
      "entropy": 1.7278088827927907,
      "epoch": 1.058883304495894,
      "grad_norm": 0.697512686252594,
      "learning_rate": 1.05814558245459e-05,
      "loss": 1.4574,
      "mean_token_accuracy": 0.6336638778448105,
      "num_tokens": 1615802189.0,
      "step": 9639
    },
    {
      "entropy": 1.7499482830365498,
      "epoch": 1.058993161407267,
      "grad_norm": 0.6239208579063416,
      "learning_rate": 1.057985643467787e-05,
      "loss": 1.4644,
      "mean_token_accuracy": 0.637439583738645,
      "num_tokens": 1615995816.0,
      "step": 9640
    },
    {
      "entropy": 1.6262230277061462,
      "epoch": 1.05910301831864,
      "grad_norm": 0.8068125247955322,
      "learning_rate": 1.0578257058107193e-05,
      "loss": 1.269,
      "mean_token_accuracy": 0.6698660800854365,
      "num_tokens": 1616120440.0,
      "step": 9641
    },
    {
      "entropy": 1.6767154037952423,
      "epoch": 1.059212875230013,
      "grad_norm": 0.680270254611969,
      "learning_rate": 1.0576657694884494e-05,
      "loss": 1.2518,
      "mean_token_accuracy": 0.6656695355971655,
      "num_tokens": 1616265383.0,
      "step": 9642
    },
    {
      "entropy": 1.6900179982185364,
      "epoch": 1.0593227321413858,
      "grad_norm": 0.6536128520965576,
      "learning_rate": 1.0575058345060386e-05,
      "loss": 1.3902,
      "mean_token_accuracy": 0.6535529990990957,
      "num_tokens": 1616443547.0,
      "step": 9643
    },
    {
      "entropy": 1.7220917642116547,
      "epoch": 1.0594325890527587,
      "grad_norm": 0.6382746696472168,
      "learning_rate": 1.0573459008685485e-05,
      "loss": 1.5317,
      "mean_token_accuracy": 0.6338553329308828,
      "num_tokens": 1616648707.0,
      "step": 9644
    },
    {
      "entropy": 1.649655689795812,
      "epoch": 1.0595424459641318,
      "grad_norm": 0.6632347106933594,
      "learning_rate": 1.057185968581042e-05,
      "loss": 1.2947,
      "mean_token_accuracy": 0.6613847464323044,
      "num_tokens": 1616790214.0,
      "step": 9645
    },
    {
      "entropy": 1.686415046453476,
      "epoch": 1.0596523028755047,
      "grad_norm": 0.7371233105659485,
      "learning_rate": 1.0570260376485801e-05,
      "loss": 1.4037,
      "mean_token_accuracy": 0.6672069480021795,
      "num_tokens": 1616952135.0,
      "step": 9646
    },
    {
      "entropy": 1.651140828927358,
      "epoch": 1.0597621597868776,
      "grad_norm": 0.6713118553161621,
      "learning_rate": 1.0568661080762246e-05,
      "loss": 1.518,
      "mean_token_accuracy": 0.6458087265491486,
      "num_tokens": 1617144223.0,
      "step": 9647
    },
    {
      "entropy": 1.6354533036549885,
      "epoch": 1.0598720166982505,
      "grad_norm": 0.811916708946228,
      "learning_rate": 1.0567061798690379e-05,
      "loss": 1.207,
      "mean_token_accuracy": 0.6824970146020254,
      "num_tokens": 1617304698.0,
      "step": 9648
    },
    {
      "entropy": 1.7508118848005931,
      "epoch": 1.0599818736096234,
      "grad_norm": 0.6534659266471863,
      "learning_rate": 1.0565462530320806e-05,
      "loss": 1.4521,
      "mean_token_accuracy": 0.6644961486260096,
      "num_tokens": 1617462814.0,
      "step": 9649
    },
    {
      "entropy": 1.6995843648910522,
      "epoch": 1.0600917305209965,
      "grad_norm": 0.6688631772994995,
      "learning_rate": 1.0563863275704147e-05,
      "loss": 1.355,
      "mean_token_accuracy": 0.6675297270218531,
      "num_tokens": 1617591628.0,
      "step": 9650
    },
    {
      "entropy": 1.6866484085718791,
      "epoch": 1.0602015874323694,
      "grad_norm": 0.6986563205718994,
      "learning_rate": 1.0562264034891024e-05,
      "loss": 1.5377,
      "mean_token_accuracy": 0.6672149201234182,
      "num_tokens": 1617732897.0,
      "step": 9651
    },
    {
      "entropy": 1.6906297703584034,
      "epoch": 1.0603114443437422,
      "grad_norm": 0.7244104743003845,
      "learning_rate": 1.0560664807932041e-05,
      "loss": 1.6056,
      "mean_token_accuracy": 0.6466974268356959,
      "num_tokens": 1617916608.0,
      "step": 9652
    },
    {
      "entropy": 1.7492324809233348,
      "epoch": 1.0604213012551151,
      "grad_norm": 0.8112777471542358,
      "learning_rate": 1.0559065594877822e-05,
      "loss": 1.3205,
      "mean_token_accuracy": 0.6659993777672449,
      "num_tokens": 1618039898.0,
      "step": 9653
    },
    {
      "entropy": 1.704162836074829,
      "epoch": 1.0605311581664882,
      "grad_norm": 0.7873448729515076,
      "learning_rate": 1.055746639577898e-05,
      "loss": 1.1877,
      "mean_token_accuracy": 0.6737140913804373,
      "num_tokens": 1618223214.0,
      "step": 9654
    },
    {
      "entropy": 1.691829393307368,
      "epoch": 1.0606410150778611,
      "grad_norm": 0.9849948287010193,
      "learning_rate": 1.0555867210686127e-05,
      "loss": 1.3944,
      "mean_token_accuracy": 0.6720232317845026,
      "num_tokens": 1618379497.0,
      "step": 9655
    },
    {
      "entropy": 1.6794477105140686,
      "epoch": 1.060750871989234,
      "grad_norm": 0.6636627912521362,
      "learning_rate": 1.055426803964987e-05,
      "loss": 1.377,
      "mean_token_accuracy": 0.6529742429653803,
      "num_tokens": 1618604731.0,
      "step": 9656
    },
    {
      "entropy": 1.7792643805344899,
      "epoch": 1.060860728900607,
      "grad_norm": 0.6718061566352844,
      "learning_rate": 1.0552668882720836e-05,
      "loss": 1.3205,
      "mean_token_accuracy": 0.6614718536535898,
      "num_tokens": 1618716722.0,
      "step": 9657
    },
    {
      "entropy": 1.7258899211883545,
      "epoch": 1.06097058581198,
      "grad_norm": 0.7656777501106262,
      "learning_rate": 1.0551069739949626e-05,
      "loss": 1.4781,
      "mean_token_accuracy": 0.6475807974735895,
      "num_tokens": 1618904778.0,
      "step": 9658
    },
    {
      "entropy": 1.7146598994731903,
      "epoch": 1.061080442723353,
      "grad_norm": 0.7096765637397766,
      "learning_rate": 1.0549470611386861e-05,
      "loss": 1.4426,
      "mean_token_accuracy": 0.6532019923130671,
      "num_tokens": 1619050535.0,
      "step": 9659
    },
    {
      "entropy": 1.7547457814216614,
      "epoch": 1.0611902996347258,
      "grad_norm": 0.7451149225234985,
      "learning_rate": 1.0547871497083147e-05,
      "loss": 1.4693,
      "mean_token_accuracy": 0.6539823710918427,
      "num_tokens": 1619236759.0,
      "step": 9660
    },
    {
      "entropy": 1.675736625989278,
      "epoch": 1.0613001565460987,
      "grad_norm": 0.583570122718811,
      "learning_rate": 1.0546272397089094e-05,
      "loss": 1.4404,
      "mean_token_accuracy": 0.6391840279102325,
      "num_tokens": 1619447379.0,
      "step": 9661
    },
    {
      "entropy": 1.7973829209804535,
      "epoch": 1.0614100134574715,
      "grad_norm": 0.7883579134941101,
      "learning_rate": 1.0544673311455313e-05,
      "loss": 1.4437,
      "mean_token_accuracy": 0.6529788474241892,
      "num_tokens": 1619594379.0,
      "step": 9662
    },
    {
      "entropy": 1.7165298263231914,
      "epoch": 1.0615198703688447,
      "grad_norm": 0.7997109293937683,
      "learning_rate": 1.0543074240232421e-05,
      "loss": 1.6165,
      "mean_token_accuracy": 0.6245667189359665,
      "num_tokens": 1619800773.0,
      "step": 9663
    },
    {
      "entropy": 1.7447736859321594,
      "epoch": 1.0616297272802175,
      "grad_norm": 0.7188670039176941,
      "learning_rate": 1.0541475183471022e-05,
      "loss": 1.3859,
      "mean_token_accuracy": 0.6584334820508957,
      "num_tokens": 1619954114.0,
      "step": 9664
    },
    {
      "entropy": 1.6913307011127472,
      "epoch": 1.0617395841915904,
      "grad_norm": 0.748576283454895,
      "learning_rate": 1.0539876141221726e-05,
      "loss": 1.3055,
      "mean_token_accuracy": 0.6666964242855707,
      "num_tokens": 1620087595.0,
      "step": 9665
    },
    {
      "entropy": 1.6912503639856975,
      "epoch": 1.0618494411029633,
      "grad_norm": 0.6023520231246948,
      "learning_rate": 1.0538277113535145e-05,
      "loss": 1.2883,
      "mean_token_accuracy": 0.6658832430839539,
      "num_tokens": 1620223231.0,
      "step": 9666
    },
    {
      "entropy": 1.7426739136377971,
      "epoch": 1.0619592980143364,
      "grad_norm": 0.654004693031311,
      "learning_rate": 1.0536678100461885e-05,
      "loss": 1.4584,
      "mean_token_accuracy": 0.6539844125509262,
      "num_tokens": 1620423582.0,
      "step": 9667
    },
    {
      "entropy": 1.6927513976891835,
      "epoch": 1.0620691549257093,
      "grad_norm": 0.7091237902641296,
      "learning_rate": 1.053507910205255e-05,
      "loss": 1.4725,
      "mean_token_accuracy": 0.6411188344160715,
      "num_tokens": 1620653454.0,
      "step": 9668
    },
    {
      "entropy": 1.7462256650129955,
      "epoch": 1.0621790118370822,
      "grad_norm": 0.6891539692878723,
      "learning_rate": 1.0533480118357757e-05,
      "loss": 1.4739,
      "mean_token_accuracy": 0.6464346051216125,
      "num_tokens": 1620877012.0,
      "step": 9669
    },
    {
      "entropy": 1.671479304631551,
      "epoch": 1.062288868748455,
      "grad_norm": 0.6748672127723694,
      "learning_rate": 1.0531881149428107e-05,
      "loss": 1.4269,
      "mean_token_accuracy": 0.6441149214903513,
      "num_tokens": 1621057118.0,
      "step": 9670
    },
    {
      "entropy": 1.7517466147740681,
      "epoch": 1.0623987256598282,
      "grad_norm": 0.7266637086868286,
      "learning_rate": 1.0530282195314206e-05,
      "loss": 1.4868,
      "mean_token_accuracy": 0.6445014526446661,
      "num_tokens": 1621240078.0,
      "step": 9671
    },
    {
      "entropy": 1.6607401569684346,
      "epoch": 1.062508582571201,
      "grad_norm": 0.6144156455993652,
      "learning_rate": 1.0528683256066666e-05,
      "loss": 1.4003,
      "mean_token_accuracy": 0.646324540177981,
      "num_tokens": 1621410254.0,
      "step": 9672
    },
    {
      "entropy": 1.6924620866775513,
      "epoch": 1.062618439482574,
      "grad_norm": 0.8956554532051086,
      "learning_rate": 1.0527084331736084e-05,
      "loss": 1.3734,
      "mean_token_accuracy": 0.6591135859489441,
      "num_tokens": 1621581882.0,
      "step": 9673
    },
    {
      "entropy": 1.6320221523443859,
      "epoch": 1.0627282963939468,
      "grad_norm": 0.6442832350730896,
      "learning_rate": 1.0525485422373069e-05,
      "loss": 1.437,
      "mean_token_accuracy": 0.6561227341492971,
      "num_tokens": 1621796589.0,
      "step": 9674
    },
    {
      "entropy": 1.7225764592488606,
      "epoch": 1.0628381533053197,
      "grad_norm": 0.7406787872314453,
      "learning_rate": 1.0523886528028231e-05,
      "loss": 1.3413,
      "mean_token_accuracy": 0.6588184783856074,
      "num_tokens": 1621947807.0,
      "step": 9675
    },
    {
      "entropy": 1.662076324224472,
      "epoch": 1.0629480102166928,
      "grad_norm": 0.5989936590194702,
      "learning_rate": 1.0522287648752165e-05,
      "loss": 1.3468,
      "mean_token_accuracy": 0.670153538386027,
      "num_tokens": 1622139639.0,
      "step": 9676
    },
    {
      "entropy": 1.6708702047665913,
      "epoch": 1.0630578671280657,
      "grad_norm": 0.7162211537361145,
      "learning_rate": 1.0520688784595484e-05,
      "loss": 1.4332,
      "mean_token_accuracy": 0.6640763978163401,
      "num_tokens": 1622282259.0,
      "step": 9677
    },
    {
      "entropy": 1.7043314973513286,
      "epoch": 1.0631677240394386,
      "grad_norm": 0.6820145845413208,
      "learning_rate": 1.0519089935608786e-05,
      "loss": 1.4393,
      "mean_token_accuracy": 0.6579158157110214,
      "num_tokens": 1622477913.0,
      "step": 9678
    },
    {
      "entropy": 1.6165697475274403,
      "epoch": 1.0632775809508115,
      "grad_norm": 0.6088776588439941,
      "learning_rate": 1.0517491101842672e-05,
      "loss": 1.1827,
      "mean_token_accuracy": 0.6940498252709707,
      "num_tokens": 1622603559.0,
      "step": 9679
    },
    {
      "entropy": 1.7742246389389038,
      "epoch": 1.0633874378621846,
      "grad_norm": 0.635688841342926,
      "learning_rate": 1.0515892283347752e-05,
      "loss": 1.5138,
      "mean_token_accuracy": 0.6343726913134257,
      "num_tokens": 1622820459.0,
      "step": 9680
    },
    {
      "entropy": 1.6375213364760082,
      "epoch": 1.0634972947735575,
      "grad_norm": 0.7309091687202454,
      "learning_rate": 1.051429348017462e-05,
      "loss": 1.3063,
      "mean_token_accuracy": 0.6767990191777548,
      "num_tokens": 1623019426.0,
      "step": 9681
    },
    {
      "entropy": 1.6735208332538605,
      "epoch": 1.0636071516849304,
      "grad_norm": 0.8735835552215576,
      "learning_rate": 1.051269469237388e-05,
      "loss": 1.239,
      "mean_token_accuracy": 0.6743840475877126,
      "num_tokens": 1623154750.0,
      "step": 9682
    },
    {
      "entropy": 1.7003762324651082,
      "epoch": 1.0637170085963032,
      "grad_norm": 0.5599207878112793,
      "learning_rate": 1.0511095919996135e-05,
      "loss": 1.496,
      "mean_token_accuracy": 0.6529860148827235,
      "num_tokens": 1623356174.0,
      "step": 9683
    },
    {
      "entropy": 1.726138601700465,
      "epoch": 1.0638268655076764,
      "grad_norm": 0.6613774299621582,
      "learning_rate": 1.0509497163091983e-05,
      "loss": 1.3858,
      "mean_token_accuracy": 0.6613100071748098,
      "num_tokens": 1623511935.0,
      "step": 9684
    },
    {
      "entropy": 1.7090193430582683,
      "epoch": 1.0639367224190492,
      "grad_norm": 0.6702026724815369,
      "learning_rate": 1.0507898421712023e-05,
      "loss": 1.4125,
      "mean_token_accuracy": 0.6465659638245901,
      "num_tokens": 1623742462.0,
      "step": 9685
    },
    {
      "entropy": 1.7133901019891102,
      "epoch": 1.0640465793304221,
      "grad_norm": 0.732112467288971,
      "learning_rate": 1.0506299695906859e-05,
      "loss": 1.3698,
      "mean_token_accuracy": 0.6699735869963964,
      "num_tokens": 1623909947.0,
      "step": 9686
    },
    {
      "entropy": 1.7531900107860565,
      "epoch": 1.064156436241795,
      "grad_norm": 0.7114512324333191,
      "learning_rate": 1.0504700985727087e-05,
      "loss": 1.4496,
      "mean_token_accuracy": 0.6486657311518987,
      "num_tokens": 1624037188.0,
      "step": 9687
    },
    {
      "entropy": 1.6981233954429626,
      "epoch": 1.064266293153168,
      "grad_norm": 0.6429248452186584,
      "learning_rate": 1.0503102291223302e-05,
      "loss": 1.2754,
      "mean_token_accuracy": 0.6718081583579382,
      "num_tokens": 1624161312.0,
      "step": 9688
    },
    {
      "entropy": 1.7247523069381714,
      "epoch": 1.064376150064541,
      "grad_norm": 0.7967625856399536,
      "learning_rate": 1.050150361244611e-05,
      "loss": 1.317,
      "mean_token_accuracy": 0.6654373556375504,
      "num_tokens": 1624312357.0,
      "step": 9689
    },
    {
      "entropy": 1.7157942950725555,
      "epoch": 1.064486006975914,
      "grad_norm": 0.6844218373298645,
      "learning_rate": 1.0499904949446102e-05,
      "loss": 1.5019,
      "mean_token_accuracy": 0.6439647078514099,
      "num_tokens": 1624499884.0,
      "step": 9690
    },
    {
      "entropy": 1.7442339460055034,
      "epoch": 1.0645958638872868,
      "grad_norm": 0.8911353349685669,
      "learning_rate": 1.0498306302273877e-05,
      "loss": 1.4668,
      "mean_token_accuracy": 0.6469593246777853,
      "num_tokens": 1624631885.0,
      "step": 9691
    },
    {
      "entropy": 1.6330601076285045,
      "epoch": 1.0647057207986597,
      "grad_norm": 0.6595163345336914,
      "learning_rate": 1.0496707670980032e-05,
      "loss": 1.3273,
      "mean_token_accuracy": 0.6642039865255356,
      "num_tokens": 1624809064.0,
      "step": 9692
    },
    {
      "entropy": 1.677077313264211,
      "epoch": 1.0648155777100328,
      "grad_norm": 0.6782556176185608,
      "learning_rate": 1.0495109055615162e-05,
      "loss": 1.3071,
      "mean_token_accuracy": 0.6632417937119802,
      "num_tokens": 1624974504.0,
      "step": 9693
    },
    {
      "entropy": 1.6450525323549907,
      "epoch": 1.0649254346214057,
      "grad_norm": 0.7020920515060425,
      "learning_rate": 1.0493510456229863e-05,
      "loss": 1.2382,
      "mean_token_accuracy": 0.6796882202227911,
      "num_tokens": 1625109730.0,
      "step": 9694
    },
    {
      "entropy": 1.6747917830944061,
      "epoch": 1.0650352915327785,
      "grad_norm": 0.7329574227333069,
      "learning_rate": 1.0491911872874732e-05,
      "loss": 1.3547,
      "mean_token_accuracy": 0.6668652594089508,
      "num_tokens": 1625269037.0,
      "step": 9695
    },
    {
      "entropy": 1.6843490501244862,
      "epoch": 1.0651451484441514,
      "grad_norm": 0.75140780210495,
      "learning_rate": 1.0490313305600357e-05,
      "loss": 1.351,
      "mean_token_accuracy": 0.6596083492040634,
      "num_tokens": 1625423315.0,
      "step": 9696
    },
    {
      "entropy": 1.6949997544288635,
      "epoch": 1.0652550053555245,
      "grad_norm": 0.7336523532867432,
      "learning_rate": 1.0488714754457338e-05,
      "loss": 1.5667,
      "mean_token_accuracy": 0.6420057465632757,
      "num_tokens": 1625614264.0,
      "step": 9697
    },
    {
      "entropy": 1.67600150903066,
      "epoch": 1.0653648622668974,
      "grad_norm": 0.7469053864479065,
      "learning_rate": 1.048711621949627e-05,
      "loss": 1.3705,
      "mean_token_accuracy": 0.6591821859280268,
      "num_tokens": 1625755751.0,
      "step": 9698
    },
    {
      "entropy": 1.7073884507020314,
      "epoch": 1.0654747191782703,
      "grad_norm": 0.6153196692466736,
      "learning_rate": 1.048551770076774e-05,
      "loss": 1.4425,
      "mean_token_accuracy": 0.6455186804135641,
      "num_tokens": 1625925207.0,
      "step": 9699
    },
    {
      "entropy": 1.726867179075877,
      "epoch": 1.0655845760896432,
      "grad_norm": 0.9850101470947266,
      "learning_rate": 1.048391919832234e-05,
      "loss": 1.4454,
      "mean_token_accuracy": 0.656451866030693,
      "num_tokens": 1626065708.0,
      "step": 9700
    },
    {
      "entropy": 1.6206376453240712,
      "epoch": 1.065694433001016,
      "grad_norm": 0.6840752959251404,
      "learning_rate": 1.0482320712210667e-05,
      "loss": 1.2084,
      "mean_token_accuracy": 0.689173142115275,
      "num_tokens": 1626205586.0,
      "step": 9701
    },
    {
      "entropy": 1.7038061221440632,
      "epoch": 1.0658042899123892,
      "grad_norm": 0.7342552542686462,
      "learning_rate": 1.0480722242483311e-05,
      "loss": 1.2624,
      "mean_token_accuracy": 0.6706964919964472,
      "num_tokens": 1626338702.0,
      "step": 9702
    },
    {
      "entropy": 1.7553867201010387,
      "epoch": 1.065914146823762,
      "grad_norm": 0.6570054292678833,
      "learning_rate": 1.0479123789190862e-05,
      "loss": 1.3466,
      "mean_token_accuracy": 0.6499860535065333,
      "num_tokens": 1626493092.0,
      "step": 9703
    },
    {
      "entropy": 1.6693990528583527,
      "epoch": 1.066024003735135,
      "grad_norm": 0.5803617835044861,
      "learning_rate": 1.0477525352383913e-05,
      "loss": 1.3904,
      "mean_token_accuracy": 0.6566586941480637,
      "num_tokens": 1626717365.0,
      "step": 9704
    },
    {
      "entropy": 1.7204264203707378,
      "epoch": 1.0661338606465078,
      "grad_norm": 0.8450800776481628,
      "learning_rate": 1.0475926932113048e-05,
      "loss": 1.2561,
      "mean_token_accuracy": 0.6803312748670578,
      "num_tokens": 1626849414.0,
      "step": 9705
    },
    {
      "entropy": 1.6471377710501354,
      "epoch": 1.066243717557881,
      "grad_norm": 0.7381437420845032,
      "learning_rate": 1.0474328528428857e-05,
      "loss": 1.3509,
      "mean_token_accuracy": 0.6623278111219406,
      "num_tokens": 1626997472.0,
      "step": 9706
    },
    {
      "entropy": 1.648034284512202,
      "epoch": 1.0663535744692538,
      "grad_norm": 0.5970849394798279,
      "learning_rate": 1.0472730141381934e-05,
      "loss": 1.4102,
      "mean_token_accuracy": 0.6520186911026636,
      "num_tokens": 1627182309.0,
      "step": 9707
    },
    {
      "entropy": 1.6744927664597828,
      "epoch": 1.0664634313806267,
      "grad_norm": 0.7309461236000061,
      "learning_rate": 1.0471131771022864e-05,
      "loss": 1.5346,
      "mean_token_accuracy": 0.6382336765527725,
      "num_tokens": 1627436905.0,
      "step": 9708
    },
    {
      "entropy": 1.7173547446727753,
      "epoch": 1.0665732882919996,
      "grad_norm": 0.7076787948608398,
      "learning_rate": 1.0469533417402233e-05,
      "loss": 1.3205,
      "mean_token_accuracy": 0.6694023460149765,
      "num_tokens": 1627595498.0,
      "step": 9709
    },
    {
      "entropy": 1.7104172905286152,
      "epoch": 1.0666831452033727,
      "grad_norm": 0.7134943008422852,
      "learning_rate": 1.0467935080570635e-05,
      "loss": 1.4921,
      "mean_token_accuracy": 0.6477473825216293,
      "num_tokens": 1627769844.0,
      "step": 9710
    },
    {
      "entropy": 1.7438405752182007,
      "epoch": 1.0667930021147456,
      "grad_norm": 0.8070123791694641,
      "learning_rate": 1.0466336760578651e-05,
      "loss": 1.2289,
      "mean_token_accuracy": 0.6676356494426727,
      "num_tokens": 1627874501.0,
      "step": 9711
    },
    {
      "entropy": 1.6932413180669148,
      "epoch": 1.0669028590261185,
      "grad_norm": 0.6592340469360352,
      "learning_rate": 1.0464738457476864e-05,
      "loss": 1.3901,
      "mean_token_accuracy": 0.6631415237983068,
      "num_tokens": 1628013193.0,
      "step": 9712
    },
    {
      "entropy": 1.7657971382141113,
      "epoch": 1.0670127159374914,
      "grad_norm": 0.6301009654998779,
      "learning_rate": 1.0463140171315869e-05,
      "loss": 1.4882,
      "mean_token_accuracy": 0.6417807191610336,
      "num_tokens": 1628199079.0,
      "step": 9713
    },
    {
      "entropy": 1.7166667381922405,
      "epoch": 1.0671225728488642,
      "grad_norm": 0.6923064589500427,
      "learning_rate": 1.0461541902146242e-05,
      "loss": 1.4851,
      "mean_token_accuracy": 0.6553737769524256,
      "num_tokens": 1628345776.0,
      "step": 9714
    },
    {
      "entropy": 1.6853701770305634,
      "epoch": 1.0672324297602374,
      "grad_norm": 0.9525777697563171,
      "learning_rate": 1.0459943650018571e-05,
      "loss": 1.4003,
      "mean_token_accuracy": 0.6418146789073944,
      "num_tokens": 1628531537.0,
      "step": 9715
    },
    {
      "entropy": 1.6456667979558308,
      "epoch": 1.0673422866716102,
      "grad_norm": 0.7955992817878723,
      "learning_rate": 1.0458345414983443e-05,
      "loss": 1.4437,
      "mean_token_accuracy": 0.6676210363705953,
      "num_tokens": 1628676576.0,
      "step": 9716
    },
    {
      "entropy": 1.7199549674987793,
      "epoch": 1.0674521435829831,
      "grad_norm": 0.7301570773124695,
      "learning_rate": 1.0456747197091437e-05,
      "loss": 1.2948,
      "mean_token_accuracy": 0.6685295353333155,
      "num_tokens": 1628797611.0,
      "step": 9717
    },
    {
      "entropy": 1.709757685661316,
      "epoch": 1.067562000494356,
      "grad_norm": 0.6962376832962036,
      "learning_rate": 1.0455148996393134e-05,
      "loss": 1.4389,
      "mean_token_accuracy": 0.6500872025887171,
      "num_tokens": 1628968130.0,
      "step": 9718
    },
    {
      "entropy": 1.7100279132525127,
      "epoch": 1.0676718574057291,
      "grad_norm": 0.6749715805053711,
      "learning_rate": 1.0453550812939123e-05,
      "loss": 1.4132,
      "mean_token_accuracy": 0.657318522532781,
      "num_tokens": 1629132479.0,
      "step": 9719
    },
    {
      "entropy": 1.7299424409866333,
      "epoch": 1.067781714317102,
      "grad_norm": 0.7030600905418396,
      "learning_rate": 1.0451952646779984e-05,
      "loss": 1.5058,
      "mean_token_accuracy": 0.6384957631429037,
      "num_tokens": 1629288118.0,
      "step": 9720
    },
    {
      "entropy": 1.6266062955061595,
      "epoch": 1.067891571228475,
      "grad_norm": 0.5976377725601196,
      "learning_rate": 1.0450354497966296e-05,
      "loss": 1.252,
      "mean_token_accuracy": 0.6704409321149191,
      "num_tokens": 1629440160.0,
      "step": 9721
    },
    {
      "entropy": 1.7321474353472393,
      "epoch": 1.0680014281398478,
      "grad_norm": 0.7913817763328552,
      "learning_rate": 1.044875636654864e-05,
      "loss": 1.5509,
      "mean_token_accuracy": 0.6350030054648718,
      "num_tokens": 1629614991.0,
      "step": 9722
    },
    {
      "entropy": 1.7179767787456512,
      "epoch": 1.0681112850512209,
      "grad_norm": 0.7277995944023132,
      "learning_rate": 1.0447158252577595e-05,
      "loss": 1.397,
      "mean_token_accuracy": 0.6543081154425939,
      "num_tokens": 1629790080.0,
      "step": 9723
    },
    {
      "entropy": 1.7230423092842102,
      "epoch": 1.0682211419625938,
      "grad_norm": 0.6613367795944214,
      "learning_rate": 1.0445560156103742e-05,
      "loss": 1.5439,
      "mean_token_accuracy": 0.6340614507595698,
      "num_tokens": 1630005087.0,
      "step": 9724
    },
    {
      "entropy": 1.6821261048316956,
      "epoch": 1.0683309988739667,
      "grad_norm": 0.7301710844039917,
      "learning_rate": 1.0443962077177662e-05,
      "loss": 1.4798,
      "mean_token_accuracy": 0.6496898879607519,
      "num_tokens": 1630248651.0,
      "step": 9725
    },
    {
      "entropy": 1.6728065013885498,
      "epoch": 1.0684408557853395,
      "grad_norm": 0.6719411611557007,
      "learning_rate": 1.0442364015849933e-05,
      "loss": 1.5279,
      "mean_token_accuracy": 0.6336749543746313,
      "num_tokens": 1630450396.0,
      "step": 9726
    },
    {
      "entropy": 1.6456262568632762,
      "epoch": 1.0685507126967124,
      "grad_norm": 0.6920890808105469,
      "learning_rate": 1.044076597217113e-05,
      "loss": 1.4419,
      "mean_token_accuracy": 0.6407264123360316,
      "num_tokens": 1630661340.0,
      "step": 9727
    },
    {
      "entropy": 1.664272427558899,
      "epoch": 1.0686605696080855,
      "grad_norm": 0.8365959525108337,
      "learning_rate": 1.0439167946191833e-05,
      "loss": 1.2577,
      "mean_token_accuracy": 0.6765812089045843,
      "num_tokens": 1630830641.0,
      "step": 9728
    },
    {
      "entropy": 1.757549246152242,
      "epoch": 1.0687704265194584,
      "grad_norm": 0.8349844217300415,
      "learning_rate": 1.0437569937962617e-05,
      "loss": 1.4603,
      "mean_token_accuracy": 0.6479651033878326,
      "num_tokens": 1630990387.0,
      "step": 9729
    },
    {
      "entropy": 1.6663007040818532,
      "epoch": 1.0688802834308313,
      "grad_norm": 0.5842850208282471,
      "learning_rate": 1.0435971947534056e-05,
      "loss": 1.4114,
      "mean_token_accuracy": 0.6464737504720688,
      "num_tokens": 1631194523.0,
      "step": 9730
    },
    {
      "entropy": 1.7366156081358592,
      "epoch": 1.0689901403422042,
      "grad_norm": 0.6315268278121948,
      "learning_rate": 1.0434373974956732e-05,
      "loss": 1.3055,
      "mean_token_accuracy": 0.6716218789418539,
      "num_tokens": 1631350147.0,
      "step": 9731
    },
    {
      "entropy": 1.7530793845653534,
      "epoch": 1.0690999972535773,
      "grad_norm": 0.7210341691970825,
      "learning_rate": 1.0432776020281217e-05,
      "loss": 1.5249,
      "mean_token_accuracy": 0.6390533894300461,
      "num_tokens": 1631523960.0,
      "step": 9732
    },
    {
      "entropy": 1.6565876404444377,
      "epoch": 1.0692098541649502,
      "grad_norm": 0.5894297957420349,
      "learning_rate": 1.0431178083558085e-05,
      "loss": 1.5349,
      "mean_token_accuracy": 0.6446276158094406,
      "num_tokens": 1631694097.0,
      "step": 9733
    },
    {
      "entropy": 1.7121220330397289,
      "epoch": 1.069319711076323,
      "grad_norm": 0.8435656428337097,
      "learning_rate": 1.0429580164837912e-05,
      "loss": 1.5071,
      "mean_token_accuracy": 0.6510050147771835,
      "num_tokens": 1631875264.0,
      "step": 9734
    },
    {
      "entropy": 1.6705400049686432,
      "epoch": 1.069429567987696,
      "grad_norm": 0.7857469320297241,
      "learning_rate": 1.0427982264171265e-05,
      "loss": 1.4161,
      "mean_token_accuracy": 0.6750262777010599,
      "num_tokens": 1632003546.0,
      "step": 9735
    },
    {
      "entropy": 1.7056404054164886,
      "epoch": 1.069539424899069,
      "grad_norm": 0.7281525731086731,
      "learning_rate": 1.0426384381608723e-05,
      "loss": 1.3679,
      "mean_token_accuracy": 0.655732790629069,
      "num_tokens": 1632145433.0,
      "step": 9736
    },
    {
      "entropy": 1.6636238992214203,
      "epoch": 1.069649281810442,
      "grad_norm": 0.6364181041717529,
      "learning_rate": 1.042478651720086e-05,
      "loss": 1.421,
      "mean_token_accuracy": 0.6475005000829697,
      "num_tokens": 1632329209.0,
      "step": 9737
    },
    {
      "entropy": 1.724616914987564,
      "epoch": 1.0697591387218148,
      "grad_norm": 0.7049274444580078,
      "learning_rate": 1.0423188670998243e-05,
      "loss": 1.4647,
      "mean_token_accuracy": 0.65199646850427,
      "num_tokens": 1632496345.0,
      "step": 9738
    },
    {
      "entropy": 1.7012827197710674,
      "epoch": 1.0698689956331877,
      "grad_norm": 0.6477790474891663,
      "learning_rate": 1.0421590843051443e-05,
      "loss": 1.395,
      "mean_token_accuracy": 0.6610339830319086,
      "num_tokens": 1632699990.0,
      "step": 9739
    },
    {
      "entropy": 1.701954831679662,
      "epoch": 1.0699788525445606,
      "grad_norm": 0.7536341547966003,
      "learning_rate": 1.0419993033411036e-05,
      "loss": 1.4754,
      "mean_token_accuracy": 0.6506841977437338,
      "num_tokens": 1632878568.0,
      "step": 9740
    },
    {
      "entropy": 1.6800040304660797,
      "epoch": 1.0700887094559337,
      "grad_norm": 0.7120772004127502,
      "learning_rate": 1.0418395242127586e-05,
      "loss": 1.3509,
      "mean_token_accuracy": 0.6788023312886556,
      "num_tokens": 1633019001.0,
      "step": 9741
    },
    {
      "entropy": 1.6614234050114949,
      "epoch": 1.0701985663673066,
      "grad_norm": 0.5462971925735474,
      "learning_rate": 1.0416797469251665e-05,
      "loss": 1.3423,
      "mean_token_accuracy": 0.6563159028689066,
      "num_tokens": 1633205177.0,
      "step": 9742
    },
    {
      "entropy": 1.6736981471379597,
      "epoch": 1.0703084232786795,
      "grad_norm": 0.5824480056762695,
      "learning_rate": 1.0415199714833839e-05,
      "loss": 1.4978,
      "mean_token_accuracy": 0.6424353569746017,
      "num_tokens": 1633445240.0,
      "step": 9743
    },
    {
      "entropy": 1.6671138405799866,
      "epoch": 1.0704182801900524,
      "grad_norm": 0.6380411386489868,
      "learning_rate": 1.0413601978924679e-05,
      "loss": 1.2962,
      "mean_token_accuracy": 0.6786693433920542,
      "num_tokens": 1633617985.0,
      "step": 9744
    },
    {
      "entropy": 1.6733331382274628,
      "epoch": 1.0705281371014255,
      "grad_norm": 0.7337895035743713,
      "learning_rate": 1.0412004261574756e-05,
      "loss": 1.2254,
      "mean_token_accuracy": 0.6779622882604599,
      "num_tokens": 1633735989.0,
      "step": 9745
    },
    {
      "entropy": 1.7590945859750111,
      "epoch": 1.0706379940127984,
      "grad_norm": 0.7717983722686768,
      "learning_rate": 1.041040656283463e-05,
      "loss": 1.3141,
      "mean_token_accuracy": 0.6691213548183441,
      "num_tokens": 1633873474.0,
      "step": 9746
    },
    {
      "entropy": 1.7039412657419841,
      "epoch": 1.0707478509241712,
      "grad_norm": 0.8194169998168945,
      "learning_rate": 1.040880888275487e-05,
      "loss": 1.2822,
      "mean_token_accuracy": 0.670879011352857,
      "num_tokens": 1634023457.0,
      "step": 9747
    },
    {
      "entropy": 1.7141053279240925,
      "epoch": 1.0708577078355441,
      "grad_norm": 0.8548807501792908,
      "learning_rate": 1.0407211221386045e-05,
      "loss": 1.5504,
      "mean_token_accuracy": 0.6367798795302709,
      "num_tokens": 1634192980.0,
      "step": 9748
    },
    {
      "entropy": 1.7354576488335927,
      "epoch": 1.0709675647469172,
      "grad_norm": 0.7616019248962402,
      "learning_rate": 1.0405613578778715e-05,
      "loss": 1.4807,
      "mean_token_accuracy": 0.6475146313508352,
      "num_tokens": 1634353012.0,
      "step": 9749
    },
    {
      "entropy": 1.646492878595988,
      "epoch": 1.0710774216582901,
      "grad_norm": 0.6295143365859985,
      "learning_rate": 1.0404015954983446e-05,
      "loss": 1.2916,
      "mean_token_accuracy": 0.6755774716536204,
      "num_tokens": 1634499347.0,
      "step": 9750
    },
    {
      "entropy": 1.7243276337782543,
      "epoch": 1.071187278569663,
      "grad_norm": 0.7246981263160706,
      "learning_rate": 1.0402418350050807e-05,
      "loss": 1.3662,
      "mean_token_accuracy": 0.6525032967329025,
      "num_tokens": 1634629111.0,
      "step": 9751
    },
    {
      "entropy": 1.688949167728424,
      "epoch": 1.071297135481036,
      "grad_norm": 0.6447790265083313,
      "learning_rate": 1.0400820764031359e-05,
      "loss": 1.3286,
      "mean_token_accuracy": 0.6776885588963827,
      "num_tokens": 1634768536.0,
      "step": 9752
    },
    {
      "entropy": 1.6156230966250102,
      "epoch": 1.0714069923924088,
      "grad_norm": 0.6778178811073303,
      "learning_rate": 1.039922319697566e-05,
      "loss": 1.4044,
      "mean_token_accuracy": 0.6686372607946396,
      "num_tokens": 1634933718.0,
      "step": 9753
    },
    {
      "entropy": 1.7385461231072743,
      "epoch": 1.0715168493037819,
      "grad_norm": 0.7039634585380554,
      "learning_rate": 1.0397625648934279e-05,
      "loss": 1.4781,
      "mean_token_accuracy": 0.6421026686827341,
      "num_tokens": 1635106063.0,
      "step": 9754
    },
    {
      "entropy": 1.7002881566683452,
      "epoch": 1.0716267062151548,
      "grad_norm": 0.5606304407119751,
      "learning_rate": 1.0396028119957775e-05,
      "loss": 1.4618,
      "mean_token_accuracy": 0.6472335507472357,
      "num_tokens": 1635323066.0,
      "step": 9755
    },
    {
      "entropy": 1.720334788163503,
      "epoch": 1.0717365631265277,
      "grad_norm": 0.6186944842338562,
      "learning_rate": 1.0394430610096704e-05,
      "loss": 1.4535,
      "mean_token_accuracy": 0.648893857995669,
      "num_tokens": 1635538160.0,
      "step": 9756
    },
    {
      "entropy": 1.710259069999059,
      "epoch": 1.0718464200379005,
      "grad_norm": 0.7848376631736755,
      "learning_rate": 1.0392833119401635e-05,
      "loss": 1.2818,
      "mean_token_accuracy": 0.6685756246248881,
      "num_tokens": 1635684409.0,
      "step": 9757
    },
    {
      "entropy": 1.679042249917984,
      "epoch": 1.0719562769492736,
      "grad_norm": 0.6115646362304688,
      "learning_rate": 1.0391235647923125e-05,
      "loss": 1.3574,
      "mean_token_accuracy": 0.6604473541180292,
      "num_tokens": 1635818851.0,
      "step": 9758
    },
    {
      "entropy": 1.6841739316781361,
      "epoch": 1.0720661338606465,
      "grad_norm": 0.6064473390579224,
      "learning_rate": 1.0389638195711731e-05,
      "loss": 1.3239,
      "mean_token_accuracy": 0.6654881288607916,
      "num_tokens": 1636047560.0,
      "step": 9759
    },
    {
      "entropy": 1.7591745456059773,
      "epoch": 1.0721759907720194,
      "grad_norm": 0.7367409467697144,
      "learning_rate": 1.0388040762818015e-05,
      "loss": 1.4377,
      "mean_token_accuracy": 0.6540845880905787,
      "num_tokens": 1636161616.0,
      "step": 9760
    },
    {
      "entropy": 1.7117444177468617,
      "epoch": 1.0722858476833923,
      "grad_norm": 2.199622869491577,
      "learning_rate": 1.0386443349292532e-05,
      "loss": 1.2059,
      "mean_token_accuracy": 0.6679257899522781,
      "num_tokens": 1636339502.0,
      "step": 9761
    },
    {
      "entropy": 1.7388999263445537,
      "epoch": 1.0723957045947654,
      "grad_norm": 0.6870440244674683,
      "learning_rate": 1.0384845955185838e-05,
      "loss": 1.5565,
      "mean_token_accuracy": 0.6418974051872889,
      "num_tokens": 1636544108.0,
      "step": 9762
    },
    {
      "entropy": 1.6883673071861267,
      "epoch": 1.0725055615061383,
      "grad_norm": 0.6861622929573059,
      "learning_rate": 1.0383248580548495e-05,
      "loss": 1.2584,
      "mean_token_accuracy": 0.6789047420024872,
      "num_tokens": 1636730212.0,
      "step": 9763
    },
    {
      "entropy": 1.7474354803562164,
      "epoch": 1.0726154184175112,
      "grad_norm": 0.8235689401626587,
      "learning_rate": 1.0381651225431055e-05,
      "loss": 1.5772,
      "mean_token_accuracy": 0.6468819305300713,
      "num_tokens": 1636875441.0,
      "step": 9764
    },
    {
      "entropy": 1.7631232539812725,
      "epoch": 1.072725275328884,
      "grad_norm": 0.6376375555992126,
      "learning_rate": 1.0380053889884077e-05,
      "loss": 1.3514,
      "mean_token_accuracy": 0.65848508477211,
      "num_tokens": 1637056648.0,
      "step": 9765
    },
    {
      "entropy": 1.7007540861765544,
      "epoch": 1.072835132240257,
      "grad_norm": 0.6686075329780579,
      "learning_rate": 1.0378456573958113e-05,
      "loss": 1.404,
      "mean_token_accuracy": 0.6725321859121323,
      "num_tokens": 1637238698.0,
      "step": 9766
    },
    {
      "entropy": 1.7597143749396007,
      "epoch": 1.07294498915163,
      "grad_norm": 0.686677098274231,
      "learning_rate": 1.037685927770372e-05,
      "loss": 1.5594,
      "mean_token_accuracy": 0.6368110875288645,
      "num_tokens": 1637454987.0,
      "step": 9767
    },
    {
      "entropy": 1.736111968755722,
      "epoch": 1.073054846063003,
      "grad_norm": 0.7504826188087463,
      "learning_rate": 1.0375262001171446e-05,
      "loss": 1.7144,
      "mean_token_accuracy": 0.6141124417384466,
      "num_tokens": 1637622399.0,
      "step": 9768
    },
    {
      "entropy": 1.7867793242136638,
      "epoch": 1.0731647029743758,
      "grad_norm": 0.6543484926223755,
      "learning_rate": 1.0373664744411851e-05,
      "loss": 1.34,
      "mean_token_accuracy": 0.667723630865415,
      "num_tokens": 1637753172.0,
      "step": 9769
    },
    {
      "entropy": 1.6704789002736409,
      "epoch": 1.0732745598857487,
      "grad_norm": 0.6091136336326599,
      "learning_rate": 1.0372067507475485e-05,
      "loss": 1.2838,
      "mean_token_accuracy": 0.6668292681376139,
      "num_tokens": 1637948045.0,
      "step": 9770
    },
    {
      "entropy": 1.7835040887196858,
      "epoch": 1.0733844167971218,
      "grad_norm": 0.6930747032165527,
      "learning_rate": 1.0370470290412898e-05,
      "loss": 1.402,
      "mean_token_accuracy": 0.6510342458883921,
      "num_tokens": 1638092529.0,
      "step": 9771
    },
    {
      "entropy": 1.632412811120351,
      "epoch": 1.0734942737084947,
      "grad_norm": 0.6597646474838257,
      "learning_rate": 1.0368873093274646e-05,
      "loss": 1.2968,
      "mean_token_accuracy": 0.6696435958147049,
      "num_tokens": 1638232322.0,
      "step": 9772
    },
    {
      "entropy": 1.6681885520617168,
      "epoch": 1.0736041306198676,
      "grad_norm": 0.6119679808616638,
      "learning_rate": 1.0367275916111272e-05,
      "loss": 1.3269,
      "mean_token_accuracy": 0.6568154295285543,
      "num_tokens": 1638417721.0,
      "step": 9773
    },
    {
      "entropy": 1.7815796037515004,
      "epoch": 1.0737139875312405,
      "grad_norm": 0.6741944551467896,
      "learning_rate": 1.036567875897333e-05,
      "loss": 1.4554,
      "mean_token_accuracy": 0.6437022139628729,
      "num_tokens": 1638573018.0,
      "step": 9774
    },
    {
      "entropy": 1.658657729625702,
      "epoch": 1.0738238444426136,
      "grad_norm": 0.6922010779380798,
      "learning_rate": 1.0364081621911372e-05,
      "loss": 1.4375,
      "mean_token_accuracy": 0.6637585858503977,
      "num_tokens": 1638755544.0,
      "step": 9775
    },
    {
      "entropy": 1.6960961520671844,
      "epoch": 1.0739337013539865,
      "grad_norm": 0.7771033048629761,
      "learning_rate": 1.0362484504975943e-05,
      "loss": 1.3166,
      "mean_token_accuracy": 0.6613381505012512,
      "num_tokens": 1638893033.0,
      "step": 9776
    },
    {
      "entropy": 1.7312343815962474,
      "epoch": 1.0740435582653594,
      "grad_norm": 0.6502153873443604,
      "learning_rate": 1.0360887408217592e-05,
      "loss": 1.4751,
      "mean_token_accuracy": 0.6359160343805949,
      "num_tokens": 1639088128.0,
      "step": 9777
    },
    {
      "entropy": 1.7355634570121765,
      "epoch": 1.0741534151767322,
      "grad_norm": 0.6641053557395935,
      "learning_rate": 1.0359290331686869e-05,
      "loss": 1.5899,
      "mean_token_accuracy": 0.6462592383225759,
      "num_tokens": 1639267913.0,
      "step": 9778
    },
    {
      "entropy": 1.7013458808263142,
      "epoch": 1.0742632720881051,
      "grad_norm": 0.7097647786140442,
      "learning_rate": 1.0357693275434315e-05,
      "loss": 1.1678,
      "mean_token_accuracy": 0.682997981707255,
      "num_tokens": 1639367322.0,
      "step": 9779
    },
    {
      "entropy": 1.725685566663742,
      "epoch": 1.0743731289994782,
      "grad_norm": 0.6841909289360046,
      "learning_rate": 1.0356096239510478e-05,
      "loss": 1.3812,
      "mean_token_accuracy": 0.6562798221906027,
      "num_tokens": 1639546232.0,
      "step": 9780
    },
    {
      "entropy": 1.6580406824747722,
      "epoch": 1.0744829859108511,
      "grad_norm": 0.6318546533584595,
      "learning_rate": 1.035449922396591e-05,
      "loss": 1.3734,
      "mean_token_accuracy": 0.668061430255572,
      "num_tokens": 1639715575.0,
      "step": 9781
    },
    {
      "entropy": 1.750498543183009,
      "epoch": 1.074592842822224,
      "grad_norm": 0.7357514500617981,
      "learning_rate": 1.0352902228851147e-05,
      "loss": 1.2926,
      "mean_token_accuracy": 0.6660207162300745,
      "num_tokens": 1639837278.0,
      "step": 9782
    },
    {
      "entropy": 1.7398191094398499,
      "epoch": 1.0747026997335969,
      "grad_norm": 0.787640392780304,
      "learning_rate": 1.0351305254216736e-05,
      "loss": 1.3594,
      "mean_token_accuracy": 0.6593456069628397,
      "num_tokens": 1639989121.0,
      "step": 9783
    },
    {
      "entropy": 1.6935386459032695,
      "epoch": 1.07481255664497,
      "grad_norm": 0.6656416654586792,
      "learning_rate": 1.0349708300113228e-05,
      "loss": 1.3941,
      "mean_token_accuracy": 0.6612067172924677,
      "num_tokens": 1640152318.0,
      "step": 9784
    },
    {
      "entropy": 1.717629502216975,
      "epoch": 1.0749224135563429,
      "grad_norm": 0.7953632473945618,
      "learning_rate": 1.0348111366591154e-05,
      "loss": 1.5034,
      "mean_token_accuracy": 0.6524255921443304,
      "num_tokens": 1640280142.0,
      "step": 9785
    },
    {
      "entropy": 1.7047446469465892,
      "epoch": 1.0750322704677158,
      "grad_norm": 0.6888314485549927,
      "learning_rate": 1.034651445370106e-05,
      "loss": 1.4914,
      "mean_token_accuracy": 0.6492563138405482,
      "num_tokens": 1640440654.0,
      "step": 9786
    },
    {
      "entropy": 1.709777424732844,
      "epoch": 1.0751421273790887,
      "grad_norm": 0.5959087610244751,
      "learning_rate": 1.0344917561493492e-05,
      "loss": 1.4593,
      "mean_token_accuracy": 0.6443605422973633,
      "num_tokens": 1640638440.0,
      "step": 9787
    },
    {
      "entropy": 1.7329801519711812,
      "epoch": 1.0752519842904618,
      "grad_norm": 0.6564949750900269,
      "learning_rate": 1.0343320690018988e-05,
      "loss": 1.4895,
      "mean_token_accuracy": 0.6578076879183451,
      "num_tokens": 1640779771.0,
      "step": 9788
    },
    {
      "entropy": 1.722126881281535,
      "epoch": 1.0753618412018346,
      "grad_norm": 0.6596241593360901,
      "learning_rate": 1.0341723839328086e-05,
      "loss": 1.4626,
      "mean_token_accuracy": 0.6395512421925863,
      "num_tokens": 1640969536.0,
      "step": 9789
    },
    {
      "entropy": 1.6550799508889515,
      "epoch": 1.0754716981132075,
      "grad_norm": 0.6088923215866089,
      "learning_rate": 1.0340127009471331e-05,
      "loss": 1.4409,
      "mean_token_accuracy": 0.6460276196400324,
      "num_tokens": 1641181637.0,
      "step": 9790
    },
    {
      "entropy": 1.6901710430781047,
      "epoch": 1.0755815550245804,
      "grad_norm": 0.677692711353302,
      "learning_rate": 1.0338530200499258e-05,
      "loss": 1.3289,
      "mean_token_accuracy": 0.670496458808581,
      "num_tokens": 1641338802.0,
      "step": 9791
    },
    {
      "entropy": 1.7122070491313934,
      "epoch": 1.0756914119359535,
      "grad_norm": 0.8194560408592224,
      "learning_rate": 1.0336933412462402e-05,
      "loss": 1.3465,
      "mean_token_accuracy": 0.6500441581010818,
      "num_tokens": 1641506448.0,
      "step": 9792
    },
    {
      "entropy": 1.737431804339091,
      "epoch": 1.0758012688473264,
      "grad_norm": 0.6265955567359924,
      "learning_rate": 1.0335336645411309e-05,
      "loss": 1.3948,
      "mean_token_accuracy": 0.6440109014511108,
      "num_tokens": 1641693580.0,
      "step": 9793
    },
    {
      "entropy": 1.7306747833887737,
      "epoch": 1.0759111257586993,
      "grad_norm": 0.6415075063705444,
      "learning_rate": 1.0333739899396511e-05,
      "loss": 1.4351,
      "mean_token_accuracy": 0.6500951796770096,
      "num_tokens": 1641847952.0,
      "step": 9794
    },
    {
      "entropy": 1.720722109079361,
      "epoch": 1.0760209826700722,
      "grad_norm": 0.7167672514915466,
      "learning_rate": 1.0332143174468545e-05,
      "loss": 1.4079,
      "mean_token_accuracy": 0.6544150163729986,
      "num_tokens": 1642023634.0,
      "step": 9795
    },
    {
      "entropy": 1.654203087091446,
      "epoch": 1.076130839581445,
      "grad_norm": 0.581329345703125,
      "learning_rate": 1.0330546470677946e-05,
      "loss": 1.2703,
      "mean_token_accuracy": 0.6772001385688782,
      "num_tokens": 1642227381.0,
      "step": 9796
    },
    {
      "entropy": 1.7064690093199413,
      "epoch": 1.0762406964928182,
      "grad_norm": 0.6623792052268982,
      "learning_rate": 1.0328949788075249e-05,
      "loss": 1.4675,
      "mean_token_accuracy": 0.6539207597573599,
      "num_tokens": 1642396240.0,
      "step": 9797
    },
    {
      "entropy": 1.662476509809494,
      "epoch": 1.076350553404191,
      "grad_norm": 0.6676307320594788,
      "learning_rate": 1.0327353126710988e-05,
      "loss": 1.4906,
      "mean_token_accuracy": 0.6464128841956457,
      "num_tokens": 1642538098.0,
      "step": 9798
    },
    {
      "entropy": 1.671265075604121,
      "epoch": 1.076460410315564,
      "grad_norm": 0.6107703447341919,
      "learning_rate": 1.03257564866357e-05,
      "loss": 1.358,
      "mean_token_accuracy": 0.6674867620070776,
      "num_tokens": 1642748380.0,
      "step": 9799
    },
    {
      "entropy": 1.7271918257077534,
      "epoch": 1.0765702672269368,
      "grad_norm": 0.6320644617080688,
      "learning_rate": 1.0324159867899914e-05,
      "loss": 1.4831,
      "mean_token_accuracy": 0.6485229134559631,
      "num_tokens": 1642965144.0,
      "step": 9800
    },
    {
      "entropy": 1.6610159476598103,
      "epoch": 1.07668012413831,
      "grad_norm": 0.9616381525993347,
      "learning_rate": 1.0322563270554167e-05,
      "loss": 1.2259,
      "mean_token_accuracy": 0.6779639472564062,
      "num_tokens": 1643120751.0,
      "step": 9801
    },
    {
      "entropy": 1.6773190399010975,
      "epoch": 1.0767899810496828,
      "grad_norm": 0.7179288268089294,
      "learning_rate": 1.0320966694648984e-05,
      "loss": 1.2882,
      "mean_token_accuracy": 0.6666442155838013,
      "num_tokens": 1643266003.0,
      "step": 9802
    },
    {
      "entropy": 1.724582443634669,
      "epoch": 1.0768998379610557,
      "grad_norm": 0.6458866596221924,
      "learning_rate": 1.03193701402349e-05,
      "loss": 1.4392,
      "mean_token_accuracy": 0.6562464485565821,
      "num_tokens": 1643464964.0,
      "step": 9803
    },
    {
      "entropy": 1.7303006847699482,
      "epoch": 1.0770096948724286,
      "grad_norm": 0.7385509014129639,
      "learning_rate": 1.0317773607362445e-05,
      "loss": 1.5418,
      "mean_token_accuracy": 0.6399680574735006,
      "num_tokens": 1643676724.0,
      "step": 9804
    },
    {
      "entropy": 1.7020288407802582,
      "epoch": 1.0771195517838017,
      "grad_norm": 0.7342250347137451,
      "learning_rate": 1.0316177096082142e-05,
      "loss": 1.4731,
      "mean_token_accuracy": 0.6379378736019135,
      "num_tokens": 1643837858.0,
      "step": 9805
    },
    {
      "entropy": 1.6457345684369404,
      "epoch": 1.0772294086951746,
      "grad_norm": 0.6080856323242188,
      "learning_rate": 1.0314580606444531e-05,
      "loss": 1.3619,
      "mean_token_accuracy": 0.6683526982863744,
      "num_tokens": 1644029727.0,
      "step": 9806
    },
    {
      "entropy": 1.6607999900976818,
      "epoch": 1.0773392656065475,
      "grad_norm": 0.6070815324783325,
      "learning_rate": 1.0312984138500137e-05,
      "loss": 1.3415,
      "mean_token_accuracy": 0.6586224585771561,
      "num_tokens": 1644184892.0,
      "step": 9807
    },
    {
      "entropy": 1.7429456015427907,
      "epoch": 1.0774491225179204,
      "grad_norm": 0.6538578271865845,
      "learning_rate": 1.0311387692299481e-05,
      "loss": 1.4834,
      "mean_token_accuracy": 0.6407992839813232,
      "num_tokens": 1644349707.0,
      "step": 9808
    },
    {
      "entropy": 1.6649847229321797,
      "epoch": 1.0775589794292935,
      "grad_norm": 1.274907112121582,
      "learning_rate": 1.0309791267893097e-05,
      "loss": 1.2798,
      "mean_token_accuracy": 0.6626059412956238,
      "num_tokens": 1644577887.0,
      "step": 9809
    },
    {
      "entropy": 1.7314873437086742,
      "epoch": 1.0776688363406663,
      "grad_norm": 2.2484679222106934,
      "learning_rate": 1.030819486533151e-05,
      "loss": 1.0967,
      "mean_token_accuracy": 0.6872533162434896,
      "num_tokens": 1644760231.0,
      "step": 9810
    },
    {
      "entropy": 1.6759747962156932,
      "epoch": 1.0777786932520392,
      "grad_norm": 0.7670673131942749,
      "learning_rate": 1.0306598484665237e-05,
      "loss": 1.3782,
      "mean_token_accuracy": 0.6530605256557465,
      "num_tokens": 1644987826.0,
      "step": 9811
    },
    {
      "entropy": 1.702736069758733,
      "epoch": 1.0778885501634121,
      "grad_norm": 0.6072533130645752,
      "learning_rate": 1.0305002125944815e-05,
      "loss": 1.3696,
      "mean_token_accuracy": 0.6654748469591141,
      "num_tokens": 1645161886.0,
      "step": 9812
    },
    {
      "entropy": 1.6799784203370411,
      "epoch": 1.077998407074785,
      "grad_norm": 0.6296765804290771,
      "learning_rate": 1.0303405789220762e-05,
      "loss": 1.2927,
      "mean_token_accuracy": 0.6687972942988077,
      "num_tokens": 1645290821.0,
      "step": 9813
    },
    {
      "entropy": 1.7050584852695465,
      "epoch": 1.078108263986158,
      "grad_norm": 0.6202853918075562,
      "learning_rate": 1.03018094745436e-05,
      "loss": 1.3272,
      "mean_token_accuracy": 0.6606413920720419,
      "num_tokens": 1645434124.0,
      "step": 9814
    },
    {
      "entropy": 1.6356126467386882,
      "epoch": 1.078218120897531,
      "grad_norm": 0.6204116344451904,
      "learning_rate": 1.0300213181963854e-05,
      "loss": 1.4115,
      "mean_token_accuracy": 0.661191796263059,
      "num_tokens": 1645655256.0,
      "step": 9815
    },
    {
      "entropy": 1.6903501550356548,
      "epoch": 1.0783279778089039,
      "grad_norm": 0.8098730444908142,
      "learning_rate": 1.0298616911532047e-05,
      "loss": 1.3938,
      "mean_token_accuracy": 0.6561371485392252,
      "num_tokens": 1645794366.0,
      "step": 9816
    },
    {
      "entropy": 1.7309677203496296,
      "epoch": 1.0784378347202768,
      "grad_norm": 0.769802451133728,
      "learning_rate": 1.0297020663298695e-05,
      "loss": 1.3183,
      "mean_token_accuracy": 0.654662013053894,
      "num_tokens": 1646020983.0,
      "step": 9817
    },
    {
      "entropy": 1.688058316707611,
      "epoch": 1.0785476916316499,
      "grad_norm": 0.6309769749641418,
      "learning_rate": 1.0295424437314326e-05,
      "loss": 1.5407,
      "mean_token_accuracy": 0.6352472951014837,
      "num_tokens": 1646262332.0,
      "step": 9818
    },
    {
      "entropy": 1.6809982061386108,
      "epoch": 1.0786575485430228,
      "grad_norm": 0.7366631031036377,
      "learning_rate": 1.0293828233629457e-05,
      "loss": 1.3507,
      "mean_token_accuracy": 0.6608734428882599,
      "num_tokens": 1646417726.0,
      "step": 9819
    },
    {
      "entropy": 1.7148310641447704,
      "epoch": 1.0787674054543956,
      "grad_norm": 2.1722970008850098,
      "learning_rate": 1.0292232052294603e-05,
      "loss": 1.3295,
      "mean_token_accuracy": 0.6597887873649597,
      "num_tokens": 1646608030.0,
      "step": 9820
    },
    {
      "entropy": 1.6972604592641194,
      "epoch": 1.0788772623657685,
      "grad_norm": 0.7574262619018555,
      "learning_rate": 1.0290635893360288e-05,
      "loss": 1.3516,
      "mean_token_accuracy": 0.6627415219942728,
      "num_tokens": 1646720566.0,
      "step": 9821
    },
    {
      "entropy": 1.7421917816003163,
      "epoch": 1.0789871192771416,
      "grad_norm": 0.6693733930587769,
      "learning_rate": 1.0289039756877026e-05,
      "loss": 1.5256,
      "mean_token_accuracy": 0.6440355281035105,
      "num_tokens": 1646877724.0,
      "step": 9822
    },
    {
      "entropy": 1.7440255184968312,
      "epoch": 1.0790969761885145,
      "grad_norm": 0.8541271686553955,
      "learning_rate": 1.0287443642895334e-05,
      "loss": 1.6604,
      "mean_token_accuracy": 0.6371288100878397,
      "num_tokens": 1647087449.0,
      "step": 9823
    },
    {
      "entropy": 1.6293854117393494,
      "epoch": 1.0792068330998874,
      "grad_norm": 0.678485095500946,
      "learning_rate": 1.0285847551465731e-05,
      "loss": 1.3659,
      "mean_token_accuracy": 0.6574168552954992,
      "num_tokens": 1647232759.0,
      "step": 9824
    },
    {
      "entropy": 1.6905154486497243,
      "epoch": 1.0793166900112603,
      "grad_norm": 0.6696950197219849,
      "learning_rate": 1.0284251482638731e-05,
      "loss": 1.3161,
      "mean_token_accuracy": 0.6695791979630789,
      "num_tokens": 1647386243.0,
      "step": 9825
    },
    {
      "entropy": 1.7025805910428364,
      "epoch": 1.0794265469226332,
      "grad_norm": 0.6888556480407715,
      "learning_rate": 1.028265543646485e-05,
      "loss": 1.3759,
      "mean_token_accuracy": 0.6593132664759954,
      "num_tokens": 1647595259.0,
      "step": 9826
    },
    {
      "entropy": 1.7074210743109386,
      "epoch": 1.0795364038340063,
      "grad_norm": 0.8074763417243958,
      "learning_rate": 1.02810594129946e-05,
      "loss": 1.4319,
      "mean_token_accuracy": 0.6571053018172582,
      "num_tokens": 1647787234.0,
      "step": 9827
    },
    {
      "entropy": 1.6747658252716064,
      "epoch": 1.0796462607453792,
      "grad_norm": 0.6728916168212891,
      "learning_rate": 1.0279463412278499e-05,
      "loss": 1.4022,
      "mean_token_accuracy": 0.6656891653935114,
      "num_tokens": 1647936897.0,
      "step": 9828
    },
    {
      "entropy": 1.6993980407714844,
      "epoch": 1.079756117656752,
      "grad_norm": 0.6834884881973267,
      "learning_rate": 1.0277867434367052e-05,
      "loss": 1.4363,
      "mean_token_accuracy": 0.6489211916923523,
      "num_tokens": 1648124511.0,
      "step": 9829
    },
    {
      "entropy": 1.6820717453956604,
      "epoch": 1.079865974568125,
      "grad_norm": 0.7455261945724487,
      "learning_rate": 1.0276271479310775e-05,
      "loss": 1.1957,
      "mean_token_accuracy": 0.6947454114754995,
      "num_tokens": 1648246242.0,
      "step": 9830
    },
    {
      "entropy": 1.7340157429377239,
      "epoch": 1.079975831479498,
      "grad_norm": 0.7091799974441528,
      "learning_rate": 1.0274675547160184e-05,
      "loss": 1.3353,
      "mean_token_accuracy": 0.6555547267198563,
      "num_tokens": 1648388192.0,
      "step": 9831
    },
    {
      "entropy": 1.7246295909086864,
      "epoch": 1.080085688390871,
      "grad_norm": 0.6388477683067322,
      "learning_rate": 1.0273079637965782e-05,
      "loss": 1.5495,
      "mean_token_accuracy": 0.6348314036925634,
      "num_tokens": 1648607042.0,
      "step": 9832
    },
    {
      "entropy": 1.7295263310273488,
      "epoch": 1.0801955453022438,
      "grad_norm": 0.7163142561912537,
      "learning_rate": 1.0271483751778082e-05,
      "loss": 1.3953,
      "mean_token_accuracy": 0.6609020779530207,
      "num_tokens": 1648770793.0,
      "step": 9833
    },
    {
      "entropy": 1.6535666485627492,
      "epoch": 1.0803054022136167,
      "grad_norm": 0.6457258462905884,
      "learning_rate": 1.0269887888647594e-05,
      "loss": 1.2601,
      "mean_token_accuracy": 0.6786867479483286,
      "num_tokens": 1648918233.0,
      "step": 9834
    },
    {
      "entropy": 1.6825013260046642,
      "epoch": 1.0804152591249898,
      "grad_norm": 0.6680422425270081,
      "learning_rate": 1.0268292048624825e-05,
      "loss": 1.4099,
      "mean_token_accuracy": 0.6632524182399114,
      "num_tokens": 1649110520.0,
      "step": 9835
    },
    {
      "entropy": 1.700180431207021,
      "epoch": 1.0805251160363627,
      "grad_norm": 0.6605114340782166,
      "learning_rate": 1.026669623176028e-05,
      "loss": 1.4498,
      "mean_token_accuracy": 0.6626182099183401,
      "num_tokens": 1649282053.0,
      "step": 9836
    },
    {
      "entropy": 1.6609856685002644,
      "epoch": 1.0806349729477356,
      "grad_norm": 0.7333995699882507,
      "learning_rate": 1.0265100438104474e-05,
      "loss": 1.2677,
      "mean_token_accuracy": 0.6766239404678345,
      "num_tokens": 1649457935.0,
      "step": 9837
    },
    {
      "entropy": 1.693364332119624,
      "epoch": 1.0807448298591085,
      "grad_norm": 0.7352896928787231,
      "learning_rate": 1.0263504667707904e-05,
      "loss": 1.4006,
      "mean_token_accuracy": 0.6677973767121633,
      "num_tokens": 1649597344.0,
      "step": 9838
    },
    {
      "entropy": 1.6948012510935466,
      "epoch": 1.0808546867704814,
      "grad_norm": 0.7008348107337952,
      "learning_rate": 1.026190892062108e-05,
      "loss": 1.404,
      "mean_token_accuracy": 0.6567817181348801,
      "num_tokens": 1649740110.0,
      "step": 9839
    },
    {
      "entropy": 1.7075625856717427,
      "epoch": 1.0809645436818545,
      "grad_norm": 0.752145528793335,
      "learning_rate": 1.0260313196894509e-05,
      "loss": 1.3352,
      "mean_token_accuracy": 0.6571847250064214,
      "num_tokens": 1649877492.0,
      "step": 9840
    },
    {
      "entropy": 1.6945746143658955,
      "epoch": 1.0810744005932273,
      "grad_norm": 0.9085291624069214,
      "learning_rate": 1.025871749657869e-05,
      "loss": 1.3813,
      "mean_token_accuracy": 0.6665191451708475,
      "num_tokens": 1650073878.0,
      "step": 9841
    },
    {
      "entropy": 1.7060600022474925,
      "epoch": 1.0811842575046002,
      "grad_norm": 0.8114275336265564,
      "learning_rate": 1.0257121819724125e-05,
      "loss": 1.3438,
      "mean_token_accuracy": 0.6567393392324448,
      "num_tokens": 1650206487.0,
      "step": 9842
    },
    {
      "entropy": 1.6965892314910889,
      "epoch": 1.0812941144159731,
      "grad_norm": 0.6386088728904724,
      "learning_rate": 1.0255526166381326e-05,
      "loss": 1.4076,
      "mean_token_accuracy": 0.6541461398204168,
      "num_tokens": 1650355875.0,
      "step": 9843
    },
    {
      "entropy": 1.6367349326610565,
      "epoch": 1.0814039713273462,
      "grad_norm": 0.6096007823944092,
      "learning_rate": 1.0253930536600785e-05,
      "loss": 1.3704,
      "mean_token_accuracy": 0.6580093254645666,
      "num_tokens": 1650560937.0,
      "step": 9844
    },
    {
      "entropy": 1.6642896234989166,
      "epoch": 1.081513828238719,
      "grad_norm": 0.7645293474197388,
      "learning_rate": 1.0252334930433005e-05,
      "loss": 1.294,
      "mean_token_accuracy": 0.6714354753494263,
      "num_tokens": 1650749246.0,
      "step": 9845
    },
    {
      "entropy": 1.7149154146512349,
      "epoch": 1.081623685150092,
      "grad_norm": 0.6272317171096802,
      "learning_rate": 1.0250739347928492e-05,
      "loss": 1.4153,
      "mean_token_accuracy": 0.6595138013362885,
      "num_tokens": 1650926377.0,
      "step": 9846
    },
    {
      "entropy": 1.6645729045073192,
      "epoch": 1.0817335420614649,
      "grad_norm": 0.7638152241706848,
      "learning_rate": 1.0249143789137736e-05,
      "loss": 1.3517,
      "mean_token_accuracy": 0.6574498365322748,
      "num_tokens": 1651131120.0,
      "step": 9847
    },
    {
      "entropy": 1.7273275057474773,
      "epoch": 1.081843398972838,
      "grad_norm": 0.8124344944953918,
      "learning_rate": 1.0247548254111242e-05,
      "loss": 1.3278,
      "mean_token_accuracy": 0.6669291456540426,
      "num_tokens": 1651296563.0,
      "step": 9848
    },
    {
      "entropy": 1.7501426339149475,
      "epoch": 1.0819532558842109,
      "grad_norm": 0.8257563710212708,
      "learning_rate": 1.0245952742899508e-05,
      "loss": 1.4294,
      "mean_token_accuracy": 0.6583471794923147,
      "num_tokens": 1651419353.0,
      "step": 9849
    },
    {
      "entropy": 1.7237468461195629,
      "epoch": 1.0820631127955838,
      "grad_norm": 0.6573739051818848,
      "learning_rate": 1.024435725555303e-05,
      "loss": 1.4584,
      "mean_token_accuracy": 0.6424074321985245,
      "num_tokens": 1651615401.0,
      "step": 9850
    },
    {
      "entropy": 1.738576332728068,
      "epoch": 1.0821729697069566,
      "grad_norm": 0.7192042469978333,
      "learning_rate": 1.0242761792122303e-05,
      "loss": 1.4456,
      "mean_token_accuracy": 0.6536912967761358,
      "num_tokens": 1651759046.0,
      "step": 9851
    },
    {
      "entropy": 1.6815000077088673,
      "epoch": 1.0822828266183295,
      "grad_norm": 0.6549572944641113,
      "learning_rate": 1.0241166352657825e-05,
      "loss": 1.4403,
      "mean_token_accuracy": 0.6523531973361969,
      "num_tokens": 1651935854.0,
      "step": 9852
    },
    {
      "entropy": 1.7222835222880046,
      "epoch": 1.0823926835297026,
      "grad_norm": 0.5829499363899231,
      "learning_rate": 1.023957093721009e-05,
      "loss": 1.3928,
      "mean_token_accuracy": 0.6541026532649994,
      "num_tokens": 1652165819.0,
      "step": 9853
    },
    {
      "entropy": 1.7308641870816548,
      "epoch": 1.0825025404410755,
      "grad_norm": 0.5812973380088806,
      "learning_rate": 1.023797554582959e-05,
      "loss": 1.3832,
      "mean_token_accuracy": 0.6509318649768829,
      "num_tokens": 1652345735.0,
      "step": 9854
    },
    {
      "entropy": 1.696856160958608,
      "epoch": 1.0826123973524484,
      "grad_norm": 0.6950253844261169,
      "learning_rate": 1.0236380178566825e-05,
      "loss": 1.3401,
      "mean_token_accuracy": 0.6734130581219991,
      "num_tokens": 1652491455.0,
      "step": 9855
    },
    {
      "entropy": 1.7205109894275665,
      "epoch": 1.0827222542638213,
      "grad_norm": 0.7813112139701843,
      "learning_rate": 1.023478483547228e-05,
      "loss": 1.2933,
      "mean_token_accuracy": 0.6657413095235825,
      "num_tokens": 1652678524.0,
      "step": 9856
    },
    {
      "entropy": 1.7302239338556926,
      "epoch": 1.0828321111751944,
      "grad_norm": 0.6658751368522644,
      "learning_rate": 1.0233189516596452e-05,
      "loss": 1.3485,
      "mean_token_accuracy": 0.6597934563954672,
      "num_tokens": 1652856846.0,
      "step": 9857
    },
    {
      "entropy": 1.7021392385164897,
      "epoch": 1.0829419680865673,
      "grad_norm": 0.6967145800590515,
      "learning_rate": 1.023159422198983e-05,
      "loss": 1.4445,
      "mean_token_accuracy": 0.6574411243200302,
      "num_tokens": 1653065215.0,
      "step": 9858
    },
    {
      "entropy": 1.7235744297504425,
      "epoch": 1.0830518249979402,
      "grad_norm": 0.6974611282348633,
      "learning_rate": 1.0229998951702902e-05,
      "loss": 1.3955,
      "mean_token_accuracy": 0.6510575066010157,
      "num_tokens": 1653238703.0,
      "step": 9859
    },
    {
      "entropy": 1.7360788782437642,
      "epoch": 1.083161681909313,
      "grad_norm": 0.6182504892349243,
      "learning_rate": 1.0228403705786165e-05,
      "loss": 1.3991,
      "mean_token_accuracy": 0.656227042277654,
      "num_tokens": 1653453495.0,
      "step": 9860
    },
    {
      "entropy": 1.7091187338034313,
      "epoch": 1.0832715388206862,
      "grad_norm": 0.6004095077514648,
      "learning_rate": 1.0226808484290097e-05,
      "loss": 1.5411,
      "mean_token_accuracy": 0.6317160924275717,
      "num_tokens": 1653719905.0,
      "step": 9861
    },
    {
      "entropy": 1.6987085143725078,
      "epoch": 1.083381395732059,
      "grad_norm": 0.6815454959869385,
      "learning_rate": 1.0225213287265194e-05,
      "loss": 1.4007,
      "mean_token_accuracy": 0.646802599231402,
      "num_tokens": 1653908379.0,
      "step": 9862
    },
    {
      "entropy": 1.755209634701411,
      "epoch": 1.083491252643432,
      "grad_norm": 0.7040994167327881,
      "learning_rate": 1.0223618114761947e-05,
      "loss": 1.4096,
      "mean_token_accuracy": 0.6451922804117203,
      "num_tokens": 1654083065.0,
      "step": 9863
    },
    {
      "entropy": 1.680431107680003,
      "epoch": 1.0836011095548048,
      "grad_norm": 0.7204059362411499,
      "learning_rate": 1.022202296683083e-05,
      "loss": 1.4142,
      "mean_token_accuracy": 0.6432947367429733,
      "num_tokens": 1654261728.0,
      "step": 9864
    },
    {
      "entropy": 1.7355269491672516,
      "epoch": 1.0837109664661777,
      "grad_norm": 0.8181194067001343,
      "learning_rate": 1.0220427843522338e-05,
      "loss": 1.3979,
      "mean_token_accuracy": 0.6544067362944285,
      "num_tokens": 1654389163.0,
      "step": 9865
    },
    {
      "entropy": 1.6419854164123535,
      "epoch": 1.0838208233775508,
      "grad_norm": 0.6498574018478394,
      "learning_rate": 1.0218832744886956e-05,
      "loss": 1.2833,
      "mean_token_accuracy": 0.6642761528491974,
      "num_tokens": 1654574592.0,
      "step": 9866
    },
    {
      "entropy": 1.6292428175608318,
      "epoch": 1.0839306802889237,
      "grad_norm": 0.6409704685211182,
      "learning_rate": 1.0217237670975158e-05,
      "loss": 1.3204,
      "mean_token_accuracy": 0.6685640662908554,
      "num_tokens": 1654727006.0,
      "step": 9867
    },
    {
      "entropy": 1.704335480928421,
      "epoch": 1.0840405372002966,
      "grad_norm": 0.9147383570671082,
      "learning_rate": 1.021564262183744e-05,
      "loss": 1.5267,
      "mean_token_accuracy": 0.6415324260791143,
      "num_tokens": 1654887057.0,
      "step": 9868
    },
    {
      "entropy": 1.737158477306366,
      "epoch": 1.0841503941116695,
      "grad_norm": 0.6425780057907104,
      "learning_rate": 1.0214047597524281e-05,
      "loss": 1.3627,
      "mean_token_accuracy": 0.6585712929566702,
      "num_tokens": 1655026529.0,
      "step": 9869
    },
    {
      "entropy": 1.6733458836873372,
      "epoch": 1.0842602510230426,
      "grad_norm": 0.65185546875,
      "learning_rate": 1.021245259808616e-05,
      "loss": 1.5595,
      "mean_token_accuracy": 0.6183687796195348,
      "num_tokens": 1655310252.0,
      "step": 9870
    },
    {
      "entropy": 1.7314467032750447,
      "epoch": 1.0843701079344155,
      "grad_norm": 0.6148692965507507,
      "learning_rate": 1.0210857623573558e-05,
      "loss": 1.5472,
      "mean_token_accuracy": 0.623336007197698,
      "num_tokens": 1655485693.0,
      "step": 9871
    },
    {
      "entropy": 1.7008031606674194,
      "epoch": 1.0844799648457883,
      "grad_norm": 0.6279149651527405,
      "learning_rate": 1.0209262674036961e-05,
      "loss": 1.3351,
      "mean_token_accuracy": 0.6545123358567556,
      "num_tokens": 1655652876.0,
      "step": 9872
    },
    {
      "entropy": 1.7076662480831146,
      "epoch": 1.0845898217571612,
      "grad_norm": 0.7002870440483093,
      "learning_rate": 1.0207667749526838e-05,
      "loss": 1.5737,
      "mean_token_accuracy": 0.6307255576054255,
      "num_tokens": 1655813676.0,
      "step": 9873
    },
    {
      "entropy": 1.6783838669459026,
      "epoch": 1.0846996786685343,
      "grad_norm": 0.6915937662124634,
      "learning_rate": 1.0206072850093676e-05,
      "loss": 1.3763,
      "mean_token_accuracy": 0.6629201124111811,
      "num_tokens": 1655992944.0,
      "step": 9874
    },
    {
      "entropy": 1.6777593195438385,
      "epoch": 1.0848095355799072,
      "grad_norm": 0.8328781723976135,
      "learning_rate": 1.0204477975787955e-05,
      "loss": 1.5274,
      "mean_token_accuracy": 0.6462227056423823,
      "num_tokens": 1656134359.0,
      "step": 9875
    },
    {
      "entropy": 1.6952139933904011,
      "epoch": 1.08491939249128,
      "grad_norm": 0.6985744833946228,
      "learning_rate": 1.0202883126660142e-05,
      "loss": 1.4285,
      "mean_token_accuracy": 0.641810322801272,
      "num_tokens": 1656339761.0,
      "step": 9876
    },
    {
      "entropy": 1.6837367415428162,
      "epoch": 1.085029249402653,
      "grad_norm": 0.6384702324867249,
      "learning_rate": 1.020128830276072e-05,
      "loss": 1.4694,
      "mean_token_accuracy": 0.645171602567037,
      "num_tokens": 1656548333.0,
      "step": 9877
    },
    {
      "entropy": 1.650167852640152,
      "epoch": 1.0851391063140259,
      "grad_norm": 0.6957221627235413,
      "learning_rate": 1.0199693504140165e-05,
      "loss": 1.3905,
      "mean_token_accuracy": 0.6591930339733759,
      "num_tokens": 1656743652.0,
      "step": 9878
    },
    {
      "entropy": 1.6500220100084941,
      "epoch": 1.085248963225399,
      "grad_norm": 0.6716198325157166,
      "learning_rate": 1.0198098730848947e-05,
      "loss": 1.4271,
      "mean_token_accuracy": 0.6517676363388697,
      "num_tokens": 1656927088.0,
      "step": 9879
    },
    {
      "entropy": 1.7115015387535095,
      "epoch": 1.0853588201367719,
      "grad_norm": 0.6852779388427734,
      "learning_rate": 1.0196503982937545e-05,
      "loss": 1.3624,
      "mean_token_accuracy": 0.6609803885221481,
      "num_tokens": 1657077951.0,
      "step": 9880
    },
    {
      "entropy": 1.6878548562526703,
      "epoch": 1.0854686770481448,
      "grad_norm": 0.6171632409095764,
      "learning_rate": 1.0194909260456428e-05,
      "loss": 1.2938,
      "mean_token_accuracy": 0.6820201476414999,
      "num_tokens": 1657237315.0,
      "step": 9881
    },
    {
      "entropy": 1.6748429437478383,
      "epoch": 1.0855785339595176,
      "grad_norm": 0.6681820154190063,
      "learning_rate": 1.0193314563456074e-05,
      "loss": 1.3424,
      "mean_token_accuracy": 0.6564933856328329,
      "num_tokens": 1657386937.0,
      "step": 9882
    },
    {
      "entropy": 1.7561264435450237,
      "epoch": 1.0856883908708908,
      "grad_norm": 0.8080701231956482,
      "learning_rate": 1.0191719891986947e-05,
      "loss": 1.452,
      "mean_token_accuracy": 0.6485906491676966,
      "num_tokens": 1657566975.0,
      "step": 9883
    },
    {
      "entropy": 1.7150229513645172,
      "epoch": 1.0857982477822636,
      "grad_norm": 0.6068223714828491,
      "learning_rate": 1.0190125246099525e-05,
      "loss": 1.1525,
      "mean_token_accuracy": 0.6776071439186732,
      "num_tokens": 1657768813.0,
      "step": 9884
    },
    {
      "entropy": 1.7351139684518178,
      "epoch": 1.0859081046936365,
      "grad_norm": 0.706877589225769,
      "learning_rate": 1.0188530625844269e-05,
      "loss": 1.372,
      "mean_token_accuracy": 0.6516173481941223,
      "num_tokens": 1657909155.0,
      "step": 9885
    },
    {
      "entropy": 1.7090483804543812,
      "epoch": 1.0860179616050094,
      "grad_norm": 0.7106319665908813,
      "learning_rate": 1.0186936031271654e-05,
      "loss": 1.3158,
      "mean_token_accuracy": 0.6649338553349177,
      "num_tokens": 1658033454.0,
      "step": 9886
    },
    {
      "entropy": 1.7353846828142803,
      "epoch": 1.0861278185163825,
      "grad_norm": 0.7911872267723083,
      "learning_rate": 1.0185341462432152e-05,
      "loss": 1.3776,
      "mean_token_accuracy": 0.6581158141295115,
      "num_tokens": 1658185568.0,
      "step": 9887
    },
    {
      "entropy": 1.693009227514267,
      "epoch": 1.0862376754277554,
      "grad_norm": 0.7232357859611511,
      "learning_rate": 1.018374691937622e-05,
      "loss": 1.3956,
      "mean_token_accuracy": 0.6537212679783503,
      "num_tokens": 1658345153.0,
      "step": 9888
    },
    {
      "entropy": 1.6881878475348155,
      "epoch": 1.0863475323391283,
      "grad_norm": 0.6509016156196594,
      "learning_rate": 1.0182152402154332e-05,
      "loss": 1.4972,
      "mean_token_accuracy": 0.6434793770313263,
      "num_tokens": 1658541107.0,
      "step": 9889
    },
    {
      "entropy": 1.7099956174691517,
      "epoch": 1.0864573892505012,
      "grad_norm": 0.7336589694023132,
      "learning_rate": 1.0180557910816955e-05,
      "loss": 1.4108,
      "mean_token_accuracy": 0.6635782122612,
      "num_tokens": 1658686363.0,
      "step": 9890
    },
    {
      "entropy": 1.6696670254071553,
      "epoch": 1.086567246161874,
      "grad_norm": 0.7499677538871765,
      "learning_rate": 1.0178963445414546e-05,
      "loss": 1.297,
      "mean_token_accuracy": 0.6625167379776636,
      "num_tokens": 1658800203.0,
      "step": 9891
    },
    {
      "entropy": 1.7122901181379955,
      "epoch": 1.0866771030732472,
      "grad_norm": 0.7370545864105225,
      "learning_rate": 1.0177369005997576e-05,
      "loss": 1.4498,
      "mean_token_accuracy": 0.6478169759114584,
      "num_tokens": 1658963986.0,
      "step": 9892
    },
    {
      "entropy": 1.7717590828736622,
      "epoch": 1.08678695998462,
      "grad_norm": 0.72324138879776,
      "learning_rate": 1.0175774592616509e-05,
      "loss": 1.487,
      "mean_token_accuracy": 0.6404697100321451,
      "num_tokens": 1659147012.0,
      "step": 9893
    },
    {
      "entropy": 1.731563498576482,
      "epoch": 1.086896816895993,
      "grad_norm": 0.7684550881385803,
      "learning_rate": 1.0174180205321801e-05,
      "loss": 1.3065,
      "mean_token_accuracy": 0.675625761349996,
      "num_tokens": 1659280859.0,
      "step": 9894
    },
    {
      "entropy": 1.7210414310296376,
      "epoch": 1.0870066738073658,
      "grad_norm": 0.7703231573104858,
      "learning_rate": 1.017258584416392e-05,
      "loss": 1.3729,
      "mean_token_accuracy": 0.6620122243960699,
      "num_tokens": 1659426959.0,
      "step": 9895
    },
    {
      "entropy": 1.713478038708369,
      "epoch": 1.087116530718739,
      "grad_norm": 0.9372931718826294,
      "learning_rate": 1.0170991509193324e-05,
      "loss": 1.3353,
      "mean_token_accuracy": 0.6640975425640742,
      "num_tokens": 1659591324.0,
      "step": 9896
    },
    {
      "entropy": 1.6873964667320251,
      "epoch": 1.0872263876301118,
      "grad_norm": 0.5912502408027649,
      "learning_rate": 1.0169397200460469e-05,
      "loss": 1.3739,
      "mean_token_accuracy": 0.6547368913888931,
      "num_tokens": 1659753168.0,
      "step": 9897
    },
    {
      "entropy": 1.67390971382459,
      "epoch": 1.0873362445414847,
      "grad_norm": 0.6598351001739502,
      "learning_rate": 1.0167802918015821e-05,
      "loss": 1.2891,
      "mean_token_accuracy": 0.672528882821401,
      "num_tokens": 1659897374.0,
      "step": 9898
    },
    {
      "entropy": 1.6686325172583263,
      "epoch": 1.0874461014528576,
      "grad_norm": 0.7137023210525513,
      "learning_rate": 1.0166208661909837e-05,
      "loss": 1.2901,
      "mean_token_accuracy": 0.6805033435424169,
      "num_tokens": 1660054636.0,
      "step": 9899
    },
    {
      "entropy": 1.7360956966876984,
      "epoch": 1.0875559583642307,
      "grad_norm": 0.7920895218849182,
      "learning_rate": 1.0164614432192973e-05,
      "loss": 1.5854,
      "mean_token_accuracy": 0.6431082089742025,
      "num_tokens": 1660269145.0,
      "step": 9900
    },
    {
      "entropy": 1.7179748117923737,
      "epoch": 1.0876658152756036,
      "grad_norm": 0.738042414188385,
      "learning_rate": 1.0163020228915686e-05,
      "loss": 1.4252,
      "mean_token_accuracy": 0.6560932546854019,
      "num_tokens": 1660431180.0,
      "step": 9901
    },
    {
      "entropy": 1.7385500172773998,
      "epoch": 1.0877756721869765,
      "grad_norm": 0.6019150018692017,
      "learning_rate": 1.0161426052128432e-05,
      "loss": 1.4104,
      "mean_token_accuracy": 0.6502055029074351,
      "num_tokens": 1660601241.0,
      "step": 9902
    },
    {
      "entropy": 1.6881616115570068,
      "epoch": 1.0878855290983493,
      "grad_norm": 0.7434528470039368,
      "learning_rate": 1.0159831901881663e-05,
      "loss": 1.2115,
      "mean_token_accuracy": 0.6797519276539484,
      "num_tokens": 1660764313.0,
      "step": 9903
    },
    {
      "entropy": 1.7372826635837555,
      "epoch": 1.0879953860097222,
      "grad_norm": 0.7365524172782898,
      "learning_rate": 1.0158237778225835e-05,
      "loss": 1.515,
      "mean_token_accuracy": 0.6425711264212927,
      "num_tokens": 1660964668.0,
      "step": 9904
    },
    {
      "entropy": 1.7024028201897938,
      "epoch": 1.0881052429210953,
      "grad_norm": 0.8199495077133179,
      "learning_rate": 1.0156643681211404e-05,
      "loss": 1.3366,
      "mean_token_accuracy": 0.6539936810731888,
      "num_tokens": 1661112643.0,
      "step": 9905
    },
    {
      "entropy": 1.6678318579991658,
      "epoch": 1.0882150998324682,
      "grad_norm": 0.816861629486084,
      "learning_rate": 1.0155049610888823e-05,
      "loss": 1.2508,
      "mean_token_accuracy": 0.6761003037293752,
      "num_tokens": 1661236856.0,
      "step": 9906
    },
    {
      "entropy": 1.6942639748255413,
      "epoch": 1.088324956743841,
      "grad_norm": 0.7153278589248657,
      "learning_rate": 1.0153455567308537e-05,
      "loss": 1.4531,
      "mean_token_accuracy": 0.6470590929190317,
      "num_tokens": 1661388508.0,
      "step": 9907
    },
    {
      "entropy": 1.7340314586957295,
      "epoch": 1.088434813655214,
      "grad_norm": 0.6582464575767517,
      "learning_rate": 1.0151861550521006e-05,
      "loss": 1.5217,
      "mean_token_accuracy": 0.6363318214813868,
      "num_tokens": 1661604834.0,
      "step": 9908
    },
    {
      "entropy": 1.7097918391227722,
      "epoch": 1.088544670566587,
      "grad_norm": 0.6414450407028198,
      "learning_rate": 1.0150267560576667e-05,
      "loss": 1.5432,
      "mean_token_accuracy": 0.6336255719264349,
      "num_tokens": 1661801434.0,
      "step": 9909
    },
    {
      "entropy": 1.7380212744077046,
      "epoch": 1.08865452747796,
      "grad_norm": 0.7711119055747986,
      "learning_rate": 1.014867359752598e-05,
      "loss": 1.35,
      "mean_token_accuracy": 0.6672601054112116,
      "num_tokens": 1661937596.0,
      "step": 9910
    },
    {
      "entropy": 1.678007831176122,
      "epoch": 1.0887643843893329,
      "grad_norm": 0.8995655179023743,
      "learning_rate": 1.0147079661419393e-05,
      "loss": 1.4534,
      "mean_token_accuracy": 0.6521992137034734,
      "num_tokens": 1662131802.0,
      "step": 9911
    },
    {
      "entropy": 1.7503215471903484,
      "epoch": 1.0888742413007058,
      "grad_norm": 0.7043768167495728,
      "learning_rate": 1.0145485752307347e-05,
      "loss": 1.3609,
      "mean_token_accuracy": 0.6602404067913691,
      "num_tokens": 1662303751.0,
      "step": 9912
    },
    {
      "entropy": 1.7225368320941925,
      "epoch": 1.0889840982120789,
      "grad_norm": 0.6886836290359497,
      "learning_rate": 1.0143891870240293e-05,
      "loss": 1.5237,
      "mean_token_accuracy": 0.6407229552666346,
      "num_tokens": 1662476819.0,
      "step": 9913
    },
    {
      "entropy": 1.7340431312719982,
      "epoch": 1.0890939551234518,
      "grad_norm": 0.7423052787780762,
      "learning_rate": 1.0142298015268678e-05,
      "loss": 1.3407,
      "mean_token_accuracy": 0.6658698171377182,
      "num_tokens": 1662668061.0,
      "step": 9914
    },
    {
      "entropy": 1.6915172338485718,
      "epoch": 1.0892038120348246,
      "grad_norm": 0.640897274017334,
      "learning_rate": 1.0140704187442942e-05,
      "loss": 1.3072,
      "mean_token_accuracy": 0.6653468410174052,
      "num_tokens": 1662812165.0,
      "step": 9915
    },
    {
      "entropy": 1.754497468471527,
      "epoch": 1.0893136689461975,
      "grad_norm": 0.7400673627853394,
      "learning_rate": 1.0139110386813528e-05,
      "loss": 1.4021,
      "mean_token_accuracy": 0.6460580776135126,
      "num_tokens": 1662991292.0,
      "step": 9916
    },
    {
      "entropy": 1.70304274559021,
      "epoch": 1.0894235258575704,
      "grad_norm": 0.7350078821182251,
      "learning_rate": 1.0137516613430887e-05,
      "loss": 1.3661,
      "mean_token_accuracy": 0.6609525481859843,
      "num_tokens": 1663118044.0,
      "step": 9917
    },
    {
      "entropy": 1.7494067947069805,
      "epoch": 1.0895333827689435,
      "grad_norm": 0.81744784116745,
      "learning_rate": 1.0135922867345455e-05,
      "loss": 1.5288,
      "mean_token_accuracy": 0.6569081693887711,
      "num_tokens": 1663262827.0,
      "step": 9918
    },
    {
      "entropy": 1.7277030646800995,
      "epoch": 1.0896432396803164,
      "grad_norm": 0.9427797794342041,
      "learning_rate": 1.0134329148607675e-05,
      "loss": 1.4552,
      "mean_token_accuracy": 0.6570529192686081,
      "num_tokens": 1663396238.0,
      "step": 9919
    },
    {
      "entropy": 1.661819577217102,
      "epoch": 1.0897530965916893,
      "grad_norm": 0.7879918217658997,
      "learning_rate": 1.0132735457267988e-05,
      "loss": 1.3381,
      "mean_token_accuracy": 0.6635206490755081,
      "num_tokens": 1663526020.0,
      "step": 9920
    },
    {
      "entropy": 1.6900553206602733,
      "epoch": 1.0898629535030622,
      "grad_norm": 0.6344413161277771,
      "learning_rate": 1.0131141793376833e-05,
      "loss": 1.3869,
      "mean_token_accuracy": 0.6595876067876816,
      "num_tokens": 1663719329.0,
      "step": 9921
    },
    {
      "entropy": 1.7128386199474335,
      "epoch": 1.0899728104144353,
      "grad_norm": 0.658137321472168,
      "learning_rate": 1.012954815698465e-05,
      "loss": 1.5023,
      "mean_token_accuracy": 0.6380962332089742,
      "num_tokens": 1663912510.0,
      "step": 9922
    },
    {
      "entropy": 1.664399077494939,
      "epoch": 1.0900826673258082,
      "grad_norm": 0.7193596363067627,
      "learning_rate": 1.0127954548141872e-05,
      "loss": 1.4288,
      "mean_token_accuracy": 0.6621369272470474,
      "num_tokens": 1664042226.0,
      "step": 9923
    },
    {
      "entropy": 1.6875610550244649,
      "epoch": 1.090192524237181,
      "grad_norm": 0.6304190158843994,
      "learning_rate": 1.012636096689894e-05,
      "loss": 1.3007,
      "mean_token_accuracy": 0.658969427148501,
      "num_tokens": 1664197536.0,
      "step": 9924
    },
    {
      "entropy": 1.6750660041968028,
      "epoch": 1.090302381148554,
      "grad_norm": 0.6103596091270447,
      "learning_rate": 1.0124767413306294e-05,
      "loss": 1.5455,
      "mean_token_accuracy": 0.636797179778417,
      "num_tokens": 1664372063.0,
      "step": 9925
    },
    {
      "entropy": 1.7024609645207722,
      "epoch": 1.090412238059927,
      "grad_norm": 0.7331560850143433,
      "learning_rate": 1.0123173887414361e-05,
      "loss": 1.2627,
      "mean_token_accuracy": 0.6728994299968084,
      "num_tokens": 1664500629.0,
      "step": 9926
    },
    {
      "entropy": 1.7319872776667278,
      "epoch": 1.0905220949713,
      "grad_norm": 0.6502282619476318,
      "learning_rate": 1.012158038927358e-05,
      "loss": 1.3303,
      "mean_token_accuracy": 0.6671723872423172,
      "num_tokens": 1664704233.0,
      "step": 9927
    },
    {
      "entropy": 1.7720895409584045,
      "epoch": 1.0906319518826728,
      "grad_norm": 0.8043599128723145,
      "learning_rate": 1.0119986918934386e-05,
      "loss": 1.446,
      "mean_token_accuracy": 0.6564847181240717,
      "num_tokens": 1664856266.0,
      "step": 9928
    },
    {
      "entropy": 1.7761450012524922,
      "epoch": 1.0907418087940457,
      "grad_norm": 0.6992666721343994,
      "learning_rate": 1.0118393476447204e-05,
      "loss": 1.3832,
      "mean_token_accuracy": 0.6636711110671362,
      "num_tokens": 1665006546.0,
      "step": 9929
    },
    {
      "entropy": 1.6626348197460175,
      "epoch": 1.0908516657054186,
      "grad_norm": 0.6073324680328369,
      "learning_rate": 1.0116800061862475e-05,
      "loss": 1.2507,
      "mean_token_accuracy": 0.67312224706014,
      "num_tokens": 1665181716.0,
      "step": 9930
    },
    {
      "entropy": 1.6563841303189595,
      "epoch": 1.0909615226167917,
      "grad_norm": 0.6241437196731567,
      "learning_rate": 1.0115206675230626e-05,
      "loss": 1.3984,
      "mean_token_accuracy": 0.6542405039072037,
      "num_tokens": 1665356676.0,
      "step": 9931
    },
    {
      "entropy": 1.689384828011195,
      "epoch": 1.0910713795281646,
      "grad_norm": 0.7169914245605469,
      "learning_rate": 1.011361331660209e-05,
      "loss": 1.3182,
      "mean_token_accuracy": 0.6685070743163427,
      "num_tokens": 1665542132.0,
      "step": 9932
    },
    {
      "entropy": 1.7403077880541484,
      "epoch": 1.0911812364395375,
      "grad_norm": 0.6693525910377502,
      "learning_rate": 1.0112019986027289e-05,
      "loss": 1.5033,
      "mean_token_accuracy": 0.6436150471369425,
      "num_tokens": 1665764372.0,
      "step": 9933
    },
    {
      "entropy": 1.7170814077059429,
      "epoch": 1.0912910933509103,
      "grad_norm": 0.6054666638374329,
      "learning_rate": 1.0110426683556657e-05,
      "loss": 1.3651,
      "mean_token_accuracy": 0.6551655034224192,
      "num_tokens": 1665966456.0,
      "step": 9934
    },
    {
      "entropy": 1.7085198163986206,
      "epoch": 1.0914009502622835,
      "grad_norm": 0.6800384521484375,
      "learning_rate": 1.0108833409240617e-05,
      "loss": 1.36,
      "mean_token_accuracy": 0.6609861155351003,
      "num_tokens": 1666121414.0,
      "step": 9935
    },
    {
      "entropy": 1.7367458045482635,
      "epoch": 1.0915108071736563,
      "grad_norm": 0.5863933563232422,
      "learning_rate": 1.0107240163129599e-05,
      "loss": 1.4401,
      "mean_token_accuracy": 0.6531588186820348,
      "num_tokens": 1666295279.0,
      "step": 9936
    },
    {
      "entropy": 1.7235424220561981,
      "epoch": 1.0916206640850292,
      "grad_norm": 0.7675713896751404,
      "learning_rate": 1.010564694527403e-05,
      "loss": 1.5024,
      "mean_token_accuracy": 0.6675131072600683,
      "num_tokens": 1666457168.0,
      "step": 9937
    },
    {
      "entropy": 1.682725340127945,
      "epoch": 1.091730520996402,
      "grad_norm": 0.7586541175842285,
      "learning_rate": 1.0104053755724332e-05,
      "loss": 1.3828,
      "mean_token_accuracy": 0.6533033003409704,
      "num_tokens": 1666667783.0,
      "step": 9938
    },
    {
      "entropy": 1.736223300298055,
      "epoch": 1.0918403779077752,
      "grad_norm": 0.7098135948181152,
      "learning_rate": 1.0102460594530926e-05,
      "loss": 1.3948,
      "mean_token_accuracy": 0.6576603204011917,
      "num_tokens": 1666801846.0,
      "step": 9939
    },
    {
      "entropy": 1.7084941665331523,
      "epoch": 1.091950234819148,
      "grad_norm": 0.724420964717865,
      "learning_rate": 1.0100867461744241e-05,
      "loss": 1.4758,
      "mean_token_accuracy": 0.646695002913475,
      "num_tokens": 1666982440.0,
      "step": 9940
    },
    {
      "entropy": 1.74443985025088,
      "epoch": 1.092060091730521,
      "grad_norm": 0.7071523666381836,
      "learning_rate": 1.0099274357414692e-05,
      "loss": 1.4043,
      "mean_token_accuracy": 0.6590453336636225,
      "num_tokens": 1667133865.0,
      "step": 9941
    },
    {
      "entropy": 1.6637418170770009,
      "epoch": 1.0921699486418939,
      "grad_norm": 0.591380774974823,
      "learning_rate": 1.0097681281592706e-05,
      "loss": 1.3282,
      "mean_token_accuracy": 0.6629678010940552,
      "num_tokens": 1667279421.0,
      "step": 9942
    },
    {
      "entropy": 1.6820252339045207,
      "epoch": 1.0922798055532668,
      "grad_norm": 0.6717654466629028,
      "learning_rate": 1.0096088234328702e-05,
      "loss": 1.4755,
      "mean_token_accuracy": 0.6481594145298004,
      "num_tokens": 1667473211.0,
      "step": 9943
    },
    {
      "entropy": 1.709025154511134,
      "epoch": 1.0923896624646399,
      "grad_norm": 0.6753855347633362,
      "learning_rate": 1.0094495215673097e-05,
      "loss": 1.2966,
      "mean_token_accuracy": 0.667145162820816,
      "num_tokens": 1667604956.0,
      "step": 9944
    },
    {
      "entropy": 1.625400871038437,
      "epoch": 1.0924995193760128,
      "grad_norm": 0.64048832654953,
      "learning_rate": 1.009290222567631e-05,
      "loss": 1.3972,
      "mean_token_accuracy": 0.660579577088356,
      "num_tokens": 1667823844.0,
      "step": 9945
    },
    {
      "entropy": 1.7338625093301137,
      "epoch": 1.0926093762873856,
      "grad_norm": 0.7985219359397888,
      "learning_rate": 1.009130926438876e-05,
      "loss": 1.6674,
      "mean_token_accuracy": 0.6493135193983713,
      "num_tokens": 1668007284.0,
      "step": 9946
    },
    {
      "entropy": 1.6951390206813812,
      "epoch": 1.0927192331987585,
      "grad_norm": 0.683193027973175,
      "learning_rate": 1.008971633186086e-05,
      "loss": 1.2785,
      "mean_token_accuracy": 0.6708967983722687,
      "num_tokens": 1668145759.0,
      "step": 9947
    },
    {
      "entropy": 1.6314593156178792,
      "epoch": 1.0928290901101316,
      "grad_norm": 0.7132555842399597,
      "learning_rate": 1.0088123428143029e-05,
      "loss": 1.3441,
      "mean_token_accuracy": 0.681462566057841,
      "num_tokens": 1668277008.0,
      "step": 9948
    },
    {
      "entropy": 1.7529467344284058,
      "epoch": 1.0929389470215045,
      "grad_norm": 0.670924186706543,
      "learning_rate": 1.008653055328568e-05,
      "loss": 1.429,
      "mean_token_accuracy": 0.641497532526652,
      "num_tokens": 1668483054.0,
      "step": 9949
    },
    {
      "entropy": 1.6520490248998005,
      "epoch": 1.0930488039328774,
      "grad_norm": 0.8519325256347656,
      "learning_rate": 1.0084937707339229e-05,
      "loss": 1.4219,
      "mean_token_accuracy": 0.6672419607639313,
      "num_tokens": 1668700174.0,
      "step": 9950
    },
    {
      "entropy": 1.736632893482844,
      "epoch": 1.0931586608442503,
      "grad_norm": 0.7080869674682617,
      "learning_rate": 1.0083344890354086e-05,
      "loss": 1.4226,
      "mean_token_accuracy": 0.6710045486688614,
      "num_tokens": 1668855553.0,
      "step": 9951
    },
    {
      "entropy": 1.742478887240092,
      "epoch": 1.0932685177556234,
      "grad_norm": 0.6985324025154114,
      "learning_rate": 1.0081752102380667e-05,
      "loss": 1.3687,
      "mean_token_accuracy": 0.6526035120089849,
      "num_tokens": 1669025165.0,
      "step": 9952
    },
    {
      "entropy": 1.7326435049374898,
      "epoch": 1.0933783746669963,
      "grad_norm": 0.6467759609222412,
      "learning_rate": 1.0080159343469373e-05,
      "loss": 1.3327,
      "mean_token_accuracy": 0.6626055538654327,
      "num_tokens": 1669163361.0,
      "step": 9953
    },
    {
      "entropy": 1.6840360065301259,
      "epoch": 1.0934882315783692,
      "grad_norm": 0.6494070291519165,
      "learning_rate": 1.0078566613670626e-05,
      "loss": 1.4666,
      "mean_token_accuracy": 0.6533608982960383,
      "num_tokens": 1669347018.0,
      "step": 9954
    },
    {
      "entropy": 1.717919021844864,
      "epoch": 1.093598088489742,
      "grad_norm": 0.6406670808792114,
      "learning_rate": 1.0076973913034833e-05,
      "loss": 1.3224,
      "mean_token_accuracy": 0.6631946166356405,
      "num_tokens": 1669490134.0,
      "step": 9955
    },
    {
      "entropy": 1.7073165476322174,
      "epoch": 1.093707945401115,
      "grad_norm": 0.7670049667358398,
      "learning_rate": 1.0075381241612396e-05,
      "loss": 1.3305,
      "mean_token_accuracy": 0.6583481182654699,
      "num_tokens": 1669620317.0,
      "step": 9956
    },
    {
      "entropy": 1.7269740998744965,
      "epoch": 1.093817802312488,
      "grad_norm": 0.8087154626846313,
      "learning_rate": 1.0073788599453727e-05,
      "loss": 1.3544,
      "mean_token_accuracy": 0.6522675156593323,
      "num_tokens": 1669805743.0,
      "step": 9957
    },
    {
      "entropy": 1.7226569155852,
      "epoch": 1.093927659223861,
      "grad_norm": 0.6575363874435425,
      "learning_rate": 1.0072195986609235e-05,
      "loss": 1.6043,
      "mean_token_accuracy": 0.6334054693579674,
      "num_tokens": 1670020161.0,
      "step": 9958
    },
    {
      "entropy": 1.7135057151317596,
      "epoch": 1.0940375161352338,
      "grad_norm": 0.6211276054382324,
      "learning_rate": 1.0070603403129315e-05,
      "loss": 1.4269,
      "mean_token_accuracy": 0.6416071703036627,
      "num_tokens": 1670240465.0,
      "step": 9959
    },
    {
      "entropy": 1.725637008746465,
      "epoch": 1.0941473730466067,
      "grad_norm": 0.7707021236419678,
      "learning_rate": 1.0069010849064382e-05,
      "loss": 1.3579,
      "mean_token_accuracy": 0.6549892872571945,
      "num_tokens": 1670366147.0,
      "step": 9960
    },
    {
      "entropy": 1.7043171326319377,
      "epoch": 1.0942572299579798,
      "grad_norm": 0.7570623755455017,
      "learning_rate": 1.0067418324464838e-05,
      "loss": 1.3259,
      "mean_token_accuracy": 0.6776840935150782,
      "num_tokens": 1670481710.0,
      "step": 9961
    },
    {
      "entropy": 1.7652468581994374,
      "epoch": 1.0943670868693527,
      "grad_norm": 0.6389201879501343,
      "learning_rate": 1.0065825829381082e-05,
      "loss": 1.5209,
      "mean_token_accuracy": 0.6202053825060526,
      "num_tokens": 1670709151.0,
      "step": 9962
    },
    {
      "entropy": 1.7265647252400715,
      "epoch": 1.0944769437807256,
      "grad_norm": 0.5859116911888123,
      "learning_rate": 1.0064233363863519e-05,
      "loss": 1.4948,
      "mean_token_accuracy": 0.6309501181046168,
      "num_tokens": 1670961566.0,
      "step": 9963
    },
    {
      "entropy": 1.7115404605865479,
      "epoch": 1.0945868006920985,
      "grad_norm": 0.6820839047431946,
      "learning_rate": 1.0062640927962546e-05,
      "loss": 1.3777,
      "mean_token_accuracy": 0.6574893345435461,
      "num_tokens": 1671153616.0,
      "step": 9964
    },
    {
      "entropy": 1.6882510085900624,
      "epoch": 1.0946966576034716,
      "grad_norm": 0.6248074769973755,
      "learning_rate": 1.0061048521728565e-05,
      "loss": 1.4502,
      "mean_token_accuracy": 0.655212844411532,
      "num_tokens": 1671336660.0,
      "step": 9965
    },
    {
      "entropy": 1.7038983503977458,
      "epoch": 1.0948065145148445,
      "grad_norm": 0.6728511452674866,
      "learning_rate": 1.0059456145211976e-05,
      "loss": 1.3841,
      "mean_token_accuracy": 0.6533484607934952,
      "num_tokens": 1671508735.0,
      "step": 9966
    },
    {
      "entropy": 1.6372570097446442,
      "epoch": 1.0949163714262173,
      "grad_norm": 0.7651037573814392,
      "learning_rate": 1.0057863798463178e-05,
      "loss": 1.436,
      "mean_token_accuracy": 0.6575490534305573,
      "num_tokens": 1671716110.0,
      "step": 9967
    },
    {
      "entropy": 1.7102164427439372,
      "epoch": 1.0950262283375902,
      "grad_norm": 1.415974736213684,
      "learning_rate": 1.0056271481532565e-05,
      "loss": 1.4185,
      "mean_token_accuracy": 0.6585031648476919,
      "num_tokens": 1671875078.0,
      "step": 9968
    },
    {
      "entropy": 1.7216593126455944,
      "epoch": 1.095136085248963,
      "grad_norm": 0.6866213083267212,
      "learning_rate": 1.0054679194470533e-05,
      "loss": 1.2383,
      "mean_token_accuracy": 0.6811109681924185,
      "num_tokens": 1672000646.0,
      "step": 9969
    },
    {
      "entropy": 1.666219154993693,
      "epoch": 1.0952459421603362,
      "grad_norm": 0.7179189324378967,
      "learning_rate": 1.0053086937327481e-05,
      "loss": 1.4343,
      "mean_token_accuracy": 0.6527023464441299,
      "num_tokens": 1672171592.0,
      "step": 9970
    },
    {
      "entropy": 1.707016150156657,
      "epoch": 1.095355799071709,
      "grad_norm": 0.6981037855148315,
      "learning_rate": 1.0051494710153797e-05,
      "loss": 1.5801,
      "mean_token_accuracy": 0.6489623288313547,
      "num_tokens": 1672358507.0,
      "step": 9971
    },
    {
      "entropy": 1.7377264102300007,
      "epoch": 1.095465655983082,
      "grad_norm": 0.7055451273918152,
      "learning_rate": 1.004990251299988e-05,
      "loss": 1.5114,
      "mean_token_accuracy": 0.6383561591307322,
      "num_tokens": 1672529837.0,
      "step": 9972
    },
    {
      "entropy": 1.708618571360906,
      "epoch": 1.0955755128944549,
      "grad_norm": 0.7005475163459778,
      "learning_rate": 1.0048310345916123e-05,
      "loss": 1.3085,
      "mean_token_accuracy": 0.6701053728659948,
      "num_tokens": 1672715868.0,
      "step": 9973
    },
    {
      "entropy": 1.7293658057848613,
      "epoch": 1.095685369805828,
      "grad_norm": 0.7964652180671692,
      "learning_rate": 1.0046718208952912e-05,
      "loss": 1.5353,
      "mean_token_accuracy": 0.6405654648939768,
      "num_tokens": 1672895461.0,
      "step": 9974
    },
    {
      "entropy": 1.6681481798489888,
      "epoch": 1.0957952267172009,
      "grad_norm": 0.6238622069358826,
      "learning_rate": 1.0045126102160641e-05,
      "loss": 1.4342,
      "mean_token_accuracy": 0.6553277472654978,
      "num_tokens": 1673112425.0,
      "step": 9975
    },
    {
      "entropy": 1.700081080198288,
      "epoch": 1.0959050836285738,
      "grad_norm": 0.6713470816612244,
      "learning_rate": 1.0043534025589702e-05,
      "loss": 1.3626,
      "mean_token_accuracy": 0.6709864139556885,
      "num_tokens": 1673262686.0,
      "step": 9976
    },
    {
      "entropy": 1.6879205107688904,
      "epoch": 1.0960149405399466,
      "grad_norm": 0.6403784155845642,
      "learning_rate": 1.004194197929047e-05,
      "loss": 1.4501,
      "mean_token_accuracy": 0.637953132390976,
      "num_tokens": 1673474045.0,
      "step": 9977
    },
    {
      "entropy": 1.658721258242925,
      "epoch": 1.0961247974513197,
      "grad_norm": 0.6213784217834473,
      "learning_rate": 1.004034996331335e-05,
      "loss": 1.3654,
      "mean_token_accuracy": 0.6668369323015213,
      "num_tokens": 1673639563.0,
      "step": 9978
    },
    {
      "entropy": 1.7311672468980153,
      "epoch": 1.0962346543626926,
      "grad_norm": 0.6326048374176025,
      "learning_rate": 1.0038757977708722e-05,
      "loss": 1.4684,
      "mean_token_accuracy": 0.6399320314327875,
      "num_tokens": 1673825028.0,
      "step": 9979
    },
    {
      "entropy": 1.6954893171787262,
      "epoch": 1.0963445112740655,
      "grad_norm": 0.9208673238754272,
      "learning_rate": 1.003716602252697e-05,
      "loss": 1.2998,
      "mean_token_accuracy": 0.6691089371840159,
      "num_tokens": 1673951048.0,
      "step": 9980
    },
    {
      "entropy": 1.7091851830482483,
      "epoch": 1.0964543681854384,
      "grad_norm": 63.81305694580078,
      "learning_rate": 1.0035574097818478e-05,
      "loss": 1.4792,
      "mean_token_accuracy": 0.6564100285371145,
      "num_tokens": 1674122349.0,
      "step": 9981
    },
    {
      "entropy": 1.686219314734141,
      "epoch": 1.0965642250968115,
      "grad_norm": 0.6443544030189514,
      "learning_rate": 1.0033982203633632e-05,
      "loss": 1.3514,
      "mean_token_accuracy": 0.6670923282702764,
      "num_tokens": 1674297304.0,
      "step": 9982
    },
    {
      "entropy": 1.7111739615599315,
      "epoch": 1.0966740820081844,
      "grad_norm": 0.7431286573410034,
      "learning_rate": 1.0032390340022813e-05,
      "loss": 1.4799,
      "mean_token_accuracy": 0.6537399043639501,
      "num_tokens": 1674461127.0,
      "step": 9983
    },
    {
      "entropy": 1.71789946158727,
      "epoch": 1.0967839389195573,
      "grad_norm": 0.683925449848175,
      "learning_rate": 1.0030798507036408e-05,
      "loss": 1.4389,
      "mean_token_accuracy": 0.6607331385215124,
      "num_tokens": 1674594551.0,
      "step": 9984
    },
    {
      "entropy": 1.6557001272837322,
      "epoch": 1.0968937958309302,
      "grad_norm": 0.6890281438827515,
      "learning_rate": 1.0029206704724787e-05,
      "loss": 1.3217,
      "mean_token_accuracy": 0.6550944646199545,
      "num_tokens": 1674795787.0,
      "step": 9985
    },
    {
      "entropy": 1.6847777664661407,
      "epoch": 1.097003652742303,
      "grad_norm": 0.6635385751724243,
      "learning_rate": 1.002761493313834e-05,
      "loss": 1.3433,
      "mean_token_accuracy": 0.6774813532829285,
      "num_tokens": 1674947703.0,
      "step": 9986
    },
    {
      "entropy": 1.7151075502236683,
      "epoch": 1.0971135096536762,
      "grad_norm": 0.7632783055305481,
      "learning_rate": 1.0026023192327441e-05,
      "loss": 1.4479,
      "mean_token_accuracy": 0.6485897650321325,
      "num_tokens": 1675092387.0,
      "step": 9987
    },
    {
      "entropy": 1.646423081556956,
      "epoch": 1.097223366565049,
      "grad_norm": 0.7513181567192078,
      "learning_rate": 1.0024431482342471e-05,
      "loss": 1.31,
      "mean_token_accuracy": 0.6654202590386072,
      "num_tokens": 1675232012.0,
      "step": 9988
    },
    {
      "entropy": 1.718563437461853,
      "epoch": 1.097333223476422,
      "grad_norm": 0.621102511882782,
      "learning_rate": 1.0022839803233804e-05,
      "loss": 1.3573,
      "mean_token_accuracy": 0.6684616009394327,
      "num_tokens": 1675402739.0,
      "step": 9989
    },
    {
      "entropy": 1.605027476946513,
      "epoch": 1.0974430803877948,
      "grad_norm": 0.7413462996482849,
      "learning_rate": 1.0021248155051817e-05,
      "loss": 1.1547,
      "mean_token_accuracy": 0.6949248611927032,
      "num_tokens": 1675515525.0,
      "step": 9990
    },
    {
      "entropy": 1.6858182946840923,
      "epoch": 1.097552937299168,
      "grad_norm": 0.6468738317489624,
      "learning_rate": 1.0019656537846883e-05,
      "loss": 1.2763,
      "mean_token_accuracy": 0.6762718011935552,
      "num_tokens": 1675645268.0,
      "step": 9991
    },
    {
      "entropy": 1.6803157031536102,
      "epoch": 1.0976627942105408,
      "grad_norm": 0.5877875685691833,
      "learning_rate": 1.0018064951669377e-05,
      "loss": 1.3821,
      "mean_token_accuracy": 0.6426830291748047,
      "num_tokens": 1675906428.0,
      "step": 9992
    },
    {
      "entropy": 1.7092790802319844,
      "epoch": 1.0977726511219137,
      "grad_norm": 0.7025560140609741,
      "learning_rate": 1.0016473396569676e-05,
      "loss": 1.2588,
      "mean_token_accuracy": 0.6746116280555725,
      "num_tokens": 1676046321.0,
      "step": 9993
    },
    {
      "entropy": 1.7590789496898651,
      "epoch": 1.0978825080332866,
      "grad_norm": 0.792087733745575,
      "learning_rate": 1.0014881872598147e-05,
      "loss": 1.2788,
      "mean_token_accuracy": 0.6598645945390066,
      "num_tokens": 1676194845.0,
      "step": 9994
    },
    {
      "entropy": 1.743706077337265,
      "epoch": 1.0979923649446597,
      "grad_norm": 0.7016844749450684,
      "learning_rate": 1.0013290379805164e-05,
      "loss": 1.4946,
      "mean_token_accuracy": 0.6423351069291433,
      "num_tokens": 1676362780.0,
      "step": 9995
    },
    {
      "entropy": 1.7073632975419362,
      "epoch": 1.0981022218560326,
      "grad_norm": 0.8244330286979675,
      "learning_rate": 1.00116989182411e-05,
      "loss": 1.4003,
      "mean_token_accuracy": 0.6536079297463099,
      "num_tokens": 1676508306.0,
      "step": 9996
    },
    {
      "entropy": 1.731406440337499,
      "epoch": 1.0982120787674055,
      "grad_norm": 0.7456120252609253,
      "learning_rate": 1.0010107487956311e-05,
      "loss": 1.3884,
      "mean_token_accuracy": 0.6658417532841364,
      "num_tokens": 1676649132.0,
      "step": 9997
    },
    {
      "entropy": 1.7547302941481273,
      "epoch": 1.0983219356787783,
      "grad_norm": 0.6900354623794556,
      "learning_rate": 1.0008516089001178e-05,
      "loss": 1.4422,
      "mean_token_accuracy": 0.6387932747602463,
      "num_tokens": 1676829373.0,
      "step": 9998
    },
    {
      "entropy": 1.7983198165893555,
      "epoch": 1.0984317925901514,
      "grad_norm": 0.6247063875198364,
      "learning_rate": 1.0006924721426069e-05,
      "loss": 1.5958,
      "mean_token_accuracy": 0.6131992489099503,
      "num_tokens": 1677076619.0,
      "step": 9999
    },
    {
      "entropy": 1.753205378850301,
      "epoch": 1.0985416495015243,
      "grad_norm": 0.6765521764755249,
      "learning_rate": 1.0005333385281338e-05,
      "loss": 1.5413,
      "mean_token_accuracy": 0.6390999456246694,
      "num_tokens": 1677305713.0,
      "step": 10000
    },
    {
      "entropy": 1.6796150207519531,
      "epoch": 1.0986515064128972,
      "grad_norm": 0.7337918281555176,
      "learning_rate": 1.000374208061736e-05,
      "loss": 1.2874,
      "mean_token_accuracy": 0.6799869785706202,
      "num_tokens": 1677445019.0,
      "step": 10001
    },
    {
      "entropy": 1.711920936902364,
      "epoch": 1.09876136332427,
      "grad_norm": 0.5600767731666565,
      "learning_rate": 1.0002150807484497e-05,
      "loss": 1.3903,
      "mean_token_accuracy": 0.653274749716123,
      "num_tokens": 1677642988.0,
      "step": 10002
    },
    {
      "entropy": 1.733855148156484,
      "epoch": 1.098871220235643,
      "grad_norm": 0.7659547328948975,
      "learning_rate": 1.0000559565933109e-05,
      "loss": 1.2707,
      "mean_token_accuracy": 0.6706570088863373,
      "num_tokens": 1677754531.0,
      "step": 10003
    },
    {
      "entropy": 1.710139532883962,
      "epoch": 1.098981077147016,
      "grad_norm": 0.75276118516922,
      "learning_rate": 9.998968356013561e-06,
      "loss": 1.3375,
      "mean_token_accuracy": 0.6552453736464182,
      "num_tokens": 1677905273.0,
      "step": 10004
    },
    {
      "entropy": 1.7893259624640148,
      "epoch": 1.099090934058389,
      "grad_norm": 0.6971526145935059,
      "learning_rate": 9.997377177776212e-06,
      "loss": 1.5402,
      "mean_token_accuracy": 0.6377905060847601,
      "num_tokens": 1678053177.0,
      "step": 10005
    },
    {
      "entropy": 1.6512891054153442,
      "epoch": 1.0992007909697619,
      "grad_norm": 0.6249794960021973,
      "learning_rate": 9.995786031271428e-06,
      "loss": 1.4462,
      "mean_token_accuracy": 0.6493960867325465,
      "num_tokens": 1678225106.0,
      "step": 10006
    },
    {
      "entropy": 1.6760885218779247,
      "epoch": 1.0993106478811348,
      "grad_norm": 0.772819995880127,
      "learning_rate": 9.99419491654956e-06,
      "loss": 1.4534,
      "mean_token_accuracy": 0.659936378399531,
      "num_tokens": 1678418651.0,
      "step": 10007
    },
    {
      "entropy": 1.7428101301193237,
      "epoch": 1.0994205047925079,
      "grad_norm": 0.6936253905296326,
      "learning_rate": 9.992603833660972e-06,
      "loss": 1.3324,
      "mean_token_accuracy": 0.6534697463115057,
      "num_tokens": 1678577045.0,
      "step": 10008
    },
    {
      "entropy": 1.7122528354326885,
      "epoch": 1.0995303617038807,
      "grad_norm": 0.6630085110664368,
      "learning_rate": 9.991012782656015e-06,
      "loss": 1.6186,
      "mean_token_accuracy": 0.6261989126602808,
      "num_tokens": 1678761263.0,
      "step": 10009
    },
    {
      "entropy": 1.708151896794637,
      "epoch": 1.0996402186152536,
      "grad_norm": 0.673546314239502,
      "learning_rate": 9.989421763585052e-06,
      "loss": 1.4439,
      "mean_token_accuracy": 0.6554606457551321,
      "num_tokens": 1678951453.0,
      "step": 10010
    },
    {
      "entropy": 1.6987049877643585,
      "epoch": 1.0997500755266265,
      "grad_norm": 0.7956987023353577,
      "learning_rate": 9.987830776498435e-06,
      "loss": 1.5238,
      "mean_token_accuracy": 0.6471638679504395,
      "num_tokens": 1679144538.0,
      "step": 10011
    },
    {
      "entropy": 1.668361673752467,
      "epoch": 1.0998599324379996,
      "grad_norm": 0.6938173174858093,
      "learning_rate": 9.986239821446517e-06,
      "loss": 1.3803,
      "mean_token_accuracy": 0.6642382641633352,
      "num_tokens": 1679298989.0,
      "step": 10012
    },
    {
      "entropy": 1.6760740081469219,
      "epoch": 1.0999697893493725,
      "grad_norm": 0.8040129542350769,
      "learning_rate": 9.984648898479652e-06,
      "loss": 1.5746,
      "mean_token_accuracy": 0.6352566902836164,
      "num_tokens": 1679527067.0,
      "step": 10013
    },
    {
      "entropy": 1.6475440760453541,
      "epoch": 1.1000796462607454,
      "grad_norm": 0.5550295114517212,
      "learning_rate": 9.983058007648192e-06,
      "loss": 1.4691,
      "mean_token_accuracy": 0.6531208554903666,
      "num_tokens": 1679766761.0,
      "step": 10014
    },
    {
      "entropy": 1.679537256558736,
      "epoch": 1.1001895031721183,
      "grad_norm": 0.7648224830627441,
      "learning_rate": 9.981467149002486e-06,
      "loss": 1.3501,
      "mean_token_accuracy": 0.6587068686882654,
      "num_tokens": 1679937622.0,
      "step": 10015
    },
    {
      "entropy": 1.7292282382647197,
      "epoch": 1.1002993600834912,
      "grad_norm": 0.6542650461196899,
      "learning_rate": 9.979876322592886e-06,
      "loss": 1.4841,
      "mean_token_accuracy": 0.6392849683761597,
      "num_tokens": 1680115451.0,
      "step": 10016
    },
    {
      "entropy": 1.6712367534637451,
      "epoch": 1.1004092169948643,
      "grad_norm": 0.6149039268493652,
      "learning_rate": 9.978285528469744e-06,
      "loss": 1.3236,
      "mean_token_accuracy": 0.6738909035921097,
      "num_tokens": 1680311480.0,
      "step": 10017
    },
    {
      "entropy": 1.7433668871720631,
      "epoch": 1.1005190739062372,
      "grad_norm": 0.7319428324699402,
      "learning_rate": 9.976694766683401e-06,
      "loss": 1.3905,
      "mean_token_accuracy": 0.6612731317679087,
      "num_tokens": 1680488251.0,
      "step": 10018
    },
    {
      "entropy": 1.7435412506262462,
      "epoch": 1.10062893081761,
      "grad_norm": 0.7963857650756836,
      "learning_rate": 9.97510403728421e-06,
      "loss": 1.5602,
      "mean_token_accuracy": 0.6402197231849035,
      "num_tokens": 1680631108.0,
      "step": 10019
    },
    {
      "entropy": 1.6780545115470886,
      "epoch": 1.100738787728983,
      "grad_norm": 0.685632050037384,
      "learning_rate": 9.973513340322515e-06,
      "loss": 1.4263,
      "mean_token_accuracy": 0.6653469949960709,
      "num_tokens": 1680763623.0,
      "step": 10020
    },
    {
      "entropy": 1.6828766167163849,
      "epoch": 1.100848644640356,
      "grad_norm": 0.6240759491920471,
      "learning_rate": 9.971922675848655e-06,
      "loss": 1.308,
      "mean_token_accuracy": 0.6743075450261434,
      "num_tokens": 1680908342.0,
      "step": 10021
    },
    {
      "entropy": 1.705411026875178,
      "epoch": 1.100958501551729,
      "grad_norm": 0.7477165460586548,
      "learning_rate": 9.970332043912982e-06,
      "loss": 1.3975,
      "mean_token_accuracy": 0.6521026045084,
      "num_tokens": 1681071612.0,
      "step": 10022
    },
    {
      "entropy": 1.7263496617476146,
      "epoch": 1.1010683584631018,
      "grad_norm": 0.7266680002212524,
      "learning_rate": 9.968741444565839e-06,
      "loss": 1.2693,
      "mean_token_accuracy": 0.6663507620493571,
      "num_tokens": 1681213720.0,
      "step": 10023
    },
    {
      "entropy": 1.699666867653529,
      "epoch": 1.1011782153744747,
      "grad_norm": 0.7280838489532471,
      "learning_rate": 9.96715087785756e-06,
      "loss": 1.3408,
      "mean_token_accuracy": 0.6538164764642715,
      "num_tokens": 1681381420.0,
      "step": 10024
    },
    {
      "entropy": 1.7014712989330292,
      "epoch": 1.1012880722858478,
      "grad_norm": 0.7642046809196472,
      "learning_rate": 9.965560343838494e-06,
      "loss": 1.3778,
      "mean_token_accuracy": 0.65878793100516,
      "num_tokens": 1681534063.0,
      "step": 10025
    },
    {
      "entropy": 1.7197924951712291,
      "epoch": 1.1013979291972207,
      "grad_norm": 0.8084545135498047,
      "learning_rate": 9.963969842558979e-06,
      "loss": 1.4746,
      "mean_token_accuracy": 0.6574273506800333,
      "num_tokens": 1681719997.0,
      "step": 10026
    },
    {
      "entropy": 1.6657897333304088,
      "epoch": 1.1015077861085936,
      "grad_norm": 0.6369723081588745,
      "learning_rate": 9.962379374069344e-06,
      "loss": 1.5711,
      "mean_token_accuracy": 0.6259370992581049,
      "num_tokens": 1681973686.0,
      "step": 10027
    },
    {
      "entropy": 1.6844724615414937,
      "epoch": 1.1016176430199665,
      "grad_norm": 0.6429160237312317,
      "learning_rate": 9.960788938419938e-06,
      "loss": 1.4057,
      "mean_token_accuracy": 0.6732848683993021,
      "num_tokens": 1682149098.0,
      "step": 10028
    },
    {
      "entropy": 1.723353534936905,
      "epoch": 1.1017274999313393,
      "grad_norm": 0.6367024779319763,
      "learning_rate": 9.959198535661097e-06,
      "loss": 1.5805,
      "mean_token_accuracy": 0.6324650992949804,
      "num_tokens": 1682363134.0,
      "step": 10029
    },
    {
      "entropy": 1.6801141500473022,
      "epoch": 1.1018373568427124,
      "grad_norm": 0.7213335633277893,
      "learning_rate": 9.957608165843148e-06,
      "loss": 1.3366,
      "mean_token_accuracy": 0.6565315226713816,
      "num_tokens": 1682553091.0,
      "step": 10030
    },
    {
      "entropy": 1.6784232159455617,
      "epoch": 1.1019472137540853,
      "grad_norm": 0.7102720737457275,
      "learning_rate": 9.956017829016434e-06,
      "loss": 1.3336,
      "mean_token_accuracy": 0.6537942936023077,
      "num_tokens": 1682722356.0,
      "step": 10031
    },
    {
      "entropy": 1.680375188589096,
      "epoch": 1.1020570706654582,
      "grad_norm": 0.6875813007354736,
      "learning_rate": 9.954427525231285e-06,
      "loss": 1.3502,
      "mean_token_accuracy": 0.6625233242909113,
      "num_tokens": 1682842970.0,
      "step": 10032
    },
    {
      "entropy": 1.6692634721597035,
      "epoch": 1.102166927576831,
      "grad_norm": 0.700435996055603,
      "learning_rate": 9.952837254538032e-06,
      "loss": 1.3591,
      "mean_token_accuracy": 0.667348379890124,
      "num_tokens": 1683041864.0,
      "step": 10033
    },
    {
      "entropy": 1.7761492331822712,
      "epoch": 1.1022767844882042,
      "grad_norm": 0.7642155885696411,
      "learning_rate": 9.95124701698701e-06,
      "loss": 1.462,
      "mean_token_accuracy": 0.6416449447472891,
      "num_tokens": 1683184924.0,
      "step": 10034
    },
    {
      "entropy": 1.725660542647044,
      "epoch": 1.102386641399577,
      "grad_norm": 0.6598086357116699,
      "learning_rate": 9.949656812628548e-06,
      "loss": 1.3182,
      "mean_token_accuracy": 0.6549786279598871,
      "num_tokens": 1683372899.0,
      "step": 10035
    },
    {
      "entropy": 1.6732657253742218,
      "epoch": 1.10249649831095,
      "grad_norm": 0.9407162070274353,
      "learning_rate": 9.948066641512972e-06,
      "loss": 1.3752,
      "mean_token_accuracy": 0.6609608381986618,
      "num_tokens": 1683562266.0,
      "step": 10036
    },
    {
      "entropy": 1.7500144441922505,
      "epoch": 1.1026063552223229,
      "grad_norm": 0.6773711442947388,
      "learning_rate": 9.946476503690613e-06,
      "loss": 1.4346,
      "mean_token_accuracy": 0.6503184189399084,
      "num_tokens": 1683732368.0,
      "step": 10037
    },
    {
      "entropy": 1.7161312401294708,
      "epoch": 1.102716212133696,
      "grad_norm": 0.6016209125518799,
      "learning_rate": 9.944886399211802e-06,
      "loss": 1.3286,
      "mean_token_accuracy": 0.6561945378780365,
      "num_tokens": 1683895566.0,
      "step": 10038
    },
    {
      "entropy": 1.7138621707757313,
      "epoch": 1.1028260690450689,
      "grad_norm": 0.7198561429977417,
      "learning_rate": 9.943296328126855e-06,
      "loss": 1.3559,
      "mean_token_accuracy": 0.6556108146905899,
      "num_tokens": 1684035609.0,
      "step": 10039
    },
    {
      "entropy": 1.7401485840479534,
      "epoch": 1.1029359259564417,
      "grad_norm": 0.7214450240135193,
      "learning_rate": 9.941706290486107e-06,
      "loss": 1.4328,
      "mean_token_accuracy": 0.6506765186786652,
      "num_tokens": 1684183063.0,
      "step": 10040
    },
    {
      "entropy": 1.713246077299118,
      "epoch": 1.1030457828678146,
      "grad_norm": 0.7159080505371094,
      "learning_rate": 9.940116286339876e-06,
      "loss": 1.2452,
      "mean_token_accuracy": 0.67661052942276,
      "num_tokens": 1684309228.0,
      "step": 10041
    },
    {
      "entropy": 1.7424029608567555,
      "epoch": 1.1031556397791875,
      "grad_norm": 0.598591148853302,
      "learning_rate": 9.938526315738488e-06,
      "loss": 1.3506,
      "mean_token_accuracy": 0.6587058206399282,
      "num_tokens": 1684467440.0,
      "step": 10042
    },
    {
      "entropy": 1.737044592698415,
      "epoch": 1.1032654966905606,
      "grad_norm": 0.7071549296379089,
      "learning_rate": 9.936936378732264e-06,
      "loss": 1.3585,
      "mean_token_accuracy": 0.6568170885245005,
      "num_tokens": 1684616936.0,
      "step": 10043
    },
    {
      "entropy": 1.6824077864487965,
      "epoch": 1.1033753536019335,
      "grad_norm": 0.7109892964363098,
      "learning_rate": 9.935346475371526e-06,
      "loss": 1.3406,
      "mean_token_accuracy": 0.6530480086803436,
      "num_tokens": 1684799276.0,
      "step": 10044
    },
    {
      "entropy": 1.658627490202586,
      "epoch": 1.1034852105133064,
      "grad_norm": 0.6493405699729919,
      "learning_rate": 9.933756605706589e-06,
      "loss": 1.4513,
      "mean_token_accuracy": 0.6560260156790415,
      "num_tokens": 1684941620.0,
      "step": 10045
    },
    {
      "entropy": 1.7143846948941548,
      "epoch": 1.1035950674246793,
      "grad_norm": 0.7175660133361816,
      "learning_rate": 9.93216676978778e-06,
      "loss": 1.3808,
      "mean_token_accuracy": 0.6502297967672348,
      "num_tokens": 1685141645.0,
      "step": 10046
    },
    {
      "entropy": 1.7108404437700908,
      "epoch": 1.1037049243360524,
      "grad_norm": 0.665665864944458,
      "learning_rate": 9.930576967665405e-06,
      "loss": 1.3979,
      "mean_token_accuracy": 0.6681078970432281,
      "num_tokens": 1685310487.0,
      "step": 10047
    },
    {
      "entropy": 1.6906990508238475,
      "epoch": 1.1038147812474253,
      "grad_norm": 0.685772716999054,
      "learning_rate": 9.928987199389791e-06,
      "loss": 1.2396,
      "mean_token_accuracy": 0.6812936266263326,
      "num_tokens": 1685454139.0,
      "step": 10048
    },
    {
      "entropy": 1.6968371470769246,
      "epoch": 1.1039246381587982,
      "grad_norm": 0.6249828934669495,
      "learning_rate": 9.92739746501125e-06,
      "loss": 1.4544,
      "mean_token_accuracy": 0.6454744736353556,
      "num_tokens": 1685605872.0,
      "step": 10049
    },
    {
      "entropy": 1.6949062744776409,
      "epoch": 1.104034495070171,
      "grad_norm": 0.656091034412384,
      "learning_rate": 9.925807764580094e-06,
      "loss": 1.3709,
      "mean_token_accuracy": 0.6586327403783798,
      "num_tokens": 1685794273.0,
      "step": 10050
    },
    {
      "entropy": 1.7288226087888081,
      "epoch": 1.1041443519815441,
      "grad_norm": 0.7473734617233276,
      "learning_rate": 9.924218098146636e-06,
      "loss": 1.2089,
      "mean_token_accuracy": 0.6816525955994924,
      "num_tokens": 1685887419.0,
      "step": 10051
    },
    {
      "entropy": 1.6433724264303844,
      "epoch": 1.104254208892917,
      "grad_norm": 0.6661230325698853,
      "learning_rate": 9.922628465761197e-06,
      "loss": 1.2899,
      "mean_token_accuracy": 0.6614332050085068,
      "num_tokens": 1686038032.0,
      "step": 10052
    },
    {
      "entropy": 1.72390815615654,
      "epoch": 1.10436406580429,
      "grad_norm": 0.750630259513855,
      "learning_rate": 9.921038867474076e-06,
      "loss": 1.4065,
      "mean_token_accuracy": 0.6597993671894073,
      "num_tokens": 1686238542.0,
      "step": 10053
    },
    {
      "entropy": 1.7463493744532268,
      "epoch": 1.1044739227156628,
      "grad_norm": 0.7480951547622681,
      "learning_rate": 9.919449303335591e-06,
      "loss": 1.3189,
      "mean_token_accuracy": 0.664255807797114,
      "num_tokens": 1686360222.0,
      "step": 10054
    },
    {
      "entropy": 1.7227412561575572,
      "epoch": 1.1045837796270357,
      "grad_norm": 0.7310038208961487,
      "learning_rate": 9.917859773396048e-06,
      "loss": 1.4055,
      "mean_token_accuracy": 0.6522340675195059,
      "num_tokens": 1686517954.0,
      "step": 10055
    },
    {
      "entropy": 1.727901021639506,
      "epoch": 1.1046936365384088,
      "grad_norm": 0.7204070687294006,
      "learning_rate": 9.916270277705755e-06,
      "loss": 1.3779,
      "mean_token_accuracy": 0.6602382163206736,
      "num_tokens": 1686720706.0,
      "step": 10056
    },
    {
      "entropy": 1.6805065770943959,
      "epoch": 1.1048034934497817,
      "grad_norm": 0.747397780418396,
      "learning_rate": 9.914680816315018e-06,
      "loss": 1.4117,
      "mean_token_accuracy": 0.6577341059843699,
      "num_tokens": 1686851842.0,
      "step": 10057
    },
    {
      "entropy": 1.683358073234558,
      "epoch": 1.1049133503611546,
      "grad_norm": 0.8031777739524841,
      "learning_rate": 9.913091389274149e-06,
      "loss": 1.398,
      "mean_token_accuracy": 0.6626959492762884,
      "num_tokens": 1686999977.0,
      "step": 10058
    },
    {
      "entropy": 1.7599800129731495,
      "epoch": 1.1050232072725275,
      "grad_norm": 0.6084749698638916,
      "learning_rate": 9.911501996633446e-06,
      "loss": 1.3626,
      "mean_token_accuracy": 0.6569390346606573,
      "num_tokens": 1687162443.0,
      "step": 10059
    },
    {
      "entropy": 1.666684329509735,
      "epoch": 1.1051330641839006,
      "grad_norm": 0.7338747978210449,
      "learning_rate": 9.909912638443211e-06,
      "loss": 1.3339,
      "mean_token_accuracy": 0.6666023383537928,
      "num_tokens": 1687326579.0,
      "step": 10060
    },
    {
      "entropy": 1.7396563490231831,
      "epoch": 1.1052429210952734,
      "grad_norm": 0.5960805416107178,
      "learning_rate": 9.908323314753754e-06,
      "loss": 1.4937,
      "mean_token_accuracy": 0.6390989075104395,
      "num_tokens": 1687537916.0,
      "step": 10061
    },
    {
      "entropy": 1.7278473377227783,
      "epoch": 1.1053527780066463,
      "grad_norm": 0.640707790851593,
      "learning_rate": 9.90673402561537e-06,
      "loss": 1.3766,
      "mean_token_accuracy": 0.6638915787140528,
      "num_tokens": 1687698161.0,
      "step": 10062
    },
    {
      "entropy": 1.723745624224345,
      "epoch": 1.1054626349180192,
      "grad_norm": 0.7135167717933655,
      "learning_rate": 9.90514477107836e-06,
      "loss": 1.4669,
      "mean_token_accuracy": 0.6489771803220113,
      "num_tokens": 1687859122.0,
      "step": 10063
    },
    {
      "entropy": 1.650217165549596,
      "epoch": 1.1055724918293923,
      "grad_norm": 0.6993624567985535,
      "learning_rate": 9.90355555119303e-06,
      "loss": 1.2399,
      "mean_token_accuracy": 0.684073825677236,
      "num_tokens": 1687974398.0,
      "step": 10064
    },
    {
      "entropy": 1.7590695818265278,
      "epoch": 1.1056823487407652,
      "grad_norm": 0.6988198757171631,
      "learning_rate": 9.901966366009665e-06,
      "loss": 1.5556,
      "mean_token_accuracy": 0.6316021184126536,
      "num_tokens": 1688190329.0,
      "step": 10065
    },
    {
      "entropy": 1.7328562041123707,
      "epoch": 1.105792205652138,
      "grad_norm": 0.8319157958030701,
      "learning_rate": 9.900377215578575e-06,
      "loss": 1.3012,
      "mean_token_accuracy": 0.6607611576716105,
      "num_tokens": 1688300281.0,
      "step": 10066
    },
    {
      "entropy": 1.6762152512868245,
      "epoch": 1.105902062563511,
      "grad_norm": 0.7458414435386658,
      "learning_rate": 9.89878809995005e-06,
      "loss": 1.2462,
      "mean_token_accuracy": 0.6730685979127884,
      "num_tokens": 1688449740.0,
      "step": 10067
    },
    {
      "entropy": 1.6644122898578644,
      "epoch": 1.1060119194748839,
      "grad_norm": 0.5826370716094971,
      "learning_rate": 9.897199019174386e-06,
      "loss": 1.427,
      "mean_token_accuracy": 0.6464564104874929,
      "num_tokens": 1688657245.0,
      "step": 10068
    },
    {
      "entropy": 1.7347849011421204,
      "epoch": 1.106121776386257,
      "grad_norm": 1.0048359632492065,
      "learning_rate": 9.895609973301873e-06,
      "loss": 1.4001,
      "mean_token_accuracy": 0.6557883818944296,
      "num_tokens": 1688785006.0,
      "step": 10069
    },
    {
      "entropy": 1.7074712614218395,
      "epoch": 1.1062316332976299,
      "grad_norm": 0.7061405777931213,
      "learning_rate": 9.89402096238281e-06,
      "loss": 1.2721,
      "mean_token_accuracy": 0.6725035260121027,
      "num_tokens": 1688900935.0,
      "step": 10070
    },
    {
      "entropy": 1.7450923323631287,
      "epoch": 1.1063414902090027,
      "grad_norm": 0.6660796403884888,
      "learning_rate": 9.892431986467483e-06,
      "loss": 1.3757,
      "mean_token_accuracy": 0.6571687310934067,
      "num_tokens": 1689061066.0,
      "step": 10071
    },
    {
      "entropy": 1.6484363277753193,
      "epoch": 1.1064513471203756,
      "grad_norm": 0.5785127282142639,
      "learning_rate": 9.890843045606185e-06,
      "loss": 1.3894,
      "mean_token_accuracy": 0.6500343084335327,
      "num_tokens": 1689306241.0,
      "step": 10072
    },
    {
      "entropy": 1.7250319123268127,
      "epoch": 1.1065612040317487,
      "grad_norm": 0.6741638779640198,
      "learning_rate": 9.889254139849207e-06,
      "loss": 1.4156,
      "mean_token_accuracy": 0.6609347065289816,
      "num_tokens": 1689490952.0,
      "step": 10073
    },
    {
      "entropy": 1.703676551580429,
      "epoch": 1.1066710609431216,
      "grad_norm": 0.6628722548484802,
      "learning_rate": 9.887665269246833e-06,
      "loss": 1.3862,
      "mean_token_accuracy": 0.6559304048617681,
      "num_tokens": 1689668182.0,
      "step": 10074
    },
    {
      "entropy": 1.7785408198833466,
      "epoch": 1.1067809178544945,
      "grad_norm": 0.6795310974121094,
      "learning_rate": 9.886076433849352e-06,
      "loss": 1.3857,
      "mean_token_accuracy": 0.6603186577558517,
      "num_tokens": 1689843179.0,
      "step": 10075
    },
    {
      "entropy": 1.7740286191304524,
      "epoch": 1.1068907747658674,
      "grad_norm": 0.6643602848052979,
      "learning_rate": 9.884487633707052e-06,
      "loss": 1.455,
      "mean_token_accuracy": 0.6375104387601217,
      "num_tokens": 1690010012.0,
      "step": 10076
    },
    {
      "entropy": 1.7466478248437245,
      "epoch": 1.1070006316772405,
      "grad_norm": 0.7298927903175354,
      "learning_rate": 9.882898868870212e-06,
      "loss": 1.4145,
      "mean_token_accuracy": 0.6563018610080084,
      "num_tokens": 1690159229.0,
      "step": 10077
    },
    {
      "entropy": 1.705216646194458,
      "epoch": 1.1071104885886134,
      "grad_norm": 0.793967068195343,
      "learning_rate": 9.88131013938912e-06,
      "loss": 1.3992,
      "mean_token_accuracy": 0.6699225157499313,
      "num_tokens": 1690302272.0,
      "step": 10078
    },
    {
      "entropy": 1.70258762439092,
      "epoch": 1.1072203454999863,
      "grad_norm": 0.7318503260612488,
      "learning_rate": 9.87972144531406e-06,
      "loss": 1.3234,
      "mean_token_accuracy": 0.6641089816888174,
      "num_tokens": 1690461700.0,
      "step": 10079
    },
    {
      "entropy": 1.6951699952284496,
      "epoch": 1.1073302024113592,
      "grad_norm": 0.8104332089424133,
      "learning_rate": 9.87813278669531e-06,
      "loss": 1.3786,
      "mean_token_accuracy": 0.677444338798523,
      "num_tokens": 1690598643.0,
      "step": 10080
    },
    {
      "entropy": 1.688471108675003,
      "epoch": 1.107440059322732,
      "grad_norm": 0.5393524169921875,
      "learning_rate": 9.876544163583153e-06,
      "loss": 1.4725,
      "mean_token_accuracy": 0.6343822181224823,
      "num_tokens": 1690799088.0,
      "step": 10081
    },
    {
      "entropy": 1.683466762304306,
      "epoch": 1.1075499162341051,
      "grad_norm": 0.6404281854629517,
      "learning_rate": 9.87495557602787e-06,
      "loss": 1.386,
      "mean_token_accuracy": 0.6577825993299484,
      "num_tokens": 1690951222.0,
      "step": 10082
    },
    {
      "entropy": 1.6536591549714406,
      "epoch": 1.107659773145478,
      "grad_norm": 0.6884099245071411,
      "learning_rate": 9.873367024079728e-06,
      "loss": 1.4333,
      "mean_token_accuracy": 0.6448961248000463,
      "num_tokens": 1691125533.0,
      "step": 10083
    },
    {
      "entropy": 1.6448639531930287,
      "epoch": 1.107769630056851,
      "grad_norm": 0.583249032497406,
      "learning_rate": 9.871778507789016e-06,
      "loss": 1.4251,
      "mean_token_accuracy": 0.6626767565806707,
      "num_tokens": 1691309375.0,
      "step": 10084
    },
    {
      "entropy": 1.7260893980662029,
      "epoch": 1.1078794869682238,
      "grad_norm": 0.8317601084709167,
      "learning_rate": 9.870190027206009e-06,
      "loss": 1.4023,
      "mean_token_accuracy": 0.6650147537390391,
      "num_tokens": 1691463284.0,
      "step": 10085
    },
    {
      "entropy": 1.7166006167729695,
      "epoch": 1.107989343879597,
      "grad_norm": 0.6556655168533325,
      "learning_rate": 9.868601582380974e-06,
      "loss": 1.3163,
      "mean_token_accuracy": 0.6799081613620123,
      "num_tokens": 1691575414.0,
      "step": 10086
    },
    {
      "entropy": 1.7317289213339488,
      "epoch": 1.1080992007909698,
      "grad_norm": 0.729681134223938,
      "learning_rate": 9.867013173364191e-06,
      "loss": 1.2541,
      "mean_token_accuracy": 0.6766142894824346,
      "num_tokens": 1691669164.0,
      "step": 10087
    },
    {
      "entropy": 1.6821042597293854,
      "epoch": 1.1082090577023427,
      "grad_norm": 0.6675170063972473,
      "learning_rate": 9.865424800205931e-06,
      "loss": 1.3605,
      "mean_token_accuracy": 0.6503806213537852,
      "num_tokens": 1691815021.0,
      "step": 10088
    },
    {
      "entropy": 1.751885672410329,
      "epoch": 1.1083189146137156,
      "grad_norm": 0.5960071086883545,
      "learning_rate": 9.863836462956464e-06,
      "loss": 1.3456,
      "mean_token_accuracy": 0.6711924225091934,
      "num_tokens": 1691976476.0,
      "step": 10089
    },
    {
      "entropy": 1.684192289908727,
      "epoch": 1.1084287715250887,
      "grad_norm": 0.7027954459190369,
      "learning_rate": 9.862248161666062e-06,
      "loss": 1.4732,
      "mean_token_accuracy": 0.6473731994628906,
      "num_tokens": 1692149190.0,
      "step": 10090
    },
    {
      "entropy": 1.648518443107605,
      "epoch": 1.1085386284364616,
      "grad_norm": 0.8666717410087585,
      "learning_rate": 9.860659896384991e-06,
      "loss": 1.4343,
      "mean_token_accuracy": 0.661418413122495,
      "num_tokens": 1692355012.0,
      "step": 10091
    },
    {
      "entropy": 1.6971223453680675,
      "epoch": 1.1086484853478344,
      "grad_norm": 0.7207356095314026,
      "learning_rate": 9.859071667163523e-06,
      "loss": 1.2235,
      "mean_token_accuracy": 0.675402487317721,
      "num_tokens": 1692474814.0,
      "step": 10092
    },
    {
      "entropy": 1.699401597181956,
      "epoch": 1.1087583422592073,
      "grad_norm": 0.747488260269165,
      "learning_rate": 9.857483474051921e-06,
      "loss": 1.5966,
      "mean_token_accuracy": 0.6380815704663595,
      "num_tokens": 1692666384.0,
      "step": 10093
    },
    {
      "entropy": 1.6512778798739116,
      "epoch": 1.1088681991705802,
      "grad_norm": 0.5988063812255859,
      "learning_rate": 9.855895317100456e-06,
      "loss": 1.5544,
      "mean_token_accuracy": 0.6298639525969824,
      "num_tokens": 1692884550.0,
      "step": 10094
    },
    {
      "entropy": 1.7332661549250286,
      "epoch": 1.1089780560819533,
      "grad_norm": 0.6148350238800049,
      "learning_rate": 9.854307196359383e-06,
      "loss": 1.4389,
      "mean_token_accuracy": 0.6564859499533972,
      "num_tokens": 1693097634.0,
      "step": 10095
    },
    {
      "entropy": 1.637395977973938,
      "epoch": 1.1090879129933262,
      "grad_norm": 0.6527997255325317,
      "learning_rate": 9.852719111878973e-06,
      "loss": 1.495,
      "mean_token_accuracy": 0.6438925464948019,
      "num_tokens": 1693345822.0,
      "step": 10096
    },
    {
      "entropy": 1.7149374882380168,
      "epoch": 1.109197769904699,
      "grad_norm": 0.7964677214622498,
      "learning_rate": 9.851131063709488e-06,
      "loss": 1.3364,
      "mean_token_accuracy": 0.6784713963667551,
      "num_tokens": 1693495662.0,
      "step": 10097
    },
    {
      "entropy": 1.681052456299464,
      "epoch": 1.109307626816072,
      "grad_norm": 0.6391304135322571,
      "learning_rate": 9.849543051901187e-06,
      "loss": 1.3896,
      "mean_token_accuracy": 0.6593037992715836,
      "num_tokens": 1693661136.0,
      "step": 10098
    },
    {
      "entropy": 1.70050710439682,
      "epoch": 1.109417483727445,
      "grad_norm": 0.5992792844772339,
      "learning_rate": 9.847955076504327e-06,
      "loss": 1.3061,
      "mean_token_accuracy": 0.6639832506577173,
      "num_tokens": 1693809033.0,
      "step": 10099
    },
    {
      "entropy": 1.6677427391211193,
      "epoch": 1.109527340638818,
      "grad_norm": 0.6866241693496704,
      "learning_rate": 9.846367137569175e-06,
      "loss": 1.2431,
      "mean_token_accuracy": 0.6873250852028528,
      "num_tokens": 1693937839.0,
      "step": 10100
    },
    {
      "entropy": 1.7384430766105652,
      "epoch": 1.1096371975501909,
      "grad_norm": 0.72084641456604,
      "learning_rate": 9.844779235145975e-06,
      "loss": 1.583,
      "mean_token_accuracy": 0.6379265685876211,
      "num_tokens": 1694143956.0,
      "step": 10101
    },
    {
      "entropy": 1.7250956892967224,
      "epoch": 1.1097470544615637,
      "grad_norm": 0.5843518376350403,
      "learning_rate": 9.843191369285e-06,
      "loss": 1.3725,
      "mean_token_accuracy": 0.6559849927822748,
      "num_tokens": 1694333230.0,
      "step": 10102
    },
    {
      "entropy": 1.6686339875062306,
      "epoch": 1.1098569113729368,
      "grad_norm": 0.6618912220001221,
      "learning_rate": 9.841603540036493e-06,
      "loss": 1.2857,
      "mean_token_accuracy": 0.6752923329671224,
      "num_tokens": 1694528211.0,
      "step": 10103
    },
    {
      "entropy": 1.7217063804467518,
      "epoch": 1.1099667682843097,
      "grad_norm": 0.7229596972465515,
      "learning_rate": 9.84001574745071e-06,
      "loss": 1.3442,
      "mean_token_accuracy": 0.6586703856786092,
      "num_tokens": 1694668137.0,
      "step": 10104
    },
    {
      "entropy": 1.730820248524348,
      "epoch": 1.1100766251956826,
      "grad_norm": 0.7770981788635254,
      "learning_rate": 9.838427991577913e-06,
      "loss": 1.3819,
      "mean_token_accuracy": 0.6443741470575333,
      "num_tokens": 1694834662.0,
      "step": 10105
    },
    {
      "entropy": 1.7381211817264557,
      "epoch": 1.1101864821070555,
      "grad_norm": 0.6995685696601868,
      "learning_rate": 9.83684027246834e-06,
      "loss": 1.4073,
      "mean_token_accuracy": 0.6486761023600897,
      "num_tokens": 1694996990.0,
      "step": 10106
    },
    {
      "entropy": 1.7615481615066528,
      "epoch": 1.1102963390184284,
      "grad_norm": 0.7999100089073181,
      "learning_rate": 9.835252590172248e-06,
      "loss": 1.418,
      "mean_token_accuracy": 0.6523937930663427,
      "num_tokens": 1695161564.0,
      "step": 10107
    },
    {
      "entropy": 1.698384553194046,
      "epoch": 1.1104061959298015,
      "grad_norm": 0.766127347946167,
      "learning_rate": 9.833664944739894e-06,
      "loss": 1.3847,
      "mean_token_accuracy": 0.6614054441452026,
      "num_tokens": 1695302392.0,
      "step": 10108
    },
    {
      "entropy": 1.7386977672576904,
      "epoch": 1.1105160528411744,
      "grad_norm": 0.7259992361068726,
      "learning_rate": 9.832077336221511e-06,
      "loss": 1.4899,
      "mean_token_accuracy": 0.6413588871558508,
      "num_tokens": 1695452887.0,
      "step": 10109
    },
    {
      "entropy": 1.721059521039327,
      "epoch": 1.1106259097525473,
      "grad_norm": 0.6974899172782898,
      "learning_rate": 9.830489764667357e-06,
      "loss": 1.4765,
      "mean_token_accuracy": 0.650780513882637,
      "num_tokens": 1695615069.0,
      "step": 10110
    },
    {
      "entropy": 1.7291888693968456,
      "epoch": 1.1107357666639202,
      "grad_norm": 0.7660084366798401,
      "learning_rate": 9.828902230127675e-06,
      "loss": 1.4252,
      "mean_token_accuracy": 0.6462711741526922,
      "num_tokens": 1695760221.0,
      "step": 10111
    },
    {
      "entropy": 1.7433270911375682,
      "epoch": 1.1108456235752933,
      "grad_norm": 0.7739673852920532,
      "learning_rate": 9.827314732652708e-06,
      "loss": 1.4445,
      "mean_token_accuracy": 0.650582085053126,
      "num_tokens": 1695917595.0,
      "step": 10112
    },
    {
      "entropy": 1.6808188458283742,
      "epoch": 1.1109554804866661,
      "grad_norm": 0.7548496723175049,
      "learning_rate": 9.825727272292702e-06,
      "loss": 1.3041,
      "mean_token_accuracy": 0.6782331267992655,
      "num_tokens": 1696031484.0,
      "step": 10113
    },
    {
      "entropy": 1.7230580151081085,
      "epoch": 1.111065337398039,
      "grad_norm": 0.7264763116836548,
      "learning_rate": 9.824139849097901e-06,
      "loss": 1.3437,
      "mean_token_accuracy": 0.6618181715408961,
      "num_tokens": 1696143962.0,
      "step": 10114
    },
    {
      "entropy": 1.7376162310441334,
      "epoch": 1.111175194309412,
      "grad_norm": 0.6344247460365295,
      "learning_rate": 9.822552463118542e-06,
      "loss": 1.4366,
      "mean_token_accuracy": 0.6638104766607285,
      "num_tokens": 1696315979.0,
      "step": 10115
    },
    {
      "entropy": 1.7340149482091267,
      "epoch": 1.111285051220785,
      "grad_norm": 1.0014694929122925,
      "learning_rate": 9.820965114404866e-06,
      "loss": 1.327,
      "mean_token_accuracy": 0.6686884462833405,
      "num_tokens": 1696452363.0,
      "step": 10116
    },
    {
      "entropy": 1.6129749516646068,
      "epoch": 1.111394908132158,
      "grad_norm": 0.6101342439651489,
      "learning_rate": 9.819377803007117e-06,
      "loss": 1.3782,
      "mean_token_accuracy": 0.669797440369924,
      "num_tokens": 1696599085.0,
      "step": 10117
    },
    {
      "entropy": 1.7004303236802418,
      "epoch": 1.1115047650435308,
      "grad_norm": 0.7235705852508545,
      "learning_rate": 9.817790528975527e-06,
      "loss": 1.4595,
      "mean_token_accuracy": 0.6571828325589498,
      "num_tokens": 1696746504.0,
      "step": 10118
    },
    {
      "entropy": 1.6813008785247803,
      "epoch": 1.1116146219549037,
      "grad_norm": 0.6818208694458008,
      "learning_rate": 9.81620329236033e-06,
      "loss": 1.3373,
      "mean_token_accuracy": 0.6721784075101217,
      "num_tokens": 1696892330.0,
      "step": 10119
    },
    {
      "entropy": 1.716547667980194,
      "epoch": 1.1117244788662766,
      "grad_norm": 0.684902548789978,
      "learning_rate": 9.81461609321177e-06,
      "loss": 1.3562,
      "mean_token_accuracy": 0.6633862257003784,
      "num_tokens": 1697027411.0,
      "step": 10120
    },
    {
      "entropy": 1.7614688177903493,
      "epoch": 1.1118343357776497,
      "grad_norm": 0.6902977824211121,
      "learning_rate": 9.813028931580073e-06,
      "loss": 1.4259,
      "mean_token_accuracy": 0.6516207158565521,
      "num_tokens": 1697221211.0,
      "step": 10121
    },
    {
      "entropy": 1.7099326650301616,
      "epoch": 1.1119441926890226,
      "grad_norm": 0.7409700751304626,
      "learning_rate": 9.811441807515477e-06,
      "loss": 1.4281,
      "mean_token_accuracy": 0.6582437505324682,
      "num_tokens": 1697396444.0,
      "step": 10122
    },
    {
      "entropy": 1.6779835720856984,
      "epoch": 1.1120540496003954,
      "grad_norm": 0.621612012386322,
      "learning_rate": 9.809854721068213e-06,
      "loss": 1.4229,
      "mean_token_accuracy": 0.6485381374756495,
      "num_tokens": 1697565929.0,
      "step": 10123
    },
    {
      "entropy": 1.6557986438274384,
      "epoch": 1.1121639065117683,
      "grad_norm": 0.6872241497039795,
      "learning_rate": 9.808267672288509e-06,
      "loss": 1.3494,
      "mean_token_accuracy": 0.666273444890976,
      "num_tokens": 1697738024.0,
      "step": 10124
    },
    {
      "entropy": 1.7175208032131195,
      "epoch": 1.1122737634231414,
      "grad_norm": 0.5981009602546692,
      "learning_rate": 9.806680661226595e-06,
      "loss": 1.459,
      "mean_token_accuracy": 0.6348882069190344,
      "num_tokens": 1697938594.0,
      "step": 10125
    },
    {
      "entropy": 1.720637023448944,
      "epoch": 1.1123836203345143,
      "grad_norm": 0.7893303632736206,
      "learning_rate": 9.805093687932707e-06,
      "loss": 1.3752,
      "mean_token_accuracy": 0.6728624453147253,
      "num_tokens": 1698075068.0,
      "step": 10126
    },
    {
      "entropy": 1.7189677953720093,
      "epoch": 1.1124934772458872,
      "grad_norm": 0.7821738123893738,
      "learning_rate": 9.80350675245706e-06,
      "loss": 1.4315,
      "mean_token_accuracy": 0.653843825062116,
      "num_tokens": 1698231670.0,
      "step": 10127
    },
    {
      "entropy": 1.756723403930664,
      "epoch": 1.11260333415726,
      "grad_norm": 0.7259140610694885,
      "learning_rate": 9.801919854849884e-06,
      "loss": 1.4513,
      "mean_token_accuracy": 0.6415894875923792,
      "num_tokens": 1698432467.0,
      "step": 10128
    },
    {
      "entropy": 1.751261701186498,
      "epoch": 1.1127131910686332,
      "grad_norm": 0.6469233632087708,
      "learning_rate": 9.800332995161408e-06,
      "loss": 1.4379,
      "mean_token_accuracy": 0.6382074107726415,
      "num_tokens": 1698590937.0,
      "step": 10129
    },
    {
      "entropy": 1.735701670249303,
      "epoch": 1.112823047980006,
      "grad_norm": 0.667665421962738,
      "learning_rate": 9.798746173441852e-06,
      "loss": 1.3649,
      "mean_token_accuracy": 0.6617190291484197,
      "num_tokens": 1698784904.0,
      "step": 10130
    },
    {
      "entropy": 1.7073118388652802,
      "epoch": 1.112932904891379,
      "grad_norm": 0.8839547634124756,
      "learning_rate": 9.797159389741436e-06,
      "loss": 1.3859,
      "mean_token_accuracy": 0.6646972000598907,
      "num_tokens": 1698955976.0,
      "step": 10131
    },
    {
      "entropy": 1.6580509543418884,
      "epoch": 1.1130427618027519,
      "grad_norm": 0.6089791655540466,
      "learning_rate": 9.795572644110387e-06,
      "loss": 1.4237,
      "mean_token_accuracy": 0.6523320525884628,
      "num_tokens": 1699205226.0,
      "step": 10132
    },
    {
      "entropy": 1.7225276331106822,
      "epoch": 1.1131526187141247,
      "grad_norm": 0.6253435611724854,
      "learning_rate": 9.793985936598916e-06,
      "loss": 1.34,
      "mean_token_accuracy": 0.6591206341981888,
      "num_tokens": 1699364197.0,
      "step": 10133
    },
    {
      "entropy": 1.7497197190920513,
      "epoch": 1.1132624756254978,
      "grad_norm": 0.7956197261810303,
      "learning_rate": 9.792399267257249e-06,
      "loss": 1.4329,
      "mean_token_accuracy": 0.6548638641834259,
      "num_tokens": 1699500152.0,
      "step": 10134
    },
    {
      "entropy": 1.7095544238885243,
      "epoch": 1.1133723325368707,
      "grad_norm": 0.6860001683235168,
      "learning_rate": 9.790812636135603e-06,
      "loss": 1.5067,
      "mean_token_accuracy": 0.6451443135738373,
      "num_tokens": 1699661286.0,
      "step": 10135
    },
    {
      "entropy": 1.6957333187262218,
      "epoch": 1.1134821894482436,
      "grad_norm": 0.7276600003242493,
      "learning_rate": 9.78922604328419e-06,
      "loss": 1.5212,
      "mean_token_accuracy": 0.6416138807932535,
      "num_tokens": 1699844103.0,
      "step": 10136
    },
    {
      "entropy": 1.7566113372643788,
      "epoch": 1.1135920463596165,
      "grad_norm": 0.7104360461235046,
      "learning_rate": 9.787639488753224e-06,
      "loss": 1.4888,
      "mean_token_accuracy": 0.6481777926286062,
      "num_tokens": 1699984609.0,
      "step": 10137
    },
    {
      "entropy": 1.6825304627418518,
      "epoch": 1.1137019032709896,
      "grad_norm": 0.8023889064788818,
      "learning_rate": 9.78605297259293e-06,
      "loss": 1.2334,
      "mean_token_accuracy": 0.6820906003316244,
      "num_tokens": 1700098327.0,
      "step": 10138
    },
    {
      "entropy": 1.673277239004771,
      "epoch": 1.1138117601823625,
      "grad_norm": 0.7964149117469788,
      "learning_rate": 9.784466494853507e-06,
      "loss": 1.3369,
      "mean_token_accuracy": 0.6647952695687612,
      "num_tokens": 1700260846.0,
      "step": 10139
    },
    {
      "entropy": 1.6351796289285023,
      "epoch": 1.1139216170937354,
      "grad_norm": 0.6151949763298035,
      "learning_rate": 9.782880055585171e-06,
      "loss": 1.5037,
      "mean_token_accuracy": 0.640854095419248,
      "num_tokens": 1700482399.0,
      "step": 10140
    },
    {
      "entropy": 1.7372311453024547,
      "epoch": 1.1140314740051083,
      "grad_norm": 0.8570227026939392,
      "learning_rate": 9.781293654838137e-06,
      "loss": 1.4559,
      "mean_token_accuracy": 0.6682560443878174,
      "num_tokens": 1700618804.0,
      "step": 10141
    },
    {
      "entropy": 1.6593137284119923,
      "epoch": 1.1141413309164814,
      "grad_norm": 0.5903623700141907,
      "learning_rate": 9.779707292662605e-06,
      "loss": 1.3958,
      "mean_token_accuracy": 0.6583308031161627,
      "num_tokens": 1700820971.0,
      "step": 10142
    },
    {
      "entropy": 1.6421323815981548,
      "epoch": 1.1142511878278543,
      "grad_norm": 0.6660314798355103,
      "learning_rate": 9.778120969108791e-06,
      "loss": 1.2946,
      "mean_token_accuracy": 0.6711133569478989,
      "num_tokens": 1700977095.0,
      "step": 10143
    },
    {
      "entropy": 1.629296710093816,
      "epoch": 1.1143610447392271,
      "grad_norm": 0.6648311018943787,
      "learning_rate": 9.776534684226898e-06,
      "loss": 1.4811,
      "mean_token_accuracy": 0.6564251184463501,
      "num_tokens": 1701153164.0,
      "step": 10144
    },
    {
      "entropy": 1.746991515159607,
      "epoch": 1.1144709016506,
      "grad_norm": 0.7114366888999939,
      "learning_rate": 9.774948438067127e-06,
      "loss": 1.347,
      "mean_token_accuracy": 0.6591640909512838,
      "num_tokens": 1701290473.0,
      "step": 10145
    },
    {
      "entropy": 1.7070113221804302,
      "epoch": 1.114580758561973,
      "grad_norm": 0.7355979681015015,
      "learning_rate": 9.773362230679685e-06,
      "loss": 1.5335,
      "mean_token_accuracy": 0.6442695558071136,
      "num_tokens": 1701450663.0,
      "step": 10146
    },
    {
      "entropy": 1.7952332894007366,
      "epoch": 1.114690615473346,
      "grad_norm": 0.7171587347984314,
      "learning_rate": 9.771776062114782e-06,
      "loss": 1.5082,
      "mean_token_accuracy": 0.6332686841487885,
      "num_tokens": 1701691000.0,
      "step": 10147
    },
    {
      "entropy": 1.7332034011681874,
      "epoch": 1.114800472384719,
      "grad_norm": 0.6650365591049194,
      "learning_rate": 9.77018993242261e-06,
      "loss": 1.3343,
      "mean_token_accuracy": 0.6661591629187266,
      "num_tokens": 1701854437.0,
      "step": 10148
    },
    {
      "entropy": 1.7049450874328613,
      "epoch": 1.1149103292960918,
      "grad_norm": 0.6518258452415466,
      "learning_rate": 9.76860384165337e-06,
      "loss": 1.2154,
      "mean_token_accuracy": 0.6860535194476446,
      "num_tokens": 1702016466.0,
      "step": 10149
    },
    {
      "entropy": 1.6941988567511241,
      "epoch": 1.1150201862074647,
      "grad_norm": 0.6656258702278137,
      "learning_rate": 9.76701778985727e-06,
      "loss": 1.4502,
      "mean_token_accuracy": 0.6606006671984991,
      "num_tokens": 1702179287.0,
      "step": 10150
    },
    {
      "entropy": 1.6935183207194011,
      "epoch": 1.1151300431188378,
      "grad_norm": 0.7154098749160767,
      "learning_rate": 9.765431777084495e-06,
      "loss": 1.2172,
      "mean_token_accuracy": 0.6906551122665405,
      "num_tokens": 1702313501.0,
      "step": 10151
    },
    {
      "entropy": 1.7146691580613453,
      "epoch": 1.1152399000302107,
      "grad_norm": 0.7676160335540771,
      "learning_rate": 9.763845803385247e-06,
      "loss": 1.5107,
      "mean_token_accuracy": 0.664627286295096,
      "num_tokens": 1702453001.0,
      "step": 10152
    },
    {
      "entropy": 1.6825979848702748,
      "epoch": 1.1153497569415836,
      "grad_norm": 0.5976483225822449,
      "learning_rate": 9.76225986880973e-06,
      "loss": 1.537,
      "mean_token_accuracy": 0.636245513955752,
      "num_tokens": 1702684575.0,
      "step": 10153
    },
    {
      "entropy": 1.6788121958573659,
      "epoch": 1.1154596138529564,
      "grad_norm": 0.6797428131103516,
      "learning_rate": 9.760673973408124e-06,
      "loss": 1.2018,
      "mean_token_accuracy": 0.6839652607838312,
      "num_tokens": 1702832136.0,
      "step": 10154
    },
    {
      "entropy": 1.6775270501772563,
      "epoch": 1.1155694707643296,
      "grad_norm": 0.7173194885253906,
      "learning_rate": 9.75908811723063e-06,
      "loss": 1.3752,
      "mean_token_accuracy": 0.6599200914303461,
      "num_tokens": 1702990937.0,
      "step": 10155
    },
    {
      "entropy": 1.6935907403628032,
      "epoch": 1.1156793276757024,
      "grad_norm": 0.7358232140541077,
      "learning_rate": 9.757502300327439e-06,
      "loss": 1.2976,
      "mean_token_accuracy": 0.6701224446296692,
      "num_tokens": 1703131461.0,
      "step": 10156
    },
    {
      "entropy": 1.6839358309904735,
      "epoch": 1.1157891845870753,
      "grad_norm": 0.7180026173591614,
      "learning_rate": 9.755916522748738e-06,
      "loss": 1.3543,
      "mean_token_accuracy": 0.6787949800491333,
      "num_tokens": 1703265354.0,
      "step": 10157
    },
    {
      "entropy": 1.7061149676640828,
      "epoch": 1.1158990414984482,
      "grad_norm": 0.7453353404998779,
      "learning_rate": 9.754330784544719e-06,
      "loss": 1.3589,
      "mean_token_accuracy": 0.6774944067001343,
      "num_tokens": 1703403406.0,
      "step": 10158
    },
    {
      "entropy": 1.6841832200686138,
      "epoch": 1.116008898409821,
      "grad_norm": 0.7039199471473694,
      "learning_rate": 9.752745085765571e-06,
      "loss": 1.4147,
      "mean_token_accuracy": 0.6500913898150126,
      "num_tokens": 1703568329.0,
      "step": 10159
    },
    {
      "entropy": 1.7383232315381367,
      "epoch": 1.1161187553211942,
      "grad_norm": 0.6420716047286987,
      "learning_rate": 9.751159426461479e-06,
      "loss": 1.5264,
      "mean_token_accuracy": 0.6397146930297216,
      "num_tokens": 1703758280.0,
      "step": 10160
    },
    {
      "entropy": 1.7103537619113922,
      "epoch": 1.116228612232567,
      "grad_norm": 0.7599209547042847,
      "learning_rate": 9.749573806682629e-06,
      "loss": 1.5267,
      "mean_token_accuracy": 0.6386250903209051,
      "num_tokens": 1703928952.0,
      "step": 10161
    },
    {
      "entropy": 1.6944385866324108,
      "epoch": 1.11633846914394,
      "grad_norm": 0.6873871684074402,
      "learning_rate": 9.747988226479203e-06,
      "loss": 1.3201,
      "mean_token_accuracy": 0.6644426584243774,
      "num_tokens": 1704065206.0,
      "step": 10162
    },
    {
      "entropy": 1.65885129570961,
      "epoch": 1.1164483260553129,
      "grad_norm": 0.62119460105896,
      "learning_rate": 9.746402685901384e-06,
      "loss": 1.409,
      "mean_token_accuracy": 0.6450504660606384,
      "num_tokens": 1704239787.0,
      "step": 10163
    },
    {
      "entropy": 1.6746040880680084,
      "epoch": 1.116558182966686,
      "grad_norm": 0.6383149027824402,
      "learning_rate": 9.74481718499936e-06,
      "loss": 1.401,
      "mean_token_accuracy": 0.6668302963177363,
      "num_tokens": 1704427935.0,
      "step": 10164
    },
    {
      "entropy": 1.7026494840780895,
      "epoch": 1.1166680398780588,
      "grad_norm": 0.6862279772758484,
      "learning_rate": 9.743231723823301e-06,
      "loss": 1.3652,
      "mean_token_accuracy": 0.6631535540024439,
      "num_tokens": 1704561300.0,
      "step": 10165
    },
    {
      "entropy": 1.6878803571065266,
      "epoch": 1.1167778967894317,
      "grad_norm": 1.0565212965011597,
      "learning_rate": 9.741646302423392e-06,
      "loss": 1.5243,
      "mean_token_accuracy": 0.6648477713267008,
      "num_tokens": 1704716778.0,
      "step": 10166
    },
    {
      "entropy": 1.774049351612727,
      "epoch": 1.1168877537008046,
      "grad_norm": 0.6734504103660583,
      "learning_rate": 9.740060920849816e-06,
      "loss": 1.4133,
      "mean_token_accuracy": 0.6444449126720428,
      "num_tokens": 1704906978.0,
      "step": 10167
    },
    {
      "entropy": 1.7018288373947144,
      "epoch": 1.1169976106121777,
      "grad_norm": 0.5699096322059631,
      "learning_rate": 9.73847557915274e-06,
      "loss": 1.3479,
      "mean_token_accuracy": 0.6530384172995886,
      "num_tokens": 1705118342.0,
      "step": 10168
    },
    {
      "entropy": 1.7284921209017436,
      "epoch": 1.1171074675235506,
      "grad_norm": 0.6984654068946838,
      "learning_rate": 9.73689027738234e-06,
      "loss": 1.5368,
      "mean_token_accuracy": 0.6358341524998347,
      "num_tokens": 1705278596.0,
      "step": 10169
    },
    {
      "entropy": 1.7392705778280895,
      "epoch": 1.1172173244349235,
      "grad_norm": 0.6023355722427368,
      "learning_rate": 9.735305015588803e-06,
      "loss": 1.4588,
      "mean_token_accuracy": 0.6480032652616501,
      "num_tokens": 1705479803.0,
      "step": 10170
    },
    {
      "entropy": 1.6727214256922405,
      "epoch": 1.1173271813462964,
      "grad_norm": 0.708677351474762,
      "learning_rate": 9.733719793822285e-06,
      "loss": 1.3237,
      "mean_token_accuracy": 0.6617665340503057,
      "num_tokens": 1705612132.0,
      "step": 10171
    },
    {
      "entropy": 1.7155958612759907,
      "epoch": 1.1174370382576693,
      "grad_norm": 0.6951910853385925,
      "learning_rate": 9.732134612132967e-06,
      "loss": 1.5166,
      "mean_token_accuracy": 0.6467616135875384,
      "num_tokens": 1705786778.0,
      "step": 10172
    },
    {
      "entropy": 1.7597291270891826,
      "epoch": 1.1175468951690424,
      "grad_norm": 0.8650582432746887,
      "learning_rate": 9.730549470571017e-06,
      "loss": 1.3505,
      "mean_token_accuracy": 0.667744422952334,
      "num_tokens": 1705918795.0,
      "step": 10173
    },
    {
      "entropy": 1.7015631298224132,
      "epoch": 1.1176567520804153,
      "grad_norm": 0.6916826367378235,
      "learning_rate": 9.728964369186604e-06,
      "loss": 1.4126,
      "mean_token_accuracy": 0.6624699632326762,
      "num_tokens": 1706077148.0,
      "step": 10174
    },
    {
      "entropy": 1.6976262032985687,
      "epoch": 1.1177666089917881,
      "grad_norm": 0.6640357375144958,
      "learning_rate": 9.727379308029894e-06,
      "loss": 1.2898,
      "mean_token_accuracy": 0.6710817664861679,
      "num_tokens": 1706214005.0,
      "step": 10175
    },
    {
      "entropy": 1.6960356036822002,
      "epoch": 1.117876465903161,
      "grad_norm": 0.6526516675949097,
      "learning_rate": 9.72579428715106e-06,
      "loss": 1.4422,
      "mean_token_accuracy": 0.6493511895338694,
      "num_tokens": 1706416877.0,
      "step": 10176
    },
    {
      "entropy": 1.7513096928596497,
      "epoch": 1.1179863228145341,
      "grad_norm": 0.6430375576019287,
      "learning_rate": 9.724209306600259e-06,
      "loss": 1.365,
      "mean_token_accuracy": 0.668521781762441,
      "num_tokens": 1706557592.0,
      "step": 10177
    },
    {
      "entropy": 1.6746535897254944,
      "epoch": 1.118096179725907,
      "grad_norm": 0.6057274341583252,
      "learning_rate": 9.72262436642766e-06,
      "loss": 1.3255,
      "mean_token_accuracy": 0.6679912606875101,
      "num_tokens": 1706756422.0,
      "step": 10178
    },
    {
      "entropy": 1.7983420590559642,
      "epoch": 1.11820603663728,
      "grad_norm": 0.7294691205024719,
      "learning_rate": 9.721039466683425e-06,
      "loss": 1.4899,
      "mean_token_accuracy": 0.6450391262769699,
      "num_tokens": 1706915673.0,
      "step": 10179
    },
    {
      "entropy": 1.6967030266920726,
      "epoch": 1.1183158935486528,
      "grad_norm": 2.2237155437469482,
      "learning_rate": 9.719454607417713e-06,
      "loss": 1.1928,
      "mean_token_accuracy": 0.6813047230243683,
      "num_tokens": 1707094039.0,
      "step": 10180
    },
    {
      "entropy": 1.684626470009486,
      "epoch": 1.118425750460026,
      "grad_norm": 0.637450635433197,
      "learning_rate": 9.717869788680686e-06,
      "loss": 1.4283,
      "mean_token_accuracy": 0.6514883587757746,
      "num_tokens": 1707258674.0,
      "step": 10181
    },
    {
      "entropy": 1.7461927036444347,
      "epoch": 1.1185356073713988,
      "grad_norm": 0.7752982378005981,
      "learning_rate": 9.716285010522507e-06,
      "loss": 1.29,
      "mean_token_accuracy": 0.6688565959533056,
      "num_tokens": 1707367308.0,
      "step": 10182
    },
    {
      "entropy": 1.6707812150319417,
      "epoch": 1.1186454642827717,
      "grad_norm": 0.6544961929321289,
      "learning_rate": 9.71470027299332e-06,
      "loss": 1.5234,
      "mean_token_accuracy": 0.6454186936219534,
      "num_tokens": 1707582766.0,
      "step": 10183
    },
    {
      "entropy": 1.6422998011112213,
      "epoch": 1.1187553211941446,
      "grad_norm": 0.6208282709121704,
      "learning_rate": 9.713115576143294e-06,
      "loss": 1.4995,
      "mean_token_accuracy": 0.6404968003431956,
      "num_tokens": 1707802739.0,
      "step": 10184
    },
    {
      "entropy": 1.7650231917699177,
      "epoch": 1.1188651781055177,
      "grad_norm": 0.7994515895843506,
      "learning_rate": 9.711530920022583e-06,
      "loss": 1.3585,
      "mean_token_accuracy": 0.6573351373275121,
      "num_tokens": 1707927893.0,
      "step": 10185
    },
    {
      "entropy": 1.650092860062917,
      "epoch": 1.1189750350168906,
      "grad_norm": 0.6611128449440002,
      "learning_rate": 9.709946304681337e-06,
      "loss": 1.3735,
      "mean_token_accuracy": 0.654491126537323,
      "num_tokens": 1708061832.0,
      "step": 10186
    },
    {
      "entropy": 1.6721069812774658,
      "epoch": 1.1190848919282634,
      "grad_norm": 0.608931303024292,
      "learning_rate": 9.708361730169704e-06,
      "loss": 1.3893,
      "mean_token_accuracy": 0.6576156516869863,
      "num_tokens": 1708203863.0,
      "step": 10187
    },
    {
      "entropy": 1.720770001411438,
      "epoch": 1.1191947488396363,
      "grad_norm": 0.6923795342445374,
      "learning_rate": 9.706777196537848e-06,
      "loss": 1.422,
      "mean_token_accuracy": 0.6553168892860413,
      "num_tokens": 1708401936.0,
      "step": 10188
    },
    {
      "entropy": 1.7493318518002827,
      "epoch": 1.1193046057510092,
      "grad_norm": 0.7753176093101501,
      "learning_rate": 9.705192703835905e-06,
      "loss": 1.336,
      "mean_token_accuracy": 0.6591468950112661,
      "num_tokens": 1708521454.0,
      "step": 10189
    },
    {
      "entropy": 1.7393775284290314,
      "epoch": 1.1194144626623823,
      "grad_norm": 0.7612557411193848,
      "learning_rate": 9.703608252114032e-06,
      "loss": 1.3429,
      "mean_token_accuracy": 0.6587264835834503,
      "num_tokens": 1708653355.0,
      "step": 10190
    },
    {
      "entropy": 1.6912192503611247,
      "epoch": 1.1195243195737552,
      "grad_norm": 0.6567522883415222,
      "learning_rate": 9.702023841422375e-06,
      "loss": 1.4079,
      "mean_token_accuracy": 0.6546053836743037,
      "num_tokens": 1708820340.0,
      "step": 10191
    },
    {
      "entropy": 1.651652197043101,
      "epoch": 1.119634176485128,
      "grad_norm": 0.5810186862945557,
      "learning_rate": 9.700439471811076e-06,
      "loss": 1.411,
      "mean_token_accuracy": 0.642088994383812,
      "num_tokens": 1709066402.0,
      "step": 10192
    },
    {
      "entropy": 1.6859426498413086,
      "epoch": 1.119744033396501,
      "grad_norm": 0.7347911596298218,
      "learning_rate": 9.698855143330279e-06,
      "loss": 1.3373,
      "mean_token_accuracy": 0.6684578359127045,
      "num_tokens": 1709226238.0,
      "step": 10193
    },
    {
      "entropy": 1.7300080160299938,
      "epoch": 1.119853890307874,
      "grad_norm": 0.5946059823036194,
      "learning_rate": 9.697270856030139e-06,
      "loss": 1.4268,
      "mean_token_accuracy": 0.641315350929896,
      "num_tokens": 1709429497.0,
      "step": 10194
    },
    {
      "entropy": 1.7237819532553356,
      "epoch": 1.119963747219247,
      "grad_norm": 0.6461696624755859,
      "learning_rate": 9.695686609960781e-06,
      "loss": 1.3313,
      "mean_token_accuracy": 0.6617699911197027,
      "num_tokens": 1709578553.0,
      "step": 10195
    },
    {
      "entropy": 1.7087758978207905,
      "epoch": 1.1200736041306198,
      "grad_norm": 0.6898693442344666,
      "learning_rate": 9.694102405172359e-06,
      "loss": 1.5797,
      "mean_token_accuracy": 0.6312484840552012,
      "num_tokens": 1709792879.0,
      "step": 10196
    },
    {
      "entropy": 1.7287095288435619,
      "epoch": 1.1201834610419927,
      "grad_norm": 0.6966397166252136,
      "learning_rate": 9.692518241715007e-06,
      "loss": 1.4683,
      "mean_token_accuracy": 0.642145057519277,
      "num_tokens": 1709980761.0,
      "step": 10197
    },
    {
      "entropy": 1.6889378329118092,
      "epoch": 1.1202933179533658,
      "grad_norm": 0.7332677245140076,
      "learning_rate": 9.690934119638864e-06,
      "loss": 1.3267,
      "mean_token_accuracy": 0.670543372631073,
      "num_tokens": 1710162953.0,
      "step": 10198
    },
    {
      "entropy": 1.7048714061578114,
      "epoch": 1.1204031748647387,
      "grad_norm": 0.643816351890564,
      "learning_rate": 9.68935003899406e-06,
      "loss": 1.483,
      "mean_token_accuracy": 0.6404896924893061,
      "num_tokens": 1710319457.0,
      "step": 10199
    },
    {
      "entropy": 1.758160392443339,
      "epoch": 1.1205130317761116,
      "grad_norm": 0.7269825339317322,
      "learning_rate": 9.687765999830747e-06,
      "loss": 1.4181,
      "mean_token_accuracy": 0.6542981912692388,
      "num_tokens": 1710487316.0,
      "step": 10200
    },
    {
      "entropy": 1.6718091368675232,
      "epoch": 1.1206228886874845,
      "grad_norm": 0.6098527908325195,
      "learning_rate": 9.686182002199043e-06,
      "loss": 1.3717,
      "mean_token_accuracy": 0.6548734953006109,
      "num_tokens": 1710721505.0,
      "step": 10201
    },
    {
      "entropy": 1.658282607793808,
      "epoch": 1.1207327455988576,
      "grad_norm": 0.7469896078109741,
      "learning_rate": 9.684598046149086e-06,
      "loss": 1.3578,
      "mean_token_accuracy": 0.6641291330258051,
      "num_tokens": 1710872364.0,
      "step": 10202
    },
    {
      "entropy": 1.6753500401973724,
      "epoch": 1.1208426025102305,
      "grad_norm": 0.6354155540466309,
      "learning_rate": 9.68301413173101e-06,
      "loss": 1.3854,
      "mean_token_accuracy": 0.6567136198282242,
      "num_tokens": 1711009667.0,
      "step": 10203
    },
    {
      "entropy": 1.7254823247591655,
      "epoch": 1.1209524594216034,
      "grad_norm": 0.8729540109634399,
      "learning_rate": 9.681430258994942e-06,
      "loss": 1.5197,
      "mean_token_accuracy": 0.6521262973546982,
      "num_tokens": 1711175837.0,
      "step": 10204
    },
    {
      "entropy": 1.7196756303310394,
      "epoch": 1.1210623163329763,
      "grad_norm": 0.9252813458442688,
      "learning_rate": 9.67984642799101e-06,
      "loss": 1.5275,
      "mean_token_accuracy": 0.6681269109249115,
      "num_tokens": 1711325831.0,
      "step": 10205
    },
    {
      "entropy": 1.6983699103196461,
      "epoch": 1.1211721732443491,
      "grad_norm": 1.3726911544799805,
      "learning_rate": 9.67826263876935e-06,
      "loss": 1.3746,
      "mean_token_accuracy": 0.6633789986371994,
      "num_tokens": 1711546558.0,
      "step": 10206
    },
    {
      "entropy": 1.7186132570107777,
      "epoch": 1.1212820301557223,
      "grad_norm": 0.6234872937202454,
      "learning_rate": 9.676678891380075e-06,
      "loss": 1.564,
      "mean_token_accuracy": 0.643887793024381,
      "num_tokens": 1711737822.0,
      "step": 10207
    },
    {
      "entropy": 1.7215098639329274,
      "epoch": 1.1213918870670951,
      "grad_norm": 0.6350100040435791,
      "learning_rate": 9.67509518587332e-06,
      "loss": 1.4629,
      "mean_token_accuracy": 0.627614696820577,
      "num_tokens": 1711928499.0,
      "step": 10208
    },
    {
      "entropy": 1.6704553961753845,
      "epoch": 1.121501743978468,
      "grad_norm": 0.8866394758224487,
      "learning_rate": 9.673511522299206e-06,
      "loss": 1.2698,
      "mean_token_accuracy": 0.6800111383199692,
      "num_tokens": 1712068332.0,
      "step": 10209
    },
    {
      "entropy": 1.6835826337337494,
      "epoch": 1.121611600889841,
      "grad_norm": 0.787550151348114,
      "learning_rate": 9.671927900707853e-06,
      "loss": 1.3623,
      "mean_token_accuracy": 0.6513439963261286,
      "num_tokens": 1712231679.0,
      "step": 10210
    },
    {
      "entropy": 1.658888618151347,
      "epoch": 1.121721457801214,
      "grad_norm": 0.6265230774879456,
      "learning_rate": 9.670344321149382e-06,
      "loss": 1.3855,
      "mean_token_accuracy": 0.6652615120013555,
      "num_tokens": 1712419094.0,
      "step": 10211
    },
    {
      "entropy": 1.701241821050644,
      "epoch": 1.121831314712587,
      "grad_norm": 0.6618353724479675,
      "learning_rate": 9.66876078367392e-06,
      "loss": 1.2214,
      "mean_token_accuracy": 0.6815350999434789,
      "num_tokens": 1712520934.0,
      "step": 10212
    },
    {
      "entropy": 1.674480825662613,
      "epoch": 1.1219411716239598,
      "grad_norm": 1.002471685409546,
      "learning_rate": 9.667177288331575e-06,
      "loss": 1.4104,
      "mean_token_accuracy": 0.6764763842026392,
      "num_tokens": 1712659842.0,
      "step": 10213
    },
    {
      "entropy": 1.7319279114405315,
      "epoch": 1.1220510285353327,
      "grad_norm": 0.7504306435585022,
      "learning_rate": 9.665593835172469e-06,
      "loss": 1.5625,
      "mean_token_accuracy": 0.6419167965650558,
      "num_tokens": 1712808419.0,
      "step": 10214
    },
    {
      "entropy": 1.7441862523555756,
      "epoch": 1.1221608854467058,
      "grad_norm": 0.771921694278717,
      "learning_rate": 9.664010424246718e-06,
      "loss": 1.4994,
      "mean_token_accuracy": 0.6410591999689738,
      "num_tokens": 1713000413.0,
      "step": 10215
    },
    {
      "entropy": 1.680644154548645,
      "epoch": 1.1222707423580787,
      "grad_norm": 0.6322289109230042,
      "learning_rate": 9.662427055604433e-06,
      "loss": 1.4454,
      "mean_token_accuracy": 0.6500407656033834,
      "num_tokens": 1713179456.0,
      "step": 10216
    },
    {
      "entropy": 1.72195503115654,
      "epoch": 1.1223805992694516,
      "grad_norm": 0.7085158824920654,
      "learning_rate": 9.66084372929573e-06,
      "loss": 1.2239,
      "mean_token_accuracy": 0.6777483820915222,
      "num_tokens": 1713317703.0,
      "step": 10217
    },
    {
      "entropy": 1.6902472376823425,
      "epoch": 1.1224904561808244,
      "grad_norm": 0.7547399997711182,
      "learning_rate": 9.659260445370721e-06,
      "loss": 1.2484,
      "mean_token_accuracy": 0.6817424396673838,
      "num_tokens": 1713448541.0,
      "step": 10218
    },
    {
      "entropy": 1.719992220401764,
      "epoch": 1.1226003130921973,
      "grad_norm": 0.7051261067390442,
      "learning_rate": 9.65767720387951e-06,
      "loss": 1.408,
      "mean_token_accuracy": 0.6687562465667725,
      "num_tokens": 1713608815.0,
      "step": 10219
    },
    {
      "entropy": 1.7180972397327423,
      "epoch": 1.1227101700035704,
      "grad_norm": 0.7280387878417969,
      "learning_rate": 9.656094004872214e-06,
      "loss": 1.4462,
      "mean_token_accuracy": 0.6457540740569433,
      "num_tokens": 1713764991.0,
      "step": 10220
    },
    {
      "entropy": 1.7479403515656788,
      "epoch": 1.1228200269149433,
      "grad_norm": 0.7459531426429749,
      "learning_rate": 9.65451084839894e-06,
      "loss": 1.4455,
      "mean_token_accuracy": 0.6594701160987219,
      "num_tokens": 1713947251.0,
      "step": 10221
    },
    {
      "entropy": 1.662820319334666,
      "epoch": 1.1229298838263162,
      "grad_norm": 0.7663895487785339,
      "learning_rate": 9.652927734509785e-06,
      "loss": 1.2602,
      "mean_token_accuracy": 0.6720548172791799,
      "num_tokens": 1714098388.0,
      "step": 10222
    },
    {
      "entropy": 1.6706760227680206,
      "epoch": 1.123039740737689,
      "grad_norm": 0.7139101624488831,
      "learning_rate": 9.651344663254867e-06,
      "loss": 1.2496,
      "mean_token_accuracy": 0.6699910461902618,
      "num_tokens": 1714223112.0,
      "step": 10223
    },
    {
      "entropy": 1.7492280701796215,
      "epoch": 1.1231495976490622,
      "grad_norm": 0.7086498141288757,
      "learning_rate": 9.649761634684278e-06,
      "loss": 1.3808,
      "mean_token_accuracy": 0.6561706811189651,
      "num_tokens": 1714384472.0,
      "step": 10224
    },
    {
      "entropy": 1.7483586271603901,
      "epoch": 1.123259454560435,
      "grad_norm": 0.7158522605895996,
      "learning_rate": 9.648178648848124e-06,
      "loss": 1.336,
      "mean_token_accuracy": 0.6585302899281184,
      "num_tokens": 1714505046.0,
      "step": 10225
    },
    {
      "entropy": 1.727395882209142,
      "epoch": 1.123369311471808,
      "grad_norm": 0.713912844657898,
      "learning_rate": 9.646595705796512e-06,
      "loss": 1.5567,
      "mean_token_accuracy": 0.622910718123118,
      "num_tokens": 1714731130.0,
      "step": 10226
    },
    {
      "entropy": 1.655521293481191,
      "epoch": 1.1234791683831808,
      "grad_norm": 0.6293887495994568,
      "learning_rate": 9.64501280557953e-06,
      "loss": 1.3659,
      "mean_token_accuracy": 0.6622976015011469,
      "num_tokens": 1714907443.0,
      "step": 10227
    },
    {
      "entropy": 1.7207797865072887,
      "epoch": 1.123589025294554,
      "grad_norm": 0.6388752460479736,
      "learning_rate": 9.643429948247285e-06,
      "loss": 1.4711,
      "mean_token_accuracy": 0.6455638408660889,
      "num_tokens": 1715072791.0,
      "step": 10228
    },
    {
      "entropy": 1.7234470546245575,
      "epoch": 1.1236988822059268,
      "grad_norm": 0.733909547328949,
      "learning_rate": 9.641847133849871e-06,
      "loss": 1.3224,
      "mean_token_accuracy": 0.6681032180786133,
      "num_tokens": 1715205714.0,
      "step": 10229
    },
    {
      "entropy": 1.6593499183654785,
      "epoch": 1.1238087391172997,
      "grad_norm": 0.7304568290710449,
      "learning_rate": 9.640264362437383e-06,
      "loss": 1.3619,
      "mean_token_accuracy": 0.6740380873282751,
      "num_tokens": 1715356891.0,
      "step": 10230
    },
    {
      "entropy": 1.6985628008842468,
      "epoch": 1.1239185960286726,
      "grad_norm": 0.7651453614234924,
      "learning_rate": 9.638681634059912e-06,
      "loss": 1.329,
      "mean_token_accuracy": 0.6615240027507147,
      "num_tokens": 1715495634.0,
      "step": 10231
    },
    {
      "entropy": 1.7773073414961498,
      "epoch": 1.1240284529400455,
      "grad_norm": 0.8025757074356079,
      "learning_rate": 9.63709894876756e-06,
      "loss": 1.4464,
      "mean_token_accuracy": 0.6638560245434443,
      "num_tokens": 1715615936.0,
      "step": 10232
    },
    {
      "entropy": 1.703110893567403,
      "epoch": 1.1241383098514186,
      "grad_norm": 0.7909550666809082,
      "learning_rate": 9.63551630661041e-06,
      "loss": 1.3458,
      "mean_token_accuracy": 0.6680939247210821,
      "num_tokens": 1715769008.0,
      "step": 10233
    },
    {
      "entropy": 1.720233827829361,
      "epoch": 1.1242481667627915,
      "grad_norm": 0.7866725921630859,
      "learning_rate": 9.633933707638549e-06,
      "loss": 1.3118,
      "mean_token_accuracy": 0.6679093490044276,
      "num_tokens": 1715904405.0,
      "step": 10234
    },
    {
      "entropy": 1.7014137109120686,
      "epoch": 1.1243580236741644,
      "grad_norm": 0.9128050804138184,
      "learning_rate": 9.632351151902078e-06,
      "loss": 1.4969,
      "mean_token_accuracy": 0.6651032914717993,
      "num_tokens": 1716056585.0,
      "step": 10235
    },
    {
      "entropy": 1.7811519304911296,
      "epoch": 1.1244678805855373,
      "grad_norm": 0.6634161472320557,
      "learning_rate": 9.630768639451074e-06,
      "loss": 1.5714,
      "mean_token_accuracy": 0.6314926048119863,
      "num_tokens": 1716297004.0,
      "step": 10236
    },
    {
      "entropy": 1.6649401287237804,
      "epoch": 1.1245777374969104,
      "grad_norm": 0.9859393239021301,
      "learning_rate": 9.629186170335623e-06,
      "loss": 1.4163,
      "mean_token_accuracy": 0.6583981762329737,
      "num_tokens": 1716441728.0,
      "step": 10237
    },
    {
      "entropy": 1.6984333594640095,
      "epoch": 1.1246875944082833,
      "grad_norm": 0.5795386433601379,
      "learning_rate": 9.627603744605816e-06,
      "loss": 1.3759,
      "mean_token_accuracy": 0.6487035552660624,
      "num_tokens": 1716646155.0,
      "step": 10238
    },
    {
      "entropy": 1.7283507784207661,
      "epoch": 1.1247974513196561,
      "grad_norm": 0.6568630337715149,
      "learning_rate": 9.626021362311728e-06,
      "loss": 1.4842,
      "mean_token_accuracy": 0.6527669827143351,
      "num_tokens": 1716845898.0,
      "step": 10239
    },
    {
      "entropy": 1.672084202369054,
      "epoch": 1.124907308231029,
      "grad_norm": 1.0509593486785889,
      "learning_rate": 9.624439023503447e-06,
      "loss": 1.4772,
      "mean_token_accuracy": 0.6506913155317307,
      "num_tokens": 1717018504.0,
      "step": 10240
    },
    {
      "entropy": 1.747216780980428,
      "epoch": 1.1250171651424021,
      "grad_norm": 0.6140730977058411,
      "learning_rate": 9.62285672823105e-06,
      "loss": 1.509,
      "mean_token_accuracy": 0.6518428673346838,
      "num_tokens": 1717198945.0,
      "step": 10241
    },
    {
      "entropy": 1.7177268067995708,
      "epoch": 1.125127022053775,
      "grad_norm": 0.6890478730201721,
      "learning_rate": 9.62127447654462e-06,
      "loss": 1.3421,
      "mean_token_accuracy": 0.6564944684505463,
      "num_tokens": 1717368940.0,
      "step": 10242
    },
    {
      "entropy": 1.7818762163321178,
      "epoch": 1.125236878965148,
      "grad_norm": 0.7375714778900146,
      "learning_rate": 9.619692268494227e-06,
      "loss": 1.4952,
      "mean_token_accuracy": 0.653364305694898,
      "num_tokens": 1717525260.0,
      "step": 10243
    },
    {
      "entropy": 1.7333811124165852,
      "epoch": 1.1253467358765208,
      "grad_norm": 0.8810262084007263,
      "learning_rate": 9.618110104129959e-06,
      "loss": 1.2485,
      "mean_token_accuracy": 0.673724964261055,
      "num_tokens": 1717622207.0,
      "step": 10244
    },
    {
      "entropy": 1.7475936810175579,
      "epoch": 1.1254565927878937,
      "grad_norm": 0.7619924545288086,
      "learning_rate": 9.616527983501875e-06,
      "loss": 1.3755,
      "mean_token_accuracy": 0.6646767059961954,
      "num_tokens": 1717792417.0,
      "step": 10245
    },
    {
      "entropy": 1.6934519012769063,
      "epoch": 1.1255664496992668,
      "grad_norm": 0.7149166464805603,
      "learning_rate": 9.61494590666006e-06,
      "loss": 1.5686,
      "mean_token_accuracy": 0.6368276750048002,
      "num_tokens": 1717962583.0,
      "step": 10246
    },
    {
      "entropy": 1.7014482418696086,
      "epoch": 1.1256763066106397,
      "grad_norm": 0.7237895131111145,
      "learning_rate": 9.613363873654587e-06,
      "loss": 1.455,
      "mean_token_accuracy": 0.6583812286456426,
      "num_tokens": 1718136025.0,
      "step": 10247
    },
    {
      "entropy": 1.6409784257411957,
      "epoch": 1.1257861635220126,
      "grad_norm": 0.8253493905067444,
      "learning_rate": 9.611781884535515e-06,
      "loss": 1.4142,
      "mean_token_accuracy": 0.6619662940502167,
      "num_tokens": 1718279754.0,
      "step": 10248
    },
    {
      "entropy": 1.713402251402537,
      "epoch": 1.1258960204333854,
      "grad_norm": 0.7551915049552917,
      "learning_rate": 9.610199939352927e-06,
      "loss": 1.4834,
      "mean_token_accuracy": 0.6495722184578577,
      "num_tokens": 1718426265.0,
      "step": 10249
    },
    {
      "entropy": 1.701746533314387,
      "epoch": 1.1260058773447585,
      "grad_norm": 0.6706552505493164,
      "learning_rate": 9.608618038156885e-06,
      "loss": 1.2812,
      "mean_token_accuracy": 0.6634306162595749,
      "num_tokens": 1718558139.0,
      "step": 10250
    },
    {
      "entropy": 1.7403425474961598,
      "epoch": 1.1261157342561314,
      "grad_norm": 0.7633783221244812,
      "learning_rate": 9.60703618099745e-06,
      "loss": 1.4703,
      "mean_token_accuracy": 0.6518524537483851,
      "num_tokens": 1718700729.0,
      "step": 10251
    },
    {
      "entropy": 1.726717124382655,
      "epoch": 1.1262255911675043,
      "grad_norm": 0.6118089556694031,
      "learning_rate": 9.605454367924694e-06,
      "loss": 1.5331,
      "mean_token_accuracy": 0.6415149420499802,
      "num_tokens": 1718933466.0,
      "step": 10252
    },
    {
      "entropy": 1.6945171753565471,
      "epoch": 1.1263354480788772,
      "grad_norm": 0.8243867754936218,
      "learning_rate": 9.603872598988681e-06,
      "loss": 1.5107,
      "mean_token_accuracy": 0.6461230466763178,
      "num_tokens": 1719113356.0,
      "step": 10253
    },
    {
      "entropy": 1.7175917228062947,
      "epoch": 1.1264453049902503,
      "grad_norm": 0.6808179020881653,
      "learning_rate": 9.60229087423947e-06,
      "loss": 1.3696,
      "mean_token_accuracy": 0.6517705669005712,
      "num_tokens": 1719278633.0,
      "step": 10254
    },
    {
      "entropy": 1.7561777532100677,
      "epoch": 1.1265551619016232,
      "grad_norm": 0.7055034041404724,
      "learning_rate": 9.60070919372712e-06,
      "loss": 1.3642,
      "mean_token_accuracy": 0.6630295763413111,
      "num_tokens": 1719416802.0,
      "step": 10255
    },
    {
      "entropy": 1.6309455533822377,
      "epoch": 1.126665018812996,
      "grad_norm": 0.7051904797554016,
      "learning_rate": 9.599127557501702e-06,
      "loss": 1.3411,
      "mean_token_accuracy": 0.66075432797273,
      "num_tokens": 1719589328.0,
      "step": 10256
    },
    {
      "entropy": 1.7621269524097443,
      "epoch": 1.126774875724369,
      "grad_norm": 0.6432750821113586,
      "learning_rate": 9.597545965613256e-06,
      "loss": 1.5804,
      "mean_token_accuracy": 0.6246517151594162,
      "num_tokens": 1719767545.0,
      "step": 10257
    },
    {
      "entropy": 1.7293944557507832,
      "epoch": 1.1268847326357418,
      "grad_norm": 0.7736344337463379,
      "learning_rate": 9.595964418111852e-06,
      "loss": 1.4588,
      "mean_token_accuracy": 0.6443672925233841,
      "num_tokens": 1719921859.0,
      "step": 10258
    },
    {
      "entropy": 1.6619472404321034,
      "epoch": 1.126994589547115,
      "grad_norm": 0.6600391268730164,
      "learning_rate": 9.594382915047541e-06,
      "loss": 1.4106,
      "mean_token_accuracy": 0.6570078432559967,
      "num_tokens": 1720055743.0,
      "step": 10259
    },
    {
      "entropy": 1.703255335489909,
      "epoch": 1.1271044464584878,
      "grad_norm": 0.6473222374916077,
      "learning_rate": 9.59280145647038e-06,
      "loss": 1.2278,
      "mean_token_accuracy": 0.6826945741971334,
      "num_tokens": 1720194410.0,
      "step": 10260
    },
    {
      "entropy": 1.7209681471188862,
      "epoch": 1.1272143033698607,
      "grad_norm": 0.6969286203384399,
      "learning_rate": 9.591220042430413e-06,
      "loss": 1.3104,
      "mean_token_accuracy": 0.6570959637562434,
      "num_tokens": 1720355987.0,
      "step": 10261
    },
    {
      "entropy": 1.6787172555923462,
      "epoch": 1.1273241602812336,
      "grad_norm": 0.6830558180809021,
      "learning_rate": 9.589638672977707e-06,
      "loss": 1.4813,
      "mean_token_accuracy": 0.6633206804593405,
      "num_tokens": 1720540451.0,
      "step": 10262
    },
    {
      "entropy": 1.7526487509409587,
      "epoch": 1.1274340171926067,
      "grad_norm": 0.681906521320343,
      "learning_rate": 9.588057348162291e-06,
      "loss": 1.4437,
      "mean_token_accuracy": 0.6427949617306391,
      "num_tokens": 1720713011.0,
      "step": 10263
    },
    {
      "entropy": 1.6857905586560566,
      "epoch": 1.1275438741039796,
      "grad_norm": 0.7251749634742737,
      "learning_rate": 9.586476068034227e-06,
      "loss": 1.3212,
      "mean_token_accuracy": 0.6568873276313146,
      "num_tokens": 1720891843.0,
      "step": 10264
    },
    {
      "entropy": 1.670927365620931,
      "epoch": 1.1276537310153525,
      "grad_norm": 0.6126587986946106,
      "learning_rate": 9.58489483264356e-06,
      "loss": 1.4053,
      "mean_token_accuracy": 0.6479257047176361,
      "num_tokens": 1721080212.0,
      "step": 10265
    },
    {
      "entropy": 1.7660788198312123,
      "epoch": 1.1277635879267254,
      "grad_norm": 0.7999944686889648,
      "learning_rate": 9.583313642040334e-06,
      "loss": 1.6588,
      "mean_token_accuracy": 0.6271585474411646,
      "num_tokens": 1721260940.0,
      "step": 10266
    },
    {
      "entropy": 1.6764280597368877,
      "epoch": 1.1278734448380985,
      "grad_norm": 0.7556807398796082,
      "learning_rate": 9.581732496274589e-06,
      "loss": 1.44,
      "mean_token_accuracy": 0.6474957416454951,
      "num_tokens": 1721416623.0,
      "step": 10267
    },
    {
      "entropy": 1.6823217471440632,
      "epoch": 1.1279833017494714,
      "grad_norm": 0.7498142719268799,
      "learning_rate": 9.58015139539638e-06,
      "loss": 1.3952,
      "mean_token_accuracy": 0.6678342968225479,
      "num_tokens": 1721589531.0,
      "step": 10268
    },
    {
      "entropy": 1.6793174644311268,
      "epoch": 1.1280931586608443,
      "grad_norm": 0.9057360887527466,
      "learning_rate": 9.578570339455731e-06,
      "loss": 1.3778,
      "mean_token_accuracy": 0.6720141271750132,
      "num_tokens": 1721737220.0,
      "step": 10269
    },
    {
      "entropy": 1.7173177699247997,
      "epoch": 1.1282030155722171,
      "grad_norm": 0.7818934917449951,
      "learning_rate": 9.576989328502692e-06,
      "loss": 1.3202,
      "mean_token_accuracy": 0.675959994395574,
      "num_tokens": 1721852887.0,
      "step": 10270
    },
    {
      "entropy": 1.7108666598796844,
      "epoch": 1.12831287248359,
      "grad_norm": 0.6389757394790649,
      "learning_rate": 9.575408362587303e-06,
      "loss": 1.418,
      "mean_token_accuracy": 0.66609459122022,
      "num_tokens": 1722068639.0,
      "step": 10271
    },
    {
      "entropy": 1.695683737595876,
      "epoch": 1.1284227293949631,
      "grad_norm": 0.607473611831665,
      "learning_rate": 9.573827441759595e-06,
      "loss": 1.5285,
      "mean_token_accuracy": 0.6294114092985789,
      "num_tokens": 1722254953.0,
      "step": 10272
    },
    {
      "entropy": 1.6890762945016224,
      "epoch": 1.128532586306336,
      "grad_norm": 0.8829686045646667,
      "learning_rate": 9.572246566069605e-06,
      "loss": 1.4423,
      "mean_token_accuracy": 0.6620638519525528,
      "num_tokens": 1722387360.0,
      "step": 10273
    },
    {
      "entropy": 1.689795712629954,
      "epoch": 1.128642443217709,
      "grad_norm": 0.727443516254425,
      "learning_rate": 9.570665735567371e-06,
      "loss": 1.4261,
      "mean_token_accuracy": 0.6524536609649658,
      "num_tokens": 1722559707.0,
      "step": 10274
    },
    {
      "entropy": 1.6225083768367767,
      "epoch": 1.1287523001290818,
      "grad_norm": 0.7552088499069214,
      "learning_rate": 9.569084950302919e-06,
      "loss": 1.3415,
      "mean_token_accuracy": 0.6804608354965845,
      "num_tokens": 1722701488.0,
      "step": 10275
    },
    {
      "entropy": 1.6765993038813274,
      "epoch": 1.128862157040455,
      "grad_norm": 0.7234074473381042,
      "learning_rate": 9.567504210326282e-06,
      "loss": 1.4674,
      "mean_token_accuracy": 0.653687963883082,
      "num_tokens": 1722919230.0,
      "step": 10276
    },
    {
      "entropy": 1.641531725724538,
      "epoch": 1.1289720139518278,
      "grad_norm": 0.5420734882354736,
      "learning_rate": 9.565923515687496e-06,
      "loss": 1.4152,
      "mean_token_accuracy": 0.6417432824770609,
      "num_tokens": 1723122116.0,
      "step": 10277
    },
    {
      "entropy": 1.7413820525010426,
      "epoch": 1.1290818708632007,
      "grad_norm": 0.7966932654380798,
      "learning_rate": 9.564342866436582e-06,
      "loss": 1.459,
      "mean_token_accuracy": 0.6337345441182455,
      "num_tokens": 1723305443.0,
      "step": 10278
    },
    {
      "entropy": 1.6700741648674011,
      "epoch": 1.1291917277745736,
      "grad_norm": 0.7032240033149719,
      "learning_rate": 9.562762262623569e-06,
      "loss": 1.2664,
      "mean_token_accuracy": 0.6797453612089157,
      "num_tokens": 1723427892.0,
      "step": 10279
    },
    {
      "entropy": 1.7009910543759663,
      "epoch": 1.1293015846859467,
      "grad_norm": 0.6182928085327148,
      "learning_rate": 9.561181704298487e-06,
      "loss": 1.3533,
      "mean_token_accuracy": 0.6629110823074976,
      "num_tokens": 1723591055.0,
      "step": 10280
    },
    {
      "entropy": 1.6887823740641277,
      "epoch": 1.1294114415973195,
      "grad_norm": 0.6807572245597839,
      "learning_rate": 9.55960119151135e-06,
      "loss": 1.5122,
      "mean_token_accuracy": 0.6364335119724274,
      "num_tokens": 1723783650.0,
      "step": 10281
    },
    {
      "entropy": 1.7669847408930461,
      "epoch": 1.1295212985086924,
      "grad_norm": 0.8603620529174805,
      "learning_rate": 9.558020724312192e-06,
      "loss": 1.3234,
      "mean_token_accuracy": 0.6592119683821996,
      "num_tokens": 1723913943.0,
      "step": 10282
    },
    {
      "entropy": 1.8033428092797597,
      "epoch": 1.1296311554200653,
      "grad_norm": 0.6308757066726685,
      "learning_rate": 9.556440302751022e-06,
      "loss": 1.4724,
      "mean_token_accuracy": 0.6299006392558416,
      "num_tokens": 1724146940.0,
      "step": 10283
    },
    {
      "entropy": 1.6769826412200928,
      "epoch": 1.1297410123314382,
      "grad_norm": 0.7638330459594727,
      "learning_rate": 9.554859926877868e-06,
      "loss": 1.4675,
      "mean_token_accuracy": 0.6560545514027277,
      "num_tokens": 1724296007.0,
      "step": 10284
    },
    {
      "entropy": 1.7535623212655385,
      "epoch": 1.1298508692428113,
      "grad_norm": 0.7146167755126953,
      "learning_rate": 9.553279596742748e-06,
      "loss": 1.5313,
      "mean_token_accuracy": 0.6488161732753118,
      "num_tokens": 1724415625.0,
      "step": 10285
    },
    {
      "entropy": 1.7697202265262604,
      "epoch": 1.1299607261541842,
      "grad_norm": 0.7635106444358826,
      "learning_rate": 9.551699312395677e-06,
      "loss": 1.2609,
      "mean_token_accuracy": 0.6754236469666163,
      "num_tokens": 1724518575.0,
      "step": 10286
    },
    {
      "entropy": 1.6063568989435832,
      "epoch": 1.130070583065557,
      "grad_norm": 0.8617009520530701,
      "learning_rate": 9.550119073886666e-06,
      "loss": 1.3429,
      "mean_token_accuracy": 0.6730814675490061,
      "num_tokens": 1724716862.0,
      "step": 10287
    },
    {
      "entropy": 1.7419047852357228,
      "epoch": 1.13018043997693,
      "grad_norm": 0.7265612483024597,
      "learning_rate": 9.548538881265739e-06,
      "loss": 1.5776,
      "mean_token_accuracy": 0.6297195802132288,
      "num_tokens": 1724911990.0,
      "step": 10288
    },
    {
      "entropy": 1.7049497961997986,
      "epoch": 1.130290296888303,
      "grad_norm": 1.0515176057815552,
      "learning_rate": 9.546958734582897e-06,
      "loss": 1.333,
      "mean_token_accuracy": 0.6726740250984827,
      "num_tokens": 1725084372.0,
      "step": 10289
    },
    {
      "entropy": 1.6889955898125966,
      "epoch": 1.130400153799676,
      "grad_norm": 0.6568050980567932,
      "learning_rate": 9.545378633888158e-06,
      "loss": 1.4114,
      "mean_token_accuracy": 0.6661112556854883,
      "num_tokens": 1725262103.0,
      "step": 10290
    },
    {
      "entropy": 1.7066051562627156,
      "epoch": 1.1305100107110488,
      "grad_norm": 0.6112655997276306,
      "learning_rate": 9.543798579231534e-06,
      "loss": 1.4617,
      "mean_token_accuracy": 0.647816851735115,
      "num_tokens": 1725470273.0,
      "step": 10291
    },
    {
      "entropy": 1.6733331779638927,
      "epoch": 1.1306198676224217,
      "grad_norm": 0.5629302263259888,
      "learning_rate": 9.542218570663024e-06,
      "loss": 1.543,
      "mean_token_accuracy": 0.6284714738527933,
      "num_tokens": 1725724252.0,
      "step": 10292
    },
    {
      "entropy": 1.7002252141634624,
      "epoch": 1.1307297245337948,
      "grad_norm": 0.6977674961090088,
      "learning_rate": 9.540638608232637e-06,
      "loss": 1.3992,
      "mean_token_accuracy": 0.6548378119866053,
      "num_tokens": 1725901325.0,
      "step": 10293
    },
    {
      "entropy": 1.7188651661078136,
      "epoch": 1.1308395814451677,
      "grad_norm": 0.707028329372406,
      "learning_rate": 9.539058691990388e-06,
      "loss": 1.3586,
      "mean_token_accuracy": 0.6680986136198044,
      "num_tokens": 1726022572.0,
      "step": 10294
    },
    {
      "entropy": 1.7041955292224884,
      "epoch": 1.1309494383565406,
      "grad_norm": 0.583182692527771,
      "learning_rate": 9.537478821986266e-06,
      "loss": 1.4493,
      "mean_token_accuracy": 0.648201530178388,
      "num_tokens": 1726212529.0,
      "step": 10295
    },
    {
      "entropy": 1.6689602136611938,
      "epoch": 1.1310592952679135,
      "grad_norm": 0.6370671391487122,
      "learning_rate": 9.535898998270283e-06,
      "loss": 1.403,
      "mean_token_accuracy": 0.6426753501097361,
      "num_tokens": 1726394511.0,
      "step": 10296
    },
    {
      "entropy": 1.6657602687676747,
      "epoch": 1.1311691521792864,
      "grad_norm": 0.7945041656494141,
      "learning_rate": 9.534319220892438e-06,
      "loss": 1.4308,
      "mean_token_accuracy": 0.6577966163555781,
      "num_tokens": 1726563985.0,
      "step": 10297
    },
    {
      "entropy": 1.776595026254654,
      "epoch": 1.1312790090906595,
      "grad_norm": 0.7368420958518982,
      "learning_rate": 9.53273948990273e-06,
      "loss": 1.3903,
      "mean_token_accuracy": 0.6460030823945999,
      "num_tokens": 1726750625.0,
      "step": 10298
    },
    {
      "entropy": 1.7575420339902241,
      "epoch": 1.1313888660020324,
      "grad_norm": 0.7476623058319092,
      "learning_rate": 9.531159805351151e-06,
      "loss": 1.5496,
      "mean_token_accuracy": 0.6646288931369781,
      "num_tokens": 1726878077.0,
      "step": 10299
    },
    {
      "entropy": 1.6953720152378082,
      "epoch": 1.1314987229134053,
      "grad_norm": 0.6216321587562561,
      "learning_rate": 9.52958016728771e-06,
      "loss": 1.3568,
      "mean_token_accuracy": 0.6530263473590215,
      "num_tokens": 1727019274.0,
      "step": 10300
    },
    {
      "entropy": 1.751002957423528,
      "epoch": 1.1316085798247781,
      "grad_norm": 0.6717413663864136,
      "learning_rate": 9.528000575762387e-06,
      "loss": 1.3837,
      "mean_token_accuracy": 0.6547732700904211,
      "num_tokens": 1727175939.0,
      "step": 10301
    },
    {
      "entropy": 1.7171097993850708,
      "epoch": 1.1317184367361512,
      "grad_norm": 0.6593231558799744,
      "learning_rate": 9.526421030825186e-06,
      "loss": 1.504,
      "mean_token_accuracy": 0.6401314934094747,
      "num_tokens": 1727319618.0,
      "step": 10302
    },
    {
      "entropy": 1.730803112188975,
      "epoch": 1.1318282936475241,
      "grad_norm": 0.6500627994537354,
      "learning_rate": 9.524841532526095e-06,
      "loss": 1.3106,
      "mean_token_accuracy": 0.6745495200157166,
      "num_tokens": 1727473341.0,
      "step": 10303
    },
    {
      "entropy": 1.7114306290944417,
      "epoch": 1.131938150558897,
      "grad_norm": 0.6906517148017883,
      "learning_rate": 9.523262080915103e-06,
      "loss": 1.3155,
      "mean_token_accuracy": 0.672325387597084,
      "num_tokens": 1727600003.0,
      "step": 10304
    },
    {
      "entropy": 1.6404125392436981,
      "epoch": 1.13204800747027,
      "grad_norm": 0.7134620547294617,
      "learning_rate": 9.521682676042201e-06,
      "loss": 1.2493,
      "mean_token_accuracy": 0.6794395595788956,
      "num_tokens": 1727738890.0,
      "step": 10305
    },
    {
      "entropy": 1.7687196135520935,
      "epoch": 1.132157864381643,
      "grad_norm": 0.7907180190086365,
      "learning_rate": 9.520103317957382e-06,
      "loss": 1.3394,
      "mean_token_accuracy": 0.6640162070592245,
      "num_tokens": 1727889905.0,
      "step": 10306
    },
    {
      "entropy": 1.7121462921301525,
      "epoch": 1.132267721293016,
      "grad_norm": 0.8624327182769775,
      "learning_rate": 9.51852400671062e-06,
      "loss": 1.2975,
      "mean_token_accuracy": 0.6706186135609945,
      "num_tokens": 1728016133.0,
      "step": 10307
    },
    {
      "entropy": 1.7604290346304576,
      "epoch": 1.1323775782043888,
      "grad_norm": 0.680280327796936,
      "learning_rate": 9.516944742351905e-06,
      "loss": 1.4087,
      "mean_token_accuracy": 0.6513306001822153,
      "num_tokens": 1728165640.0,
      "step": 10308
    },
    {
      "entropy": 1.7208806375662486,
      "epoch": 1.1324874351157617,
      "grad_norm": 0.7024528384208679,
      "learning_rate": 9.515365524931223e-06,
      "loss": 1.2785,
      "mean_token_accuracy": 0.6805547028779984,
      "num_tokens": 1728291634.0,
      "step": 10309
    },
    {
      "entropy": 1.6809004644552867,
      "epoch": 1.1325972920271346,
      "grad_norm": 0.640552818775177,
      "learning_rate": 9.513786354498554e-06,
      "loss": 1.4281,
      "mean_token_accuracy": 0.6382468740145365,
      "num_tokens": 1728470807.0,
      "step": 10310
    },
    {
      "entropy": 1.6941138605276744,
      "epoch": 1.1327071489385077,
      "grad_norm": 0.6164855360984802,
      "learning_rate": 9.512207231103874e-06,
      "loss": 1.4135,
      "mean_token_accuracy": 0.6559168150027593,
      "num_tokens": 1728644963.0,
      "step": 10311
    },
    {
      "entropy": 1.6928605437278748,
      "epoch": 1.1328170058498805,
      "grad_norm": 0.7542420625686646,
      "learning_rate": 9.51062815479717e-06,
      "loss": 1.5822,
      "mean_token_accuracy": 0.6550649454196295,
      "num_tokens": 1728820062.0,
      "step": 10312
    },
    {
      "entropy": 1.686714122692744,
      "epoch": 1.1329268627612534,
      "grad_norm": 0.6460275650024414,
      "learning_rate": 9.509049125628407e-06,
      "loss": 1.3163,
      "mean_token_accuracy": 0.6617647508780161,
      "num_tokens": 1728959484.0,
      "step": 10313
    },
    {
      "entropy": 1.7324243982632954,
      "epoch": 1.1330367196726263,
      "grad_norm": 0.718798816204071,
      "learning_rate": 9.50747014364757e-06,
      "loss": 1.4294,
      "mean_token_accuracy": 0.6527051776647568,
      "num_tokens": 1729080689.0,
      "step": 10314
    },
    {
      "entropy": 1.758222073316574,
      "epoch": 1.1331465765839994,
      "grad_norm": 0.6609033942222595,
      "learning_rate": 9.505891208904634e-06,
      "loss": 1.3854,
      "mean_token_accuracy": 0.6570114940404892,
      "num_tokens": 1729234542.0,
      "step": 10315
    },
    {
      "entropy": 1.7237963378429413,
      "epoch": 1.1332564334953723,
      "grad_norm": 0.7275382280349731,
      "learning_rate": 9.504312321449565e-06,
      "loss": 1.3887,
      "mean_token_accuracy": 0.6633484015862147,
      "num_tokens": 1729382944.0,
      "step": 10316
    },
    {
      "entropy": 1.7187721331914265,
      "epoch": 1.1333662904067452,
      "grad_norm": 0.738908052444458,
      "learning_rate": 9.502733481332334e-06,
      "loss": 1.4098,
      "mean_token_accuracy": 0.6463323136170706,
      "num_tokens": 1729543587.0,
      "step": 10317
    },
    {
      "entropy": 1.6943478484948475,
      "epoch": 1.133476147318118,
      "grad_norm": 0.7214493155479431,
      "learning_rate": 9.501154688602921e-06,
      "loss": 1.5356,
      "mean_token_accuracy": 0.6358891526858012,
      "num_tokens": 1729722777.0,
      "step": 10318
    },
    {
      "entropy": 1.658001681168874,
      "epoch": 1.1335860042294912,
      "grad_norm": 0.6282760500907898,
      "learning_rate": 9.499575943311279e-06,
      "loss": 1.3592,
      "mean_token_accuracy": 0.6529184977213541,
      "num_tokens": 1729894534.0,
      "step": 10319
    },
    {
      "entropy": 1.6976789931456249,
      "epoch": 1.133695861140864,
      "grad_norm": 0.6558998823165894,
      "learning_rate": 9.497997245507387e-06,
      "loss": 1.4736,
      "mean_token_accuracy": 0.6610572139422098,
      "num_tokens": 1730086808.0,
      "step": 10320
    },
    {
      "entropy": 1.7426810363928478,
      "epoch": 1.133805718052237,
      "grad_norm": 0.6194723844528198,
      "learning_rate": 9.496418595241203e-06,
      "loss": 1.4611,
      "mean_token_accuracy": 0.6435061097145081,
      "num_tokens": 1730288789.0,
      "step": 10321
    },
    {
      "entropy": 1.7035086651643117,
      "epoch": 1.1339155749636098,
      "grad_norm": 0.6074888706207275,
      "learning_rate": 9.494839992562697e-06,
      "loss": 1.4105,
      "mean_token_accuracy": 0.6378484318653742,
      "num_tokens": 1730467433.0,
      "step": 10322
    },
    {
      "entropy": 1.7067280213038127,
      "epoch": 1.1340254318749827,
      "grad_norm": 0.6873534917831421,
      "learning_rate": 9.49326143752182e-06,
      "loss": 1.3172,
      "mean_token_accuracy": 0.664742906888326,
      "num_tokens": 1730640614.0,
      "step": 10323
    },
    {
      "entropy": 1.6762806077798207,
      "epoch": 1.1341352887863558,
      "grad_norm": 0.6909382939338684,
      "learning_rate": 9.491682930168548e-06,
      "loss": 1.3528,
      "mean_token_accuracy": 0.6638672153155009,
      "num_tokens": 1730807800.0,
      "step": 10324
    },
    {
      "entropy": 1.6831237574418385,
      "epoch": 1.1342451456977287,
      "grad_norm": 0.7416048049926758,
      "learning_rate": 9.490104470552823e-06,
      "loss": 1.4919,
      "mean_token_accuracy": 0.6549220134814581,
      "num_tokens": 1731057934.0,
      "step": 10325
    },
    {
      "entropy": 1.724802275498708,
      "epoch": 1.1343550026091016,
      "grad_norm": 0.7422142624855042,
      "learning_rate": 9.488526058724617e-06,
      "loss": 1.4261,
      "mean_token_accuracy": 0.6417362888654073,
      "num_tokens": 1731249169.0,
      "step": 10326
    },
    {
      "entropy": 1.6890951693058014,
      "epoch": 1.1344648595204745,
      "grad_norm": 0.7085136771202087,
      "learning_rate": 9.48694769473388e-06,
      "loss": 1.3171,
      "mean_token_accuracy": 0.6658613979816437,
      "num_tokens": 1731364488.0,
      "step": 10327
    },
    {
      "entropy": 1.797446479399999,
      "epoch": 1.1345747164318476,
      "grad_norm": 0.7604406476020813,
      "learning_rate": 9.485369378630564e-06,
      "loss": 1.3586,
      "mean_token_accuracy": 0.66508649289608,
      "num_tokens": 1731510025.0,
      "step": 10328
    },
    {
      "entropy": 1.69396177927653,
      "epoch": 1.1346845733432205,
      "grad_norm": 0.6808403134346008,
      "learning_rate": 9.483791110464624e-06,
      "loss": 1.3246,
      "mean_token_accuracy": 0.6774620612462362,
      "num_tokens": 1731644186.0,
      "step": 10329
    },
    {
      "entropy": 1.7862180769443512,
      "epoch": 1.1347944302545934,
      "grad_norm": 0.7217937707901001,
      "learning_rate": 9.482212890286017e-06,
      "loss": 1.4788,
      "mean_token_accuracy": 0.6508872807025909,
      "num_tokens": 1731839500.0,
      "step": 10330
    },
    {
      "entropy": 1.706006020307541,
      "epoch": 1.1349042871659663,
      "grad_norm": 0.6489999890327454,
      "learning_rate": 9.480634718144684e-06,
      "loss": 1.3578,
      "mean_token_accuracy": 0.6593449711799622,
      "num_tokens": 1731976383.0,
      "step": 10331
    },
    {
      "entropy": 1.7095771531263988,
      "epoch": 1.1350141440773394,
      "grad_norm": 0.6405286192893982,
      "learning_rate": 9.47905659409058e-06,
      "loss": 1.412,
      "mean_token_accuracy": 0.6624357551336288,
      "num_tokens": 1732123313.0,
      "step": 10332
    },
    {
      "entropy": 1.715343068043391,
      "epoch": 1.1351240009887122,
      "grad_norm": 0.7203224301338196,
      "learning_rate": 9.477478518173646e-06,
      "loss": 1.5001,
      "mean_token_accuracy": 0.6489410251379013,
      "num_tokens": 1732294493.0,
      "step": 10333
    },
    {
      "entropy": 1.6658440132935841,
      "epoch": 1.1352338579000851,
      "grad_norm": 0.6969232559204102,
      "learning_rate": 9.475900490443835e-06,
      "loss": 1.2221,
      "mean_token_accuracy": 0.6730835686127344,
      "num_tokens": 1732415579.0,
      "step": 10334
    },
    {
      "entropy": 1.7030311127503712,
      "epoch": 1.135343714811458,
      "grad_norm": 0.6568850874900818,
      "learning_rate": 9.474322510951082e-06,
      "loss": 1.3944,
      "mean_token_accuracy": 0.6627188473939896,
      "num_tokens": 1732592393.0,
      "step": 10335
    },
    {
      "entropy": 1.7397877375284831,
      "epoch": 1.135453571722831,
      "grad_norm": 0.7089440822601318,
      "learning_rate": 9.472744579745338e-06,
      "loss": 1.3188,
      "mean_token_accuracy": 0.6615829467773438,
      "num_tokens": 1732742092.0,
      "step": 10336
    },
    {
      "entropy": 1.7489128410816193,
      "epoch": 1.135563428634204,
      "grad_norm": 0.6160045862197876,
      "learning_rate": 9.471166696876539e-06,
      "loss": 1.4619,
      "mean_token_accuracy": 0.646346777677536,
      "num_tokens": 1732946886.0,
      "step": 10337
    },
    {
      "entropy": 1.7360928257306416,
      "epoch": 1.135673285545577,
      "grad_norm": 1.8664852380752563,
      "learning_rate": 9.469588862394624e-06,
      "loss": 1.1419,
      "mean_token_accuracy": 0.675204411149025,
      "num_tokens": 1733119323.0,
      "step": 10338
    },
    {
      "entropy": 1.6926367580890656,
      "epoch": 1.1357831424569498,
      "grad_norm": 0.7028651237487793,
      "learning_rate": 9.468011076349532e-06,
      "loss": 1.4818,
      "mean_token_accuracy": 0.6468727837006251,
      "num_tokens": 1733299458.0,
      "step": 10339
    },
    {
      "entropy": 1.7644418974717457,
      "epoch": 1.1358929993683227,
      "grad_norm": 0.7585068941116333,
      "learning_rate": 9.466433338791202e-06,
      "loss": 1.3099,
      "mean_token_accuracy": 0.6703908890485764,
      "num_tokens": 1733419610.0,
      "step": 10340
    },
    {
      "entropy": 1.7097221116224925,
      "epoch": 1.1360028562796958,
      "grad_norm": 0.7578231692314148,
      "learning_rate": 9.46485564976956e-06,
      "loss": 1.3979,
      "mean_token_accuracy": 0.6605977068344752,
      "num_tokens": 1733588689.0,
      "step": 10341
    },
    {
      "entropy": 1.7715651094913483,
      "epoch": 1.1361127131910687,
      "grad_norm": 0.6864378452301025,
      "learning_rate": 9.463278009334552e-06,
      "loss": 1.4961,
      "mean_token_accuracy": 0.6296594391266505,
      "num_tokens": 1733758712.0,
      "step": 10342
    },
    {
      "entropy": 1.6944345732529957,
      "epoch": 1.1362225701024415,
      "grad_norm": 1.1330305337905884,
      "learning_rate": 9.461700417536095e-06,
      "loss": 1.3299,
      "mean_token_accuracy": 0.6746721168359121,
      "num_tokens": 1733939337.0,
      "step": 10343
    },
    {
      "entropy": 1.672745595375697,
      "epoch": 1.1363324270138144,
      "grad_norm": 0.6669848561286926,
      "learning_rate": 9.460122874424136e-06,
      "loss": 1.5127,
      "mean_token_accuracy": 0.649186576406161,
      "num_tokens": 1734107917.0,
      "step": 10344
    },
    {
      "entropy": 1.693463295698166,
      "epoch": 1.1364422839251875,
      "grad_norm": 0.6603065133094788,
      "learning_rate": 9.458545380048585e-06,
      "loss": 1.2553,
      "mean_token_accuracy": 0.67331130305926,
      "num_tokens": 1734223657.0,
      "step": 10345
    },
    {
      "entropy": 1.7278470595677693,
      "epoch": 1.1365521408365604,
      "grad_norm": 1.3493287563323975,
      "learning_rate": 9.456967934459383e-06,
      "loss": 1.3466,
      "mean_token_accuracy": 0.660364697376887,
      "num_tokens": 1734412197.0,
      "step": 10346
    },
    {
      "entropy": 1.6575153172016144,
      "epoch": 1.1366619977479333,
      "grad_norm": 0.6611323952674866,
      "learning_rate": 9.455390537706451e-06,
      "loss": 1.2062,
      "mean_token_accuracy": 0.680364117026329,
      "num_tokens": 1734545860.0,
      "step": 10347
    },
    {
      "entropy": 1.656428058942159,
      "epoch": 1.1367718546593062,
      "grad_norm": 0.6214374303817749,
      "learning_rate": 9.453813189839709e-06,
      "loss": 1.4702,
      "mean_token_accuracy": 0.6467104901870092,
      "num_tokens": 1734744456.0,
      "step": 10348
    },
    {
      "entropy": 1.7128709455331166,
      "epoch": 1.136881711570679,
      "grad_norm": 0.804625928401947,
      "learning_rate": 9.452235890909083e-06,
      "loss": 1.523,
      "mean_token_accuracy": 0.650082861383756,
      "num_tokens": 1734900916.0,
      "step": 10349
    },
    {
      "entropy": 1.700402319431305,
      "epoch": 1.1369915684820522,
      "grad_norm": 0.7087069749832153,
      "learning_rate": 9.450658640964498e-06,
      "loss": 1.234,
      "mean_token_accuracy": 0.6779408504565557,
      "num_tokens": 1735001282.0,
      "step": 10350
    },
    {
      "entropy": 1.745913565158844,
      "epoch": 1.137101425393425,
      "grad_norm": 0.7145112156867981,
      "learning_rate": 9.449081440055865e-06,
      "loss": 1.4814,
      "mean_token_accuracy": 0.6550154387950897,
      "num_tokens": 1735153742.0,
      "step": 10351
    },
    {
      "entropy": 1.7599404752254486,
      "epoch": 1.137211282304798,
      "grad_norm": 1.112202763557434,
      "learning_rate": 9.447504288233104e-06,
      "loss": 1.5053,
      "mean_token_accuracy": 0.6597884198029836,
      "num_tokens": 1735351148.0,
      "step": 10352
    },
    {
      "entropy": 1.6744179526964824,
      "epoch": 1.137321139216171,
      "grad_norm": 0.5947840213775635,
      "learning_rate": 9.44592718554614e-06,
      "loss": 1.294,
      "mean_token_accuracy": 0.6707391689221064,
      "num_tokens": 1735548975.0,
      "step": 10353
    },
    {
      "entropy": 1.7266633212566376,
      "epoch": 1.137430996127544,
      "grad_norm": 0.6907797455787659,
      "learning_rate": 9.444350132044873e-06,
      "loss": 1.4707,
      "mean_token_accuracy": 0.6492672860622406,
      "num_tokens": 1735725525.0,
      "step": 10354
    },
    {
      "entropy": 1.7150587638219197,
      "epoch": 1.1375408530389168,
      "grad_norm": 0.639342725276947,
      "learning_rate": 9.442773127779226e-06,
      "loss": 1.3635,
      "mean_token_accuracy": 0.6725068837404251,
      "num_tokens": 1735894005.0,
      "step": 10355
    },
    {
      "entropy": 1.6278500159581502,
      "epoch": 1.1376507099502897,
      "grad_norm": 0.719607412815094,
      "learning_rate": 9.44119617279911e-06,
      "loss": 1.2805,
      "mean_token_accuracy": 0.67085100710392,
      "num_tokens": 1736025755.0,
      "step": 10356
    },
    {
      "entropy": 1.6743311981360118,
      "epoch": 1.1377605668616626,
      "grad_norm": 0.6438021659851074,
      "learning_rate": 9.439619267154428e-06,
      "loss": 1.3495,
      "mean_token_accuracy": 0.6617470035950342,
      "num_tokens": 1736176599.0,
      "step": 10357
    },
    {
      "entropy": 1.6663430829842885,
      "epoch": 1.1378704237730357,
      "grad_norm": 0.6496438384056091,
      "learning_rate": 9.438042410895097e-06,
      "loss": 1.3258,
      "mean_token_accuracy": 0.6678551882505417,
      "num_tokens": 1736314214.0,
      "step": 10358
    },
    {
      "entropy": 1.6967433889706929,
      "epoch": 1.1379802806844086,
      "grad_norm": 0.6643569469451904,
      "learning_rate": 9.436465604071019e-06,
      "loss": 1.3103,
      "mean_token_accuracy": 0.6723993321259817,
      "num_tokens": 1736448597.0,
      "step": 10359
    },
    {
      "entropy": 1.6814461847146351,
      "epoch": 1.1380901375957815,
      "grad_norm": 0.6767435073852539,
      "learning_rate": 9.434888846732097e-06,
      "loss": 1.4335,
      "mean_token_accuracy": 0.6468447397152582,
      "num_tokens": 1736668920.0,
      "step": 10360
    },
    {
      "entropy": 1.7169758081436157,
      "epoch": 1.1381999945071544,
      "grad_norm": 0.8308820128440857,
      "learning_rate": 9.43331213892824e-06,
      "loss": 1.3841,
      "mean_token_accuracy": 0.6509679108858109,
      "num_tokens": 1736800070.0,
      "step": 10361
    },
    {
      "entropy": 1.6866010129451752,
      "epoch": 1.1383098514185273,
      "grad_norm": 0.8533633351325989,
      "learning_rate": 9.431735480709352e-06,
      "loss": 1.4519,
      "mean_token_accuracy": 0.6826412826776505,
      "num_tokens": 1736939842.0,
      "step": 10362
    },
    {
      "entropy": 1.7029000719388325,
      "epoch": 1.1384197083299004,
      "grad_norm": 0.797741711139679,
      "learning_rate": 9.430158872125324e-06,
      "loss": 1.4602,
      "mean_token_accuracy": 0.6410268098115921,
      "num_tokens": 1737129340.0,
      "step": 10363
    },
    {
      "entropy": 1.7252192397912343,
      "epoch": 1.1385295652412732,
      "grad_norm": 0.7115998864173889,
      "learning_rate": 9.42858231322606e-06,
      "loss": 1.3813,
      "mean_token_accuracy": 0.656056766708692,
      "num_tokens": 1737301283.0,
      "step": 10364
    },
    {
      "entropy": 1.7449837823708851,
      "epoch": 1.1386394221526461,
      "grad_norm": 0.7513498663902283,
      "learning_rate": 9.427005804061462e-06,
      "loss": 1.532,
      "mean_token_accuracy": 0.6449931561946869,
      "num_tokens": 1737480963.0,
      "step": 10365
    },
    {
      "entropy": 1.7203444143136342,
      "epoch": 1.1387492790640192,
      "grad_norm": 0.7123376131057739,
      "learning_rate": 9.425429344681415e-06,
      "loss": 1.6309,
      "mean_token_accuracy": 0.6379441867272059,
      "num_tokens": 1737657860.0,
      "step": 10366
    },
    {
      "entropy": 1.6939558287461598,
      "epoch": 1.1388591359753921,
      "grad_norm": 0.6163555979728699,
      "learning_rate": 9.423852935135824e-06,
      "loss": 1.2301,
      "mean_token_accuracy": 0.6741809546947479,
      "num_tokens": 1737806597.0,
      "step": 10367
    },
    {
      "entropy": 1.614011029402415,
      "epoch": 1.138968992886765,
      "grad_norm": 0.7325506210327148,
      "learning_rate": 9.42227657547458e-06,
      "loss": 1.2167,
      "mean_token_accuracy": 0.6826542516549429,
      "num_tokens": 1737916809.0,
      "step": 10368
    },
    {
      "entropy": 1.682138333717982,
      "epoch": 1.139078849798138,
      "grad_norm": 0.5863914489746094,
      "learning_rate": 9.420700265747566e-06,
      "loss": 1.3563,
      "mean_token_accuracy": 0.6610041856765747,
      "num_tokens": 1738100933.0,
      "step": 10369
    },
    {
      "entropy": 1.6821511387825012,
      "epoch": 1.1391887067095108,
      "grad_norm": 0.6776061654090881,
      "learning_rate": 9.419124006004681e-06,
      "loss": 1.4566,
      "mean_token_accuracy": 0.6502898782491684,
      "num_tokens": 1738277417.0,
      "step": 10370
    },
    {
      "entropy": 1.6609342396259308,
      "epoch": 1.1392985636208839,
      "grad_norm": 0.617734432220459,
      "learning_rate": 9.417547796295807e-06,
      "loss": 1.4432,
      "mean_token_accuracy": 0.6545563538869222,
      "num_tokens": 1738457334.0,
      "step": 10371
    },
    {
      "entropy": 1.7074103355407715,
      "epoch": 1.1394084205322568,
      "grad_norm": 0.6897749900817871,
      "learning_rate": 9.415971636670832e-06,
      "loss": 1.3867,
      "mean_token_accuracy": 0.6595341066519419,
      "num_tokens": 1738604909.0,
      "step": 10372
    },
    {
      "entropy": 1.6968832810719807,
      "epoch": 1.1395182774436297,
      "grad_norm": 0.6201480031013489,
      "learning_rate": 9.41439552717964e-06,
      "loss": 1.4053,
      "mean_token_accuracy": 0.6468455741802851,
      "num_tokens": 1738777998.0,
      "step": 10373
    },
    {
      "entropy": 1.635752648115158,
      "epoch": 1.1396281343550025,
      "grad_norm": 0.5653038620948792,
      "learning_rate": 9.412819467872119e-06,
      "loss": 1.2893,
      "mean_token_accuracy": 0.6629117280244827,
      "num_tokens": 1738979425.0,
      "step": 10374
    },
    {
      "entropy": 1.6903326710065205,
      "epoch": 1.1397379912663754,
      "grad_norm": 0.7527031898498535,
      "learning_rate": 9.411243458798144e-06,
      "loss": 1.4398,
      "mean_token_accuracy": 0.6569599111874899,
      "num_tokens": 1739148251.0,
      "step": 10375
    },
    {
      "entropy": 1.7592523097991943,
      "epoch": 1.1398478481777485,
      "grad_norm": 0.6619188785552979,
      "learning_rate": 9.409667500007595e-06,
      "loss": 1.4471,
      "mean_token_accuracy": 0.664801706870397,
      "num_tokens": 1739340860.0,
      "step": 10376
    },
    {
      "entropy": 1.6681431134541829,
      "epoch": 1.1399577050891214,
      "grad_norm": 0.6245502829551697,
      "learning_rate": 9.408091591550359e-06,
      "loss": 1.4495,
      "mean_token_accuracy": 0.6568524142106374,
      "num_tokens": 1739547206.0,
      "step": 10377
    },
    {
      "entropy": 1.6391673783461254,
      "epoch": 1.1400675620004943,
      "grad_norm": 0.6753904223442078,
      "learning_rate": 9.406515733476302e-06,
      "loss": 1.4371,
      "mean_token_accuracy": 0.6508794724941254,
      "num_tokens": 1739790829.0,
      "step": 10378
    },
    {
      "entropy": 1.6744989454746246,
      "epoch": 1.1401774189118674,
      "grad_norm": 0.6560745239257812,
      "learning_rate": 9.404939925835304e-06,
      "loss": 1.3288,
      "mean_token_accuracy": 0.6673153092463812,
      "num_tokens": 1739931875.0,
      "step": 10379
    },
    {
      "entropy": 1.7254528601964314,
      "epoch": 1.1402872758232403,
      "grad_norm": 0.6491901278495789,
      "learning_rate": 9.403364168677242e-06,
      "loss": 1.3784,
      "mean_token_accuracy": 0.6630249718825022,
      "num_tokens": 1740098056.0,
      "step": 10380
    },
    {
      "entropy": 1.7695842186609905,
      "epoch": 1.1403971327346132,
      "grad_norm": 0.739123523235321,
      "learning_rate": 9.401788462051981e-06,
      "loss": 1.4259,
      "mean_token_accuracy": 0.6524376769860586,
      "num_tokens": 1740252560.0,
      "step": 10381
    },
    {
      "entropy": 1.6941548983256023,
      "epoch": 1.140506989645986,
      "grad_norm": 0.7095143795013428,
      "learning_rate": 9.400212806009396e-06,
      "loss": 1.4692,
      "mean_token_accuracy": 0.6424577981233597,
      "num_tokens": 1740446012.0,
      "step": 10382
    },
    {
      "entropy": 1.7164734701315563,
      "epoch": 1.140616846557359,
      "grad_norm": 0.7843037843704224,
      "learning_rate": 9.398637200599357e-06,
      "loss": 1.5502,
      "mean_token_accuracy": 0.6457971682151159,
      "num_tokens": 1740601766.0,
      "step": 10383
    },
    {
      "entropy": 1.7246180772781372,
      "epoch": 1.140726703468732,
      "grad_norm": 0.6460191607475281,
      "learning_rate": 9.397061645871728e-06,
      "loss": 1.4905,
      "mean_token_accuracy": 0.6386567503213882,
      "num_tokens": 1740768615.0,
      "step": 10384
    },
    {
      "entropy": 1.6967721978823345,
      "epoch": 1.140836560380105,
      "grad_norm": 0.6672912240028381,
      "learning_rate": 9.395486141876374e-06,
      "loss": 1.4701,
      "mean_token_accuracy": 0.6470180948575338,
      "num_tokens": 1740969706.0,
      "step": 10385
    },
    {
      "entropy": 1.6823700368404388,
      "epoch": 1.1409464172914778,
      "grad_norm": 0.7741503119468689,
      "learning_rate": 9.393910688663164e-06,
      "loss": 1.2931,
      "mean_token_accuracy": 0.6733145167430242,
      "num_tokens": 1741106299.0,
      "step": 10386
    },
    {
      "entropy": 1.7498717904090881,
      "epoch": 1.1410562742028507,
      "grad_norm": 0.7507087588310242,
      "learning_rate": 9.392335286281953e-06,
      "loss": 1.5033,
      "mean_token_accuracy": 0.6538749684890112,
      "num_tokens": 1741254646.0,
      "step": 10387
    },
    {
      "entropy": 1.6514920592308044,
      "epoch": 1.1411661311142236,
      "grad_norm": 0.5859827399253845,
      "learning_rate": 9.390759934782607e-06,
      "loss": 1.3249,
      "mean_token_accuracy": 0.6833820442358652,
      "num_tokens": 1741432870.0,
      "step": 10388
    },
    {
      "entropy": 1.684400051832199,
      "epoch": 1.1412759880255967,
      "grad_norm": 0.6740873456001282,
      "learning_rate": 9.389184634214985e-06,
      "loss": 1.3331,
      "mean_token_accuracy": 0.6611009438832601,
      "num_tokens": 1741574186.0,
      "step": 10389
    },
    {
      "entropy": 1.742189993460973,
      "epoch": 1.1413858449369696,
      "grad_norm": 0.7069135308265686,
      "learning_rate": 9.387609384628945e-06,
      "loss": 1.2605,
      "mean_token_accuracy": 0.6775266925493876,
      "num_tokens": 1741691346.0,
      "step": 10390
    },
    {
      "entropy": 1.735118528207143,
      "epoch": 1.1414957018483425,
      "grad_norm": 0.8108046054840088,
      "learning_rate": 9.386034186074335e-06,
      "loss": 1.3915,
      "mean_token_accuracy": 0.66219495733579,
      "num_tokens": 1741833271.0,
      "step": 10391
    },
    {
      "entropy": 1.7121002276738484,
      "epoch": 1.1416055587597156,
      "grad_norm": 0.7746871113777161,
      "learning_rate": 9.384459038601024e-06,
      "loss": 1.3267,
      "mean_token_accuracy": 0.6555629670619965,
      "num_tokens": 1741960943.0,
      "step": 10392
    },
    {
      "entropy": 1.7076607942581177,
      "epoch": 1.1417154156710885,
      "grad_norm": 0.6252023577690125,
      "learning_rate": 9.382883942258849e-06,
      "loss": 1.3896,
      "mean_token_accuracy": 0.653433953722318,
      "num_tokens": 1742171872.0,
      "step": 10393
    },
    {
      "entropy": 1.6984122693538666,
      "epoch": 1.1418252725824614,
      "grad_norm": 0.7633947134017944,
      "learning_rate": 9.381308897097671e-06,
      "loss": 1.4597,
      "mean_token_accuracy": 0.6523663302262624,
      "num_tokens": 1742335760.0,
      "step": 10394
    },
    {
      "entropy": 1.682322899500529,
      "epoch": 1.1419351294938342,
      "grad_norm": 0.6641841530799866,
      "learning_rate": 9.37973390316734e-06,
      "loss": 1.4247,
      "mean_token_accuracy": 0.6529939075311025,
      "num_tokens": 1742492989.0,
      "step": 10395
    },
    {
      "entropy": 1.7189187506834667,
      "epoch": 1.1420449864052071,
      "grad_norm": 0.6823170185089111,
      "learning_rate": 9.378158960517701e-06,
      "loss": 1.345,
      "mean_token_accuracy": 0.6566206763188044,
      "num_tokens": 1742644794.0,
      "step": 10396
    },
    {
      "entropy": 1.629441926876704,
      "epoch": 1.1421548433165802,
      "grad_norm": 0.654874861240387,
      "learning_rate": 9.376584069198593e-06,
      "loss": 1.3227,
      "mean_token_accuracy": 0.6684759259223938,
      "num_tokens": 1742817557.0,
      "step": 10397
    },
    {
      "entropy": 1.6485731303691864,
      "epoch": 1.1422647002279531,
      "grad_norm": 0.6740143895149231,
      "learning_rate": 9.375009229259878e-06,
      "loss": 1.4679,
      "mean_token_accuracy": 0.6339434087276459,
      "num_tokens": 1743044080.0,
      "step": 10398
    },
    {
      "entropy": 1.6696706712245941,
      "epoch": 1.142374557139326,
      "grad_norm": 0.7383650541305542,
      "learning_rate": 9.37343444075138e-06,
      "loss": 1.3688,
      "mean_token_accuracy": 0.6621562987565994,
      "num_tokens": 1743274614.0,
      "step": 10399
    },
    {
      "entropy": 1.6913128296534221,
      "epoch": 1.142484414050699,
      "grad_norm": 0.5945432782173157,
      "learning_rate": 9.371859703722952e-06,
      "loss": 1.3708,
      "mean_token_accuracy": 0.6589928964773814,
      "num_tokens": 1743456863.0,
      "step": 10400
    },
    {
      "entropy": 1.7033980588118236,
      "epoch": 1.1425942709620718,
      "grad_norm": 0.6133428812026978,
      "learning_rate": 9.370285018224432e-06,
      "loss": 1.2997,
      "mean_token_accuracy": 0.6748911092678705,
      "num_tokens": 1743617303.0,
      "step": 10401
    },
    {
      "entropy": 1.6469106773535411,
      "epoch": 1.1427041278734449,
      "grad_norm": 0.7003388404846191,
      "learning_rate": 9.368710384305656e-06,
      "loss": 1.2912,
      "mean_token_accuracy": 0.6673061301310858,
      "num_tokens": 1743751670.0,
      "step": 10402
    },
    {
      "entropy": 1.6901063521703084,
      "epoch": 1.1428139847848178,
      "grad_norm": 0.663631796836853,
      "learning_rate": 9.367135802016463e-06,
      "loss": 1.4043,
      "mean_token_accuracy": 0.6495856940746307,
      "num_tokens": 1743894039.0,
      "step": 10403
    },
    {
      "entropy": 1.7655975222587585,
      "epoch": 1.1429238416961907,
      "grad_norm": 0.8853231072425842,
      "learning_rate": 9.365561271406684e-06,
      "loss": 1.526,
      "mean_token_accuracy": 0.628182902932167,
      "num_tokens": 1744066506.0,
      "step": 10404
    },
    {
      "entropy": 1.6902997593084972,
      "epoch": 1.1430336986075638,
      "grad_norm": 0.8013792634010315,
      "learning_rate": 9.363986792526152e-06,
      "loss": 1.4213,
      "mean_token_accuracy": 0.6655001491308212,
      "num_tokens": 1744211659.0,
      "step": 10405
    },
    {
      "entropy": 1.6334332625071208,
      "epoch": 1.1431435555189366,
      "grad_norm": 0.6941357254981995,
      "learning_rate": 9.362412365424704e-06,
      "loss": 1.2846,
      "mean_token_accuracy": 0.6686849494775137,
      "num_tokens": 1744364432.0,
      "step": 10406
    },
    {
      "entropy": 1.6745346983273823,
      "epoch": 1.1432534124303095,
      "grad_norm": 0.7382486462593079,
      "learning_rate": 9.360837990152167e-06,
      "loss": 1.3855,
      "mean_token_accuracy": 0.6577971825997034,
      "num_tokens": 1744536714.0,
      "step": 10407
    },
    {
      "entropy": 1.6726201673348744,
      "epoch": 1.1433632693416824,
      "grad_norm": 0.7212955951690674,
      "learning_rate": 9.359263666758367e-06,
      "loss": 1.3708,
      "mean_token_accuracy": 0.6609119226535162,
      "num_tokens": 1744731550.0,
      "step": 10408
    },
    {
      "entropy": 1.690768967072169,
      "epoch": 1.1434731262530553,
      "grad_norm": 0.7584574818611145,
      "learning_rate": 9.357689395293134e-06,
      "loss": 1.3912,
      "mean_token_accuracy": 0.6541225661834081,
      "num_tokens": 1744924719.0,
      "step": 10409
    },
    {
      "entropy": 1.6714553038279216,
      "epoch": 1.1435829831644284,
      "grad_norm": 0.7702672481536865,
      "learning_rate": 9.356115175806292e-06,
      "loss": 1.3676,
      "mean_token_accuracy": 0.6619028945763906,
      "num_tokens": 1745084791.0,
      "step": 10410
    },
    {
      "entropy": 1.7582578659057617,
      "epoch": 1.1436928400758013,
      "grad_norm": 0.6678996086120605,
      "learning_rate": 9.354541008347661e-06,
      "loss": 1.3649,
      "mean_token_accuracy": 0.6453887671232224,
      "num_tokens": 1745250672.0,
      "step": 10411
    },
    {
      "entropy": 1.6818044086297352,
      "epoch": 1.1438026969871742,
      "grad_norm": 0.7201360464096069,
      "learning_rate": 9.352966892967072e-06,
      "loss": 1.478,
      "mean_token_accuracy": 0.6579025636116663,
      "num_tokens": 1745445321.0,
      "step": 10412
    },
    {
      "entropy": 1.7616774141788483,
      "epoch": 1.143912553898547,
      "grad_norm": 0.6419490575790405,
      "learning_rate": 9.351392829714332e-06,
      "loss": 1.5105,
      "mean_token_accuracy": 0.636634940902392,
      "num_tokens": 1745691802.0,
      "step": 10413
    },
    {
      "entropy": 1.7232487003008525,
      "epoch": 1.1440224108099202,
      "grad_norm": 0.6756424903869629,
      "learning_rate": 9.349818818639267e-06,
      "loss": 1.5376,
      "mean_token_accuracy": 0.661085287729899,
      "num_tokens": 1745864777.0,
      "step": 10414
    },
    {
      "entropy": 1.7252596020698547,
      "epoch": 1.144132267721293,
      "grad_norm": 0.6202812790870667,
      "learning_rate": 9.348244859791698e-06,
      "loss": 1.3156,
      "mean_token_accuracy": 0.664531409740448,
      "num_tokens": 1745989005.0,
      "step": 10415
    },
    {
      "entropy": 1.6829163233439128,
      "epoch": 1.144242124632666,
      "grad_norm": 0.7266920208930969,
      "learning_rate": 9.346670953221429e-06,
      "loss": 1.4073,
      "mean_token_accuracy": 0.6535108834505081,
      "num_tokens": 1746165103.0,
      "step": 10416
    },
    {
      "entropy": 1.7211932837963104,
      "epoch": 1.1443519815440388,
      "grad_norm": 0.6822185516357422,
      "learning_rate": 9.34509709897828e-06,
      "loss": 1.5674,
      "mean_token_accuracy": 0.6551593492428461,
      "num_tokens": 1746403549.0,
      "step": 10417
    },
    {
      "entropy": 1.6584857602914174,
      "epoch": 1.144461838455412,
      "grad_norm": 0.6132012605667114,
      "learning_rate": 9.343523297112066e-06,
      "loss": 1.3687,
      "mean_token_accuracy": 0.6635250995556513,
      "num_tokens": 1746571701.0,
      "step": 10418
    },
    {
      "entropy": 1.6848807831605275,
      "epoch": 1.1445716953667848,
      "grad_norm": 0.6472894549369812,
      "learning_rate": 9.341949547672588e-06,
      "loss": 1.335,
      "mean_token_accuracy": 0.6618951757748922,
      "num_tokens": 1746734240.0,
      "step": 10419
    },
    {
      "entropy": 1.718974103530248,
      "epoch": 1.1446815522781577,
      "grad_norm": 0.736495852470398,
      "learning_rate": 9.340375850709663e-06,
      "loss": 1.4658,
      "mean_token_accuracy": 0.6561418076356252,
      "num_tokens": 1746909958.0,
      "step": 10420
    },
    {
      "entropy": 1.7155489722887676,
      "epoch": 1.1447914091895306,
      "grad_norm": 0.6326528191566467,
      "learning_rate": 9.338802206273097e-06,
      "loss": 1.4693,
      "mean_token_accuracy": 0.6499947756528854,
      "num_tokens": 1747163992.0,
      "step": 10421
    },
    {
      "entropy": 1.6991062760353088,
      "epoch": 1.1449012661009035,
      "grad_norm": 0.6131667494773865,
      "learning_rate": 9.337228614412688e-06,
      "loss": 1.351,
      "mean_token_accuracy": 0.6598118593295416,
      "num_tokens": 1747305956.0,
      "step": 10422
    },
    {
      "entropy": 1.7058619757493336,
      "epoch": 1.1450111230122766,
      "grad_norm": 0.7168628573417664,
      "learning_rate": 9.335655075178243e-06,
      "loss": 1.3225,
      "mean_token_accuracy": 0.6609494437774023,
      "num_tokens": 1747424468.0,
      "step": 10423
    },
    {
      "entropy": 1.6946961383024852,
      "epoch": 1.1451209799236495,
      "grad_norm": 0.6358611583709717,
      "learning_rate": 9.33408158861957e-06,
      "loss": 1.3029,
      "mean_token_accuracy": 0.6581896990537643,
      "num_tokens": 1747556121.0,
      "step": 10424
    },
    {
      "entropy": 1.782209446032842,
      "epoch": 1.1452308368350224,
      "grad_norm": 0.7476517558097839,
      "learning_rate": 9.33250815478646e-06,
      "loss": 1.3775,
      "mean_token_accuracy": 0.6569018463293711,
      "num_tokens": 1747682025.0,
      "step": 10425
    },
    {
      "entropy": 1.6908418933550518,
      "epoch": 1.1453406937463952,
      "grad_norm": 0.7563366293907166,
      "learning_rate": 9.330934773728717e-06,
      "loss": 1.3391,
      "mean_token_accuracy": 0.6665392766396204,
      "num_tokens": 1747809976.0,
      "step": 10426
    },
    {
      "entropy": 1.6805396974086761,
      "epoch": 1.1454505506577684,
      "grad_norm": 0.5949506163597107,
      "learning_rate": 9.32936144549614e-06,
      "loss": 1.4936,
      "mean_token_accuracy": 0.6355966081221899,
      "num_tokens": 1747996141.0,
      "step": 10427
    },
    {
      "entropy": 1.679563969373703,
      "epoch": 1.1455604075691412,
      "grad_norm": 0.6496044397354126,
      "learning_rate": 9.327788170138514e-06,
      "loss": 1.3572,
      "mean_token_accuracy": 0.6697363605101904,
      "num_tokens": 1748139185.0,
      "step": 10428
    },
    {
      "entropy": 1.6627104580402374,
      "epoch": 1.1456702644805141,
      "grad_norm": 0.623802661895752,
      "learning_rate": 9.326214947705641e-06,
      "loss": 1.3569,
      "mean_token_accuracy": 0.6598296562830607,
      "num_tokens": 1748306822.0,
      "step": 10429
    },
    {
      "entropy": 1.713492641846339,
      "epoch": 1.145780121391887,
      "grad_norm": 0.7390007972717285,
      "learning_rate": 9.324641778247313e-06,
      "loss": 1.4243,
      "mean_token_accuracy": 0.6549296230077744,
      "num_tokens": 1748528987.0,
      "step": 10430
    },
    {
      "entropy": 1.6868635416030884,
      "epoch": 1.1458899783032601,
      "grad_norm": 0.6720066666603088,
      "learning_rate": 9.323068661813315e-06,
      "loss": 1.3167,
      "mean_token_accuracy": 0.6549607117970785,
      "num_tokens": 1748712876.0,
      "step": 10431
    },
    {
      "entropy": 1.6507586737473805,
      "epoch": 1.145999835214633,
      "grad_norm": 0.6831554174423218,
      "learning_rate": 9.321495598453438e-06,
      "loss": 1.2928,
      "mean_token_accuracy": 0.6722377041975657,
      "num_tokens": 1748849425.0,
      "step": 10432
    },
    {
      "entropy": 1.6795489092667897,
      "epoch": 1.1461096921260059,
      "grad_norm": 0.6272848844528198,
      "learning_rate": 9.319922588217472e-06,
      "loss": 1.4739,
      "mean_token_accuracy": 0.6550329575935999,
      "num_tokens": 1749033503.0,
      "step": 10433
    },
    {
      "entropy": 1.6624679764111836,
      "epoch": 1.1462195490373788,
      "grad_norm": 0.7027580738067627,
      "learning_rate": 9.318349631155197e-06,
      "loss": 1.3611,
      "mean_token_accuracy": 0.6647091160217921,
      "num_tokens": 1749269891.0,
      "step": 10434
    },
    {
      "entropy": 1.6587688227494557,
      "epoch": 1.1463294059487517,
      "grad_norm": 0.695829451084137,
      "learning_rate": 9.316776727316397e-06,
      "loss": 1.5764,
      "mean_token_accuracy": 0.6489768524964651,
      "num_tokens": 1749462840.0,
      "step": 10435
    },
    {
      "entropy": 1.72525155544281,
      "epoch": 1.1464392628601248,
      "grad_norm": 0.6153085231781006,
      "learning_rate": 9.31520387675086e-06,
      "loss": 1.4573,
      "mean_token_accuracy": 0.6477632522583008,
      "num_tokens": 1749623332.0,
      "step": 10436
    },
    {
      "entropy": 1.6733653446038563,
      "epoch": 1.1465491197714976,
      "grad_norm": 0.6889209747314453,
      "learning_rate": 9.313631079508357e-06,
      "loss": 1.2139,
      "mean_token_accuracy": 0.6837521890799204,
      "num_tokens": 1749756254.0,
      "step": 10437
    },
    {
      "entropy": 1.6137581169605255,
      "epoch": 1.1466589766828705,
      "grad_norm": 0.6261329054832458,
      "learning_rate": 9.312058335638669e-06,
      "loss": 1.2555,
      "mean_token_accuracy": 0.6895642032225927,
      "num_tokens": 1749906250.0,
      "step": 10438
    },
    {
      "entropy": 1.6432836850484211,
      "epoch": 1.1467688335942434,
      "grad_norm": 0.6834116578102112,
      "learning_rate": 9.31048564519158e-06,
      "loss": 1.3124,
      "mean_token_accuracy": 0.66798102358977,
      "num_tokens": 1750054646.0,
      "step": 10439
    },
    {
      "entropy": 1.6783512830734253,
      "epoch": 1.1468786905056165,
      "grad_norm": 0.6411421895027161,
      "learning_rate": 9.308913008216855e-06,
      "loss": 1.3029,
      "mean_token_accuracy": 0.6628169417381287,
      "num_tokens": 1750191191.0,
      "step": 10440
    },
    {
      "entropy": 1.7019068499406178,
      "epoch": 1.1469885474169894,
      "grad_norm": 0.8326993584632874,
      "learning_rate": 9.30734042476427e-06,
      "loss": 1.4707,
      "mean_token_accuracy": 0.6603338221708933,
      "num_tokens": 1750340860.0,
      "step": 10441
    },
    {
      "entropy": 1.7151079376538594,
      "epoch": 1.1470984043283623,
      "grad_norm": 0.8003994822502136,
      "learning_rate": 9.305767894883602e-06,
      "loss": 1.4788,
      "mean_token_accuracy": 0.6640694737434387,
      "num_tokens": 1750456588.0,
      "step": 10442
    },
    {
      "entropy": 1.743663897116979,
      "epoch": 1.1472082612397352,
      "grad_norm": 0.6902558207511902,
      "learning_rate": 9.304195418624614e-06,
      "loss": 1.4213,
      "mean_token_accuracy": 0.6569770723581314,
      "num_tokens": 1750652408.0,
      "step": 10443
    },
    {
      "entropy": 1.6893725295861561,
      "epoch": 1.1473181181511083,
      "grad_norm": 0.650435745716095,
      "learning_rate": 9.302622996037074e-06,
      "loss": 1.3089,
      "mean_token_accuracy": 0.6710364570220312,
      "num_tokens": 1750803978.0,
      "step": 10444
    },
    {
      "entropy": 1.7381121218204498,
      "epoch": 1.1474279750624812,
      "grad_norm": 0.6412340402603149,
      "learning_rate": 9.301050627170758e-06,
      "loss": 1.4465,
      "mean_token_accuracy": 0.653094212214152,
      "num_tokens": 1750997989.0,
      "step": 10445
    },
    {
      "entropy": 1.7343399027983348,
      "epoch": 1.147537831973854,
      "grad_norm": 0.6787511706352234,
      "learning_rate": 9.299478312075421e-06,
      "loss": 1.4958,
      "mean_token_accuracy": 0.6529847681522369,
      "num_tokens": 1751158800.0,
      "step": 10446
    },
    {
      "entropy": 1.6631225248177846,
      "epoch": 1.147647688885227,
      "grad_norm": 0.6875215768814087,
      "learning_rate": 9.297906050800824e-06,
      "loss": 1.1925,
      "mean_token_accuracy": 0.6849933316310247,
      "num_tokens": 1751279105.0,
      "step": 10447
    },
    {
      "entropy": 1.7318195203940074,
      "epoch": 1.1477575457965998,
      "grad_norm": 0.8004332780838013,
      "learning_rate": 9.296333843396743e-06,
      "loss": 1.4193,
      "mean_token_accuracy": 0.6542117198308309,
      "num_tokens": 1751478243.0,
      "step": 10448
    },
    {
      "entropy": 1.7312237322330475,
      "epoch": 1.147867402707973,
      "grad_norm": 0.6288403868675232,
      "learning_rate": 9.294761689912921e-06,
      "loss": 1.3694,
      "mean_token_accuracy": 0.6531921078761419,
      "num_tokens": 1751639847.0,
      "step": 10449
    },
    {
      "entropy": 1.665016194184621,
      "epoch": 1.1479772596193458,
      "grad_norm": 0.7054689526557922,
      "learning_rate": 9.293189590399126e-06,
      "loss": 1.5536,
      "mean_token_accuracy": 0.6347174296776453,
      "num_tokens": 1751821535.0,
      "step": 10450
    },
    {
      "entropy": 1.6455471416314442,
      "epoch": 1.1480871165307187,
      "grad_norm": 0.6462990641593933,
      "learning_rate": 9.291617544905112e-06,
      "loss": 1.2751,
      "mean_token_accuracy": 0.6752283871173859,
      "num_tokens": 1751950364.0,
      "step": 10451
    },
    {
      "entropy": 1.6657202740510304,
      "epoch": 1.1481969734420916,
      "grad_norm": 0.6472091674804688,
      "learning_rate": 9.29004555348063e-06,
      "loss": 1.4169,
      "mean_token_accuracy": 0.6555340985457102,
      "num_tokens": 1752107814.0,
      "step": 10452
    },
    {
      "entropy": 1.7669294873873393,
      "epoch": 1.1483068303534647,
      "grad_norm": 0.7394276857376099,
      "learning_rate": 9.288473616175438e-06,
      "loss": 1.3615,
      "mean_token_accuracy": 0.6475641032059988,
      "num_tokens": 1752250559.0,
      "step": 10453
    },
    {
      "entropy": 1.6974846025307972,
      "epoch": 1.1484166872648376,
      "grad_norm": 0.7621778845787048,
      "learning_rate": 9.286901733039286e-06,
      "loss": 1.4146,
      "mean_token_accuracy": 0.6701687673727671,
      "num_tokens": 1752411368.0,
      "step": 10454
    },
    {
      "entropy": 1.7656433582305908,
      "epoch": 1.1485265441762105,
      "grad_norm": 0.7843154072761536,
      "learning_rate": 9.285329904121918e-06,
      "loss": 1.3917,
      "mean_token_accuracy": 0.658236563205719,
      "num_tokens": 1752544724.0,
      "step": 10455
    },
    {
      "entropy": 1.7151671946048737,
      "epoch": 1.1486364010875834,
      "grad_norm": 0.6612775325775146,
      "learning_rate": 9.283758129473088e-06,
      "loss": 1.3915,
      "mean_token_accuracy": 0.6535660674174627,
      "num_tokens": 1752679479.0,
      "step": 10456
    },
    {
      "entropy": 1.7036021947860718,
      "epoch": 1.1487462579989565,
      "grad_norm": 0.6847598552703857,
      "learning_rate": 9.282186409142542e-06,
      "loss": 1.3911,
      "mean_token_accuracy": 0.6572980483373007,
      "num_tokens": 1752868566.0,
      "step": 10457
    },
    {
      "entropy": 1.7341304918130238,
      "epoch": 1.1488561149103294,
      "grad_norm": 0.66192227602005,
      "learning_rate": 9.280614743180019e-06,
      "loss": 1.4441,
      "mean_token_accuracy": 0.6463885257641474,
      "num_tokens": 1753043553.0,
      "step": 10458
    },
    {
      "entropy": 1.7356309394041698,
      "epoch": 1.1489659718217022,
      "grad_norm": 0.7760790586471558,
      "learning_rate": 9.279043131635266e-06,
      "loss": 1.483,
      "mean_token_accuracy": 0.6427653779586157,
      "num_tokens": 1753185343.0,
      "step": 10459
    },
    {
      "entropy": 1.7046063840389252,
      "epoch": 1.1490758287330751,
      "grad_norm": 0.6848695874214172,
      "learning_rate": 9.277471574558023e-06,
      "loss": 1.4344,
      "mean_token_accuracy": 0.6615995417038599,
      "num_tokens": 1753355296.0,
      "step": 10460
    },
    {
      "entropy": 1.7546161313851674,
      "epoch": 1.149185685644448,
      "grad_norm": 0.6744615435600281,
      "learning_rate": 9.275900071998028e-06,
      "loss": 1.3556,
      "mean_token_accuracy": 0.6578517059485117,
      "num_tokens": 1753553622.0,
      "step": 10461
    },
    {
      "entropy": 1.7109164694945018,
      "epoch": 1.1492955425558211,
      "grad_norm": 0.6636914014816284,
      "learning_rate": 9.274328624005019e-06,
      "loss": 1.3815,
      "mean_token_accuracy": 0.6661298722028732,
      "num_tokens": 1753736512.0,
      "step": 10462
    },
    {
      "entropy": 1.6936496595541637,
      "epoch": 1.149405399467194,
      "grad_norm": 0.7392176389694214,
      "learning_rate": 9.272757230628731e-06,
      "loss": 1.5186,
      "mean_token_accuracy": 0.6480444173018137,
      "num_tokens": 1753937725.0,
      "step": 10463
    },
    {
      "entropy": 1.7084623177846272,
      "epoch": 1.1495152563785669,
      "grad_norm": 0.7401105165481567,
      "learning_rate": 9.271185891918896e-06,
      "loss": 1.3537,
      "mean_token_accuracy": 0.6713838477929434,
      "num_tokens": 1754103003.0,
      "step": 10464
    },
    {
      "entropy": 1.686184932788213,
      "epoch": 1.1496251132899398,
      "grad_norm": 0.6153541803359985,
      "learning_rate": 9.269614607925255e-06,
      "loss": 1.5945,
      "mean_token_accuracy": 0.6229482889175415,
      "num_tokens": 1754331188.0,
      "step": 10465
    },
    {
      "entropy": 1.7238997519016266,
      "epoch": 1.1497349702013129,
      "grad_norm": 0.7695441246032715,
      "learning_rate": 9.268043378697527e-06,
      "loss": 1.4725,
      "mean_token_accuracy": 0.6536758492390314,
      "num_tokens": 1754507673.0,
      "step": 10466
    },
    {
      "entropy": 1.710547149181366,
      "epoch": 1.1498448271126858,
      "grad_norm": 0.6528117060661316,
      "learning_rate": 9.266472204285443e-06,
      "loss": 1.3943,
      "mean_token_accuracy": 0.6460304210583369,
      "num_tokens": 1754693959.0,
      "step": 10467
    },
    {
      "entropy": 1.6860848863919575,
      "epoch": 1.1499546840240586,
      "grad_norm": 0.6279901266098022,
      "learning_rate": 9.264901084738737e-06,
      "loss": 1.3695,
      "mean_token_accuracy": 0.6599749426047007,
      "num_tokens": 1754862001.0,
      "step": 10468
    },
    {
      "entropy": 1.7022302746772766,
      "epoch": 1.1500645409354315,
      "grad_norm": 0.6494450569152832,
      "learning_rate": 9.263330020107131e-06,
      "loss": 1.3224,
      "mean_token_accuracy": 0.6655841370423635,
      "num_tokens": 1755021180.0,
      "step": 10469
    },
    {
      "entropy": 1.7287100454171498,
      "epoch": 1.1501743978468046,
      "grad_norm": 0.8179412484169006,
      "learning_rate": 9.261759010440343e-06,
      "loss": 1.4208,
      "mean_token_accuracy": 0.6409466514984766,
      "num_tokens": 1755199159.0,
      "step": 10470
    },
    {
      "entropy": 1.6620949506759644,
      "epoch": 1.1502842547581775,
      "grad_norm": 0.7252711057662964,
      "learning_rate": 9.260188055788104e-06,
      "loss": 1.3515,
      "mean_token_accuracy": 0.6578169663747152,
      "num_tokens": 1755368309.0,
      "step": 10471
    },
    {
      "entropy": 1.6833390891551971,
      "epoch": 1.1503941116695504,
      "grad_norm": 0.6849291324615479,
      "learning_rate": 9.258617156200127e-06,
      "loss": 1.3125,
      "mean_token_accuracy": 0.6736855655908585,
      "num_tokens": 1755533771.0,
      "step": 10472
    },
    {
      "entropy": 1.7997891108194988,
      "epoch": 1.1505039685809233,
      "grad_norm": 0.7142224907875061,
      "learning_rate": 9.257046311726128e-06,
      "loss": 1.4591,
      "mean_token_accuracy": 0.6437089890241623,
      "num_tokens": 1755708002.0,
      "step": 10473
    },
    {
      "entropy": 1.7047271529833476,
      "epoch": 1.1506138254922962,
      "grad_norm": 0.700008749961853,
      "learning_rate": 9.255475522415834e-06,
      "loss": 1.4242,
      "mean_token_accuracy": 0.6596666872501373,
      "num_tokens": 1755849614.0,
      "step": 10474
    },
    {
      "entropy": 1.7262776792049408,
      "epoch": 1.1507236824036693,
      "grad_norm": 0.6418355703353882,
      "learning_rate": 9.25390478831895e-06,
      "loss": 1.4052,
      "mean_token_accuracy": 0.6510264078776041,
      "num_tokens": 1756022118.0,
      "step": 10475
    },
    {
      "entropy": 1.7786755760510762,
      "epoch": 1.1508335393150422,
      "grad_norm": 0.9499866962432861,
      "learning_rate": 9.252334109485193e-06,
      "loss": 1.6351,
      "mean_token_accuracy": 0.632032627860705,
      "num_tokens": 1756176047.0,
      "step": 10476
    },
    {
      "entropy": 1.7582121590773265,
      "epoch": 1.150943396226415,
      "grad_norm": 2.6958770751953125,
      "learning_rate": 9.250763485964276e-06,
      "loss": 1.1807,
      "mean_token_accuracy": 0.6710349669059118,
      "num_tokens": 1756372478.0,
      "step": 10477
    },
    {
      "entropy": 1.7144115070501964,
      "epoch": 1.151053253137788,
      "grad_norm": 0.6320227384567261,
      "learning_rate": 9.249192917805905e-06,
      "loss": 1.3936,
      "mean_token_accuracy": 0.6546385983626047,
      "num_tokens": 1756525920.0,
      "step": 10478
    },
    {
      "entropy": 1.749243050813675,
      "epoch": 1.151163110049161,
      "grad_norm": 0.7566484212875366,
      "learning_rate": 9.247622405059786e-06,
      "loss": 1.414,
      "mean_token_accuracy": 0.6681007444858551,
      "num_tokens": 1756682079.0,
      "step": 10479
    },
    {
      "entropy": 1.7483246127764385,
      "epoch": 1.151272966960534,
      "grad_norm": 0.7398757934570312,
      "learning_rate": 9.246051947775635e-06,
      "loss": 1.4072,
      "mean_token_accuracy": 0.6565983096758524,
      "num_tokens": 1756881456.0,
      "step": 10480
    },
    {
      "entropy": 1.7031634449958801,
      "epoch": 1.1513828238719068,
      "grad_norm": 0.6389073133468628,
      "learning_rate": 9.244481546003146e-06,
      "loss": 1.3583,
      "mean_token_accuracy": 0.660191277662913,
      "num_tokens": 1757043583.0,
      "step": 10481
    },
    {
      "entropy": 1.6907376945018768,
      "epoch": 1.1514926807832797,
      "grad_norm": 0.6452929377555847,
      "learning_rate": 9.242911199792024e-06,
      "loss": 1.3741,
      "mean_token_accuracy": 0.6537407586971918,
      "num_tokens": 1757198541.0,
      "step": 10482
    },
    {
      "entropy": 1.7258997162183125,
      "epoch": 1.1516025376946528,
      "grad_norm": 0.6563553810119629,
      "learning_rate": 9.24134090919197e-06,
      "loss": 1.3968,
      "mean_token_accuracy": 0.6483776172002157,
      "num_tokens": 1757403114.0,
      "step": 10483
    },
    {
      "entropy": 1.5953759948412578,
      "epoch": 1.1517123946060257,
      "grad_norm": 1.8490371704101562,
      "learning_rate": 9.239770674252689e-06,
      "loss": 1.0496,
      "mean_token_accuracy": 0.7037697086731592,
      "num_tokens": 1757563792.0,
      "step": 10484
    },
    {
      "entropy": 1.6668463846047719,
      "epoch": 1.1518222515173986,
      "grad_norm": 0.696306049823761,
      "learning_rate": 9.238200495023867e-06,
      "loss": 1.4716,
      "mean_token_accuracy": 0.6465398073196411,
      "num_tokens": 1757728133.0,
      "step": 10485
    },
    {
      "entropy": 1.702815721432368,
      "epoch": 1.1519321084287715,
      "grad_norm": 0.7206531167030334,
      "learning_rate": 9.236630371555208e-06,
      "loss": 1.354,
      "mean_token_accuracy": 0.669020434220632,
      "num_tokens": 1757887891.0,
      "step": 10486
    },
    {
      "entropy": 1.6901472806930542,
      "epoch": 1.1520419653401444,
      "grad_norm": 0.6455077528953552,
      "learning_rate": 9.235060303896404e-06,
      "loss": 1.4898,
      "mean_token_accuracy": 0.6457482799887657,
      "num_tokens": 1758055648.0,
      "step": 10487
    },
    {
      "entropy": 1.6960370043913524,
      "epoch": 1.1521518222515175,
      "grad_norm": 0.7689752578735352,
      "learning_rate": 9.233490292097143e-06,
      "loss": 1.475,
      "mean_token_accuracy": 0.6641001453002294,
      "num_tokens": 1758224944.0,
      "step": 10488
    },
    {
      "entropy": 1.6482413212458293,
      "epoch": 1.1522616791628904,
      "grad_norm": 0.6643248796463013,
      "learning_rate": 9.231920336207123e-06,
      "loss": 1.3675,
      "mean_token_accuracy": 0.6523696879545847,
      "num_tokens": 1758393832.0,
      "step": 10489
    },
    {
      "entropy": 1.752677987019221,
      "epoch": 1.1523715360742632,
      "grad_norm": 0.684615969657898,
      "learning_rate": 9.230350436276026e-06,
      "loss": 1.3543,
      "mean_token_accuracy": 0.663479283452034,
      "num_tokens": 1758530887.0,
      "step": 10490
    },
    {
      "entropy": 1.6707546810309093,
      "epoch": 1.1524813929856361,
      "grad_norm": 0.5739973783493042,
      "learning_rate": 9.228780592353538e-06,
      "loss": 1.3706,
      "mean_token_accuracy": 0.6499018023411433,
      "num_tokens": 1758710774.0,
      "step": 10491
    },
    {
      "entropy": 1.7167290846506755,
      "epoch": 1.1525912498970092,
      "grad_norm": 0.6053609848022461,
      "learning_rate": 9.227210804489348e-06,
      "loss": 1.4804,
      "mean_token_accuracy": 0.6375697354475657,
      "num_tokens": 1758891290.0,
      "step": 10492
    },
    {
      "entropy": 1.7572990953922272,
      "epoch": 1.1527011068083821,
      "grad_norm": 0.8494213819503784,
      "learning_rate": 9.225641072733136e-06,
      "loss": 1.6531,
      "mean_token_accuracy": 0.6410497824350992,
      "num_tokens": 1759083232.0,
      "step": 10493
    },
    {
      "entropy": 1.7099438905715942,
      "epoch": 1.152810963719755,
      "grad_norm": 0.6985329389572144,
      "learning_rate": 9.224071397134585e-06,
      "loss": 1.548,
      "mean_token_accuracy": 0.6346048961083094,
      "num_tokens": 1759304006.0,
      "step": 10494
    },
    {
      "entropy": 1.7394586006800334,
      "epoch": 1.1529208206311279,
      "grad_norm": 0.5961000919342041,
      "learning_rate": 9.222501777743375e-06,
      "loss": 1.2539,
      "mean_token_accuracy": 0.6759810944398245,
      "num_tokens": 1759443975.0,
      "step": 10495
    },
    {
      "entropy": 1.6950910985469818,
      "epoch": 1.153030677542501,
      "grad_norm": 0.6235581636428833,
      "learning_rate": 9.220932214609181e-06,
      "loss": 1.2665,
      "mean_token_accuracy": 0.6792470415433248,
      "num_tokens": 1759580860.0,
      "step": 10496
    },
    {
      "entropy": 1.7201534907023113,
      "epoch": 1.1531405344538739,
      "grad_norm": 0.6948989629745483,
      "learning_rate": 9.21936270778168e-06,
      "loss": 1.3425,
      "mean_token_accuracy": 0.6627224882443746,
      "num_tokens": 1759735334.0,
      "step": 10497
    },
    {
      "entropy": 1.655206690231959,
      "epoch": 1.1532503913652468,
      "grad_norm": 0.5705309510231018,
      "learning_rate": 9.217793257310552e-06,
      "loss": 1.3007,
      "mean_token_accuracy": 0.676471064488093,
      "num_tokens": 1759958339.0,
      "step": 10498
    },
    {
      "entropy": 1.708439866701762,
      "epoch": 1.1533602482766196,
      "grad_norm": 0.7828124761581421,
      "learning_rate": 9.216223863245459e-06,
      "loss": 1.5709,
      "mean_token_accuracy": 0.6466249401370684,
      "num_tokens": 1760152326.0,
      "step": 10499
    },
    {
      "entropy": 1.7445420026779175,
      "epoch": 1.1534701051879925,
      "grad_norm": 0.7042776346206665,
      "learning_rate": 9.214654525636078e-06,
      "loss": 1.3096,
      "mean_token_accuracy": 0.6746334433555603,
      "num_tokens": 1760290174.0,
      "step": 10500
    },
    {
      "entropy": 1.681450366973877,
      "epoch": 1.1535799620993656,
      "grad_norm": 0.6809564828872681,
      "learning_rate": 9.21308524453208e-06,
      "loss": 1.2993,
      "mean_token_accuracy": 0.6653634657462438,
      "num_tokens": 1760441480.0,
      "step": 10501
    },
    {
      "entropy": 1.7187366684277852,
      "epoch": 1.1536898190107385,
      "grad_norm": 0.57969069480896,
      "learning_rate": 9.211516019983127e-06,
      "loss": 1.3651,
      "mean_token_accuracy": 0.6566129624843597,
      "num_tokens": 1760598812.0,
      "step": 10502
    },
    {
      "entropy": 1.7298386891682942,
      "epoch": 1.1537996759221114,
      "grad_norm": 0.7230368256568909,
      "learning_rate": 9.209946852038882e-06,
      "loss": 1.5234,
      "mean_token_accuracy": 0.6430017203092575,
      "num_tokens": 1760754936.0,
      "step": 10503
    },
    {
      "entropy": 1.7077820599079132,
      "epoch": 1.1539095328334843,
      "grad_norm": 0.7134849429130554,
      "learning_rate": 9.20837774074902e-06,
      "loss": 1.3521,
      "mean_token_accuracy": 0.6613487799962362,
      "num_tokens": 1760918109.0,
      "step": 10504
    },
    {
      "entropy": 1.6505942145983379,
      "epoch": 1.1540193897448574,
      "grad_norm": 0.649359405040741,
      "learning_rate": 9.20680868616319e-06,
      "loss": 1.5086,
      "mean_token_accuracy": 0.6458548208077749,
      "num_tokens": 1761083688.0,
      "step": 10505
    },
    {
      "entropy": 1.636115938425064,
      "epoch": 1.1541292466562303,
      "grad_norm": 0.7054543495178223,
      "learning_rate": 9.205239688331056e-06,
      "loss": 1.415,
      "mean_token_accuracy": 0.6505183627208074,
      "num_tokens": 1761280525.0,
      "step": 10506
    },
    {
      "entropy": 1.7434692879517872,
      "epoch": 1.1542391035676032,
      "grad_norm": 0.7469452619552612,
      "learning_rate": 9.203670747302283e-06,
      "loss": 1.3334,
      "mean_token_accuracy": 0.6721020837624868,
      "num_tokens": 1761449006.0,
      "step": 10507
    },
    {
      "entropy": 1.71237579981486,
      "epoch": 1.154348960478976,
      "grad_norm": 0.799959659576416,
      "learning_rate": 9.202101863126516e-06,
      "loss": 1.5013,
      "mean_token_accuracy": 0.6525566975275675,
      "num_tokens": 1761612171.0,
      "step": 10508
    },
    {
      "entropy": 1.7190298636754353,
      "epoch": 1.1544588173903492,
      "grad_norm": 0.7386515140533447,
      "learning_rate": 9.200533035853414e-06,
      "loss": 1.3877,
      "mean_token_accuracy": 0.6623720477024714,
      "num_tokens": 1761765552.0,
      "step": 10509
    },
    {
      "entropy": 1.708103507757187,
      "epoch": 1.154568674301722,
      "grad_norm": 0.7165181040763855,
      "learning_rate": 9.198964265532638e-06,
      "loss": 1.372,
      "mean_token_accuracy": 0.6593515028556188,
      "num_tokens": 1761922081.0,
      "step": 10510
    },
    {
      "entropy": 1.682081123193105,
      "epoch": 1.154678531213095,
      "grad_norm": 0.7013752460479736,
      "learning_rate": 9.197395552213823e-06,
      "loss": 1.384,
      "mean_token_accuracy": 0.6498614301284155,
      "num_tokens": 1762114261.0,
      "step": 10511
    },
    {
      "entropy": 1.7438469529151917,
      "epoch": 1.1547883881244678,
      "grad_norm": 0.8890546560287476,
      "learning_rate": 9.195826895946629e-06,
      "loss": 1.6896,
      "mean_token_accuracy": 0.6446986744801203,
      "num_tokens": 1762363635.0,
      "step": 10512
    },
    {
      "entropy": 1.7093018889427185,
      "epoch": 1.1548982450358407,
      "grad_norm": 0.7026628255844116,
      "learning_rate": 9.194258296780705e-06,
      "loss": 1.34,
      "mean_token_accuracy": 0.6579982489347458,
      "num_tokens": 1762525972.0,
      "step": 10513
    },
    {
      "entropy": 1.6976705988248189,
      "epoch": 1.1550081019472138,
      "grad_norm": 0.8118287324905396,
      "learning_rate": 9.19268975476569e-06,
      "loss": 1.225,
      "mean_token_accuracy": 0.673242911696434,
      "num_tokens": 1762630219.0,
      "step": 10514
    },
    {
      "entropy": 1.7051588793595631,
      "epoch": 1.1551179588585867,
      "grad_norm": 0.6836156249046326,
      "learning_rate": 9.191121269951226e-06,
      "loss": 1.3528,
      "mean_token_accuracy": 0.6582736670970917,
      "num_tokens": 1762794612.0,
      "step": 10515
    },
    {
      "entropy": 1.7200697461764018,
      "epoch": 1.1552278157699596,
      "grad_norm": 0.6674354076385498,
      "learning_rate": 9.189552842386964e-06,
      "loss": 1.2994,
      "mean_token_accuracy": 0.6657363077004751,
      "num_tokens": 1762965830.0,
      "step": 10516
    },
    {
      "entropy": 1.7609045306841533,
      "epoch": 1.1553376726813325,
      "grad_norm": 0.6270747780799866,
      "learning_rate": 9.187984472122535e-06,
      "loss": 1.4016,
      "mean_token_accuracy": 0.6604256083567938,
      "num_tokens": 1763128044.0,
      "step": 10517
    },
    {
      "entropy": 1.659463216861089,
      "epoch": 1.1554475295927056,
      "grad_norm": 0.7091048955917358,
      "learning_rate": 9.186416159207582e-06,
      "loss": 1.4481,
      "mean_token_accuracy": 0.6355709036191305,
      "num_tokens": 1763315602.0,
      "step": 10518
    },
    {
      "entropy": 1.7180581390857697,
      "epoch": 1.1555573865040785,
      "grad_norm": 0.7278168797492981,
      "learning_rate": 9.184847903691743e-06,
      "loss": 1.3962,
      "mean_token_accuracy": 0.6445047954718272,
      "num_tokens": 1763462039.0,
      "step": 10519
    },
    {
      "entropy": 1.7248013814290364,
      "epoch": 1.1556672434154514,
      "grad_norm": 0.98234623670578,
      "learning_rate": 9.183279705624645e-06,
      "loss": 1.3433,
      "mean_token_accuracy": 0.6596641639868418,
      "num_tokens": 1763596149.0,
      "step": 10520
    },
    {
      "entropy": 1.7311313549677532,
      "epoch": 1.1557771003268242,
      "grad_norm": 0.6669163107872009,
      "learning_rate": 9.181711565055927e-06,
      "loss": 1.4256,
      "mean_token_accuracy": 0.6505987147490183,
      "num_tokens": 1763791721.0,
      "step": 10521
    },
    {
      "entropy": 1.722319593032201,
      "epoch": 1.1558869572381973,
      "grad_norm": 0.6654046177864075,
      "learning_rate": 9.180143482035223e-06,
      "loss": 1.3032,
      "mean_token_accuracy": 0.6619775195916494,
      "num_tokens": 1763927643.0,
      "step": 10522
    },
    {
      "entropy": 1.7048958043257396,
      "epoch": 1.1559968141495702,
      "grad_norm": 0.6961905360221863,
      "learning_rate": 9.178575456612154e-06,
      "loss": 1.2973,
      "mean_token_accuracy": 0.6727237900098165,
      "num_tokens": 1764080454.0,
      "step": 10523
    },
    {
      "entropy": 1.7435453335444133,
      "epoch": 1.1561066710609431,
      "grad_norm": 0.7452827095985413,
      "learning_rate": 9.177007488836354e-06,
      "loss": 1.3283,
      "mean_token_accuracy": 0.670777623852094,
      "num_tokens": 1764211025.0,
      "step": 10524
    },
    {
      "entropy": 1.7101693550745647,
      "epoch": 1.156216527972316,
      "grad_norm": 1.0145291090011597,
      "learning_rate": 9.175439578757442e-06,
      "loss": 1.698,
      "mean_token_accuracy": 0.6353831539551417,
      "num_tokens": 1764418930.0,
      "step": 10525
    },
    {
      "entropy": 1.766825556755066,
      "epoch": 1.1563263848836889,
      "grad_norm": 0.7082020044326782,
      "learning_rate": 9.173871726425045e-06,
      "loss": 1.4726,
      "mean_token_accuracy": 0.6487270891666412,
      "num_tokens": 1764572213.0,
      "step": 10526
    },
    {
      "entropy": 1.7133028507232666,
      "epoch": 1.156436241795062,
      "grad_norm": 0.7147353887557983,
      "learning_rate": 9.17230393188879e-06,
      "loss": 1.2518,
      "mean_token_accuracy": 0.6745504637559255,
      "num_tokens": 1764723324.0,
      "step": 10527
    },
    {
      "entropy": 1.6591166456540425,
      "epoch": 1.1565460987064349,
      "grad_norm": 0.7346095442771912,
      "learning_rate": 9.170736195198287e-06,
      "loss": 1.4666,
      "mean_token_accuracy": 0.6519047121206919,
      "num_tokens": 1764898490.0,
      "step": 10528
    },
    {
      "entropy": 1.6714920202891033,
      "epoch": 1.1566559556178078,
      "grad_norm": 0.6665278673171997,
      "learning_rate": 9.169168516403158e-06,
      "loss": 1.3278,
      "mean_token_accuracy": 0.6733681559562683,
      "num_tokens": 1765035645.0,
      "step": 10529
    },
    {
      "entropy": 1.7320491870244343,
      "epoch": 1.1567658125291806,
      "grad_norm": 0.726340651512146,
      "learning_rate": 9.167600895553024e-06,
      "loss": 1.3063,
      "mean_token_accuracy": 0.6701697111129761,
      "num_tokens": 1765181838.0,
      "step": 10530
    },
    {
      "entropy": 1.6742952664693196,
      "epoch": 1.1568756694405538,
      "grad_norm": 0.9233806729316711,
      "learning_rate": 9.166033332697495e-06,
      "loss": 1.3761,
      "mean_token_accuracy": 0.66909788052241,
      "num_tokens": 1765313129.0,
      "step": 10531
    },
    {
      "entropy": 1.680614411830902,
      "epoch": 1.1569855263519266,
      "grad_norm": 0.6643198132514954,
      "learning_rate": 9.164465827886184e-06,
      "loss": 1.3118,
      "mean_token_accuracy": 0.6700858275095621,
      "num_tokens": 1765454598.0,
      "step": 10532
    },
    {
      "entropy": 1.7060332397619884,
      "epoch": 1.1570953832632995,
      "grad_norm": 0.6335230469703674,
      "learning_rate": 9.162898381168705e-06,
      "loss": 1.3871,
      "mean_token_accuracy": 0.6586262285709381,
      "num_tokens": 1765649572.0,
      "step": 10533
    },
    {
      "entropy": 1.71233864625295,
      "epoch": 1.1572052401746724,
      "grad_norm": 0.6753906011581421,
      "learning_rate": 9.161330992594662e-06,
      "loss": 1.4858,
      "mean_token_accuracy": 0.6469430774450302,
      "num_tokens": 1765840368.0,
      "step": 10534
    },
    {
      "entropy": 1.7542717456817627,
      "epoch": 1.1573150970860455,
      "grad_norm": 0.6666431427001953,
      "learning_rate": 9.159763662213664e-06,
      "loss": 1.4361,
      "mean_token_accuracy": 0.648838589588801,
      "num_tokens": 1765994363.0,
      "step": 10535
    },
    {
      "entropy": 1.6961637834707897,
      "epoch": 1.1574249539974184,
      "grad_norm": 0.7073807120323181,
      "learning_rate": 9.158196390075319e-06,
      "loss": 1.3327,
      "mean_token_accuracy": 0.6611540814240774,
      "num_tokens": 1766109247.0,
      "step": 10536
    },
    {
      "entropy": 1.680997868378957,
      "epoch": 1.1575348109087913,
      "grad_norm": 0.7748100757598877,
      "learning_rate": 9.156629176229225e-06,
      "loss": 1.3899,
      "mean_token_accuracy": 0.6582418978214264,
      "num_tokens": 1766252569.0,
      "step": 10537
    },
    {
      "entropy": 1.7486574749151866,
      "epoch": 1.1576446678201642,
      "grad_norm": 0.7355571389198303,
      "learning_rate": 9.15506202072499e-06,
      "loss": 1.4158,
      "mean_token_accuracy": 0.6534449557463328,
      "num_tokens": 1766416656.0,
      "step": 10538
    },
    {
      "entropy": 1.7009160220623016,
      "epoch": 1.157754524731537,
      "grad_norm": 0.6310091614723206,
      "learning_rate": 9.153494923612212e-06,
      "loss": 1.4498,
      "mean_token_accuracy": 0.6585008750359217,
      "num_tokens": 1766557961.0,
      "step": 10539
    },
    {
      "entropy": 1.7415493031342824,
      "epoch": 1.1578643816429102,
      "grad_norm": 0.6227964758872986,
      "learning_rate": 9.151927884940486e-06,
      "loss": 1.4646,
      "mean_token_accuracy": 0.6527653783559799,
      "num_tokens": 1766779349.0,
      "step": 10540
    },
    {
      "entropy": 1.7468430002530415,
      "epoch": 1.157974238554283,
      "grad_norm": 0.7541377544403076,
      "learning_rate": 9.150360904759405e-06,
      "loss": 1.3462,
      "mean_token_accuracy": 0.668052484591802,
      "num_tokens": 1766924931.0,
      "step": 10541
    },
    {
      "entropy": 1.7139411966005962,
      "epoch": 1.158084095465656,
      "grad_norm": 0.8286843299865723,
      "learning_rate": 9.148793983118574e-06,
      "loss": 1.4628,
      "mean_token_accuracy": 0.6435067802667618,
      "num_tokens": 1767096773.0,
      "step": 10542
    },
    {
      "entropy": 1.732242186864217,
      "epoch": 1.1581939523770288,
      "grad_norm": 0.7068530917167664,
      "learning_rate": 9.147227120067576e-06,
      "loss": 1.3388,
      "mean_token_accuracy": 0.6692612071832021,
      "num_tokens": 1767257451.0,
      "step": 10543
    },
    {
      "entropy": 1.7326354285081227,
      "epoch": 1.158303809288402,
      "grad_norm": 0.8493311405181885,
      "learning_rate": 9.145660315656006e-06,
      "loss": 1.4362,
      "mean_token_accuracy": 0.6661918113629023,
      "num_tokens": 1767412405.0,
      "step": 10544
    },
    {
      "entropy": 1.797954519589742,
      "epoch": 1.1584136661997748,
      "grad_norm": 0.8520449995994568,
      "learning_rate": 9.144093569933454e-06,
      "loss": 1.5181,
      "mean_token_accuracy": 0.6419855256875356,
      "num_tokens": 1767572561.0,
      "step": 10545
    },
    {
      "entropy": 1.704055945078532,
      "epoch": 1.1585235231111477,
      "grad_norm": 0.6789255738258362,
      "learning_rate": 9.142526882949501e-06,
      "loss": 1.4423,
      "mean_token_accuracy": 0.6528183867534002,
      "num_tokens": 1767792584.0,
      "step": 10546
    },
    {
      "entropy": 1.7003831168015797,
      "epoch": 1.1586333800225206,
      "grad_norm": 0.6809309720993042,
      "learning_rate": 9.140960254753733e-06,
      "loss": 1.3725,
      "mean_token_accuracy": 0.6628607759873072,
      "num_tokens": 1767932953.0,
      "step": 10547
    },
    {
      "entropy": 1.7150506675243378,
      "epoch": 1.1587432369338937,
      "grad_norm": 0.9768050312995911,
      "learning_rate": 9.13939368539574e-06,
      "loss": 1.3804,
      "mean_token_accuracy": 0.6604229360818863,
      "num_tokens": 1768075316.0,
      "step": 10548
    },
    {
      "entropy": 1.6081635057926178,
      "epoch": 1.1588530938452666,
      "grad_norm": 0.6204017400741577,
      "learning_rate": 9.137827174925095e-06,
      "loss": 1.4556,
      "mean_token_accuracy": 0.6706610669692358,
      "num_tokens": 1768245765.0,
      "step": 10549
    },
    {
      "entropy": 1.6946631868680317,
      "epoch": 1.1589629507566395,
      "grad_norm": 0.6550582647323608,
      "learning_rate": 9.136260723391383e-06,
      "loss": 1.3747,
      "mean_token_accuracy": 0.6594513903061548,
      "num_tokens": 1768426866.0,
      "step": 10550
    },
    {
      "entropy": 1.6690677801767986,
      "epoch": 1.1590728076680124,
      "grad_norm": 0.7413309216499329,
      "learning_rate": 9.13469433084418e-06,
      "loss": 1.3875,
      "mean_token_accuracy": 0.653538167476654,
      "num_tokens": 1768621316.0,
      "step": 10551
    },
    {
      "entropy": 1.675765037536621,
      "epoch": 1.1591826645793852,
      "grad_norm": 0.7278109192848206,
      "learning_rate": 9.13312799733306e-06,
      "loss": 1.2493,
      "mean_token_accuracy": 0.6701826651891073,
      "num_tokens": 1768773290.0,
      "step": 10552
    },
    {
      "entropy": 1.6604806085427601,
      "epoch": 1.1592925214907583,
      "grad_norm": 0.7603628635406494,
      "learning_rate": 9.131561722907593e-06,
      "loss": 1.2599,
      "mean_token_accuracy": 0.6719126949707667,
      "num_tokens": 1768919033.0,
      "step": 10553
    },
    {
      "entropy": 1.7303833464781444,
      "epoch": 1.1594023784021312,
      "grad_norm": 0.71886146068573,
      "learning_rate": 9.129995507617362e-06,
      "loss": 1.6364,
      "mean_token_accuracy": 0.6442072639862696,
      "num_tokens": 1769065412.0,
      "step": 10554
    },
    {
      "entropy": 1.7273939549922943,
      "epoch": 1.1595122353135041,
      "grad_norm": 0.7979735732078552,
      "learning_rate": 9.128429351511929e-06,
      "loss": 1.4078,
      "mean_token_accuracy": 0.6563597470521927,
      "num_tokens": 1769204785.0,
      "step": 10555
    },
    {
      "entropy": 1.7173643112182617,
      "epoch": 1.1596220922248772,
      "grad_norm": 0.5847103595733643,
      "learning_rate": 9.126863254640863e-06,
      "loss": 1.4891,
      "mean_token_accuracy": 0.6459435870250066,
      "num_tokens": 1769424428.0,
      "step": 10556
    },
    {
      "entropy": 1.7192479570706685,
      "epoch": 1.15973194913625,
      "grad_norm": 0.7932802438735962,
      "learning_rate": 9.12529721705373e-06,
      "loss": 1.538,
      "mean_token_accuracy": 0.6482977941632271,
      "num_tokens": 1769575003.0,
      "step": 10557
    },
    {
      "entropy": 1.662235786517461,
      "epoch": 1.159841806047623,
      "grad_norm": 0.7710309028625488,
      "learning_rate": 9.123731238800098e-06,
      "loss": 1.4101,
      "mean_token_accuracy": 0.6681878517071406,
      "num_tokens": 1769738956.0,
      "step": 10558
    },
    {
      "entropy": 1.753949224948883,
      "epoch": 1.1599516629589959,
      "grad_norm": 0.7551962733268738,
      "learning_rate": 9.122165319929521e-06,
      "loss": 1.504,
      "mean_token_accuracy": 0.6444283723831177,
      "num_tokens": 1769908470.0,
      "step": 10559
    },
    {
      "entropy": 1.7544064223766327,
      "epoch": 1.1600615198703688,
      "grad_norm": 0.7502493262290955,
      "learning_rate": 9.120599460491572e-06,
      "loss": 1.3027,
      "mean_token_accuracy": 0.679939478635788,
      "num_tokens": 1770051861.0,
      "step": 10560
    },
    {
      "entropy": 1.728769302368164,
      "epoch": 1.1601713767817419,
      "grad_norm": 0.6876187920570374,
      "learning_rate": 9.119033660535802e-06,
      "loss": 1.3227,
      "mean_token_accuracy": 0.6703376968701681,
      "num_tokens": 1770199848.0,
      "step": 10561
    },
    {
      "entropy": 1.7336504260698955,
      "epoch": 1.1602812336931148,
      "grad_norm": 0.8140459060668945,
      "learning_rate": 9.117467920111767e-06,
      "loss": 1.2416,
      "mean_token_accuracy": 0.6855403482913971,
      "num_tokens": 1770304890.0,
      "step": 10562
    },
    {
      "entropy": 1.723543256521225,
      "epoch": 1.1603910906044876,
      "grad_norm": 0.8142033219337463,
      "learning_rate": 9.115902239269026e-06,
      "loss": 1.4238,
      "mean_token_accuracy": 0.6583587676286697,
      "num_tokens": 1770475091.0,
      "step": 10563
    },
    {
      "entropy": 1.7559408446153004,
      "epoch": 1.1605009475158605,
      "grad_norm": 0.708025336265564,
      "learning_rate": 9.114336618057126e-06,
      "loss": 1.3814,
      "mean_token_accuracy": 0.6672280778487524,
      "num_tokens": 1770627827.0,
      "step": 10564
    },
    {
      "entropy": 1.7441905339558919,
      "epoch": 1.1606108044272334,
      "grad_norm": 0.6231316328048706,
      "learning_rate": 9.112771056525625e-06,
      "loss": 1.3323,
      "mean_token_accuracy": 0.6605872611204783,
      "num_tokens": 1770819185.0,
      "step": 10565
    },
    {
      "entropy": 1.7347522576649983,
      "epoch": 1.1607206613386065,
      "grad_norm": 0.6096704602241516,
      "learning_rate": 9.111205554724071e-06,
      "loss": 1.3962,
      "mean_token_accuracy": 0.6540986547867457,
      "num_tokens": 1770986955.0,
      "step": 10566
    },
    {
      "entropy": 1.698427716890971,
      "epoch": 1.1608305182499794,
      "grad_norm": 0.6909480690956116,
      "learning_rate": 9.109640112702009e-06,
      "loss": 1.3849,
      "mean_token_accuracy": 0.6506121506293615,
      "num_tokens": 1771145897.0,
      "step": 10567
    },
    {
      "entropy": 1.6268266638120015,
      "epoch": 1.1609403751613523,
      "grad_norm": 0.5729960203170776,
      "learning_rate": 9.108074730508985e-06,
      "loss": 1.324,
      "mean_token_accuracy": 0.6655399600664774,
      "num_tokens": 1771300536.0,
      "step": 10568
    },
    {
      "entropy": 1.7214660545190175,
      "epoch": 1.1610502320727254,
      "grad_norm": 0.6441773772239685,
      "learning_rate": 9.106509408194543e-06,
      "loss": 1.2798,
      "mean_token_accuracy": 0.665215253829956,
      "num_tokens": 1771434573.0,
      "step": 10569
    },
    {
      "entropy": 1.7466843525568645,
      "epoch": 1.1611600889840983,
      "grad_norm": 0.6851255297660828,
      "learning_rate": 9.104944145808228e-06,
      "loss": 1.3357,
      "mean_token_accuracy": 0.6567875295877457,
      "num_tokens": 1771601038.0,
      "step": 10570
    },
    {
      "entropy": 1.7371169924736023,
      "epoch": 1.1612699458954712,
      "grad_norm": 0.8068298697471619,
      "learning_rate": 9.103378943399572e-06,
      "loss": 1.4549,
      "mean_token_accuracy": 0.646860788265864,
      "num_tokens": 1771772926.0,
      "step": 10571
    },
    {
      "entropy": 1.7305392722288768,
      "epoch": 1.161379802806844,
      "grad_norm": 0.7280715703964233,
      "learning_rate": 9.101813801018125e-06,
      "loss": 1.3148,
      "mean_token_accuracy": 0.6666086862484614,
      "num_tokens": 1771920615.0,
      "step": 10572
    },
    {
      "entropy": 1.7404690285523732,
      "epoch": 1.161489659718217,
      "grad_norm": 0.9056682586669922,
      "learning_rate": 9.100248718713406e-06,
      "loss": 1.4988,
      "mean_token_accuracy": 0.6431169708569845,
      "num_tokens": 1772118214.0,
      "step": 10573
    },
    {
      "entropy": 1.7107574343681335,
      "epoch": 1.16159951662959,
      "grad_norm": 0.663151204586029,
      "learning_rate": 9.098683696534964e-06,
      "loss": 1.4899,
      "mean_token_accuracy": 0.6537577112515768,
      "num_tokens": 1772305129.0,
      "step": 10574
    },
    {
      "entropy": 1.7315536936124165,
      "epoch": 1.161709373540963,
      "grad_norm": 0.6387749910354614,
      "learning_rate": 9.09711873453233e-06,
      "loss": 1.3131,
      "mean_token_accuracy": 0.659678096572558,
      "num_tokens": 1772445507.0,
      "step": 10575
    },
    {
      "entropy": 1.7294196883837383,
      "epoch": 1.1618192304523358,
      "grad_norm": 0.6368371844291687,
      "learning_rate": 9.095553832755026e-06,
      "loss": 1.4576,
      "mean_token_accuracy": 0.6409991731246313,
      "num_tokens": 1772685191.0,
      "step": 10576
    },
    {
      "entropy": 1.738920897245407,
      "epoch": 1.1619290873637087,
      "grad_norm": 0.5927242636680603,
      "learning_rate": 9.093988991252585e-06,
      "loss": 1.3886,
      "mean_token_accuracy": 0.6494887272516886,
      "num_tokens": 1772865464.0,
      "step": 10577
    },
    {
      "entropy": 1.6951357523600261,
      "epoch": 1.1620389442750816,
      "grad_norm": 0.7614024877548218,
      "learning_rate": 9.092424210074537e-06,
      "loss": 1.4212,
      "mean_token_accuracy": 0.6512744178374609,
      "num_tokens": 1773014220.0,
      "step": 10578
    },
    {
      "entropy": 1.6392890711625416,
      "epoch": 1.1621488011864547,
      "grad_norm": 0.6055826544761658,
      "learning_rate": 9.090859489270399e-06,
      "loss": 1.3891,
      "mean_token_accuracy": 0.655634676416715,
      "num_tokens": 1773199400.0,
      "step": 10579
    },
    {
      "entropy": 1.6917970776557922,
      "epoch": 1.1622586580978276,
      "grad_norm": 0.6927284002304077,
      "learning_rate": 9.0892948288897e-06,
      "loss": 1.3529,
      "mean_token_accuracy": 0.6633793711662292,
      "num_tokens": 1773382971.0,
      "step": 10580
    },
    {
      "entropy": 1.691469391187032,
      "epoch": 1.1623685150092005,
      "grad_norm": 0.7069520950317383,
      "learning_rate": 9.087730228981959e-06,
      "loss": 1.3401,
      "mean_token_accuracy": 0.6657597869634628,
      "num_tokens": 1773539956.0,
      "step": 10581
    },
    {
      "entropy": 1.6694080928961437,
      "epoch": 1.1624783719205736,
      "grad_norm": 0.6818525791168213,
      "learning_rate": 9.086165689596696e-06,
      "loss": 1.2939,
      "mean_token_accuracy": 0.6682254274686178,
      "num_tokens": 1773664225.0,
      "step": 10582
    },
    {
      "entropy": 1.6743863622347515,
      "epoch": 1.1625882288319465,
      "grad_norm": 0.8346628546714783,
      "learning_rate": 9.084601210783424e-06,
      "loss": 1.4255,
      "mean_token_accuracy": 0.6574391573667526,
      "num_tokens": 1773827963.0,
      "step": 10583
    },
    {
      "entropy": 1.6976170639197032,
      "epoch": 1.1626980857433193,
      "grad_norm": 0.6019466519355774,
      "learning_rate": 9.083036792591662e-06,
      "loss": 1.4136,
      "mean_token_accuracy": 0.6440401424964269,
      "num_tokens": 1774002026.0,
      "step": 10584
    },
    {
      "entropy": 1.7483911216259003,
      "epoch": 1.1628079426546922,
      "grad_norm": 0.7636407613754272,
      "learning_rate": 9.081472435070917e-06,
      "loss": 1.4012,
      "mean_token_accuracy": 0.6655046790838242,
      "num_tokens": 1774159224.0,
      "step": 10585
    },
    {
      "entropy": 1.6063493490219116,
      "epoch": 1.1629177995660651,
      "grad_norm": 0.6063027381896973,
      "learning_rate": 9.079908138270711e-06,
      "loss": 1.3721,
      "mean_token_accuracy": 0.6649445941050848,
      "num_tokens": 1774345751.0,
      "step": 10586
    },
    {
      "entropy": 1.7763068775335948,
      "epoch": 1.1630276564774382,
      "grad_norm": 0.8216478228569031,
      "learning_rate": 9.078343902240546e-06,
      "loss": 1.4016,
      "mean_token_accuracy": 0.6733109205961227,
      "num_tokens": 1774478712.0,
      "step": 10587
    },
    {
      "entropy": 1.6169381241003673,
      "epoch": 1.163137513388811,
      "grad_norm": 0.6574183106422424,
      "learning_rate": 9.076779727029929e-06,
      "loss": 1.1698,
      "mean_token_accuracy": 0.6915866086880366,
      "num_tokens": 1774608731.0,
      "step": 10588
    },
    {
      "entropy": 1.756181428829829,
      "epoch": 1.163247370300184,
      "grad_norm": 0.7906789183616638,
      "learning_rate": 9.075215612688369e-06,
      "loss": 1.3784,
      "mean_token_accuracy": 0.6525656481583914,
      "num_tokens": 1774744469.0,
      "step": 10589
    },
    {
      "entropy": 1.7244456708431244,
      "epoch": 1.1633572272115569,
      "grad_norm": 0.7453427910804749,
      "learning_rate": 9.073651559265365e-06,
      "loss": 1.5139,
      "mean_token_accuracy": 0.6516165683666865,
      "num_tokens": 1774919441.0,
      "step": 10590
    },
    {
      "entropy": 1.6759937008221943,
      "epoch": 1.1634670841229298,
      "grad_norm": 0.741671085357666,
      "learning_rate": 9.072087566810422e-06,
      "loss": 1.385,
      "mean_token_accuracy": 0.6523188451925913,
      "num_tokens": 1775078071.0,
      "step": 10591
    },
    {
      "entropy": 1.72449991106987,
      "epoch": 1.1635769410343029,
      "grad_norm": 0.7586898803710938,
      "learning_rate": 9.07052363537304e-06,
      "loss": 1.2781,
      "mean_token_accuracy": 0.684979259967804,
      "num_tokens": 1775227702.0,
      "step": 10592
    },
    {
      "entropy": 1.6677986184755962,
      "epoch": 1.1636867979456758,
      "grad_norm": 0.731613278388977,
      "learning_rate": 9.068959765002714e-06,
      "loss": 1.5139,
      "mean_token_accuracy": 0.6585745165745417,
      "num_tokens": 1775376632.0,
      "step": 10593
    },
    {
      "entropy": 1.7536945442358653,
      "epoch": 1.1637966548570486,
      "grad_norm": 0.9093847274780273,
      "learning_rate": 9.06739595574894e-06,
      "loss": 1.3927,
      "mean_token_accuracy": 0.6645366350809733,
      "num_tokens": 1775517987.0,
      "step": 10594
    },
    {
      "entropy": 1.7309378584225972,
      "epoch": 1.1639065117684217,
      "grad_norm": 0.7094044089317322,
      "learning_rate": 9.065832207661218e-06,
      "loss": 1.3985,
      "mean_token_accuracy": 0.6560509552558264,
      "num_tokens": 1775747878.0,
      "step": 10595
    },
    {
      "entropy": 1.7115402321020763,
      "epoch": 1.1640163686797946,
      "grad_norm": 0.655071496963501,
      "learning_rate": 9.06426852078903e-06,
      "loss": 1.2848,
      "mean_token_accuracy": 0.6730567514896393,
      "num_tokens": 1775897435.0,
      "step": 10596
    },
    {
      "entropy": 1.7259460389614105,
      "epoch": 1.1641262255911675,
      "grad_norm": 0.6214396357536316,
      "learning_rate": 9.062704895181873e-06,
      "loss": 1.4306,
      "mean_token_accuracy": 0.6395227412382761,
      "num_tokens": 1776133092.0,
      "step": 10597
    },
    {
      "entropy": 1.6866820653279622,
      "epoch": 1.1642360825025404,
      "grad_norm": 0.9714513421058655,
      "learning_rate": 9.061141330889234e-06,
      "loss": 1.3075,
      "mean_token_accuracy": 0.6768196622530619,
      "num_tokens": 1776291999.0,
      "step": 10598
    },
    {
      "entropy": 1.6818428039550781,
      "epoch": 1.1643459394139133,
      "grad_norm": 0.6200037002563477,
      "learning_rate": 9.059577827960597e-06,
      "loss": 1.4208,
      "mean_token_accuracy": 0.6529973646004995,
      "num_tokens": 1776497288.0,
      "step": 10599
    },
    {
      "entropy": 1.686517169078191,
      "epoch": 1.1644557963252864,
      "grad_norm": 0.5967657566070557,
      "learning_rate": 9.058014386445449e-06,
      "loss": 1.3172,
      "mean_token_accuracy": 0.6720605492591858,
      "num_tokens": 1776678153.0,
      "step": 10600
    },
    {
      "entropy": 1.7095843454202015,
      "epoch": 1.1645656532366593,
      "grad_norm": 0.6960015892982483,
      "learning_rate": 9.05645100639327e-06,
      "loss": 1.5391,
      "mean_token_accuracy": 0.6424980262915293,
      "num_tokens": 1776864339.0,
      "step": 10601
    },
    {
      "entropy": 1.6995967328548431,
      "epoch": 1.1646755101480322,
      "grad_norm": 0.6774857044219971,
      "learning_rate": 9.05488768785354e-06,
      "loss": 1.4723,
      "mean_token_accuracy": 0.6477284729480743,
      "num_tokens": 1777018164.0,
      "step": 10602
    },
    {
      "entropy": 1.6932755609353383,
      "epoch": 1.164785367059405,
      "grad_norm": 0.6286726593971252,
      "learning_rate": 9.053324430875734e-06,
      "loss": 1.3633,
      "mean_token_accuracy": 0.6565052568912506,
      "num_tokens": 1777149134.0,
      "step": 10603
    },
    {
      "entropy": 1.6836401224136353,
      "epoch": 1.164895223970778,
      "grad_norm": 0.8434138894081116,
      "learning_rate": 9.051761235509339e-06,
      "loss": 1.3775,
      "mean_token_accuracy": 0.6582860300938288,
      "num_tokens": 1777336064.0,
      "step": 10604
    },
    {
      "entropy": 1.6700752675533295,
      "epoch": 1.165005080882151,
      "grad_norm": 0.6058101058006287,
      "learning_rate": 9.050198101803822e-06,
      "loss": 1.3903,
      "mean_token_accuracy": 0.654156357049942,
      "num_tokens": 1777523437.0,
      "step": 10605
    },
    {
      "entropy": 1.754345069328944,
      "epoch": 1.165114937793524,
      "grad_norm": 0.7618310451507568,
      "learning_rate": 9.048635029808654e-06,
      "loss": 1.3307,
      "mean_token_accuracy": 0.6736029783884684,
      "num_tokens": 1777664563.0,
      "step": 10606
    },
    {
      "entropy": 1.722790112098058,
      "epoch": 1.1652247947048968,
      "grad_norm": 0.5938490033149719,
      "learning_rate": 9.04707201957331e-06,
      "loss": 1.3779,
      "mean_token_accuracy": 0.6630453765392303,
      "num_tokens": 1777833158.0,
      "step": 10607
    },
    {
      "entropy": 1.7870861391226451,
      "epoch": 1.16533465161627,
      "grad_norm": 0.7509839534759521,
      "learning_rate": 9.045509071147255e-06,
      "loss": 1.3353,
      "mean_token_accuracy": 0.665691594282786,
      "num_tokens": 1777949791.0,
      "step": 10608
    },
    {
      "entropy": 1.6829339563846588,
      "epoch": 1.1654445085276428,
      "grad_norm": 0.6705135703086853,
      "learning_rate": 9.043946184579957e-06,
      "loss": 1.2543,
      "mean_token_accuracy": 0.6714605540037155,
      "num_tokens": 1778052170.0,
      "step": 10609
    },
    {
      "entropy": 1.7535866002241771,
      "epoch": 1.1655543654390157,
      "grad_norm": 0.8111270666122437,
      "learning_rate": 9.042383359920886e-06,
      "loss": 1.3505,
      "mean_token_accuracy": 0.6616497834523519,
      "num_tokens": 1778182029.0,
      "step": 10610
    },
    {
      "entropy": 1.6741001804669697,
      "epoch": 1.1656642223503886,
      "grad_norm": 0.5639720559120178,
      "learning_rate": 9.040820597219493e-06,
      "loss": 1.4687,
      "mean_token_accuracy": 0.6465960890054703,
      "num_tokens": 1778397245.0,
      "step": 10611
    },
    {
      "entropy": 1.7868964572747548,
      "epoch": 1.1657740792617615,
      "grad_norm": 0.7194597125053406,
      "learning_rate": 9.039257896525249e-06,
      "loss": 1.5443,
      "mean_token_accuracy": 0.6437151481707891,
      "num_tokens": 1778582965.0,
      "step": 10612
    },
    {
      "entropy": 1.7630162437756856,
      "epoch": 1.1658839361731346,
      "grad_norm": 0.7208252549171448,
      "learning_rate": 9.037695257887608e-06,
      "loss": 1.4503,
      "mean_token_accuracy": 0.6444578021764755,
      "num_tokens": 1778811502.0,
      "step": 10613
    },
    {
      "entropy": 1.628514697154363,
      "epoch": 1.1659937930845075,
      "grad_norm": 0.6529536843299866,
      "learning_rate": 9.03613268135603e-06,
      "loss": 1.3149,
      "mean_token_accuracy": 0.6686781197786331,
      "num_tokens": 1778965602.0,
      "step": 10614
    },
    {
      "entropy": 1.6970041394233704,
      "epoch": 1.1661036499958803,
      "grad_norm": 0.7727194428443909,
      "learning_rate": 9.034570166979961e-06,
      "loss": 1.4644,
      "mean_token_accuracy": 0.6570507635672888,
      "num_tokens": 1779171505.0,
      "step": 10615
    },
    {
      "entropy": 1.7038895587126415,
      "epoch": 1.1662135069072532,
      "grad_norm": 0.6358299255371094,
      "learning_rate": 9.033007714808865e-06,
      "loss": 1.3361,
      "mean_token_accuracy": 0.6585201720396677,
      "num_tokens": 1779300269.0,
      "step": 10616
    },
    {
      "entropy": 1.6607412695884705,
      "epoch": 1.1663233638186263,
      "grad_norm": 0.641280472278595,
      "learning_rate": 9.03144532489219e-06,
      "loss": 1.2479,
      "mean_token_accuracy": 0.6724933038155237,
      "num_tokens": 1779431418.0,
      "step": 10617
    },
    {
      "entropy": 1.7358726660410564,
      "epoch": 1.1664332207299992,
      "grad_norm": 0.6991965770721436,
      "learning_rate": 9.029882997279383e-06,
      "loss": 1.3864,
      "mean_token_accuracy": 0.6562596013148626,
      "num_tokens": 1779579018.0,
      "step": 10618
    },
    {
      "entropy": 1.6888511975606282,
      "epoch": 1.166543077641372,
      "grad_norm": 0.6948026418685913,
      "learning_rate": 9.02832073201989e-06,
      "loss": 1.2935,
      "mean_token_accuracy": 0.6627761671940485,
      "num_tokens": 1779728921.0,
      "step": 10619
    },
    {
      "entropy": 1.6387386123339336,
      "epoch": 1.166652934552745,
      "grad_norm": 0.543950080871582,
      "learning_rate": 9.026758529163158e-06,
      "loss": 1.5132,
      "mean_token_accuracy": 0.6369695862134298,
      "num_tokens": 1779938084.0,
      "step": 10620
    },
    {
      "entropy": 1.696452538172404,
      "epoch": 1.166762791464118,
      "grad_norm": 0.8097180724143982,
      "learning_rate": 9.025196388758626e-06,
      "loss": 1.3434,
      "mean_token_accuracy": 0.6701660056908926,
      "num_tokens": 1780093963.0,
      "step": 10621
    },
    {
      "entropy": 1.6749595602353413,
      "epoch": 1.166872648375491,
      "grad_norm": 0.7634894251823425,
      "learning_rate": 9.023634310855744e-06,
      "loss": 1.3388,
      "mean_token_accuracy": 0.670145645737648,
      "num_tokens": 1780267420.0,
      "step": 10622
    },
    {
      "entropy": 1.6456829011440277,
      "epoch": 1.1669825052868639,
      "grad_norm": 0.7166178822517395,
      "learning_rate": 9.02207229550394e-06,
      "loss": 1.4062,
      "mean_token_accuracy": 0.6510950972636541,
      "num_tokens": 1780461631.0,
      "step": 10623
    },
    {
      "entropy": 1.731689711411794,
      "epoch": 1.1670923621982368,
      "grad_norm": 0.8911299109458923,
      "learning_rate": 9.020510342752662e-06,
      "loss": 1.3846,
      "mean_token_accuracy": 0.652527650197347,
      "num_tokens": 1780628175.0,
      "step": 10624
    },
    {
      "entropy": 1.7384942670663197,
      "epoch": 1.1672022191096096,
      "grad_norm": 0.7990009188652039,
      "learning_rate": 9.018948452651336e-06,
      "loss": 1.5015,
      "mean_token_accuracy": 0.6490287284056345,
      "num_tokens": 1780796578.0,
      "step": 10625
    },
    {
      "entropy": 1.7568972607453663,
      "epoch": 1.1673120760209827,
      "grad_norm": 0.6731627583503723,
      "learning_rate": 9.0173866252494e-06,
      "loss": 1.4538,
      "mean_token_accuracy": 0.6447356839974722,
      "num_tokens": 1780980358.0,
      "step": 10626
    },
    {
      "entropy": 1.7077033917109172,
      "epoch": 1.1674219329323556,
      "grad_norm": 1.3267916440963745,
      "learning_rate": 9.015824860596283e-06,
      "loss": 1.4833,
      "mean_token_accuracy": 0.6471607486406962,
      "num_tokens": 1781190806.0,
      "step": 10627
    },
    {
      "entropy": 1.7151707013448079,
      "epoch": 1.1675317898437285,
      "grad_norm": 0.6183844208717346,
      "learning_rate": 9.014263158741418e-06,
      "loss": 1.4084,
      "mean_token_accuracy": 0.6550938785076141,
      "num_tokens": 1781328149.0,
      "step": 10628
    },
    {
      "entropy": 1.7326987187067668,
      "epoch": 1.1676416467551014,
      "grad_norm": 0.7378236055374146,
      "learning_rate": 9.012701519734226e-06,
      "loss": 1.4359,
      "mean_token_accuracy": 0.6496442258358002,
      "num_tokens": 1781522900.0,
      "step": 10629
    },
    {
      "entropy": 1.6831368406613667,
      "epoch": 1.1677515036664745,
      "grad_norm": 0.6311535239219666,
      "learning_rate": 9.011139943624137e-06,
      "loss": 1.3995,
      "mean_token_accuracy": 0.6628275960683823,
      "num_tokens": 1781696717.0,
      "step": 10630
    },
    {
      "entropy": 1.754588007926941,
      "epoch": 1.1678613605778474,
      "grad_norm": 0.6265390515327454,
      "learning_rate": 9.009578430460572e-06,
      "loss": 1.5914,
      "mean_token_accuracy": 0.6241682320833206,
      "num_tokens": 1781891433.0,
      "step": 10631
    },
    {
      "entropy": 1.692752718925476,
      "epoch": 1.1679712174892203,
      "grad_norm": 0.6025134921073914,
      "learning_rate": 9.008016980292956e-06,
      "loss": 1.4682,
      "mean_token_accuracy": 0.6510246594746908,
      "num_tokens": 1782053228.0,
      "step": 10632
    },
    {
      "entropy": 1.7124259273211162,
      "epoch": 1.1680810744005932,
      "grad_norm": 0.7642148733139038,
      "learning_rate": 9.006455593170698e-06,
      "loss": 1.1932,
      "mean_token_accuracy": 0.6781323105096817,
      "num_tokens": 1782152083.0,
      "step": 10633
    },
    {
      "entropy": 1.6471915046374004,
      "epoch": 1.1681909313119663,
      "grad_norm": 0.6959193348884583,
      "learning_rate": 9.004894269143228e-06,
      "loss": 1.3874,
      "mean_token_accuracy": 0.6629950155814489,
      "num_tokens": 1782300299.0,
      "step": 10634
    },
    {
      "entropy": 1.6989375551541646,
      "epoch": 1.1683007882233392,
      "grad_norm": 0.6835771799087524,
      "learning_rate": 9.003333008259953e-06,
      "loss": 1.3153,
      "mean_token_accuracy": 0.6625100125869116,
      "num_tokens": 1782431834.0,
      "step": 10635
    },
    {
      "entropy": 1.7035725514094036,
      "epoch": 1.168410645134712,
      "grad_norm": 0.678627610206604,
      "learning_rate": 9.001771810570288e-06,
      "loss": 1.4835,
      "mean_token_accuracy": 0.6454518338044485,
      "num_tokens": 1782610660.0,
      "step": 10636
    },
    {
      "entropy": 1.7128291328748066,
      "epoch": 1.168520502046085,
      "grad_norm": 0.6007285118103027,
      "learning_rate": 9.000210676123648e-06,
      "loss": 1.3285,
      "mean_token_accuracy": 0.6597598244746526,
      "num_tokens": 1782755084.0,
      "step": 10637
    },
    {
      "entropy": 1.7302992641925812,
      "epoch": 1.1686303589574578,
      "grad_norm": 0.5934082865715027,
      "learning_rate": 8.998649604969436e-06,
      "loss": 1.3524,
      "mean_token_accuracy": 0.6561450411876043,
      "num_tokens": 1782932096.0,
      "step": 10638
    },
    {
      "entropy": 1.6810977458953857,
      "epoch": 1.168740215868831,
      "grad_norm": 0.616631269454956,
      "learning_rate": 8.997088597157062e-06,
      "loss": 1.4466,
      "mean_token_accuracy": 0.652444009979566,
      "num_tokens": 1783155895.0,
      "step": 10639
    },
    {
      "entropy": 1.7775660753250122,
      "epoch": 1.1688500727802038,
      "grad_norm": 0.859024703502655,
      "learning_rate": 8.995527652735933e-06,
      "loss": 1.3859,
      "mean_token_accuracy": 0.6765128125747045,
      "num_tokens": 1783280758.0,
      "step": 10640
    },
    {
      "entropy": 1.6725508570671082,
      "epoch": 1.1689599296915767,
      "grad_norm": 0.7639785408973694,
      "learning_rate": 8.99396677175545e-06,
      "loss": 1.409,
      "mean_token_accuracy": 0.6709824502468109,
      "num_tokens": 1783440353.0,
      "step": 10641
    },
    {
      "entropy": 1.7496330042680104,
      "epoch": 1.1690697866029496,
      "grad_norm": 0.6356641054153442,
      "learning_rate": 8.992405954265014e-06,
      "loss": 1.3488,
      "mean_token_accuracy": 0.665415291984876,
      "num_tokens": 1783593270.0,
      "step": 10642
    },
    {
      "entropy": 1.6593229870001476,
      "epoch": 1.1691796435143227,
      "grad_norm": 0.7678477168083191,
      "learning_rate": 8.990845200314027e-06,
      "loss": 1.3097,
      "mean_token_accuracy": 0.6617792199055353,
      "num_tokens": 1783719742.0,
      "step": 10643
    },
    {
      "entropy": 1.702727844317754,
      "epoch": 1.1692895004256956,
      "grad_norm": 0.682217538356781,
      "learning_rate": 8.989284509951881e-06,
      "loss": 1.3527,
      "mean_token_accuracy": 0.6565568794806799,
      "num_tokens": 1783873275.0,
      "step": 10644
    },
    {
      "entropy": 1.7255015075206757,
      "epoch": 1.1693993573370685,
      "grad_norm": 0.7633523344993591,
      "learning_rate": 8.98772388322798e-06,
      "loss": 1.3573,
      "mean_token_accuracy": 0.6607132703065872,
      "num_tokens": 1783994243.0,
      "step": 10645
    },
    {
      "entropy": 1.672673612833023,
      "epoch": 1.1695092142484413,
      "grad_norm": 0.7300711274147034,
      "learning_rate": 8.986163320191706e-06,
      "loss": 1.4695,
      "mean_token_accuracy": 0.6509375472863516,
      "num_tokens": 1784144916.0,
      "step": 10646
    },
    {
      "entropy": 1.7136195699373882,
      "epoch": 1.1696190711598144,
      "grad_norm": 0.5912143588066101,
      "learning_rate": 8.984602820892454e-06,
      "loss": 1.4903,
      "mean_token_accuracy": 0.6366753627856573,
      "num_tokens": 1784386249.0,
      "step": 10647
    },
    {
      "entropy": 1.6643874446551006,
      "epoch": 1.1697289280711873,
      "grad_norm": 0.8985964059829712,
      "learning_rate": 8.983042385379618e-06,
      "loss": 1.4004,
      "mean_token_accuracy": 0.6662670622269312,
      "num_tokens": 1784544876.0,
      "step": 10648
    },
    {
      "entropy": 1.6806229849656422,
      "epoch": 1.1698387849825602,
      "grad_norm": 0.6527777314186096,
      "learning_rate": 8.98148201370258e-06,
      "loss": 1.3905,
      "mean_token_accuracy": 0.6572650174299876,
      "num_tokens": 1784747792.0,
      "step": 10649
    },
    {
      "entropy": 1.7049620548884075,
      "epoch": 1.169948641893933,
      "grad_norm": 0.6680081486701965,
      "learning_rate": 8.979921705910729e-06,
      "loss": 1.4625,
      "mean_token_accuracy": 0.6404824604590734,
      "num_tokens": 1784944930.0,
      "step": 10650
    },
    {
      "entropy": 1.6514282921950023,
      "epoch": 1.170058498805306,
      "grad_norm": 0.6086418032646179,
      "learning_rate": 8.978361462053444e-06,
      "loss": 1.4598,
      "mean_token_accuracy": 0.6551013191541036,
      "num_tokens": 1785164307.0,
      "step": 10651
    },
    {
      "entropy": 1.6851195593674977,
      "epoch": 1.170168355716679,
      "grad_norm": 0.6363802552223206,
      "learning_rate": 8.976801282180108e-06,
      "loss": 1.4424,
      "mean_token_accuracy": 0.638342077533404,
      "num_tokens": 1785428083.0,
      "step": 10652
    },
    {
      "entropy": 1.7672754526138306,
      "epoch": 1.170278212628052,
      "grad_norm": 0.6229258179664612,
      "learning_rate": 8.975241166340097e-06,
      "loss": 1.435,
      "mean_token_accuracy": 0.6456956764062246,
      "num_tokens": 1785603506.0,
      "step": 10653
    },
    {
      "entropy": 1.672398070494334,
      "epoch": 1.1703880695394249,
      "grad_norm": 0.5889727473258972,
      "learning_rate": 8.973681114582795e-06,
      "loss": 1.3637,
      "mean_token_accuracy": 0.6640516370534897,
      "num_tokens": 1785801159.0,
      "step": 10654
    },
    {
      "entropy": 1.783601274092992,
      "epoch": 1.1704979264507978,
      "grad_norm": 0.7808632254600525,
      "learning_rate": 8.972121126957571e-06,
      "loss": 1.2955,
      "mean_token_accuracy": 0.6714789718389511,
      "num_tokens": 1785921513.0,
      "step": 10655
    },
    {
      "entropy": 1.7051396469275157,
      "epoch": 1.1706077833621709,
      "grad_norm": 0.7725319862365723,
      "learning_rate": 8.9705612035138e-06,
      "loss": 1.5335,
      "mean_token_accuracy": 0.6427340308825175,
      "num_tokens": 1786062181.0,
      "step": 10656
    },
    {
      "entropy": 1.7101481556892395,
      "epoch": 1.1707176402735437,
      "grad_norm": 0.7353886961936951,
      "learning_rate": 8.969001344300854e-06,
      "loss": 1.2933,
      "mean_token_accuracy": 0.6786648482084274,
      "num_tokens": 1786199326.0,
      "step": 10657
    },
    {
      "entropy": 1.7510856886704762,
      "epoch": 1.1708274971849166,
      "grad_norm": 0.7046499848365784,
      "learning_rate": 8.967441549368097e-06,
      "loss": 1.4565,
      "mean_token_accuracy": 0.6432525664567947,
      "num_tokens": 1786349644.0,
      "step": 10658
    },
    {
      "entropy": 1.6620566546916962,
      "epoch": 1.1709373540962895,
      "grad_norm": 0.5971559882164001,
      "learning_rate": 8.9658818187649e-06,
      "loss": 1.3713,
      "mean_token_accuracy": 0.6542538553476334,
      "num_tokens": 1786576097.0,
      "step": 10659
    },
    {
      "entropy": 1.7027663091818492,
      "epoch": 1.1710472110076626,
      "grad_norm": 1.0174574851989746,
      "learning_rate": 8.964322152540627e-06,
      "loss": 1.3846,
      "mean_token_accuracy": 0.6615005234877268,
      "num_tokens": 1786752269.0,
      "step": 10660
    },
    {
      "entropy": 1.734482745329539,
      "epoch": 1.1711570679190355,
      "grad_norm": 0.6983833909034729,
      "learning_rate": 8.962762550744642e-06,
      "loss": 1.341,
      "mean_token_accuracy": 0.6733351896206538,
      "num_tokens": 1786886030.0,
      "step": 10661
    },
    {
      "entropy": 1.7492407063643138,
      "epoch": 1.1712669248304084,
      "grad_norm": 0.7310764789581299,
      "learning_rate": 8.9612030134263e-06,
      "loss": 1.4714,
      "mean_token_accuracy": 0.6528683652480444,
      "num_tokens": 1787072947.0,
      "step": 10662
    },
    {
      "entropy": 1.5964481433232625,
      "epoch": 1.1713767817417813,
      "grad_norm": 0.6488633751869202,
      "learning_rate": 8.95964354063497e-06,
      "loss": 1.2987,
      "mean_token_accuracy": 0.6710949192444483,
      "num_tokens": 1787201005.0,
      "step": 10663
    },
    {
      "entropy": 1.7364132006963093,
      "epoch": 1.1714866386531542,
      "grad_norm": 0.7075624465942383,
      "learning_rate": 8.958084132419999e-06,
      "loss": 1.4657,
      "mean_token_accuracy": 0.6590905785560608,
      "num_tokens": 1787332503.0,
      "step": 10664
    },
    {
      "entropy": 1.7492092450459797,
      "epoch": 1.1715964955645273,
      "grad_norm": 0.6287668943405151,
      "learning_rate": 8.956524788830742e-06,
      "loss": 1.4,
      "mean_token_accuracy": 0.6587251722812653,
      "num_tokens": 1787490700.0,
      "step": 10665
    },
    {
      "entropy": 1.6878098646799724,
      "epoch": 1.1717063524759002,
      "grad_norm": 0.6984691023826599,
      "learning_rate": 8.95496550991656e-06,
      "loss": 1.4229,
      "mean_token_accuracy": 0.6428747077782949,
      "num_tokens": 1787656504.0,
      "step": 10666
    },
    {
      "entropy": 1.7307902872562408,
      "epoch": 1.171816209387273,
      "grad_norm": 0.636269748210907,
      "learning_rate": 8.953406295726796e-06,
      "loss": 1.5128,
      "mean_token_accuracy": 0.6517880360285441,
      "num_tokens": 1787851407.0,
      "step": 10667
    },
    {
      "entropy": 1.7220154702663422,
      "epoch": 1.171926066298646,
      "grad_norm": 0.6204155087471008,
      "learning_rate": 8.951847146310801e-06,
      "loss": 1.4483,
      "mean_token_accuracy": 0.6446654995282491,
      "num_tokens": 1788023011.0,
      "step": 10668
    },
    {
      "entropy": 1.7286285956700642,
      "epoch": 1.172035923210019,
      "grad_norm": 0.7028345465660095,
      "learning_rate": 8.950288061717924e-06,
      "loss": 1.5394,
      "mean_token_accuracy": 0.6381612122058868,
      "num_tokens": 1788248357.0,
      "step": 10669
    },
    {
      "entropy": 1.6964424749215443,
      "epoch": 1.172145780121392,
      "grad_norm": 0.780795693397522,
      "learning_rate": 8.948729041997502e-06,
      "loss": 1.4833,
      "mean_token_accuracy": 0.6638787587483724,
      "num_tokens": 1788381104.0,
      "step": 10670
    },
    {
      "entropy": 1.7409202357133229,
      "epoch": 1.1722556370327648,
      "grad_norm": 0.700515627861023,
      "learning_rate": 8.94717008719888e-06,
      "loss": 1.3702,
      "mean_token_accuracy": 0.6486127773920695,
      "num_tokens": 1788513068.0,
      "step": 10671
    },
    {
      "entropy": 1.6607150733470917,
      "epoch": 1.1723654939441377,
      "grad_norm": 0.6845481991767883,
      "learning_rate": 8.945611197371404e-06,
      "loss": 1.3526,
      "mean_token_accuracy": 0.6619810660680135,
      "num_tokens": 1788675191.0,
      "step": 10672
    },
    {
      "entropy": 1.6844545602798462,
      "epoch": 1.1724753508555108,
      "grad_norm": 0.5828627943992615,
      "learning_rate": 8.944052372564404e-06,
      "loss": 1.333,
      "mean_token_accuracy": 0.6642112135887146,
      "num_tokens": 1788823629.0,
      "step": 10673
    },
    {
      "entropy": 1.7418619493643444,
      "epoch": 1.1725852077668837,
      "grad_norm": 0.7149393558502197,
      "learning_rate": 8.942493612827223e-06,
      "loss": 1.4441,
      "mean_token_accuracy": 0.6542845120032629,
      "num_tokens": 1788993849.0,
      "step": 10674
    },
    {
      "entropy": 1.7660021980603535,
      "epoch": 1.1726950646782566,
      "grad_norm": 0.6694035530090332,
      "learning_rate": 8.940934918209193e-06,
      "loss": 1.4416,
      "mean_token_accuracy": 0.6477504769961039,
      "num_tokens": 1789149567.0,
      "step": 10675
    },
    {
      "entropy": 1.7088763415813446,
      "epoch": 1.1728049215896295,
      "grad_norm": 0.7105270028114319,
      "learning_rate": 8.939376288759643e-06,
      "loss": 1.4383,
      "mean_token_accuracy": 0.6585270663102468,
      "num_tokens": 1789297771.0,
      "step": 10676
    },
    {
      "entropy": 1.7306538224220276,
      "epoch": 1.1729147785010023,
      "grad_norm": 0.6987410187721252,
      "learning_rate": 8.937817724527901e-06,
      "loss": 1.4355,
      "mean_token_accuracy": 0.6463360438744227,
      "num_tokens": 1789463092.0,
      "step": 10677
    },
    {
      "entropy": 1.6846852699915569,
      "epoch": 1.1730246354123754,
      "grad_norm": 0.7629522085189819,
      "learning_rate": 8.936259225563306e-06,
      "loss": 1.2583,
      "mean_token_accuracy": 0.6747141232093176,
      "num_tokens": 1789581228.0,
      "step": 10678
    },
    {
      "entropy": 1.7274243632952373,
      "epoch": 1.1731344923237483,
      "grad_norm": 0.6886153221130371,
      "learning_rate": 8.934700791915171e-06,
      "loss": 1.3786,
      "mean_token_accuracy": 0.6586506168047587,
      "num_tokens": 1789767348.0,
      "step": 10679
    },
    {
      "entropy": 1.7268758118152618,
      "epoch": 1.1732443492351212,
      "grad_norm": 0.7361603379249573,
      "learning_rate": 8.933142423632828e-06,
      "loss": 1.3816,
      "mean_token_accuracy": 0.666677271326383,
      "num_tokens": 1789899146.0,
      "step": 10680
    },
    {
      "entropy": 1.6961700121561687,
      "epoch": 1.173354206146494,
      "grad_norm": 0.5983572006225586,
      "learning_rate": 8.931584120765598e-06,
      "loss": 1.4038,
      "mean_token_accuracy": 0.66066013276577,
      "num_tokens": 1790122194.0,
      "step": 10681
    },
    {
      "entropy": 1.7338594396909077,
      "epoch": 1.1734640630578672,
      "grad_norm": 0.6352316737174988,
      "learning_rate": 8.930025883362796e-06,
      "loss": 1.344,
      "mean_token_accuracy": 0.6731750816106796,
      "num_tokens": 1790289767.0,
      "step": 10682
    },
    {
      "entropy": 1.692486047744751,
      "epoch": 1.17357391996924,
      "grad_norm": 0.7538011074066162,
      "learning_rate": 8.928467711473741e-06,
      "loss": 1.4321,
      "mean_token_accuracy": 0.6721002409855524,
      "num_tokens": 1790441707.0,
      "step": 10683
    },
    {
      "entropy": 1.73250612616539,
      "epoch": 1.173683776880613,
      "grad_norm": 0.6547481417655945,
      "learning_rate": 8.926909605147751e-06,
      "loss": 1.345,
      "mean_token_accuracy": 0.6578451991081238,
      "num_tokens": 1790604605.0,
      "step": 10684
    },
    {
      "entropy": 1.6946922838687897,
      "epoch": 1.1737936337919859,
      "grad_norm": 0.6833810210227966,
      "learning_rate": 8.925351564434137e-06,
      "loss": 1.364,
      "mean_token_accuracy": 0.6670823097229004,
      "num_tokens": 1790749799.0,
      "step": 10685
    },
    {
      "entropy": 1.7278658747673035,
      "epoch": 1.173903490703359,
      "grad_norm": 0.6715664267539978,
      "learning_rate": 8.92379358938221e-06,
      "loss": 1.4199,
      "mean_token_accuracy": 0.6526618450880051,
      "num_tokens": 1790927175.0,
      "step": 10686
    },
    {
      "entropy": 1.7412831882635753,
      "epoch": 1.1740133476147319,
      "grad_norm": 0.8361808061599731,
      "learning_rate": 8.922235680041284e-06,
      "loss": 1.5667,
      "mean_token_accuracy": 0.661175494392713,
      "num_tokens": 1791071508.0,
      "step": 10687
    },
    {
      "entropy": 1.7346645096937816,
      "epoch": 1.1741232045261047,
      "grad_norm": 0.697149395942688,
      "learning_rate": 8.920677836460661e-06,
      "loss": 1.2796,
      "mean_token_accuracy": 0.6704900513092676,
      "num_tokens": 1791186740.0,
      "step": 10688
    },
    {
      "entropy": 1.742050697406133,
      "epoch": 1.1742330614374776,
      "grad_norm": 0.6318445801734924,
      "learning_rate": 8.919120058689643e-06,
      "loss": 1.5916,
      "mean_token_accuracy": 0.6259209712346395,
      "num_tokens": 1791436608.0,
      "step": 10689
    },
    {
      "entropy": 1.6182755033175151,
      "epoch": 1.1743429183488505,
      "grad_norm": 0.6061080098152161,
      "learning_rate": 8.917562346777544e-06,
      "loss": 1.4126,
      "mean_token_accuracy": 0.6556143959363302,
      "num_tokens": 1791640128.0,
      "step": 10690
    },
    {
      "entropy": 1.6585151453812916,
      "epoch": 1.1744527752602236,
      "grad_norm": 0.6770459413528442,
      "learning_rate": 8.916004700773656e-06,
      "loss": 1.2284,
      "mean_token_accuracy": 0.6863802125056585,
      "num_tokens": 1791778020.0,
      "step": 10691
    },
    {
      "entropy": 1.69165035088857,
      "epoch": 1.1745626321715965,
      "grad_norm": 0.5943127274513245,
      "learning_rate": 8.914447120727278e-06,
      "loss": 1.4704,
      "mean_token_accuracy": 0.6474858671426773,
      "num_tokens": 1792003193.0,
      "step": 10692
    },
    {
      "entropy": 1.6488823493321736,
      "epoch": 1.1746724890829694,
      "grad_norm": 0.6268026828765869,
      "learning_rate": 8.912889606687713e-06,
      "loss": 1.1967,
      "mean_token_accuracy": 0.687493771314621,
      "num_tokens": 1792114106.0,
      "step": 10693
    },
    {
      "entropy": 1.6368895769119263,
      "epoch": 1.1747823459943423,
      "grad_norm": 0.6344706416130066,
      "learning_rate": 8.911332158704248e-06,
      "loss": 1.4322,
      "mean_token_accuracy": 0.6635664999485016,
      "num_tokens": 1792283248.0,
      "step": 10694
    },
    {
      "entropy": 1.6913351913293202,
      "epoch": 1.1748922029057154,
      "grad_norm": 0.6644214987754822,
      "learning_rate": 8.909774776826179e-06,
      "loss": 1.4297,
      "mean_token_accuracy": 0.647185837229093,
      "num_tokens": 1792453230.0,
      "step": 10695
    },
    {
      "entropy": 1.7606900731722515,
      "epoch": 1.1750020598170883,
      "grad_norm": 0.6442691683769226,
      "learning_rate": 8.908217461102799e-06,
      "loss": 1.3776,
      "mean_token_accuracy": 0.6546642581621805,
      "num_tokens": 1792613034.0,
      "step": 10696
    },
    {
      "entropy": 1.7363630533218384,
      "epoch": 1.1751119167284612,
      "grad_norm": 0.8015692830085754,
      "learning_rate": 8.906660211583392e-06,
      "loss": 1.2139,
      "mean_token_accuracy": 0.6720298528671265,
      "num_tokens": 1792743828.0,
      "step": 10697
    },
    {
      "entropy": 1.7080905040105183,
      "epoch": 1.175221773639834,
      "grad_norm": 0.6090119481086731,
      "learning_rate": 8.905103028317245e-06,
      "loss": 1.4163,
      "mean_token_accuracy": 0.6519571195046107,
      "num_tokens": 1792938546.0,
      "step": 10698
    },
    {
      "entropy": 1.7202429076035817,
      "epoch": 1.1753316305512072,
      "grad_norm": 0.980828583240509,
      "learning_rate": 8.903545911353648e-06,
      "loss": 1.1951,
      "mean_token_accuracy": 0.6983717431624731,
      "num_tokens": 1793050711.0,
      "step": 10699
    },
    {
      "entropy": 1.6536558071772258,
      "epoch": 1.17544148746258,
      "grad_norm": 0.8090218305587769,
      "learning_rate": 8.901988860741875e-06,
      "loss": 1.4403,
      "mean_token_accuracy": 0.6533640176057816,
      "num_tokens": 1793218498.0,
      "step": 10700
    },
    {
      "entropy": 1.701753854751587,
      "epoch": 1.175551344373953,
      "grad_norm": 0.622660219669342,
      "learning_rate": 8.900431876531205e-06,
      "loss": 1.4098,
      "mean_token_accuracy": 0.6528751403093338,
      "num_tokens": 1793407396.0,
      "step": 10701
    },
    {
      "entropy": 1.743919461965561,
      "epoch": 1.1756612012853258,
      "grad_norm": 0.6665404438972473,
      "learning_rate": 8.898874958770928e-06,
      "loss": 1.3872,
      "mean_token_accuracy": 0.6619693537553152,
      "num_tokens": 1793570421.0,
      "step": 10702
    },
    {
      "entropy": 1.7298048436641693,
      "epoch": 1.1757710581966987,
      "grad_norm": 0.8393076658248901,
      "learning_rate": 8.897318107510307e-06,
      "loss": 1.5443,
      "mean_token_accuracy": 0.6459775815407435,
      "num_tokens": 1793738540.0,
      "step": 10703
    },
    {
      "entropy": 1.7660633722941081,
      "epoch": 1.1758809151080718,
      "grad_norm": 0.7265772223472595,
      "learning_rate": 8.895761322798622e-06,
      "loss": 1.471,
      "mean_token_accuracy": 0.6382889002561569,
      "num_tokens": 1793889951.0,
      "step": 10704
    },
    {
      "entropy": 1.7584838569164276,
      "epoch": 1.1759907720194447,
      "grad_norm": 0.6831865906715393,
      "learning_rate": 8.894204604685142e-06,
      "loss": 1.4035,
      "mean_token_accuracy": 0.6512691229581833,
      "num_tokens": 1794068010.0,
      "step": 10705
    },
    {
      "entropy": 1.7787149449189503,
      "epoch": 1.1761006289308176,
      "grad_norm": 0.8004885911941528,
      "learning_rate": 8.892647953219136e-06,
      "loss": 1.3326,
      "mean_token_accuracy": 0.6619590371847153,
      "num_tokens": 1794185919.0,
      "step": 10706
    },
    {
      "entropy": 1.6391962865988414,
      "epoch": 1.1762104858421905,
      "grad_norm": 0.6488991975784302,
      "learning_rate": 8.891091368449876e-06,
      "loss": 1.3778,
      "mean_token_accuracy": 0.6589486648639044,
      "num_tokens": 1794377843.0,
      "step": 10707
    },
    {
      "entropy": 1.73589222629865,
      "epoch": 1.1763203427535636,
      "grad_norm": 0.7107129693031311,
      "learning_rate": 8.88953485042662e-06,
      "loss": 1.3963,
      "mean_token_accuracy": 0.661611388127009,
      "num_tokens": 1794530068.0,
      "step": 10708
    },
    {
      "entropy": 1.691332995891571,
      "epoch": 1.1764301996649364,
      "grad_norm": 0.7042721509933472,
      "learning_rate": 8.887978399198636e-06,
      "loss": 1.2553,
      "mean_token_accuracy": 0.6832821269830068,
      "num_tokens": 1794666670.0,
      "step": 10709
    },
    {
      "entropy": 1.7346055905024211,
      "epoch": 1.1765400565763093,
      "grad_norm": 0.6356518268585205,
      "learning_rate": 8.886422014815188e-06,
      "loss": 1.3837,
      "mean_token_accuracy": 0.6597516189018885,
      "num_tokens": 1794846449.0,
      "step": 10710
    },
    {
      "entropy": 1.7051764130592346,
      "epoch": 1.1766499134876822,
      "grad_norm": 0.657356321811676,
      "learning_rate": 8.884865697325526e-06,
      "loss": 1.47,
      "mean_token_accuracy": 0.6433271119991938,
      "num_tokens": 1795086141.0,
      "step": 10711
    },
    {
      "entropy": 1.7161107162634532,
      "epoch": 1.1767597703990553,
      "grad_norm": 0.6534709930419922,
      "learning_rate": 8.883309446778914e-06,
      "loss": 1.4793,
      "mean_token_accuracy": 0.6407648821671804,
      "num_tokens": 1795262028.0,
      "step": 10712
    },
    {
      "entropy": 1.6933226088682811,
      "epoch": 1.1768696273104282,
      "grad_norm": 0.8174028396606445,
      "learning_rate": 8.881753263224604e-06,
      "loss": 1.5551,
      "mean_token_accuracy": 0.6449368943770727,
      "num_tokens": 1795415394.0,
      "step": 10713
    },
    {
      "entropy": 1.6775444547335308,
      "epoch": 1.176979484221801,
      "grad_norm": 0.6747733950614929,
      "learning_rate": 8.880197146711846e-06,
      "loss": 1.3102,
      "mean_token_accuracy": 0.6573974937200546,
      "num_tokens": 1795587872.0,
      "step": 10714
    },
    {
      "entropy": 1.641041358311971,
      "epoch": 1.177089341133174,
      "grad_norm": 0.8012470006942749,
      "learning_rate": 8.878641097289895e-06,
      "loss": 1.4218,
      "mean_token_accuracy": 0.6504307389259338,
      "num_tokens": 1795768734.0,
      "step": 10715
    },
    {
      "entropy": 1.740955690542857,
      "epoch": 1.1771991980445469,
      "grad_norm": 0.6754148006439209,
      "learning_rate": 8.877085115008e-06,
      "loss": 1.4466,
      "mean_token_accuracy": 0.6471899896860123,
      "num_tokens": 1795996496.0,
      "step": 10716
    },
    {
      "entropy": 1.6761998136838276,
      "epoch": 1.17730905495592,
      "grad_norm": 0.6564405560493469,
      "learning_rate": 8.875529199915403e-06,
      "loss": 1.4154,
      "mean_token_accuracy": 0.6573975533246994,
      "num_tokens": 1796179868.0,
      "step": 10717
    },
    {
      "entropy": 1.6646329561869304,
      "epoch": 1.1774189118672929,
      "grad_norm": 0.6660974025726318,
      "learning_rate": 8.873973352061346e-06,
      "loss": 1.3027,
      "mean_token_accuracy": 0.6660636613766352,
      "num_tokens": 1796375561.0,
      "step": 10718
    },
    {
      "entropy": 1.6921138167381287,
      "epoch": 1.1775287687786657,
      "grad_norm": 0.6286952495574951,
      "learning_rate": 8.87241757149508e-06,
      "loss": 1.3583,
      "mean_token_accuracy": 0.6696690519650778,
      "num_tokens": 1796529528.0,
      "step": 10719
    },
    {
      "entropy": 1.627532919247945,
      "epoch": 1.1776386256900386,
      "grad_norm": 2.4623351097106934,
      "learning_rate": 8.870861858265836e-06,
      "loss": 1.0272,
      "mean_token_accuracy": 0.6974131315946579,
      "num_tokens": 1796667856.0,
      "step": 10720
    },
    {
      "entropy": 1.7433740397294362,
      "epoch": 1.1777484826014117,
      "grad_norm": 0.7270897626876831,
      "learning_rate": 8.869306212422852e-06,
      "loss": 1.3554,
      "mean_token_accuracy": 0.6652982632319132,
      "num_tokens": 1796814869.0,
      "step": 10721
    },
    {
      "entropy": 1.6887870232264202,
      "epoch": 1.1778583395127846,
      "grad_norm": 0.6307252049446106,
      "learning_rate": 8.867750634015372e-06,
      "loss": 1.3855,
      "mean_token_accuracy": 0.6616760591665903,
      "num_tokens": 1797013937.0,
      "step": 10722
    },
    {
      "entropy": 1.7013648450374603,
      "epoch": 1.1779681964241575,
      "grad_norm": 0.664087176322937,
      "learning_rate": 8.86619512309262e-06,
      "loss": 1.3015,
      "mean_token_accuracy": 0.6622590919335684,
      "num_tokens": 1797176520.0,
      "step": 10723
    },
    {
      "entropy": 1.758970280488332,
      "epoch": 1.1780780533355304,
      "grad_norm": 0.709904670715332,
      "learning_rate": 8.864639679703833e-06,
      "loss": 1.4653,
      "mean_token_accuracy": 0.6567131032546362,
      "num_tokens": 1797330029.0,
      "step": 10724
    },
    {
      "entropy": 1.7270347674687703,
      "epoch": 1.1781879102469035,
      "grad_norm": 0.6952686905860901,
      "learning_rate": 8.863084303898238e-06,
      "loss": 1.4274,
      "mean_token_accuracy": 0.6522839615742365,
      "num_tokens": 1797485981.0,
      "step": 10725
    },
    {
      "entropy": 1.6494085093339284,
      "epoch": 1.1782977671582764,
      "grad_norm": 0.8430054783821106,
      "learning_rate": 8.86152899572506e-06,
      "loss": 1.3444,
      "mean_token_accuracy": 0.6608125517765681,
      "num_tokens": 1797666072.0,
      "step": 10726
    },
    {
      "entropy": 1.6977934141953785,
      "epoch": 1.1784076240696493,
      "grad_norm": 0.7214722633361816,
      "learning_rate": 8.859973755233525e-06,
      "loss": 1.4748,
      "mean_token_accuracy": 0.648172547419866,
      "num_tokens": 1797856352.0,
      "step": 10727
    },
    {
      "entropy": 1.6916989386081696,
      "epoch": 1.1785174809810222,
      "grad_norm": 0.7626371383666992,
      "learning_rate": 8.858418582472859e-06,
      "loss": 1.3687,
      "mean_token_accuracy": 0.651703084508578,
      "num_tokens": 1797979260.0,
      "step": 10728
    },
    {
      "entropy": 1.7365763584772747,
      "epoch": 1.178627337892395,
      "grad_norm": 0.7373912334442139,
      "learning_rate": 8.856863477492276e-06,
      "loss": 1.3676,
      "mean_token_accuracy": 0.6566950579484304,
      "num_tokens": 1798131140.0,
      "step": 10729
    },
    {
      "entropy": 1.6413574417432149,
      "epoch": 1.1787371948037682,
      "grad_norm": 0.7868739366531372,
      "learning_rate": 8.855308440341001e-06,
      "loss": 1.213,
      "mean_token_accuracy": 0.6854518900314966,
      "num_tokens": 1798266166.0,
      "step": 10730
    },
    {
      "entropy": 1.6832148929437,
      "epoch": 1.178847051715141,
      "grad_norm": 0.6691809892654419,
      "learning_rate": 8.853753471068249e-06,
      "loss": 1.2974,
      "mean_token_accuracy": 0.6681927392880121,
      "num_tokens": 1798393542.0,
      "step": 10731
    },
    {
      "entropy": 1.6947985390822093,
      "epoch": 1.178956908626514,
      "grad_norm": 0.6206928491592407,
      "learning_rate": 8.852198569723231e-06,
      "loss": 1.3536,
      "mean_token_accuracy": 0.6597307672103246,
      "num_tokens": 1798562655.0,
      "step": 10732
    },
    {
      "entropy": 1.6786811153093975,
      "epoch": 1.1790667655378868,
      "grad_norm": 0.6354871988296509,
      "learning_rate": 8.850643736355157e-06,
      "loss": 1.3047,
      "mean_token_accuracy": 0.6605040381352106,
      "num_tokens": 1798727276.0,
      "step": 10733
    },
    {
      "entropy": 1.6901488800843556,
      "epoch": 1.17917662244926,
      "grad_norm": 0.6511650681495667,
      "learning_rate": 8.849088971013246e-06,
      "loss": 1.3516,
      "mean_token_accuracy": 0.6556326846281687,
      "num_tokens": 1798878099.0,
      "step": 10734
    },
    {
      "entropy": 1.7377649943033855,
      "epoch": 1.1792864793606328,
      "grad_norm": 0.7267980575561523,
      "learning_rate": 8.847534273746696e-06,
      "loss": 1.515,
      "mean_token_accuracy": 0.6588891347249349,
      "num_tokens": 1799033920.0,
      "step": 10735
    },
    {
      "entropy": 1.6604502499103546,
      "epoch": 1.1793963362720057,
      "grad_norm": 0.6588174700737,
      "learning_rate": 8.845979644604716e-06,
      "loss": 1.4775,
      "mean_token_accuracy": 0.6402100125948588,
      "num_tokens": 1799277414.0,
      "step": 10736
    },
    {
      "entropy": 1.7129139800866444,
      "epoch": 1.1795061931833786,
      "grad_norm": 0.7839108109474182,
      "learning_rate": 8.844425083636514e-06,
      "loss": 1.3845,
      "mean_token_accuracy": 0.6433479189872742,
      "num_tokens": 1799462174.0,
      "step": 10737
    },
    {
      "entropy": 1.6579439043998718,
      "epoch": 1.1796160500947517,
      "grad_norm": 0.7659602761268616,
      "learning_rate": 8.842870590891284e-06,
      "loss": 1.3638,
      "mean_token_accuracy": 0.6679676622152328,
      "num_tokens": 1799659246.0,
      "step": 10738
    },
    {
      "entropy": 1.7055364549160004,
      "epoch": 1.1797259070061246,
      "grad_norm": 0.7582058906555176,
      "learning_rate": 8.841316166418225e-06,
      "loss": 1.4981,
      "mean_token_accuracy": 0.6421041041612625,
      "num_tokens": 1799856918.0,
      "step": 10739
    },
    {
      "entropy": 1.6829807460308075,
      "epoch": 1.1798357639174974,
      "grad_norm": 0.6783363223075867,
      "learning_rate": 8.83976181026654e-06,
      "loss": 1.3274,
      "mean_token_accuracy": 0.6636816610892614,
      "num_tokens": 1800016390.0,
      "step": 10740
    },
    {
      "entropy": 1.684312105178833,
      "epoch": 1.1799456208288703,
      "grad_norm": 0.7491908669471741,
      "learning_rate": 8.83820752248542e-06,
      "loss": 1.3397,
      "mean_token_accuracy": 0.6631839076677958,
      "num_tokens": 1800167294.0,
      "step": 10741
    },
    {
      "entropy": 1.739410251379013,
      "epoch": 1.1800554777402432,
      "grad_norm": 0.7408508062362671,
      "learning_rate": 8.836653303124057e-06,
      "loss": 1.2769,
      "mean_token_accuracy": 0.6693633794784546,
      "num_tokens": 1800278529.0,
      "step": 10742
    },
    {
      "entropy": 1.6683301428953807,
      "epoch": 1.1801653346516163,
      "grad_norm": 0.7159736752510071,
      "learning_rate": 8.835099152231645e-06,
      "loss": 1.5041,
      "mean_token_accuracy": 0.6455606669187546,
      "num_tokens": 1800503623.0,
      "step": 10743
    },
    {
      "entropy": 1.6624947686990101,
      "epoch": 1.1802751915629892,
      "grad_norm": 0.6846541166305542,
      "learning_rate": 8.833545069857366e-06,
      "loss": 1.3794,
      "mean_token_accuracy": 0.6705669413010279,
      "num_tokens": 1800684862.0,
      "step": 10744
    },
    {
      "entropy": 1.702225963274638,
      "epoch": 1.180385048474362,
      "grad_norm": 0.699865460395813,
      "learning_rate": 8.831991056050408e-06,
      "loss": 1.5913,
      "mean_token_accuracy": 0.6365682830413183,
      "num_tokens": 1800903631.0,
      "step": 10745
    },
    {
      "entropy": 1.6989426116148632,
      "epoch": 1.1804949053857352,
      "grad_norm": 0.6623237729072571,
      "learning_rate": 8.830437110859959e-06,
      "loss": 1.5188,
      "mean_token_accuracy": 0.6346626182397207,
      "num_tokens": 1801123618.0,
      "step": 10746
    },
    {
      "entropy": 1.7860455016295116,
      "epoch": 1.180604762297108,
      "grad_norm": 0.6535719633102417,
      "learning_rate": 8.828883234335197e-06,
      "loss": 1.3937,
      "mean_token_accuracy": 0.6469403405984243,
      "num_tokens": 1801317371.0,
      "step": 10747
    },
    {
      "entropy": 1.6487139264742534,
      "epoch": 1.180714619208481,
      "grad_norm": 0.6619005799293518,
      "learning_rate": 8.827329426525301e-06,
      "loss": 1.3683,
      "mean_token_accuracy": 0.6584922273953756,
      "num_tokens": 1801487160.0,
      "step": 10748
    },
    {
      "entropy": 1.7167851825555165,
      "epoch": 1.1808244761198539,
      "grad_norm": 0.9309948086738586,
      "learning_rate": 8.825775687479454e-06,
      "loss": 1.3891,
      "mean_token_accuracy": 0.6533536563316981,
      "num_tokens": 1801615083.0,
      "step": 10749
    },
    {
      "entropy": 1.7493426501750946,
      "epoch": 1.1809343330312267,
      "grad_norm": 0.8402960300445557,
      "learning_rate": 8.824222017246824e-06,
      "loss": 1.3704,
      "mean_token_accuracy": 0.6674526085456213,
      "num_tokens": 1801759170.0,
      "step": 10750
    },
    {
      "entropy": 1.6924077570438385,
      "epoch": 1.1810441899425999,
      "grad_norm": 0.6291844248771667,
      "learning_rate": 8.822668415876582e-06,
      "loss": 1.5256,
      "mean_token_accuracy": 0.6429929981629053,
      "num_tokens": 1801944217.0,
      "step": 10751
    },
    {
      "entropy": 1.7071336607138317,
      "epoch": 1.1811540468539727,
      "grad_norm": 0.7020394802093506,
      "learning_rate": 8.821114883417909e-06,
      "loss": 1.3756,
      "mean_token_accuracy": 0.6600728432337443,
      "num_tokens": 1802074925.0,
      "step": 10752
    },
    {
      "entropy": 1.664092222849528,
      "epoch": 1.1812639037653456,
      "grad_norm": 0.7180442810058594,
      "learning_rate": 8.81956141991997e-06,
      "loss": 1.2898,
      "mean_token_accuracy": 0.6710790693759918,
      "num_tokens": 1802243459.0,
      "step": 10753
    },
    {
      "entropy": 1.6833447615305583,
      "epoch": 1.1813737606767185,
      "grad_norm": 0.6144715547561646,
      "learning_rate": 8.818008025431925e-06,
      "loss": 1.434,
      "mean_token_accuracy": 0.6551510939995447,
      "num_tokens": 1802442490.0,
      "step": 10754
    },
    {
      "entropy": 1.7438991864522297,
      "epoch": 1.1814836175880914,
      "grad_norm": 0.755179226398468,
      "learning_rate": 8.816454700002946e-06,
      "loss": 1.343,
      "mean_token_accuracy": 0.6712101946274439,
      "num_tokens": 1802583232.0,
      "step": 10755
    },
    {
      "entropy": 1.6965516308943431,
      "epoch": 1.1815934744994645,
      "grad_norm": 0.7071336507797241,
      "learning_rate": 8.814901443682189e-06,
      "loss": 1.4545,
      "mean_token_accuracy": 0.6644222984711329,
      "num_tokens": 1802775291.0,
      "step": 10756
    },
    {
      "entropy": 1.8494134942690532,
      "epoch": 1.1817033314108374,
      "grad_norm": 0.7613623142242432,
      "learning_rate": 8.813348256518816e-06,
      "loss": 1.489,
      "mean_token_accuracy": 0.6528632789850235,
      "num_tokens": 1802943235.0,
      "step": 10757
    },
    {
      "entropy": 1.7241133948167164,
      "epoch": 1.1818131883222103,
      "grad_norm": 0.6806331276893616,
      "learning_rate": 8.811795138561989e-06,
      "loss": 1.3547,
      "mean_token_accuracy": 0.653764029343923,
      "num_tokens": 1803086552.0,
      "step": 10758
    },
    {
      "entropy": 1.6509768664836884,
      "epoch": 1.1819230452335834,
      "grad_norm": 0.7953295111656189,
      "learning_rate": 8.810242089860857e-06,
      "loss": 1.4753,
      "mean_token_accuracy": 0.6489654282728831,
      "num_tokens": 1803273180.0,
      "step": 10759
    },
    {
      "entropy": 1.701873242855072,
      "epoch": 1.1820329021449563,
      "grad_norm": 0.701553463935852,
      "learning_rate": 8.808689110464576e-06,
      "loss": 1.3899,
      "mean_token_accuracy": 0.6529113153616587,
      "num_tokens": 1803435603.0,
      "step": 10760
    },
    {
      "entropy": 1.7141969501972198,
      "epoch": 1.1821427590563292,
      "grad_norm": 0.7244220972061157,
      "learning_rate": 8.807136200422301e-06,
      "loss": 1.5109,
      "mean_token_accuracy": 0.6525500317414602,
      "num_tokens": 1803580415.0,
      "step": 10761
    },
    {
      "entropy": 1.6993577778339386,
      "epoch": 1.182252615967702,
      "grad_norm": 0.6596866250038147,
      "learning_rate": 8.805583359783175e-06,
      "loss": 1.4599,
      "mean_token_accuracy": 0.6497125774621964,
      "num_tokens": 1803719774.0,
      "step": 10762
    },
    {
      "entropy": 1.7196275393168132,
      "epoch": 1.182362472879075,
      "grad_norm": 0.5810356736183167,
      "learning_rate": 8.804030588596344e-06,
      "loss": 1.5008,
      "mean_token_accuracy": 0.6446505437294642,
      "num_tokens": 1803972288.0,
      "step": 10763
    },
    {
      "entropy": 1.695581078529358,
      "epoch": 1.182472329790448,
      "grad_norm": 0.6525010466575623,
      "learning_rate": 8.802477886910958e-06,
      "loss": 1.3401,
      "mean_token_accuracy": 0.6595296412706375,
      "num_tokens": 1804124653.0,
      "step": 10764
    },
    {
      "entropy": 1.7033733328183491,
      "epoch": 1.182582186701821,
      "grad_norm": 0.7598459124565125,
      "learning_rate": 8.800925254776158e-06,
      "loss": 1.3434,
      "mean_token_accuracy": 0.6662160108486811,
      "num_tokens": 1804257013.0,
      "step": 10765
    },
    {
      "entropy": 1.6759057243665059,
      "epoch": 1.1826920436131938,
      "grad_norm": 0.6761953234672546,
      "learning_rate": 8.799372692241082e-06,
      "loss": 1.428,
      "mean_token_accuracy": 0.669055625796318,
      "num_tokens": 1804452630.0,
      "step": 10766
    },
    {
      "entropy": 1.7233761151631672,
      "epoch": 1.1828019005245667,
      "grad_norm": 0.6960268616676331,
      "learning_rate": 8.797820199354868e-06,
      "loss": 1.5065,
      "mean_token_accuracy": 0.6348318805297216,
      "num_tokens": 1804614525.0,
      "step": 10767
    },
    {
      "entropy": 1.685812105735143,
      "epoch": 1.1829117574359396,
      "grad_norm": 0.7641476988792419,
      "learning_rate": 8.796267776166651e-06,
      "loss": 1.5683,
      "mean_token_accuracy": 0.6436462799708048,
      "num_tokens": 1804786476.0,
      "step": 10768
    },
    {
      "entropy": 1.6836872696876526,
      "epoch": 1.1830216143473127,
      "grad_norm": 0.5971675515174866,
      "learning_rate": 8.794715422725569e-06,
      "loss": 1.52,
      "mean_token_accuracy": 0.6463221857945124,
      "num_tokens": 1805022456.0,
      "step": 10769
    },
    {
      "entropy": 1.7146795690059662,
      "epoch": 1.1831314712586856,
      "grad_norm": 0.781304657459259,
      "learning_rate": 8.793163139080744e-06,
      "loss": 1.5337,
      "mean_token_accuracy": 0.6382714013258616,
      "num_tokens": 1805203477.0,
      "step": 10770
    },
    {
      "entropy": 1.641987790664037,
      "epoch": 1.1832413281700584,
      "grad_norm": 0.7032956480979919,
      "learning_rate": 8.791610925281315e-06,
      "loss": 1.3017,
      "mean_token_accuracy": 0.6680291642745336,
      "num_tokens": 1805370746.0,
      "step": 10771
    },
    {
      "entropy": 1.765711506207784,
      "epoch": 1.1833511850814316,
      "grad_norm": 0.9066851735115051,
      "learning_rate": 8.790058781376409e-06,
      "loss": 1.4206,
      "mean_token_accuracy": 0.6616054326295853,
      "num_tokens": 1805496309.0,
      "step": 10772
    },
    {
      "entropy": 1.7519434293111165,
      "epoch": 1.1834610419928044,
      "grad_norm": 0.8009188175201416,
      "learning_rate": 8.788506707415143e-06,
      "loss": 1.4096,
      "mean_token_accuracy": 0.6672770380973816,
      "num_tokens": 1805641288.0,
      "step": 10773
    },
    {
      "entropy": 1.768102914094925,
      "epoch": 1.1835708989041773,
      "grad_norm": 0.6128711700439453,
      "learning_rate": 8.786954703446643e-06,
      "loss": 1.5932,
      "mean_token_accuracy": 0.6311574280261993,
      "num_tokens": 1805848452.0,
      "step": 10774
    },
    {
      "entropy": 1.7200669348239899,
      "epoch": 1.1836807558155502,
      "grad_norm": 0.674370527267456,
      "learning_rate": 8.78540276952003e-06,
      "loss": 1.3235,
      "mean_token_accuracy": 0.6750156929095587,
      "num_tokens": 1805980538.0,
      "step": 10775
    },
    {
      "entropy": 1.6917518973350525,
      "epoch": 1.183790612726923,
      "grad_norm": 0.6382037997245789,
      "learning_rate": 8.78385090568442e-06,
      "loss": 1.4685,
      "mean_token_accuracy": 0.6526532918214798,
      "num_tokens": 1806141214.0,
      "step": 10776
    },
    {
      "entropy": 1.755267471075058,
      "epoch": 1.1839004696382962,
      "grad_norm": 0.7073934078216553,
      "learning_rate": 8.78229911198893e-06,
      "loss": 1.2182,
      "mean_token_accuracy": 0.6788963029781977,
      "num_tokens": 1806280417.0,
      "step": 10777
    },
    {
      "entropy": 1.6847423215707142,
      "epoch": 1.184010326549669,
      "grad_norm": 0.7584076523780823,
      "learning_rate": 8.780747388482678e-06,
      "loss": 1.2184,
      "mean_token_accuracy": 0.6779392212629318,
      "num_tokens": 1806421411.0,
      "step": 10778
    },
    {
      "entropy": 1.6994816462198894,
      "epoch": 1.184120183461042,
      "grad_norm": 0.6640441417694092,
      "learning_rate": 8.779195735214768e-06,
      "loss": 1.3675,
      "mean_token_accuracy": 0.6564560582240423,
      "num_tokens": 1806579038.0,
      "step": 10779
    },
    {
      "entropy": 1.7090040544668834,
      "epoch": 1.1842300403724149,
      "grad_norm": 0.7332303524017334,
      "learning_rate": 8.777644152234312e-06,
      "loss": 1.2549,
      "mean_token_accuracy": 0.6839319815238317,
      "num_tokens": 1806722045.0,
      "step": 10780
    },
    {
      "entropy": 1.7189118365446727,
      "epoch": 1.1843398972837877,
      "grad_norm": 0.6345376372337341,
      "learning_rate": 8.776092639590418e-06,
      "loss": 1.4359,
      "mean_token_accuracy": 0.659914493560791,
      "num_tokens": 1806887963.0,
      "step": 10781
    },
    {
      "entropy": 1.7617081105709076,
      "epoch": 1.1844497541951609,
      "grad_norm": 0.8099861741065979,
      "learning_rate": 8.77454119733219e-06,
      "loss": 1.4132,
      "mean_token_accuracy": 0.6468125134706497,
      "num_tokens": 1807042559.0,
      "step": 10782
    },
    {
      "entropy": 1.7302567660808563,
      "epoch": 1.1845596111065337,
      "grad_norm": 0.8026572465896606,
      "learning_rate": 8.77298982550873e-06,
      "loss": 1.5754,
      "mean_token_accuracy": 0.6293011705080668,
      "num_tokens": 1807278669.0,
      "step": 10783
    },
    {
      "entropy": 1.7094827393690746,
      "epoch": 1.1846694680179066,
      "grad_norm": 0.6681255102157593,
      "learning_rate": 8.771438524169137e-06,
      "loss": 1.3552,
      "mean_token_accuracy": 0.6640477081139883,
      "num_tokens": 1807442397.0,
      "step": 10784
    },
    {
      "entropy": 1.7145535846551259,
      "epoch": 1.1847793249292797,
      "grad_norm": 21.605440139770508,
      "learning_rate": 8.769887293362514e-06,
      "loss": 1.4412,
      "mean_token_accuracy": 0.6432745158672333,
      "num_tokens": 1807645099.0,
      "step": 10785
    },
    {
      "entropy": 1.7830155591169994,
      "epoch": 1.1848891818406526,
      "grad_norm": 0.6564657092094421,
      "learning_rate": 8.768336133137949e-06,
      "loss": 1.4377,
      "mean_token_accuracy": 0.6420264492432276,
      "num_tokens": 1807780953.0,
      "step": 10786
    },
    {
      "entropy": 1.6700923939545949,
      "epoch": 1.1849990387520255,
      "grad_norm": 0.700512707233429,
      "learning_rate": 8.766785043544544e-06,
      "loss": 1.4123,
      "mean_token_accuracy": 0.6515941818555196,
      "num_tokens": 1807943402.0,
      "step": 10787
    },
    {
      "entropy": 1.671025017897288,
      "epoch": 1.1851088956633984,
      "grad_norm": 0.6476449370384216,
      "learning_rate": 8.765234024631381e-06,
      "loss": 1.3315,
      "mean_token_accuracy": 0.6557556490103403,
      "num_tokens": 1808108811.0,
      "step": 10788
    },
    {
      "entropy": 1.7127976814905803,
      "epoch": 1.1852187525747713,
      "grad_norm": 0.542065441608429,
      "learning_rate": 8.763683076447558e-06,
      "loss": 1.5378,
      "mean_token_accuracy": 0.6265371342500051,
      "num_tokens": 1808343132.0,
      "step": 10789
    },
    {
      "entropy": 1.7127373119195302,
      "epoch": 1.1853286094861444,
      "grad_norm": 0.7368000745773315,
      "learning_rate": 8.762132199042158e-06,
      "loss": 1.3349,
      "mean_token_accuracy": 0.6565342048803965,
      "num_tokens": 1808552364.0,
      "step": 10790
    },
    {
      "entropy": 1.7234003643194835,
      "epoch": 1.1854384663975173,
      "grad_norm": 0.733325719833374,
      "learning_rate": 8.760581392464265e-06,
      "loss": 1.479,
      "mean_token_accuracy": 0.6574785908063253,
      "num_tokens": 1808736493.0,
      "step": 10791
    },
    {
      "entropy": 1.7298449873924255,
      "epoch": 1.1855483233088902,
      "grad_norm": 0.6609643697738647,
      "learning_rate": 8.759030656762961e-06,
      "loss": 1.5159,
      "mean_token_accuracy": 0.6325143476327261,
      "num_tokens": 1808941867.0,
      "step": 10792
    },
    {
      "entropy": 1.7493693828582764,
      "epoch": 1.185658180220263,
      "grad_norm": 0.7295409440994263,
      "learning_rate": 8.757479991987328e-06,
      "loss": 1.542,
      "mean_token_accuracy": 0.6383609374364217,
      "num_tokens": 1809188308.0,
      "step": 10793
    },
    {
      "entropy": 1.7492066224416096,
      "epoch": 1.185768037131636,
      "grad_norm": 0.7301694750785828,
      "learning_rate": 8.755929398186441e-06,
      "loss": 1.5574,
      "mean_token_accuracy": 0.6535097360610962,
      "num_tokens": 1809380493.0,
      "step": 10794
    },
    {
      "entropy": 1.6621710260709126,
      "epoch": 1.185877894043009,
      "grad_norm": 0.7311023473739624,
      "learning_rate": 8.754378875409378e-06,
      "loss": 1.4412,
      "mean_token_accuracy": 0.6498973866303762,
      "num_tokens": 1809561584.0,
      "step": 10795
    },
    {
      "entropy": 1.6603956421216328,
      "epoch": 1.185987750954382,
      "grad_norm": 0.6298139691352844,
      "learning_rate": 8.752828423705213e-06,
      "loss": 1.3381,
      "mean_token_accuracy": 0.6642551869153976,
      "num_tokens": 1809753841.0,
      "step": 10796
    },
    {
      "entropy": 1.7171143392721813,
      "epoch": 1.1860976078657548,
      "grad_norm": 0.635201096534729,
      "learning_rate": 8.751278043123015e-06,
      "loss": 1.4912,
      "mean_token_accuracy": 0.6408715645472208,
      "num_tokens": 1810007570.0,
      "step": 10797
    },
    {
      "entropy": 1.6833914419015248,
      "epoch": 1.186207464777128,
      "grad_norm": 0.6429863572120667,
      "learning_rate": 8.749727733711852e-06,
      "loss": 1.4519,
      "mean_token_accuracy": 0.6536713739236196,
      "num_tokens": 1810172296.0,
      "step": 10798
    },
    {
      "entropy": 1.6702220439910889,
      "epoch": 1.1863173216885008,
      "grad_norm": 0.5836479663848877,
      "learning_rate": 8.748177495520795e-06,
      "loss": 1.3426,
      "mean_token_accuracy": 0.6664466510216395,
      "num_tokens": 1810364719.0,
      "step": 10799
    },
    {
      "entropy": 1.6623725195725758,
      "epoch": 1.1864271785998737,
      "grad_norm": 0.7200176119804382,
      "learning_rate": 8.746627328598903e-06,
      "loss": 1.3376,
      "mean_token_accuracy": 0.6745273669560751,
      "num_tokens": 1810517478.0,
      "step": 10800
    },
    {
      "entropy": 1.7162803411483765,
      "epoch": 1.1865370355112466,
      "grad_norm": 0.7739757895469666,
      "learning_rate": 8.74507723299524e-06,
      "loss": 1.4352,
      "mean_token_accuracy": 0.636848971247673,
      "num_tokens": 1810687094.0,
      "step": 10801
    },
    {
      "entropy": 1.7077897389729817,
      "epoch": 1.1866468924226194,
      "grad_norm": 0.9581501483917236,
      "learning_rate": 8.74352720875887e-06,
      "loss": 1.3625,
      "mean_token_accuracy": 0.6712329884370168,
      "num_tokens": 1810838305.0,
      "step": 10802
    },
    {
      "entropy": 1.7443882822990417,
      "epoch": 1.1867567493339926,
      "grad_norm": 0.5825392007827759,
      "learning_rate": 8.741977255938848e-06,
      "loss": 1.4246,
      "mean_token_accuracy": 0.6382510860761007,
      "num_tokens": 1811036111.0,
      "step": 10803
    },
    {
      "entropy": 1.7159675359725952,
      "epoch": 1.1868666062453654,
      "grad_norm": 0.6169284582138062,
      "learning_rate": 8.740427374584225e-06,
      "loss": 1.353,
      "mean_token_accuracy": 0.650434414545695,
      "num_tokens": 1811216805.0,
      "step": 10804
    },
    {
      "entropy": 1.7108531892299652,
      "epoch": 1.1869764631567383,
      "grad_norm": 0.7137644290924072,
      "learning_rate": 8.73887756474406e-06,
      "loss": 1.3657,
      "mean_token_accuracy": 0.6566335658232371,
      "num_tokens": 1811341956.0,
      "step": 10805
    },
    {
      "entropy": 1.735455960035324,
      "epoch": 1.1870863200681112,
      "grad_norm": 0.5706676840782166,
      "learning_rate": 8.7373278264674e-06,
      "loss": 1.4739,
      "mean_token_accuracy": 0.6481334368387858,
      "num_tokens": 1811539451.0,
      "step": 10806
    },
    {
      "entropy": 1.7320310175418854,
      "epoch": 1.1871961769794843,
      "grad_norm": 0.6939385533332825,
      "learning_rate": 8.735778159803289e-06,
      "loss": 1.3383,
      "mean_token_accuracy": 0.6659232576688131,
      "num_tokens": 1811690465.0,
      "step": 10807
    },
    {
      "entropy": 1.6345330973466237,
      "epoch": 1.1873060338908572,
      "grad_norm": 0.6689730286598206,
      "learning_rate": 8.734228564800787e-06,
      "loss": 1.2998,
      "mean_token_accuracy": 0.6712810496489207,
      "num_tokens": 1811851641.0,
      "step": 10808
    },
    {
      "entropy": 1.7186749478181202,
      "epoch": 1.18741589080223,
      "grad_norm": 0.6938754916191101,
      "learning_rate": 8.732679041508927e-06,
      "loss": 1.3595,
      "mean_token_accuracy": 0.6612470696369807,
      "num_tokens": 1812004102.0,
      "step": 10809
    },
    {
      "entropy": 1.738366852204005,
      "epoch": 1.187525747713603,
      "grad_norm": 0.6082279682159424,
      "learning_rate": 8.731129589976752e-06,
      "loss": 1.3528,
      "mean_token_accuracy": 0.661902000506719,
      "num_tokens": 1812140283.0,
      "step": 10810
    },
    {
      "entropy": 1.73800332347552,
      "epoch": 1.187635604624976,
      "grad_norm": 0.7404204607009888,
      "learning_rate": 8.729580210253307e-06,
      "loss": 1.474,
      "mean_token_accuracy": 0.6457099169492722,
      "num_tokens": 1812288672.0,
      "step": 10811
    },
    {
      "entropy": 1.7052789727846782,
      "epoch": 1.187745461536349,
      "grad_norm": 0.6835205554962158,
      "learning_rate": 8.728030902387623e-06,
      "loss": 1.4069,
      "mean_token_accuracy": 0.661319280664126,
      "num_tokens": 1812489937.0,
      "step": 10812
    },
    {
      "entropy": 1.6847817699114482,
      "epoch": 1.1878553184477219,
      "grad_norm": 0.6975307464599609,
      "learning_rate": 8.726481666428735e-06,
      "loss": 1.5141,
      "mean_token_accuracy": 0.6451181322336197,
      "num_tokens": 1812717330.0,
      "step": 10813
    },
    {
      "entropy": 1.7484122415383656,
      "epoch": 1.1879651753590947,
      "grad_norm": 0.8225982189178467,
      "learning_rate": 8.724932502425681e-06,
      "loss": 1.3702,
      "mean_token_accuracy": 0.6497304985920588,
      "num_tokens": 1812917091.0,
      "step": 10814
    },
    {
      "entropy": 1.6711904605229695,
      "epoch": 1.1880750322704676,
      "grad_norm": 0.5482514500617981,
      "learning_rate": 8.723383410427486e-06,
      "loss": 1.4879,
      "mean_token_accuracy": 0.6315444807211558,
      "num_tokens": 1813125811.0,
      "step": 10815
    },
    {
      "entropy": 1.7230869730313618,
      "epoch": 1.1881848891818407,
      "grad_norm": 0.818645179271698,
      "learning_rate": 8.721834390483181e-06,
      "loss": 1.4077,
      "mean_token_accuracy": 0.6621546596288681,
      "num_tokens": 1813307367.0,
      "step": 10816
    },
    {
      "entropy": 1.682017187277476,
      "epoch": 1.1882947460932136,
      "grad_norm": 0.6782887578010559,
      "learning_rate": 8.720285442641794e-06,
      "loss": 1.5252,
      "mean_token_accuracy": 0.6403040736913681,
      "num_tokens": 1813517516.0,
      "step": 10817
    },
    {
      "entropy": 1.6661075949668884,
      "epoch": 1.1884046030045865,
      "grad_norm": 0.6994887590408325,
      "learning_rate": 8.718736566952342e-06,
      "loss": 1.3352,
      "mean_token_accuracy": 0.6600988954305649,
      "num_tokens": 1813674638.0,
      "step": 10818
    },
    {
      "entropy": 1.7056255837281544,
      "epoch": 1.1885144599159594,
      "grad_norm": 0.6169335246086121,
      "learning_rate": 8.717187763463848e-06,
      "loss": 1.4025,
      "mean_token_accuracy": 0.6571420232454935,
      "num_tokens": 1813822167.0,
      "step": 10819
    },
    {
      "entropy": 1.709171086549759,
      "epoch": 1.1886243168273325,
      "grad_norm": 0.6775344610214233,
      "learning_rate": 8.715639032225338e-06,
      "loss": 1.4238,
      "mean_token_accuracy": 0.6446866790453593,
      "num_tokens": 1813991064.0,
      "step": 10820
    },
    {
      "entropy": 1.6793767909208934,
      "epoch": 1.1887341737387054,
      "grad_norm": 0.791778564453125,
      "learning_rate": 8.71409037328582e-06,
      "loss": 1.489,
      "mean_token_accuracy": 0.6477701465288798,
      "num_tokens": 1814176897.0,
      "step": 10821
    },
    {
      "entropy": 1.7169764240582783,
      "epoch": 1.1888440306500783,
      "grad_norm": 0.6778224110603333,
      "learning_rate": 8.71254178669431e-06,
      "loss": 1.5503,
      "mean_token_accuracy": 0.6353256702423096,
      "num_tokens": 1814358467.0,
      "step": 10822
    },
    {
      "entropy": 1.6720323065916698,
      "epoch": 1.1889538875614512,
      "grad_norm": 0.6832537055015564,
      "learning_rate": 8.710993272499826e-06,
      "loss": 1.2303,
      "mean_token_accuracy": 0.677433043718338,
      "num_tokens": 1814480540.0,
      "step": 10823
    },
    {
      "entropy": 1.7010047535101573,
      "epoch": 1.1890637444728243,
      "grad_norm": 0.8217154145240784,
      "learning_rate": 8.70944483075137e-06,
      "loss": 1.338,
      "mean_token_accuracy": 0.6667589843273163,
      "num_tokens": 1814617055.0,
      "step": 10824
    },
    {
      "entropy": 1.7079274654388428,
      "epoch": 1.1891736013841971,
      "grad_norm": 0.8178585767745972,
      "learning_rate": 8.707896461497957e-06,
      "loss": 1.3209,
      "mean_token_accuracy": 0.6651990612347921,
      "num_tokens": 1814759656.0,
      "step": 10825
    },
    {
      "entropy": 1.690351406733195,
      "epoch": 1.18928345829557,
      "grad_norm": 0.6807016134262085,
      "learning_rate": 8.706348164788582e-06,
      "loss": 1.4074,
      "mean_token_accuracy": 0.6610402117172877,
      "num_tokens": 1814904145.0,
      "step": 10826
    },
    {
      "entropy": 1.7773006558418274,
      "epoch": 1.189393315206943,
      "grad_norm": 0.8337060213088989,
      "learning_rate": 8.704799940672257e-06,
      "loss": 1.3194,
      "mean_token_accuracy": 0.668373758594195,
      "num_tokens": 1815086239.0,
      "step": 10827
    },
    {
      "entropy": 1.6671875913937886,
      "epoch": 1.1895031721183158,
      "grad_norm": 0.7558709383010864,
      "learning_rate": 8.703251789197981e-06,
      "loss": 1.4228,
      "mean_token_accuracy": 0.6599519302447637,
      "num_tokens": 1815233304.0,
      "step": 10828
    },
    {
      "entropy": 1.6764814754327138,
      "epoch": 1.189613029029689,
      "grad_norm": 0.648366391658783,
      "learning_rate": 8.701703710414752e-06,
      "loss": 1.2463,
      "mean_token_accuracy": 0.6833883871634802,
      "num_tokens": 1815365343.0,
      "step": 10829
    },
    {
      "entropy": 1.6759169201056163,
      "epoch": 1.1897228859410618,
      "grad_norm": 0.7814769744873047,
      "learning_rate": 8.700155704371562e-06,
      "loss": 1.4332,
      "mean_token_accuracy": 0.6664823815226555,
      "num_tokens": 1815511637.0,
      "step": 10830
    },
    {
      "entropy": 1.7373320559660594,
      "epoch": 1.1898327428524347,
      "grad_norm": 0.8521638512611389,
      "learning_rate": 8.698607771117408e-06,
      "loss": 1.4448,
      "mean_token_accuracy": 0.652740036447843,
      "num_tokens": 1815650747.0,
      "step": 10831
    },
    {
      "entropy": 1.686434547106425,
      "epoch": 1.1899425997638076,
      "grad_norm": 0.707066535949707,
      "learning_rate": 8.697059910701283e-06,
      "loss": 1.1549,
      "mean_token_accuracy": 0.6953272720177969,
      "num_tokens": 1815758439.0,
      "step": 10832
    },
    {
      "entropy": 1.7592855592568715,
      "epoch": 1.1900524566751807,
      "grad_norm": 0.6283326745033264,
      "learning_rate": 8.69551212317217e-06,
      "loss": 1.3828,
      "mean_token_accuracy": 0.6532629181941351,
      "num_tokens": 1815916712.0,
      "step": 10833
    },
    {
      "entropy": 1.6812595228354137,
      "epoch": 1.1901623135865536,
      "grad_norm": 0.887874960899353,
      "learning_rate": 8.693964408579063e-06,
      "loss": 1.3895,
      "mean_token_accuracy": 0.6594204902648926,
      "num_tokens": 1816075205.0,
      "step": 10834
    },
    {
      "entropy": 1.6642636756102245,
      "epoch": 1.1902721704979264,
      "grad_norm": 0.6853379011154175,
      "learning_rate": 8.692416766970943e-06,
      "loss": 1.3377,
      "mean_token_accuracy": 0.6647604952255884,
      "num_tokens": 1816224025.0,
      "step": 10835
    },
    {
      "entropy": 1.7936367491881053,
      "epoch": 1.1903820274092993,
      "grad_norm": 0.7250938415527344,
      "learning_rate": 8.690869198396792e-06,
      "loss": 1.4598,
      "mean_token_accuracy": 0.6410937756299973,
      "num_tokens": 1816370800.0,
      "step": 10836
    },
    {
      "entropy": 1.7596316039562225,
      "epoch": 1.1904918843206724,
      "grad_norm": 0.7456021308898926,
      "learning_rate": 8.689321702905593e-06,
      "loss": 1.4467,
      "mean_token_accuracy": 0.6487318376700083,
      "num_tokens": 1816518599.0,
      "step": 10837
    },
    {
      "entropy": 1.7355043093363445,
      "epoch": 1.1906017412320453,
      "grad_norm": 0.5878375768661499,
      "learning_rate": 8.687774280546317e-06,
      "loss": 1.5659,
      "mean_token_accuracy": 0.6355293492476145,
      "num_tokens": 1816824813.0,
      "step": 10838
    },
    {
      "entropy": 1.6184170246124268,
      "epoch": 1.1907115981434182,
      "grad_norm": 0.7229267954826355,
      "learning_rate": 8.686226931367943e-06,
      "loss": 1.355,
      "mean_token_accuracy": 0.6660072356462479,
      "num_tokens": 1816987791.0,
      "step": 10839
    },
    {
      "entropy": 1.731922020514806,
      "epoch": 1.190821455054791,
      "grad_norm": 0.6348045468330383,
      "learning_rate": 8.684679655419445e-06,
      "loss": 1.4086,
      "mean_token_accuracy": 0.6459181507428488,
      "num_tokens": 1817155835.0,
      "step": 10840
    },
    {
      "entropy": 1.7074114779631298,
      "epoch": 1.190931311966164,
      "grad_norm": 10.530064582824707,
      "learning_rate": 8.683132452749796e-06,
      "loss": 1.5041,
      "mean_token_accuracy": 0.6442484011252722,
      "num_tokens": 1817336230.0,
      "step": 10841
    },
    {
      "entropy": 1.6497264802455902,
      "epoch": 1.191041168877537,
      "grad_norm": 0.6446982622146606,
      "learning_rate": 8.681585323407958e-06,
      "loss": 1.5598,
      "mean_token_accuracy": 0.6426790108283361,
      "num_tokens": 1817608365.0,
      "step": 10842
    },
    {
      "entropy": 1.7166444063186646,
      "epoch": 1.19115102578891,
      "grad_norm": 0.6891461610794067,
      "learning_rate": 8.6800382674429e-06,
      "loss": 1.5312,
      "mean_token_accuracy": 0.6481931606928507,
      "num_tokens": 1817825491.0,
      "step": 10843
    },
    {
      "entropy": 1.7337975700696309,
      "epoch": 1.1912608827002829,
      "grad_norm": 0.6657007932662964,
      "learning_rate": 8.678491284903583e-06,
      "loss": 1.4386,
      "mean_token_accuracy": 0.6465141177177429,
      "num_tokens": 1817977223.0,
      "step": 10844
    },
    {
      "entropy": 1.6892333626747131,
      "epoch": 1.1913707396116557,
      "grad_norm": 0.6128289103507996,
      "learning_rate": 8.676944375838973e-06,
      "loss": 1.2792,
      "mean_token_accuracy": 0.6714215278625488,
      "num_tokens": 1818149277.0,
      "step": 10845
    },
    {
      "entropy": 1.597786416610082,
      "epoch": 1.1914805965230288,
      "grad_norm": 0.6063182950019836,
      "learning_rate": 8.67539754029803e-06,
      "loss": 1.4619,
      "mean_token_accuracy": 0.6459900289773941,
      "num_tokens": 1818347912.0,
      "step": 10846
    },
    {
      "entropy": 1.6953892509142559,
      "epoch": 1.1915904534344017,
      "grad_norm": 0.8109437823295593,
      "learning_rate": 8.673850778329702e-06,
      "loss": 1.4544,
      "mean_token_accuracy": 0.6425779660542806,
      "num_tokens": 1818571841.0,
      "step": 10847
    },
    {
      "entropy": 1.655045618613561,
      "epoch": 1.1917003103457746,
      "grad_norm": 0.6422619819641113,
      "learning_rate": 8.67230408998295e-06,
      "loss": 1.3572,
      "mean_token_accuracy": 0.6548277189334234,
      "num_tokens": 1818751000.0,
      "step": 10848
    },
    {
      "entropy": 1.6748607456684113,
      "epoch": 1.1918101672571475,
      "grad_norm": 0.753288984298706,
      "learning_rate": 8.670757475306728e-06,
      "loss": 1.3551,
      "mean_token_accuracy": 0.6647098064422607,
      "num_tokens": 1818937047.0,
      "step": 10849
    },
    {
      "entropy": 1.70504829287529,
      "epoch": 1.1919200241685206,
      "grad_norm": 0.5776710510253906,
      "learning_rate": 8.669210934349978e-06,
      "loss": 1.4304,
      "mean_token_accuracy": 0.6487905929485956,
      "num_tokens": 1819120691.0,
      "step": 10850
    },
    {
      "entropy": 1.6992063224315643,
      "epoch": 1.1920298810798935,
      "grad_norm": 0.9151628017425537,
      "learning_rate": 8.667664467161652e-06,
      "loss": 1.4308,
      "mean_token_accuracy": 0.6610411157210668,
      "num_tokens": 1819289227.0,
      "step": 10851
    },
    {
      "entropy": 1.6430395245552063,
      "epoch": 1.1921397379912664,
      "grad_norm": 0.7337287068367004,
      "learning_rate": 8.666118073790699e-06,
      "loss": 1.4605,
      "mean_token_accuracy": 0.652332549293836,
      "num_tokens": 1819495147.0,
      "step": 10852
    },
    {
      "entropy": 1.698825587828954,
      "epoch": 1.1922495949026393,
      "grad_norm": 0.75420743227005,
      "learning_rate": 8.664571754286052e-06,
      "loss": 1.4167,
      "mean_token_accuracy": 0.6623470187187195,
      "num_tokens": 1819635916.0,
      "step": 10853
    },
    {
      "entropy": 1.6793596645196278,
      "epoch": 1.1923594518140122,
      "grad_norm": 0.618486225605011,
      "learning_rate": 8.663025508696658e-06,
      "loss": 1.3148,
      "mean_token_accuracy": 0.6688097268342972,
      "num_tokens": 1819786330.0,
      "step": 10854
    },
    {
      "entropy": 1.6689561307430267,
      "epoch": 1.1924693087253853,
      "grad_norm": 0.7865815758705139,
      "learning_rate": 8.661479337071458e-06,
      "loss": 1.3624,
      "mean_token_accuracy": 0.6614319185415903,
      "num_tokens": 1819922056.0,
      "step": 10855
    },
    {
      "entropy": 1.691734939813614,
      "epoch": 1.1925791656367581,
      "grad_norm": 0.7773484587669373,
      "learning_rate": 8.659933239459377e-06,
      "loss": 1.428,
      "mean_token_accuracy": 0.6591572364171346,
      "num_tokens": 1820169282.0,
      "step": 10856
    },
    {
      "entropy": 1.7865646183490753,
      "epoch": 1.192689022548131,
      "grad_norm": 0.7435487508773804,
      "learning_rate": 8.658387215909358e-06,
      "loss": 1.3392,
      "mean_token_accuracy": 0.6749976028998693,
      "num_tokens": 1820290334.0,
      "step": 10857
    },
    {
      "entropy": 1.6983545819918315,
      "epoch": 1.192798879459504,
      "grad_norm": 0.6907163262367249,
      "learning_rate": 8.656841266470328e-06,
      "loss": 1.2468,
      "mean_token_accuracy": 0.6775921235481898,
      "num_tokens": 1820415779.0,
      "step": 10858
    },
    {
      "entropy": 1.6848465104897816,
      "epoch": 1.192908736370877,
      "grad_norm": 0.6214163303375244,
      "learning_rate": 8.65529539119122e-06,
      "loss": 1.345,
      "mean_token_accuracy": 0.6662961939970652,
      "num_tokens": 1820575417.0,
      "step": 10859
    },
    {
      "entropy": 1.7312945226828258,
      "epoch": 1.19301859328225,
      "grad_norm": 0.5840948224067688,
      "learning_rate": 8.65374959012095e-06,
      "loss": 1.541,
      "mean_token_accuracy": 0.6397745758295059,
      "num_tokens": 1820797132.0,
      "step": 10860
    },
    {
      "entropy": 1.7128262619177501,
      "epoch": 1.1931284501936228,
      "grad_norm": 0.6750525832176208,
      "learning_rate": 8.65220386330845e-06,
      "loss": 1.3281,
      "mean_token_accuracy": 0.6626399159431458,
      "num_tokens": 1820916118.0,
      "step": 10861
    },
    {
      "entropy": 1.7520559827486675,
      "epoch": 1.1932383071049957,
      "grad_norm": 0.5905542969703674,
      "learning_rate": 8.650658210802638e-06,
      "loss": 1.4636,
      "mean_token_accuracy": 0.6265908926725388,
      "num_tokens": 1821134408.0,
      "step": 10862
    },
    {
      "entropy": 1.6462377607822418,
      "epoch": 1.1933481640163688,
      "grad_norm": 0.7132760286331177,
      "learning_rate": 8.649112632652436e-06,
      "loss": 1.3858,
      "mean_token_accuracy": 0.6677844027678171,
      "num_tokens": 1821314158.0,
      "step": 10863
    },
    {
      "entropy": 1.6968292494614918,
      "epoch": 1.1934580209277417,
      "grad_norm": 0.6396412253379822,
      "learning_rate": 8.647567128906764e-06,
      "loss": 1.3326,
      "mean_token_accuracy": 0.6573519359032313,
      "num_tokens": 1821452147.0,
      "step": 10864
    },
    {
      "entropy": 1.7002749343713124,
      "epoch": 1.1935678778391146,
      "grad_norm": 0.5961291790008545,
      "learning_rate": 8.646021699614529e-06,
      "loss": 1.4085,
      "mean_token_accuracy": 0.6624472538630167,
      "num_tokens": 1821639995.0,
      "step": 10865
    },
    {
      "entropy": 1.7443738182385762,
      "epoch": 1.1936777347504874,
      "grad_norm": 0.6922990679740906,
      "learning_rate": 8.644476344824646e-06,
      "loss": 1.3906,
      "mean_token_accuracy": 0.6587434560060501,
      "num_tokens": 1821779295.0,
      "step": 10866
    },
    {
      "entropy": 1.6607798635959625,
      "epoch": 1.1937875916618603,
      "grad_norm": 0.5818439722061157,
      "learning_rate": 8.642931064586028e-06,
      "loss": 1.308,
      "mean_token_accuracy": 0.6683350056409836,
      "num_tokens": 1821913214.0,
      "step": 10867
    },
    {
      "entropy": 1.7286332647005718,
      "epoch": 1.1938974485732334,
      "grad_norm": 0.7446157336235046,
      "learning_rate": 8.641385858947576e-06,
      "loss": 1.4779,
      "mean_token_accuracy": 0.6418144504229227,
      "num_tokens": 1822091301.0,
      "step": 10868
    },
    {
      "entropy": 1.748667687177658,
      "epoch": 1.1940073054846063,
      "grad_norm": 0.7008844017982483,
      "learning_rate": 8.6398407279582e-06,
      "loss": 1.5479,
      "mean_token_accuracy": 0.6476845939954122,
      "num_tokens": 1822281478.0,
      "step": 10869
    },
    {
      "entropy": 1.7366498708724976,
      "epoch": 1.1941171623959792,
      "grad_norm": 0.7748090028762817,
      "learning_rate": 8.638295671666803e-06,
      "loss": 1.471,
      "mean_token_accuracy": 0.6507512678702673,
      "num_tokens": 1822443339.0,
      "step": 10870
    },
    {
      "entropy": 1.730059305826823,
      "epoch": 1.194227019307352,
      "grad_norm": 0.675847053527832,
      "learning_rate": 8.636750690122282e-06,
      "loss": 1.4335,
      "mean_token_accuracy": 0.6394089609384537,
      "num_tokens": 1822638722.0,
      "step": 10871
    },
    {
      "entropy": 1.6546126703421276,
      "epoch": 1.1943368762187252,
      "grad_norm": 0.5662322640419006,
      "learning_rate": 8.63520578337354e-06,
      "loss": 1.4372,
      "mean_token_accuracy": 0.6361754983663559,
      "num_tokens": 1822865064.0,
      "step": 10872
    },
    {
      "entropy": 1.701521893342336,
      "epoch": 1.194446733130098,
      "grad_norm": 0.6960839033126831,
      "learning_rate": 8.633660951469468e-06,
      "loss": 1.4204,
      "mean_token_accuracy": 0.6519134740034739,
      "num_tokens": 1823055053.0,
      "step": 10873
    },
    {
      "entropy": 1.6866462131341298,
      "epoch": 1.194556590041471,
      "grad_norm": 0.6791787147521973,
      "learning_rate": 8.632116194458955e-06,
      "loss": 1.3331,
      "mean_token_accuracy": 0.6622498879830042,
      "num_tokens": 1823224555.0,
      "step": 10874
    },
    {
      "entropy": 1.7383518815040588,
      "epoch": 1.1946664469528439,
      "grad_norm": 0.7168798446655273,
      "learning_rate": 8.630571512390901e-06,
      "loss": 1.4732,
      "mean_token_accuracy": 0.6602436949809393,
      "num_tokens": 1823381692.0,
      "step": 10875
    },
    {
      "entropy": 1.7333435515562694,
      "epoch": 1.194776303864217,
      "grad_norm": 0.6332979798316956,
      "learning_rate": 8.629026905314195e-06,
      "loss": 1.4628,
      "mean_token_accuracy": 0.6372295717398325,
      "num_tokens": 1823557246.0,
      "step": 10876
    },
    {
      "entropy": 1.7318945527076721,
      "epoch": 1.1948861607755898,
      "grad_norm": 0.7273834943771362,
      "learning_rate": 8.627482373277715e-06,
      "loss": 1.5831,
      "mean_token_accuracy": 0.6298131893078486,
      "num_tokens": 1823721277.0,
      "step": 10877
    },
    {
      "entropy": 1.689674695332845,
      "epoch": 1.1949960176869627,
      "grad_norm": 0.6805070042610168,
      "learning_rate": 8.625937916330349e-06,
      "loss": 1.2654,
      "mean_token_accuracy": 0.6795346190532049,
      "num_tokens": 1823846743.0,
      "step": 10878
    },
    {
      "entropy": 1.6561415096124013,
      "epoch": 1.1951058745983356,
      "grad_norm": 0.6901777386665344,
      "learning_rate": 8.62439353452098e-06,
      "loss": 1.3924,
      "mean_token_accuracy": 0.6656059821446737,
      "num_tokens": 1824066791.0,
      "step": 10879
    },
    {
      "entropy": 1.6609856188297272,
      "epoch": 1.1952157315097085,
      "grad_norm": 0.6951460242271423,
      "learning_rate": 8.622849227898484e-06,
      "loss": 1.202,
      "mean_token_accuracy": 0.6859797437985738,
      "num_tokens": 1824221799.0,
      "step": 10880
    },
    {
      "entropy": 1.6828400393327076,
      "epoch": 1.1953255884210816,
      "grad_norm": 0.8013219237327576,
      "learning_rate": 8.621304996511737e-06,
      "loss": 1.5402,
      "mean_token_accuracy": 0.6594565212726593,
      "num_tokens": 1824404281.0,
      "step": 10881
    },
    {
      "entropy": 1.758839060862859,
      "epoch": 1.1954354453324545,
      "grad_norm": 0.8230046629905701,
      "learning_rate": 8.61976084040962e-06,
      "loss": 1.3892,
      "mean_token_accuracy": 0.6508858899275461,
      "num_tokens": 1824542346.0,
      "step": 10882
    },
    {
      "entropy": 1.7173049648602803,
      "epoch": 1.1955453022438274,
      "grad_norm": 0.6363534331321716,
      "learning_rate": 8.618216759640994e-06,
      "loss": 1.5549,
      "mean_token_accuracy": 0.628744641939799,
      "num_tokens": 1824762577.0,
      "step": 10883
    },
    {
      "entropy": 1.678319166103999,
      "epoch": 1.1956551591552003,
      "grad_norm": 0.7358280420303345,
      "learning_rate": 8.616672754254738e-06,
      "loss": 1.428,
      "mean_token_accuracy": 0.6569743702809016,
      "num_tokens": 1824896107.0,
      "step": 10884
    },
    {
      "entropy": 1.6763150095939636,
      "epoch": 1.1957650160665734,
      "grad_norm": 0.8936296701431274,
      "learning_rate": 8.615128824299716e-06,
      "loss": 1.4788,
      "mean_token_accuracy": 0.6430085202058157,
      "num_tokens": 1825169621.0,
      "step": 10885
    },
    {
      "entropy": 1.7438491185506184,
      "epoch": 1.1958748729779463,
      "grad_norm": 0.6828886866569519,
      "learning_rate": 8.613584969824789e-06,
      "loss": 1.5277,
      "mean_token_accuracy": 0.6488937735557556,
      "num_tokens": 1825324021.0,
      "step": 10886
    },
    {
      "entropy": 1.7129732171694438,
      "epoch": 1.1959847298893191,
      "grad_norm": 0.8133248090744019,
      "learning_rate": 8.612041190878826e-06,
      "loss": 1.3015,
      "mean_token_accuracy": 0.672540470957756,
      "num_tokens": 1825460259.0,
      "step": 10887
    },
    {
      "entropy": 1.6727862358093262,
      "epoch": 1.196094586800692,
      "grad_norm": 0.6648197174072266,
      "learning_rate": 8.610497487510679e-06,
      "loss": 1.414,
      "mean_token_accuracy": 0.6671945502360662,
      "num_tokens": 1825626619.0,
      "step": 10888
    },
    {
      "entropy": 1.7124856114387512,
      "epoch": 1.1962044437120651,
      "grad_norm": 0.8533644080162048,
      "learning_rate": 8.60895385976921e-06,
      "loss": 1.4938,
      "mean_token_accuracy": 0.652462845047315,
      "num_tokens": 1825775596.0,
      "step": 10889
    },
    {
      "entropy": 1.6300967534383137,
      "epoch": 1.196314300623438,
      "grad_norm": 0.697281002998352,
      "learning_rate": 8.607410307703279e-06,
      "loss": 1.3898,
      "mean_token_accuracy": 0.6632688790559769,
      "num_tokens": 1825950828.0,
      "step": 10890
    },
    {
      "entropy": 1.6891121864318848,
      "epoch": 1.196424157534811,
      "grad_norm": 0.7355936169624329,
      "learning_rate": 8.605866831361729e-06,
      "loss": 1.572,
      "mean_token_accuracy": 0.6447887768348058,
      "num_tokens": 1826134511.0,
      "step": 10891
    },
    {
      "entropy": 1.7174355785051982,
      "epoch": 1.1965340144461838,
      "grad_norm": 0.6898308992385864,
      "learning_rate": 8.604323430793416e-06,
      "loss": 1.4689,
      "mean_token_accuracy": 0.6526208321253458,
      "num_tokens": 1826298089.0,
      "step": 10892
    },
    {
      "entropy": 1.7147394319375355,
      "epoch": 1.1966438713575567,
      "grad_norm": 0.8916130661964417,
      "learning_rate": 8.602780106047189e-06,
      "loss": 1.364,
      "mean_token_accuracy": 0.6715402801831564,
      "num_tokens": 1826432931.0,
      "step": 10893
    },
    {
      "entropy": 1.6138789653778076,
      "epoch": 1.1967537282689298,
      "grad_norm": 0.7221713662147522,
      "learning_rate": 8.60123685717189e-06,
      "loss": 1.4328,
      "mean_token_accuracy": 0.6576006362835566,
      "num_tokens": 1826627859.0,
      "step": 10894
    },
    {
      "entropy": 1.7023044029871623,
      "epoch": 1.1968635851803027,
      "grad_norm": 0.571751594543457,
      "learning_rate": 8.59969368421636e-06,
      "loss": 1.3235,
      "mean_token_accuracy": 0.6696832726399103,
      "num_tokens": 1826792129.0,
      "step": 10895
    },
    {
      "entropy": 1.7759801348050435,
      "epoch": 1.1969734420916756,
      "grad_norm": 0.738571286201477,
      "learning_rate": 8.598150587229448e-06,
      "loss": 1.4592,
      "mean_token_accuracy": 0.6435786783695221,
      "num_tokens": 1826939218.0,
      "step": 10896
    },
    {
      "entropy": 1.6735620200634003,
      "epoch": 1.1970832990030484,
      "grad_norm": 0.6554346680641174,
      "learning_rate": 8.596607566259986e-06,
      "loss": 1.4253,
      "mean_token_accuracy": 0.6584400484959284,
      "num_tokens": 1827121356.0,
      "step": 10897
    },
    {
      "entropy": 1.6918166776498158,
      "epoch": 1.1971931559144215,
      "grad_norm": 0.7005612254142761,
      "learning_rate": 8.595064621356812e-06,
      "loss": 1.3349,
      "mean_token_accuracy": 0.6674779852231344,
      "num_tokens": 1827261219.0,
      "step": 10898
    },
    {
      "entropy": 1.6832281549771626,
      "epoch": 1.1973030128257944,
      "grad_norm": 0.732524573802948,
      "learning_rate": 8.593521752568759e-06,
      "loss": 1.3192,
      "mean_token_accuracy": 0.6616079111893972,
      "num_tokens": 1827424352.0,
      "step": 10899
    },
    {
      "entropy": 1.7052031954129536,
      "epoch": 1.1974128697371673,
      "grad_norm": 0.7440763115882874,
      "learning_rate": 8.591978959944657e-06,
      "loss": 1.2866,
      "mean_token_accuracy": 0.6621012737353643,
      "num_tokens": 1827566352.0,
      "step": 10900
    },
    {
      "entropy": 1.748506526152293,
      "epoch": 1.1975227266485402,
      "grad_norm": 0.6760443449020386,
      "learning_rate": 8.590436243533336e-06,
      "loss": 1.3757,
      "mean_token_accuracy": 0.6591590344905853,
      "num_tokens": 1827705988.0,
      "step": 10901
    },
    {
      "entropy": 1.7245979209740956,
      "epoch": 1.1976325835599133,
      "grad_norm": 0.6143633127212524,
      "learning_rate": 8.588893603383623e-06,
      "loss": 1.5103,
      "mean_token_accuracy": 0.6388898193836212,
      "num_tokens": 1827921089.0,
      "step": 10902
    },
    {
      "entropy": 1.6794546246528625,
      "epoch": 1.1977424404712862,
      "grad_norm": 0.6420578956604004,
      "learning_rate": 8.58735103954434e-06,
      "loss": 1.5082,
      "mean_token_accuracy": 0.641454761226972,
      "num_tokens": 1828112111.0,
      "step": 10903
    },
    {
      "entropy": 1.70048584540685,
      "epoch": 1.197852297382659,
      "grad_norm": 0.6062077879905701,
      "learning_rate": 8.585808552064312e-06,
      "loss": 1.3617,
      "mean_token_accuracy": 0.6477002501487732,
      "num_tokens": 1828253988.0,
      "step": 10904
    },
    {
      "entropy": 1.6546235779921215,
      "epoch": 1.197962154294032,
      "grad_norm": 0.6344867944717407,
      "learning_rate": 8.584266140992355e-06,
      "loss": 1.4448,
      "mean_token_accuracy": 0.6534637212753296,
      "num_tokens": 1828444002.0,
      "step": 10905
    },
    {
      "entropy": 1.6595034301280975,
      "epoch": 1.1980720112054049,
      "grad_norm": 0.7396848797798157,
      "learning_rate": 8.582723806377281e-06,
      "loss": 1.1545,
      "mean_token_accuracy": 0.6930899421374003,
      "num_tokens": 1828558474.0,
      "step": 10906
    },
    {
      "entropy": 1.7764694193998973,
      "epoch": 1.198181868116778,
      "grad_norm": 0.7311699390411377,
      "learning_rate": 8.581181548267914e-06,
      "loss": 1.4681,
      "mean_token_accuracy": 0.647409662604332,
      "num_tokens": 1828672601.0,
      "step": 10907
    },
    {
      "entropy": 1.778613011042277,
      "epoch": 1.1982917250281508,
      "grad_norm": 0.8004505634307861,
      "learning_rate": 8.579639366713062e-06,
      "loss": 1.4917,
      "mean_token_accuracy": 0.6318371693293253,
      "num_tokens": 1828867425.0,
      "step": 10908
    },
    {
      "entropy": 1.7501141329606373,
      "epoch": 1.1984015819395237,
      "grad_norm": 0.8574265241622925,
      "learning_rate": 8.578097261761531e-06,
      "loss": 1.3178,
      "mean_token_accuracy": 0.6586999098459879,
      "num_tokens": 1829025448.0,
      "step": 10909
    },
    {
      "entropy": 1.7619508107503254,
      "epoch": 1.1985114388508966,
      "grad_norm": 0.7897709608078003,
      "learning_rate": 8.57655523346213e-06,
      "loss": 1.5334,
      "mean_token_accuracy": 0.6314461479584376,
      "num_tokens": 1829224005.0,
      "step": 10910
    },
    {
      "entropy": 1.717555691798528,
      "epoch": 1.1986212957622697,
      "grad_norm": 0.6715591549873352,
      "learning_rate": 8.575013281863666e-06,
      "loss": 1.3903,
      "mean_token_accuracy": 0.6613827695449194,
      "num_tokens": 1829394320.0,
      "step": 10911
    },
    {
      "entropy": 1.7155894537766774,
      "epoch": 1.1987311526736426,
      "grad_norm": 0.8104733228683472,
      "learning_rate": 8.573471407014934e-06,
      "loss": 1.3106,
      "mean_token_accuracy": 0.663354347149531,
      "num_tokens": 1829539454.0,
      "step": 10912
    },
    {
      "entropy": 1.6335892776648204,
      "epoch": 1.1988410095850155,
      "grad_norm": 0.6717244386672974,
      "learning_rate": 8.571929608964743e-06,
      "loss": 1.1869,
      "mean_token_accuracy": 0.6866246312856674,
      "num_tokens": 1829642311.0,
      "step": 10913
    },
    {
      "entropy": 1.7017800013224285,
      "epoch": 1.1989508664963884,
      "grad_norm": 0.5946372151374817,
      "learning_rate": 8.570387887761886e-06,
      "loss": 1.4284,
      "mean_token_accuracy": 0.6471086144447327,
      "num_tokens": 1829869402.0,
      "step": 10914
    },
    {
      "entropy": 1.6842081248760223,
      "epoch": 1.1990607234077615,
      "grad_norm": 0.6334558725357056,
      "learning_rate": 8.568846243455156e-06,
      "loss": 1.3793,
      "mean_token_accuracy": 0.6581207563479742,
      "num_tokens": 1830025157.0,
      "step": 10915
    },
    {
      "entropy": 1.7087959746519725,
      "epoch": 1.1991705803191344,
      "grad_norm": 0.6897690296173096,
      "learning_rate": 8.56730467609335e-06,
      "loss": 1.499,
      "mean_token_accuracy": 0.6366796096165975,
      "num_tokens": 1830195791.0,
      "step": 10916
    },
    {
      "entropy": 1.6709490915139515,
      "epoch": 1.1992804372305073,
      "grad_norm": 0.633358895778656,
      "learning_rate": 8.56576318572525e-06,
      "loss": 1.2466,
      "mean_token_accuracy": 0.6887932568788528,
      "num_tokens": 1830355273.0,
      "step": 10917
    },
    {
      "entropy": 1.696038504441579,
      "epoch": 1.1993902941418801,
      "grad_norm": 0.8158591985702515,
      "learning_rate": 8.564221772399649e-06,
      "loss": 1.5133,
      "mean_token_accuracy": 0.6450046946605047,
      "num_tokens": 1830511215.0,
      "step": 10918
    },
    {
      "entropy": 1.7114079197247822,
      "epoch": 1.199500151053253,
      "grad_norm": 0.6601821780204773,
      "learning_rate": 8.562680436165334e-06,
      "loss": 1.4599,
      "mean_token_accuracy": 0.6562004834413528,
      "num_tokens": 1830664540.0,
      "step": 10919
    },
    {
      "entropy": 1.636279861132304,
      "epoch": 1.1996100079646261,
      "grad_norm": 0.6178733110427856,
      "learning_rate": 8.561139177071082e-06,
      "loss": 1.3889,
      "mean_token_accuracy": 0.6608523726463318,
      "num_tokens": 1830824816.0,
      "step": 10920
    },
    {
      "entropy": 1.695862223704656,
      "epoch": 1.199719864875999,
      "grad_norm": 0.7451301217079163,
      "learning_rate": 8.559597995165678e-06,
      "loss": 1.3195,
      "mean_token_accuracy": 0.6666155556837717,
      "num_tokens": 1830947228.0,
      "step": 10921
    },
    {
      "entropy": 1.7582411766052246,
      "epoch": 1.199829721787372,
      "grad_norm": 0.864019513130188,
      "learning_rate": 8.558056890497897e-06,
      "loss": 1.3974,
      "mean_token_accuracy": 0.6508052796125412,
      "num_tokens": 1831092466.0,
      "step": 10922
    },
    {
      "entropy": 1.7041733066240947,
      "epoch": 1.1999395786987448,
      "grad_norm": 0.6823435425758362,
      "learning_rate": 8.556515863116518e-06,
      "loss": 1.2998,
      "mean_token_accuracy": 0.6597320288419724,
      "num_tokens": 1831280239.0,
      "step": 10923
    },
    {
      "entropy": 1.7025948067506154,
      "epoch": 1.200049435610118,
      "grad_norm": 0.6404684782028198,
      "learning_rate": 8.554974913070306e-06,
      "loss": 1.4125,
      "mean_token_accuracy": 0.6431457748015722,
      "num_tokens": 1831481003.0,
      "step": 10924
    },
    {
      "entropy": 1.7434356113274891,
      "epoch": 1.2001592925214908,
      "grad_norm": 0.769716203212738,
      "learning_rate": 8.553434040408037e-06,
      "loss": 1.4012,
      "mean_token_accuracy": 0.6592916697263718,
      "num_tokens": 1831679505.0,
      "step": 10925
    },
    {
      "entropy": 1.7073861261208851,
      "epoch": 1.2002691494328637,
      "grad_norm": 0.6649128198623657,
      "learning_rate": 8.551893245178482e-06,
      "loss": 1.359,
      "mean_token_accuracy": 0.6671257416407267,
      "num_tokens": 1831833327.0,
      "step": 10926
    },
    {
      "entropy": 1.693003276983897,
      "epoch": 1.2003790063442366,
      "grad_norm": 0.6499382257461548,
      "learning_rate": 8.550352527430402e-06,
      "loss": 1.4374,
      "mean_token_accuracy": 0.6594889660676321,
      "num_tokens": 1832003734.0,
      "step": 10927
    },
    {
      "entropy": 1.644775668780009,
      "epoch": 1.2004888632556097,
      "grad_norm": 0.618766725063324,
      "learning_rate": 8.548811887212558e-06,
      "loss": 1.495,
      "mean_token_accuracy": 0.655649391313394,
      "num_tokens": 1832145698.0,
      "step": 10928
    },
    {
      "entropy": 1.7419310013453166,
      "epoch": 1.2005987201669825,
      "grad_norm": 0.7380454540252686,
      "learning_rate": 8.547271324573716e-06,
      "loss": 1.4547,
      "mean_token_accuracy": 0.6507051835457484,
      "num_tokens": 1832300473.0,
      "step": 10929
    },
    {
      "entropy": 1.7053045133749645,
      "epoch": 1.2007085770783554,
      "grad_norm": 0.6194471716880798,
      "learning_rate": 8.545730839562627e-06,
      "loss": 1.4298,
      "mean_token_accuracy": 0.648463194568952,
      "num_tokens": 1832468480.0,
      "step": 10930
    },
    {
      "entropy": 1.7070962289969127,
      "epoch": 1.2008184339897283,
      "grad_norm": 0.7254568934440613,
      "learning_rate": 8.544190432228053e-06,
      "loss": 1.3819,
      "mean_token_accuracy": 0.6639789591232935,
      "num_tokens": 1832639575.0,
      "step": 10931
    },
    {
      "entropy": 1.7318992813428242,
      "epoch": 1.2009282909011012,
      "grad_norm": 0.7872775197029114,
      "learning_rate": 8.542650102618748e-06,
      "loss": 1.3596,
      "mean_token_accuracy": 0.6584235628445944,
      "num_tokens": 1832820036.0,
      "step": 10932
    },
    {
      "entropy": 1.6651087601979573,
      "epoch": 1.2010381478124743,
      "grad_norm": 0.6679090857505798,
      "learning_rate": 8.541109850783458e-06,
      "loss": 1.3423,
      "mean_token_accuracy": 0.6579601069291433,
      "num_tokens": 1833005066.0,
      "step": 10933
    },
    {
      "entropy": 1.691778947909673,
      "epoch": 1.2011480047238472,
      "grad_norm": 0.6940400004386902,
      "learning_rate": 8.539569676770931e-06,
      "loss": 1.2484,
      "mean_token_accuracy": 0.6750961343447367,
      "num_tokens": 1833137014.0,
      "step": 10934
    },
    {
      "entropy": 1.754847486813863,
      "epoch": 1.20125786163522,
      "grad_norm": 0.788187563419342,
      "learning_rate": 8.53802958062992e-06,
      "loss": 1.3827,
      "mean_token_accuracy": 0.6513949334621429,
      "num_tokens": 1833284638.0,
      "step": 10935
    },
    {
      "entropy": 1.7428893844286601,
      "epoch": 1.201367718546593,
      "grad_norm": 0.6965903043746948,
      "learning_rate": 8.536489562409159e-06,
      "loss": 1.6019,
      "mean_token_accuracy": 0.627113069097201,
      "num_tokens": 1833452637.0,
      "step": 10936
    },
    {
      "entropy": 1.7226960361003876,
      "epoch": 1.201477575457966,
      "grad_norm": 0.7512861490249634,
      "learning_rate": 8.534949622157393e-06,
      "loss": 1.5185,
      "mean_token_accuracy": 0.6288545529047648,
      "num_tokens": 1833649388.0,
      "step": 10937
    },
    {
      "entropy": 1.711164077123006,
      "epoch": 1.201587432369339,
      "grad_norm": 0.7107270359992981,
      "learning_rate": 8.533409759923364e-06,
      "loss": 1.3231,
      "mean_token_accuracy": 0.6556845357020696,
      "num_tokens": 1833816986.0,
      "step": 10938
    },
    {
      "entropy": 1.7271955609321594,
      "epoch": 1.2016972892807118,
      "grad_norm": 0.6369715929031372,
      "learning_rate": 8.531869975755803e-06,
      "loss": 1.398,
      "mean_token_accuracy": 0.6558120846748352,
      "num_tokens": 1833950907.0,
      "step": 10939
    },
    {
      "entropy": 1.6842861076196034,
      "epoch": 1.2018071461920847,
      "grad_norm": 0.6507421135902405,
      "learning_rate": 8.530330269703445e-06,
      "loss": 1.2904,
      "mean_token_accuracy": 0.6633835931619009,
      "num_tokens": 1834127190.0,
      "step": 10940
    },
    {
      "entropy": 1.6939348876476288,
      "epoch": 1.2019170031034578,
      "grad_norm": 0.6615996360778809,
      "learning_rate": 8.52879064181502e-06,
      "loss": 1.433,
      "mean_token_accuracy": 0.661163717508316,
      "num_tokens": 1834286480.0,
      "step": 10941
    },
    {
      "entropy": 1.7181770503520966,
      "epoch": 1.2020268600148307,
      "grad_norm": 0.6543670892715454,
      "learning_rate": 8.52725109213926e-06,
      "loss": 1.2943,
      "mean_token_accuracy": 0.6620519210894903,
      "num_tokens": 1834394332.0,
      "step": 10942
    },
    {
      "entropy": 1.6917479634284973,
      "epoch": 1.2021367169262036,
      "grad_norm": 0.8514935374259949,
      "learning_rate": 8.525711620724885e-06,
      "loss": 1.6089,
      "mean_token_accuracy": 0.6384094009796778,
      "num_tokens": 1834567370.0,
      "step": 10943
    },
    {
      "entropy": 1.7038015524546306,
      "epoch": 1.2022465738375765,
      "grad_norm": 0.7576673626899719,
      "learning_rate": 8.524172227620628e-06,
      "loss": 1.4333,
      "mean_token_accuracy": 0.6669259319702784,
      "num_tokens": 1834731150.0,
      "step": 10944
    },
    {
      "entropy": 1.698100248972575,
      "epoch": 1.2023564307489494,
      "grad_norm": 0.7677764892578125,
      "learning_rate": 8.522632912875201e-06,
      "loss": 1.2893,
      "mean_token_accuracy": 0.6776777257521948,
      "num_tokens": 1834881903.0,
      "step": 10945
    },
    {
      "entropy": 1.7503166198730469,
      "epoch": 1.2024662876603225,
      "grad_norm": 0.8348533511161804,
      "learning_rate": 8.521093676537327e-06,
      "loss": 1.5078,
      "mean_token_accuracy": 0.64637457827727,
      "num_tokens": 1835009118.0,
      "step": 10946
    },
    {
      "entropy": 1.7325368821620941,
      "epoch": 1.2025761445716954,
      "grad_norm": 0.7055541276931763,
      "learning_rate": 8.519554518655719e-06,
      "loss": 1.3927,
      "mean_token_accuracy": 0.6497747053702673,
      "num_tokens": 1835147384.0,
      "step": 10947
    },
    {
      "entropy": 1.7662848830223083,
      "epoch": 1.2026860014830683,
      "grad_norm": 0.6840864419937134,
      "learning_rate": 8.518015439279092e-06,
      "loss": 1.3965,
      "mean_token_accuracy": 0.6465002000331879,
      "num_tokens": 1835316504.0,
      "step": 10948
    },
    {
      "entropy": 1.6147024432818096,
      "epoch": 1.2027958583944414,
      "grad_norm": 0.6623427867889404,
      "learning_rate": 8.516476438456164e-06,
      "loss": 1.3179,
      "mean_token_accuracy": 0.6583419640858968,
      "num_tokens": 1835510113.0,
      "step": 10949
    },
    {
      "entropy": 1.69747061530749,
      "epoch": 1.2029057153058142,
      "grad_norm": 0.8042090535163879,
      "learning_rate": 8.51493751623563e-06,
      "loss": 1.4357,
      "mean_token_accuracy": 0.6584860185782114,
      "num_tokens": 1835682732.0,
      "step": 10950
    },
    {
      "entropy": 1.7218117117881775,
      "epoch": 1.2030155722171871,
      "grad_norm": 0.613860547542572,
      "learning_rate": 8.513398672666209e-06,
      "loss": 1.3976,
      "mean_token_accuracy": 0.6480874568223953,
      "num_tokens": 1835857692.0,
      "step": 10951
    },
    {
      "entropy": 1.7380519111951191,
      "epoch": 1.20312542912856,
      "grad_norm": 0.7758024334907532,
      "learning_rate": 8.5118599077966e-06,
      "loss": 1.4748,
      "mean_token_accuracy": 0.6393528680006663,
      "num_tokens": 1836015807.0,
      "step": 10952
    },
    {
      "entropy": 1.6796276768048604,
      "epoch": 1.203235286039933,
      "grad_norm": 0.5999566912651062,
      "learning_rate": 8.5103212216755e-06,
      "loss": 1.3092,
      "mean_token_accuracy": 0.6672457307577133,
      "num_tokens": 1836153324.0,
      "step": 10953
    },
    {
      "entropy": 1.7185988624890645,
      "epoch": 1.203345142951306,
      "grad_norm": 0.8109869360923767,
      "learning_rate": 8.508782614351612e-06,
      "loss": 1.4122,
      "mean_token_accuracy": 0.6546374360720316,
      "num_tokens": 1836311706.0,
      "step": 10954
    },
    {
      "entropy": 1.6729619602362316,
      "epoch": 1.203454999862679,
      "grad_norm": 0.6391358971595764,
      "learning_rate": 8.507244085873636e-06,
      "loss": 1.4177,
      "mean_token_accuracy": 0.6587773958841959,
      "num_tokens": 1836484187.0,
      "step": 10955
    },
    {
      "entropy": 1.7137231330076854,
      "epoch": 1.2035648567740518,
      "grad_norm": 0.6148737072944641,
      "learning_rate": 8.505705636290256e-06,
      "loss": 1.4516,
      "mean_token_accuracy": 0.6422171841065089,
      "num_tokens": 1836722681.0,
      "step": 10956
    },
    {
      "entropy": 1.7291185359160106,
      "epoch": 1.2036747136854247,
      "grad_norm": 0.7713000178337097,
      "learning_rate": 8.504167265650171e-06,
      "loss": 1.523,
      "mean_token_accuracy": 0.629439448316892,
      "num_tokens": 1836930155.0,
      "step": 10957
    },
    {
      "entropy": 1.6895070970058441,
      "epoch": 1.2037845705967976,
      "grad_norm": 0.627571702003479,
      "learning_rate": 8.50262897400207e-06,
      "loss": 1.3553,
      "mean_token_accuracy": 0.6645805637041727,
      "num_tokens": 1837103755.0,
      "step": 10958
    },
    {
      "entropy": 1.6793027222156525,
      "epoch": 1.2038944275081707,
      "grad_norm": 0.6628625392913818,
      "learning_rate": 8.501090761394633e-06,
      "loss": 1.3049,
      "mean_token_accuracy": 0.6793260723352432,
      "num_tokens": 1837258622.0,
      "step": 10959
    },
    {
      "entropy": 1.7522801260153453,
      "epoch": 1.2040042844195435,
      "grad_norm": 0.7251481413841248,
      "learning_rate": 8.499552627876548e-06,
      "loss": 1.2863,
      "mean_token_accuracy": 0.6737864712874094,
      "num_tokens": 1837364398.0,
      "step": 10960
    },
    {
      "entropy": 1.6999558309714,
      "epoch": 1.2041141413309164,
      "grad_norm": 0.6430142521858215,
      "learning_rate": 8.498014573496495e-06,
      "loss": 1.368,
      "mean_token_accuracy": 0.6580288509527842,
      "num_tokens": 1837556811.0,
      "step": 10961
    },
    {
      "entropy": 1.7127414047718048,
      "epoch": 1.2042239982422895,
      "grad_norm": 0.7526107430458069,
      "learning_rate": 8.496476598303154e-06,
      "loss": 1.3032,
      "mean_token_accuracy": 0.6637988835573196,
      "num_tokens": 1837690847.0,
      "step": 10962
    },
    {
      "entropy": 1.7249715427557628,
      "epoch": 1.2043338551536624,
      "grad_norm": 0.7242283225059509,
      "learning_rate": 8.4949387023452e-06,
      "loss": 1.4256,
      "mean_token_accuracy": 0.6612179130315781,
      "num_tokens": 1837830879.0,
      "step": 10963
    },
    {
      "entropy": 1.6988115906715393,
      "epoch": 1.2044437120650353,
      "grad_norm": 0.6785094141960144,
      "learning_rate": 8.493400885671308e-06,
      "loss": 1.3657,
      "mean_token_accuracy": 0.6599143246809641,
      "num_tokens": 1837977639.0,
      "step": 10964
    },
    {
      "entropy": 1.6827894548575084,
      "epoch": 1.2045535689764082,
      "grad_norm": 0.6206066012382507,
      "learning_rate": 8.491863148330148e-06,
      "loss": 1.3765,
      "mean_token_accuracy": 0.6473558694124222,
      "num_tokens": 1838195501.0,
      "step": 10965
    },
    {
      "entropy": 1.7016201118628185,
      "epoch": 1.204663425887781,
      "grad_norm": 0.7276713252067566,
      "learning_rate": 8.49032549037039e-06,
      "loss": 1.4146,
      "mean_token_accuracy": 0.6548609832922617,
      "num_tokens": 1838330606.0,
      "step": 10966
    },
    {
      "entropy": 1.678989330927531,
      "epoch": 1.2047732827991542,
      "grad_norm": 0.8118691444396973,
      "learning_rate": 8.488787911840702e-06,
      "loss": 1.4573,
      "mean_token_accuracy": 0.642837405204773,
      "num_tokens": 1838496302.0,
      "step": 10967
    },
    {
      "entropy": 1.6498075425624847,
      "epoch": 1.204883139710527,
      "grad_norm": 0.7537748217582703,
      "learning_rate": 8.48725041278974e-06,
      "loss": 1.2895,
      "mean_token_accuracy": 0.6750341604153315,
      "num_tokens": 1838650065.0,
      "step": 10968
    },
    {
      "entropy": 1.6907791793346405,
      "epoch": 1.2049929966219,
      "grad_norm": 0.9500882029533386,
      "learning_rate": 8.48571299326617e-06,
      "loss": 1.4808,
      "mean_token_accuracy": 0.6541274686654409,
      "num_tokens": 1838802465.0,
      "step": 10969
    },
    {
      "entropy": 1.6472548147042592,
      "epoch": 1.2051028535332728,
      "grad_norm": 0.6497575044631958,
      "learning_rate": 8.484175653318656e-06,
      "loss": 1.2956,
      "mean_token_accuracy": 0.6712877601385117,
      "num_tokens": 1838940896.0,
      "step": 10970
    },
    {
      "entropy": 1.7175530691941578,
      "epoch": 1.2052127104446457,
      "grad_norm": 0.7882832288742065,
      "learning_rate": 8.482638392995845e-06,
      "loss": 1.3548,
      "mean_token_accuracy": 0.6520499388376871,
      "num_tokens": 1839095122.0,
      "step": 10971
    },
    {
      "entropy": 1.6997943917910259,
      "epoch": 1.2053225673560188,
      "grad_norm": 0.65944504737854,
      "learning_rate": 8.481101212346395e-06,
      "loss": 1.3365,
      "mean_token_accuracy": 0.6599059452613195,
      "num_tokens": 1839282288.0,
      "step": 10972
    },
    {
      "entropy": 1.6870457927385967,
      "epoch": 1.2054324242673917,
      "grad_norm": 0.6719939708709717,
      "learning_rate": 8.479564111418959e-06,
      "loss": 1.426,
      "mean_token_accuracy": 0.6513770818710327,
      "num_tokens": 1839448385.0,
      "step": 10973
    },
    {
      "entropy": 1.7068449358145397,
      "epoch": 1.2055422811787646,
      "grad_norm": 0.6699382066726685,
      "learning_rate": 8.47802709026218e-06,
      "loss": 1.4808,
      "mean_token_accuracy": 0.6471947580575943,
      "num_tokens": 1839597423.0,
      "step": 10974
    },
    {
      "entropy": 1.712907761335373,
      "epoch": 1.2056521380901377,
      "grad_norm": 0.6794223189353943,
      "learning_rate": 8.476490148924705e-06,
      "loss": 1.3044,
      "mean_token_accuracy": 0.6599731842676798,
      "num_tokens": 1839736794.0,
      "step": 10975
    },
    {
      "entropy": 1.74131045738856,
      "epoch": 1.2057619950015106,
      "grad_norm": 0.8693950772285461,
      "learning_rate": 8.474953287455185e-06,
      "loss": 1.407,
      "mean_token_accuracy": 0.6535183389981588,
      "num_tokens": 1839864797.0,
      "step": 10976
    },
    {
      "entropy": 1.738874187072118,
      "epoch": 1.2058718519128835,
      "grad_norm": 0.8112277984619141,
      "learning_rate": 8.473416505902254e-06,
      "loss": 1.5832,
      "mean_token_accuracy": 0.6483089849352837,
      "num_tokens": 1840003600.0,
      "step": 10977
    },
    {
      "entropy": 1.7444894413153331,
      "epoch": 1.2059817088242564,
      "grad_norm": 0.6465990543365479,
      "learning_rate": 8.471879804314552e-06,
      "loss": 1.5445,
      "mean_token_accuracy": 0.6178958763678869,
      "num_tokens": 1840308433.0,
      "step": 10978
    },
    {
      "entropy": 1.728948066631953,
      "epoch": 1.2060915657356293,
      "grad_norm": 0.6564865112304688,
      "learning_rate": 8.470343182740716e-06,
      "loss": 1.4047,
      "mean_token_accuracy": 0.6490548650423685,
      "num_tokens": 1840478644.0,
      "step": 10979
    },
    {
      "entropy": 1.7226575712362926,
      "epoch": 1.2062014226470024,
      "grad_norm": 0.7290470600128174,
      "learning_rate": 8.468806641229376e-06,
      "loss": 1.2962,
      "mean_token_accuracy": 0.6657624244689941,
      "num_tokens": 1840621628.0,
      "step": 10980
    },
    {
      "entropy": 1.7463841636975606,
      "epoch": 1.2063112795583752,
      "grad_norm": 0.6011817455291748,
      "learning_rate": 8.467270179829166e-06,
      "loss": 1.4322,
      "mean_token_accuracy": 0.6443581183751425,
      "num_tokens": 1840798045.0,
      "step": 10981
    },
    {
      "entropy": 1.773529440164566,
      "epoch": 1.2064211364697481,
      "grad_norm": 0.6532623767852783,
      "learning_rate": 8.465733798588715e-06,
      "loss": 1.4649,
      "mean_token_accuracy": 0.631449893116951,
      "num_tokens": 1840950614.0,
      "step": 10982
    },
    {
      "entropy": 1.6585228244463603,
      "epoch": 1.206530993381121,
      "grad_norm": 0.6496007442474365,
      "learning_rate": 8.464197497556646e-06,
      "loss": 1.4284,
      "mean_token_accuracy": 0.6490184764067332,
      "num_tokens": 1841136948.0,
      "step": 10983
    },
    {
      "entropy": 1.7097909947236378,
      "epoch": 1.206640850292494,
      "grad_norm": 0.6547970175743103,
      "learning_rate": 8.462661276781583e-06,
      "loss": 1.4973,
      "mean_token_accuracy": 0.6476222276687622,
      "num_tokens": 1841300598.0,
      "step": 10984
    },
    {
      "entropy": 1.7845760981241863,
      "epoch": 1.206750707203867,
      "grad_norm": 0.8349284529685974,
      "learning_rate": 8.46112513631215e-06,
      "loss": 1.5017,
      "mean_token_accuracy": 0.6529583881298701,
      "num_tokens": 1841457868.0,
      "step": 10985
    },
    {
      "entropy": 1.7160189151763916,
      "epoch": 1.20686056411524,
      "grad_norm": 0.746083676815033,
      "learning_rate": 8.459589076196957e-06,
      "loss": 1.2057,
      "mean_token_accuracy": 0.6863613526026408,
      "num_tokens": 1841583833.0,
      "step": 10986
    },
    {
      "entropy": 1.6878787875175476,
      "epoch": 1.2069704210266128,
      "grad_norm": 0.7189993858337402,
      "learning_rate": 8.458053096484628e-06,
      "loss": 1.3567,
      "mean_token_accuracy": 0.6640171358982722,
      "num_tokens": 1841780454.0,
      "step": 10987
    },
    {
      "entropy": 1.7334311107794445,
      "epoch": 1.207080277937986,
      "grad_norm": 0.652119517326355,
      "learning_rate": 8.456517197223774e-06,
      "loss": 1.5206,
      "mean_token_accuracy": 0.6425420294205347,
      "num_tokens": 1841985689.0,
      "step": 10988
    },
    {
      "entropy": 1.6652919054031372,
      "epoch": 1.2071901348493588,
      "grad_norm": 0.6829299330711365,
      "learning_rate": 8.454981378463006e-06,
      "loss": 1.4756,
      "mean_token_accuracy": 0.6531298210223516,
      "num_tokens": 1842141908.0,
      "step": 10989
    },
    {
      "entropy": 1.7330115834871929,
      "epoch": 1.2072999917607317,
      "grad_norm": 0.7318177819252014,
      "learning_rate": 8.453445640250928e-06,
      "loss": 1.2572,
      "mean_token_accuracy": 0.6711813112099966,
      "num_tokens": 1842253992.0,
      "step": 10990
    },
    {
      "entropy": 1.7475427587827046,
      "epoch": 1.2074098486721045,
      "grad_norm": 0.6801440119743347,
      "learning_rate": 8.451909982636148e-06,
      "loss": 1.4171,
      "mean_token_accuracy": 0.6432561924060186,
      "num_tokens": 1842417979.0,
      "step": 10991
    },
    {
      "entropy": 1.7295256853103638,
      "epoch": 1.2075197055834774,
      "grad_norm": 0.6919019222259521,
      "learning_rate": 8.450374405667267e-06,
      "loss": 1.4833,
      "mean_token_accuracy": 0.643854022026062,
      "num_tokens": 1842583946.0,
      "step": 10992
    },
    {
      "entropy": 1.735103686650594,
      "epoch": 1.2076295624948505,
      "grad_norm": 0.7653998136520386,
      "learning_rate": 8.448838909392889e-06,
      "loss": 1.3802,
      "mean_token_accuracy": 0.655050535996755,
      "num_tokens": 1842739381.0,
      "step": 10993
    },
    {
      "entropy": 1.7508669197559357,
      "epoch": 1.2077394194062234,
      "grad_norm": 0.8188372254371643,
      "learning_rate": 8.447303493861612e-06,
      "loss": 1.5111,
      "mean_token_accuracy": 0.6337236364682516,
      "num_tokens": 1842933440.0,
      "step": 10994
    },
    {
      "entropy": 1.6848741968472798,
      "epoch": 1.2078492763175963,
      "grad_norm": 0.5986067056655884,
      "learning_rate": 8.445768159122028e-06,
      "loss": 1.3676,
      "mean_token_accuracy": 0.6652501175800959,
      "num_tokens": 1843132075.0,
      "step": 10995
    },
    {
      "entropy": 1.7106738686561584,
      "epoch": 1.2079591332289692,
      "grad_norm": 0.6997463703155518,
      "learning_rate": 8.44423290522273e-06,
      "loss": 1.4677,
      "mean_token_accuracy": 0.6429871618747711,
      "num_tokens": 1843296882.0,
      "step": 10996
    },
    {
      "entropy": 1.7586935957272847,
      "epoch": 1.208068990140342,
      "grad_norm": 0.7393748164176941,
      "learning_rate": 8.44269773221231e-06,
      "loss": 1.447,
      "mean_token_accuracy": 0.6556659440199534,
      "num_tokens": 1843432063.0,
      "step": 10997
    },
    {
      "entropy": 1.685716986656189,
      "epoch": 1.2081788470517152,
      "grad_norm": 0.6346744894981384,
      "learning_rate": 8.441162640139354e-06,
      "loss": 1.4373,
      "mean_token_accuracy": 0.6571964671214422,
      "num_tokens": 1843608301.0,
      "step": 10998
    },
    {
      "entropy": 1.7133116920789082,
      "epoch": 1.208288703963088,
      "grad_norm": 0.7435621023178101,
      "learning_rate": 8.439627629052446e-06,
      "loss": 1.4443,
      "mean_token_accuracy": 0.6661744117736816,
      "num_tokens": 1843798714.0,
      "step": 10999
    },
    {
      "entropy": 1.619499186674754,
      "epoch": 1.208398560874461,
      "grad_norm": 0.6935999989509583,
      "learning_rate": 8.438092699000172e-06,
      "loss": 1.2591,
      "mean_token_accuracy": 0.675690621137619,
      "num_tokens": 1843939118.0,
      "step": 11000
    },
    {
      "entropy": 1.757647732893626,
      "epoch": 1.208508417785834,
      "grad_norm": 0.6426697373390198,
      "learning_rate": 8.436557850031109e-06,
      "loss": 1.4623,
      "mean_token_accuracy": 0.6505621820688248,
      "num_tokens": 1844111185.0,
      "step": 11001
    },
    {
      "entropy": 1.7143224676450093,
      "epoch": 1.208618274697207,
      "grad_norm": 0.7159050703048706,
      "learning_rate": 8.435023082193834e-06,
      "loss": 1.4011,
      "mean_token_accuracy": 0.669948066274325,
      "num_tokens": 1844278495.0,
      "step": 11002
    },
    {
      "entropy": 1.6677929162979126,
      "epoch": 1.2087281316085798,
      "grad_norm": 0.8504517674446106,
      "learning_rate": 8.433488395536924e-06,
      "loss": 1.4652,
      "mean_token_accuracy": 0.6526702543099722,
      "num_tokens": 1844426506.0,
      "step": 11003
    },
    {
      "entropy": 1.6635715464750926,
      "epoch": 1.2088379885199527,
      "grad_norm": 0.6439080834388733,
      "learning_rate": 8.431953790108946e-06,
      "loss": 1.3158,
      "mean_token_accuracy": 0.6697449535131454,
      "num_tokens": 1844581041.0,
      "step": 11004
    },
    {
      "entropy": 1.717222531636556,
      "epoch": 1.2089478454313256,
      "grad_norm": 0.5454255938529968,
      "learning_rate": 8.430419265958481e-06,
      "loss": 1.4645,
      "mean_token_accuracy": 0.6585534413655599,
      "num_tokens": 1844751255.0,
      "step": 11005
    },
    {
      "entropy": 1.7076788544654846,
      "epoch": 1.2090577023426987,
      "grad_norm": 0.7401055097579956,
      "learning_rate": 8.42888482313408e-06,
      "loss": 1.3668,
      "mean_token_accuracy": 0.6625747780005137,
      "num_tokens": 1844902026.0,
      "step": 11006
    },
    {
      "entropy": 1.707229753335317,
      "epoch": 1.2091675592540716,
      "grad_norm": 0.7380411624908447,
      "learning_rate": 8.42735046168432e-06,
      "loss": 1.2464,
      "mean_token_accuracy": 0.6756529162327448,
      "num_tokens": 1845022200.0,
      "step": 11007
    },
    {
      "entropy": 1.7667948305606842,
      "epoch": 1.2092774161654445,
      "grad_norm": 0.652038037776947,
      "learning_rate": 8.42581618165776e-06,
      "loss": 1.3872,
      "mean_token_accuracy": 0.6549219787120819,
      "num_tokens": 1845206105.0,
      "step": 11008
    },
    {
      "entropy": 1.6876067121823628,
      "epoch": 1.2093872730768174,
      "grad_norm": 0.7061187028884888,
      "learning_rate": 8.424281983102956e-06,
      "loss": 1.2664,
      "mean_token_accuracy": 0.6709717114766439,
      "num_tokens": 1845316113.0,
      "step": 11009
    },
    {
      "entropy": 1.7546610136826832,
      "epoch": 1.2094971299881905,
      "grad_norm": 0.7472836971282959,
      "learning_rate": 8.422747866068464e-06,
      "loss": 1.4804,
      "mean_token_accuracy": 0.6357733458280563,
      "num_tokens": 1845544449.0,
      "step": 11010
    },
    {
      "entropy": 1.7322336435317993,
      "epoch": 1.2096069868995634,
      "grad_norm": 0.6114717125892639,
      "learning_rate": 8.421213830602846e-06,
      "loss": 1.463,
      "mean_token_accuracy": 0.6512684375047684,
      "num_tokens": 1845756608.0,
      "step": 11011
    },
    {
      "entropy": 1.7614449659983318,
      "epoch": 1.2097168438109362,
      "grad_norm": 0.6005818843841553,
      "learning_rate": 8.419679876754643e-06,
      "loss": 1.5256,
      "mean_token_accuracy": 0.6367160379886627,
      "num_tokens": 1845970779.0,
      "step": 11012
    },
    {
      "entropy": 1.72640464703242,
      "epoch": 1.2098267007223091,
      "grad_norm": 0.7229748964309692,
      "learning_rate": 8.418146004572412e-06,
      "loss": 1.3674,
      "mean_token_accuracy": 0.6622246205806732,
      "num_tokens": 1846110227.0,
      "step": 11013
    },
    {
      "entropy": 1.6716107626756032,
      "epoch": 1.2099365576336822,
      "grad_norm": 0.6086723804473877,
      "learning_rate": 8.416612214104695e-06,
      "loss": 1.3978,
      "mean_token_accuracy": 0.6556883007287979,
      "num_tokens": 1846294061.0,
      "step": 11014
    },
    {
      "entropy": 1.6809994280338287,
      "epoch": 1.2100464145450551,
      "grad_norm": 0.7691161632537842,
      "learning_rate": 8.415078505400041e-06,
      "loss": 1.4725,
      "mean_token_accuracy": 0.6410997360944748,
      "num_tokens": 1846452635.0,
      "step": 11015
    },
    {
      "entropy": 1.6480069359143574,
      "epoch": 1.210156271456428,
      "grad_norm": 0.6271137595176697,
      "learning_rate": 8.413544878506983e-06,
      "loss": 1.5155,
      "mean_token_accuracy": 0.64403468867143,
      "num_tokens": 1846614016.0,
      "step": 11016
    },
    {
      "entropy": 1.6463837722937267,
      "epoch": 1.210266128367801,
      "grad_norm": 0.9350231885910034,
      "learning_rate": 8.412011333474068e-06,
      "loss": 1.4401,
      "mean_token_accuracy": 0.6404287169377009,
      "num_tokens": 1846826350.0,
      "step": 11017
    },
    {
      "entropy": 1.732763757308324,
      "epoch": 1.2103759852791738,
      "grad_norm": 0.7772718071937561,
      "learning_rate": 8.410477870349825e-06,
      "loss": 1.4685,
      "mean_token_accuracy": 0.6515309810638428,
      "num_tokens": 1846958581.0,
      "step": 11018
    },
    {
      "entropy": 1.721984734137853,
      "epoch": 1.210485842190547,
      "grad_norm": 0.6624974012374878,
      "learning_rate": 8.408944489182791e-06,
      "loss": 1.3843,
      "mean_token_accuracy": 0.6445004592339197,
      "num_tokens": 1847163105.0,
      "step": 11019
    },
    {
      "entropy": 1.690103272596995,
      "epoch": 1.2105956991019198,
      "grad_norm": 0.7604218125343323,
      "learning_rate": 8.4074111900215e-06,
      "loss": 1.448,
      "mean_token_accuracy": 0.6505727221568426,
      "num_tokens": 1847318720.0,
      "step": 11020
    },
    {
      "entropy": 1.673486590385437,
      "epoch": 1.2107055560132927,
      "grad_norm": 0.7544184923171997,
      "learning_rate": 8.405877972914472e-06,
      "loss": 1.5931,
      "mean_token_accuracy": 0.6497178276379904,
      "num_tokens": 1847464207.0,
      "step": 11021
    },
    {
      "entropy": 1.739910493294398,
      "epoch": 1.2108154129246655,
      "grad_norm": 0.82258141040802,
      "learning_rate": 8.404344837910237e-06,
      "loss": 1.5897,
      "mean_token_accuracy": 0.6385711828867594,
      "num_tokens": 1847632525.0,
      "step": 11022
    },
    {
      "entropy": 1.7209635078907013,
      "epoch": 1.2109252698360387,
      "grad_norm": 0.6614201068878174,
      "learning_rate": 8.402811785057326e-06,
      "loss": 1.399,
      "mean_token_accuracy": 0.6512503723303477,
      "num_tokens": 1847774532.0,
      "step": 11023
    },
    {
      "entropy": 1.7443317274252574,
      "epoch": 1.2110351267474115,
      "grad_norm": 0.6455691456794739,
      "learning_rate": 8.40127881440424e-06,
      "loss": 1.3867,
      "mean_token_accuracy": 0.6450707316398621,
      "num_tokens": 1847906774.0,
      "step": 11024
    },
    {
      "entropy": 1.6787743270397186,
      "epoch": 1.2111449836587844,
      "grad_norm": 0.7437204122543335,
      "learning_rate": 8.399745925999517e-06,
      "loss": 1.3348,
      "mean_token_accuracy": 0.6639335205157598,
      "num_tokens": 1848048858.0,
      "step": 11025
    },
    {
      "entropy": 1.7229706346988678,
      "epoch": 1.2112548405701573,
      "grad_norm": 0.6177759170532227,
      "learning_rate": 8.39821311989166e-06,
      "loss": 1.4536,
      "mean_token_accuracy": 0.6526401787996292,
      "num_tokens": 1848219021.0,
      "step": 11026
    },
    {
      "entropy": 1.7722203433513641,
      "epoch": 1.2113646974815304,
      "grad_norm": 0.6613593697547913,
      "learning_rate": 8.396680396129189e-06,
      "loss": 1.5069,
      "mean_token_accuracy": 0.6412953784068426,
      "num_tokens": 1848416777.0,
      "step": 11027
    },
    {
      "entropy": 1.7179987331231434,
      "epoch": 1.2114745543929033,
      "grad_norm": 0.7174702882766724,
      "learning_rate": 8.395147754760604e-06,
      "loss": 1.417,
      "mean_token_accuracy": 0.6555820604165395,
      "num_tokens": 1848589063.0,
      "step": 11028
    },
    {
      "entropy": 1.7602262993653615,
      "epoch": 1.2115844113042762,
      "grad_norm": 0.7947672009468079,
      "learning_rate": 8.393615195834425e-06,
      "loss": 1.4152,
      "mean_token_accuracy": 0.6568863987922668,
      "num_tokens": 1848739349.0,
      "step": 11029
    },
    {
      "entropy": 1.7349158922831218,
      "epoch": 1.211694268215649,
      "grad_norm": 0.6535570621490479,
      "learning_rate": 8.392082719399146e-06,
      "loss": 1.411,
      "mean_token_accuracy": 0.6554250419139862,
      "num_tokens": 1848886234.0,
      "step": 11030
    },
    {
      "entropy": 1.7216412425041199,
      "epoch": 1.211804125127022,
      "grad_norm": 0.6314913034439087,
      "learning_rate": 8.390550325503276e-06,
      "loss": 1.3573,
      "mean_token_accuracy": 0.644097218910853,
      "num_tokens": 1849037728.0,
      "step": 11031
    },
    {
      "entropy": 1.6654905676841736,
      "epoch": 1.211913982038395,
      "grad_norm": 0.5710697770118713,
      "learning_rate": 8.389018014195316e-06,
      "loss": 1.3456,
      "mean_token_accuracy": 0.6632640808820724,
      "num_tokens": 1849207967.0,
      "step": 11032
    },
    {
      "entropy": 1.7055143018563588,
      "epoch": 1.212023838949768,
      "grad_norm": 0.631976842880249,
      "learning_rate": 8.387485785523755e-06,
      "loss": 1.4246,
      "mean_token_accuracy": 0.6355055769284567,
      "num_tokens": 1849411860.0,
      "step": 11033
    },
    {
      "entropy": 1.719924658536911,
      "epoch": 1.2121336958611408,
      "grad_norm": 0.6693115830421448,
      "learning_rate": 8.38595363953709e-06,
      "loss": 1.4092,
      "mean_token_accuracy": 0.6476466059684753,
      "num_tokens": 1849617211.0,
      "step": 11034
    },
    {
      "entropy": 1.7284215490023296,
      "epoch": 1.2122435527725137,
      "grad_norm": 0.7452521324157715,
      "learning_rate": 8.384421576283819e-06,
      "loss": 1.4597,
      "mean_token_accuracy": 0.6476357032855352,
      "num_tokens": 1849792205.0,
      "step": 11035
    },
    {
      "entropy": 1.6705568730831146,
      "epoch": 1.2123534096838868,
      "grad_norm": 0.5901700854301453,
      "learning_rate": 8.382889595812422e-06,
      "loss": 1.3592,
      "mean_token_accuracy": 0.6637533108393351,
      "num_tokens": 1849966783.0,
      "step": 11036
    },
    {
      "entropy": 1.679235577583313,
      "epoch": 1.2124632665952597,
      "grad_norm": 0.7355685830116272,
      "learning_rate": 8.381357698171392e-06,
      "loss": 1.4727,
      "mean_token_accuracy": 0.6543498982985815,
      "num_tokens": 1850129797.0,
      "step": 11037
    },
    {
      "entropy": 1.6582284073034923,
      "epoch": 1.2125731235066326,
      "grad_norm": 0.7128838300704956,
      "learning_rate": 8.379825883409213e-06,
      "loss": 1.3672,
      "mean_token_accuracy": 0.6587399691343307,
      "num_tokens": 1850314612.0,
      "step": 11038
    },
    {
      "entropy": 1.7182820936044056,
      "epoch": 1.2126829804180055,
      "grad_norm": 0.9296267032623291,
      "learning_rate": 8.378294151574362e-06,
      "loss": 1.4561,
      "mean_token_accuracy": 0.6555204093456268,
      "num_tokens": 1850481038.0,
      "step": 11039
    },
    {
      "entropy": 1.6882583896319072,
      "epoch": 1.2127928373293786,
      "grad_norm": 0.7641075253486633,
      "learning_rate": 8.376762502715318e-06,
      "loss": 1.4607,
      "mean_token_accuracy": 0.6370103309551874,
      "num_tokens": 1850666045.0,
      "step": 11040
    },
    {
      "entropy": 1.7282833755016327,
      "epoch": 1.2129026942407515,
      "grad_norm": 0.6613611578941345,
      "learning_rate": 8.375230936880562e-06,
      "loss": 1.3988,
      "mean_token_accuracy": 0.6569731831550598,
      "num_tokens": 1850870551.0,
      "step": 11041
    },
    {
      "entropy": 1.7475760380427043,
      "epoch": 1.2130125511521244,
      "grad_norm": 0.7780677080154419,
      "learning_rate": 8.373699454118562e-06,
      "loss": 1.2312,
      "mean_token_accuracy": 0.6765096088250478,
      "num_tokens": 1850988764.0,
      "step": 11042
    },
    {
      "entropy": 1.7152721087137859,
      "epoch": 1.2131224080634972,
      "grad_norm": 0.6480224132537842,
      "learning_rate": 8.372168054477791e-06,
      "loss": 1.4921,
      "mean_token_accuracy": 0.6434395660956701,
      "num_tokens": 1851178116.0,
      "step": 11043
    },
    {
      "entropy": 1.6879489123821259,
      "epoch": 1.2132322649748701,
      "grad_norm": 0.6920694708824158,
      "learning_rate": 8.370636738006721e-06,
      "loss": 1.4977,
      "mean_token_accuracy": 0.6338366170724233,
      "num_tokens": 1851382859.0,
      "step": 11044
    },
    {
      "entropy": 1.6802996695041656,
      "epoch": 1.2133421218862432,
      "grad_norm": 0.6248618364334106,
      "learning_rate": 8.369105504753809e-06,
      "loss": 1.3379,
      "mean_token_accuracy": 0.6674815913041433,
      "num_tokens": 1851589206.0,
      "step": 11045
    },
    {
      "entropy": 1.7379266719023387,
      "epoch": 1.2134519787976161,
      "grad_norm": 0.7720683813095093,
      "learning_rate": 8.367574354767522e-06,
      "loss": 1.3548,
      "mean_token_accuracy": 0.6515401800473531,
      "num_tokens": 1851737929.0,
      "step": 11046
    },
    {
      "entropy": 1.7030988434950511,
      "epoch": 1.213561835708989,
      "grad_norm": 0.7740477919578552,
      "learning_rate": 8.366043288096324e-06,
      "loss": 1.4222,
      "mean_token_accuracy": 0.6508887757857641,
      "num_tokens": 1851939859.0,
      "step": 11047
    },
    {
      "entropy": 1.6766453782717388,
      "epoch": 1.213671692620362,
      "grad_norm": 0.6776142120361328,
      "learning_rate": 8.364512304788664e-06,
      "loss": 1.4908,
      "mean_token_accuracy": 0.6671174516280493,
      "num_tokens": 1852092528.0,
      "step": 11048
    },
    {
      "entropy": 1.6063755849997203,
      "epoch": 1.213781549531735,
      "grad_norm": 0.5421578884124756,
      "learning_rate": 8.362981404893005e-06,
      "loss": 1.5063,
      "mean_token_accuracy": 0.6495156238476435,
      "num_tokens": 1852332284.0,
      "step": 11049
    },
    {
      "entropy": 1.7231159309546153,
      "epoch": 1.213891406443108,
      "grad_norm": 0.8034752011299133,
      "learning_rate": 8.361450588457798e-06,
      "loss": 1.4637,
      "mean_token_accuracy": 0.6396220078070959,
      "num_tokens": 1852504941.0,
      "step": 11050
    },
    {
      "entropy": 1.759638677040736,
      "epoch": 1.2140012633544808,
      "grad_norm": 0.6964645981788635,
      "learning_rate": 8.35991985553149e-06,
      "loss": 1.3326,
      "mean_token_accuracy": 0.6753019044796625,
      "num_tokens": 1852671091.0,
      "step": 11051
    },
    {
      "entropy": 1.769709587097168,
      "epoch": 1.2141111202658537,
      "grad_norm": 0.6132997870445251,
      "learning_rate": 8.358389206162525e-06,
      "loss": 1.5146,
      "mean_token_accuracy": 0.6466521521409353,
      "num_tokens": 1852894196.0,
      "step": 11052
    },
    {
      "entropy": 1.7432759602864583,
      "epoch": 1.2142209771772268,
      "grad_norm": 0.7836261987686157,
      "learning_rate": 8.356858640399354e-06,
      "loss": 1.2905,
      "mean_token_accuracy": 0.6691566308339437,
      "num_tokens": 1853022071.0,
      "step": 11053
    },
    {
      "entropy": 1.6997772653897603,
      "epoch": 1.2143308340885997,
      "grad_norm": 0.6840148568153381,
      "learning_rate": 8.355328158290415e-06,
      "loss": 1.3656,
      "mean_token_accuracy": 0.6704634875059128,
      "num_tokens": 1853143220.0,
      "step": 11054
    },
    {
      "entropy": 1.725580135981242,
      "epoch": 1.2144406909999725,
      "grad_norm": 0.7722833752632141,
      "learning_rate": 8.35379775988415e-06,
      "loss": 1.571,
      "mean_token_accuracy": 0.6398867269357046,
      "num_tokens": 1853345019.0,
      "step": 11055
    },
    {
      "entropy": 1.6314020156860352,
      "epoch": 1.2145505479113454,
      "grad_norm": 0.892280101776123,
      "learning_rate": 8.352267445228994e-06,
      "loss": 1.4697,
      "mean_token_accuracy": 0.6704972585042318,
      "num_tokens": 1853539231.0,
      "step": 11056
    },
    {
      "entropy": 1.6972508529822032,
      "epoch": 1.2146604048227183,
      "grad_norm": 0.615267276763916,
      "learning_rate": 8.350737214373379e-06,
      "loss": 1.4657,
      "mean_token_accuracy": 0.6365112711985906,
      "num_tokens": 1853703622.0,
      "step": 11057
    },
    {
      "entropy": 1.6537209053834279,
      "epoch": 1.2147702617340914,
      "grad_norm": 0.6618078947067261,
      "learning_rate": 8.349207067365737e-06,
      "loss": 1.271,
      "mean_token_accuracy": 0.6827361087004343,
      "num_tokens": 1853882138.0,
      "step": 11058
    },
    {
      "entropy": 1.6730584800243378,
      "epoch": 1.2148801186454643,
      "grad_norm": 0.6180942058563232,
      "learning_rate": 8.347677004254498e-06,
      "loss": 1.332,
      "mean_token_accuracy": 0.6662278970082601,
      "num_tokens": 1854028245.0,
      "step": 11059
    },
    {
      "entropy": 1.6949761112531025,
      "epoch": 1.2149899755568372,
      "grad_norm": 0.6167245507240295,
      "learning_rate": 8.346147025088086e-06,
      "loss": 1.3307,
      "mean_token_accuracy": 0.6576797862847646,
      "num_tokens": 1854185316.0,
      "step": 11060
    },
    {
      "entropy": 1.7193231880664825,
      "epoch": 1.21509983246821,
      "grad_norm": 0.6622843146324158,
      "learning_rate": 8.344617129914923e-06,
      "loss": 1.528,
      "mean_token_accuracy": 0.63414998849233,
      "num_tokens": 1854426177.0,
      "step": 11061
    },
    {
      "entropy": 1.6867660681406658,
      "epoch": 1.2152096893795832,
      "grad_norm": 0.6055188775062561,
      "learning_rate": 8.343087318783434e-06,
      "loss": 1.4881,
      "mean_token_accuracy": 0.6526160339514414,
      "num_tokens": 1854610116.0,
      "step": 11062
    },
    {
      "entropy": 1.7061599691708882,
      "epoch": 1.215319546290956,
      "grad_norm": 0.680685818195343,
      "learning_rate": 8.34155759174203e-06,
      "loss": 1.4192,
      "mean_token_accuracy": 0.6544150362412134,
      "num_tokens": 1854755139.0,
      "step": 11063
    },
    {
      "entropy": 1.6967225869496663,
      "epoch": 1.215429403202329,
      "grad_norm": 0.6835984587669373,
      "learning_rate": 8.340027948839135e-06,
      "loss": 1.3267,
      "mean_token_accuracy": 0.6695795605580012,
      "num_tokens": 1854901981.0,
      "step": 11064
    },
    {
      "entropy": 1.7517095704873402,
      "epoch": 1.2155392601137018,
      "grad_norm": 0.8013256192207336,
      "learning_rate": 8.338498390123158e-06,
      "loss": 1.4562,
      "mean_token_accuracy": 0.6485675225655237,
      "num_tokens": 1855044987.0,
      "step": 11065
    },
    {
      "entropy": 1.7563750843207042,
      "epoch": 1.215649117025075,
      "grad_norm": 0.7665896415710449,
      "learning_rate": 8.3369689156425e-06,
      "loss": 1.3885,
      "mean_token_accuracy": 0.6616611480712891,
      "num_tokens": 1855188518.0,
      "step": 11066
    },
    {
      "entropy": 1.7391284902890523,
      "epoch": 1.2157589739364478,
      "grad_norm": 0.8238292336463928,
      "learning_rate": 8.335439525445586e-06,
      "loss": 1.3099,
      "mean_token_accuracy": 0.6730262041091919,
      "num_tokens": 1855310644.0,
      "step": 11067
    },
    {
      "entropy": 1.6750684281190236,
      "epoch": 1.2158688308478207,
      "grad_norm": 0.5978335738182068,
      "learning_rate": 8.333910219580804e-06,
      "loss": 1.4055,
      "mean_token_accuracy": 0.6556108246246973,
      "num_tokens": 1855483085.0,
      "step": 11068
    },
    {
      "entropy": 1.6777072350184123,
      "epoch": 1.2159786877591936,
      "grad_norm": 0.7173717617988586,
      "learning_rate": 8.332380998096561e-06,
      "loss": 1.4097,
      "mean_token_accuracy": 0.6578392386436462,
      "num_tokens": 1855663183.0,
      "step": 11069
    },
    {
      "entropy": 1.7260019779205322,
      "epoch": 1.2160885446705665,
      "grad_norm": 0.7578794956207275,
      "learning_rate": 8.330851861041262e-06,
      "loss": 1.339,
      "mean_token_accuracy": 0.6605818818012873,
      "num_tokens": 1855792392.0,
      "step": 11070
    },
    {
      "entropy": 1.6965550482273102,
      "epoch": 1.2161984015819396,
      "grad_norm": 0.6967483162879944,
      "learning_rate": 8.329322808463294e-06,
      "loss": 1.4111,
      "mean_token_accuracy": 0.660852442185084,
      "num_tokens": 1855970158.0,
      "step": 11071
    },
    {
      "entropy": 1.7621172269185383,
      "epoch": 1.2163082584933125,
      "grad_norm": 0.6754755973815918,
      "learning_rate": 8.327793840411056e-06,
      "loss": 1.3595,
      "mean_token_accuracy": 0.6517157753308614,
      "num_tokens": 1856107207.0,
      "step": 11072
    },
    {
      "entropy": 1.727922797203064,
      "epoch": 1.2164181154046854,
      "grad_norm": 0.7006334662437439,
      "learning_rate": 8.326264956932946e-06,
      "loss": 1.4191,
      "mean_token_accuracy": 0.6418725997209549,
      "num_tokens": 1856296668.0,
      "step": 11073
    },
    {
      "entropy": 1.6740870575110118,
      "epoch": 1.2165279723160582,
      "grad_norm": 0.5527358055114746,
      "learning_rate": 8.324736158077338e-06,
      "loss": 1.1741,
      "mean_token_accuracy": 0.6742709130048752,
      "num_tokens": 1856484822.0,
      "step": 11074
    },
    {
      "entropy": 1.6873212854067485,
      "epoch": 1.2166378292274314,
      "grad_norm": 0.6192285418510437,
      "learning_rate": 8.323207443892626e-06,
      "loss": 1.3717,
      "mean_token_accuracy": 0.6412427127361298,
      "num_tokens": 1856734436.0,
      "step": 11075
    },
    {
      "entropy": 1.7283975680669148,
      "epoch": 1.2167476861388042,
      "grad_norm": 0.6958233714103699,
      "learning_rate": 8.321678814427195e-06,
      "loss": 1.5502,
      "mean_token_accuracy": 0.6426873902479807,
      "num_tokens": 1856955797.0,
      "step": 11076
    },
    {
      "entropy": 1.7120100259780884,
      "epoch": 1.2168575430501771,
      "grad_norm": 0.7286651134490967,
      "learning_rate": 8.320150269729421e-06,
      "loss": 1.436,
      "mean_token_accuracy": 0.6634295533100764,
      "num_tokens": 1857107820.0,
      "step": 11077
    },
    {
      "entropy": 1.6884620587031047,
      "epoch": 1.21696739996155,
      "grad_norm": 0.8027754426002502,
      "learning_rate": 8.318621809847682e-06,
      "loss": 1.4571,
      "mean_token_accuracy": 0.6525517205397288,
      "num_tokens": 1857282314.0,
      "step": 11078
    },
    {
      "entropy": 1.7306037942568462,
      "epoch": 1.2170772568729231,
      "grad_norm": 0.755138635635376,
      "learning_rate": 8.317093434830358e-06,
      "loss": 1.1819,
      "mean_token_accuracy": 0.6871931801239649,
      "num_tokens": 1857387879.0,
      "step": 11079
    },
    {
      "entropy": 1.693780501683553,
      "epoch": 1.217187113784296,
      "grad_norm": 0.7477782368659973,
      "learning_rate": 8.315565144725814e-06,
      "loss": 1.4305,
      "mean_token_accuracy": 0.667605901757876,
      "num_tokens": 1857536614.0,
      "step": 11080
    },
    {
      "entropy": 1.7177151342233021,
      "epoch": 1.217296970695669,
      "grad_norm": 0.6408316493034363,
      "learning_rate": 8.314036939582426e-06,
      "loss": 1.4695,
      "mean_token_accuracy": 0.6495102594296137,
      "num_tokens": 1857700887.0,
      "step": 11081
    },
    {
      "entropy": 1.6869684358437855,
      "epoch": 1.2174068276070418,
      "grad_norm": 0.745124340057373,
      "learning_rate": 8.31250881944856e-06,
      "loss": 1.3735,
      "mean_token_accuracy": 0.6654743601878484,
      "num_tokens": 1857869919.0,
      "step": 11082
    },
    {
      "entropy": 1.690779209136963,
      "epoch": 1.2175166845184147,
      "grad_norm": 0.6019642949104309,
      "learning_rate": 8.310980784372576e-06,
      "loss": 1.3871,
      "mean_token_accuracy": 0.6539642065763474,
      "num_tokens": 1858056352.0,
      "step": 11083
    },
    {
      "entropy": 1.6384514768918355,
      "epoch": 1.2176265414297878,
      "grad_norm": 0.66316157579422,
      "learning_rate": 8.309452834402837e-06,
      "loss": 1.34,
      "mean_token_accuracy": 0.6631773859262466,
      "num_tokens": 1858232023.0,
      "step": 11084
    },
    {
      "entropy": 1.7274446388085682,
      "epoch": 1.2177363983411607,
      "grad_norm": 0.7292064428329468,
      "learning_rate": 8.307924969587708e-06,
      "loss": 1.5255,
      "mean_token_accuracy": 0.6418920457363129,
      "num_tokens": 1858412774.0,
      "step": 11085
    },
    {
      "entropy": 1.6863858600457509,
      "epoch": 1.2178462552525335,
      "grad_norm": 0.7607459425926208,
      "learning_rate": 8.306397189975537e-06,
      "loss": 1.3769,
      "mean_token_accuracy": 0.6505500276883444,
      "num_tokens": 1858530907.0,
      "step": 11086
    },
    {
      "entropy": 1.713003009557724,
      "epoch": 1.2179561121639064,
      "grad_norm": 0.6406744718551636,
      "learning_rate": 8.30486949561468e-06,
      "loss": 1.4627,
      "mean_token_accuracy": 0.6432670553525289,
      "num_tokens": 1858701857.0,
      "step": 11087
    },
    {
      "entropy": 1.7706784307956696,
      "epoch": 1.2180659690752795,
      "grad_norm": 0.6789109706878662,
      "learning_rate": 8.303341886553493e-06,
      "loss": 1.3834,
      "mean_token_accuracy": 0.6596761445204417,
      "num_tokens": 1858891212.0,
      "step": 11088
    },
    {
      "entropy": 1.6831317842006683,
      "epoch": 1.2181758259866524,
      "grad_norm": 0.6298303604125977,
      "learning_rate": 8.30181436284032e-06,
      "loss": 1.312,
      "mean_token_accuracy": 0.6730460574229559,
      "num_tokens": 1859017132.0,
      "step": 11089
    },
    {
      "entropy": 1.6755876143773396,
      "epoch": 1.2182856828980253,
      "grad_norm": 1.0117133855819702,
      "learning_rate": 8.300286924523505e-06,
      "loss": 1.4366,
      "mean_token_accuracy": 0.6528118550777435,
      "num_tokens": 1859168864.0,
      "step": 11090
    },
    {
      "entropy": 1.632968008518219,
      "epoch": 1.2183955398093982,
      "grad_norm": 0.6477782130241394,
      "learning_rate": 8.298759571651393e-06,
      "loss": 1.4088,
      "mean_token_accuracy": 0.6646546920140585,
      "num_tokens": 1859317350.0,
      "step": 11091
    },
    {
      "entropy": 1.697382648785909,
      "epoch": 1.2185053967207713,
      "grad_norm": 0.7350544333457947,
      "learning_rate": 8.297232304272322e-06,
      "loss": 1.4274,
      "mean_token_accuracy": 0.6546217650175095,
      "num_tokens": 1859504084.0,
      "step": 11092
    },
    {
      "entropy": 1.6902291178703308,
      "epoch": 1.2186152536321442,
      "grad_norm": 0.7430658340454102,
      "learning_rate": 8.295705122434633e-06,
      "loss": 1.3245,
      "mean_token_accuracy": 0.6620542804400126,
      "num_tokens": 1859649852.0,
      "step": 11093
    },
    {
      "entropy": 1.7104488511880238,
      "epoch": 1.218725110543517,
      "grad_norm": 0.7023297548294067,
      "learning_rate": 8.294178026186656e-06,
      "loss": 1.3796,
      "mean_token_accuracy": 0.6658419122298559,
      "num_tokens": 1859776385.0,
      "step": 11094
    },
    {
      "entropy": 1.6531602640946705,
      "epoch": 1.21883496745489,
      "grad_norm": 0.6301870346069336,
      "learning_rate": 8.292651015576725e-06,
      "loss": 1.3238,
      "mean_token_accuracy": 0.6639458288749059,
      "num_tokens": 1859912333.0,
      "step": 11095
    },
    {
      "entropy": 1.7121768792470295,
      "epoch": 1.2189448243662628,
      "grad_norm": 0.7700769901275635,
      "learning_rate": 8.29112409065317e-06,
      "loss": 1.435,
      "mean_token_accuracy": 0.6486354172229767,
      "num_tokens": 1860057917.0,
      "step": 11096
    },
    {
      "entropy": 1.6702754994233449,
      "epoch": 1.219054681277636,
      "grad_norm": 0.834185004234314,
      "learning_rate": 8.289597251464319e-06,
      "loss": 1.4033,
      "mean_token_accuracy": 0.6532324800888697,
      "num_tokens": 1860209091.0,
      "step": 11097
    },
    {
      "entropy": 1.6551378965377808,
      "epoch": 1.2191645381890088,
      "grad_norm": 0.7919728755950928,
      "learning_rate": 8.288070498058489e-06,
      "loss": 1.5648,
      "mean_token_accuracy": 0.6503797471523285,
      "num_tokens": 1860389834.0,
      "step": 11098
    },
    {
      "entropy": 1.687700519959132,
      "epoch": 1.2192743951003817,
      "grad_norm": 0.699600100517273,
      "learning_rate": 8.28654383048401e-06,
      "loss": 1.2284,
      "mean_token_accuracy": 0.6715284287929535,
      "num_tokens": 1860507119.0,
      "step": 11099
    },
    {
      "entropy": 1.6870764593283336,
      "epoch": 1.2193842520117546,
      "grad_norm": 0.6864370107650757,
      "learning_rate": 8.285017248789195e-06,
      "loss": 1.3806,
      "mean_token_accuracy": 0.6525691151618958,
      "num_tokens": 1860656756.0,
      "step": 11100
    },
    {
      "entropy": 1.795731355746587,
      "epoch": 1.2194941089231277,
      "grad_norm": 0.8872252106666565,
      "learning_rate": 8.28349075302236e-06,
      "loss": 1.5156,
      "mean_token_accuracy": 0.6348374287287394,
      "num_tokens": 1860800299.0,
      "step": 11101
    },
    {
      "entropy": 1.6798087656497955,
      "epoch": 1.2196039658345006,
      "grad_norm": 0.6114014983177185,
      "learning_rate": 8.281964343231817e-06,
      "loss": 1.3712,
      "mean_token_accuracy": 0.6489862948656082,
      "num_tokens": 1860986779.0,
      "step": 11102
    },
    {
      "entropy": 1.7513733704884846,
      "epoch": 1.2197138227458735,
      "grad_norm": 0.6035370826721191,
      "learning_rate": 8.280438019465885e-06,
      "loss": 1.4784,
      "mean_token_accuracy": 0.6494489560524622,
      "num_tokens": 1861163872.0,
      "step": 11103
    },
    {
      "entropy": 1.7338022689024608,
      "epoch": 1.2198236796572464,
      "grad_norm": 0.7351298928260803,
      "learning_rate": 8.278911781772853e-06,
      "loss": 1.3004,
      "mean_token_accuracy": 0.6633716921011606,
      "num_tokens": 1861310542.0,
      "step": 11104
    },
    {
      "entropy": 1.7447912494341533,
      "epoch": 1.2199335365686195,
      "grad_norm": 0.5645570755004883,
      "learning_rate": 8.277385630201044e-06,
      "loss": 1.4266,
      "mean_token_accuracy": 0.6452751606702805,
      "num_tokens": 1861542153.0,
      "step": 11105
    },
    {
      "entropy": 1.6788997650146484,
      "epoch": 1.2200433934799924,
      "grad_norm": 0.7873282432556152,
      "learning_rate": 8.275859564798753e-06,
      "loss": 1.5012,
      "mean_token_accuracy": 0.6227647066116333,
      "num_tokens": 1861776129.0,
      "step": 11106
    },
    {
      "entropy": 1.7607338031133015,
      "epoch": 1.2201532503913652,
      "grad_norm": 0.6690042614936829,
      "learning_rate": 8.274333585614278e-06,
      "loss": 1.4915,
      "mean_token_accuracy": 0.6434455215930939,
      "num_tokens": 1861967058.0,
      "step": 11107
    },
    {
      "entropy": 1.675374945004781,
      "epoch": 1.2202631073027381,
      "grad_norm": 0.6949226260185242,
      "learning_rate": 8.272807692695915e-06,
      "loss": 1.3347,
      "mean_token_accuracy": 0.6678502013285955,
      "num_tokens": 1862107356.0,
      "step": 11108
    },
    {
      "entropy": 1.6946699917316437,
      "epoch": 1.220372964214111,
      "grad_norm": 0.7122815251350403,
      "learning_rate": 8.271281886091964e-06,
      "loss": 1.349,
      "mean_token_accuracy": 0.6702584276596705,
      "num_tokens": 1862267288.0,
      "step": 11109
    },
    {
      "entropy": 1.6867165565490723,
      "epoch": 1.2204828211254841,
      "grad_norm": 0.7338141202926636,
      "learning_rate": 8.26975616585071e-06,
      "loss": 1.3542,
      "mean_token_accuracy": 0.6660454173882803,
      "num_tokens": 1862425941.0,
      "step": 11110
    },
    {
      "entropy": 1.7361581027507782,
      "epoch": 1.220592678036857,
      "grad_norm": 0.7320640087127686,
      "learning_rate": 8.26823053202044e-06,
      "loss": 1.412,
      "mean_token_accuracy": 0.6694223483403524,
      "num_tokens": 1862582085.0,
      "step": 11111
    },
    {
      "entropy": 1.5928312540054321,
      "epoch": 1.22070253494823,
      "grad_norm": 0.5795355439186096,
      "learning_rate": 8.266704984649448e-06,
      "loss": 1.2941,
      "mean_token_accuracy": 0.6710518797238668,
      "num_tokens": 1862754268.0,
      "step": 11112
    },
    {
      "entropy": 1.790160854657491,
      "epoch": 1.2208123918596028,
      "grad_norm": 0.7169445753097534,
      "learning_rate": 8.265179523786007e-06,
      "loss": 1.3867,
      "mean_token_accuracy": 0.655024250348409,
      "num_tokens": 1862879401.0,
      "step": 11113
    },
    {
      "entropy": 1.7564424475034077,
      "epoch": 1.2209222487709759,
      "grad_norm": 0.7270147204399109,
      "learning_rate": 8.263654149478404e-06,
      "loss": 1.4396,
      "mean_token_accuracy": 0.6577896674474081,
      "num_tokens": 1863038450.0,
      "step": 11114
    },
    {
      "entropy": 1.7379739979902904,
      "epoch": 1.2210321056823488,
      "grad_norm": 0.6270740032196045,
      "learning_rate": 8.262128861774914e-06,
      "loss": 1.4605,
      "mean_token_accuracy": 0.6530610223611196,
      "num_tokens": 1863206326.0,
      "step": 11115
    },
    {
      "entropy": 1.7211223940054576,
      "epoch": 1.2211419625937217,
      "grad_norm": 0.7160316109657288,
      "learning_rate": 8.260603660723809e-06,
      "loss": 1.3408,
      "mean_token_accuracy": 0.6656116793553034,
      "num_tokens": 1863350263.0,
      "step": 11116
    },
    {
      "entropy": 1.7302058239777882,
      "epoch": 1.2212518195050945,
      "grad_norm": 0.6913062334060669,
      "learning_rate": 8.259078546373365e-06,
      "loss": 1.3812,
      "mean_token_accuracy": 0.6563667754332224,
      "num_tokens": 1863492291.0,
      "step": 11117
    },
    {
      "entropy": 1.6666455070177715,
      "epoch": 1.2213616764164676,
      "grad_norm": 0.5929701328277588,
      "learning_rate": 8.257553518771853e-06,
      "loss": 1.3796,
      "mean_token_accuracy": 0.6561521291732788,
      "num_tokens": 1863680842.0,
      "step": 11118
    },
    {
      "entropy": 1.691912164290746,
      "epoch": 1.2214715333278405,
      "grad_norm": 0.6996101140975952,
      "learning_rate": 8.256028577967534e-06,
      "loss": 1.4237,
      "mean_token_accuracy": 0.652123952905337,
      "num_tokens": 1863838255.0,
      "step": 11119
    },
    {
      "entropy": 1.67883962392807,
      "epoch": 1.2215813902392134,
      "grad_norm": 0.6681597828865051,
      "learning_rate": 8.254503724008673e-06,
      "loss": 1.4035,
      "mean_token_accuracy": 0.6579047491153082,
      "num_tokens": 1863976314.0,
      "step": 11120
    },
    {
      "entropy": 1.761623462041219,
      "epoch": 1.2216912471505863,
      "grad_norm": 0.6309159398078918,
      "learning_rate": 8.252978956943536e-06,
      "loss": 1.5039,
      "mean_token_accuracy": 0.636713887254397,
      "num_tokens": 1864175243.0,
      "step": 11121
    },
    {
      "entropy": 1.722734143336614,
      "epoch": 1.2218011040619592,
      "grad_norm": 0.5722051858901978,
      "learning_rate": 8.251454276820372e-06,
      "loss": 1.259,
      "mean_token_accuracy": 0.6658644527196884,
      "num_tokens": 1864306155.0,
      "step": 11122
    },
    {
      "entropy": 1.6461964547634125,
      "epoch": 1.2219109609733323,
      "grad_norm": 0.6660195589065552,
      "learning_rate": 8.249929683687442e-06,
      "loss": 1.3394,
      "mean_token_accuracy": 0.669757604598999,
      "num_tokens": 1864445396.0,
      "step": 11123
    },
    {
      "entropy": 1.677109609047572,
      "epoch": 1.2220208178847052,
      "grad_norm": 0.7361236810684204,
      "learning_rate": 8.248405177593005e-06,
      "loss": 1.5038,
      "mean_token_accuracy": 0.6409556319316229,
      "num_tokens": 1864633037.0,
      "step": 11124
    },
    {
      "entropy": 1.7299526433149974,
      "epoch": 1.222130674796078,
      "grad_norm": 0.8260616064071655,
      "learning_rate": 8.246880758585299e-06,
      "loss": 1.3426,
      "mean_token_accuracy": 0.6657137821118037,
      "num_tokens": 1864758296.0,
      "step": 11125
    },
    {
      "entropy": 1.7556905547777812,
      "epoch": 1.222240531707451,
      "grad_norm": 0.9507250785827637,
      "learning_rate": 8.245356426712577e-06,
      "loss": 1.5266,
      "mean_token_accuracy": 0.6378592848777771,
      "num_tokens": 1864935775.0,
      "step": 11126
    },
    {
      "entropy": 1.6686455806096394,
      "epoch": 1.222350388618824,
      "grad_norm": 0.6535077691078186,
      "learning_rate": 8.243832182023082e-06,
      "loss": 1.4378,
      "mean_token_accuracy": 0.6565053512652715,
      "num_tokens": 1865122257.0,
      "step": 11127
    },
    {
      "entropy": 1.6927911341190338,
      "epoch": 1.222460245530197,
      "grad_norm": 0.579563319683075,
      "learning_rate": 8.242308024565058e-06,
      "loss": 1.4441,
      "mean_token_accuracy": 0.6382209062576294,
      "num_tokens": 1865351730.0,
      "step": 11128
    },
    {
      "entropy": 1.695607751607895,
      "epoch": 1.2225701024415698,
      "grad_norm": 0.7512062191963196,
      "learning_rate": 8.240783954386744e-06,
      "loss": 1.4194,
      "mean_token_accuracy": 0.6544724305470785,
      "num_tokens": 1865476451.0,
      "step": 11129
    },
    {
      "entropy": 1.7077071964740753,
      "epoch": 1.2226799593529427,
      "grad_norm": 0.6465796828269958,
      "learning_rate": 8.239259971536369e-06,
      "loss": 1.3455,
      "mean_token_accuracy": 0.6696978360414505,
      "num_tokens": 1865637091.0,
      "step": 11130
    },
    {
      "entropy": 1.7845915853977203,
      "epoch": 1.2227898162643158,
      "grad_norm": 0.7069242000579834,
      "learning_rate": 8.237736076062176e-06,
      "loss": 1.4593,
      "mean_token_accuracy": 0.6528904487689337,
      "num_tokens": 1865780627.0,
      "step": 11131
    },
    {
      "entropy": 1.643855979045232,
      "epoch": 1.2228996731756887,
      "grad_norm": 0.6371172070503235,
      "learning_rate": 8.23621226801239e-06,
      "loss": 1.3646,
      "mean_token_accuracy": 0.6664480765660604,
      "num_tokens": 1865934135.0,
      "step": 11132
    },
    {
      "entropy": 1.7372296055157979,
      "epoch": 1.2230095300870616,
      "grad_norm": 0.8932238817214966,
      "learning_rate": 8.23468854743524e-06,
      "loss": 1.533,
      "mean_token_accuracy": 0.6475943475961685,
      "num_tokens": 1866099365.0,
      "step": 11133
    },
    {
      "entropy": 1.6458615064620972,
      "epoch": 1.2231193869984345,
      "grad_norm": 0.6451045870780945,
      "learning_rate": 8.233164914378952e-06,
      "loss": 1.3967,
      "mean_token_accuracy": 0.661471222837766,
      "num_tokens": 1866274426.0,
      "step": 11134
    },
    {
      "entropy": 1.7578480541706085,
      "epoch": 1.2232292439098074,
      "grad_norm": 0.770330548286438,
      "learning_rate": 8.231641368891752e-06,
      "loss": 1.5281,
      "mean_token_accuracy": 0.6454629898071289,
      "num_tokens": 1866492310.0,
      "step": 11135
    },
    {
      "entropy": 1.7039073308308919,
      "epoch": 1.2233391008211805,
      "grad_norm": 0.7558161020278931,
      "learning_rate": 8.230117911021849e-06,
      "loss": 1.2976,
      "mean_token_accuracy": 0.6695977548758189,
      "num_tokens": 1866623727.0,
      "step": 11136
    },
    {
      "entropy": 1.674913187821706,
      "epoch": 1.2234489577325534,
      "grad_norm": 0.6112053394317627,
      "learning_rate": 8.228594540817467e-06,
      "loss": 1.3014,
      "mean_token_accuracy": 0.6781783352295557,
      "num_tokens": 1866761880.0,
      "step": 11137
    },
    {
      "entropy": 1.6501458883285522,
      "epoch": 1.2235588146439262,
      "grad_norm": 0.6094418168067932,
      "learning_rate": 8.227071258326823e-06,
      "loss": 1.4306,
      "mean_token_accuracy": 0.6528994739055634,
      "num_tokens": 1867008257.0,
      "step": 11138
    },
    {
      "entropy": 1.7520569463570912,
      "epoch": 1.2236686715552993,
      "grad_norm": 0.7769097089767456,
      "learning_rate": 8.22554806359812e-06,
      "loss": 1.2928,
      "mean_token_accuracy": 0.6684681624174118,
      "num_tokens": 1867113624.0,
      "step": 11139
    },
    {
      "entropy": 1.6467416286468506,
      "epoch": 1.2237785284666722,
      "grad_norm": 0.6554421782493591,
      "learning_rate": 8.224024956679568e-06,
      "loss": 1.2857,
      "mean_token_accuracy": 0.66878113647302,
      "num_tokens": 1867252361.0,
      "step": 11140
    },
    {
      "entropy": 1.75765860080719,
      "epoch": 1.2238883853780451,
      "grad_norm": 0.8180747628211975,
      "learning_rate": 8.222501937619385e-06,
      "loss": 1.4596,
      "mean_token_accuracy": 0.6483653237422308,
      "num_tokens": 1867380976.0,
      "step": 11141
    },
    {
      "entropy": 1.746919463078181,
      "epoch": 1.223998242289418,
      "grad_norm": 0.63518887758255,
      "learning_rate": 8.220979006465755e-06,
      "loss": 1.4453,
      "mean_token_accuracy": 0.6484291801850001,
      "num_tokens": 1867523470.0,
      "step": 11142
    },
    {
      "entropy": 1.7108286619186401,
      "epoch": 1.2241080992007909,
      "grad_norm": 0.7541074156761169,
      "learning_rate": 8.219456163266891e-06,
      "loss": 1.2723,
      "mean_token_accuracy": 0.6758786340554556,
      "num_tokens": 1867627150.0,
      "step": 11143
    },
    {
      "entropy": 1.703292191028595,
      "epoch": 1.224217956112164,
      "grad_norm": 0.6642011404037476,
      "learning_rate": 8.217933408070985e-06,
      "loss": 1.3838,
      "mean_token_accuracy": 0.6647111773490906,
      "num_tokens": 1867821226.0,
      "step": 11144
    },
    {
      "entropy": 1.722439835468928,
      "epoch": 1.2243278130235369,
      "grad_norm": 0.7255253791809082,
      "learning_rate": 8.216410740926235e-06,
      "loss": 1.5162,
      "mean_token_accuracy": 0.6462632616360983,
      "num_tokens": 1868008940.0,
      "step": 11145
    },
    {
      "entropy": 1.7716669142246246,
      "epoch": 1.2244376699349098,
      "grad_norm": 0.6904542446136475,
      "learning_rate": 8.214888161880827e-06,
      "loss": 1.3692,
      "mean_token_accuracy": 0.659872904419899,
      "num_tokens": 1868166158.0,
      "step": 11146
    },
    {
      "entropy": 1.7202934126059215,
      "epoch": 1.2245475268462827,
      "grad_norm": 0.6671558022499084,
      "learning_rate": 8.21336567098296e-06,
      "loss": 1.2963,
      "mean_token_accuracy": 0.6699869285027186,
      "num_tokens": 1868311826.0,
      "step": 11147
    },
    {
      "entropy": 1.684409538904826,
      "epoch": 1.2246573837576555,
      "grad_norm": 0.6063627004623413,
      "learning_rate": 8.211843268280807e-06,
      "loss": 1.38,
      "mean_token_accuracy": 0.6571643104155859,
      "num_tokens": 1868495561.0,
      "step": 11148
    },
    {
      "entropy": 1.6580710808436077,
      "epoch": 1.2247672406690286,
      "grad_norm": 0.6459930539131165,
      "learning_rate": 8.210320953822561e-06,
      "loss": 1.377,
      "mean_token_accuracy": 0.6583688110113144,
      "num_tokens": 1868664866.0,
      "step": 11149
    },
    {
      "entropy": 1.6917679210503895,
      "epoch": 1.2248770975804015,
      "grad_norm": 0.8134970664978027,
      "learning_rate": 8.208798727656404e-06,
      "loss": 1.3967,
      "mean_token_accuracy": 0.6652498145898184,
      "num_tokens": 1868894590.0,
      "step": 11150
    },
    {
      "entropy": 1.6833031276861827,
      "epoch": 1.2249869544917744,
      "grad_norm": 0.6595972180366516,
      "learning_rate": 8.207276589830505e-06,
      "loss": 1.4866,
      "mean_token_accuracy": 0.6401710361242294,
      "num_tokens": 1869068031.0,
      "step": 11151
    },
    {
      "entropy": 1.701577494541804,
      "epoch": 1.2250968114031475,
      "grad_norm": 0.6729449033737183,
      "learning_rate": 8.20575454039304e-06,
      "loss": 1.4412,
      "mean_token_accuracy": 0.6557190865278244,
      "num_tokens": 1869229821.0,
      "step": 11152
    },
    {
      "entropy": 1.7543394267559052,
      "epoch": 1.2252066683145204,
      "grad_norm": 0.7445177435874939,
      "learning_rate": 8.204232579392192e-06,
      "loss": 1.2951,
      "mean_token_accuracy": 0.669405405720075,
      "num_tokens": 1869350127.0,
      "step": 11153
    },
    {
      "entropy": 1.7157810529073079,
      "epoch": 1.2253165252258933,
      "grad_norm": 0.712943971157074,
      "learning_rate": 8.20271070687612e-06,
      "loss": 1.4664,
      "mean_token_accuracy": 0.64886274933815,
      "num_tokens": 1869538791.0,
      "step": 11154
    },
    {
      "entropy": 1.6712701618671417,
      "epoch": 1.2254263821372662,
      "grad_norm": 0.6949601769447327,
      "learning_rate": 8.201188922892994e-06,
      "loss": 1.3177,
      "mean_token_accuracy": 0.6590605328480402,
      "num_tokens": 1869677641.0,
      "step": 11155
    },
    {
      "entropy": 1.6515525877475739,
      "epoch": 1.225536239048639,
      "grad_norm": 0.6297810673713684,
      "learning_rate": 8.199667227490978e-06,
      "loss": 1.2314,
      "mean_token_accuracy": 0.6822561621665955,
      "num_tokens": 1869820121.0,
      "step": 11156
    },
    {
      "entropy": 1.72104745109876,
      "epoch": 1.2256460959600122,
      "grad_norm": 0.582068681716919,
      "learning_rate": 8.198145620718229e-06,
      "loss": 1.4739,
      "mean_token_accuracy": 0.6453680694103241,
      "num_tokens": 1870094410.0,
      "step": 11157
    },
    {
      "entropy": 1.7204219698905945,
      "epoch": 1.225755952871385,
      "grad_norm": 0.9038074612617493,
      "learning_rate": 8.19662410262291e-06,
      "loss": 1.4717,
      "mean_token_accuracy": 0.6598606556653976,
      "num_tokens": 1870217099.0,
      "step": 11158
    },
    {
      "entropy": 1.705298662185669,
      "epoch": 1.225865809782758,
      "grad_norm": 0.956987738609314,
      "learning_rate": 8.195102673253179e-06,
      "loss": 1.3267,
      "mean_token_accuracy": 0.674546500047048,
      "num_tokens": 1870363296.0,
      "step": 11159
    },
    {
      "entropy": 1.7120076020558674,
      "epoch": 1.2259756666941308,
      "grad_norm": 0.6030857563018799,
      "learning_rate": 8.19358133265718e-06,
      "loss": 1.4096,
      "mean_token_accuracy": 0.6453298330307007,
      "num_tokens": 1870546904.0,
      "step": 11160
    },
    {
      "entropy": 1.6742028892040253,
      "epoch": 1.2260855236055037,
      "grad_norm": 0.7126300930976868,
      "learning_rate": 8.192060080883066e-06,
      "loss": 1.4757,
      "mean_token_accuracy": 0.6451009213924408,
      "num_tokens": 1870746388.0,
      "step": 11161
    },
    {
      "entropy": 1.6565779447555542,
      "epoch": 1.2261953805168768,
      "grad_norm": 0.6220477223396301,
      "learning_rate": 8.19053891797899e-06,
      "loss": 1.5842,
      "mean_token_accuracy": 0.6242297689119974,
      "num_tokens": 1870984793.0,
      "step": 11162
    },
    {
      "entropy": 1.7263220647970836,
      "epoch": 1.2263052374282497,
      "grad_norm": 0.7451938390731812,
      "learning_rate": 8.189017843993087e-06,
      "loss": 1.3359,
      "mean_token_accuracy": 0.6607558329900106,
      "num_tokens": 1871172441.0,
      "step": 11163
    },
    {
      "entropy": 1.7222507695357006,
      "epoch": 1.2264150943396226,
      "grad_norm": 0.6210897564888,
      "learning_rate": 8.187496858973504e-06,
      "loss": 1.4375,
      "mean_token_accuracy": 0.6482439885536829,
      "num_tokens": 1871366509.0,
      "step": 11164
    },
    {
      "entropy": 1.6978266040484111,
      "epoch": 1.2265249512509957,
      "grad_norm": 0.6470620036125183,
      "learning_rate": 8.185975962968382e-06,
      "loss": 1.329,
      "mean_token_accuracy": 0.6652160336573919,
      "num_tokens": 1871583409.0,
      "step": 11165
    },
    {
      "entropy": 1.7219670116901398,
      "epoch": 1.2266348081623686,
      "grad_norm": 0.6918816566467285,
      "learning_rate": 8.184455156025849e-06,
      "loss": 1.5423,
      "mean_token_accuracy": 0.6453223278125128,
      "num_tokens": 1871795247.0,
      "step": 11166
    },
    {
      "entropy": 1.655881514151891,
      "epoch": 1.2267446650737415,
      "grad_norm": 0.5830437541007996,
      "learning_rate": 8.182934438194039e-06,
      "loss": 1.3384,
      "mean_token_accuracy": 0.6642249425252279,
      "num_tokens": 1872026942.0,
      "step": 11167
    },
    {
      "entropy": 1.6868476569652557,
      "epoch": 1.2268545219851144,
      "grad_norm": 0.7208216190338135,
      "learning_rate": 8.18141380952109e-06,
      "loss": 1.4512,
      "mean_token_accuracy": 0.6498266657193502,
      "num_tokens": 1872200498.0,
      "step": 11168
    },
    {
      "entropy": 1.7578080296516418,
      "epoch": 1.2269643788964872,
      "grad_norm": 0.6857250332832336,
      "learning_rate": 8.179893270055122e-06,
      "loss": 1.3811,
      "mean_token_accuracy": 0.6548460274934769,
      "num_tokens": 1872368081.0,
      "step": 11169
    },
    {
      "entropy": 1.6785810391108196,
      "epoch": 1.2270742358078603,
      "grad_norm": 0.6952616572380066,
      "learning_rate": 8.178372819844258e-06,
      "loss": 1.2608,
      "mean_token_accuracy": 0.6776244093974432,
      "num_tokens": 1872510704.0,
      "step": 11170
    },
    {
      "entropy": 1.7037639617919922,
      "epoch": 1.2271840927192332,
      "grad_norm": 0.7573713064193726,
      "learning_rate": 8.176852458936628e-06,
      "loss": 1.4666,
      "mean_token_accuracy": 0.6548537611961365,
      "num_tokens": 1872669770.0,
      "step": 11171
    },
    {
      "entropy": 1.6827135582764943,
      "epoch": 1.2272939496306061,
      "grad_norm": 0.6930450201034546,
      "learning_rate": 8.175332187380341e-06,
      "loss": 1.3069,
      "mean_token_accuracy": 0.66745425760746,
      "num_tokens": 1872875315.0,
      "step": 11172
    },
    {
      "entropy": 1.7051290174325306,
      "epoch": 1.227403806541979,
      "grad_norm": 0.6210904121398926,
      "learning_rate": 8.173812005223517e-06,
      "loss": 1.2625,
      "mean_token_accuracy": 0.6816918949286143,
      "num_tokens": 1873033536.0,
      "step": 11173
    },
    {
      "entropy": 1.7081526120503743,
      "epoch": 1.2275136634533519,
      "grad_norm": 0.6397086977958679,
      "learning_rate": 8.172291912514274e-06,
      "loss": 1.473,
      "mean_token_accuracy": 0.663579652706782,
      "num_tokens": 1873186734.0,
      "step": 11174
    },
    {
      "entropy": 1.7037063737710316,
      "epoch": 1.227623520364725,
      "grad_norm": 0.6888397336006165,
      "learning_rate": 8.170771909300716e-06,
      "loss": 1.5498,
      "mean_token_accuracy": 0.6241617798805237,
      "num_tokens": 1873388660.0,
      "step": 11175
    },
    {
      "entropy": 1.6468111673990886,
      "epoch": 1.2277333772760979,
      "grad_norm": 0.6850365996360779,
      "learning_rate": 8.169251995630948e-06,
      "loss": 1.3269,
      "mean_token_accuracy": 0.6640166540940603,
      "num_tokens": 1873634673.0,
      "step": 11176
    },
    {
      "entropy": 1.7099710702896118,
      "epoch": 1.2278432341874708,
      "grad_norm": 0.6371767520904541,
      "learning_rate": 8.167732171553088e-06,
      "loss": 1.341,
      "mean_token_accuracy": 0.6740860641002655,
      "num_tokens": 1873780882.0,
      "step": 11177
    },
    {
      "entropy": 1.7181882460912068,
      "epoch": 1.2279530910988439,
      "grad_norm": 0.7756669521331787,
      "learning_rate": 8.166212437115221e-06,
      "loss": 1.403,
      "mean_token_accuracy": 0.6458031634489695,
      "num_tokens": 1873933442.0,
      "step": 11178
    },
    {
      "entropy": 1.6694627106189728,
      "epoch": 1.2280629480102168,
      "grad_norm": 0.8991198539733887,
      "learning_rate": 8.164692792365456e-06,
      "loss": 1.3021,
      "mean_token_accuracy": 0.6779783020416895,
      "num_tokens": 1874056969.0,
      "step": 11179
    },
    {
      "entropy": 1.7401012182235718,
      "epoch": 1.2281728049215896,
      "grad_norm": 0.7417164444923401,
      "learning_rate": 8.163173237351887e-06,
      "loss": 1.434,
      "mean_token_accuracy": 0.6551551967859268,
      "num_tokens": 1874216033.0,
      "step": 11180
    },
    {
      "entropy": 1.7963026364644368,
      "epoch": 1.2282826618329625,
      "grad_norm": 0.7083638310432434,
      "learning_rate": 8.161653772122607e-06,
      "loss": 1.4688,
      "mean_token_accuracy": 0.6413846760988235,
      "num_tokens": 1874412535.0,
      "step": 11181
    },
    {
      "entropy": 1.6756743987401326,
      "epoch": 1.2283925187443354,
      "grad_norm": 0.6325013637542725,
      "learning_rate": 8.1601343967257e-06,
      "loss": 1.3387,
      "mean_token_accuracy": 0.6656516889731089,
      "num_tokens": 1874560478.0,
      "step": 11182
    },
    {
      "entropy": 1.6859131356080372,
      "epoch": 1.2285023756557085,
      "grad_norm": 0.6860812306404114,
      "learning_rate": 8.15861511120927e-06,
      "loss": 1.3272,
      "mean_token_accuracy": 0.6739522715409597,
      "num_tokens": 1874709470.0,
      "step": 11183
    },
    {
      "entropy": 1.7304639220237732,
      "epoch": 1.2286122325670814,
      "grad_norm": 1.0082952976226807,
      "learning_rate": 8.157095915621382e-06,
      "loss": 1.5461,
      "mean_token_accuracy": 0.6445205509662628,
      "num_tokens": 1874878019.0,
      "step": 11184
    },
    {
      "entropy": 1.7110270063082378,
      "epoch": 1.2287220894784543,
      "grad_norm": 0.6818872690200806,
      "learning_rate": 8.155576810010131e-06,
      "loss": 1.6461,
      "mean_token_accuracy": 0.6105376332998276,
      "num_tokens": 1875092932.0,
      "step": 11185
    },
    {
      "entropy": 1.6794796387354534,
      "epoch": 1.2288319463898272,
      "grad_norm": 0.5344785451889038,
      "learning_rate": 8.154057794423595e-06,
      "loss": 1.3906,
      "mean_token_accuracy": 0.6523840377728144,
      "num_tokens": 1875304235.0,
      "step": 11186
    },
    {
      "entropy": 1.635409543911616,
      "epoch": 1.2289418033012,
      "grad_norm": 0.5482689738273621,
      "learning_rate": 8.152538868909846e-06,
      "loss": 1.4172,
      "mean_token_accuracy": 0.6563707540432612,
      "num_tokens": 1875523446.0,
      "step": 11187
    },
    {
      "entropy": 1.7209465603033702,
      "epoch": 1.2290516602125732,
      "grad_norm": 0.8221262693405151,
      "learning_rate": 8.151020033516957e-06,
      "loss": 1.4545,
      "mean_token_accuracy": 0.6479563862085342,
      "num_tokens": 1875685022.0,
      "step": 11188
    },
    {
      "entropy": 1.7244952420393627,
      "epoch": 1.229161517123946,
      "grad_norm": 0.7386845350265503,
      "learning_rate": 8.149501288293e-06,
      "loss": 1.3956,
      "mean_token_accuracy": 0.6560295174519221,
      "num_tokens": 1875850083.0,
      "step": 11189
    },
    {
      "entropy": 1.6882909337679546,
      "epoch": 1.229271374035319,
      "grad_norm": 0.5964418649673462,
      "learning_rate": 8.147982633286043e-06,
      "loss": 1.4545,
      "mean_token_accuracy": 0.6443512588739395,
      "num_tokens": 1876051887.0,
      "step": 11190
    },
    {
      "entropy": 1.7120668391386669,
      "epoch": 1.229381230946692,
      "grad_norm": 0.7184486389160156,
      "learning_rate": 8.146464068544153e-06,
      "loss": 1.4313,
      "mean_token_accuracy": 0.6619121432304382,
      "num_tokens": 1876193353.0,
      "step": 11191
    },
    {
      "entropy": 1.715154270331065,
      "epoch": 1.229491087858065,
      "grad_norm": 0.7384195923805237,
      "learning_rate": 8.144945594115386e-06,
      "loss": 1.4344,
      "mean_token_accuracy": 0.6491910715897878,
      "num_tokens": 1876348250.0,
      "step": 11192
    },
    {
      "entropy": 1.7401968638102214,
      "epoch": 1.2296009447694378,
      "grad_norm": 0.7795338034629822,
      "learning_rate": 8.143427210047806e-06,
      "loss": 1.3542,
      "mean_token_accuracy": 0.6642808963855108,
      "num_tokens": 1876487873.0,
      "step": 11193
    },
    {
      "entropy": 1.6769267618656158,
      "epoch": 1.2297108016808107,
      "grad_norm": 0.7037333846092224,
      "learning_rate": 8.14190891638947e-06,
      "loss": 1.2072,
      "mean_token_accuracy": 0.681295191248258,
      "num_tokens": 1876634540.0,
      "step": 11194
    },
    {
      "entropy": 1.7220933934052784,
      "epoch": 1.2298206585921836,
      "grad_norm": 0.7242723107337952,
      "learning_rate": 8.140390713188425e-06,
      "loss": 1.3561,
      "mean_token_accuracy": 0.6651198863983154,
      "num_tokens": 1876792228.0,
      "step": 11195
    },
    {
      "entropy": 1.6575371026992798,
      "epoch": 1.2299305155035567,
      "grad_norm": 0.5735102295875549,
      "learning_rate": 8.138872600492725e-06,
      "loss": 1.4878,
      "mean_token_accuracy": 0.644407923022906,
      "num_tokens": 1877007455.0,
      "step": 11196
    },
    {
      "entropy": 1.711806943019231,
      "epoch": 1.2300403724149296,
      "grad_norm": 0.5998605489730835,
      "learning_rate": 8.137354578350422e-06,
      "loss": 1.5256,
      "mean_token_accuracy": 0.6423748483260473,
      "num_tokens": 1877208212.0,
      "step": 11197
    },
    {
      "entropy": 1.6850987871487935,
      "epoch": 1.2301502293263025,
      "grad_norm": 0.5823908448219299,
      "learning_rate": 8.135836646809552e-06,
      "loss": 1.3704,
      "mean_token_accuracy": 0.658658762772878,
      "num_tokens": 1877387686.0,
      "step": 11198
    },
    {
      "entropy": 1.7524065176645915,
      "epoch": 1.2302600862376754,
      "grad_norm": 0.6456050872802734,
      "learning_rate": 8.134318805918161e-06,
      "loss": 1.4089,
      "mean_token_accuracy": 0.6498519033193588,
      "num_tokens": 1877539996.0,
      "step": 11199
    },
    {
      "entropy": 1.786929150422414,
      "epoch": 1.2303699431490482,
      "grad_norm": 0.7778921723365784,
      "learning_rate": 8.132801055724296e-06,
      "loss": 1.6354,
      "mean_token_accuracy": 0.6156754593054453,
      "num_tokens": 1877784918.0,
      "step": 11200
    },
    {
      "entropy": 1.7587116559346516,
      "epoch": 1.2304798000604213,
      "grad_norm": 0.7484762668609619,
      "learning_rate": 8.13128339627598e-06,
      "loss": 1.3407,
      "mean_token_accuracy": 0.6659899353981018,
      "num_tokens": 1877989211.0,
      "step": 11201
    },
    {
      "entropy": 1.6641751329104106,
      "epoch": 1.2305896569717942,
      "grad_norm": 0.8541742563247681,
      "learning_rate": 8.12976582762125e-06,
      "loss": 1.4287,
      "mean_token_accuracy": 0.6577843030293783,
      "num_tokens": 1878183278.0,
      "step": 11202
    },
    {
      "entropy": 1.6898448566595714,
      "epoch": 1.2306995138831671,
      "grad_norm": 0.7239437103271484,
      "learning_rate": 8.128248349808143e-06,
      "loss": 1.2639,
      "mean_token_accuracy": 0.6711952984333038,
      "num_tokens": 1878308690.0,
      "step": 11203
    },
    {
      "entropy": 1.6802580654621124,
      "epoch": 1.2308093707945402,
      "grad_norm": 0.6512843370437622,
      "learning_rate": 8.12673096288468e-06,
      "loss": 1.5386,
      "mean_token_accuracy": 0.6389039307832718,
      "num_tokens": 1878465206.0,
      "step": 11204
    },
    {
      "entropy": 1.724786251783371,
      "epoch": 1.230919227705913,
      "grad_norm": 0.7077043652534485,
      "learning_rate": 8.125213666898886e-06,
      "loss": 1.3819,
      "mean_token_accuracy": 0.6506198197603226,
      "num_tokens": 1878611726.0,
      "step": 11205
    },
    {
      "entropy": 1.7447443306446075,
      "epoch": 1.231029084617286,
      "grad_norm": 0.6581472754478455,
      "learning_rate": 8.123696461898785e-06,
      "loss": 1.318,
      "mean_token_accuracy": 0.6526310493548712,
      "num_tokens": 1878761057.0,
      "step": 11206
    },
    {
      "entropy": 1.741285651922226,
      "epoch": 1.2311389415286589,
      "grad_norm": 0.7155635356903076,
      "learning_rate": 8.122179347932396e-06,
      "loss": 1.5159,
      "mean_token_accuracy": 0.6463326240579287,
      "num_tokens": 1878956011.0,
      "step": 11207
    },
    {
      "entropy": 1.7428237795829773,
      "epoch": 1.2312487984400318,
      "grad_norm": 0.7881234288215637,
      "learning_rate": 8.12066232504773e-06,
      "loss": 1.5306,
      "mean_token_accuracy": 0.6414182931184769,
      "num_tokens": 1879152697.0,
      "step": 11208
    },
    {
      "entropy": 1.6375042895476024,
      "epoch": 1.2313586553514049,
      "grad_norm": 0.622815728187561,
      "learning_rate": 8.119145393292808e-06,
      "loss": 1.3191,
      "mean_token_accuracy": 0.6815162648757299,
      "num_tokens": 1879303949.0,
      "step": 11209
    },
    {
      "entropy": 1.6750175754229228,
      "epoch": 1.2314685122627778,
      "grad_norm": 0.6067901253700256,
      "learning_rate": 8.117628552715636e-06,
      "loss": 1.4323,
      "mean_token_accuracy": 0.6625420202811559,
      "num_tokens": 1879486772.0,
      "step": 11210
    },
    {
      "entropy": 1.7117481927076976,
      "epoch": 1.2315783691741506,
      "grad_norm": 0.6861073970794678,
      "learning_rate": 8.116111803364218e-06,
      "loss": 1.325,
      "mean_token_accuracy": 0.6644338915745417,
      "num_tokens": 1879628385.0,
      "step": 11211
    },
    {
      "entropy": 1.7356761197249095,
      "epoch": 1.2316882260855235,
      "grad_norm": 0.7062935829162598,
      "learning_rate": 8.114595145286565e-06,
      "loss": 1.3774,
      "mean_token_accuracy": 0.6549742966890335,
      "num_tokens": 1879808474.0,
      "step": 11212
    },
    {
      "entropy": 1.6221475005149841,
      "epoch": 1.2317980829968966,
      "grad_norm": 0.7179040908813477,
      "learning_rate": 8.113078578530676e-06,
      "loss": 1.4577,
      "mean_token_accuracy": 0.6649397065242132,
      "num_tokens": 1879965479.0,
      "step": 11213
    },
    {
      "entropy": 1.6686547497908275,
      "epoch": 1.2319079399082695,
      "grad_norm": 0.6317336559295654,
      "learning_rate": 8.111562103144543e-06,
      "loss": 1.3409,
      "mean_token_accuracy": 0.6715045968691508,
      "num_tokens": 1880102350.0,
      "step": 11214
    },
    {
      "entropy": 1.6721225877602894,
      "epoch": 1.2320177968196424,
      "grad_norm": 0.6598741412162781,
      "learning_rate": 8.110045719176178e-06,
      "loss": 1.4653,
      "mean_token_accuracy": 0.650575632850329,
      "num_tokens": 1880285478.0,
      "step": 11215
    },
    {
      "entropy": 1.7288126051425934,
      "epoch": 1.2321276537310153,
      "grad_norm": 0.7576711773872375,
      "learning_rate": 8.108529426673555e-06,
      "loss": 1.4545,
      "mean_token_accuracy": 0.6471219807863235,
      "num_tokens": 1880471549.0,
      "step": 11216
    },
    {
      "entropy": 1.749824732542038,
      "epoch": 1.2322375106423884,
      "grad_norm": 0.7423568367958069,
      "learning_rate": 8.107013225684678e-06,
      "loss": 1.3571,
      "mean_token_accuracy": 0.6579922884702682,
      "num_tokens": 1880652106.0,
      "step": 11217
    },
    {
      "entropy": 1.6819796562194824,
      "epoch": 1.2323473675537613,
      "grad_norm": 0.7285211682319641,
      "learning_rate": 8.105497116257526e-06,
      "loss": 1.3604,
      "mean_token_accuracy": 0.6721114267905554,
      "num_tokens": 1880810988.0,
      "step": 11218
    },
    {
      "entropy": 1.7526112000147502,
      "epoch": 1.2324572244651342,
      "grad_norm": 0.7563691139221191,
      "learning_rate": 8.103981098440087e-06,
      "loss": 1.405,
      "mean_token_accuracy": 0.668835868438085,
      "num_tokens": 1880927999.0,
      "step": 11219
    },
    {
      "entropy": 1.678017516930898,
      "epoch": 1.232567081376507,
      "grad_norm": 0.7735137939453125,
      "learning_rate": 8.10246517228034e-06,
      "loss": 1.3019,
      "mean_token_accuracy": 0.675841843088468,
      "num_tokens": 1881086954.0,
      "step": 11220
    },
    {
      "entropy": 1.6915496389071147,
      "epoch": 1.23267693828788,
      "grad_norm": 0.6371824145317078,
      "learning_rate": 8.100949337826267e-06,
      "loss": 1.3869,
      "mean_token_accuracy": 0.6606535166501999,
      "num_tokens": 1881251528.0,
      "step": 11221
    },
    {
      "entropy": 1.6786122421423595,
      "epoch": 1.232786795199253,
      "grad_norm": 0.7070814967155457,
      "learning_rate": 8.099433595125838e-06,
      "loss": 1.3486,
      "mean_token_accuracy": 0.6716959228118261,
      "num_tokens": 1881373248.0,
      "step": 11222
    },
    {
      "entropy": 1.7694110969702403,
      "epoch": 1.232896652110626,
      "grad_norm": 0.6588417887687683,
      "learning_rate": 8.097917944227031e-06,
      "loss": 1.4997,
      "mean_token_accuracy": 0.6302092870076498,
      "num_tokens": 1881541933.0,
      "step": 11223
    },
    {
      "entropy": 1.689767171939214,
      "epoch": 1.2330065090219988,
      "grad_norm": 0.8221830129623413,
      "learning_rate": 8.096402385177816e-06,
      "loss": 1.4524,
      "mean_token_accuracy": 0.6705189446608225,
      "num_tokens": 1881695653.0,
      "step": 11224
    },
    {
      "entropy": 1.7141635119915009,
      "epoch": 1.2331163659333717,
      "grad_norm": 0.6804819107055664,
      "learning_rate": 8.094886918026153e-06,
      "loss": 1.305,
      "mean_token_accuracy": 0.6599769194920858,
      "num_tokens": 1881827348.0,
      "step": 11225
    },
    {
      "entropy": 1.6513873438040416,
      "epoch": 1.2332262228447448,
      "grad_norm": 0.6210925579071045,
      "learning_rate": 8.093371542820007e-06,
      "loss": 1.3637,
      "mean_token_accuracy": 0.6525876174370447,
      "num_tokens": 1881985777.0,
      "step": 11226
    },
    {
      "entropy": 1.683081477880478,
      "epoch": 1.2333360797561177,
      "grad_norm": 0.7101804614067078,
      "learning_rate": 8.09185625960735e-06,
      "loss": 1.2141,
      "mean_token_accuracy": 0.6824707140525182,
      "num_tokens": 1882099438.0,
      "step": 11227
    },
    {
      "entropy": 1.7311066389083862,
      "epoch": 1.2334459366674906,
      "grad_norm": 0.7459114789962769,
      "learning_rate": 8.090341068436125e-06,
      "loss": 1.3144,
      "mean_token_accuracy": 0.6670710841814677,
      "num_tokens": 1882267699.0,
      "step": 11228
    },
    {
      "entropy": 1.6882832149664562,
      "epoch": 1.2335557935788635,
      "grad_norm": 0.714763879776001,
      "learning_rate": 8.088825969354298e-06,
      "loss": 1.2732,
      "mean_token_accuracy": 0.6782094736893972,
      "num_tokens": 1882453057.0,
      "step": 11229
    },
    {
      "entropy": 1.684934099515279,
      "epoch": 1.2336656504902366,
      "grad_norm": 0.638083279132843,
      "learning_rate": 8.087310962409818e-06,
      "loss": 1.341,
      "mean_token_accuracy": 0.661807561914126,
      "num_tokens": 1882603582.0,
      "step": 11230
    },
    {
      "entropy": 1.7063041031360626,
      "epoch": 1.2337755074016095,
      "grad_norm": 0.6284477710723877,
      "learning_rate": 8.085796047650632e-06,
      "loss": 1.5387,
      "mean_token_accuracy": 0.6299227277437845,
      "num_tokens": 1882851492.0,
      "step": 11231
    },
    {
      "entropy": 1.7208701372146606,
      "epoch": 1.2338853643129823,
      "grad_norm": 0.7093353867530823,
      "learning_rate": 8.084281225124684e-06,
      "loss": 1.4154,
      "mean_token_accuracy": 0.6541569431622823,
      "num_tokens": 1882989394.0,
      "step": 11232
    },
    {
      "entropy": 1.798000564177831,
      "epoch": 1.2339952212243552,
      "grad_norm": 0.834276556968689,
      "learning_rate": 8.082766494879928e-06,
      "loss": 1.5977,
      "mean_token_accuracy": 0.6478389153877894,
      "num_tokens": 1883119346.0,
      "step": 11233
    },
    {
      "entropy": 1.7449569801489513,
      "epoch": 1.2341050781357281,
      "grad_norm": 0.6619470715522766,
      "learning_rate": 8.081251856964291e-06,
      "loss": 1.3306,
      "mean_token_accuracy": 0.6545126388470331,
      "num_tokens": 1883247560.0,
      "step": 11234
    },
    {
      "entropy": 1.7160409688949585,
      "epoch": 1.2342149350471012,
      "grad_norm": 0.736487865447998,
      "learning_rate": 8.079737311425723e-06,
      "loss": 1.4371,
      "mean_token_accuracy": 0.6482950200637182,
      "num_tokens": 1883402069.0,
      "step": 11235
    },
    {
      "entropy": 1.7530849079291027,
      "epoch": 1.234324791958474,
      "grad_norm": 0.8390946984291077,
      "learning_rate": 8.078222858312152e-06,
      "loss": 1.504,
      "mean_token_accuracy": 0.6466073642174403,
      "num_tokens": 1883577023.0,
      "step": 11236
    },
    {
      "entropy": 1.7000373403231304,
      "epoch": 1.234434648869847,
      "grad_norm": 0.6646814942359924,
      "learning_rate": 8.07670849767151e-06,
      "loss": 1.2625,
      "mean_token_accuracy": 0.6718258758385977,
      "num_tokens": 1883700619.0,
      "step": 11237
    },
    {
      "entropy": 1.745482623577118,
      "epoch": 1.2345445057812199,
      "grad_norm": 0.6695995330810547,
      "learning_rate": 8.075194229551726e-06,
      "loss": 1.3949,
      "mean_token_accuracy": 0.6459067513545355,
      "num_tokens": 1883864316.0,
      "step": 11238
    },
    {
      "entropy": 1.6707193851470947,
      "epoch": 1.234654362692593,
      "grad_norm": 0.6652836799621582,
      "learning_rate": 8.073680054000733e-06,
      "loss": 1.497,
      "mean_token_accuracy": 0.6416679819424947,
      "num_tokens": 1884073039.0,
      "step": 11239
    },
    {
      "entropy": 1.73182346423467,
      "epoch": 1.2347642196039659,
      "grad_norm": 0.7183116674423218,
      "learning_rate": 8.07216597106644e-06,
      "loss": 1.3477,
      "mean_token_accuracy": 0.6592358897129694,
      "num_tokens": 1884211467.0,
      "step": 11240
    },
    {
      "entropy": 1.6830492317676544,
      "epoch": 1.2348740765153388,
      "grad_norm": 0.6599522233009338,
      "learning_rate": 8.070651980796775e-06,
      "loss": 1.4568,
      "mean_token_accuracy": 0.6476858655611674,
      "num_tokens": 1884378829.0,
      "step": 11241
    },
    {
      "entropy": 1.686943491299947,
      "epoch": 1.2349839334267116,
      "grad_norm": 0.607049286365509,
      "learning_rate": 8.06913808323966e-06,
      "loss": 1.5163,
      "mean_token_accuracy": 0.6283295204242071,
      "num_tokens": 1884603951.0,
      "step": 11242
    },
    {
      "entropy": 1.705921232700348,
      "epoch": 1.2350937903380848,
      "grad_norm": 0.7713742852210999,
      "learning_rate": 8.067624278443e-06,
      "loss": 1.4968,
      "mean_token_accuracy": 0.6453157613674799,
      "num_tokens": 1884801772.0,
      "step": 11243
    },
    {
      "entropy": 1.751990258693695,
      "epoch": 1.2352036472494576,
      "grad_norm": 0.8362163305282593,
      "learning_rate": 8.06611056645471e-06,
      "loss": 1.446,
      "mean_token_accuracy": 0.653899297118187,
      "num_tokens": 1884960483.0,
      "step": 11244
    },
    {
      "entropy": 1.643377035856247,
      "epoch": 1.2353135041608305,
      "grad_norm": 0.5995488166809082,
      "learning_rate": 8.064596947322703e-06,
      "loss": 1.429,
      "mean_token_accuracy": 0.6459860801696777,
      "num_tokens": 1885182089.0,
      "step": 11245
    },
    {
      "entropy": 1.6707975268363953,
      "epoch": 1.2354233610722034,
      "grad_norm": 0.6349611282348633,
      "learning_rate": 8.063083421094875e-06,
      "loss": 1.3166,
      "mean_token_accuracy": 0.6706758588552475,
      "num_tokens": 1885352722.0,
      "step": 11246
    },
    {
      "entropy": 1.73516180117925,
      "epoch": 1.2355332179835763,
      "grad_norm": 0.6147273182868958,
      "learning_rate": 8.061569987819138e-06,
      "loss": 1.4639,
      "mean_token_accuracy": 0.6467922131220499,
      "num_tokens": 1885566345.0,
      "step": 11247
    },
    {
      "entropy": 1.716229885816574,
      "epoch": 1.2356430748949494,
      "grad_norm": 0.7673629522323608,
      "learning_rate": 8.060056647543382e-06,
      "loss": 1.4798,
      "mean_token_accuracy": 0.6467408984899521,
      "num_tokens": 1885762755.0,
      "step": 11248
    },
    {
      "entropy": 1.7514924108982086,
      "epoch": 1.2357529318063223,
      "grad_norm": 0.7376429438591003,
      "learning_rate": 8.058543400315511e-06,
      "loss": 1.336,
      "mean_token_accuracy": 0.6571770658095678,
      "num_tokens": 1885914416.0,
      "step": 11249
    },
    {
      "entropy": 1.7116054991881053,
      "epoch": 1.2358627887176952,
      "grad_norm": 1.5102351903915405,
      "learning_rate": 8.057030246183416e-06,
      "loss": 1.6694,
      "mean_token_accuracy": 0.6353745808204015,
      "num_tokens": 1886111948.0,
      "step": 11250
    },
    {
      "entropy": 1.6769183973471324,
      "epoch": 1.235972645629068,
      "grad_norm": 0.9520527720451355,
      "learning_rate": 8.055517185194988e-06,
      "loss": 1.3784,
      "mean_token_accuracy": 0.6644560744365057,
      "num_tokens": 1886245502.0,
      "step": 11251
    },
    {
      "entropy": 1.7583904763062794,
      "epoch": 1.2360825025404412,
      "grad_norm": 0.810713529586792,
      "learning_rate": 8.054004217398108e-06,
      "loss": 1.4918,
      "mean_token_accuracy": 0.6517674972613653,
      "num_tokens": 1886405065.0,
      "step": 11252
    },
    {
      "entropy": 1.6664839486281078,
      "epoch": 1.236192359451814,
      "grad_norm": 0.6370511651039124,
      "learning_rate": 8.052491342840677e-06,
      "loss": 1.3647,
      "mean_token_accuracy": 0.6623385399580002,
      "num_tokens": 1886553072.0,
      "step": 11253
    },
    {
      "entropy": 1.737219403187434,
      "epoch": 1.236302216363187,
      "grad_norm": 0.7130185961723328,
      "learning_rate": 8.05097856157056e-06,
      "loss": 1.3521,
      "mean_token_accuracy": 0.6642791330814362,
      "num_tokens": 1886689924.0,
      "step": 11254
    },
    {
      "entropy": 1.7893791596094768,
      "epoch": 1.2364120732745598,
      "grad_norm": 0.6922145485877991,
      "learning_rate": 8.049465873635644e-06,
      "loss": 1.4279,
      "mean_token_accuracy": 0.6482027868429819,
      "num_tokens": 1886819576.0,
      "step": 11255
    },
    {
      "entropy": 1.7212933500607808,
      "epoch": 1.236521930185933,
      "grad_norm": 0.6548290848731995,
      "learning_rate": 8.047953279083805e-06,
      "loss": 1.4333,
      "mean_token_accuracy": 0.650567352771759,
      "num_tokens": 1887004217.0,
      "step": 11256
    },
    {
      "entropy": 1.7187994420528412,
      "epoch": 1.2366317870973058,
      "grad_norm": 0.6271427273750305,
      "learning_rate": 8.046440777962914e-06,
      "loss": 1.4241,
      "mean_token_accuracy": 0.6418495823939642,
      "num_tokens": 1887209350.0,
      "step": 11257
    },
    {
      "entropy": 1.7576852043469746,
      "epoch": 1.2367416440086787,
      "grad_norm": 0.7661997675895691,
      "learning_rate": 8.044928370320837e-06,
      "loss": 1.5276,
      "mean_token_accuracy": 0.6394319285949072,
      "num_tokens": 1887413418.0,
      "step": 11258
    },
    {
      "entropy": 1.7255164881547291,
      "epoch": 1.2368515009200516,
      "grad_norm": 0.7709239721298218,
      "learning_rate": 8.043416056205453e-06,
      "loss": 1.4078,
      "mean_token_accuracy": 0.6649090001980463,
      "num_tokens": 1887560944.0,
      "step": 11259
    },
    {
      "entropy": 1.692698359489441,
      "epoch": 1.2369613578314245,
      "grad_norm": 0.8086570501327515,
      "learning_rate": 8.041903835664615e-06,
      "loss": 1.4357,
      "mean_token_accuracy": 0.6539787004391352,
      "num_tokens": 1887718710.0,
      "step": 11260
    },
    {
      "entropy": 1.7619259258111317,
      "epoch": 1.2370712147427976,
      "grad_norm": 0.7824429869651794,
      "learning_rate": 8.040391708746186e-06,
      "loss": 1.6336,
      "mean_token_accuracy": 0.6352614412705103,
      "num_tokens": 1887896912.0,
      "step": 11261
    },
    {
      "entropy": 1.6718494693438213,
      "epoch": 1.2371810716541705,
      "grad_norm": 0.7123764157295227,
      "learning_rate": 8.038879675498031e-06,
      "loss": 1.3994,
      "mean_token_accuracy": 0.6606058677037557,
      "num_tokens": 1888048701.0,
      "step": 11262
    },
    {
      "entropy": 1.6848260561625164,
      "epoch": 1.2372909285655433,
      "grad_norm": 0.7577449679374695,
      "learning_rate": 8.037367735967995e-06,
      "loss": 1.522,
      "mean_token_accuracy": 0.6498318860928217,
      "num_tokens": 1888223514.0,
      "step": 11263
    },
    {
      "entropy": 1.6410026550292969,
      "epoch": 1.2374007854769162,
      "grad_norm": 0.6510109901428223,
      "learning_rate": 8.035855890203934e-06,
      "loss": 1.4112,
      "mean_token_accuracy": 0.6637563705444336,
      "num_tokens": 1888407644.0,
      "step": 11264
    },
    {
      "entropy": 1.7332176466782887,
      "epoch": 1.2375106423882893,
      "grad_norm": 0.791204571723938,
      "learning_rate": 8.034344138253704e-06,
      "loss": 1.2795,
      "mean_token_accuracy": 0.6705978065729141,
      "num_tokens": 1888559368.0,
      "step": 11265
    },
    {
      "entropy": 1.7388821343580882,
      "epoch": 1.2376204992996622,
      "grad_norm": 0.7957805395126343,
      "learning_rate": 8.03283248016514e-06,
      "loss": 1.4571,
      "mean_token_accuracy": 0.6462946683168411,
      "num_tokens": 1888761523.0,
      "step": 11266
    },
    {
      "entropy": 1.749239871899287,
      "epoch": 1.237730356211035,
      "grad_norm": 0.7862349152565002,
      "learning_rate": 8.031320915986093e-06,
      "loss": 1.2856,
      "mean_token_accuracy": 0.6639771660168966,
      "num_tokens": 1888914049.0,
      "step": 11267
    },
    {
      "entropy": 1.637138585249583,
      "epoch": 1.237840213122408,
      "grad_norm": 0.6658058762550354,
      "learning_rate": 8.029809445764404e-06,
      "loss": 1.3354,
      "mean_token_accuracy": 0.661085252960523,
      "num_tokens": 1889102287.0,
      "step": 11268
    },
    {
      "entropy": 1.769773135582606,
      "epoch": 1.237950070033781,
      "grad_norm": 0.8036999702453613,
      "learning_rate": 8.028298069547907e-06,
      "loss": 1.5082,
      "mean_token_accuracy": 0.6557409813006719,
      "num_tokens": 1889224418.0,
      "step": 11269
    },
    {
      "entropy": 1.7286994357903798,
      "epoch": 1.238059926945154,
      "grad_norm": 0.7675381898880005,
      "learning_rate": 8.02678678738443e-06,
      "loss": 1.5319,
      "mean_token_accuracy": 0.6377677967151006,
      "num_tokens": 1889439985.0,
      "step": 11270
    },
    {
      "entropy": 1.681524654229482,
      "epoch": 1.2381697838565269,
      "grad_norm": 0.702340304851532,
      "learning_rate": 8.025275599321825e-06,
      "loss": 1.3766,
      "mean_token_accuracy": 0.6608841866254807,
      "num_tokens": 1889599434.0,
      "step": 11271
    },
    {
      "entropy": 1.6762547592322032,
      "epoch": 1.2382796407678998,
      "grad_norm": 0.6304272413253784,
      "learning_rate": 8.023764505407894e-06,
      "loss": 1.4182,
      "mean_token_accuracy": 0.6476298222939173,
      "num_tokens": 1889807142.0,
      "step": 11272
    },
    {
      "entropy": 1.7101092040538788,
      "epoch": 1.2383894976792726,
      "grad_norm": 0.675635814666748,
      "learning_rate": 8.02225350569048e-06,
      "loss": 1.3755,
      "mean_token_accuracy": 0.6752298523982366,
      "num_tokens": 1889984200.0,
      "step": 11273
    },
    {
      "entropy": 1.7226931552092235,
      "epoch": 1.2384993545906458,
      "grad_norm": 0.7080081701278687,
      "learning_rate": 8.020742600217403e-06,
      "loss": 1.4787,
      "mean_token_accuracy": 0.6550223429997762,
      "num_tokens": 1890184448.0,
      "step": 11274
    },
    {
      "entropy": 1.723098615805308,
      "epoch": 1.2386092115020186,
      "grad_norm": 0.7677369713783264,
      "learning_rate": 8.019231789036477e-06,
      "loss": 1.4064,
      "mean_token_accuracy": 0.6541879673798879,
      "num_tokens": 1890351047.0,
      "step": 11275
    },
    {
      "entropy": 1.6581893960634868,
      "epoch": 1.2387190684133915,
      "grad_norm": 0.6451082229614258,
      "learning_rate": 8.017721072195522e-06,
      "loss": 1.5279,
      "mean_token_accuracy": 0.6365671356519064,
      "num_tokens": 1890543514.0,
      "step": 11276
    },
    {
      "entropy": 1.7340434888998668,
      "epoch": 1.2388289253247644,
      "grad_norm": 0.7805740237236023,
      "learning_rate": 8.016210449742354e-06,
      "loss": 1.3005,
      "mean_token_accuracy": 0.6726719886064529,
      "num_tokens": 1890661486.0,
      "step": 11277
    },
    {
      "entropy": 1.6500552793343861,
      "epoch": 1.2389387822361375,
      "grad_norm": 0.658091127872467,
      "learning_rate": 8.014699921724777e-06,
      "loss": 1.424,
      "mean_token_accuracy": 0.6632284422715505,
      "num_tokens": 1890861914.0,
      "step": 11278
    },
    {
      "entropy": 1.768718143304189,
      "epoch": 1.2390486391475104,
      "grad_norm": 0.6783964037895203,
      "learning_rate": 8.013189488190605e-06,
      "loss": 1.4826,
      "mean_token_accuracy": 0.6467755486567816,
      "num_tokens": 1891080586.0,
      "step": 11279
    },
    {
      "entropy": 1.7763389150301616,
      "epoch": 1.2391584960588833,
      "grad_norm": 0.688116729259491,
      "learning_rate": 8.01167914918764e-06,
      "loss": 1.5137,
      "mean_token_accuracy": 0.6396682957808176,
      "num_tokens": 1891230652.0,
      "step": 11280
    },
    {
      "entropy": 1.7367208699385326,
      "epoch": 1.2392683529702562,
      "grad_norm": 0.688133180141449,
      "learning_rate": 8.010168904763681e-06,
      "loss": 1.5204,
      "mean_token_accuracy": 0.6416043788194656,
      "num_tokens": 1891411181.0,
      "step": 11281
    },
    {
      "entropy": 1.717280815045039,
      "epoch": 1.2393782098816293,
      "grad_norm": 0.5666574239730835,
      "learning_rate": 8.008658754966527e-06,
      "loss": 1.3223,
      "mean_token_accuracy": 0.6569070219993591,
      "num_tokens": 1891627961.0,
      "step": 11282
    },
    {
      "entropy": 1.6722883383433025,
      "epoch": 1.2394880667930022,
      "grad_norm": 0.5551705360412598,
      "learning_rate": 8.007148699843982e-06,
      "loss": 1.4714,
      "mean_token_accuracy": 0.6321922043959299,
      "num_tokens": 1891858469.0,
      "step": 11283
    },
    {
      "entropy": 1.6376002232233684,
      "epoch": 1.239597923704375,
      "grad_norm": 0.8324296474456787,
      "learning_rate": 8.00563873944383e-06,
      "loss": 1.3256,
      "mean_token_accuracy": 0.6628724733988444,
      "num_tokens": 1892054586.0,
      "step": 11284
    },
    {
      "entropy": 1.7216839094956715,
      "epoch": 1.239707780615748,
      "grad_norm": 0.6770010590553284,
      "learning_rate": 8.004128873813859e-06,
      "loss": 1.3593,
      "mean_token_accuracy": 0.655941034356753,
      "num_tokens": 1892219818.0,
      "step": 11285
    },
    {
      "entropy": 1.6371920903523762,
      "epoch": 1.2398176375271208,
      "grad_norm": 0.6165127158164978,
      "learning_rate": 8.002619103001863e-06,
      "loss": 1.4678,
      "mean_token_accuracy": 0.6445280561844507,
      "num_tokens": 1892423750.0,
      "step": 11286
    },
    {
      "entropy": 1.716288646062215,
      "epoch": 1.239927494438494,
      "grad_norm": 0.6745500564575195,
      "learning_rate": 8.00110942705562e-06,
      "loss": 1.3397,
      "mean_token_accuracy": 0.675658643245697,
      "num_tokens": 1892583215.0,
      "step": 11287
    },
    {
      "entropy": 1.7311961750189464,
      "epoch": 1.2400373513498668,
      "grad_norm": 0.681602954864502,
      "learning_rate": 7.999599846022909e-06,
      "loss": 1.3579,
      "mean_token_accuracy": 0.665436198314031,
      "num_tokens": 1892769578.0,
      "step": 11288
    },
    {
      "entropy": 1.6320242981115978,
      "epoch": 1.2401472082612397,
      "grad_norm": 0.6943032741546631,
      "learning_rate": 7.998090359951518e-06,
      "loss": 1.3245,
      "mean_token_accuracy": 0.6648548195759455,
      "num_tokens": 1892920874.0,
      "step": 11289
    },
    {
      "entropy": 1.7329721252123516,
      "epoch": 1.2402570651726126,
      "grad_norm": 0.6341266632080078,
      "learning_rate": 7.996580968889209e-06,
      "loss": 1.4349,
      "mean_token_accuracy": 0.6397968182961146,
      "num_tokens": 1893096196.0,
      "step": 11290
    },
    {
      "entropy": 1.715551386276881,
      "epoch": 1.2403669220839857,
      "grad_norm": 0.6576389670372009,
      "learning_rate": 7.99507167288376e-06,
      "loss": 1.3832,
      "mean_token_accuracy": 0.6513058344523112,
      "num_tokens": 1893260174.0,
      "step": 11291
    },
    {
      "entropy": 1.7113690475622814,
      "epoch": 1.2404767789953586,
      "grad_norm": 0.653464138507843,
      "learning_rate": 7.99356247198294e-06,
      "loss": 1.5356,
      "mean_token_accuracy": 0.6355665028095245,
      "num_tokens": 1893463782.0,
      "step": 11292
    },
    {
      "entropy": 1.7006126741568248,
      "epoch": 1.2405866359067315,
      "grad_norm": 3.044800043106079,
      "learning_rate": 7.992053366234513e-06,
      "loss": 1.2922,
      "mean_token_accuracy": 0.660791665315628,
      "num_tokens": 1893671388.0,
      "step": 11293
    },
    {
      "entropy": 1.662010023991267,
      "epoch": 1.2406964928181043,
      "grad_norm": 0.680200457572937,
      "learning_rate": 7.990544355686239e-06,
      "loss": 1.4566,
      "mean_token_accuracy": 0.6599440028270086,
      "num_tokens": 1893824239.0,
      "step": 11294
    },
    {
      "entropy": 1.6833816369374592,
      "epoch": 1.2408063497294775,
      "grad_norm": 0.6722885966300964,
      "learning_rate": 7.989035440385885e-06,
      "loss": 1.5087,
      "mean_token_accuracy": 0.6377679258584976,
      "num_tokens": 1894057681.0,
      "step": 11295
    },
    {
      "entropy": 1.7269285221894581,
      "epoch": 1.2409162066408503,
      "grad_norm": 0.8462622165679932,
      "learning_rate": 7.987526620381197e-06,
      "loss": 1.5224,
      "mean_token_accuracy": 0.6455184866984686,
      "num_tokens": 1894213333.0,
      "step": 11296
    },
    {
      "entropy": 1.720696081717809,
      "epoch": 1.2410260635522232,
      "grad_norm": 0.7249704599380493,
      "learning_rate": 7.986017895719934e-06,
      "loss": 1.3996,
      "mean_token_accuracy": 0.6568809896707535,
      "num_tokens": 1894371395.0,
      "step": 11297
    },
    {
      "entropy": 1.6835100750128429,
      "epoch": 1.241135920463596,
      "grad_norm": 0.6641572713851929,
      "learning_rate": 7.984509266449854e-06,
      "loss": 1.3834,
      "mean_token_accuracy": 0.6554353535175323,
      "num_tokens": 1894511956.0,
      "step": 11298
    },
    {
      "entropy": 1.7112232049306233,
      "epoch": 1.241245777374969,
      "grad_norm": 0.7815585732460022,
      "learning_rate": 7.98300073261869e-06,
      "loss": 1.2925,
      "mean_token_accuracy": 0.6678037742773691,
      "num_tokens": 1894618068.0,
      "step": 11299
    },
    {
      "entropy": 1.755595584710439,
      "epoch": 1.241355634286342,
      "grad_norm": 0.6250059604644775,
      "learning_rate": 7.981492294274194e-06,
      "loss": 1.3003,
      "mean_token_accuracy": 0.6646648645401001,
      "num_tokens": 1894758381.0,
      "step": 11300
    },
    {
      "entropy": 1.75324742992719,
      "epoch": 1.241465491197715,
      "grad_norm": 0.7397940754890442,
      "learning_rate": 7.97998395146411e-06,
      "loss": 1.4168,
      "mean_token_accuracy": 0.6665991842746735,
      "num_tokens": 1894892394.0,
      "step": 11301
    },
    {
      "entropy": 1.7075209816296895,
      "epoch": 1.2415753481090879,
      "grad_norm": 0.7101148366928101,
      "learning_rate": 7.978475704236169e-06,
      "loss": 1.3675,
      "mean_token_accuracy": 0.6513032168149948,
      "num_tokens": 1895077445.0,
      "step": 11302
    },
    {
      "entropy": 1.7482849955558777,
      "epoch": 1.2416852050204608,
      "grad_norm": 0.72342449426651,
      "learning_rate": 7.976967552638111e-06,
      "loss": 1.3761,
      "mean_token_accuracy": 0.6645904332399368,
      "num_tokens": 1895252858.0,
      "step": 11303
    },
    {
      "entropy": 1.6877289811770122,
      "epoch": 1.2417950619318339,
      "grad_norm": 0.6635198593139648,
      "learning_rate": 7.975459496717672e-06,
      "loss": 1.2438,
      "mean_token_accuracy": 0.6745279332002004,
      "num_tokens": 1895422983.0,
      "step": 11304
    },
    {
      "entropy": 1.686889111995697,
      "epoch": 1.2419049188432068,
      "grad_norm": 0.6177757978439331,
      "learning_rate": 7.973951536522574e-06,
      "loss": 1.4462,
      "mean_token_accuracy": 0.6353614429632822,
      "num_tokens": 1895599337.0,
      "step": 11305
    },
    {
      "entropy": 1.6756052076816559,
      "epoch": 1.2420147757545796,
      "grad_norm": 0.6626149415969849,
      "learning_rate": 7.972443672100543e-06,
      "loss": 1.2887,
      "mean_token_accuracy": 0.6680636157592138,
      "num_tokens": 1895731538.0,
      "step": 11306
    },
    {
      "entropy": 1.685206929842631,
      "epoch": 1.2421246326659525,
      "grad_norm": 0.7096571326255798,
      "learning_rate": 7.970935903499312e-06,
      "loss": 1.2293,
      "mean_token_accuracy": 0.679922545949618,
      "num_tokens": 1895859633.0,
      "step": 11307
    },
    {
      "entropy": 1.6315878629684448,
      "epoch": 1.2422344895773256,
      "grad_norm": 0.6607580780982971,
      "learning_rate": 7.96942823076659e-06,
      "loss": 1.2639,
      "mean_token_accuracy": 0.6793940017620722,
      "num_tokens": 1896020071.0,
      "step": 11308
    },
    {
      "entropy": 1.7243158320585887,
      "epoch": 1.2423443464886985,
      "grad_norm": 0.6347528696060181,
      "learning_rate": 7.967920653950105e-06,
      "loss": 1.3314,
      "mean_token_accuracy": 0.6642320106426874,
      "num_tokens": 1896228945.0,
      "step": 11309
    },
    {
      "entropy": 1.74300483862559,
      "epoch": 1.2424542034000714,
      "grad_norm": 0.7812113165855408,
      "learning_rate": 7.966413173097559e-06,
      "loss": 1.4193,
      "mean_token_accuracy": 0.6341168930133184,
      "num_tokens": 1896375603.0,
      "step": 11310
    },
    {
      "entropy": 1.741927295923233,
      "epoch": 1.2425640603114443,
      "grad_norm": 0.9015730619430542,
      "learning_rate": 7.96490578825667e-06,
      "loss": 1.3465,
      "mean_token_accuracy": 0.6564824233452479,
      "num_tokens": 1896517786.0,
      "step": 11311
    },
    {
      "entropy": 1.7557086944580078,
      "epoch": 1.2426739172228172,
      "grad_norm": 0.6636369824409485,
      "learning_rate": 7.963398499475146e-06,
      "loss": 1.5039,
      "mean_token_accuracy": 0.6422920376062393,
      "num_tokens": 1896712152.0,
      "step": 11312
    },
    {
      "entropy": 1.7586438258488972,
      "epoch": 1.2427837741341903,
      "grad_norm": 0.7631456255912781,
      "learning_rate": 7.961891306800691e-06,
      "loss": 1.4998,
      "mean_token_accuracy": 0.6448372304439545,
      "num_tokens": 1896863330.0,
      "step": 11313
    },
    {
      "entropy": 1.7146364947160084,
      "epoch": 1.2428936310455632,
      "grad_norm": 0.7649849653244019,
      "learning_rate": 7.960384210281005e-06,
      "loss": 1.4133,
      "mean_token_accuracy": 0.6560538013776144,
      "num_tokens": 1897024053.0,
      "step": 11314
    },
    {
      "entropy": 1.6867588957150776,
      "epoch": 1.243003487956936,
      "grad_norm": 0.7380170226097107,
      "learning_rate": 7.958877209963794e-06,
      "loss": 1.3173,
      "mean_token_accuracy": 0.6729622135559717,
      "num_tokens": 1897153363.0,
      "step": 11315
    },
    {
      "entropy": 1.7193871140480042,
      "epoch": 1.243113344868309,
      "grad_norm": 0.8186469674110413,
      "learning_rate": 7.957370305896744e-06,
      "loss": 1.3701,
      "mean_token_accuracy": 0.6554479797681173,
      "num_tokens": 1897330815.0,
      "step": 11316
    },
    {
      "entropy": 1.7145767311255138,
      "epoch": 1.243223201779682,
      "grad_norm": 0.625273585319519,
      "learning_rate": 7.955863498127555e-06,
      "loss": 1.4123,
      "mean_token_accuracy": 0.6473723153273264,
      "num_tokens": 1897486340.0,
      "step": 11317
    },
    {
      "entropy": 1.6745652059714,
      "epoch": 1.243333058691055,
      "grad_norm": 0.6851847171783447,
      "learning_rate": 7.954356786703916e-06,
      "loss": 1.3004,
      "mean_token_accuracy": 0.6670237829287847,
      "num_tokens": 1897651114.0,
      "step": 11318
    },
    {
      "entropy": 1.72303906083107,
      "epoch": 1.2434429156024278,
      "grad_norm": 0.6741484999656677,
      "learning_rate": 7.95285017167351e-06,
      "loss": 1.4053,
      "mean_token_accuracy": 0.659760649005572,
      "num_tokens": 1897842734.0,
      "step": 11319
    },
    {
      "entropy": 1.708362211783727,
      "epoch": 1.2435527725138007,
      "grad_norm": 0.5985382199287415,
      "learning_rate": 7.951343653084023e-06,
      "loss": 1.4592,
      "mean_token_accuracy": 0.6402342220147451,
      "num_tokens": 1898046316.0,
      "step": 11320
    },
    {
      "entropy": 1.6680605312188466,
      "epoch": 1.2436626294251738,
      "grad_norm": 0.642793595790863,
      "learning_rate": 7.94983723098314e-06,
      "loss": 1.4187,
      "mean_token_accuracy": 0.6495463897784551,
      "num_tokens": 1898222912.0,
      "step": 11321
    },
    {
      "entropy": 1.686878780523936,
      "epoch": 1.2437724863365467,
      "grad_norm": 0.6895222067832947,
      "learning_rate": 7.948330905418527e-06,
      "loss": 1.4837,
      "mean_token_accuracy": 0.6618087788422903,
      "num_tokens": 1898404255.0,
      "step": 11322
    },
    {
      "entropy": 1.7111988961696625,
      "epoch": 1.2438823432479196,
      "grad_norm": 0.7032332420349121,
      "learning_rate": 7.94682467643787e-06,
      "loss": 1.2716,
      "mean_token_accuracy": 0.6768457492192587,
      "num_tokens": 1898544016.0,
      "step": 11323
    },
    {
      "entropy": 1.7379381159941356,
      "epoch": 1.2439922001592925,
      "grad_norm": 0.664441704750061,
      "learning_rate": 7.945318544088836e-06,
      "loss": 1.2956,
      "mean_token_accuracy": 0.6739976902802786,
      "num_tokens": 1898669680.0,
      "step": 11324
    },
    {
      "entropy": 1.7190495828787486,
      "epoch": 1.2441020570706653,
      "grad_norm": 0.636641800403595,
      "learning_rate": 7.943812508419093e-06,
      "loss": 1.4763,
      "mean_token_accuracy": 0.6462114254633585,
      "num_tokens": 1898880825.0,
      "step": 11325
    },
    {
      "entropy": 1.6952326397101085,
      "epoch": 1.2442119139820385,
      "grad_norm": 0.7681459188461304,
      "learning_rate": 7.942306569476303e-06,
      "loss": 1.198,
      "mean_token_accuracy": 0.6756665309270223,
      "num_tokens": 1899015166.0,
      "step": 11326
    },
    {
      "entropy": 1.7597149014472961,
      "epoch": 1.2443217708934113,
      "grad_norm": 0.7061123251914978,
      "learning_rate": 7.940800727308142e-06,
      "loss": 1.4911,
      "mean_token_accuracy": 0.6365721672773361,
      "num_tokens": 1899174895.0,
      "step": 11327
    },
    {
      "entropy": 1.6776218215624492,
      "epoch": 1.2444316278047842,
      "grad_norm": 0.8109696507453918,
      "learning_rate": 7.93929498196225e-06,
      "loss": 1.279,
      "mean_token_accuracy": 0.6621010253826777,
      "num_tokens": 1899330055.0,
      "step": 11328
    },
    {
      "entropy": 1.685188114643097,
      "epoch": 1.244541484716157,
      "grad_norm": 0.7661949396133423,
      "learning_rate": 7.937789333486296e-06,
      "loss": 1.2638,
      "mean_token_accuracy": 0.684383233388265,
      "num_tokens": 1899458252.0,
      "step": 11329
    },
    {
      "entropy": 1.7264382243156433,
      "epoch": 1.2446513416275302,
      "grad_norm": 0.6619189977645874,
      "learning_rate": 7.936283781927934e-06,
      "loss": 1.4722,
      "mean_token_accuracy": 0.6431934088468552,
      "num_tokens": 1899621097.0,
      "step": 11330
    },
    {
      "entropy": 1.7132483919461567,
      "epoch": 1.244761198538903,
      "grad_norm": 0.6909228563308716,
      "learning_rate": 7.934778327334804e-06,
      "loss": 1.4797,
      "mean_token_accuracy": 0.6424340556065241,
      "num_tokens": 1899790828.0,
      "step": 11331
    },
    {
      "entropy": 1.6885711252689362,
      "epoch": 1.244871055450276,
      "grad_norm": 0.7082422375679016,
      "learning_rate": 7.933272969754558e-06,
      "loss": 1.4103,
      "mean_token_accuracy": 0.6677902390559515,
      "num_tokens": 1899958848.0,
      "step": 11332
    },
    {
      "entropy": 1.7759423851966858,
      "epoch": 1.2449809123616489,
      "grad_norm": 0.7639626860618591,
      "learning_rate": 7.931767709234848e-06,
      "loss": 1.4212,
      "mean_token_accuracy": 0.662767251332601,
      "num_tokens": 1900092051.0,
      "step": 11333
    },
    {
      "entropy": 1.7315894961357117,
      "epoch": 1.245090769273022,
      "grad_norm": 0.6064445972442627,
      "learning_rate": 7.9302625458233e-06,
      "loss": 1.4768,
      "mean_token_accuracy": 0.6455651024977366,
      "num_tokens": 1900320309.0,
      "step": 11334
    },
    {
      "entropy": 1.6946211953957875,
      "epoch": 1.2452006261843949,
      "grad_norm": 0.7126203179359436,
      "learning_rate": 7.928757479567561e-06,
      "loss": 1.3931,
      "mean_token_accuracy": 0.6527270923058192,
      "num_tokens": 1900534165.0,
      "step": 11335
    },
    {
      "entropy": 1.6968140602111816,
      "epoch": 1.2453104830957678,
      "grad_norm": 0.8074250817298889,
      "learning_rate": 7.927252510515266e-06,
      "loss": 1.5176,
      "mean_token_accuracy": 0.6537874937057495,
      "num_tokens": 1900743441.0,
      "step": 11336
    },
    {
      "entropy": 1.7140926122665405,
      "epoch": 1.2454203400071406,
      "grad_norm": 0.7751270532608032,
      "learning_rate": 7.925747638714043e-06,
      "loss": 1.4288,
      "mean_token_accuracy": 0.6500294556220373,
      "num_tokens": 1900930640.0,
      "step": 11337
    },
    {
      "entropy": 1.6379591524600983,
      "epoch": 1.2455301969185135,
      "grad_norm": 0.7415010929107666,
      "learning_rate": 7.92424286421152e-06,
      "loss": 1.2861,
      "mean_token_accuracy": 0.6670693109432856,
      "num_tokens": 1901069110.0,
      "step": 11338
    },
    {
      "entropy": 1.6497638821601868,
      "epoch": 1.2456400538298866,
      "grad_norm": 0.7474594116210938,
      "learning_rate": 7.922738187055329e-06,
      "loss": 1.3534,
      "mean_token_accuracy": 0.6680422226587931,
      "num_tokens": 1901229274.0,
      "step": 11339
    },
    {
      "entropy": 1.6657158931096394,
      "epoch": 1.2457499107412595,
      "grad_norm": 0.6230567097663879,
      "learning_rate": 7.921233607293084e-06,
      "loss": 1.3925,
      "mean_token_accuracy": 0.6576641102631887,
      "num_tokens": 1901396643.0,
      "step": 11340
    },
    {
      "entropy": 1.6605386932690938,
      "epoch": 1.2458597676526324,
      "grad_norm": 0.711249828338623,
      "learning_rate": 7.919729124972409e-06,
      "loss": 1.3159,
      "mean_token_accuracy": 0.6733442395925522,
      "num_tokens": 1901560464.0,
      "step": 11341
    },
    {
      "entropy": 1.7819677889347076,
      "epoch": 1.2459696245640055,
      "grad_norm": 0.6379202008247375,
      "learning_rate": 7.91822474014092e-06,
      "loss": 1.4941,
      "mean_token_accuracy": 0.6413015226523081,
      "num_tokens": 1901759395.0,
      "step": 11342
    },
    {
      "entropy": 1.7399208843708038,
      "epoch": 1.2460794814753784,
      "grad_norm": 0.811903715133667,
      "learning_rate": 7.916720452846229e-06,
      "loss": 1.538,
      "mean_token_accuracy": 0.6447446842988332,
      "num_tokens": 1901901676.0,
      "step": 11343
    },
    {
      "entropy": 1.7778501212596893,
      "epoch": 1.2461893383867513,
      "grad_norm": 0.7180720567703247,
      "learning_rate": 7.915216263135942e-06,
      "loss": 1.449,
      "mean_token_accuracy": 0.6565718402465185,
      "num_tokens": 1902050193.0,
      "step": 11344
    },
    {
      "entropy": 1.765024612347285,
      "epoch": 1.2462991952981242,
      "grad_norm": 0.6027868390083313,
      "learning_rate": 7.91371217105768e-06,
      "loss": 1.4265,
      "mean_token_accuracy": 0.6494091699520746,
      "num_tokens": 1902235835.0,
      "step": 11345
    },
    {
      "entropy": 1.6627511084079742,
      "epoch": 1.246409052209497,
      "grad_norm": 0.9971237182617188,
      "learning_rate": 7.912208176659028e-06,
      "loss": 1.4272,
      "mean_token_accuracy": 0.6701801866292953,
      "num_tokens": 1902389123.0,
      "step": 11346
    },
    {
      "entropy": 1.6802993714809418,
      "epoch": 1.2465189091208702,
      "grad_norm": 0.6501787304878235,
      "learning_rate": 7.9107042799876e-06,
      "loss": 1.4603,
      "mean_token_accuracy": 0.6509832988182703,
      "num_tokens": 1902539417.0,
      "step": 11347
    },
    {
      "entropy": 1.7607911229133606,
      "epoch": 1.246628766032243,
      "grad_norm": 0.7493710517883301,
      "learning_rate": 7.909200481090989e-06,
      "loss": 1.4329,
      "mean_token_accuracy": 0.6626504063606262,
      "num_tokens": 1902707782.0,
      "step": 11348
    },
    {
      "entropy": 1.6591468056042988,
      "epoch": 1.246738622943616,
      "grad_norm": 0.7652831673622131,
      "learning_rate": 7.90769678001679e-06,
      "loss": 1.2996,
      "mean_token_accuracy": 0.675150990486145,
      "num_tokens": 1902829430.0,
      "step": 11349
    },
    {
      "entropy": 1.6999635299046834,
      "epoch": 1.2468484798549888,
      "grad_norm": 0.7982178330421448,
      "learning_rate": 7.906193176812591e-06,
      "loss": 1.1053,
      "mean_token_accuracy": 0.7014695952335993,
      "num_tokens": 1902925845.0,
      "step": 11350
    },
    {
      "entropy": 1.739738126595815,
      "epoch": 1.2469583367663617,
      "grad_norm": 0.7161890268325806,
      "learning_rate": 7.904689671525992e-06,
      "loss": 1.3593,
      "mean_token_accuracy": 0.6658004621664683,
      "num_tokens": 1903064238.0,
      "step": 11351
    },
    {
      "entropy": 1.7278717656930287,
      "epoch": 1.2470681936777348,
      "grad_norm": 0.6915018558502197,
      "learning_rate": 7.903186264204561e-06,
      "loss": 1.3432,
      "mean_token_accuracy": 0.6522951871156693,
      "num_tokens": 1903220088.0,
      "step": 11352
    },
    {
      "entropy": 1.7226141194502513,
      "epoch": 1.2471780505891077,
      "grad_norm": 0.6510446667671204,
      "learning_rate": 7.901682954895893e-06,
      "loss": 1.5513,
      "mean_token_accuracy": 0.6328976154327393,
      "num_tokens": 1903418123.0,
      "step": 11353
    },
    {
      "entropy": 1.6626664996147156,
      "epoch": 1.2472879075004806,
      "grad_norm": 0.5966384410858154,
      "learning_rate": 7.900179743647567e-06,
      "loss": 1.4024,
      "mean_token_accuracy": 0.6576230376958847,
      "num_tokens": 1903595039.0,
      "step": 11354
    },
    {
      "entropy": 1.7284984985987346,
      "epoch": 1.2473977644118537,
      "grad_norm": 0.6498193740844727,
      "learning_rate": 7.898676630507152e-06,
      "loss": 1.3478,
      "mean_token_accuracy": 0.6563937862714132,
      "num_tokens": 1903733716.0,
      "step": 11355
    },
    {
      "entropy": 1.673979103565216,
      "epoch": 1.2475076213232266,
      "grad_norm": 0.776412308216095,
      "learning_rate": 7.89717361552222e-06,
      "loss": 1.2461,
      "mean_token_accuracy": 0.6760004907846451,
      "num_tokens": 1903851827.0,
      "step": 11356
    },
    {
      "entropy": 1.7170047760009766,
      "epoch": 1.2476174782345995,
      "grad_norm": 0.6476826667785645,
      "learning_rate": 7.895670698740354e-06,
      "loss": 1.4353,
      "mean_token_accuracy": 0.6535161038239797,
      "num_tokens": 1903994160.0,
      "step": 11357
    },
    {
      "entropy": 1.7057405809561412,
      "epoch": 1.2477273351459723,
      "grad_norm": 3.21343994140625,
      "learning_rate": 7.894167880209103e-06,
      "loss": 1.3062,
      "mean_token_accuracy": 0.6527599294980367,
      "num_tokens": 1904204321.0,
      "step": 11358
    },
    {
      "entropy": 1.7505437235037486,
      "epoch": 1.2478371920573452,
      "grad_norm": 0.704789936542511,
      "learning_rate": 7.892665159976042e-06,
      "loss": 1.4142,
      "mean_token_accuracy": 0.6686330437660217,
      "num_tokens": 1904352497.0,
      "step": 11359
    },
    {
      "entropy": 1.6835230986277263,
      "epoch": 1.2479470489687183,
      "grad_norm": 0.7824683785438538,
      "learning_rate": 7.89116253808873e-06,
      "loss": 1.2709,
      "mean_token_accuracy": 0.6724584052960078,
      "num_tokens": 1904462352.0,
      "step": 11360
    },
    {
      "entropy": 1.771289696296056,
      "epoch": 1.2480569058800912,
      "grad_norm": 0.6507266163825989,
      "learning_rate": 7.889660014594722e-06,
      "loss": 1.3916,
      "mean_token_accuracy": 0.6458721508582433,
      "num_tokens": 1904644989.0,
      "step": 11361
    },
    {
      "entropy": 1.6943688193957012,
      "epoch": 1.248166762791464,
      "grad_norm": 0.6878480315208435,
      "learning_rate": 7.888157589541571e-06,
      "loss": 1.3827,
      "mean_token_accuracy": 0.6601410458485285,
      "num_tokens": 1904811730.0,
      "step": 11362
    },
    {
      "entropy": 1.7335290908813477,
      "epoch": 1.248276619702837,
      "grad_norm": 0.6336010098457336,
      "learning_rate": 7.886655262976834e-06,
      "loss": 1.51,
      "mean_token_accuracy": 0.6341728915770849,
      "num_tokens": 1905005726.0,
      "step": 11363
    },
    {
      "entropy": 1.7121953169504802,
      "epoch": 1.2483864766142099,
      "grad_norm": 0.610726535320282,
      "learning_rate": 7.885153034948053e-06,
      "loss": 1.3719,
      "mean_token_accuracy": 0.655587320526441,
      "num_tokens": 1905219181.0,
      "step": 11364
    },
    {
      "entropy": 1.7200307448705037,
      "epoch": 1.248496333525583,
      "grad_norm": 0.6448392868041992,
      "learning_rate": 7.883650905502773e-06,
      "loss": 1.452,
      "mean_token_accuracy": 0.6528996278842291,
      "num_tokens": 1905429324.0,
      "step": 11365
    },
    {
      "entropy": 1.768402338027954,
      "epoch": 1.2486061904369559,
      "grad_norm": 0.6446058750152588,
      "learning_rate": 7.88214887468854e-06,
      "loss": 1.3712,
      "mean_token_accuracy": 0.6579476048549017,
      "num_tokens": 1905566991.0,
      "step": 11366
    },
    {
      "entropy": 1.7406864861647289,
      "epoch": 1.2487160473483288,
      "grad_norm": 0.7488144040107727,
      "learning_rate": 7.880646942552891e-06,
      "loss": 1.4148,
      "mean_token_accuracy": 0.6457947393258413,
      "num_tokens": 1905756851.0,
      "step": 11367
    },
    {
      "entropy": 1.7286293804645538,
      "epoch": 1.2488259042597019,
      "grad_norm": 0.7700992822647095,
      "learning_rate": 7.87914510914336e-06,
      "loss": 1.4692,
      "mean_token_accuracy": 0.6668734302123388,
      "num_tokens": 1905897609.0,
      "step": 11368
    },
    {
      "entropy": 1.6787353257338207,
      "epoch": 1.2489357611710747,
      "grad_norm": 0.6573531627655029,
      "learning_rate": 7.87764337450748e-06,
      "loss": 1.3161,
      "mean_token_accuracy": 0.6725091288487116,
      "num_tokens": 1906051094.0,
      "step": 11369
    },
    {
      "entropy": 1.7037298083305359,
      "epoch": 1.2490456180824476,
      "grad_norm": 0.7217747569084167,
      "learning_rate": 7.876141738692778e-06,
      "loss": 1.5271,
      "mean_token_accuracy": 0.6617752313613892,
      "num_tokens": 1906225865.0,
      "step": 11370
    },
    {
      "entropy": 1.7089182237784069,
      "epoch": 1.2491554749938205,
      "grad_norm": 0.7379319667816162,
      "learning_rate": 7.874640201746784e-06,
      "loss": 1.2766,
      "mean_token_accuracy": 0.6676273395617803,
      "num_tokens": 1906346116.0,
      "step": 11371
    },
    {
      "entropy": 1.6987358729044597,
      "epoch": 1.2492653319051934,
      "grad_norm": 0.756645679473877,
      "learning_rate": 7.87313876371702e-06,
      "loss": 1.3747,
      "mean_token_accuracy": 0.6652411719163259,
      "num_tokens": 1906558656.0,
      "step": 11372
    },
    {
      "entropy": 1.6623602509498596,
      "epoch": 1.2493751888165665,
      "grad_norm": 0.7025351524353027,
      "learning_rate": 7.871637424651002e-06,
      "loss": 1.3465,
      "mean_token_accuracy": 0.6570960233608881,
      "num_tokens": 1906710447.0,
      "step": 11373
    },
    {
      "entropy": 1.7358343799908955,
      "epoch": 1.2494850457279394,
      "grad_norm": 0.6764085292816162,
      "learning_rate": 7.870136184596253e-06,
      "loss": 1.41,
      "mean_token_accuracy": 0.6695780654748281,
      "num_tokens": 1906839460.0,
      "step": 11374
    },
    {
      "entropy": 1.7395348747571309,
      "epoch": 1.2495949026393123,
      "grad_norm": 0.6143444776535034,
      "learning_rate": 7.868635043600283e-06,
      "loss": 1.3852,
      "mean_token_accuracy": 0.6516972482204437,
      "num_tokens": 1906996950.0,
      "step": 11375
    },
    {
      "entropy": 1.7187215089797974,
      "epoch": 1.2497047595506852,
      "grad_norm": 0.6263564229011536,
      "learning_rate": 7.867134001710601e-06,
      "loss": 1.4024,
      "mean_token_accuracy": 0.6484654247760773,
      "num_tokens": 1907218349.0,
      "step": 11376
    },
    {
      "entropy": 1.7315069735050201,
      "epoch": 1.249814616462058,
      "grad_norm": 0.5838350653648376,
      "learning_rate": 7.865633058974718e-06,
      "loss": 1.4567,
      "mean_token_accuracy": 0.6523949603239695,
      "num_tokens": 1907459088.0,
      "step": 11377
    },
    {
      "entropy": 1.7416872481505077,
      "epoch": 1.2499244733734312,
      "grad_norm": 0.751085102558136,
      "learning_rate": 7.864132215440137e-06,
      "loss": 1.234,
      "mean_token_accuracy": 0.6816779424746832,
      "num_tokens": 1907560765.0,
      "step": 11378
    },
    {
      "entropy": 1.687682181596756,
      "epoch": 1.250034330284804,
      "grad_norm": 0.6116113662719727,
      "learning_rate": 7.862631471154357e-06,
      "loss": 1.2595,
      "mean_token_accuracy": 0.6819984763860703,
      "num_tokens": 1907720034.0,
      "step": 11379
    },
    {
      "entropy": 1.677247832218806,
      "epoch": 1.250144187196177,
      "grad_norm": 0.6379266977310181,
      "learning_rate": 7.861130826164878e-06,
      "loss": 1.4734,
      "mean_token_accuracy": 0.6537698358297348,
      "num_tokens": 1907896716.0,
      "step": 11380
    },
    {
      "entropy": 1.7170507113138835,
      "epoch": 1.25025404410755,
      "grad_norm": 0.6168753504753113,
      "learning_rate": 7.859630280519193e-06,
      "loss": 1.5527,
      "mean_token_accuracy": 0.642242968082428,
      "num_tokens": 1908096706.0,
      "step": 11381
    },
    {
      "entropy": 1.8267957270145416,
      "epoch": 1.250363901018923,
      "grad_norm": 0.7190276980400085,
      "learning_rate": 7.85812983426479e-06,
      "loss": 1.4579,
      "mean_token_accuracy": 0.6479291965564092,
      "num_tokens": 1908212863.0,
      "step": 11382
    },
    {
      "entropy": 1.7421042323112488,
      "epoch": 1.2504737579302958,
      "grad_norm": 0.6885977983474731,
      "learning_rate": 7.85662948744917e-06,
      "loss": 1.351,
      "mean_token_accuracy": 0.6630544364452362,
      "num_tokens": 1908387457.0,
      "step": 11383
    },
    {
      "entropy": 1.7527458270390828,
      "epoch": 1.2505836148416687,
      "grad_norm": 1.0296976566314697,
      "learning_rate": 7.855129240119808e-06,
      "loss": 1.4872,
      "mean_token_accuracy": 0.6270147214333216,
      "num_tokens": 1908595445.0,
      "step": 11384
    },
    {
      "entropy": 1.6783875326315563,
      "epoch": 1.2506934717530416,
      "grad_norm": 0.7553209066390991,
      "learning_rate": 7.853629092324187e-06,
      "loss": 1.5384,
      "mean_token_accuracy": 0.6514027168353399,
      "num_tokens": 1908751432.0,
      "step": 11385
    },
    {
      "entropy": 1.6871531903743744,
      "epoch": 1.2508033286644147,
      "grad_norm": 0.7314842343330383,
      "learning_rate": 7.852129044109788e-06,
      "loss": 1.2429,
      "mean_token_accuracy": 0.6730901698271433,
      "num_tokens": 1908862066.0,
      "step": 11386
    },
    {
      "entropy": 1.7323083678881328,
      "epoch": 1.2509131855757876,
      "grad_norm": 0.6713790893554688,
      "learning_rate": 7.850629095524086e-06,
      "loss": 1.4655,
      "mean_token_accuracy": 0.6579304486513138,
      "num_tokens": 1909003499.0,
      "step": 11387
    },
    {
      "entropy": 1.7376106083393097,
      "epoch": 1.2510230424871605,
      "grad_norm": 0.7411003708839417,
      "learning_rate": 7.849129246614552e-06,
      "loss": 1.3845,
      "mean_token_accuracy": 0.6707366009553274,
      "num_tokens": 1909184557.0,
      "step": 11388
    },
    {
      "entropy": 1.660805990298589,
      "epoch": 1.2511328993985333,
      "grad_norm": 0.6880229115486145,
      "learning_rate": 7.847629497428664e-06,
      "loss": 1.394,
      "mean_token_accuracy": 0.6483379105726877,
      "num_tokens": 1909382189.0,
      "step": 11389
    },
    {
      "entropy": 1.7267470955848694,
      "epoch": 1.2512427563099062,
      "grad_norm": 0.7655637860298157,
      "learning_rate": 7.846129848013874e-06,
      "loss": 1.3935,
      "mean_token_accuracy": 0.6489508698383967,
      "num_tokens": 1909567336.0,
      "step": 11390
    },
    {
      "entropy": 1.765625,
      "epoch": 1.2513526132212793,
      "grad_norm": 0.7343372702598572,
      "learning_rate": 7.844630298417657e-06,
      "loss": 1.2667,
      "mean_token_accuracy": 0.6655522038539251,
      "num_tokens": 1909736898.0,
      "step": 11391
    },
    {
      "entropy": 1.699706216653188,
      "epoch": 1.2514624701326522,
      "grad_norm": 0.6885928511619568,
      "learning_rate": 7.843130848687472e-06,
      "loss": 1.3203,
      "mean_token_accuracy": 0.6711514194806417,
      "num_tokens": 1909883541.0,
      "step": 11392
    },
    {
      "entropy": 1.7037067711353302,
      "epoch": 1.251572327044025,
      "grad_norm": 0.7248368263244629,
      "learning_rate": 7.84163149887077e-06,
      "loss": 1.3969,
      "mean_token_accuracy": 0.6453188508749008,
      "num_tokens": 1910013519.0,
      "step": 11393
    },
    {
      "entropy": 1.6497456729412079,
      "epoch": 1.2516821839553982,
      "grad_norm": 0.6989073753356934,
      "learning_rate": 7.840132249015005e-06,
      "loss": 1.2801,
      "mean_token_accuracy": 0.6834556013345718,
      "num_tokens": 1910183319.0,
      "step": 11394
    },
    {
      "entropy": 1.733015646537145,
      "epoch": 1.251792040866771,
      "grad_norm": 0.7218592166900635,
      "learning_rate": 7.838633099167636e-06,
      "loss": 1.2952,
      "mean_token_accuracy": 0.668768381079038,
      "num_tokens": 1910309032.0,
      "step": 11395
    },
    {
      "entropy": 1.6412979066371918,
      "epoch": 1.251901897778144,
      "grad_norm": 0.6749725341796875,
      "learning_rate": 7.837134049376101e-06,
      "loss": 1.4272,
      "mean_token_accuracy": 0.676101932922999,
      "num_tokens": 1910504707.0,
      "step": 11396
    },
    {
      "entropy": 1.6720272302627563,
      "epoch": 1.2520117546895169,
      "grad_norm": 0.6150344610214233,
      "learning_rate": 7.835635099687849e-06,
      "loss": 1.3575,
      "mean_token_accuracy": 0.667877584695816,
      "num_tokens": 1910686467.0,
      "step": 11397
    },
    {
      "entropy": 1.6736577153205872,
      "epoch": 1.2521216116008898,
      "grad_norm": 0.6787571907043457,
      "learning_rate": 7.834136250150322e-06,
      "loss": 1.3508,
      "mean_token_accuracy": 0.6710595637559891,
      "num_tokens": 1910821814.0,
      "step": 11398
    },
    {
      "entropy": 1.674732546011607,
      "epoch": 1.2522314685122629,
      "grad_norm": 0.7294467687606812,
      "learning_rate": 7.832637500810956e-06,
      "loss": 1.3117,
      "mean_token_accuracy": 0.6755828162034353,
      "num_tokens": 1910986283.0,
      "step": 11399
    },
    {
      "entropy": 1.7269720037778218,
      "epoch": 1.2523413254236357,
      "grad_norm": 0.6978003978729248,
      "learning_rate": 7.83113885171718e-06,
      "loss": 1.4251,
      "mean_token_accuracy": 0.6505262355009714,
      "num_tokens": 1911148949.0,
      "step": 11400
    },
    {
      "entropy": 1.684136559565862,
      "epoch": 1.2524511823350086,
      "grad_norm": 0.591343879699707,
      "learning_rate": 7.829640302916439e-06,
      "loss": 1.3168,
      "mean_token_accuracy": 0.6647894382476807,
      "num_tokens": 1911289617.0,
      "step": 11401
    },
    {
      "entropy": 1.7063394288221996,
      "epoch": 1.2525610392463815,
      "grad_norm": 0.8325570225715637,
      "learning_rate": 7.82814185445615e-06,
      "loss": 1.3085,
      "mean_token_accuracy": 0.6733732322851816,
      "num_tokens": 1911410460.0,
      "step": 11402
    },
    {
      "entropy": 1.7209921578566234,
      "epoch": 1.2526708961577544,
      "grad_norm": 0.6524738669395447,
      "learning_rate": 7.826643506383741e-06,
      "loss": 1.3605,
      "mean_token_accuracy": 0.6583642363548279,
      "num_tokens": 1911582978.0,
      "step": 11403
    },
    {
      "entropy": 1.7001774509747822,
      "epoch": 1.2527807530691275,
      "grad_norm": 0.581378698348999,
      "learning_rate": 7.82514525874664e-06,
      "loss": 1.5381,
      "mean_token_accuracy": 0.6198792159557343,
      "num_tokens": 1911779836.0,
      "step": 11404
    },
    {
      "entropy": 1.7446727454662323,
      "epoch": 1.2528906099805004,
      "grad_norm": 0.8353737592697144,
      "learning_rate": 7.823647111592257e-06,
      "loss": 1.505,
      "mean_token_accuracy": 0.6476826096574465,
      "num_tokens": 1911926444.0,
      "step": 11405
    },
    {
      "entropy": 1.6707488397757213,
      "epoch": 1.2530004668918733,
      "grad_norm": 0.7989435195922852,
      "learning_rate": 7.82214906496801e-06,
      "loss": 1.4969,
      "mean_token_accuracy": 0.6394098401069641,
      "num_tokens": 1912111911.0,
      "step": 11406
    },
    {
      "entropy": 1.7673610746860504,
      "epoch": 1.2531103238032464,
      "grad_norm": 0.8053948879241943,
      "learning_rate": 7.820651118921319e-06,
      "loss": 1.3536,
      "mean_token_accuracy": 0.6432522932688395,
      "num_tokens": 1912232792.0,
      "step": 11407
    },
    {
      "entropy": 1.6859275102615356,
      "epoch": 1.2532201807146193,
      "grad_norm": 0.7226851582527161,
      "learning_rate": 7.819153273499582e-06,
      "loss": 1.3106,
      "mean_token_accuracy": 0.6881605138381323,
      "num_tokens": 1912365835.0,
      "step": 11408
    },
    {
      "entropy": 1.7172163128852844,
      "epoch": 1.2533300376259922,
      "grad_norm": 0.7478646039962769,
      "learning_rate": 7.817655528750212e-06,
      "loss": 1.3927,
      "mean_token_accuracy": 0.6513003359238306,
      "num_tokens": 1912538400.0,
      "step": 11409
    },
    {
      "entropy": 1.7053345441818237,
      "epoch": 1.253439894537365,
      "grad_norm": 0.6886608600616455,
      "learning_rate": 7.816157884720612e-06,
      "loss": 1.4765,
      "mean_token_accuracy": 0.6423324594895045,
      "num_tokens": 1912724255.0,
      "step": 11410
    },
    {
      "entropy": 1.727815439303716,
      "epoch": 1.253549751448738,
      "grad_norm": 0.7457959055900574,
      "learning_rate": 7.81466034145818e-06,
      "loss": 1.4172,
      "mean_token_accuracy": 0.6606029123067856,
      "num_tokens": 1912962558.0,
      "step": 11411
    },
    {
      "entropy": 1.6915427148342133,
      "epoch": 1.253659608360111,
      "grad_norm": 0.6017783880233765,
      "learning_rate": 7.813162899010309e-06,
      "loss": 1.512,
      "mean_token_accuracy": 0.6343448410431544,
      "num_tokens": 1913116255.0,
      "step": 11412
    },
    {
      "entropy": 1.7317763566970825,
      "epoch": 1.253769465271484,
      "grad_norm": 0.6574037075042725,
      "learning_rate": 7.811665557424405e-06,
      "loss": 1.3666,
      "mean_token_accuracy": 0.6605449169874191,
      "num_tokens": 1913270950.0,
      "step": 11413
    },
    {
      "entropy": 1.7199652592341106,
      "epoch": 1.2538793221828568,
      "grad_norm": 0.796875,
      "learning_rate": 7.81016831674784e-06,
      "loss": 1.3238,
      "mean_token_accuracy": 0.6675882587830225,
      "num_tokens": 1913411579.0,
      "step": 11414
    },
    {
      "entropy": 1.6290069818496704,
      "epoch": 1.2539891790942297,
      "grad_norm": 0.680347204208374,
      "learning_rate": 7.808671177028013e-06,
      "loss": 1.4744,
      "mean_token_accuracy": 0.6564949949582418,
      "num_tokens": 1913645682.0,
      "step": 11415
    },
    {
      "entropy": 1.7070193191369374,
      "epoch": 1.2540990360056026,
      "grad_norm": 0.6644991636276245,
      "learning_rate": 7.80717413831231e-06,
      "loss": 1.5298,
      "mean_token_accuracy": 0.6586725761493047,
      "num_tokens": 1913872167.0,
      "step": 11416
    },
    {
      "entropy": 1.708907941977183,
      "epoch": 1.2542088929169757,
      "grad_norm": 0.6234670877456665,
      "learning_rate": 7.805677200648101e-06,
      "loss": 1.3705,
      "mean_token_accuracy": 0.6489444921414057,
      "num_tokens": 1914049662.0,
      "step": 11417
    },
    {
      "entropy": 1.6813920140266418,
      "epoch": 1.2543187498283486,
      "grad_norm": 0.6542984843254089,
      "learning_rate": 7.80418036408277e-06,
      "loss": 1.3409,
      "mean_token_accuracy": 0.6567636926968893,
      "num_tokens": 1914249075.0,
      "step": 11418
    },
    {
      "entropy": 1.7307861546675365,
      "epoch": 1.2544286067397215,
      "grad_norm": 0.723311185836792,
      "learning_rate": 7.802683628663697e-06,
      "loss": 1.4246,
      "mean_token_accuracy": 0.6489053318897883,
      "num_tokens": 1914392536.0,
      "step": 11419
    },
    {
      "entropy": 1.7004589041074116,
      "epoch": 1.2545384636510946,
      "grad_norm": 0.5945419669151306,
      "learning_rate": 7.801186994438236e-06,
      "loss": 1.4268,
      "mean_token_accuracy": 0.6500704089800516,
      "num_tokens": 1914564395.0,
      "step": 11420
    },
    {
      "entropy": 1.6588083505630493,
      "epoch": 1.2546483205624674,
      "grad_norm": 0.7622363567352295,
      "learning_rate": 7.79969046145377e-06,
      "loss": 1.4433,
      "mean_token_accuracy": 0.6651933292547861,
      "num_tokens": 1914736861.0,
      "step": 11421
    },
    {
      "entropy": 1.7121857802073162,
      "epoch": 1.2547581774738403,
      "grad_norm": 0.7922995090484619,
      "learning_rate": 7.798194029757661e-06,
      "loss": 1.3512,
      "mean_token_accuracy": 0.6623698522647222,
      "num_tokens": 1914899502.0,
      "step": 11422
    },
    {
      "entropy": 1.6708403130372365,
      "epoch": 1.2548680343852132,
      "grad_norm": 0.8336834907531738,
      "learning_rate": 7.796697699397266e-06,
      "loss": 1.5238,
      "mean_token_accuracy": 0.6434931059678396,
      "num_tokens": 1915090759.0,
      "step": 11423
    },
    {
      "entropy": 1.7130014995733898,
      "epoch": 1.254977891296586,
      "grad_norm": 0.7885116338729858,
      "learning_rate": 7.795201470419944e-06,
      "loss": 1.4998,
      "mean_token_accuracy": 0.6617122739553452,
      "num_tokens": 1915294853.0,
      "step": 11424
    },
    {
      "entropy": 1.695469965537389,
      "epoch": 1.2550877482079592,
      "grad_norm": 0.7806084156036377,
      "learning_rate": 7.793705342873057e-06,
      "loss": 1.5192,
      "mean_token_accuracy": 0.6436646829048792,
      "num_tokens": 1915519404.0,
      "step": 11425
    },
    {
      "entropy": 1.7029032309850056,
      "epoch": 1.255197605119332,
      "grad_norm": 0.6547440886497498,
      "learning_rate": 7.792209316803945e-06,
      "loss": 1.4503,
      "mean_token_accuracy": 0.6494365930557251,
      "num_tokens": 1915706424.0,
      "step": 11426
    },
    {
      "entropy": 1.6860091984272003,
      "epoch": 1.255307462030705,
      "grad_norm": 0.7135421633720398,
      "learning_rate": 7.790713392259967e-06,
      "loss": 1.6007,
      "mean_token_accuracy": 0.6431414932012558,
      "num_tokens": 1915915669.0,
      "step": 11427
    },
    {
      "entropy": 1.6765115559101105,
      "epoch": 1.2554173189420779,
      "grad_norm": 0.6755972504615784,
      "learning_rate": 7.78921756928846e-06,
      "loss": 1.3682,
      "mean_token_accuracy": 0.653800884882609,
      "num_tokens": 1916074318.0,
      "step": 11428
    },
    {
      "entropy": 1.6629555523395538,
      "epoch": 1.2555271758534507,
      "grad_norm": 0.6233551502227783,
      "learning_rate": 7.787721847936773e-06,
      "loss": 1.5946,
      "mean_token_accuracy": 0.6113560448090235,
      "num_tokens": 1916321807.0,
      "step": 11429
    },
    {
      "entropy": 1.7326057354609172,
      "epoch": 1.2556370327648239,
      "grad_norm": 0.7778398990631104,
      "learning_rate": 7.786226228252245e-06,
      "loss": 1.2951,
      "mean_token_accuracy": 0.6696663945913315,
      "num_tokens": 1916452669.0,
      "step": 11430
    },
    {
      "entropy": 1.6951783398787181,
      "epoch": 1.2557468896761967,
      "grad_norm": 0.7745827436447144,
      "learning_rate": 7.784730710282203e-06,
      "loss": 1.3895,
      "mean_token_accuracy": 0.6611627688010534,
      "num_tokens": 1916616875.0,
      "step": 11431
    },
    {
      "entropy": 1.6729782323042552,
      "epoch": 1.2558567465875696,
      "grad_norm": 0.6417363286018372,
      "learning_rate": 7.783235294073986e-06,
      "loss": 1.3102,
      "mean_token_accuracy": 0.6600176095962524,
      "num_tokens": 1916753385.0,
      "step": 11432
    },
    {
      "entropy": 1.72296741604805,
      "epoch": 1.2559666034989427,
      "grad_norm": 0.7033810019493103,
      "learning_rate": 7.781739979674922e-06,
      "loss": 1.3348,
      "mean_token_accuracy": 0.6627410103877386,
      "num_tokens": 1916948753.0,
      "step": 11433
    },
    {
      "entropy": 1.795237421989441,
      "epoch": 1.2560764604103156,
      "grad_norm": 0.8221445679664612,
      "learning_rate": 7.780244767132339e-06,
      "loss": 1.4476,
      "mean_token_accuracy": 0.6527186830838522,
      "num_tokens": 1917103771.0,
      "step": 11434
    },
    {
      "entropy": 1.6837720175584157,
      "epoch": 1.2561863173216885,
      "grad_norm": 0.7041736245155334,
      "learning_rate": 7.778749656493558e-06,
      "loss": 1.3005,
      "mean_token_accuracy": 0.6646720518668493,
      "num_tokens": 1917251916.0,
      "step": 11435
    },
    {
      "entropy": 1.7194795906543732,
      "epoch": 1.2562961742330614,
      "grad_norm": 0.7449667453765869,
      "learning_rate": 7.7772546478059e-06,
      "loss": 1.4377,
      "mean_token_accuracy": 0.6714818626642227,
      "num_tokens": 1917395245.0,
      "step": 11436
    },
    {
      "entropy": 1.6425227721532185,
      "epoch": 1.2564060311444343,
      "grad_norm": 0.6943098902702332,
      "learning_rate": 7.77575974111668e-06,
      "loss": 1.4591,
      "mean_token_accuracy": 0.6591807802518209,
      "num_tokens": 1917627333.0,
      "step": 11437
    },
    {
      "entropy": 1.6901133060455322,
      "epoch": 1.2565158880558074,
      "grad_norm": 0.6888213753700256,
      "learning_rate": 7.774264936473209e-06,
      "loss": 1.4082,
      "mean_token_accuracy": 0.6591382523377737,
      "num_tokens": 1917797362.0,
      "step": 11438
    },
    {
      "entropy": 1.6233469347159069,
      "epoch": 1.2566257449671803,
      "grad_norm": 0.6449564695358276,
      "learning_rate": 7.772770233922801e-06,
      "loss": 1.3172,
      "mean_token_accuracy": 0.6671230693658193,
      "num_tokens": 1917967575.0,
      "step": 11439
    },
    {
      "entropy": 1.7254037757714589,
      "epoch": 1.2567356018785532,
      "grad_norm": 0.7280165553092957,
      "learning_rate": 7.771275633512761e-06,
      "loss": 1.4346,
      "mean_token_accuracy": 0.6726182848215103,
      "num_tokens": 1918147690.0,
      "step": 11440
    },
    {
      "entropy": 1.671642541885376,
      "epoch": 1.256845458789926,
      "grad_norm": 0.7780535221099854,
      "learning_rate": 7.769781135290392e-06,
      "loss": 1.2984,
      "mean_token_accuracy": 0.6698754082123438,
      "num_tokens": 1918277327.0,
      "step": 11441
    },
    {
      "entropy": 1.7655751307805378,
      "epoch": 1.256955315701299,
      "grad_norm": 0.7205750346183777,
      "learning_rate": 7.768286739302997e-06,
      "loss": 1.4342,
      "mean_token_accuracy": 0.6538830598195394,
      "num_tokens": 1918451845.0,
      "step": 11442
    },
    {
      "entropy": 1.6561244527498882,
      "epoch": 1.257065172612672,
      "grad_norm": 0.5723996162414551,
      "learning_rate": 7.766792445597867e-06,
      "loss": 1.2961,
      "mean_token_accuracy": 0.6749825278917948,
      "num_tokens": 1918591768.0,
      "step": 11443
    },
    {
      "entropy": 1.7065655092398326,
      "epoch": 1.257175029524045,
      "grad_norm": 0.6684293150901794,
      "learning_rate": 7.765298254222295e-06,
      "loss": 1.3863,
      "mean_token_accuracy": 0.6667204201221466,
      "num_tokens": 1918751296.0,
      "step": 11444
    },
    {
      "entropy": 1.7191319068272908,
      "epoch": 1.2572848864354178,
      "grad_norm": 0.6368053555488586,
      "learning_rate": 7.763804165223583e-06,
      "loss": 1.3593,
      "mean_token_accuracy": 0.6531160324811935,
      "num_tokens": 1918911483.0,
      "step": 11445
    },
    {
      "entropy": 1.7349167664845784,
      "epoch": 1.257394743346791,
      "grad_norm": 0.6222125291824341,
      "learning_rate": 7.762310178649009e-06,
      "loss": 1.4368,
      "mean_token_accuracy": 0.6423256794611613,
      "num_tokens": 1919049670.0,
      "step": 11446
    },
    {
      "entropy": 1.6775768597920735,
      "epoch": 1.2575046002581638,
      "grad_norm": 0.682058572769165,
      "learning_rate": 7.760816294545859e-06,
      "loss": 1.5105,
      "mean_token_accuracy": 0.6353928248087565,
      "num_tokens": 1919331340.0,
      "step": 11447
    },
    {
      "entropy": 1.6649962762991588,
      "epoch": 1.2576144571695367,
      "grad_norm": 0.6357629299163818,
      "learning_rate": 7.759322512961414e-06,
      "loss": 1.4366,
      "mean_token_accuracy": 0.6457183212041855,
      "num_tokens": 1919563182.0,
      "step": 11448
    },
    {
      "entropy": 1.675305445988973,
      "epoch": 1.2577243140809096,
      "grad_norm": 0.6749522089958191,
      "learning_rate": 7.757828833942951e-06,
      "loss": 1.3358,
      "mean_token_accuracy": 0.6629159996906916,
      "num_tokens": 1919785893.0,
      "step": 11449
    },
    {
      "entropy": 1.7580168048540752,
      "epoch": 1.2578341709922825,
      "grad_norm": 0.6780009269714355,
      "learning_rate": 7.756335257537741e-06,
      "loss": 1.4463,
      "mean_token_accuracy": 0.6388568629821142,
      "num_tokens": 1919960622.0,
      "step": 11450
    },
    {
      "entropy": 1.7142368654410045,
      "epoch": 1.2579440279036556,
      "grad_norm": 0.7723596692085266,
      "learning_rate": 7.754841783793064e-06,
      "loss": 1.3538,
      "mean_token_accuracy": 0.6707404851913452,
      "num_tokens": 1920101550.0,
      "step": 11451
    },
    {
      "entropy": 1.741561730702718,
      "epoch": 1.2580538848150284,
      "grad_norm": 0.7125125527381897,
      "learning_rate": 7.753348412756179e-06,
      "loss": 1.466,
      "mean_token_accuracy": 0.6531734565893809,
      "num_tokens": 1920294592.0,
      "step": 11452
    },
    {
      "entropy": 1.6811016102631886,
      "epoch": 1.2581637417264013,
      "grad_norm": 0.6982854604721069,
      "learning_rate": 7.751855144474354e-06,
      "loss": 1.4956,
      "mean_token_accuracy": 0.642639954884847,
      "num_tokens": 1920433718.0,
      "step": 11453
    },
    {
      "entropy": 1.7243138253688812,
      "epoch": 1.2582735986377744,
      "grad_norm": 0.7025527954101562,
      "learning_rate": 7.75036197899485e-06,
      "loss": 1.2947,
      "mean_token_accuracy": 0.6688729325930277,
      "num_tokens": 1920552445.0,
      "step": 11454
    },
    {
      "entropy": 1.7009615500768025,
      "epoch": 1.258383455549147,
      "grad_norm": 0.7054716944694519,
      "learning_rate": 7.748868916364924e-06,
      "loss": 1.5373,
      "mean_token_accuracy": 0.6239589502414068,
      "num_tokens": 1920759876.0,
      "step": 11455
    },
    {
      "entropy": 1.7350860337416332,
      "epoch": 1.2584933124605202,
      "grad_norm": 0.6489484906196594,
      "learning_rate": 7.747375956631833e-06,
      "loss": 1.4164,
      "mean_token_accuracy": 0.6492180824279785,
      "num_tokens": 1920930265.0,
      "step": 11456
    },
    {
      "entropy": 1.7335429390271504,
      "epoch": 1.258603169371893,
      "grad_norm": 2.155296564102173,
      "learning_rate": 7.745883099842828e-06,
      "loss": 1.2186,
      "mean_token_accuracy": 0.6745936175187429,
      "num_tokens": 1921145852.0,
      "step": 11457
    },
    {
      "entropy": 1.6847576002279918,
      "epoch": 1.258713026283266,
      "grad_norm": 0.7475409507751465,
      "learning_rate": 7.744390346045156e-06,
      "loss": 1.3127,
      "mean_token_accuracy": 0.6665635804335276,
      "num_tokens": 1921288993.0,
      "step": 11458
    },
    {
      "entropy": 1.6852596898873646,
      "epoch": 1.258822883194639,
      "grad_norm": 0.6202402114868164,
      "learning_rate": 7.742897695286063e-06,
      "loss": 1.2607,
      "mean_token_accuracy": 0.6772429198026657,
      "num_tokens": 1921467875.0,
      "step": 11459
    },
    {
      "entropy": 1.7395563423633575,
      "epoch": 1.258932740106012,
      "grad_norm": 0.6076090335845947,
      "learning_rate": 7.741405147612791e-06,
      "loss": 1.3799,
      "mean_token_accuracy": 0.6517507483561834,
      "num_tokens": 1921609703.0,
      "step": 11460
    },
    {
      "entropy": 1.6285878519217174,
      "epoch": 1.2590425970173849,
      "grad_norm": 0.6175395846366882,
      "learning_rate": 7.739912703072576e-06,
      "loss": 1.3612,
      "mean_token_accuracy": 0.6656326601902643,
      "num_tokens": 1921784864.0,
      "step": 11461
    },
    {
      "entropy": 1.7589463591575623,
      "epoch": 1.2591524539287577,
      "grad_norm": 0.7153595685958862,
      "learning_rate": 7.738420361712654e-06,
      "loss": 1.4444,
      "mean_token_accuracy": 0.6449099431435267,
      "num_tokens": 1921959314.0,
      "step": 11462
    },
    {
      "entropy": 1.7452492415904999,
      "epoch": 1.2592623108401306,
      "grad_norm": 0.7535262107849121,
      "learning_rate": 7.736928123580259e-06,
      "loss": 1.6277,
      "mean_token_accuracy": 0.6322442690531412,
      "num_tokens": 1922134627.0,
      "step": 11463
    },
    {
      "entropy": 1.7327638566493988,
      "epoch": 1.2593721677515037,
      "grad_norm": 0.6867733001708984,
      "learning_rate": 7.73543598872262e-06,
      "loss": 1.2915,
      "mean_token_accuracy": 0.6723167101542155,
      "num_tokens": 1922251085.0,
      "step": 11464
    },
    {
      "entropy": 1.6638148029645283,
      "epoch": 1.2594820246628766,
      "grad_norm": 0.7520348429679871,
      "learning_rate": 7.733943957186958e-06,
      "loss": 1.3079,
      "mean_token_accuracy": 0.667260949810346,
      "num_tokens": 1922418678.0,
      "step": 11465
    },
    {
      "entropy": 1.65032497048378,
      "epoch": 1.2595918815742495,
      "grad_norm": 0.6573466062545776,
      "learning_rate": 7.7324520290205e-06,
      "loss": 1.3575,
      "mean_token_accuracy": 0.6559811184803644,
      "num_tokens": 1922574854.0,
      "step": 11466
    },
    {
      "entropy": 1.676581472158432,
      "epoch": 1.2597017384856226,
      "grad_norm": 0.7159135341644287,
      "learning_rate": 7.730960204270464e-06,
      "loss": 1.4979,
      "mean_token_accuracy": 0.6280734737714132,
      "num_tokens": 1922802094.0,
      "step": 11467
    },
    {
      "entropy": 1.643155614535014,
      "epoch": 1.2598115953969953,
      "grad_norm": 0.6512061953544617,
      "learning_rate": 7.729468482984062e-06,
      "loss": 1.5478,
      "mean_token_accuracy": 0.6497600624958674,
      "num_tokens": 1923003559.0,
      "step": 11468
    },
    {
      "entropy": 1.7391295929749806,
      "epoch": 1.2599214523083684,
      "grad_norm": 0.7512926459312439,
      "learning_rate": 7.727976865208511e-06,
      "loss": 1.3226,
      "mean_token_accuracy": 0.6600721975167593,
      "num_tokens": 1923121923.0,
      "step": 11469
    },
    {
      "entropy": 1.7174865404764812,
      "epoch": 1.2600313092197413,
      "grad_norm": 0.6891658306121826,
      "learning_rate": 7.726485350991016e-06,
      "loss": 1.2844,
      "mean_token_accuracy": 0.6672490239143372,
      "num_tokens": 1923266801.0,
      "step": 11470
    },
    {
      "entropy": 1.6965750257174175,
      "epoch": 1.2601411661311142,
      "grad_norm": 3.922152042388916,
      "learning_rate": 7.724993940378784e-06,
      "loss": 1.6618,
      "mean_token_accuracy": 0.6115802451968193,
      "num_tokens": 1923523178.0,
      "step": 11471
    },
    {
      "entropy": 1.72745943069458,
      "epoch": 1.2602510230424873,
      "grad_norm": 0.6440877318382263,
      "learning_rate": 7.723502633419022e-06,
      "loss": 1.4972,
      "mean_token_accuracy": 0.6545726358890533,
      "num_tokens": 1923703015.0,
      "step": 11472
    },
    {
      "entropy": 1.693722536166509,
      "epoch": 1.2603608799538601,
      "grad_norm": 0.7532528638839722,
      "learning_rate": 7.722011430158923e-06,
      "loss": 1.5349,
      "mean_token_accuracy": 0.6389701962471008,
      "num_tokens": 1923865936.0,
      "step": 11473
    },
    {
      "entropy": 1.72782959540685,
      "epoch": 1.260470736865233,
      "grad_norm": 0.7088679671287537,
      "learning_rate": 7.72052033064568e-06,
      "loss": 1.2202,
      "mean_token_accuracy": 0.6756645192702612,
      "num_tokens": 1923968318.0,
      "step": 11474
    },
    {
      "entropy": 1.6902720232804616,
      "epoch": 1.260580593776606,
      "grad_norm": 0.612113356590271,
      "learning_rate": 7.7190293349265e-06,
      "loss": 1.38,
      "mean_token_accuracy": 0.6533292979001999,
      "num_tokens": 1924177834.0,
      "step": 11475
    },
    {
      "entropy": 1.6937540173530579,
      "epoch": 1.2606904506879788,
      "grad_norm": 0.7892910242080688,
      "learning_rate": 7.717538443048556e-06,
      "loss": 1.4682,
      "mean_token_accuracy": 0.6503288199504217,
      "num_tokens": 1924315589.0,
      "step": 11476
    },
    {
      "entropy": 1.7266385753949482,
      "epoch": 1.260800307599352,
      "grad_norm": 0.7862039804458618,
      "learning_rate": 7.716047655059043e-06,
      "loss": 1.266,
      "mean_token_accuracy": 0.6670999377965927,
      "num_tokens": 1924421277.0,
      "step": 11477
    },
    {
      "entropy": 1.6943805813789368,
      "epoch": 1.2609101645107248,
      "grad_norm": 0.6646753549575806,
      "learning_rate": 7.714556971005145e-06,
      "loss": 1.4912,
      "mean_token_accuracy": 0.6547419528166453,
      "num_tokens": 1924585290.0,
      "step": 11478
    },
    {
      "entropy": 1.7027036249637604,
      "epoch": 1.2610200214220977,
      "grad_norm": 0.609962522983551,
      "learning_rate": 7.713066390934034e-06,
      "loss": 1.4166,
      "mean_token_accuracy": 0.6544028073549271,
      "num_tokens": 1924754377.0,
      "step": 11479
    },
    {
      "entropy": 1.7627936601638794,
      "epoch": 1.2611298783334708,
      "grad_norm": 0.6366637349128723,
      "learning_rate": 7.711575914892893e-06,
      "loss": 1.4668,
      "mean_token_accuracy": 0.6458509564399719,
      "num_tokens": 1924953930.0,
      "step": 11480
    },
    {
      "entropy": 1.720168004433314,
      "epoch": 1.2612397352448437,
      "grad_norm": 0.6627671122550964,
      "learning_rate": 7.710085542928893e-06,
      "loss": 1.4203,
      "mean_token_accuracy": 0.6433569043874741,
      "num_tokens": 1925151322.0,
      "step": 11481
    },
    {
      "entropy": 1.7099298934141796,
      "epoch": 1.2613495921562166,
      "grad_norm": 0.7178329825401306,
      "learning_rate": 7.708595275089202e-06,
      "loss": 1.5419,
      "mean_token_accuracy": 0.6385843257109324,
      "num_tokens": 1925338468.0,
      "step": 11482
    },
    {
      "entropy": 1.6707678933938344,
      "epoch": 1.2614594490675894,
      "grad_norm": 0.6434171795845032,
      "learning_rate": 7.707105111420985e-06,
      "loss": 1.4085,
      "mean_token_accuracy": 0.6535218954086304,
      "num_tokens": 1925559149.0,
      "step": 11483
    },
    {
      "entropy": 1.6994469662507374,
      "epoch": 1.2615693059789623,
      "grad_norm": 0.6782479882240295,
      "learning_rate": 7.705615051971413e-06,
      "loss": 1.3478,
      "mean_token_accuracy": 0.6566101660331091,
      "num_tokens": 1925685270.0,
      "step": 11484
    },
    {
      "entropy": 1.7290050586064656,
      "epoch": 1.2616791628903354,
      "grad_norm": 0.649772047996521,
      "learning_rate": 7.704125096787636e-06,
      "loss": 1.4744,
      "mean_token_accuracy": 0.6495188226302465,
      "num_tokens": 1925843285.0,
      "step": 11485
    },
    {
      "entropy": 1.6614007751146953,
      "epoch": 1.2617890198017083,
      "grad_norm": 0.7200374603271484,
      "learning_rate": 7.702635245916814e-06,
      "loss": 1.2959,
      "mean_token_accuracy": 0.6671645094950994,
      "num_tokens": 1925992589.0,
      "step": 11486
    },
    {
      "entropy": 1.7314343353112538,
      "epoch": 1.2618988767130812,
      "grad_norm": 0.7426960468292236,
      "learning_rate": 7.701145499406106e-06,
      "loss": 1.4451,
      "mean_token_accuracy": 0.650872215628624,
      "num_tokens": 1926166622.0,
      "step": 11487
    },
    {
      "entropy": 1.7814875145753224,
      "epoch": 1.262008733624454,
      "grad_norm": 0.7111337184906006,
      "learning_rate": 7.69965585730265e-06,
      "loss": 1.311,
      "mean_token_accuracy": 0.6611191133658091,
      "num_tokens": 1926299574.0,
      "step": 11488
    },
    {
      "entropy": 1.773252805074056,
      "epoch": 1.262118590535827,
      "grad_norm": 0.6960779428482056,
      "learning_rate": 7.698166319653604e-06,
      "loss": 1.3395,
      "mean_token_accuracy": 0.6631787866353989,
      "num_tokens": 1926441744.0,
      "step": 11489
    },
    {
      "entropy": 1.721550424893697,
      "epoch": 1.2622284474472,
      "grad_norm": 0.6645501255989075,
      "learning_rate": 7.696676886506102e-06,
      "loss": 1.4345,
      "mean_token_accuracy": 0.652705987294515,
      "num_tokens": 1926620603.0,
      "step": 11490
    },
    {
      "entropy": 1.624302864074707,
      "epoch": 1.262338304358573,
      "grad_norm": 0.8502170443534851,
      "learning_rate": 7.695187557907292e-06,
      "loss": 1.1604,
      "mean_token_accuracy": 0.6946276426315308,
      "num_tokens": 1926753986.0,
      "step": 11491
    },
    {
      "entropy": 1.7301335036754608,
      "epoch": 1.2624481612699459,
      "grad_norm": 0.9755292534828186,
      "learning_rate": 7.693698333904305e-06,
      "loss": 1.4621,
      "mean_token_accuracy": 0.6535843859116236,
      "num_tokens": 1926923605.0,
      "step": 11492
    },
    {
      "entropy": 1.691352754831314,
      "epoch": 1.262558018181319,
      "grad_norm": 0.6778144836425781,
      "learning_rate": 7.692209214544276e-06,
      "loss": 1.4903,
      "mean_token_accuracy": 0.6365737020969391,
      "num_tokens": 1927182509.0,
      "step": 11493
    },
    {
      "entropy": 1.6417991022268932,
      "epoch": 1.2626678750926918,
      "grad_norm": 0.629219651222229,
      "learning_rate": 7.690720199874331e-06,
      "loss": 1.355,
      "mean_token_accuracy": 0.6662428428729376,
      "num_tokens": 1927352842.0,
      "step": 11494
    },
    {
      "entropy": 1.6753190557161968,
      "epoch": 1.2627777320040647,
      "grad_norm": 0.6111719608306885,
      "learning_rate": 7.689231289941606e-06,
      "loss": 1.4178,
      "mean_token_accuracy": 0.6571441541115443,
      "num_tokens": 1927616855.0,
      "step": 11495
    },
    {
      "entropy": 1.6729080478350322,
      "epoch": 1.2628875889154376,
      "grad_norm": 0.6489112973213196,
      "learning_rate": 7.687742484793215e-06,
      "loss": 1.3208,
      "mean_token_accuracy": 0.6776315818230311,
      "num_tokens": 1927765143.0,
      "step": 11496
    },
    {
      "entropy": 1.7384801010290782,
      "epoch": 1.2629974458268105,
      "grad_norm": 0.7252342104911804,
      "learning_rate": 7.686253784476284e-06,
      "loss": 1.3797,
      "mean_token_accuracy": 0.6533515950043997,
      "num_tokens": 1927917822.0,
      "step": 11497
    },
    {
      "entropy": 1.6913585464159648,
      "epoch": 1.2631073027381836,
      "grad_norm": 0.8369355797767639,
      "learning_rate": 7.684765189037925e-06,
      "loss": 1.3558,
      "mean_token_accuracy": 0.6676561236381531,
      "num_tokens": 1928111621.0,
      "step": 11498
    },
    {
      "entropy": 1.7651902238527934,
      "epoch": 1.2632171596495565,
      "grad_norm": 0.7449557781219482,
      "learning_rate": 7.683276698525257e-06,
      "loss": 1.4675,
      "mean_token_accuracy": 0.6476789265871048,
      "num_tokens": 1928263994.0,
      "step": 11499
    },
    {
      "entropy": 1.715785026550293,
      "epoch": 1.2633270165609294,
      "grad_norm": 0.7928597927093506,
      "learning_rate": 7.681788312985383e-06,
      "loss": 1.3824,
      "mean_token_accuracy": 0.6676217714945475,
      "num_tokens": 1928407724.0,
      "step": 11500
    },
    {
      "entropy": 1.6963496307531993,
      "epoch": 1.2634368734723023,
      "grad_norm": 0.7719584703445435,
      "learning_rate": 7.680300032465418e-06,
      "loss": 1.3438,
      "mean_token_accuracy": 0.6627303858598074,
      "num_tokens": 1928529780.0,
      "step": 11501
    },
    {
      "entropy": 1.7370944917201996,
      "epoch": 1.2635467303836752,
      "grad_norm": 0.6030802726745605,
      "learning_rate": 7.678811857012461e-06,
      "loss": 1.5213,
      "mean_token_accuracy": 0.6461159139871597,
      "num_tokens": 1928707122.0,
      "step": 11502
    },
    {
      "entropy": 1.7230145931243896,
      "epoch": 1.2636565872950483,
      "grad_norm": 0.7120351791381836,
      "learning_rate": 7.67732378667361e-06,
      "loss": 1.5991,
      "mean_token_accuracy": 0.6233674536148707,
      "num_tokens": 1928938624.0,
      "step": 11503
    },
    {
      "entropy": 1.7156452139218648,
      "epoch": 1.2637664442064211,
      "grad_norm": 0.7055292129516602,
      "learning_rate": 7.675835821495965e-06,
      "loss": 1.3116,
      "mean_token_accuracy": 0.6527894685665766,
      "num_tokens": 1929072927.0,
      "step": 11504
    },
    {
      "entropy": 1.7379835744698842,
      "epoch": 1.263876301117794,
      "grad_norm": 0.6333845853805542,
      "learning_rate": 7.674347961526617e-06,
      "loss": 1.4977,
      "mean_token_accuracy": 0.6325055857499441,
      "num_tokens": 1929263786.0,
      "step": 11505
    },
    {
      "entropy": 1.676991045475006,
      "epoch": 1.2639861580291671,
      "grad_norm": 0.6579580903053284,
      "learning_rate": 7.672860206812655e-06,
      "loss": 1.3853,
      "mean_token_accuracy": 0.6635429114103317,
      "num_tokens": 1929431076.0,
      "step": 11506
    },
    {
      "entropy": 1.757521351178487,
      "epoch": 1.26409601494054,
      "grad_norm": 0.7360755205154419,
      "learning_rate": 7.671372557401174e-06,
      "loss": 1.5488,
      "mean_token_accuracy": 0.623514766494433,
      "num_tokens": 1929649046.0,
      "step": 11507
    },
    {
      "entropy": 1.620929052432378,
      "epoch": 1.264205871851913,
      "grad_norm": 0.7235838174819946,
      "learning_rate": 7.66988501333925e-06,
      "loss": 1.3106,
      "mean_token_accuracy": 0.6729168196519216,
      "num_tokens": 1929847207.0,
      "step": 11508
    },
    {
      "entropy": 1.6391695042451222,
      "epoch": 1.2643157287632858,
      "grad_norm": 0.5893858671188354,
      "learning_rate": 7.668397574673963e-06,
      "loss": 1.4936,
      "mean_token_accuracy": 0.6433763305346171,
      "num_tokens": 1930052630.0,
      "step": 11509
    },
    {
      "entropy": 1.675877183675766,
      "epoch": 1.2644255856746587,
      "grad_norm": 0.6175031661987305,
      "learning_rate": 7.666910241452395e-06,
      "loss": 1.3547,
      "mean_token_accuracy": 0.665746475259463,
      "num_tokens": 1930224630.0,
      "step": 11510
    },
    {
      "entropy": 1.7053968608379364,
      "epoch": 1.2645354425860318,
      "grad_norm": 0.7241131663322449,
      "learning_rate": 7.665423013721611e-06,
      "loss": 1.3036,
      "mean_token_accuracy": 0.6749317497014999,
      "num_tokens": 1930350724.0,
      "step": 11511
    },
    {
      "entropy": 1.6937896013259888,
      "epoch": 1.2646452994974047,
      "grad_norm": 0.6429654359817505,
      "learning_rate": 7.663935891528686e-06,
      "loss": 1.3792,
      "mean_token_accuracy": 0.6615054110685984,
      "num_tokens": 1930486501.0,
      "step": 11512
    },
    {
      "entropy": 1.655285765727361,
      "epoch": 1.2647551564087776,
      "grad_norm": 0.6734585762023926,
      "learning_rate": 7.662448874920692e-06,
      "loss": 1.3187,
      "mean_token_accuracy": 0.6705884784460068,
      "num_tokens": 1930635527.0,
      "step": 11513
    },
    {
      "entropy": 1.6695108612378438,
      "epoch": 1.2648650133201504,
      "grad_norm": 0.7096666693687439,
      "learning_rate": 7.660961963944682e-06,
      "loss": 1.3868,
      "mean_token_accuracy": 0.6595136175553004,
      "num_tokens": 1930815397.0,
      "step": 11514
    },
    {
      "entropy": 1.6726165413856506,
      "epoch": 1.2649748702315233,
      "grad_norm": 0.6741091012954712,
      "learning_rate": 7.659475158647724e-06,
      "loss": 1.4177,
      "mean_token_accuracy": 0.6559295405944189,
      "num_tokens": 1930982798.0,
      "step": 11515
    },
    {
      "entropy": 1.7462388277053833,
      "epoch": 1.2650847271428964,
      "grad_norm": 0.6222598552703857,
      "learning_rate": 7.657988459076872e-06,
      "loss": 1.538,
      "mean_token_accuracy": 0.6377201875050863,
      "num_tokens": 1931198546.0,
      "step": 11516
    },
    {
      "entropy": 1.647881656885147,
      "epoch": 1.2651945840542693,
      "grad_norm": 0.7117844223976135,
      "learning_rate": 7.656501865279178e-06,
      "loss": 1.4001,
      "mean_token_accuracy": 0.6614241848389307,
      "num_tokens": 1931360393.0,
      "step": 11517
    },
    {
      "entropy": 1.7693034013112385,
      "epoch": 1.2653044409656422,
      "grad_norm": 0.7837836742401123,
      "learning_rate": 7.655015377301693e-06,
      "loss": 1.3253,
      "mean_token_accuracy": 0.664752279718717,
      "num_tokens": 1931480695.0,
      "step": 11518
    },
    {
      "entropy": 1.6859951515992482,
      "epoch": 1.2654142978770153,
      "grad_norm": 0.8946231603622437,
      "learning_rate": 7.653528995191467e-06,
      "loss": 1.3278,
      "mean_token_accuracy": 0.6740283519029617,
      "num_tokens": 1931619467.0,
      "step": 11519
    },
    {
      "entropy": 1.6824671526749928,
      "epoch": 1.2655241547883882,
      "grad_norm": 0.705892026424408,
      "learning_rate": 7.652042718995539e-06,
      "loss": 1.2626,
      "mean_token_accuracy": 0.6893934309482574,
      "num_tokens": 1931782165.0,
      "step": 11520
    },
    {
      "entropy": 1.680429647366206,
      "epoch": 1.265634011699761,
      "grad_norm": 0.7540983557701111,
      "learning_rate": 7.650556548760948e-06,
      "loss": 1.3173,
      "mean_token_accuracy": 0.6678841362396876,
      "num_tokens": 1931937633.0,
      "step": 11521
    },
    {
      "entropy": 1.648360123236974,
      "epoch": 1.265743868611134,
      "grad_norm": 0.7288416624069214,
      "learning_rate": 7.649070484534737e-06,
      "loss": 1.342,
      "mean_token_accuracy": 0.6797003994385401,
      "num_tokens": 1932146802.0,
      "step": 11522
    },
    {
      "entropy": 1.7429245710372925,
      "epoch": 1.2658537255225069,
      "grad_norm": 0.724900484085083,
      "learning_rate": 7.647584526363933e-06,
      "loss": 1.4145,
      "mean_token_accuracy": 0.6517399648825327,
      "num_tokens": 1932307870.0,
      "step": 11523
    },
    {
      "entropy": 1.6724059581756592,
      "epoch": 1.26596358243388,
      "grad_norm": 0.612019419670105,
      "learning_rate": 7.646098674295566e-06,
      "loss": 1.4009,
      "mean_token_accuracy": 0.6560710817575455,
      "num_tokens": 1932481868.0,
      "step": 11524
    },
    {
      "entropy": 1.6238444844881694,
      "epoch": 1.2660734393452528,
      "grad_norm": 0.6354291439056396,
      "learning_rate": 7.644612928376666e-06,
      "loss": 1.5184,
      "mean_token_accuracy": 0.653970350821813,
      "num_tokens": 1932664212.0,
      "step": 11525
    },
    {
      "entropy": 1.7032426098982494,
      "epoch": 1.2661832962566257,
      "grad_norm": 0.6199919581413269,
      "learning_rate": 7.643127288654255e-06,
      "loss": 1.4766,
      "mean_token_accuracy": 0.6471427232027054,
      "num_tokens": 1932844482.0,
      "step": 11526
    },
    {
      "entropy": 1.677983929713567,
      "epoch": 1.2662931531679986,
      "grad_norm": 0.698670506477356,
      "learning_rate": 7.641641755175353e-06,
      "loss": 1.3514,
      "mean_token_accuracy": 0.6649612784385681,
      "num_tokens": 1932999488.0,
      "step": 11527
    },
    {
      "entropy": 1.7283147772153218,
      "epoch": 1.2664030100793715,
      "grad_norm": 0.6362758278846741,
      "learning_rate": 7.640156327986978e-06,
      "loss": 1.5035,
      "mean_token_accuracy": 0.6524873872598013,
      "num_tokens": 1933210321.0,
      "step": 11528
    },
    {
      "entropy": 1.6926906903584797,
      "epoch": 1.2665128669907446,
      "grad_norm": 0.6771997809410095,
      "learning_rate": 7.63867100713614e-06,
      "loss": 1.4221,
      "mean_token_accuracy": 0.6506749987602234,
      "num_tokens": 1933393700.0,
      "step": 11529
    },
    {
      "entropy": 1.7136725882689159,
      "epoch": 1.2666227239021175,
      "grad_norm": 0.6458131074905396,
      "learning_rate": 7.637185792669849e-06,
      "loss": 1.3923,
      "mean_token_accuracy": 0.6545117845137914,
      "num_tokens": 1933537916.0,
      "step": 11530
    },
    {
      "entropy": 1.678369532028834,
      "epoch": 1.2667325808134904,
      "grad_norm": 0.739032506942749,
      "learning_rate": 7.635700684635112e-06,
      "loss": 1.3112,
      "mean_token_accuracy": 0.6715343842903773,
      "num_tokens": 1933714762.0,
      "step": 11531
    },
    {
      "entropy": 1.65420796473821,
      "epoch": 1.2668424377248635,
      "grad_norm": 0.7117313742637634,
      "learning_rate": 7.634215683078934e-06,
      "loss": 1.446,
      "mean_token_accuracy": 0.6615893120567004,
      "num_tokens": 1933884409.0,
      "step": 11532
    },
    {
      "entropy": 1.7248832484086354,
      "epoch": 1.2669522946362364,
      "grad_norm": 0.6786313056945801,
      "learning_rate": 7.632730788048313e-06,
      "loss": 1.4713,
      "mean_token_accuracy": 0.6573885877927145,
      "num_tokens": 1934081855.0,
      "step": 11533
    },
    {
      "entropy": 1.7391786475976307,
      "epoch": 1.2670621515476093,
      "grad_norm": 0.6770562529563904,
      "learning_rate": 7.631245999590244e-06,
      "loss": 1.388,
      "mean_token_accuracy": 0.6576652526855469,
      "num_tokens": 1934265897.0,
      "step": 11534
    },
    {
      "entropy": 1.755203555027644,
      "epoch": 1.2671720084589821,
      "grad_norm": 0.5667737126350403,
      "learning_rate": 7.629761317751723e-06,
      "loss": 1.4356,
      "mean_token_accuracy": 0.6415314426024755,
      "num_tokens": 1934470125.0,
      "step": 11535
    },
    {
      "entropy": 1.7336049179236095,
      "epoch": 1.267281865370355,
      "grad_norm": 0.6754252910614014,
      "learning_rate": 7.628276742579732e-06,
      "loss": 1.3752,
      "mean_token_accuracy": 0.6565804481506348,
      "num_tokens": 1934638119.0,
      "step": 11536
    },
    {
      "entropy": 1.7392099499702454,
      "epoch": 1.2673917222817281,
      "grad_norm": 0.6438708305358887,
      "learning_rate": 7.626792274121268e-06,
      "loss": 1.5711,
      "mean_token_accuracy": 0.6428494701782862,
      "num_tokens": 1934809654.0,
      "step": 11537
    },
    {
      "entropy": 1.7270666062831879,
      "epoch": 1.267501579193101,
      "grad_norm": 0.6939952373504639,
      "learning_rate": 7.625307912423308e-06,
      "loss": 1.4309,
      "mean_token_accuracy": 0.6438876688480377,
      "num_tokens": 1934985020.0,
      "step": 11538
    },
    {
      "entropy": 1.6828594009081523,
      "epoch": 1.267611436104474,
      "grad_norm": 0.8025250434875488,
      "learning_rate": 7.6238236575328315e-06,
      "loss": 1.2169,
      "mean_token_accuracy": 0.6810509413480759,
      "num_tokens": 1935128210.0,
      "step": 11539
    },
    {
      "entropy": 1.7216303646564484,
      "epoch": 1.2677212930158468,
      "grad_norm": 1.0964614152908325,
      "learning_rate": 7.622339509496814e-06,
      "loss": 1.4948,
      "mean_token_accuracy": 0.6510275801022848,
      "num_tokens": 1935295219.0,
      "step": 11540
    },
    {
      "entropy": 1.7091183761755626,
      "epoch": 1.2678311499272197,
      "grad_norm": 0.7597293257713318,
      "learning_rate": 7.620855468362232e-06,
      "loss": 1.3388,
      "mean_token_accuracy": 0.6646958986918131,
      "num_tokens": 1935444915.0,
      "step": 11541
    },
    {
      "entropy": 1.7101080814997356,
      "epoch": 1.2679410068385928,
      "grad_norm": 0.6305139064788818,
      "learning_rate": 7.619371534176045e-06,
      "loss": 1.3943,
      "mean_token_accuracy": 0.6649887412786484,
      "num_tokens": 1935608450.0,
      "step": 11542
    },
    {
      "entropy": 1.776473770538966,
      "epoch": 1.2680508637499657,
      "grad_norm": 0.674400269985199,
      "learning_rate": 7.6178877069852344e-06,
      "loss": 1.4229,
      "mean_token_accuracy": 0.658959781130155,
      "num_tokens": 1935755983.0,
      "step": 11543
    },
    {
      "entropy": 1.6880793074766796,
      "epoch": 1.2681607206613386,
      "grad_norm": 0.8230254054069519,
      "learning_rate": 7.616403986836749e-06,
      "loss": 1.2906,
      "mean_token_accuracy": 0.6654263834158579,
      "num_tokens": 1935880326.0,
      "step": 11544
    },
    {
      "entropy": 1.6400333046913147,
      "epoch": 1.2682705775727117,
      "grad_norm": 0.6082746386528015,
      "learning_rate": 7.614920373777552e-06,
      "loss": 1.2296,
      "mean_token_accuracy": 0.6776652832825979,
      "num_tokens": 1936009216.0,
      "step": 11545
    },
    {
      "entropy": 1.7601770758628845,
      "epoch": 1.2683804344840846,
      "grad_norm": 0.8611322045326233,
      "learning_rate": 7.613436867854602e-06,
      "loss": 1.4269,
      "mean_token_accuracy": 0.6573955913384756,
      "num_tokens": 1936200547.0,
      "step": 11546
    },
    {
      "entropy": 1.627968817949295,
      "epoch": 1.2684902913954574,
      "grad_norm": 0.6086071729660034,
      "learning_rate": 7.611953469114848e-06,
      "loss": 1.3741,
      "mean_token_accuracy": 0.6606210221846899,
      "num_tokens": 1936426414.0,
      "step": 11547
    },
    {
      "entropy": 1.715288132429123,
      "epoch": 1.2686001483068303,
      "grad_norm": 0.6595588326454163,
      "learning_rate": 7.610470177605242e-06,
      "loss": 1.3391,
      "mean_token_accuracy": 0.6657747477293015,
      "num_tokens": 1936579983.0,
      "step": 11548
    },
    {
      "entropy": 1.7211828331152599,
      "epoch": 1.2687100052182032,
      "grad_norm": 0.7300513386726379,
      "learning_rate": 7.608986993372727e-06,
      "loss": 1.4806,
      "mean_token_accuracy": 0.6543687780698141,
      "num_tokens": 1936713738.0,
      "step": 11549
    },
    {
      "entropy": 1.6829596360524495,
      "epoch": 1.2688198621295763,
      "grad_norm": 0.6392272710800171,
      "learning_rate": 7.607503916464241e-06,
      "loss": 1.3133,
      "mean_token_accuracy": 0.6747443874677023,
      "num_tokens": 1936857583.0,
      "step": 11550
    },
    {
      "entropy": 1.682002027829488,
      "epoch": 1.2689297190409492,
      "grad_norm": 0.6379438638687134,
      "learning_rate": 7.606020946926731e-06,
      "loss": 1.4315,
      "mean_token_accuracy": 0.6531884868939718,
      "num_tokens": 1937072118.0,
      "step": 11551
    },
    {
      "entropy": 1.6802029808362324,
      "epoch": 1.269039575952322,
      "grad_norm": 0.6880862712860107,
      "learning_rate": 7.6045380848071295e-06,
      "loss": 1.3077,
      "mean_token_accuracy": 0.66480353474617,
      "num_tokens": 1937192796.0,
      "step": 11552
    },
    {
      "entropy": 1.7240610718727112,
      "epoch": 1.269149432863695,
      "grad_norm": 0.8166324496269226,
      "learning_rate": 7.6030553301523665e-06,
      "loss": 1.4164,
      "mean_token_accuracy": 0.653435026605924,
      "num_tokens": 1937370359.0,
      "step": 11553
    },
    {
      "entropy": 1.6760085920492809,
      "epoch": 1.2692592897750679,
      "grad_norm": 0.7545213103294373,
      "learning_rate": 7.601572683009373e-06,
      "loss": 1.2791,
      "mean_token_accuracy": 0.6738790373007456,
      "num_tokens": 1937515434.0,
      "step": 11554
    },
    {
      "entropy": 1.7001279195149739,
      "epoch": 1.269369146686441,
      "grad_norm": 0.6577803492546082,
      "learning_rate": 7.60009014342507e-06,
      "loss": 1.5541,
      "mean_token_accuracy": 0.6371362606684366,
      "num_tokens": 1937763386.0,
      "step": 11555
    },
    {
      "entropy": 1.6969635585943859,
      "epoch": 1.2694790035978138,
      "grad_norm": 0.6654831171035767,
      "learning_rate": 7.598607711446382e-06,
      "loss": 1.3728,
      "mean_token_accuracy": 0.6597702354192734,
      "num_tokens": 1937915864.0,
      "step": 11556
    },
    {
      "entropy": 1.7329435348510742,
      "epoch": 1.2695888605091867,
      "grad_norm": 0.7754169702529907,
      "learning_rate": 7.59712538712023e-06,
      "loss": 1.5217,
      "mean_token_accuracy": 0.6538184309999148,
      "num_tokens": 1938088629.0,
      "step": 11557
    },
    {
      "entropy": 1.7482871214548747,
      "epoch": 1.2696987174205598,
      "grad_norm": 0.6027451157569885,
      "learning_rate": 7.595643170493525e-06,
      "loss": 1.2809,
      "mean_token_accuracy": 0.6688571075598398,
      "num_tokens": 1938242998.0,
      "step": 11558
    },
    {
      "entropy": 1.6371783415476482,
      "epoch": 1.2698085743319327,
      "grad_norm": 0.7046194672584534,
      "learning_rate": 7.594161061613179e-06,
      "loss": 1.4464,
      "mean_token_accuracy": 0.6568540185689926,
      "num_tokens": 1938473136.0,
      "step": 11559
    },
    {
      "entropy": 1.71583757797877,
      "epoch": 1.2699184312433056,
      "grad_norm": 0.753637969493866,
      "learning_rate": 7.592679060526101e-06,
      "loss": 1.5237,
      "mean_token_accuracy": 0.6531053235133489,
      "num_tokens": 1938604756.0,
      "step": 11560
    },
    {
      "entropy": 1.7930570244789124,
      "epoch": 1.2700282881546785,
      "grad_norm": 0.7080893516540527,
      "learning_rate": 7.591197167279196e-06,
      "loss": 1.5274,
      "mean_token_accuracy": 0.6388321270545324,
      "num_tokens": 1938794403.0,
      "step": 11561
    },
    {
      "entropy": 1.6845806340376537,
      "epoch": 1.2701381450660514,
      "grad_norm": 0.6687464714050293,
      "learning_rate": 7.58971538191936e-06,
      "loss": 1.2573,
      "mean_token_accuracy": 0.6719970951477686,
      "num_tokens": 1938929740.0,
      "step": 11562
    },
    {
      "entropy": 1.6890028317769368,
      "epoch": 1.2702480019774245,
      "grad_norm": 0.7339609265327454,
      "learning_rate": 7.588233704493502e-06,
      "loss": 1.3484,
      "mean_token_accuracy": 0.6660866936047872,
      "num_tokens": 1939075182.0,
      "step": 11563
    },
    {
      "entropy": 1.7128116687138875,
      "epoch": 1.2703578588887974,
      "grad_norm": 0.8218494057655334,
      "learning_rate": 7.586752135048505e-06,
      "loss": 1.3804,
      "mean_token_accuracy": 0.6709433694680532,
      "num_tokens": 1939238859.0,
      "step": 11564
    },
    {
      "entropy": 1.6646581888198853,
      "epoch": 1.2704677158001703,
      "grad_norm": 0.7205196022987366,
      "learning_rate": 7.585270673631266e-06,
      "loss": 1.29,
      "mean_token_accuracy": 0.681825632850329,
      "num_tokens": 1939391199.0,
      "step": 11565
    },
    {
      "entropy": 1.7184071640173595,
      "epoch": 1.2705775727115431,
      "grad_norm": 0.6637095808982849,
      "learning_rate": 7.583789320288675e-06,
      "loss": 1.2919,
      "mean_token_accuracy": 0.6663111497958502,
      "num_tokens": 1939503801.0,
      "step": 11566
    },
    {
      "entropy": 1.684226264556249,
      "epoch": 1.270687429622916,
      "grad_norm": 0.6571996212005615,
      "learning_rate": 7.58230807506761e-06,
      "loss": 1.426,
      "mean_token_accuracy": 0.6591875404119492,
      "num_tokens": 1939662664.0,
      "step": 11567
    },
    {
      "entropy": 1.6475600401560466,
      "epoch": 1.2707972865342891,
      "grad_norm": 0.6276744604110718,
      "learning_rate": 7.580826938014953e-06,
      "loss": 1.3372,
      "mean_token_accuracy": 0.6658165256182352,
      "num_tokens": 1939828551.0,
      "step": 11568
    },
    {
      "entropy": 1.685198297103246,
      "epoch": 1.270907143445662,
      "grad_norm": 0.6816840171813965,
      "learning_rate": 7.579345909177586e-06,
      "loss": 1.4007,
      "mean_token_accuracy": 0.657182534535726,
      "num_tokens": 1939959149.0,
      "step": 11569
    },
    {
      "entropy": 1.7015057305494945,
      "epoch": 1.271017000357035,
      "grad_norm": 0.6778846979141235,
      "learning_rate": 7.577864988602377e-06,
      "loss": 1.4315,
      "mean_token_accuracy": 0.6453954130411148,
      "num_tokens": 1940132843.0,
      "step": 11570
    },
    {
      "entropy": 1.7004386285940807,
      "epoch": 1.271126857268408,
      "grad_norm": 0.7151092886924744,
      "learning_rate": 7.5763841763362e-06,
      "loss": 1.4591,
      "mean_token_accuracy": 0.6519459386666616,
      "num_tokens": 1940315082.0,
      "step": 11571
    },
    {
      "entropy": 1.6989735166231792,
      "epoch": 1.271236714179781,
      "grad_norm": 0.6294535994529724,
      "learning_rate": 7.574903472425923e-06,
      "loss": 1.217,
      "mean_token_accuracy": 0.6772444297870001,
      "num_tokens": 1940439043.0,
      "step": 11572
    },
    {
      "entropy": 1.7112750212351482,
      "epoch": 1.2713465710911538,
      "grad_norm": 0.7392633557319641,
      "learning_rate": 7.573422876918404e-06,
      "loss": 1.4047,
      "mean_token_accuracy": 0.6572145769993464,
      "num_tokens": 1940580555.0,
      "step": 11573
    },
    {
      "entropy": 1.783184975385666,
      "epoch": 1.2714564280025267,
      "grad_norm": 0.6250627040863037,
      "learning_rate": 7.571942389860507e-06,
      "loss": 1.4025,
      "mean_token_accuracy": 0.6510418156782786,
      "num_tokens": 1940756497.0,
      "step": 11574
    },
    {
      "entropy": 1.6986599067846935,
      "epoch": 1.2715662849138996,
      "grad_norm": 0.6578481197357178,
      "learning_rate": 7.570462011299091e-06,
      "loss": 1.2965,
      "mean_token_accuracy": 0.6748481144507726,
      "num_tokens": 1940890219.0,
      "step": 11575
    },
    {
      "entropy": 1.7359587053457897,
      "epoch": 1.2716761418252727,
      "grad_norm": 0.6191852688789368,
      "learning_rate": 7.568981741281007e-06,
      "loss": 1.468,
      "mean_token_accuracy": 0.6537004808584849,
      "num_tokens": 1941083366.0,
      "step": 11576
    },
    {
      "entropy": 1.6769965887069702,
      "epoch": 1.2717859987366456,
      "grad_norm": 0.639702320098877,
      "learning_rate": 7.567501579853103e-06,
      "loss": 1.5604,
      "mean_token_accuracy": 0.6393257280190786,
      "num_tokens": 1941330691.0,
      "step": 11577
    },
    {
      "entropy": 1.695969820022583,
      "epoch": 1.2718958556480184,
      "grad_norm": 0.6549391746520996,
      "learning_rate": 7.5660215270622306e-06,
      "loss": 1.393,
      "mean_token_accuracy": 0.6529108683268229,
      "num_tokens": 1941483759.0,
      "step": 11578
    },
    {
      "entropy": 1.6532461146513622,
      "epoch": 1.2720057125593913,
      "grad_norm": 0.5573631525039673,
      "learning_rate": 7.5645415829552275e-06,
      "loss": 1.424,
      "mean_token_accuracy": 0.6503102580706278,
      "num_tokens": 1941662294.0,
      "step": 11579
    },
    {
      "entropy": 1.720036009947459,
      "epoch": 1.2721155694707642,
      "grad_norm": 0.6423214673995972,
      "learning_rate": 7.56306174757893e-06,
      "loss": 1.3438,
      "mean_token_accuracy": 0.6584438482920328,
      "num_tokens": 1941797711.0,
      "step": 11580
    },
    {
      "entropy": 1.6889376938343048,
      "epoch": 1.2722254263821373,
      "grad_norm": 0.6410171389579773,
      "learning_rate": 7.5615820209801875e-06,
      "loss": 1.4084,
      "mean_token_accuracy": 0.6631045937538147,
      "num_tokens": 1941925972.0,
      "step": 11581
    },
    {
      "entropy": 1.7637586692969005,
      "epoch": 1.2723352832935102,
      "grad_norm": 1.9716415405273438,
      "learning_rate": 7.560102403205822e-06,
      "loss": 1.1051,
      "mean_token_accuracy": 0.676330178976059,
      "num_tokens": 1942076811.0,
      "step": 11582
    },
    {
      "entropy": 1.6584815084934235,
      "epoch": 1.272445140204883,
      "grad_norm": 0.6023903489112854,
      "learning_rate": 7.558622894302663e-06,
      "loss": 1.4478,
      "mean_token_accuracy": 0.660874476035436,
      "num_tokens": 1942249799.0,
      "step": 11583
    },
    {
      "entropy": 1.7897962033748627,
      "epoch": 1.2725549971162562,
      "grad_norm": 0.7759119868278503,
      "learning_rate": 7.557143494317543e-06,
      "loss": 1.2283,
      "mean_token_accuracy": 0.6802993218104044,
      "num_tokens": 1942363001.0,
      "step": 11584
    },
    {
      "entropy": 1.7277598679065704,
      "epoch": 1.272664854027629,
      "grad_norm": 0.5648651719093323,
      "learning_rate": 7.5556642032972774e-06,
      "loss": 1.3947,
      "mean_token_accuracy": 0.6426876882712046,
      "num_tokens": 1942584633.0,
      "step": 11585
    },
    {
      "entropy": 1.7164186437924702,
      "epoch": 1.272774710939002,
      "grad_norm": 0.7039127349853516,
      "learning_rate": 7.554185021288684e-06,
      "loss": 1.5314,
      "mean_token_accuracy": 0.6496036102374395,
      "num_tokens": 1942729133.0,
      "step": 11586
    },
    {
      "entropy": 1.6905947029590607,
      "epoch": 1.2728845678503748,
      "grad_norm": 0.6478644609451294,
      "learning_rate": 7.5527059483385875e-06,
      "loss": 1.3381,
      "mean_token_accuracy": 0.659003218015035,
      "num_tokens": 1942862637.0,
      "step": 11587
    },
    {
      "entropy": 1.6825307210286458,
      "epoch": 1.2729944247617477,
      "grad_norm": 0.6765702962875366,
      "learning_rate": 7.551226984493793e-06,
      "loss": 1.3988,
      "mean_token_accuracy": 0.6641071836153666,
      "num_tokens": 1943082999.0,
      "step": 11588
    },
    {
      "entropy": 1.7173330585161846,
      "epoch": 1.2731042816731208,
      "grad_norm": 0.8550540804862976,
      "learning_rate": 7.549748129801109e-06,
      "loss": 1.5485,
      "mean_token_accuracy": 0.6394771635532379,
      "num_tokens": 1943238205.0,
      "step": 11589
    },
    {
      "entropy": 1.6354697545369465,
      "epoch": 1.2732141385844937,
      "grad_norm": 0.688818633556366,
      "learning_rate": 7.548269384307345e-06,
      "loss": 1.2072,
      "mean_token_accuracy": 0.6835995813210806,
      "num_tokens": 1943351183.0,
      "step": 11590
    },
    {
      "entropy": 1.6105882823467255,
      "epoch": 1.2733239954958666,
      "grad_norm": 0.6564744710922241,
      "learning_rate": 7.5467907480592984e-06,
      "loss": 1.3681,
      "mean_token_accuracy": 0.6682546585798264,
      "num_tokens": 1943561853.0,
      "step": 11591
    },
    {
      "entropy": 1.6714021066824596,
      "epoch": 1.2734338524072395,
      "grad_norm": 0.6318192481994629,
      "learning_rate": 7.545312221103765e-06,
      "loss": 1.3323,
      "mean_token_accuracy": 0.669236014286677,
      "num_tokens": 1943736887.0,
      "step": 11592
    },
    {
      "entropy": 1.7196357150872548,
      "epoch": 1.2735437093186124,
      "grad_norm": 0.7883795499801636,
      "learning_rate": 7.543833803487548e-06,
      "loss": 1.4954,
      "mean_token_accuracy": 0.6526716152826945,
      "num_tokens": 1943908941.0,
      "step": 11593
    },
    {
      "entropy": 1.6909798383712769,
      "epoch": 1.2736535662299855,
      "grad_norm": 0.7004644870758057,
      "learning_rate": 7.542355495257432e-06,
      "loss": 1.4842,
      "mean_token_accuracy": 0.6391565153996149,
      "num_tokens": 1944106941.0,
      "step": 11594
    },
    {
      "entropy": 1.7800021568934123,
      "epoch": 1.2737634231413584,
      "grad_norm": 0.8370211124420166,
      "learning_rate": 7.540877296460205e-06,
      "loss": 1.2816,
      "mean_token_accuracy": 0.6755285759766897,
      "num_tokens": 1944294593.0,
      "step": 11595
    },
    {
      "entropy": 1.7417665024598439,
      "epoch": 1.2738732800527313,
      "grad_norm": 0.663817822933197,
      "learning_rate": 7.539399207142657e-06,
      "loss": 1.4015,
      "mean_token_accuracy": 0.6470625003178915,
      "num_tokens": 1944448204.0,
      "step": 11596
    },
    {
      "entropy": 1.717939426501592,
      "epoch": 1.2739831369641044,
      "grad_norm": 0.6097803115844727,
      "learning_rate": 7.537921227351561e-06,
      "loss": 1.3607,
      "mean_token_accuracy": 0.6571676184733709,
      "num_tokens": 1944609689.0,
      "step": 11597
    },
    {
      "entropy": 1.709089497725169,
      "epoch": 1.2740929938754773,
      "grad_norm": 0.7132073044776917,
      "learning_rate": 7.536443357133696e-06,
      "loss": 1.4271,
      "mean_token_accuracy": 0.6546765118837357,
      "num_tokens": 1944787935.0,
      "step": 11598
    },
    {
      "entropy": 1.6773851712544758,
      "epoch": 1.2742028507868501,
      "grad_norm": 0.6749030947685242,
      "learning_rate": 7.5349655965358415e-06,
      "loss": 1.4296,
      "mean_token_accuracy": 0.6590938319762548,
      "num_tokens": 1944997360.0,
      "step": 11599
    },
    {
      "entropy": 1.69098565975825,
      "epoch": 1.274312707698223,
      "grad_norm": 0.6707255244255066,
      "learning_rate": 7.533487945604765e-06,
      "loss": 1.322,
      "mean_token_accuracy": 0.6724912573893865,
      "num_tokens": 1945134346.0,
      "step": 11600
    },
    {
      "entropy": 1.7805437743663788,
      "epoch": 1.274422564609596,
      "grad_norm": 0.6537451148033142,
      "learning_rate": 7.532010404387231e-06,
      "loss": 1.4231,
      "mean_token_accuracy": 0.646497001250585,
      "num_tokens": 1945327281.0,
      "step": 11601
    },
    {
      "entropy": 1.666386862595876,
      "epoch": 1.274532421520969,
      "grad_norm": 0.6942588686943054,
      "learning_rate": 7.530532972930007e-06,
      "loss": 1.2446,
      "mean_token_accuracy": 0.6778380324443182,
      "num_tokens": 1945439224.0,
      "step": 11602
    },
    {
      "entropy": 1.7151568233966827,
      "epoch": 1.274642278432342,
      "grad_norm": 0.7166895866394043,
      "learning_rate": 7.529055651279851e-06,
      "loss": 1.3638,
      "mean_token_accuracy": 0.6571328192949295,
      "num_tokens": 1945660352.0,
      "step": 11603
    },
    {
      "entropy": 1.7030317882696788,
      "epoch": 1.2747521353437148,
      "grad_norm": 0.6731720566749573,
      "learning_rate": 7.5275784394835135e-06,
      "loss": 1.3623,
      "mean_token_accuracy": 0.6527252991994222,
      "num_tokens": 1945809702.0,
      "step": 11604
    },
    {
      "entropy": 1.7581920226414998,
      "epoch": 1.2748619922550877,
      "grad_norm": 0.6831167936325073,
      "learning_rate": 7.526101337587761e-06,
      "loss": 1.3561,
      "mean_token_accuracy": 0.6571609377861023,
      "num_tokens": 1945959339.0,
      "step": 11605
    },
    {
      "entropy": 1.6485190987586975,
      "epoch": 1.2749718491664606,
      "grad_norm": 0.6158422827720642,
      "learning_rate": 7.524624345639333e-06,
      "loss": 1.3174,
      "mean_token_accuracy": 0.6634372224410375,
      "num_tokens": 1946151020.0,
      "step": 11606
    },
    {
      "entropy": 1.6657854715983074,
      "epoch": 1.2750817060778337,
      "grad_norm": 0.622463583946228,
      "learning_rate": 7.5231474636849785e-06,
      "loss": 1.3579,
      "mean_token_accuracy": 0.645659883817037,
      "num_tokens": 1946309288.0,
      "step": 11607
    },
    {
      "entropy": 1.7252983450889587,
      "epoch": 1.2751915629892066,
      "grad_norm": 0.7152490615844727,
      "learning_rate": 7.521670691771443e-06,
      "loss": 1.4609,
      "mean_token_accuracy": 0.6484145522117615,
      "num_tokens": 1946497861.0,
      "step": 11608
    },
    {
      "entropy": 1.6993794043858845,
      "epoch": 1.2753014199005794,
      "grad_norm": 0.6890069842338562,
      "learning_rate": 7.52019402994546e-06,
      "loss": 1.4335,
      "mean_token_accuracy": 0.6603013724088669,
      "num_tokens": 1946661551.0,
      "step": 11609
    },
    {
      "entropy": 1.7552596231301625,
      "epoch": 1.2754112768119525,
      "grad_norm": 0.6681763529777527,
      "learning_rate": 7.5187174782537675e-06,
      "loss": 1.4473,
      "mean_token_accuracy": 0.6456053505341212,
      "num_tokens": 1946840538.0,
      "step": 11610
    },
    {
      "entropy": 1.7156967719395955,
      "epoch": 1.2755211337233254,
      "grad_norm": 0.629675567150116,
      "learning_rate": 7.517241036743097e-06,
      "loss": 1.5218,
      "mean_token_accuracy": 0.6306114296118418,
      "num_tokens": 1947058986.0,
      "step": 11611
    },
    {
      "entropy": 1.7247178852558136,
      "epoch": 1.2756309906346983,
      "grad_norm": 0.6354183554649353,
      "learning_rate": 7.51576470546018e-06,
      "loss": 1.4083,
      "mean_token_accuracy": 0.6475364615519842,
      "num_tokens": 1947200502.0,
      "step": 11612
    },
    {
      "entropy": 1.7191159228483837,
      "epoch": 1.2757408475460712,
      "grad_norm": 0.5886407494544983,
      "learning_rate": 7.514288484451742e-06,
      "loss": 1.4599,
      "mean_token_accuracy": 0.6498788446187973,
      "num_tokens": 1947384612.0,
      "step": 11613
    },
    {
      "entropy": 1.7265147765477498,
      "epoch": 1.275850704457444,
      "grad_norm": 0.6430819630622864,
      "learning_rate": 7.5128123737645e-06,
      "loss": 1.4648,
      "mean_token_accuracy": 0.6587880849838257,
      "num_tokens": 1947533842.0,
      "step": 11614
    },
    {
      "entropy": 1.6808937191963196,
      "epoch": 1.2759605613688172,
      "grad_norm": 0.6885290741920471,
      "learning_rate": 7.511336373445175e-06,
      "loss": 1.4076,
      "mean_token_accuracy": 0.6503855834404627,
      "num_tokens": 1947734266.0,
      "step": 11615
    },
    {
      "entropy": 1.7028583685557048,
      "epoch": 1.27607041828019,
      "grad_norm": 0.7654819488525391,
      "learning_rate": 7.5098604835404856e-06,
      "loss": 1.3317,
      "mean_token_accuracy": 0.6681941697994868,
      "num_tokens": 1947850050.0,
      "step": 11616
    },
    {
      "entropy": 1.7267645796140034,
      "epoch": 1.276180275191563,
      "grad_norm": 0.6581327319145203,
      "learning_rate": 7.508384704097134e-06,
      "loss": 1.4452,
      "mean_token_accuracy": 0.6505034416913986,
      "num_tokens": 1948033475.0,
      "step": 11617
    },
    {
      "entropy": 1.6980148752530415,
      "epoch": 1.2762901321029358,
      "grad_norm": 0.7092710137367249,
      "learning_rate": 7.506909035161833e-06,
      "loss": 1.3132,
      "mean_token_accuracy": 0.6706616580486298,
      "num_tokens": 1948154888.0,
      "step": 11618
    },
    {
      "entropy": 1.6872047583262126,
      "epoch": 1.2763999890143087,
      "grad_norm": 0.7112807035446167,
      "learning_rate": 7.505433476781292e-06,
      "loss": 1.2504,
      "mean_token_accuracy": 0.6689596921205521,
      "num_tokens": 1948286056.0,
      "step": 11619
    },
    {
      "entropy": 1.7642404039700825,
      "epoch": 1.2765098459256818,
      "grad_norm": 0.7342185974121094,
      "learning_rate": 7.5039580290022054e-06,
      "loss": 1.495,
      "mean_token_accuracy": 0.6511110663414001,
      "num_tokens": 1948447031.0,
      "step": 11620
    },
    {
      "entropy": 1.714083880186081,
      "epoch": 1.2766197028370547,
      "grad_norm": 0.8669022917747498,
      "learning_rate": 7.502482691871269e-06,
      "loss": 1.1501,
      "mean_token_accuracy": 0.6964519172906876,
      "num_tokens": 1948544481.0,
      "step": 11621
    },
    {
      "entropy": 1.6839018563429515,
      "epoch": 1.2767295597484276,
      "grad_norm": 0.6407862901687622,
      "learning_rate": 7.501007465435182e-06,
      "loss": 1.568,
      "mean_token_accuracy": 0.6368062049150467,
      "num_tokens": 1948753108.0,
      "step": 11622
    },
    {
      "entropy": 1.763452668984731,
      "epoch": 1.2768394166598007,
      "grad_norm": 0.7078571319580078,
      "learning_rate": 7.499532349740631e-06,
      "loss": 1.5233,
      "mean_token_accuracy": 0.6335721065600713,
      "num_tokens": 1948921783.0,
      "step": 11623
    },
    {
      "entropy": 1.6938395102818806,
      "epoch": 1.2769492735711736,
      "grad_norm": 0.6525269150733948,
      "learning_rate": 7.498057344834302e-06,
      "loss": 1.5406,
      "mean_token_accuracy": 0.6494365582863489,
      "num_tokens": 1949114943.0,
      "step": 11624
    },
    {
      "entropy": 1.6960388819376628,
      "epoch": 1.2770591304825465,
      "grad_norm": 0.6488698124885559,
      "learning_rate": 7.496582450762881e-06,
      "loss": 1.3803,
      "mean_token_accuracy": 0.6615366737047831,
      "num_tokens": 1949274514.0,
      "step": 11625
    },
    {
      "entropy": 1.6426782707373302,
      "epoch": 1.2771689873939194,
      "grad_norm": 0.6749052405357361,
      "learning_rate": 7.495107667573047e-06,
      "loss": 1.3651,
      "mean_token_accuracy": 0.6629842420419058,
      "num_tokens": 1949433286.0,
      "step": 11626
    },
    {
      "entropy": 1.7444765071074169,
      "epoch": 1.2772788443052923,
      "grad_norm": 0.5791497230529785,
      "learning_rate": 7.493632995311477e-06,
      "loss": 1.373,
      "mean_token_accuracy": 0.6536852220694224,
      "num_tokens": 1949597131.0,
      "step": 11627
    },
    {
      "entropy": 1.6915338238080342,
      "epoch": 1.2773887012166654,
      "grad_norm": 0.8342865109443665,
      "learning_rate": 7.492158434024846e-06,
      "loss": 1.6073,
      "mean_token_accuracy": 0.6346415231625239,
      "num_tokens": 1949781046.0,
      "step": 11628
    },
    {
      "entropy": 1.7401387890179951,
      "epoch": 1.2774985581280383,
      "grad_norm": 0.62762051820755,
      "learning_rate": 7.490683983759814e-06,
      "loss": 1.435,
      "mean_token_accuracy": 0.6580404887596766,
      "num_tokens": 1949912389.0,
      "step": 11629
    },
    {
      "entropy": 1.6930598020553589,
      "epoch": 1.2776084150394111,
      "grad_norm": 0.6954199075698853,
      "learning_rate": 7.489209644563053e-06,
      "loss": 1.416,
      "mean_token_accuracy": 0.659172311425209,
      "num_tokens": 1950093173.0,
      "step": 11630
    },
    {
      "entropy": 1.6991178691387177,
      "epoch": 1.277718271950784,
      "grad_norm": 0.712602972984314,
      "learning_rate": 7.487735416481227e-06,
      "loss": 1.306,
      "mean_token_accuracy": 0.6658920894066492,
      "num_tokens": 1950240503.0,
      "step": 11631
    },
    {
      "entropy": 1.7666970590750377,
      "epoch": 1.277828128862157,
      "grad_norm": 0.6580962538719177,
      "learning_rate": 7.486261299560993e-06,
      "loss": 1.4578,
      "mean_token_accuracy": 0.660940021276474,
      "num_tokens": 1950405403.0,
      "step": 11632
    },
    {
      "entropy": 1.684452474117279,
      "epoch": 1.27793798577353,
      "grad_norm": 0.8572995662689209,
      "learning_rate": 7.484787293849003e-06,
      "loss": 1.2695,
      "mean_token_accuracy": 0.6728391995032629,
      "num_tokens": 1950539727.0,
      "step": 11633
    },
    {
      "entropy": 1.717938760916392,
      "epoch": 1.278047842684903,
      "grad_norm": 0.7117380499839783,
      "learning_rate": 7.483313399391914e-06,
      "loss": 1.3573,
      "mean_token_accuracy": 0.6588635991017023,
      "num_tokens": 1950689158.0,
      "step": 11634
    },
    {
      "entropy": 1.703975349664688,
      "epoch": 1.2781576995962758,
      "grad_norm": 3.185786724090576,
      "learning_rate": 7.48183961623637e-06,
      "loss": 1.5718,
      "mean_token_accuracy": 0.6170200606187185,
      "num_tokens": 1950984775.0,
      "step": 11635
    },
    {
      "entropy": 1.7145447830359142,
      "epoch": 1.278267556507649,
      "grad_norm": 0.689428985118866,
      "learning_rate": 7.480365944429013e-06,
      "loss": 1.5036,
      "mean_token_accuracy": 0.6465061157941818,
      "num_tokens": 1951196598.0,
      "step": 11636
    },
    {
      "entropy": 1.7026291191577911,
      "epoch": 1.2783774134190218,
      "grad_norm": 0.6487104296684265,
      "learning_rate": 7.478892384016494e-06,
      "loss": 1.5404,
      "mean_token_accuracy": 0.6514692256848017,
      "num_tokens": 1951402964.0,
      "step": 11637
    },
    {
      "entropy": 1.6885337332884471,
      "epoch": 1.2784872703303947,
      "grad_norm": 0.7306270599365234,
      "learning_rate": 7.477418935045442e-06,
      "loss": 1.4906,
      "mean_token_accuracy": 0.6599554171164831,
      "num_tokens": 1951561045.0,
      "step": 11638
    },
    {
      "entropy": 1.6858366429805756,
      "epoch": 1.2785971272417676,
      "grad_norm": 0.6280055046081543,
      "learning_rate": 7.475945597562491e-06,
      "loss": 1.4303,
      "mean_token_accuracy": 0.6426028609275818,
      "num_tokens": 1951751395.0,
      "step": 11639
    },
    {
      "entropy": 1.7249255081017811,
      "epoch": 1.2787069841531404,
      "grad_norm": 0.6180586218833923,
      "learning_rate": 7.4744723716142785e-06,
      "loss": 1.5163,
      "mean_token_accuracy": 0.6588364889224371,
      "num_tokens": 1951920690.0,
      "step": 11640
    },
    {
      "entropy": 1.6651106576124828,
      "epoch": 1.2788168410645135,
      "grad_norm": 0.629157304763794,
      "learning_rate": 7.472999257247424e-06,
      "loss": 1.3646,
      "mean_token_accuracy": 0.6712455501159033,
      "num_tokens": 1952071357.0,
      "step": 11641
    },
    {
      "entropy": 1.7360005180040996,
      "epoch": 1.2789266979758864,
      "grad_norm": 0.6886469125747681,
      "learning_rate": 7.471526254508552e-06,
      "loss": 1.2119,
      "mean_token_accuracy": 0.6848239749670029,
      "num_tokens": 1952185288.0,
      "step": 11642
    },
    {
      "entropy": 1.7535901367664337,
      "epoch": 1.2790365548872593,
      "grad_norm": 0.8039774298667908,
      "learning_rate": 7.470053363444288e-06,
      "loss": 1.3669,
      "mean_token_accuracy": 0.6577004939317703,
      "num_tokens": 1952336655.0,
      "step": 11643
    },
    {
      "entropy": 1.7281550963719685,
      "epoch": 1.2791464117986322,
      "grad_norm": 0.6642824411392212,
      "learning_rate": 7.4685805841012414e-06,
      "loss": 1.3183,
      "mean_token_accuracy": 0.6607625285784403,
      "num_tokens": 1952503015.0,
      "step": 11644
    },
    {
      "entropy": 1.6712844371795654,
      "epoch": 1.279256268710005,
      "grad_norm": 0.6621568202972412,
      "learning_rate": 7.467107916526028e-06,
      "loss": 1.3695,
      "mean_token_accuracy": 0.6621130158503851,
      "num_tokens": 1952675470.0,
      "step": 11645
    },
    {
      "entropy": 1.6059234241644542,
      "epoch": 1.2793661256213782,
      "grad_norm": 0.6320291757583618,
      "learning_rate": 7.46563536076526e-06,
      "loss": 1.283,
      "mean_token_accuracy": 0.6788782924413681,
      "num_tokens": 1952802099.0,
      "step": 11646
    },
    {
      "entropy": 1.7441943685213726,
      "epoch": 1.279475982532751,
      "grad_norm": 0.6545817255973816,
      "learning_rate": 7.464162916865541e-06,
      "loss": 1.3842,
      "mean_token_accuracy": 0.6757529973983765,
      "num_tokens": 1952974376.0,
      "step": 11647
    },
    {
      "entropy": 1.6520853539307911,
      "epoch": 1.279585839444124,
      "grad_norm": 0.6548392176628113,
      "learning_rate": 7.462690584873467e-06,
      "loss": 1.355,
      "mean_token_accuracy": 0.6545472939809164,
      "num_tokens": 1953140371.0,
      "step": 11648
    },
    {
      "entropy": 1.7266732851664226,
      "epoch": 1.279695696355497,
      "grad_norm": 0.8059017062187195,
      "learning_rate": 7.461218364835645e-06,
      "loss": 1.2907,
      "mean_token_accuracy": 0.6783981472253799,
      "num_tokens": 1953295038.0,
      "step": 11649
    },
    {
      "entropy": 1.6765375832716625,
      "epoch": 1.27980555326687,
      "grad_norm": 0.6597868204116821,
      "learning_rate": 7.459746256798666e-06,
      "loss": 1.3894,
      "mean_token_accuracy": 0.6578025966882706,
      "num_tokens": 1953454565.0,
      "step": 11650
    },
    {
      "entropy": 1.666476051012675,
      "epoch": 1.2799154101782428,
      "grad_norm": 0.6877656579017639,
      "learning_rate": 7.4582742608091244e-06,
      "loss": 1.4281,
      "mean_token_accuracy": 0.6640834957361221,
      "num_tokens": 1953657839.0,
      "step": 11651
    },
    {
      "entropy": 1.6953352391719818,
      "epoch": 1.2800252670896157,
      "grad_norm": 0.6984429359436035,
      "learning_rate": 7.456802376913608e-06,
      "loss": 1.3965,
      "mean_token_accuracy": 0.670659194389979,
      "num_tokens": 1953769451.0,
      "step": 11652
    },
    {
      "entropy": 1.66109103957812,
      "epoch": 1.2801351240009886,
      "grad_norm": 0.6225873827934265,
      "learning_rate": 7.455330605158697e-06,
      "loss": 1.4248,
      "mean_token_accuracy": 0.6516261696815491,
      "num_tokens": 1953987279.0,
      "step": 11653
    },
    {
      "entropy": 1.7144280870755513,
      "epoch": 1.2802449809123617,
      "grad_norm": 0.6939162015914917,
      "learning_rate": 7.453858945590973e-06,
      "loss": 1.4259,
      "mean_token_accuracy": 0.6643421500921249,
      "num_tokens": 1954139885.0,
      "step": 11654
    },
    {
      "entropy": 1.6657731036345165,
      "epoch": 1.2803548378237346,
      "grad_norm": 0.7827641367912292,
      "learning_rate": 7.45238739825702e-06,
      "loss": 1.3829,
      "mean_token_accuracy": 0.6760758807261785,
      "num_tokens": 1954304470.0,
      "step": 11655
    },
    {
      "entropy": 1.6782557964324951,
      "epoch": 1.2804646947351075,
      "grad_norm": 0.7069709897041321,
      "learning_rate": 7.4509159632034045e-06,
      "loss": 1.3769,
      "mean_token_accuracy": 0.6612060517072678,
      "num_tokens": 1954436039.0,
      "step": 11656
    },
    {
      "entropy": 1.6865948935349782,
      "epoch": 1.2805745516464806,
      "grad_norm": 0.5696167945861816,
      "learning_rate": 7.449444640476702e-06,
      "loss": 1.4007,
      "mean_token_accuracy": 0.6477059076229731,
      "num_tokens": 1954623170.0,
      "step": 11657
    },
    {
      "entropy": 1.7937167088190715,
      "epoch": 1.2806844085578533,
      "grad_norm": 0.8088985085487366,
      "learning_rate": 7.447973430123476e-06,
      "loss": 1.5221,
      "mean_token_accuracy": 0.6332688679297765,
      "num_tokens": 1954786672.0,
      "step": 11658
    },
    {
      "entropy": 1.6993589500586193,
      "epoch": 1.2807942654692264,
      "grad_norm": 0.6645467877388,
      "learning_rate": 7.446502332190289e-06,
      "loss": 1.3088,
      "mean_token_accuracy": 0.6647295008103052,
      "num_tokens": 1954897607.0,
      "step": 11659
    },
    {
      "entropy": 1.6773101290067036,
      "epoch": 1.2809041223805993,
      "grad_norm": 0.8003481030464172,
      "learning_rate": 7.445031346723699e-06,
      "loss": 1.3166,
      "mean_token_accuracy": 0.6816578855117162,
      "num_tokens": 1955037208.0,
      "step": 11660
    },
    {
      "entropy": 1.6241084535916646,
      "epoch": 1.2810139792919721,
      "grad_norm": 0.8966746926307678,
      "learning_rate": 7.443560473770271e-06,
      "loss": 1.395,
      "mean_token_accuracy": 0.6726480275392532,
      "num_tokens": 1955209074.0,
      "step": 11661
    },
    {
      "entropy": 1.7033714254697163,
      "epoch": 1.2811238362033452,
      "grad_norm": 0.7265210151672363,
      "learning_rate": 7.442089713376548e-06,
      "loss": 1.2868,
      "mean_token_accuracy": 0.6727895885705948,
      "num_tokens": 1955344048.0,
      "step": 11662
    },
    {
      "entropy": 1.6858701407909393,
      "epoch": 1.2812336931147181,
      "grad_norm": 0.7443154454231262,
      "learning_rate": 7.440619065589083e-06,
      "loss": 1.4205,
      "mean_token_accuracy": 0.6643148511648178,
      "num_tokens": 1955487623.0,
      "step": 11663
    },
    {
      "entropy": 1.6719338993231456,
      "epoch": 1.281343550026091,
      "grad_norm": 0.7148160934448242,
      "learning_rate": 7.439148530454423e-06,
      "loss": 1.5308,
      "mean_token_accuracy": 0.6345583150784174,
      "num_tokens": 1955669240.0,
      "step": 11664
    },
    {
      "entropy": 1.6509188016255696,
      "epoch": 1.281453406937464,
      "grad_norm": 0.80116868019104,
      "learning_rate": 7.437678108019104e-06,
      "loss": 1.4478,
      "mean_token_accuracy": 0.6688994914293289,
      "num_tokens": 1955847696.0,
      "step": 11665
    },
    {
      "entropy": 1.7179848750432332,
      "epoch": 1.2815632638488368,
      "grad_norm": 0.6163962483406067,
      "learning_rate": 7.436207798329667e-06,
      "loss": 1.4411,
      "mean_token_accuracy": 0.6562605003515879,
      "num_tokens": 1956010904.0,
      "step": 11666
    },
    {
      "entropy": 1.695182869831721,
      "epoch": 1.28167312076021,
      "grad_norm": 0.6897042989730835,
      "learning_rate": 7.434737601432651e-06,
      "loss": 1.3903,
      "mean_token_accuracy": 0.6611831237872442,
      "num_tokens": 1956172860.0,
      "step": 11667
    },
    {
      "entropy": 1.6385972301165264,
      "epoch": 1.2817829776715828,
      "grad_norm": 0.5938105583190918,
      "learning_rate": 7.43326751737458e-06,
      "loss": 1.4496,
      "mean_token_accuracy": 0.6599717885255814,
      "num_tokens": 1956402001.0,
      "step": 11668
    },
    {
      "entropy": 1.6853100558121998,
      "epoch": 1.2818928345829557,
      "grad_norm": 0.7520754337310791,
      "learning_rate": 7.4317975462019885e-06,
      "loss": 1.4595,
      "mean_token_accuracy": 0.6442477852106094,
      "num_tokens": 1956542664.0,
      "step": 11669
    },
    {
      "entropy": 1.695339282353719,
      "epoch": 1.2820026914943288,
      "grad_norm": 0.6549242734909058,
      "learning_rate": 7.430327687961394e-06,
      "loss": 1.3846,
      "mean_token_accuracy": 0.6543597926696142,
      "num_tokens": 1956719717.0,
      "step": 11670
    },
    {
      "entropy": 1.678192138671875,
      "epoch": 1.2821125484057014,
      "grad_norm": 0.7235942482948303,
      "learning_rate": 7.428857942699322e-06,
      "loss": 1.396,
      "mean_token_accuracy": 0.6574389437834421,
      "num_tokens": 1956849343.0,
      "step": 11671
    },
    {
      "entropy": 1.6636808514595032,
      "epoch": 1.2822224053170745,
      "grad_norm": 0.664930522441864,
      "learning_rate": 7.427388310462285e-06,
      "loss": 1.3348,
      "mean_token_accuracy": 0.6659966111183167,
      "num_tokens": 1957000013.0,
      "step": 11672
    },
    {
      "entropy": 1.6923915545145671,
      "epoch": 1.2823322622284474,
      "grad_norm": 0.7998056411743164,
      "learning_rate": 7.425918791296798e-06,
      "loss": 1.4864,
      "mean_token_accuracy": 0.6688689639170965,
      "num_tokens": 1957204036.0,
      "step": 11673
    },
    {
      "entropy": 1.7271687885125477,
      "epoch": 1.2824421191398203,
      "grad_norm": 0.7436834573745728,
      "learning_rate": 7.42444938524937e-06,
      "loss": 1.312,
      "mean_token_accuracy": 0.6680330435434977,
      "num_tokens": 1957337123.0,
      "step": 11674
    },
    {
      "entropy": 1.715428461631139,
      "epoch": 1.2825519760511934,
      "grad_norm": 0.7918713688850403,
      "learning_rate": 7.422980092366512e-06,
      "loss": 1.3576,
      "mean_token_accuracy": 0.6627502292394638,
      "num_tokens": 1957532881.0,
      "step": 11675
    },
    {
      "entropy": 1.7627593576908112,
      "epoch": 1.2826618329625663,
      "grad_norm": 0.6629673838615417,
      "learning_rate": 7.421510912694716e-06,
      "loss": 1.3912,
      "mean_token_accuracy": 0.6503987908363342,
      "num_tokens": 1957681518.0,
      "step": 11676
    },
    {
      "entropy": 1.6355752150217693,
      "epoch": 1.2827716898739392,
      "grad_norm": 0.6012086868286133,
      "learning_rate": 7.420041846280492e-06,
      "loss": 1.4797,
      "mean_token_accuracy": 0.6419784228006998,
      "num_tokens": 1957868543.0,
      "step": 11677
    },
    {
      "entropy": 1.7351706624031067,
      "epoch": 1.282881546785312,
      "grad_norm": 0.6617944240570068,
      "learning_rate": 7.418572893170328e-06,
      "loss": 1.4835,
      "mean_token_accuracy": 0.646317924062411,
      "num_tokens": 1958073332.0,
      "step": 11678
    },
    {
      "entropy": 1.7856847544511159,
      "epoch": 1.282991403696685,
      "grad_norm": 0.7386542558670044,
      "learning_rate": 7.417104053410718e-06,
      "loss": 1.373,
      "mean_token_accuracy": 0.6571315675973892,
      "num_tokens": 1958228225.0,
      "step": 11679
    },
    {
      "entropy": 1.6699702441692352,
      "epoch": 1.283101260608058,
      "grad_norm": 0.6713958382606506,
      "learning_rate": 7.415635327048152e-06,
      "loss": 1.3583,
      "mean_token_accuracy": 0.6684353550275167,
      "num_tokens": 1958397897.0,
      "step": 11680
    },
    {
      "entropy": 1.7619405488173168,
      "epoch": 1.283211117519431,
      "grad_norm": 0.9027857780456543,
      "learning_rate": 7.414166714129112e-06,
      "loss": 1.3348,
      "mean_token_accuracy": 0.6649856468041738,
      "num_tokens": 1958569608.0,
      "step": 11681
    },
    {
      "entropy": 1.7285025020440419,
      "epoch": 1.2833209744308038,
      "grad_norm": 0.6914839744567871,
      "learning_rate": 7.4126982147000785e-06,
      "loss": 1.4919,
      "mean_token_accuracy": 0.6378475278615952,
      "num_tokens": 1958774892.0,
      "step": 11682
    },
    {
      "entropy": 1.7116582890351613,
      "epoch": 1.283430831342177,
      "grad_norm": 0.7318129539489746,
      "learning_rate": 7.411229828807531e-06,
      "loss": 1.3924,
      "mean_token_accuracy": 0.6698858588933945,
      "num_tokens": 1958936632.0,
      "step": 11683
    },
    {
      "entropy": 1.6879831353823345,
      "epoch": 1.2835406882535498,
      "grad_norm": 0.6720309257507324,
      "learning_rate": 7.409761556497945e-06,
      "loss": 1.3349,
      "mean_token_accuracy": 0.658750464518865,
      "num_tokens": 1959147194.0,
      "step": 11684
    },
    {
      "entropy": 1.7317336002985637,
      "epoch": 1.2836505451649227,
      "grad_norm": 0.7208735346794128,
      "learning_rate": 7.408293397817783e-06,
      "loss": 1.46,
      "mean_token_accuracy": 0.6475148300329844,
      "num_tokens": 1959348096.0,
      "step": 11685
    },
    {
      "entropy": 1.6827017863591511,
      "epoch": 1.2837604020762956,
      "grad_norm": 0.6627811789512634,
      "learning_rate": 7.406825352813516e-06,
      "loss": 1.3233,
      "mean_token_accuracy": 0.6603292127450308,
      "num_tokens": 1959490153.0,
      "step": 11686
    },
    {
      "entropy": 1.7177750865618389,
      "epoch": 1.2838702589876685,
      "grad_norm": 0.6499682664871216,
      "learning_rate": 7.405357421531614e-06,
      "loss": 1.3783,
      "mean_token_accuracy": 0.6555012961228689,
      "num_tokens": 1959626237.0,
      "step": 11687
    },
    {
      "entropy": 1.7713517745335896,
      "epoch": 1.2839801158990416,
      "grad_norm": 0.6956122517585754,
      "learning_rate": 7.403889604018524e-06,
      "loss": 1.496,
      "mean_token_accuracy": 0.6454281061887741,
      "num_tokens": 1959841349.0,
      "step": 11688
    },
    {
      "entropy": 1.7518351475397747,
      "epoch": 1.2840899728104145,
      "grad_norm": 0.6666655540466309,
      "learning_rate": 7.402421900320711e-06,
      "loss": 1.3928,
      "mean_token_accuracy": 0.641091987490654,
      "num_tokens": 1960040280.0,
      "step": 11689
    },
    {
      "entropy": 1.7136612335840862,
      "epoch": 1.2841998297217874,
      "grad_norm": 0.8001027703285217,
      "learning_rate": 7.400954310484623e-06,
      "loss": 1.5009,
      "mean_token_accuracy": 0.6399757514397303,
      "num_tokens": 1960222001.0,
      "step": 11690
    },
    {
      "entropy": 1.6805146038532257,
      "epoch": 1.2843096866331603,
      "grad_norm": 0.760985255241394,
      "learning_rate": 7.399486834556706e-06,
      "loss": 1.2747,
      "mean_token_accuracy": 0.6765825847784678,
      "num_tokens": 1960361451.0,
      "step": 11691
    },
    {
      "entropy": 1.6519253353277843,
      "epoch": 1.2844195435445331,
      "grad_norm": 0.6442874670028687,
      "learning_rate": 7.3980194725834105e-06,
      "loss": 1.4785,
      "mean_token_accuracy": 0.6515339364608129,
      "num_tokens": 1960537160.0,
      "step": 11692
    },
    {
      "entropy": 1.7215826908747356,
      "epoch": 1.2845294004559062,
      "grad_norm": 0.8578620553016663,
      "learning_rate": 7.3965522246111774e-06,
      "loss": 1.268,
      "mean_token_accuracy": 0.6820251246293386,
      "num_tokens": 1960638199.0,
      "step": 11693
    },
    {
      "entropy": 1.6882357994715373,
      "epoch": 1.2846392573672791,
      "grad_norm": 0.6779175996780396,
      "learning_rate": 7.395085090686443e-06,
      "loss": 1.2499,
      "mean_token_accuracy": 0.6728865206241608,
      "num_tokens": 1960770852.0,
      "step": 11694
    },
    {
      "entropy": 1.6696954766909282,
      "epoch": 1.284749114278652,
      "grad_norm": 0.6538259387016296,
      "learning_rate": 7.3936180708556375e-06,
      "loss": 1.2807,
      "mean_token_accuracy": 0.6751231253147125,
      "num_tokens": 1960900887.0,
      "step": 11695
    },
    {
      "entropy": 1.6774700582027435,
      "epoch": 1.2848589711900251,
      "grad_norm": 0.7781380414962769,
      "learning_rate": 7.392151165165198e-06,
      "loss": 1.3951,
      "mean_token_accuracy": 0.6492411891619364,
      "num_tokens": 1961094569.0,
      "step": 11696
    },
    {
      "entropy": 1.6870755751927693,
      "epoch": 1.284968828101398,
      "grad_norm": 0.629217803478241,
      "learning_rate": 7.390684373661547e-06,
      "loss": 1.432,
      "mean_token_accuracy": 0.6549626439809799,
      "num_tokens": 1961376840.0,
      "step": 11697
    },
    {
      "entropy": 1.6291709244251251,
      "epoch": 1.285078685012771,
      "grad_norm": 0.5751771926879883,
      "learning_rate": 7.389217696391107e-06,
      "loss": 1.3228,
      "mean_token_accuracy": 0.6684358169635137,
      "num_tokens": 1961548354.0,
      "step": 11698
    },
    {
      "entropy": 1.727874477704366,
      "epoch": 1.2851885419241438,
      "grad_norm": 0.7103152871131897,
      "learning_rate": 7.387751133400303e-06,
      "loss": 1.5097,
      "mean_token_accuracy": 0.6475981076558431,
      "num_tokens": 1961734956.0,
      "step": 11699
    },
    {
      "entropy": 1.68792125582695,
      "epoch": 1.2852983988355167,
      "grad_norm": 0.6444193124771118,
      "learning_rate": 7.386284684735547e-06,
      "loss": 1.3165,
      "mean_token_accuracy": 0.6684761742750803,
      "num_tokens": 1961923277.0,
      "step": 11700
    },
    {
      "entropy": 1.723108321428299,
      "epoch": 1.2854082557468898,
      "grad_norm": 0.7117464542388916,
      "learning_rate": 7.384818350443252e-06,
      "loss": 1.3607,
      "mean_token_accuracy": 0.6554534633954366,
      "num_tokens": 1962108819.0,
      "step": 11701
    },
    {
      "entropy": 1.6910544236501057,
      "epoch": 1.2855181126582627,
      "grad_norm": 0.6509753465652466,
      "learning_rate": 7.38335213056983e-06,
      "loss": 1.2883,
      "mean_token_accuracy": 0.6676128606001536,
      "num_tokens": 1962275707.0,
      "step": 11702
    },
    {
      "entropy": 1.6606975098450978,
      "epoch": 1.2856279695696355,
      "grad_norm": 0.7419883608818054,
      "learning_rate": 7.38188602516168e-06,
      "loss": 1.3423,
      "mean_token_accuracy": 0.6589969595273336,
      "num_tokens": 1962462866.0,
      "step": 11703
    },
    {
      "entropy": 1.7654975454012554,
      "epoch": 1.2857378264810084,
      "grad_norm": 0.7047287225723267,
      "learning_rate": 7.380420034265205e-06,
      "loss": 1.4466,
      "mean_token_accuracy": 0.6558421750863394,
      "num_tokens": 1962610696.0,
      "step": 11704
    },
    {
      "entropy": 1.6822943886121113,
      "epoch": 1.2858476833923813,
      "grad_norm": 0.6518201231956482,
      "learning_rate": 7.3789541579268095e-06,
      "loss": 1.2855,
      "mean_token_accuracy": 0.6662348906199137,
      "num_tokens": 1962770700.0,
      "step": 11705
    },
    {
      "entropy": 1.758181909720103,
      "epoch": 1.2859575403037544,
      "grad_norm": 0.6527379155158997,
      "learning_rate": 7.377488396192882e-06,
      "loss": 1.4032,
      "mean_token_accuracy": 0.6612779349088669,
      "num_tokens": 1962946514.0,
      "step": 11706
    },
    {
      "entropy": 1.764567494392395,
      "epoch": 1.2860673972151273,
      "grad_norm": 0.7921777367591858,
      "learning_rate": 7.376022749109812e-06,
      "loss": 1.3384,
      "mean_token_accuracy": 0.6526055236657461,
      "num_tokens": 1963086122.0,
      "step": 11707
    },
    {
      "entropy": 1.7310861845811207,
      "epoch": 1.2861772541265002,
      "grad_norm": 0.737005889415741,
      "learning_rate": 7.374557216723994e-06,
      "loss": 1.372,
      "mean_token_accuracy": 0.6504655679066976,
      "num_tokens": 1963209728.0,
      "step": 11708
    },
    {
      "entropy": 1.6854293247063954,
      "epoch": 1.2862871110378733,
      "grad_norm": 0.6641037464141846,
      "learning_rate": 7.3730917990818015e-06,
      "loss": 1.4029,
      "mean_token_accuracy": 0.6705863028764725,
      "num_tokens": 1963357538.0,
      "step": 11709
    },
    {
      "entropy": 1.6769119401772816,
      "epoch": 1.2863969679492462,
      "grad_norm": 0.6438668966293335,
      "learning_rate": 7.37162649622962e-06,
      "loss": 1.4861,
      "mean_token_accuracy": 0.6491279552380244,
      "num_tokens": 1963582021.0,
      "step": 11710
    },
    {
      "entropy": 1.641738514105479,
      "epoch": 1.286506824860619,
      "grad_norm": 0.6233183145523071,
      "learning_rate": 7.3701613082138275e-06,
      "loss": 1.3751,
      "mean_token_accuracy": 0.6620054890712103,
      "num_tokens": 1963776433.0,
      "step": 11711
    },
    {
      "entropy": 1.6426913837591808,
      "epoch": 1.286616681771992,
      "grad_norm": 0.5799766182899475,
      "learning_rate": 7.368696235080792e-06,
      "loss": 1.372,
      "mean_token_accuracy": 0.6623861541350683,
      "num_tokens": 1963956213.0,
      "step": 11712
    },
    {
      "entropy": 1.7183026572068532,
      "epoch": 1.2867265386833648,
      "grad_norm": 0.681439995765686,
      "learning_rate": 7.367231276876885e-06,
      "loss": 1.455,
      "mean_token_accuracy": 0.655020589629809,
      "num_tokens": 1964135822.0,
      "step": 11713
    },
    {
      "entropy": 1.7211709121863048,
      "epoch": 1.286836395594738,
      "grad_norm": 0.6723782420158386,
      "learning_rate": 7.365766433648471e-06,
      "loss": 1.4048,
      "mean_token_accuracy": 0.6689492960770925,
      "num_tokens": 1964301098.0,
      "step": 11714
    },
    {
      "entropy": 1.7698278029759724,
      "epoch": 1.2869462525061108,
      "grad_norm": 0.77666175365448,
      "learning_rate": 7.3643017054419146e-06,
      "loss": 1.5987,
      "mean_token_accuracy": 0.6401151369015375,
      "num_tokens": 1964462937.0,
      "step": 11715
    },
    {
      "entropy": 1.6744122505187988,
      "epoch": 1.2870561094174837,
      "grad_norm": 0.8135389685630798,
      "learning_rate": 7.362837092303565e-06,
      "loss": 1.205,
      "mean_token_accuracy": 0.6760056912899017,
      "num_tokens": 1964577164.0,
      "step": 11716
    },
    {
      "entropy": 1.7008947432041168,
      "epoch": 1.2871659663288566,
      "grad_norm": 0.6217523813247681,
      "learning_rate": 7.361372594279785e-06,
      "loss": 1.3901,
      "mean_token_accuracy": 0.6549960921208063,
      "num_tokens": 1964734519.0,
      "step": 11717
    },
    {
      "entropy": 1.7229733566443126,
      "epoch": 1.2872758232402295,
      "grad_norm": 0.6909745335578918,
      "learning_rate": 7.359908211416924e-06,
      "loss": 1.3528,
      "mean_token_accuracy": 0.6632678508758545,
      "num_tokens": 1964878772.0,
      "step": 11718
    },
    {
      "entropy": 1.7443588475386302,
      "epoch": 1.2873856801516026,
      "grad_norm": 0.6048434376716614,
      "learning_rate": 7.358443943761326e-06,
      "loss": 1.461,
      "mean_token_accuracy": 0.6371092249949774,
      "num_tokens": 1965083666.0,
      "step": 11719
    },
    {
      "entropy": 1.7583917180697124,
      "epoch": 1.2874955370629755,
      "grad_norm": 0.6534097790718079,
      "learning_rate": 7.35697979135934e-06,
      "loss": 1.3643,
      "mean_token_accuracy": 0.6648856898148855,
      "num_tokens": 1965213053.0,
      "step": 11720
    },
    {
      "entropy": 1.7194798986117046,
      "epoch": 1.2876053939743484,
      "grad_norm": 0.646305501461029,
      "learning_rate": 7.3555157542572984e-06,
      "loss": 1.3896,
      "mean_token_accuracy": 0.6472862859567007,
      "num_tokens": 1965354020.0,
      "step": 11721
    },
    {
      "entropy": 1.675745298465093,
      "epoch": 1.2877152508857215,
      "grad_norm": 0.5743793845176697,
      "learning_rate": 7.354051832501541e-06,
      "loss": 1.3386,
      "mean_token_accuracy": 0.6610815872748693,
      "num_tokens": 1965529564.0,
      "step": 11722
    },
    {
      "entropy": 1.6679284969965618,
      "epoch": 1.2878251077970944,
      "grad_norm": 0.553485631942749,
      "learning_rate": 7.352588026138401e-06,
      "loss": 1.464,
      "mean_token_accuracy": 0.6533455202976862,
      "num_tokens": 1965718786.0,
      "step": 11723
    },
    {
      "entropy": 1.6976435681184132,
      "epoch": 1.2879349647084672,
      "grad_norm": 0.6102703809738159,
      "learning_rate": 7.351124335214206e-06,
      "loss": 1.3461,
      "mean_token_accuracy": 0.6602204740047455,
      "num_tokens": 1965910642.0,
      "step": 11724
    },
    {
      "entropy": 1.7120192646980286,
      "epoch": 1.2880448216198401,
      "grad_norm": 0.7902237772941589,
      "learning_rate": 7.349660759775283e-06,
      "loss": 1.1653,
      "mean_token_accuracy": 0.6933720608552297,
      "num_tokens": 1966041926.0,
      "step": 11725
    },
    {
      "entropy": 1.6760241091251373,
      "epoch": 1.288154678531213,
      "grad_norm": 0.6319912672042847,
      "learning_rate": 7.348197299867952e-06,
      "loss": 1.3921,
      "mean_token_accuracy": 0.678732305765152,
      "num_tokens": 1966200003.0,
      "step": 11726
    },
    {
      "entropy": 1.7074303428332012,
      "epoch": 1.2882645354425861,
      "grad_norm": 0.7581055164337158,
      "learning_rate": 7.34673395553853e-06,
      "loss": 1.3912,
      "mean_token_accuracy": 0.6616330395142237,
      "num_tokens": 1966353610.0,
      "step": 11727
    },
    {
      "entropy": 1.6789619823296864,
      "epoch": 1.288374392353959,
      "grad_norm": 0.774255096912384,
      "learning_rate": 7.345270726833331e-06,
      "loss": 1.3375,
      "mean_token_accuracy": 0.6750166416168213,
      "num_tokens": 1966490169.0,
      "step": 11728
    },
    {
      "entropy": 1.7094947596391041,
      "epoch": 1.288484249265332,
      "grad_norm": 0.6712803840637207,
      "learning_rate": 7.343807613798668e-06,
      "loss": 1.2826,
      "mean_token_accuracy": 0.6736528823773066,
      "num_tokens": 1966605134.0,
      "step": 11729
    },
    {
      "entropy": 1.6739847759405773,
      "epoch": 1.2885941061767048,
      "grad_norm": 0.5984385013580322,
      "learning_rate": 7.342344616480848e-06,
      "loss": 1.3459,
      "mean_token_accuracy": 0.6620316952466965,
      "num_tokens": 1966787815.0,
      "step": 11730
    },
    {
      "entropy": 1.6550920108954112,
      "epoch": 1.2887039630880777,
      "grad_norm": 0.6178155541419983,
      "learning_rate": 7.340881734926171e-06,
      "loss": 1.3412,
      "mean_token_accuracy": 0.6700419485569,
      "num_tokens": 1966997480.0,
      "step": 11731
    },
    {
      "entropy": 1.7782117525736492,
      "epoch": 1.2888138199994508,
      "grad_norm": 0.6943917274475098,
      "learning_rate": 7.339418969180938e-06,
      "loss": 1.5025,
      "mean_token_accuracy": 0.6368412226438522,
      "num_tokens": 1967178649.0,
      "step": 11732
    },
    {
      "entropy": 1.7510855495929718,
      "epoch": 1.2889236769108237,
      "grad_norm": 0.6902898550033569,
      "learning_rate": 7.337956319291446e-06,
      "loss": 1.2981,
      "mean_token_accuracy": 0.6604495048522949,
      "num_tokens": 1967292655.0,
      "step": 11733
    },
    {
      "entropy": 1.7116970022519429,
      "epoch": 1.2890335338221965,
      "grad_norm": 0.7756577134132385,
      "learning_rate": 7.336493785303986e-06,
      "loss": 1.3434,
      "mean_token_accuracy": 0.6637662698825201,
      "num_tokens": 1967438644.0,
      "step": 11734
    },
    {
      "entropy": 1.7591506739457448,
      "epoch": 1.2891433907335696,
      "grad_norm": 0.5982057452201843,
      "learning_rate": 7.335031367264844e-06,
      "loss": 1.379,
      "mean_token_accuracy": 0.6485430747270584,
      "num_tokens": 1967622935.0,
      "step": 11735
    },
    {
      "entropy": 1.6700083116690319,
      "epoch": 1.2892532476449425,
      "grad_norm": 0.6805751919746399,
      "learning_rate": 7.333569065220309e-06,
      "loss": 1.318,
      "mean_token_accuracy": 0.6725479116042455,
      "num_tokens": 1967792881.0,
      "step": 11736
    },
    {
      "entropy": 1.7045224507649739,
      "epoch": 1.2893631045563154,
      "grad_norm": 0.7660247087478638,
      "learning_rate": 7.332106879216667e-06,
      "loss": 1.4916,
      "mean_token_accuracy": 0.652613898118337,
      "num_tokens": 1967956377.0,
      "step": 11737
    },
    {
      "entropy": 1.6230275332927704,
      "epoch": 1.2894729614676883,
      "grad_norm": 0.6637044548988342,
      "learning_rate": 7.3306448093001825e-06,
      "loss": 1.3228,
      "mean_token_accuracy": 0.6681044300397238,
      "num_tokens": 1968087519.0,
      "step": 11738
    },
    {
      "entropy": 1.6863668859004974,
      "epoch": 1.2895828183790612,
      "grad_norm": 0.594308614730835,
      "learning_rate": 7.329182855517141e-06,
      "loss": 1.4027,
      "mean_token_accuracy": 0.6514003972212473,
      "num_tokens": 1968251423.0,
      "step": 11739
    },
    {
      "entropy": 1.6702902913093567,
      "epoch": 1.2896926752904343,
      "grad_norm": 0.693254828453064,
      "learning_rate": 7.327721017913805e-06,
      "loss": 1.2496,
      "mean_token_accuracy": 0.6850862701733907,
      "num_tokens": 1968412040.0,
      "step": 11740
    },
    {
      "entropy": 1.662459562222163,
      "epoch": 1.2898025322018072,
      "grad_norm": 0.7011620402336121,
      "learning_rate": 7.326259296536442e-06,
      "loss": 1.5088,
      "mean_token_accuracy": 0.6396182477474213,
      "num_tokens": 1968616860.0,
      "step": 11741
    },
    {
      "entropy": 1.737975647052129,
      "epoch": 1.28991238911318,
      "grad_norm": 0.8035622239112854,
      "learning_rate": 7.32479769143132e-06,
      "loss": 1.2819,
      "mean_token_accuracy": 0.6790835956732432,
      "num_tokens": 1968740375.0,
      "step": 11742
    },
    {
      "entropy": 1.730758676926295,
      "epoch": 1.290022246024553,
      "grad_norm": 0.6591079831123352,
      "learning_rate": 7.323336202644698e-06,
      "loss": 1.3442,
      "mean_token_accuracy": 0.6591987013816833,
      "num_tokens": 1968923933.0,
      "step": 11743
    },
    {
      "entropy": 1.756201942761739,
      "epoch": 1.2901321029359258,
      "grad_norm": 0.6940193176269531,
      "learning_rate": 7.3218748302228236e-06,
      "loss": 1.5993,
      "mean_token_accuracy": 0.6265199581782023,
      "num_tokens": 1969109185.0,
      "step": 11744
    },
    {
      "entropy": 1.6942794720331829,
      "epoch": 1.290241959847299,
      "grad_norm": 0.7570939660072327,
      "learning_rate": 7.320413574211955e-06,
      "loss": 1.3312,
      "mean_token_accuracy": 0.6817633907000223,
      "num_tokens": 1969221453.0,
      "step": 11745
    },
    {
      "entropy": 1.6586816012859344,
      "epoch": 1.2903518167586718,
      "grad_norm": 0.6691310405731201,
      "learning_rate": 7.31895243465834e-06,
      "loss": 1.3373,
      "mean_token_accuracy": 0.6555156062046686,
      "num_tokens": 1969369427.0,
      "step": 11746
    },
    {
      "entropy": 1.7016185621420543,
      "epoch": 1.2904616736700447,
      "grad_norm": 0.6833151578903198,
      "learning_rate": 7.317491411608217e-06,
      "loss": 1.4382,
      "mean_token_accuracy": 0.6552936285734177,
      "num_tokens": 1969538724.0,
      "step": 11747
    },
    {
      "entropy": 1.6746133367220561,
      "epoch": 1.2905715305814178,
      "grad_norm": 0.5930050611495972,
      "learning_rate": 7.316030505107834e-06,
      "loss": 1.4735,
      "mean_token_accuracy": 0.6479932516813278,
      "num_tokens": 1969761041.0,
      "step": 11748
    },
    {
      "entropy": 1.6806008915106456,
      "epoch": 1.2906813874927907,
      "grad_norm": 0.7082892060279846,
      "learning_rate": 7.314569715203428e-06,
      "loss": 1.3426,
      "mean_token_accuracy": 0.6537379374106725,
      "num_tokens": 1969892525.0,
      "step": 11749
    },
    {
      "entropy": 1.784896006186803,
      "epoch": 1.2907912444041636,
      "grad_norm": 0.7892354726791382,
      "learning_rate": 7.3131090419412285e-06,
      "loss": 1.4915,
      "mean_token_accuracy": 0.6374368518590927,
      "num_tokens": 1970080563.0,
      "step": 11750
    },
    {
      "entropy": 1.6796510914961498,
      "epoch": 1.2909011013155365,
      "grad_norm": 0.6004863381385803,
      "learning_rate": 7.311648485367464e-06,
      "loss": 1.412,
      "mean_token_accuracy": 0.6581088254849116,
      "num_tokens": 1970248705.0,
      "step": 11751
    },
    {
      "entropy": 1.7254607180754344,
      "epoch": 1.2910109582269094,
      "grad_norm": 0.6974371075630188,
      "learning_rate": 7.310188045528368e-06,
      "loss": 1.4514,
      "mean_token_accuracy": 0.6568728238344193,
      "num_tokens": 1970419431.0,
      "step": 11752
    },
    {
      "entropy": 1.7045761744181316,
      "epoch": 1.2911208151382825,
      "grad_norm": 2.843557119369507,
      "learning_rate": 7.308727722470153e-06,
      "loss": 1.4688,
      "mean_token_accuracy": 0.6505365371704102,
      "num_tokens": 1970581754.0,
      "step": 11753
    },
    {
      "entropy": 1.7577880720297496,
      "epoch": 1.2912306720496554,
      "grad_norm": 0.9117422699928284,
      "learning_rate": 7.307267516239043e-06,
      "loss": 1.4026,
      "mean_token_accuracy": 0.6464939614137014,
      "num_tokens": 1970743224.0,
      "step": 11754
    },
    {
      "entropy": 1.7608660360177357,
      "epoch": 1.2913405289610282,
      "grad_norm": 0.7385045289993286,
      "learning_rate": 7.305807426881255e-06,
      "loss": 1.324,
      "mean_token_accuracy": 0.6659322182337443,
      "num_tokens": 1970867328.0,
      "step": 11755
    },
    {
      "entropy": 1.7018007536729176,
      "epoch": 1.2914503858724011,
      "grad_norm": 0.5788907408714294,
      "learning_rate": 7.304347454442992e-06,
      "loss": 1.2803,
      "mean_token_accuracy": 0.6538551598787308,
      "num_tokens": 1971134236.0,
      "step": 11756
    },
    {
      "entropy": 1.756419579188029,
      "epoch": 1.291560242783774,
      "grad_norm": 0.619351327419281,
      "learning_rate": 7.302887598970472e-06,
      "loss": 1.3685,
      "mean_token_accuracy": 0.6473907629648844,
      "num_tokens": 1971335443.0,
      "step": 11757
    },
    {
      "entropy": 1.7158561150232952,
      "epoch": 1.2916700996951471,
      "grad_norm": 1.6634712219238281,
      "learning_rate": 7.3014278605098934e-06,
      "loss": 1.2694,
      "mean_token_accuracy": 0.6615792512893677,
      "num_tokens": 1971562350.0,
      "step": 11758
    },
    {
      "entropy": 1.6589511632919312,
      "epoch": 1.29177995660652,
      "grad_norm": 0.6881945133209229,
      "learning_rate": 7.299968239107451e-06,
      "loss": 1.3316,
      "mean_token_accuracy": 0.6625782549381256,
      "num_tokens": 1971746704.0,
      "step": 11759
    },
    {
      "entropy": 1.7037721276283264,
      "epoch": 1.291889813517893,
      "grad_norm": 0.6696583032608032,
      "learning_rate": 7.298508734809351e-06,
      "loss": 1.4161,
      "mean_token_accuracy": 0.6640026867389679,
      "num_tokens": 1971956211.0,
      "step": 11760
    },
    {
      "entropy": 1.7227367758750916,
      "epoch": 1.291999670429266,
      "grad_norm": 0.6352359652519226,
      "learning_rate": 7.297049347661782e-06,
      "loss": 1.5067,
      "mean_token_accuracy": 0.6483261436223984,
      "num_tokens": 1972162108.0,
      "step": 11761
    },
    {
      "entropy": 1.7867354949315388,
      "epoch": 1.2921095273406389,
      "grad_norm": 0.6077547073364258,
      "learning_rate": 7.29559007771093e-06,
      "loss": 1.4752,
      "mean_token_accuracy": 0.6493107676506042,
      "num_tokens": 1972309946.0,
      "step": 11762
    },
    {
      "entropy": 1.7437163889408112,
      "epoch": 1.2922193842520118,
      "grad_norm": 0.7125455141067505,
      "learning_rate": 7.2941309250029845e-06,
      "loss": 1.4619,
      "mean_token_accuracy": 0.6622959723075231,
      "num_tokens": 1972500940.0,
      "step": 11763
    },
    {
      "entropy": 1.7352955440680187,
      "epoch": 1.2923292411633847,
      "grad_norm": 0.5929360389709473,
      "learning_rate": 7.2926718895841246e-06,
      "loss": 1.4278,
      "mean_token_accuracy": 0.646904394030571,
      "num_tokens": 1972691170.0,
      "step": 11764
    },
    {
      "entropy": 1.7026380797227223,
      "epoch": 1.2924390980747575,
      "grad_norm": 0.6624311804771423,
      "learning_rate": 7.291212971500527e-06,
      "loss": 1.3807,
      "mean_token_accuracy": 0.6627266258001328,
      "num_tokens": 1972854592.0,
      "step": 11765
    },
    {
      "entropy": 1.6698378721872966,
      "epoch": 1.2925489549861306,
      "grad_norm": 0.7162081599235535,
      "learning_rate": 7.289754170798369e-06,
      "loss": 1.3603,
      "mean_token_accuracy": 0.6661340196927389,
      "num_tokens": 1973042979.0,
      "step": 11766
    },
    {
      "entropy": 1.6535949905713399,
      "epoch": 1.2926588118975035,
      "grad_norm": 0.6275128722190857,
      "learning_rate": 7.288295487523822e-06,
      "loss": 1.2839,
      "mean_token_accuracy": 0.6786264330148697,
      "num_tokens": 1973170895.0,
      "step": 11767
    },
    {
      "entropy": 1.732323278983434,
      "epoch": 1.2927686688088764,
      "grad_norm": 0.8781585097312927,
      "learning_rate": 7.286836921723048e-06,
      "loss": 1.36,
      "mean_token_accuracy": 0.6611862430969874,
      "num_tokens": 1973331867.0,
      "step": 11768
    },
    {
      "entropy": 1.7570100327332814,
      "epoch": 1.2928785257202493,
      "grad_norm": 0.7007432579994202,
      "learning_rate": 7.2853784734422155e-06,
      "loss": 1.4099,
      "mean_token_accuracy": 0.6472747921943665,
      "num_tokens": 1973490229.0,
      "step": 11769
    },
    {
      "entropy": 1.711938053369522,
      "epoch": 1.2929883826316222,
      "grad_norm": 0.6697954535484314,
      "learning_rate": 7.283920142727479e-06,
      "loss": 1.5415,
      "mean_token_accuracy": 0.634870320558548,
      "num_tokens": 1973666134.0,
      "step": 11770
    },
    {
      "entropy": 1.6825863222281139,
      "epoch": 1.2930982395429953,
      "grad_norm": 0.7022350430488586,
      "learning_rate": 7.282461929624991e-06,
      "loss": 1.2739,
      "mean_token_accuracy": 0.664794052640597,
      "num_tokens": 1973774886.0,
      "step": 11771
    },
    {
      "entropy": 1.7592849830786388,
      "epoch": 1.2932080964543682,
      "grad_norm": 0.7243680953979492,
      "learning_rate": 7.2810038341809105e-06,
      "loss": 1.4997,
      "mean_token_accuracy": 0.6491112063328425,
      "num_tokens": 1973920195.0,
      "step": 11772
    },
    {
      "entropy": 1.6567996442317963,
      "epoch": 1.293317953365741,
      "grad_norm": 0.7638998031616211,
      "learning_rate": 7.279545856441385e-06,
      "loss": 1.2132,
      "mean_token_accuracy": 0.6840778191884359,
      "num_tokens": 1974044070.0,
      "step": 11773
    },
    {
      "entropy": 1.7306942145029705,
      "epoch": 1.2934278102771142,
      "grad_norm": 0.7598798274993896,
      "learning_rate": 7.278087996452554e-06,
      "loss": 1.4113,
      "mean_token_accuracy": 0.6556040098269781,
      "num_tokens": 1974195242.0,
      "step": 11774
    },
    {
      "entropy": 1.7199226518472035,
      "epoch": 1.293537667188487,
      "grad_norm": 0.7280505299568176,
      "learning_rate": 7.2766302542605615e-06,
      "loss": 1.4192,
      "mean_token_accuracy": 0.6484815229972204,
      "num_tokens": 1974355884.0,
      "step": 11775
    },
    {
      "entropy": 1.7219727238019307,
      "epoch": 1.29364752409986,
      "grad_norm": 0.8648471236228943,
      "learning_rate": 7.275172629911546e-06,
      "loss": 1.4423,
      "mean_token_accuracy": 0.6569175471862158,
      "num_tokens": 1974466512.0,
      "step": 11776
    },
    {
      "entropy": 1.757084995508194,
      "epoch": 1.2937573810112328,
      "grad_norm": 0.7437247037887573,
      "learning_rate": 7.2737151234516365e-06,
      "loss": 1.3887,
      "mean_token_accuracy": 0.6547428021828333,
      "num_tokens": 1974621651.0,
      "step": 11777
    },
    {
      "entropy": 1.7222739160060883,
      "epoch": 1.2938672379226057,
      "grad_norm": 0.682804524898529,
      "learning_rate": 7.2722577349269615e-06,
      "loss": 1.4023,
      "mean_token_accuracy": 0.6509612699349722,
      "num_tokens": 1974790569.0,
      "step": 11778
    },
    {
      "entropy": 1.6923163831233978,
      "epoch": 1.2939770948339788,
      "grad_norm": 0.7132525444030762,
      "learning_rate": 7.270800464383654e-06,
      "loss": 1.3487,
      "mean_token_accuracy": 0.6630134681860606,
      "num_tokens": 1974908362.0,
      "step": 11779
    },
    {
      "entropy": 1.7271219789981842,
      "epoch": 1.2940869517453517,
      "grad_norm": 0.6374887824058533,
      "learning_rate": 7.269343311867829e-06,
      "loss": 1.4675,
      "mean_token_accuracy": 0.6458124866088232,
      "num_tokens": 1975049557.0,
      "step": 11780
    },
    {
      "entropy": 1.7077939212322235,
      "epoch": 1.2941968086567246,
      "grad_norm": 0.6350587010383606,
      "learning_rate": 7.2678862774256065e-06,
      "loss": 1.337,
      "mean_token_accuracy": 0.6723198741674423,
      "num_tokens": 1975191967.0,
      "step": 11781
    },
    {
      "entropy": 1.7040321032206218,
      "epoch": 1.2943066655680975,
      "grad_norm": 0.6252678036689758,
      "learning_rate": 7.266429361103105e-06,
      "loss": 1.3758,
      "mean_token_accuracy": 0.6479005714257559,
      "num_tokens": 1975354337.0,
      "step": 11782
    },
    {
      "entropy": 1.7597824732462566,
      "epoch": 1.2944165224794704,
      "grad_norm": 0.8166074752807617,
      "learning_rate": 7.264972562946428e-06,
      "loss": 1.481,
      "mean_token_accuracy": 0.6362377305825552,
      "num_tokens": 1975526565.0,
      "step": 11783
    },
    {
      "entropy": 1.6754455467065175,
      "epoch": 1.2945263793908435,
      "grad_norm": 0.736605703830719,
      "learning_rate": 7.263515883001686e-06,
      "loss": 1.2794,
      "mean_token_accuracy": 0.671693374713262,
      "num_tokens": 1975678286.0,
      "step": 11784
    },
    {
      "entropy": 1.6512251496315002,
      "epoch": 1.2946362363022164,
      "grad_norm": 9.648917198181152,
      "learning_rate": 7.2620593213149874e-06,
      "loss": 1.3817,
      "mean_token_accuracy": 0.6627425750096639,
      "num_tokens": 1975887204.0,
      "step": 11785
    },
    {
      "entropy": 1.7003162701924641,
      "epoch": 1.2947460932135892,
      "grad_norm": 0.7399555444717407,
      "learning_rate": 7.260602877932421e-06,
      "loss": 1.3761,
      "mean_token_accuracy": 0.6608262062072754,
      "num_tokens": 1976048216.0,
      "step": 11786
    },
    {
      "entropy": 1.7178180714448292,
      "epoch": 1.2948559501249624,
      "grad_norm": 0.7446051239967346,
      "learning_rate": 7.259146552900094e-06,
      "loss": 1.4646,
      "mean_token_accuracy": 0.6506668627262115,
      "num_tokens": 1976241273.0,
      "step": 11787
    },
    {
      "entropy": 1.7054597040017445,
      "epoch": 1.2949658070363352,
      "grad_norm": 0.6272408366203308,
      "learning_rate": 7.25769034626409e-06,
      "loss": 1.2619,
      "mean_token_accuracy": 0.6702099094788233,
      "num_tokens": 1976386664.0,
      "step": 11788
    },
    {
      "entropy": 1.7981916566689808,
      "epoch": 1.2950756639477081,
      "grad_norm": 0.5923606157302856,
      "learning_rate": 7.256234258070501e-06,
      "loss": 1.5048,
      "mean_token_accuracy": 0.6292905509471893,
      "num_tokens": 1976617356.0,
      "step": 11789
    },
    {
      "entropy": 1.7312207321325939,
      "epoch": 1.295185520859081,
      "grad_norm": 0.6586351990699768,
      "learning_rate": 7.254778288365411e-06,
      "loss": 1.4734,
      "mean_token_accuracy": 0.6350182294845581,
      "num_tokens": 1976838422.0,
      "step": 11790
    },
    {
      "entropy": 1.760515828927358,
      "epoch": 1.295295377770454,
      "grad_norm": 0.7017537951469421,
      "learning_rate": 7.253322437194901e-06,
      "loss": 1.5208,
      "mean_token_accuracy": 0.6316369622945786,
      "num_tokens": 1977010019.0,
      "step": 11791
    },
    {
      "entropy": 1.666582852602005,
      "epoch": 1.295405234681827,
      "grad_norm": 0.5920802354812622,
      "learning_rate": 7.251866704605042e-06,
      "loss": 1.2817,
      "mean_token_accuracy": 0.6713870366414388,
      "num_tokens": 1977141644.0,
      "step": 11792
    },
    {
      "entropy": 1.7240260044733684,
      "epoch": 1.2955150915931999,
      "grad_norm": 0.6175614595413208,
      "learning_rate": 7.25041109064192e-06,
      "loss": 1.3674,
      "mean_token_accuracy": 0.6563980529705683,
      "num_tokens": 1977305533.0,
      "step": 11793
    },
    {
      "entropy": 1.7184670567512512,
      "epoch": 1.2956249485045728,
      "grad_norm": 0.8212663531303406,
      "learning_rate": 7.248955595351592e-06,
      "loss": 1.3066,
      "mean_token_accuracy": 0.6645220468441645,
      "num_tokens": 1977456661.0,
      "step": 11794
    },
    {
      "entropy": 1.6388721764087677,
      "epoch": 1.2957348054159457,
      "grad_norm": 0.743337869644165,
      "learning_rate": 7.2475002187801345e-06,
      "loss": 1.3813,
      "mean_token_accuracy": 0.6679724355538686,
      "num_tokens": 1977638102.0,
      "step": 11795
    },
    {
      "entropy": 1.7348832388718922,
      "epoch": 1.2958446623273185,
      "grad_norm": 0.7091452479362488,
      "learning_rate": 7.246044960973602e-06,
      "loss": 1.3269,
      "mean_token_accuracy": 0.6580028831958771,
      "num_tokens": 1977794927.0,
      "step": 11796
    },
    {
      "entropy": 1.7408220171928406,
      "epoch": 1.2959545192386916,
      "grad_norm": 0.5987675189971924,
      "learning_rate": 7.244589821978052e-06,
      "loss": 1.1792,
      "mean_token_accuracy": 0.6719856162865957,
      "num_tokens": 1977968569.0,
      "step": 11797
    },
    {
      "entropy": 1.7049931287765503,
      "epoch": 1.2960643761500645,
      "grad_norm": 0.8301398158073425,
      "learning_rate": 7.243134801839544e-06,
      "loss": 1.3704,
      "mean_token_accuracy": 0.6715128173430761,
      "num_tokens": 1978133116.0,
      "step": 11798
    },
    {
      "entropy": 1.7279678384462993,
      "epoch": 1.2961742330614374,
      "grad_norm": 0.7465829849243164,
      "learning_rate": 7.24167990060413e-06,
      "loss": 1.3674,
      "mean_token_accuracy": 0.6562019089857737,
      "num_tokens": 1978285874.0,
      "step": 11799
    },
    {
      "entropy": 1.662907858689626,
      "epoch": 1.2962840899728105,
      "grad_norm": 0.744123101234436,
      "learning_rate": 7.240225118317847e-06,
      "loss": 1.5223,
      "mean_token_accuracy": 0.6506157964468002,
      "num_tokens": 1978461876.0,
      "step": 11800
    },
    {
      "entropy": 1.7489655017852783,
      "epoch": 1.2963939468841834,
      "grad_norm": 0.7728520631790161,
      "learning_rate": 7.238770455026747e-06,
      "loss": 1.3505,
      "mean_token_accuracy": 0.6687692006429037,
      "num_tokens": 1978591043.0,
      "step": 11801
    },
    {
      "entropy": 1.7328561941782634,
      "epoch": 1.2965038037955563,
      "grad_norm": 0.707901120185852,
      "learning_rate": 7.237315910776872e-06,
      "loss": 1.4924,
      "mean_token_accuracy": 0.6454095045725504,
      "num_tokens": 1978750688.0,
      "step": 11802
    },
    {
      "entropy": 1.6640961865584056,
      "epoch": 1.2966136607069292,
      "grad_norm": 0.9605063796043396,
      "learning_rate": 7.235861485614248e-06,
      "loss": 1.2226,
      "mean_token_accuracy": 0.6842072506745657,
      "num_tokens": 1978910145.0,
      "step": 11803
    },
    {
      "entropy": 1.703210969765981,
      "epoch": 1.296723517618302,
      "grad_norm": 0.6342226266860962,
      "learning_rate": 7.234407179584912e-06,
      "loss": 1.3948,
      "mean_token_accuracy": 0.6613224347432455,
      "num_tokens": 1979095563.0,
      "step": 11804
    },
    {
      "entropy": 1.6607285638650258,
      "epoch": 1.2968333745296752,
      "grad_norm": 0.8452777862548828,
      "learning_rate": 7.2329529927348966e-06,
      "loss": 1.211,
      "mean_token_accuracy": 0.6795276602109274,
      "num_tokens": 1979225266.0,
      "step": 11805
    },
    {
      "entropy": 1.7239519755045574,
      "epoch": 1.296943231441048,
      "grad_norm": 0.6554011106491089,
      "learning_rate": 7.231498925110214e-06,
      "loss": 1.3701,
      "mean_token_accuracy": 0.6555942744016647,
      "num_tokens": 1979419579.0,
      "step": 11806
    },
    {
      "entropy": 1.7264830768108368,
      "epoch": 1.297053088352421,
      "grad_norm": 0.7340265512466431,
      "learning_rate": 7.230044976756898e-06,
      "loss": 1.6073,
      "mean_token_accuracy": 0.6350849618514379,
      "num_tokens": 1979619520.0,
      "step": 11807
    },
    {
      "entropy": 1.6583397487799327,
      "epoch": 1.2971629452637938,
      "grad_norm": 0.6471593379974365,
      "learning_rate": 7.2285911477209604e-06,
      "loss": 1.3271,
      "mean_token_accuracy": 0.6611123780409495,
      "num_tokens": 1979757550.0,
      "step": 11808
    },
    {
      "entropy": 1.7062188585599263,
      "epoch": 1.2972728021751667,
      "grad_norm": 0.7513505220413208,
      "learning_rate": 7.227137438048411e-06,
      "loss": 1.4257,
      "mean_token_accuracy": 0.6616204331318537,
      "num_tokens": 1979909535.0,
      "step": 11809
    },
    {
      "entropy": 1.7708937724431355,
      "epoch": 1.2973826590865398,
      "grad_norm": 1.0161291360855103,
      "learning_rate": 7.225683847785261e-06,
      "loss": 1.4273,
      "mean_token_accuracy": 0.6494510521491369,
      "num_tokens": 1980093310.0,
      "step": 11810
    },
    {
      "entropy": 1.7270852228005726,
      "epoch": 1.2974925159979127,
      "grad_norm": 1.1134231090545654,
      "learning_rate": 7.224230376977519e-06,
      "loss": 1.5241,
      "mean_token_accuracy": 0.655661274989446,
      "num_tokens": 1980280004.0,
      "step": 11811
    },
    {
      "entropy": 1.6724676191806793,
      "epoch": 1.2976023729092856,
      "grad_norm": 0.6491298079490662,
      "learning_rate": 7.222777025671182e-06,
      "loss": 1.3062,
      "mean_token_accuracy": 0.6757878363132477,
      "num_tokens": 1980485888.0,
      "step": 11812
    },
    {
      "entropy": 1.7291560967763264,
      "epoch": 1.2977122298206587,
      "grad_norm": 0.6538869738578796,
      "learning_rate": 7.221323793912247e-06,
      "loss": 1.4369,
      "mean_token_accuracy": 0.6460357258717219,
      "num_tokens": 1980665077.0,
      "step": 11813
    },
    {
      "entropy": 1.6848385234673817,
      "epoch": 1.2978220867320316,
      "grad_norm": 0.704898476600647,
      "learning_rate": 7.219870681746717e-06,
      "loss": 1.4264,
      "mean_token_accuracy": 0.6565316567818323,
      "num_tokens": 1980810801.0,
      "step": 11814
    },
    {
      "entropy": 1.6930330594380696,
      "epoch": 1.2979319436434045,
      "grad_norm": 0.7854775786399841,
      "learning_rate": 7.218417689220576e-06,
      "loss": 1.4475,
      "mean_token_accuracy": 0.6585629632075628,
      "num_tokens": 1980944906.0,
      "step": 11815
    },
    {
      "entropy": 1.6579373677571614,
      "epoch": 1.2980418005547774,
      "grad_norm": 0.697228729724884,
      "learning_rate": 7.216964816379805e-06,
      "loss": 1.3587,
      "mean_token_accuracy": 0.6618794798851013,
      "num_tokens": 1981144140.0,
      "step": 11816
    },
    {
      "entropy": 1.634168028831482,
      "epoch": 1.2981516574661502,
      "grad_norm": 0.6177424788475037,
      "learning_rate": 7.2155120632704e-06,
      "loss": 1.5157,
      "mean_token_accuracy": 0.6338949004809061,
      "num_tokens": 1981412853.0,
      "step": 11817
    },
    {
      "entropy": 1.7243984242280324,
      "epoch": 1.2982615143775234,
      "grad_norm": 0.6800485849380493,
      "learning_rate": 7.214059429938329e-06,
      "loss": 1.5578,
      "mean_token_accuracy": 0.64493028819561,
      "num_tokens": 1981563675.0,
      "step": 11818
    },
    {
      "entropy": 1.728604664405187,
      "epoch": 1.2983713712888962,
      "grad_norm": 0.7974774837493896,
      "learning_rate": 7.212606916429572e-06,
      "loss": 1.2656,
      "mean_token_accuracy": 0.6728243281443914,
      "num_tokens": 1981676374.0,
      "step": 11819
    },
    {
      "entropy": 1.7148986756801605,
      "epoch": 1.2984812282002691,
      "grad_norm": 0.5727463364601135,
      "learning_rate": 7.211154522790103e-06,
      "loss": 1.4279,
      "mean_token_accuracy": 0.638765682776769,
      "num_tokens": 1981861170.0,
      "step": 11820
    },
    {
      "entropy": 1.6881239612897236,
      "epoch": 1.298591085111642,
      "grad_norm": 0.7453581094741821,
      "learning_rate": 7.2097022490658795e-06,
      "loss": 1.3699,
      "mean_token_accuracy": 0.6761754850546519,
      "num_tokens": 1982007898.0,
      "step": 11821
    },
    {
      "entropy": 1.6406256258487701,
      "epoch": 1.298700942023015,
      "grad_norm": 0.5940481424331665,
      "learning_rate": 7.208250095302878e-06,
      "loss": 1.3569,
      "mean_token_accuracy": 0.6683052430550257,
      "num_tokens": 1982173648.0,
      "step": 11822
    },
    {
      "entropy": 1.6838708420594533,
      "epoch": 1.298810798934388,
      "grad_norm": 0.651563286781311,
      "learning_rate": 7.206798061547049e-06,
      "loss": 1.5306,
      "mean_token_accuracy": 0.6416983604431152,
      "num_tokens": 1982331870.0,
      "step": 11823
    },
    {
      "entropy": 1.7058892448743184,
      "epoch": 1.2989206558457609,
      "grad_norm": 0.6198409795761108,
      "learning_rate": 7.205346147844352e-06,
      "loss": 1.3637,
      "mean_token_accuracy": 0.6558132419983546,
      "num_tokens": 1982532371.0,
      "step": 11824
    },
    {
      "entropy": 1.7239612738291423,
      "epoch": 1.2990305127571338,
      "grad_norm": 0.7450637221336365,
      "learning_rate": 7.203894354240737e-06,
      "loss": 1.43,
      "mean_token_accuracy": 0.6622414539257685,
      "num_tokens": 1982696214.0,
      "step": 11825
    },
    {
      "entropy": 1.7213209768136342,
      "epoch": 1.2991403696685069,
      "grad_norm": 0.6577510237693787,
      "learning_rate": 7.20244268078216e-06,
      "loss": 1.3634,
      "mean_token_accuracy": 0.6626957158247629,
      "num_tokens": 1982828315.0,
      "step": 11826
    },
    {
      "entropy": 1.7126743793487549,
      "epoch": 1.2992502265798798,
      "grad_norm": 0.6911088228225708,
      "learning_rate": 7.2009911275145605e-06,
      "loss": 1.3489,
      "mean_token_accuracy": 0.6616120487451553,
      "num_tokens": 1982974989.0,
      "step": 11827
    },
    {
      "entropy": 1.742800772190094,
      "epoch": 1.2993600834912526,
      "grad_norm": 0.7396600246429443,
      "learning_rate": 7.1995396944838765e-06,
      "loss": 1.4829,
      "mean_token_accuracy": 0.638206327954928,
      "num_tokens": 1983151283.0,
      "step": 11828
    },
    {
      "entropy": 1.6596211989720662,
      "epoch": 1.2994699404026255,
      "grad_norm": 2.785015821456909,
      "learning_rate": 7.198088381736053e-06,
      "loss": 1.3438,
      "mean_token_accuracy": 0.6643916070461273,
      "num_tokens": 1983335044.0,
      "step": 11829
    },
    {
      "entropy": 1.6466420888900757,
      "epoch": 1.2995797973139984,
      "grad_norm": 0.5830391049385071,
      "learning_rate": 7.196637189317015e-06,
      "loss": 1.4721,
      "mean_token_accuracy": 0.6433140188455582,
      "num_tokens": 1983568953.0,
      "step": 11830
    },
    {
      "entropy": 1.7181233763694763,
      "epoch": 1.2996896542253715,
      "grad_norm": 0.8077186942100525,
      "learning_rate": 7.1951861172726985e-06,
      "loss": 1.2321,
      "mean_token_accuracy": 0.6756879289944967,
      "num_tokens": 1983674728.0,
      "step": 11831
    },
    {
      "entropy": 1.6590841114521027,
      "epoch": 1.2997995111367444,
      "grad_norm": 0.5984413027763367,
      "learning_rate": 7.193735165649027e-06,
      "loss": 1.5037,
      "mean_token_accuracy": 0.6605504155158997,
      "num_tokens": 1983866230.0,
      "step": 11832
    },
    {
      "entropy": 1.7355755269527435,
      "epoch": 1.2999093680481173,
      "grad_norm": 0.7825373411178589,
      "learning_rate": 7.192284334491919e-06,
      "loss": 1.3951,
      "mean_token_accuracy": 0.6593762536843618,
      "num_tokens": 1984017499.0,
      "step": 11833
    },
    {
      "entropy": 1.6846800744533539,
      "epoch": 1.3000192249594902,
      "grad_norm": 0.6214932799339294,
      "learning_rate": 7.190833623847302e-06,
      "loss": 1.2622,
      "mean_token_accuracy": 0.6819400539000829,
      "num_tokens": 1984194774.0,
      "step": 11834
    },
    {
      "entropy": 1.6585146188735962,
      "epoch": 1.300129081870863,
      "grad_norm": 0.5928328037261963,
      "learning_rate": 7.189383033761082e-06,
      "loss": 1.4513,
      "mean_token_accuracy": 0.6382601261138916,
      "num_tokens": 1984450421.0,
      "step": 11835
    },
    {
      "entropy": 1.6726765831311543,
      "epoch": 1.3002389387822362,
      "grad_norm": 0.6932438015937805,
      "learning_rate": 7.187932564279168e-06,
      "loss": 1.4706,
      "mean_token_accuracy": 0.6601354628801346,
      "num_tokens": 1984578455.0,
      "step": 11836
    },
    {
      "entropy": 1.7142049372196198,
      "epoch": 1.300348795693609,
      "grad_norm": 0.7112865447998047,
      "learning_rate": 7.186482215447472e-06,
      "loss": 1.5127,
      "mean_token_accuracy": 0.6401646981636683,
      "num_tokens": 1984793396.0,
      "step": 11837
    },
    {
      "entropy": 1.7584912180900574,
      "epoch": 1.300458652604982,
      "grad_norm": 0.7246370315551758,
      "learning_rate": 7.185031987311899e-06,
      "loss": 1.562,
      "mean_token_accuracy": 0.625005453824997,
      "num_tokens": 1984962832.0,
      "step": 11838
    },
    {
      "entropy": 1.6865639090538025,
      "epoch": 1.300568509516355,
      "grad_norm": 0.6186059713363647,
      "learning_rate": 7.183581879918344e-06,
      "loss": 1.5017,
      "mean_token_accuracy": 0.6512916932503382,
      "num_tokens": 1985164889.0,
      "step": 11839
    },
    {
      "entropy": 1.7075908879439037,
      "epoch": 1.300678366427728,
      "grad_norm": 0.6377032399177551,
      "learning_rate": 7.182131893312698e-06,
      "loss": 1.5451,
      "mean_token_accuracy": 0.6384754379590353,
      "num_tokens": 1985344290.0,
      "step": 11840
    },
    {
      "entropy": 1.6983333627382915,
      "epoch": 1.3007882233391008,
      "grad_norm": 0.7583761811256409,
      "learning_rate": 7.180682027540864e-06,
      "loss": 1.4311,
      "mean_token_accuracy": 0.6552286992470423,
      "num_tokens": 1985503791.0,
      "step": 11841
    },
    {
      "entropy": 1.6771070162455242,
      "epoch": 1.3008980802504737,
      "grad_norm": 0.7743870615959167,
      "learning_rate": 7.179232282648716e-06,
      "loss": 1.3962,
      "mean_token_accuracy": 0.6450282633304596,
      "num_tokens": 1985677205.0,
      "step": 11842
    },
    {
      "entropy": 1.6850054661432903,
      "epoch": 1.3010079371618466,
      "grad_norm": 0.6330224871635437,
      "learning_rate": 7.177782658682148e-06,
      "loss": 1.3411,
      "mean_token_accuracy": 0.6549698412418365,
      "num_tokens": 1985854174.0,
      "step": 11843
    },
    {
      "entropy": 1.7192271451155345,
      "epoch": 1.3011177940732197,
      "grad_norm": 0.7451735734939575,
      "learning_rate": 7.176333155687039e-06,
      "loss": 1.4255,
      "mean_token_accuracy": 0.6647992481788,
      "num_tokens": 1986045909.0,
      "step": 11844
    },
    {
      "entropy": 1.705276260773341,
      "epoch": 1.3012276509845926,
      "grad_norm": 0.7818323373794556,
      "learning_rate": 7.174883773709258e-06,
      "loss": 1.412,
      "mean_token_accuracy": 0.66334301729997,
      "num_tokens": 1986222420.0,
      "step": 11845
    },
    {
      "entropy": 1.7389629483222961,
      "epoch": 1.3013375078959655,
      "grad_norm": 0.7498189210891724,
      "learning_rate": 7.173434512794686e-06,
      "loss": 1.3499,
      "mean_token_accuracy": 0.656540701786677,
      "num_tokens": 1986418388.0,
      "step": 11846
    },
    {
      "entropy": 1.6752577722072601,
      "epoch": 1.3014473648073386,
      "grad_norm": 0.680406391620636,
      "learning_rate": 7.171985372989185e-06,
      "loss": 1.4032,
      "mean_token_accuracy": 0.6697799315055212,
      "num_tokens": 1986620372.0,
      "step": 11847
    },
    {
      "entropy": 1.7210516333580017,
      "epoch": 1.3015572217187112,
      "grad_norm": 0.776543378829956,
      "learning_rate": 7.170536354338622e-06,
      "loss": 1.3586,
      "mean_token_accuracy": 0.6546121736367544,
      "num_tokens": 1986743025.0,
      "step": 11848
    },
    {
      "entropy": 1.7157737612724304,
      "epoch": 1.3016670786300844,
      "grad_norm": 0.681416928768158,
      "learning_rate": 7.169087456888859e-06,
      "loss": 1.2704,
      "mean_token_accuracy": 0.6695546756188074,
      "num_tokens": 1986896242.0,
      "step": 11849
    },
    {
      "entropy": 1.7309301495552063,
      "epoch": 1.3017769355414572,
      "grad_norm": 0.6461417078971863,
      "learning_rate": 7.167638680685749e-06,
      "loss": 1.2813,
      "mean_token_accuracy": 0.6683636407057444,
      "num_tokens": 1987045305.0,
      "step": 11850
    },
    {
      "entropy": 1.697464495897293,
      "epoch": 1.3018867924528301,
      "grad_norm": 0.6775514483451843,
      "learning_rate": 7.16619002577515e-06,
      "loss": 1.4658,
      "mean_token_accuracy": 0.6477470993995667,
      "num_tokens": 1987223981.0,
      "step": 11851
    },
    {
      "entropy": 1.7292206982771556,
      "epoch": 1.3019966493642032,
      "grad_norm": 0.7780271172523499,
      "learning_rate": 7.164741492202911e-06,
      "loss": 1.4561,
      "mean_token_accuracy": 0.6541826476653417,
      "num_tokens": 1987371081.0,
      "step": 11852
    },
    {
      "entropy": 1.6961702009042103,
      "epoch": 1.3021065062755761,
      "grad_norm": 0.7289796471595764,
      "learning_rate": 7.163293080014872e-06,
      "loss": 1.2561,
      "mean_token_accuracy": 0.6818042149146398,
      "num_tokens": 1987473964.0,
      "step": 11853
    },
    {
      "entropy": 1.6992531319459279,
      "epoch": 1.302216363186949,
      "grad_norm": 0.85200035572052,
      "learning_rate": 7.161844789256882e-06,
      "loss": 1.2384,
      "mean_token_accuracy": 0.6741587022940317,
      "num_tokens": 1987601010.0,
      "step": 11854
    },
    {
      "entropy": 1.7139351069927216,
      "epoch": 1.3023262200983219,
      "grad_norm": 1.0030229091644287,
      "learning_rate": 7.160396619974772e-06,
      "loss": 1.3984,
      "mean_token_accuracy": 0.6595780551433563,
      "num_tokens": 1987758086.0,
      "step": 11855
    },
    {
      "entropy": 1.7854057649771373,
      "epoch": 1.3024360770096948,
      "grad_norm": 0.6239326000213623,
      "learning_rate": 7.158948572214377e-06,
      "loss": 1.4072,
      "mean_token_accuracy": 0.6497927755117416,
      "num_tokens": 1987956125.0,
      "step": 11856
    },
    {
      "entropy": 1.6467955509821575,
      "epoch": 1.3025459339210679,
      "grad_norm": 0.621613085269928,
      "learning_rate": 7.157500646021529e-06,
      "loss": 1.3393,
      "mean_token_accuracy": 0.6661281585693359,
      "num_tokens": 1988127619.0,
      "step": 11857
    },
    {
      "entropy": 1.6565412779649098,
      "epoch": 1.3026557908324408,
      "grad_norm": 0.7688978314399719,
      "learning_rate": 7.156052841442058e-06,
      "loss": 1.3215,
      "mean_token_accuracy": 0.6778760701417923,
      "num_tokens": 1988347207.0,
      "step": 11858
    },
    {
      "entropy": 1.756882220506668,
      "epoch": 1.3027656477438136,
      "grad_norm": 0.7031749486923218,
      "learning_rate": 7.154605158521784e-06,
      "loss": 1.473,
      "mean_token_accuracy": 0.6567084838946661,
      "num_tokens": 1988503513.0,
      "step": 11859
    },
    {
      "entropy": 1.647767146428426,
      "epoch": 1.3028755046551868,
      "grad_norm": 0.7281495928764343,
      "learning_rate": 7.153157597306517e-06,
      "loss": 1.3981,
      "mean_token_accuracy": 0.6550866365432739,
      "num_tokens": 1988676182.0,
      "step": 11860
    },
    {
      "entropy": 1.7764273285865784,
      "epoch": 1.3029853615665594,
      "grad_norm": 0.7380655407905579,
      "learning_rate": 7.1517101578420845e-06,
      "loss": 1.3915,
      "mean_token_accuracy": 0.6554965376853943,
      "num_tokens": 1988784119.0,
      "step": 11861
    },
    {
      "entropy": 1.710543821255366,
      "epoch": 1.3030952184779325,
      "grad_norm": 0.6946497559547424,
      "learning_rate": 7.150262840174287e-06,
      "loss": 1.4343,
      "mean_token_accuracy": 0.6613740076621374,
      "num_tokens": 1988976260.0,
      "step": 11862
    },
    {
      "entropy": 1.6800654629866283,
      "epoch": 1.3032050753893054,
      "grad_norm": 0.7925371527671814,
      "learning_rate": 7.148815644348939e-06,
      "loss": 1.4201,
      "mean_token_accuracy": 0.6524600485960642,
      "num_tokens": 1989116149.0,
      "step": 11863
    },
    {
      "entropy": 1.6714057624340057,
      "epoch": 1.3033149323006783,
      "grad_norm": 0.7147430777549744,
      "learning_rate": 7.1473685704118415e-06,
      "loss": 1.4243,
      "mean_token_accuracy": 0.6460753281911215,
      "num_tokens": 1989292509.0,
      "step": 11864
    },
    {
      "entropy": 1.6726448833942413,
      "epoch": 1.3034247892120514,
      "grad_norm": 0.8853915929794312,
      "learning_rate": 7.145921618408789e-06,
      "loss": 1.4295,
      "mean_token_accuracy": 0.6527641713619232,
      "num_tokens": 1989445522.0,
      "step": 11865
    },
    {
      "entropy": 1.6634302536646526,
      "epoch": 1.3035346461234243,
      "grad_norm": 0.8797194361686707,
      "learning_rate": 7.1444747883855825e-06,
      "loss": 1.441,
      "mean_token_accuracy": 0.6599002232154211,
      "num_tokens": 1989603818.0,
      "step": 11866
    },
    {
      "entropy": 1.733254959185918,
      "epoch": 1.3036445030347972,
      "grad_norm": 0.8028691411018372,
      "learning_rate": 7.1430280803880125e-06,
      "loss": 1.2522,
      "mean_token_accuracy": 0.6718244006236395,
      "num_tokens": 1989737439.0,
      "step": 11867
    },
    {
      "entropy": 1.691257268190384,
      "epoch": 1.30375435994617,
      "grad_norm": 0.6741119027137756,
      "learning_rate": 7.1415814944618646e-06,
      "loss": 1.4412,
      "mean_token_accuracy": 0.6452458004156748,
      "num_tokens": 1989925558.0,
      "step": 11868
    },
    {
      "entropy": 1.702443500359853,
      "epoch": 1.303864216857543,
      "grad_norm": 0.8861745595932007,
      "learning_rate": 7.140135030652919e-06,
      "loss": 1.4018,
      "mean_token_accuracy": 0.6592222899198532,
      "num_tokens": 1990085254.0,
      "step": 11869
    },
    {
      "entropy": 1.6728020509084065,
      "epoch": 1.303974073768916,
      "grad_norm": 0.6596800684928894,
      "learning_rate": 7.138688689006968e-06,
      "loss": 1.3176,
      "mean_token_accuracy": 0.6630978385607401,
      "num_tokens": 1990248507.0,
      "step": 11870
    },
    {
      "entropy": 1.7162721355756123,
      "epoch": 1.304083930680289,
      "grad_norm": 0.799435019493103,
      "learning_rate": 7.13724246956978e-06,
      "loss": 1.4751,
      "mean_token_accuracy": 0.6495125244061152,
      "num_tokens": 1990412879.0,
      "step": 11871
    },
    {
      "entropy": 1.6690248648325603,
      "epoch": 1.3041937875916618,
      "grad_norm": 0.7061107754707336,
      "learning_rate": 7.135796372387121e-06,
      "loss": 1.4601,
      "mean_token_accuracy": 0.6446433266003927,
      "num_tokens": 1990609780.0,
      "step": 11872
    },
    {
      "entropy": 1.661782403786977,
      "epoch": 1.304303644503035,
      "grad_norm": 0.620296835899353,
      "learning_rate": 7.13435039750477e-06,
      "loss": 1.4143,
      "mean_token_accuracy": 0.6596356878678004,
      "num_tokens": 1990813000.0,
      "step": 11873
    },
    {
      "entropy": 1.737670491139094,
      "epoch": 1.3044135014144078,
      "grad_norm": 0.6647923588752747,
      "learning_rate": 7.132904544968484e-06,
      "loss": 1.4695,
      "mean_token_accuracy": 0.628335619966189,
      "num_tokens": 1991014720.0,
      "step": 11874
    },
    {
      "entropy": 1.771154135465622,
      "epoch": 1.3045233583257807,
      "grad_norm": 0.7745919823646545,
      "learning_rate": 7.131458814824033e-06,
      "loss": 1.3392,
      "mean_token_accuracy": 0.6562488625446955,
      "num_tokens": 1991159959.0,
      "step": 11875
    },
    {
      "entropy": 1.720243752002716,
      "epoch": 1.3046332152371536,
      "grad_norm": 0.6591370105743408,
      "learning_rate": 7.130013207117164e-06,
      "loss": 1.3527,
      "mean_token_accuracy": 0.6506476004918417,
      "num_tokens": 1991284571.0,
      "step": 11876
    },
    {
      "entropy": 1.7519052525361378,
      "epoch": 1.3047430721485265,
      "grad_norm": 0.8525600433349609,
      "learning_rate": 7.128567721893629e-06,
      "loss": 1.3246,
      "mean_token_accuracy": 0.6619629363218943,
      "num_tokens": 1991433891.0,
      "step": 11877
    },
    {
      "entropy": 1.7587460080782573,
      "epoch": 1.3048529290598996,
      "grad_norm": 0.7629795074462891,
      "learning_rate": 7.127122359199186e-06,
      "loss": 1.5044,
      "mean_token_accuracy": 0.633780856927236,
      "num_tokens": 1991631013.0,
      "step": 11878
    },
    {
      "entropy": 1.7409328023592632,
      "epoch": 1.3049627859712725,
      "grad_norm": 1.040186882019043,
      "learning_rate": 7.1256771190795744e-06,
      "loss": 1.4168,
      "mean_token_accuracy": 0.6474807063738505,
      "num_tokens": 1991741027.0,
      "step": 11879
    },
    {
      "entropy": 1.6785088181495667,
      "epoch": 1.3050726428826454,
      "grad_norm": 0.6517196893692017,
      "learning_rate": 7.124232001580533e-06,
      "loss": 1.4536,
      "mean_token_accuracy": 0.6468540678421656,
      "num_tokens": 1991930281.0,
      "step": 11880
    },
    {
      "entropy": 1.7357937196890514,
      "epoch": 1.3051824997940182,
      "grad_norm": 0.6505614519119263,
      "learning_rate": 7.1227870067478025e-06,
      "loss": 1.5418,
      "mean_token_accuracy": 0.6523448824882507,
      "num_tokens": 1992141041.0,
      "step": 11881
    },
    {
      "entropy": 1.6435925761858623,
      "epoch": 1.3052923567053911,
      "grad_norm": 0.73778235912323,
      "learning_rate": 7.121342134627121e-06,
      "loss": 1.3333,
      "mean_token_accuracy": 0.6684698065121969,
      "num_tokens": 1992299737.0,
      "step": 11882
    },
    {
      "entropy": 1.6869693100452423,
      "epoch": 1.3054022136167642,
      "grad_norm": 0.6052371859550476,
      "learning_rate": 7.1198973852642094e-06,
      "loss": 1.4825,
      "mean_token_accuracy": 0.6540184319019318,
      "num_tokens": 1992527255.0,
      "step": 11883
    },
    {
      "entropy": 1.6479829649130504,
      "epoch": 1.3055120705281371,
      "grad_norm": 0.6196063756942749,
      "learning_rate": 7.118452758704797e-06,
      "loss": 1.4023,
      "mean_token_accuracy": 0.6664341787497202,
      "num_tokens": 1992722009.0,
      "step": 11884
    },
    {
      "entropy": 1.751798113187154,
      "epoch": 1.30562192743951,
      "grad_norm": 0.7154742479324341,
      "learning_rate": 7.117008254994608e-06,
      "loss": 1.4442,
      "mean_token_accuracy": 0.6428210635979971,
      "num_tokens": 1992926541.0,
      "step": 11885
    },
    {
      "entropy": 1.7372412979602814,
      "epoch": 1.305731784350883,
      "grad_norm": 0.6471896171569824,
      "learning_rate": 7.115563874179354e-06,
      "loss": 1.3508,
      "mean_token_accuracy": 0.6744556576013565,
      "num_tokens": 1993067139.0,
      "step": 11886
    },
    {
      "entropy": 1.6598396003246307,
      "epoch": 1.305841641262256,
      "grad_norm": 0.6070998311042786,
      "learning_rate": 7.114119616304758e-06,
      "loss": 1.4995,
      "mean_token_accuracy": 0.6376579652229944,
      "num_tokens": 1993332234.0,
      "step": 11887
    },
    {
      "entropy": 1.6974481840928395,
      "epoch": 1.3059514981736289,
      "grad_norm": 0.689513623714447,
      "learning_rate": 7.112675481416524e-06,
      "loss": 1.4293,
      "mean_token_accuracy": 0.6504635115464529,
      "num_tokens": 1993523750.0,
      "step": 11888
    },
    {
      "entropy": 1.7427086234092712,
      "epoch": 1.3060613550850018,
      "grad_norm": 0.6812959313392639,
      "learning_rate": 7.111231469560356e-06,
      "loss": 1.369,
      "mean_token_accuracy": 0.6677893449862798,
      "num_tokens": 1993677201.0,
      "step": 11889
    },
    {
      "entropy": 1.7141542931397755,
      "epoch": 1.3061712119963746,
      "grad_norm": 0.6561225652694702,
      "learning_rate": 7.109787580781964e-06,
      "loss": 1.4565,
      "mean_token_accuracy": 0.649625892440478,
      "num_tokens": 1993841174.0,
      "step": 11890
    },
    {
      "entropy": 1.7247630953788757,
      "epoch": 1.3062810689077478,
      "grad_norm": 0.7922856211662292,
      "learning_rate": 7.108343815127041e-06,
      "loss": 1.1284,
      "mean_token_accuracy": 0.682140568892161,
      "num_tokens": 1994019614.0,
      "step": 11891
    },
    {
      "entropy": 1.7190321187178295,
      "epoch": 1.3063909258191206,
      "grad_norm": 0.7327906489372253,
      "learning_rate": 7.10690017264128e-06,
      "loss": 1.3485,
      "mean_token_accuracy": 0.6538528551657995,
      "num_tokens": 1994170865.0,
      "step": 11892
    },
    {
      "entropy": 1.7219412624835968,
      "epoch": 1.3065007827304935,
      "grad_norm": 0.6950879096984863,
      "learning_rate": 7.105456653370373e-06,
      "loss": 1.6429,
      "mean_token_accuracy": 0.6246584728360176,
      "num_tokens": 1994357037.0,
      "step": 11893
    },
    {
      "entropy": 1.6911317110061646,
      "epoch": 1.3066106396418664,
      "grad_norm": 0.6314573884010315,
      "learning_rate": 7.104013257360012e-06,
      "loss": 1.4832,
      "mean_token_accuracy": 0.641195093592008,
      "num_tokens": 1994567440.0,
      "step": 11894
    },
    {
      "entropy": 1.7743210991223652,
      "epoch": 1.3067204965532393,
      "grad_norm": 0.6991893649101257,
      "learning_rate": 7.102569984655876e-06,
      "loss": 1.4349,
      "mean_token_accuracy": 0.6492632130781809,
      "num_tokens": 1994730948.0,
      "step": 11895
    },
    {
      "entropy": 1.6938276489575703,
      "epoch": 1.3068303534646124,
      "grad_norm": 0.6895888447761536,
      "learning_rate": 7.101126835303642e-06,
      "loss": 1.2818,
      "mean_token_accuracy": 0.676262636979421,
      "num_tokens": 1994872136.0,
      "step": 11896
    },
    {
      "entropy": 1.7031813363234203,
      "epoch": 1.3069402103759853,
      "grad_norm": 0.6379356980323792,
      "learning_rate": 7.099683809348987e-06,
      "loss": 1.5104,
      "mean_token_accuracy": 0.6480912466843923,
      "num_tokens": 1995100831.0,
      "step": 11897
    },
    {
      "entropy": 1.697776734828949,
      "epoch": 1.3070500672873582,
      "grad_norm": 0.782518208026886,
      "learning_rate": 7.098240906837581e-06,
      "loss": 1.4419,
      "mean_token_accuracy": 0.6553240418434143,
      "num_tokens": 1995309589.0,
      "step": 11898
    },
    {
      "entropy": 1.733527531226476,
      "epoch": 1.3071599241987313,
      "grad_norm": 0.7691713571548462,
      "learning_rate": 7.096798127815095e-06,
      "loss": 1.544,
      "mean_token_accuracy": 0.6410651057958603,
      "num_tokens": 1995483068.0,
      "step": 11899
    },
    {
      "entropy": 1.7282393078009288,
      "epoch": 1.3072697811101042,
      "grad_norm": 0.7292653322219849,
      "learning_rate": 7.095355472327188e-06,
      "loss": 1.5436,
      "mean_token_accuracy": 0.6305726369222006,
      "num_tokens": 1995685871.0,
      "step": 11900
    },
    {
      "entropy": 1.7617888549963634,
      "epoch": 1.307379638021477,
      "grad_norm": 0.607972264289856,
      "learning_rate": 7.093912940419518e-06,
      "loss": 1.4118,
      "mean_token_accuracy": 0.6436517437299093,
      "num_tokens": 1995881773.0,
      "step": 11901
    },
    {
      "entropy": 1.6877683500448863,
      "epoch": 1.30748949493285,
      "grad_norm": 0.8216177225112915,
      "learning_rate": 7.0924705321377476e-06,
      "loss": 1.4615,
      "mean_token_accuracy": 0.6518243153889974,
      "num_tokens": 1996016525.0,
      "step": 11902
    },
    {
      "entropy": 1.6974779566129048,
      "epoch": 1.3075993518442228,
      "grad_norm": 0.701296865940094,
      "learning_rate": 7.091028247527523e-06,
      "loss": 1.4144,
      "mean_token_accuracy": 0.6555771032969157,
      "num_tokens": 1996158592.0,
      "step": 11903
    },
    {
      "entropy": 1.681029220422109,
      "epoch": 1.307709208755596,
      "grad_norm": 0.6263594627380371,
      "learning_rate": 7.08958608663449e-06,
      "loss": 1.4482,
      "mean_token_accuracy": 0.6391114493211111,
      "num_tokens": 1996383683.0,
      "step": 11904
    },
    {
      "entropy": 1.6188758412996929,
      "epoch": 1.3078190656669688,
      "grad_norm": 0.5903595685958862,
      "learning_rate": 7.088144049504297e-06,
      "loss": 1.2563,
      "mean_token_accuracy": 0.6739430278539658,
      "num_tokens": 1996537882.0,
      "step": 11905
    },
    {
      "entropy": 1.7247794965902965,
      "epoch": 1.3079289225783417,
      "grad_norm": 0.645677924156189,
      "learning_rate": 7.0867021361825834e-06,
      "loss": 1.392,
      "mean_token_accuracy": 0.6563497483730316,
      "num_tokens": 1996661633.0,
      "step": 11906
    },
    {
      "entropy": 1.6579484939575195,
      "epoch": 1.3080387794897146,
      "grad_norm": 0.606181263923645,
      "learning_rate": 7.085260346714984e-06,
      "loss": 1.5362,
      "mean_token_accuracy": 0.6405880848566691,
      "num_tokens": 1996846001.0,
      "step": 11907
    },
    {
      "entropy": 1.699442724386851,
      "epoch": 1.3081486364010875,
      "grad_norm": 0.6131225228309631,
      "learning_rate": 7.083818681147128e-06,
      "loss": 1.3592,
      "mean_token_accuracy": 0.658347432812055,
      "num_tokens": 1997010019.0,
      "step": 11908
    },
    {
      "entropy": 1.688926676909129,
      "epoch": 1.3082584933124606,
      "grad_norm": 0.7150919437408447,
      "learning_rate": 7.08237713952465e-06,
      "loss": 1.1604,
      "mean_token_accuracy": 0.6859798580408096,
      "num_tokens": 1997120284.0,
      "step": 11909
    },
    {
      "entropy": 1.703328440586726,
      "epoch": 1.3083683502238335,
      "grad_norm": 0.6847726702690125,
      "learning_rate": 7.0809357218931655e-06,
      "loss": 1.5503,
      "mean_token_accuracy": 0.637129470705986,
      "num_tokens": 1997338833.0,
      "step": 11910
    },
    {
      "entropy": 1.7029491166273754,
      "epoch": 1.3084782071352064,
      "grad_norm": 0.6607728004455566,
      "learning_rate": 7.079494428298306e-06,
      "loss": 1.3826,
      "mean_token_accuracy": 0.6601289560397466,
      "num_tokens": 1997488890.0,
      "step": 11911
    },
    {
      "entropy": 1.779124120871226,
      "epoch": 1.3085880640465795,
      "grad_norm": 0.6851378083229065,
      "learning_rate": 7.078053258785675e-06,
      "loss": 1.5597,
      "mean_token_accuracy": 0.6372034152348837,
      "num_tokens": 1997717867.0,
      "step": 11912
    },
    {
      "entropy": 1.703583796819051,
      "epoch": 1.3086979209579523,
      "grad_norm": 0.7330154776573181,
      "learning_rate": 7.076612213400893e-06,
      "loss": 1.5164,
      "mean_token_accuracy": 0.6479217112064362,
      "num_tokens": 1997907725.0,
      "step": 11913
    },
    {
      "entropy": 1.752791404724121,
      "epoch": 1.3088077778693252,
      "grad_norm": 0.6505106687545776,
      "learning_rate": 7.075171292189567e-06,
      "loss": 1.2992,
      "mean_token_accuracy": 0.6648927380641302,
      "num_tokens": 1998051327.0,
      "step": 11914
    },
    {
      "entropy": 1.7556921243667603,
      "epoch": 1.3089176347806981,
      "grad_norm": 0.9044151902198792,
      "learning_rate": 7.073730495197302e-06,
      "loss": 1.3221,
      "mean_token_accuracy": 0.6583772599697113,
      "num_tokens": 1998151465.0,
      "step": 11915
    },
    {
      "entropy": 1.6777693728605907,
      "epoch": 1.309027491692071,
      "grad_norm": 0.5966777205467224,
      "learning_rate": 7.072289822469696e-06,
      "loss": 1.4588,
      "mean_token_accuracy": 0.6472314149141312,
      "num_tokens": 1998389856.0,
      "step": 11916
    },
    {
      "entropy": 1.7139520446459453,
      "epoch": 1.309137348603444,
      "grad_norm": 0.8145208358764648,
      "learning_rate": 7.070849274052347e-06,
      "loss": 1.4261,
      "mean_token_accuracy": 0.6561163713534673,
      "num_tokens": 1998569531.0,
      "step": 11917
    },
    {
      "entropy": 1.7513943115870159,
      "epoch": 1.309247205514817,
      "grad_norm": 0.7245900630950928,
      "learning_rate": 7.069408849990846e-06,
      "loss": 1.4398,
      "mean_token_accuracy": 0.6619679679473242,
      "num_tokens": 1998718517.0,
      "step": 11918
    },
    {
      "entropy": 1.7176838616530101,
      "epoch": 1.3093570624261899,
      "grad_norm": 0.6961973309516907,
      "learning_rate": 7.067968550330788e-06,
      "loss": 1.3737,
      "mean_token_accuracy": 0.665938675403595,
      "num_tokens": 1998860116.0,
      "step": 11919
    },
    {
      "entropy": 1.7159354587395985,
      "epoch": 1.3094669193375628,
      "grad_norm": 0.7147000432014465,
      "learning_rate": 7.066528375117754e-06,
      "loss": 1.2228,
      "mean_token_accuracy": 0.6914103428522745,
      "num_tokens": 1998983159.0,
      "step": 11920
    },
    {
      "entropy": 1.6717688739299774,
      "epoch": 1.3095767762489356,
      "grad_norm": 0.6504638195037842,
      "learning_rate": 7.06508832439732e-06,
      "loss": 1.3763,
      "mean_token_accuracy": 0.657271221280098,
      "num_tokens": 1999134388.0,
      "step": 11921
    },
    {
      "entropy": 1.7023660739262898,
      "epoch": 1.3096866331603088,
      "grad_norm": 0.7245521545410156,
      "learning_rate": 7.0636483982150685e-06,
      "loss": 1.4674,
      "mean_token_accuracy": 0.6482570519049963,
      "num_tokens": 1999333736.0,
      "step": 11922
    },
    {
      "entropy": 1.7503623863061268,
      "epoch": 1.3097964900716816,
      "grad_norm": 0.7295483350753784,
      "learning_rate": 7.0622085966165775e-06,
      "loss": 1.2565,
      "mean_token_accuracy": 0.6758219550053278,
      "num_tokens": 1999443030.0,
      "step": 11923
    },
    {
      "entropy": 1.6741431951522827,
      "epoch": 1.3099063469830545,
      "grad_norm": 0.8775436282157898,
      "learning_rate": 7.060768919647402e-06,
      "loss": 1.3264,
      "mean_token_accuracy": 0.6649001787106196,
      "num_tokens": 1999620601.0,
      "step": 11924
    },
    {
      "entropy": 1.6897100607554119,
      "epoch": 1.3100162038944276,
      "grad_norm": 0.5896010994911194,
      "learning_rate": 7.0593293673531185e-06,
      "loss": 1.4494,
      "mean_token_accuracy": 0.6483661234378815,
      "num_tokens": 1999852207.0,
      "step": 11925
    },
    {
      "entropy": 1.7433798710505168,
      "epoch": 1.3101260608058005,
      "grad_norm": 0.6538956761360168,
      "learning_rate": 7.057889939779284e-06,
      "loss": 1.3828,
      "mean_token_accuracy": 0.6552889595429102,
      "num_tokens": 2000021319.0,
      "step": 11926
    },
    {
      "entropy": 1.6846702595551808,
      "epoch": 1.3102359177171734,
      "grad_norm": 0.8677592873573303,
      "learning_rate": 7.056450636971459e-06,
      "loss": 1.2809,
      "mean_token_accuracy": 0.6779492398103079,
      "num_tokens": 2000178801.0,
      "step": 11927
    },
    {
      "entropy": 1.7277966737747192,
      "epoch": 1.3103457746285463,
      "grad_norm": 0.7624452114105225,
      "learning_rate": 7.055011458975189e-06,
      "loss": 1.4015,
      "mean_token_accuracy": 0.6448380748430887,
      "num_tokens": 2000366731.0,
      "step": 11928
    },
    {
      "entropy": 1.6685428619384766,
      "epoch": 1.3104556315399192,
      "grad_norm": 0.6821413636207581,
      "learning_rate": 7.053572405836035e-06,
      "loss": 1.3076,
      "mean_token_accuracy": 0.6730211079120636,
      "num_tokens": 2000503771.0,
      "step": 11929
    },
    {
      "entropy": 1.7650530834992726,
      "epoch": 1.3105654884512923,
      "grad_norm": 0.7161713242530823,
      "learning_rate": 7.0521334775995325e-06,
      "loss": 1.2504,
      "mean_token_accuracy": 0.674405058224996,
      "num_tokens": 2000625020.0,
      "step": 11930
    },
    {
      "entropy": 1.7475067675113678,
      "epoch": 1.3106753453626652,
      "grad_norm": 0.7672361135482788,
      "learning_rate": 7.050694674311227e-06,
      "loss": 1.5302,
      "mean_token_accuracy": 0.6399498085180918,
      "num_tokens": 2000778280.0,
      "step": 11931
    },
    {
      "entropy": 1.7035863002141316,
      "epoch": 1.310785202274038,
      "grad_norm": 0.6786298751831055,
      "learning_rate": 7.049255996016657e-06,
      "loss": 1.4849,
      "mean_token_accuracy": 0.6429836452007294,
      "num_tokens": 2000942476.0,
      "step": 11932
    },
    {
      "entropy": 1.6817757089932759,
      "epoch": 1.310895059185411,
      "grad_norm": 0.6696064472198486,
      "learning_rate": 7.047817442761351e-06,
      "loss": 1.32,
      "mean_token_accuracy": 0.668683315316836,
      "num_tokens": 2001089622.0,
      "step": 11933
    },
    {
      "entropy": 1.6976955632368724,
      "epoch": 1.3110049160967838,
      "grad_norm": 0.7553936839103699,
      "learning_rate": 7.046379014590847e-06,
      "loss": 1.2293,
      "mean_token_accuracy": 0.6788338373104731,
      "num_tokens": 2001197344.0,
      "step": 11934
    },
    {
      "entropy": 1.6999300718307495,
      "epoch": 1.311114773008157,
      "grad_norm": 0.6611595153808594,
      "learning_rate": 7.0449407115506655e-06,
      "loss": 1.3581,
      "mean_token_accuracy": 0.6565580070018768,
      "num_tokens": 2001349759.0,
      "step": 11935
    },
    {
      "entropy": 1.6997497379779816,
      "epoch": 1.3112246299195298,
      "grad_norm": 1.5599058866500854,
      "learning_rate": 7.043502533686321e-06,
      "loss": 1.3612,
      "mean_token_accuracy": 0.664860337972641,
      "num_tokens": 2001540113.0,
      "step": 11936
    },
    {
      "entropy": 1.6655697226524353,
      "epoch": 1.3113344868309027,
      "grad_norm": 0.7153550982475281,
      "learning_rate": 7.04206448104334e-06,
      "loss": 1.4734,
      "mean_token_accuracy": 0.6454818745454153,
      "num_tokens": 2001759838.0,
      "step": 11937
    },
    {
      "entropy": 1.6881613234678905,
      "epoch": 1.3114443437422758,
      "grad_norm": 0.6710202693939209,
      "learning_rate": 7.04062655366724e-06,
      "loss": 1.3767,
      "mean_token_accuracy": 0.6576898495356241,
      "num_tokens": 2001927019.0,
      "step": 11938
    },
    {
      "entropy": 1.6877728005250294,
      "epoch": 1.3115542006536487,
      "grad_norm": 0.7258594036102295,
      "learning_rate": 7.039188751603525e-06,
      "loss": 1.2771,
      "mean_token_accuracy": 0.6696644773085912,
      "num_tokens": 2002100598.0,
      "step": 11939
    },
    {
      "entropy": 1.6909307440121968,
      "epoch": 1.3116640575650216,
      "grad_norm": 0.6466124057769775,
      "learning_rate": 7.037751074897698e-06,
      "loss": 1.5839,
      "mean_token_accuracy": 0.6439488381147385,
      "num_tokens": 2002336522.0,
      "step": 11940
    },
    {
      "entropy": 1.7181779742240906,
      "epoch": 1.3117739144763945,
      "grad_norm": 0.6814691424369812,
      "learning_rate": 7.036313523595266e-06,
      "loss": 1.4541,
      "mean_token_accuracy": 0.6534381111462911,
      "num_tokens": 2002516915.0,
      "step": 11941
    },
    {
      "entropy": 1.6743408739566803,
      "epoch": 1.3118837713877674,
      "grad_norm": 0.6737117171287537,
      "learning_rate": 7.034876097741723e-06,
      "loss": 1.3741,
      "mean_token_accuracy": 0.6632463186979294,
      "num_tokens": 2002703215.0,
      "step": 11942
    },
    {
      "entropy": 1.7161073585351307,
      "epoch": 1.3119936282991405,
      "grad_norm": 0.6047975420951843,
      "learning_rate": 7.033438797382568e-06,
      "loss": 1.3728,
      "mean_token_accuracy": 0.6500318894783655,
      "num_tokens": 2002862792.0,
      "step": 11943
    },
    {
      "entropy": 1.6879894336064656,
      "epoch": 1.3121034852105133,
      "grad_norm": 0.660843551158905,
      "learning_rate": 7.032001622563287e-06,
      "loss": 1.435,
      "mean_token_accuracy": 0.6527181764443716,
      "num_tokens": 2003060623.0,
      "step": 11944
    },
    {
      "entropy": 1.7308319707711537,
      "epoch": 1.3122133421218862,
      "grad_norm": 0.6762115359306335,
      "learning_rate": 7.030564573329364e-06,
      "loss": 1.3298,
      "mean_token_accuracy": 0.6627347220977148,
      "num_tokens": 2003226847.0,
      "step": 11945
    },
    {
      "entropy": 1.6313576400279999,
      "epoch": 1.3123231990332591,
      "grad_norm": 0.647402822971344,
      "learning_rate": 7.029127649726286e-06,
      "loss": 1.46,
      "mean_token_accuracy": 0.6542697101831436,
      "num_tokens": 2003413157.0,
      "step": 11946
    },
    {
      "entropy": 1.6898943781852722,
      "epoch": 1.312433055944632,
      "grad_norm": 0.6319282650947571,
      "learning_rate": 7.027690851799529e-06,
      "loss": 1.4451,
      "mean_token_accuracy": 0.6684151142835617,
      "num_tokens": 2003564249.0,
      "step": 11947
    },
    {
      "entropy": 1.6767113904158275,
      "epoch": 1.312542912856005,
      "grad_norm": 0.794843316078186,
      "learning_rate": 7.026254179594563e-06,
      "loss": 1.3385,
      "mean_token_accuracy": 0.6593736608823141,
      "num_tokens": 2003753111.0,
      "step": 11948
    },
    {
      "entropy": 1.7902327179908752,
      "epoch": 1.312652769767378,
      "grad_norm": 0.7606083154678345,
      "learning_rate": 7.024817633156862e-06,
      "loss": 1.5597,
      "mean_token_accuracy": 0.6477732261021932,
      "num_tokens": 2003905456.0,
      "step": 11949
    },
    {
      "entropy": 1.755109578371048,
      "epoch": 1.3127626266787509,
      "grad_norm": 0.7885520458221436,
      "learning_rate": 7.023381212531895e-06,
      "loss": 1.3244,
      "mean_token_accuracy": 0.6673354307810465,
      "num_tokens": 2004044077.0,
      "step": 11950
    },
    {
      "entropy": 1.7376815676689148,
      "epoch": 1.312872483590124,
      "grad_norm": 0.6872356534004211,
      "learning_rate": 7.02194491776512e-06,
      "loss": 1.4115,
      "mean_token_accuracy": 0.6557418157656988,
      "num_tokens": 2004214096.0,
      "step": 11951
    },
    {
      "entropy": 1.7242650091648102,
      "epoch": 1.3129823405014969,
      "grad_norm": 1.8172736167907715,
      "learning_rate": 7.020508748901993e-06,
      "loss": 1.181,
      "mean_token_accuracy": 0.6751060833533605,
      "num_tokens": 2004384350.0,
      "step": 11952
    },
    {
      "entropy": 1.7193986773490906,
      "epoch": 1.3130921974128698,
      "grad_norm": 0.7913485169410706,
      "learning_rate": 7.019072705987975e-06,
      "loss": 1.3648,
      "mean_token_accuracy": 0.6586080143849055,
      "num_tokens": 2004533962.0,
      "step": 11953
    },
    {
      "entropy": 1.7227738400300343,
      "epoch": 1.3132020543242426,
      "grad_norm": 0.6674314141273499,
      "learning_rate": 7.017636789068507e-06,
      "loss": 1.439,
      "mean_token_accuracy": 0.6552018125851949,
      "num_tokens": 2004682824.0,
      "step": 11954
    },
    {
      "entropy": 1.696447104215622,
      "epoch": 1.3133119112356155,
      "grad_norm": 0.7668749094009399,
      "learning_rate": 7.0162009981890445e-06,
      "loss": 1.2401,
      "mean_token_accuracy": 0.6790489206711451,
      "num_tokens": 2004823503.0,
      "step": 11955
    },
    {
      "entropy": 1.7591257691383362,
      "epoch": 1.3134217681469886,
      "grad_norm": 0.6392584443092346,
      "learning_rate": 7.014765333395026e-06,
      "loss": 1.4618,
      "mean_token_accuracy": 0.640847826997439,
      "num_tokens": 2005055675.0,
      "step": 11956
    },
    {
      "entropy": 1.7323053081830342,
      "epoch": 1.3135316250583615,
      "grad_norm": 0.7856550216674805,
      "learning_rate": 7.0133297947318845e-06,
      "loss": 1.2616,
      "mean_token_accuracy": 0.6696621626615524,
      "num_tokens": 2005187034.0,
      "step": 11957
    },
    {
      "entropy": 1.7238508264223735,
      "epoch": 1.3136414819697344,
      "grad_norm": 0.845143735408783,
      "learning_rate": 7.011894382245062e-06,
      "loss": 1.4599,
      "mean_token_accuracy": 0.6531222860018412,
      "num_tokens": 2005330183.0,
      "step": 11958
    },
    {
      "entropy": 1.7025631666183472,
      "epoch": 1.3137513388811073,
      "grad_norm": 0.7193249464035034,
      "learning_rate": 7.0104590959799845e-06,
      "loss": 1.322,
      "mean_token_accuracy": 0.6668793509403864,
      "num_tokens": 2005483599.0,
      "step": 11959
    },
    {
      "entropy": 1.721425364414851,
      "epoch": 1.3138611957924802,
      "grad_norm": 0.8288023471832275,
      "learning_rate": 7.009023935982076e-06,
      "loss": 1.3867,
      "mean_token_accuracy": 0.6620455334583918,
      "num_tokens": 2005630137.0,
      "step": 11960
    },
    {
      "entropy": 1.6998872856299083,
      "epoch": 1.3139710527038533,
      "grad_norm": 0.673412024974823,
      "learning_rate": 7.0075889022967625e-06,
      "loss": 1.5038,
      "mean_token_accuracy": 0.6355178554852804,
      "num_tokens": 2005829806.0,
      "step": 11961
    },
    {
      "entropy": 1.792010138432185,
      "epoch": 1.3140809096152262,
      "grad_norm": 0.805509090423584,
      "learning_rate": 7.0061539949694645e-06,
      "loss": 1.4613,
      "mean_token_accuracy": 0.6476135204235712,
      "num_tokens": 2005964524.0,
      "step": 11962
    },
    {
      "entropy": 1.7988332509994507,
      "epoch": 1.314190766526599,
      "grad_norm": 0.7284339666366577,
      "learning_rate": 7.004719214045592e-06,
      "loss": 1.4274,
      "mean_token_accuracy": 0.6368361463149389,
      "num_tokens": 2006085615.0,
      "step": 11963
    },
    {
      "entropy": 1.7714728315671284,
      "epoch": 1.3143006234379722,
      "grad_norm": 0.674480676651001,
      "learning_rate": 7.003284559570554e-06,
      "loss": 1.4091,
      "mean_token_accuracy": 0.6386928856372833,
      "num_tokens": 2006276341.0,
      "step": 11964
    },
    {
      "entropy": 1.7038045426209767,
      "epoch": 1.314410480349345,
      "grad_norm": 0.7045182585716248,
      "learning_rate": 7.001850031589761e-06,
      "loss": 1.4416,
      "mean_token_accuracy": 0.6599552830060323,
      "num_tokens": 2006435304.0,
      "step": 11965
    },
    {
      "entropy": 1.7020907998085022,
      "epoch": 1.314520337260718,
      "grad_norm": 0.7166406512260437,
      "learning_rate": 7.0004156301486095e-06,
      "loss": 1.3538,
      "mean_token_accuracy": 0.6714149415493011,
      "num_tokens": 2006545361.0,
      "step": 11966
    },
    {
      "entropy": 1.6336172918478649,
      "epoch": 1.3146301941720908,
      "grad_norm": 0.5933431386947632,
      "learning_rate": 6.998981355292505e-06,
      "loss": 1.4167,
      "mean_token_accuracy": 0.6494115591049194,
      "num_tokens": 2006711734.0,
      "step": 11967
    },
    {
      "entropy": 1.704167326291402,
      "epoch": 1.3147400510834637,
      "grad_norm": 0.6579341292381287,
      "learning_rate": 6.997547207066836e-06,
      "loss": 1.2635,
      "mean_token_accuracy": 0.6757092028856277,
      "num_tokens": 2006860103.0,
      "step": 11968
    },
    {
      "entropy": 1.725958655277888,
      "epoch": 1.3148499079948368,
      "grad_norm": 0.7082239389419556,
      "learning_rate": 6.996113185516993e-06,
      "loss": 1.3941,
      "mean_token_accuracy": 0.6522109111150106,
      "num_tokens": 2007005193.0,
      "step": 11969
    },
    {
      "entropy": 1.6946588456630707,
      "epoch": 1.3149597649062097,
      "grad_norm": 0.7615059614181519,
      "learning_rate": 6.994679290688366e-06,
      "loss": 1.3615,
      "mean_token_accuracy": 0.6599778831005096,
      "num_tokens": 2007176565.0,
      "step": 11970
    },
    {
      "entropy": 1.64273335536321,
      "epoch": 1.3150696218175826,
      "grad_norm": 0.6892207860946655,
      "learning_rate": 6.993245522626335e-06,
      "loss": 1.1621,
      "mean_token_accuracy": 0.6934431493282318,
      "num_tokens": 2007289708.0,
      "step": 11971
    },
    {
      "entropy": 1.7297363777955372,
      "epoch": 1.3151794787289555,
      "grad_norm": 0.7124273180961609,
      "learning_rate": 6.991811881376274e-06,
      "loss": 1.4418,
      "mean_token_accuracy": 0.641096313794454,
      "num_tokens": 2007489730.0,
      "step": 11972
    },
    {
      "entropy": 1.7163341144720714,
      "epoch": 1.3152893356403283,
      "grad_norm": 0.6671984195709229,
      "learning_rate": 6.990378366983563e-06,
      "loss": 1.4064,
      "mean_token_accuracy": 0.6469017068545023,
      "num_tokens": 2007658295.0,
      "step": 11973
    },
    {
      "entropy": 1.7121194104353588,
      "epoch": 1.3153991925517015,
      "grad_norm": 0.7968659400939941,
      "learning_rate": 6.9889449794935685e-06,
      "loss": 1.3539,
      "mean_token_accuracy": 0.6690041224161783,
      "num_tokens": 2007827861.0,
      "step": 11974
    },
    {
      "entropy": 1.7029815713564556,
      "epoch": 1.3155090494630743,
      "grad_norm": 0.6681612133979797,
      "learning_rate": 6.987511718951661e-06,
      "loss": 1.4541,
      "mean_token_accuracy": 0.6633522013823191,
      "num_tokens": 2008021545.0,
      "step": 11975
    },
    {
      "entropy": 1.727482130130132,
      "epoch": 1.3156189063744472,
      "grad_norm": 0.6855336427688599,
      "learning_rate": 6.9860785854032e-06,
      "loss": 1.5242,
      "mean_token_accuracy": 0.6396484598517418,
      "num_tokens": 2008216504.0,
      "step": 11976
    },
    {
      "entropy": 1.7152353723843892,
      "epoch": 1.3157287632858203,
      "grad_norm": 0.6966313123703003,
      "learning_rate": 6.9846455788935376e-06,
      "loss": 1.3325,
      "mean_token_accuracy": 0.6538062343994776,
      "num_tokens": 2008410271.0,
      "step": 11977
    },
    {
      "entropy": 1.7069965600967407,
      "epoch": 1.3158386201971932,
      "grad_norm": 0.6595732569694519,
      "learning_rate": 6.983212699468035e-06,
      "loss": 1.5271,
      "mean_token_accuracy": 0.6532554477453232,
      "num_tokens": 2008581622.0,
      "step": 11978
    },
    {
      "entropy": 1.6654066642125447,
      "epoch": 1.315948477108566,
      "grad_norm": 0.6108769774436951,
      "learning_rate": 6.981779947172047e-06,
      "loss": 1.4571,
      "mean_token_accuracy": 0.6504184703032175,
      "num_tokens": 2008773849.0,
      "step": 11979
    },
    {
      "entropy": 1.65288241704305,
      "epoch": 1.316058334019939,
      "grad_norm": 0.7052204608917236,
      "learning_rate": 6.980347322050905e-06,
      "loss": 1.2769,
      "mean_token_accuracy": 0.6784281581640244,
      "num_tokens": 2008965203.0,
      "step": 11980
    },
    {
      "entropy": 1.6817485094070435,
      "epoch": 1.3161681909313119,
      "grad_norm": 0.5673655867576599,
      "learning_rate": 6.97891482414996e-06,
      "loss": 1.3401,
      "mean_token_accuracy": 0.6604795058568319,
      "num_tokens": 2009142441.0,
      "step": 11981
    },
    {
      "entropy": 1.7240809003512065,
      "epoch": 1.316278047842685,
      "grad_norm": 0.6513432860374451,
      "learning_rate": 6.9774824535145525e-06,
      "loss": 1.4674,
      "mean_token_accuracy": 0.6503648559252421,
      "num_tokens": 2009350171.0,
      "step": 11982
    },
    {
      "entropy": 1.687408596277237,
      "epoch": 1.3163879047540579,
      "grad_norm": 1.6337801218032837,
      "learning_rate": 6.976050210190013e-06,
      "loss": 1.3665,
      "mean_token_accuracy": 0.6606544703245163,
      "num_tokens": 2009555178.0,
      "step": 11983
    },
    {
      "entropy": 1.7758075793584187,
      "epoch": 1.3164977616654308,
      "grad_norm": 0.7786139249801636,
      "learning_rate": 6.9746180942216676e-06,
      "loss": 1.3912,
      "mean_token_accuracy": 0.657907764116923,
      "num_tokens": 2009757056.0,
      "step": 11984
    },
    {
      "entropy": 1.7262560923894246,
      "epoch": 1.3166076185768036,
      "grad_norm": 0.5811822414398193,
      "learning_rate": 6.973186105654849e-06,
      "loss": 1.4709,
      "mean_token_accuracy": 0.6334926833709081,
      "num_tokens": 2009978729.0,
      "step": 11985
    },
    {
      "entropy": 1.7114702463150024,
      "epoch": 1.3167174754881765,
      "grad_norm": 0.6832294464111328,
      "learning_rate": 6.971754244534872e-06,
      "loss": 1.3515,
      "mean_token_accuracy": 0.6603354662656784,
      "num_tokens": 2010165090.0,
      "step": 11986
    },
    {
      "entropy": 1.7641779085000355,
      "epoch": 1.3168273323995496,
      "grad_norm": 0.694060742855072,
      "learning_rate": 6.97032251090706e-06,
      "loss": 1.3409,
      "mean_token_accuracy": 0.6643087863922119,
      "num_tokens": 2010274509.0,
      "step": 11987
    },
    {
      "entropy": 1.6871871054172516,
      "epoch": 1.3169371893109225,
      "grad_norm": 0.7732803821563721,
      "learning_rate": 6.9688909048167265e-06,
      "loss": 1.2772,
      "mean_token_accuracy": 0.6672064363956451,
      "num_tokens": 2010382893.0,
      "step": 11988
    },
    {
      "entropy": 1.679459939400355,
      "epoch": 1.3170470462222954,
      "grad_norm": 0.6008415818214417,
      "learning_rate": 6.967459426309175e-06,
      "loss": 1.3141,
      "mean_token_accuracy": 0.6672980437676111,
      "num_tokens": 2010528829.0,
      "step": 11989
    },
    {
      "entropy": 1.6381245056788127,
      "epoch": 1.3171569031336685,
      "grad_norm": 1.6934006214141846,
      "learning_rate": 6.966028075429716e-06,
      "loss": 1.0885,
      "mean_token_accuracy": 0.6874684443076452,
      "num_tokens": 2010687460.0,
      "step": 11990
    },
    {
      "entropy": 1.7382714649041493,
      "epoch": 1.3172667600450414,
      "grad_norm": 0.7133601307868958,
      "learning_rate": 6.9645968522236576e-06,
      "loss": 1.4665,
      "mean_token_accuracy": 0.6435732394456863,
      "num_tokens": 2010850045.0,
      "step": 11991
    },
    {
      "entropy": 1.736552745103836,
      "epoch": 1.3173766169564143,
      "grad_norm": 0.8156201243400574,
      "learning_rate": 6.963165756736283e-06,
      "loss": 1.3862,
      "mean_token_accuracy": 0.6678305069605509,
      "num_tokens": 2010981868.0,
      "step": 11992
    },
    {
      "entropy": 1.670212835073471,
      "epoch": 1.3174864738677872,
      "grad_norm": 0.6825160384178162,
      "learning_rate": 6.961734789012895e-06,
      "loss": 1.3759,
      "mean_token_accuracy": 0.6739961455265681,
      "num_tokens": 2011137705.0,
      "step": 11993
    },
    {
      "entropy": 1.7107898096243541,
      "epoch": 1.31759633077916,
      "grad_norm": 0.6937064528465271,
      "learning_rate": 6.9603039490987834e-06,
      "loss": 1.3964,
      "mean_token_accuracy": 0.6487229913473129,
      "num_tokens": 2011327696.0,
      "step": 11994
    },
    {
      "entropy": 1.7345775763193767,
      "epoch": 1.3177061876905332,
      "grad_norm": 0.7579020857810974,
      "learning_rate": 6.958873237039231e-06,
      "loss": 1.3378,
      "mean_token_accuracy": 0.6619026213884354,
      "num_tokens": 2011466276.0,
      "step": 11995
    },
    {
      "entropy": 1.6762347221374512,
      "epoch": 1.317816044601906,
      "grad_norm": 0.7532185912132263,
      "learning_rate": 6.957442652879516e-06,
      "loss": 1.3609,
      "mean_token_accuracy": 0.6672007888555527,
      "num_tokens": 2011583262.0,
      "step": 11996
    },
    {
      "entropy": 1.6885204215844472,
      "epoch": 1.317925901513279,
      "grad_norm": 0.8010686635971069,
      "learning_rate": 6.956012196664925e-06,
      "loss": 1.4232,
      "mean_token_accuracy": 0.6506709555784861,
      "num_tokens": 2011723412.0,
      "step": 11997
    },
    {
      "entropy": 1.687297483285268,
      "epoch": 1.3180357584246518,
      "grad_norm": 0.6130065321922302,
      "learning_rate": 6.95458186844072e-06,
      "loss": 1.4189,
      "mean_token_accuracy": 0.6468682587146759,
      "num_tokens": 2011927534.0,
      "step": 11998
    },
    {
      "entropy": 1.6592112084229786,
      "epoch": 1.3181456153360247,
      "grad_norm": 0.6361923217773438,
      "learning_rate": 6.9531516682521805e-06,
      "loss": 1.3959,
      "mean_token_accuracy": 0.6538289586702982,
      "num_tokens": 2012095512.0,
      "step": 11999
    },
    {
      "entropy": 1.682155708471934,
      "epoch": 1.3182554722473978,
      "grad_norm": 0.6887022852897644,
      "learning_rate": 6.951721596144566e-06,
      "loss": 1.4071,
      "mean_token_accuracy": 0.6655903309583664,
      "num_tokens": 2012261571.0,
      "step": 12000
    },
    {
      "entropy": 1.636295755704244,
      "epoch": 1.3183653291587707,
      "grad_norm": 0.8937088847160339,
      "learning_rate": 6.950291652163137e-06,
      "loss": 1.4039,
      "mean_token_accuracy": 0.6635189006725947,
      "num_tokens": 2012434032.0,
      "step": 12001
    },
    {
      "entropy": 1.7253755927085876,
      "epoch": 1.3184751860701436,
      "grad_norm": 0.6961193680763245,
      "learning_rate": 6.9488618363531515e-06,
      "loss": 1.4444,
      "mean_token_accuracy": 0.6477092305819193,
      "num_tokens": 2012624662.0,
      "step": 12002
    },
    {
      "entropy": 1.6379418571790059,
      "epoch": 1.3185850429815167,
      "grad_norm": 0.7339573502540588,
      "learning_rate": 6.947432148759871e-06,
      "loss": 1.2261,
      "mean_token_accuracy": 0.6745143185059229,
      "num_tokens": 2012745932.0,
      "step": 12003
    },
    {
      "entropy": 1.6386353770891826,
      "epoch": 1.3186948998928896,
      "grad_norm": 0.6927421689033508,
      "learning_rate": 6.946002589428528e-06,
      "loss": 1.3068,
      "mean_token_accuracy": 0.6671117693185806,
      "num_tokens": 2012919590.0,
      "step": 12004
    },
    {
      "entropy": 1.7081229587395985,
      "epoch": 1.3188047568042625,
      "grad_norm": 0.7358942627906799,
      "learning_rate": 6.9445731584043776e-06,
      "loss": 1.4894,
      "mean_token_accuracy": 0.6323947161436081,
      "num_tokens": 2013142770.0,
      "step": 12005
    },
    {
      "entropy": 1.6147757669289906,
      "epoch": 1.3189146137156353,
      "grad_norm": 0.6353159546852112,
      "learning_rate": 6.943143855732662e-06,
      "loss": 1.2623,
      "mean_token_accuracy": 0.6711504012346268,
      "num_tokens": 2013315444.0,
      "step": 12006
    },
    {
      "entropy": 1.7047906319300334,
      "epoch": 1.3190244706270082,
      "grad_norm": 0.8190060257911682,
      "learning_rate": 6.941714681458617e-06,
      "loss": 1.3866,
      "mean_token_accuracy": 0.6565055847167969,
      "num_tokens": 2013477090.0,
      "step": 12007
    },
    {
      "entropy": 1.734445333480835,
      "epoch": 1.3191343275383813,
      "grad_norm": 0.5961945056915283,
      "learning_rate": 6.940285635627468e-06,
      "loss": 1.4759,
      "mean_token_accuracy": 0.6589976797501246,
      "num_tokens": 2013679313.0,
      "step": 12008
    },
    {
      "entropy": 1.7090435028076172,
      "epoch": 1.3192441844497542,
      "grad_norm": 0.7113987803459167,
      "learning_rate": 6.9388567182844545e-06,
      "loss": 1.5274,
      "mean_token_accuracy": 0.6512242555618286,
      "num_tokens": 2013869597.0,
      "step": 12009
    },
    {
      "entropy": 1.708377093076706,
      "epoch": 1.319354041361127,
      "grad_norm": 0.6466943025588989,
      "learning_rate": 6.9374279294747914e-06,
      "loss": 1.3696,
      "mean_token_accuracy": 0.657651330033938,
      "num_tokens": 2014060463.0,
      "step": 12010
    },
    {
      "entropy": 1.7558682362238567,
      "epoch": 1.3194638982725,
      "grad_norm": 0.6701050400733948,
      "learning_rate": 6.9359992692437074e-06,
      "loss": 1.5358,
      "mean_token_accuracy": 0.6455720663070679,
      "num_tokens": 2014230820.0,
      "step": 12011
    },
    {
      "entropy": 1.716192901134491,
      "epoch": 1.3195737551838729,
      "grad_norm": 0.6614550948143005,
      "learning_rate": 6.934570737636415e-06,
      "loss": 1.3733,
      "mean_token_accuracy": 0.6561314910650253,
      "num_tokens": 2014358023.0,
      "step": 12012
    },
    {
      "entropy": 1.7146589954694111,
      "epoch": 1.319683612095246,
      "grad_norm": 0.8411096930503845,
      "learning_rate": 6.933142334698126e-06,
      "loss": 1.504,
      "mean_token_accuracy": 0.6503568341334661,
      "num_tokens": 2014493658.0,
      "step": 12013
    },
    {
      "entropy": 1.656291385491689,
      "epoch": 1.3197934690066189,
      "grad_norm": 0.6897427439689636,
      "learning_rate": 6.931714060474051e-06,
      "loss": 1.3497,
      "mean_token_accuracy": 0.6640297720829645,
      "num_tokens": 2014639448.0,
      "step": 12014
    },
    {
      "entropy": 1.7179415325323741,
      "epoch": 1.3199033259179918,
      "grad_norm": 0.8011785745620728,
      "learning_rate": 6.930285915009391e-06,
      "loss": 1.4384,
      "mean_token_accuracy": 0.6595332821210226,
      "num_tokens": 2014781669.0,
      "step": 12015
    },
    {
      "entropy": 1.6988608439763386,
      "epoch": 1.3200131828293649,
      "grad_norm": 0.7006280422210693,
      "learning_rate": 6.928857898349347e-06,
      "loss": 1.4754,
      "mean_token_accuracy": 0.6605327129364014,
      "num_tokens": 2014956142.0,
      "step": 12016
    },
    {
      "entropy": 1.7000405689080555,
      "epoch": 1.3201230397407377,
      "grad_norm": 0.8182290196418762,
      "learning_rate": 6.927430010539115e-06,
      "loss": 1.5508,
      "mean_token_accuracy": 0.6524588018655777,
      "num_tokens": 2015126652.0,
      "step": 12017
    },
    {
      "entropy": 1.6618265112241108,
      "epoch": 1.3202328966521106,
      "grad_norm": 0.7501579523086548,
      "learning_rate": 6.9260022516238915e-06,
      "loss": 1.402,
      "mean_token_accuracy": 0.6613495101531347,
      "num_tokens": 2015257773.0,
      "step": 12018
    },
    {
      "entropy": 1.7788889408111572,
      "epoch": 1.3203427535634835,
      "grad_norm": 0.7341859936714172,
      "learning_rate": 6.924574621648861e-06,
      "loss": 1.3527,
      "mean_token_accuracy": 0.6608054389556249,
      "num_tokens": 2015397071.0,
      "step": 12019
    },
    {
      "entropy": 1.7242496609687805,
      "epoch": 1.3204526104748564,
      "grad_norm": 0.6629573702812195,
      "learning_rate": 6.923147120659204e-06,
      "loss": 1.4938,
      "mean_token_accuracy": 0.6375502049922943,
      "num_tokens": 2015580976.0,
      "step": 12020
    },
    {
      "entropy": 1.6560555597146351,
      "epoch": 1.3205624673862295,
      "grad_norm": 0.6642670035362244,
      "learning_rate": 6.921719748700107e-06,
      "loss": 1.3582,
      "mean_token_accuracy": 0.6535757084687551,
      "num_tokens": 2015763946.0,
      "step": 12021
    },
    {
      "entropy": 1.768319457769394,
      "epoch": 1.3206723242976024,
      "grad_norm": 0.7571823596954346,
      "learning_rate": 6.9202925058167395e-06,
      "loss": 1.41,
      "mean_token_accuracy": 0.64376833041509,
      "num_tokens": 2015909480.0,
      "step": 12022
    },
    {
      "entropy": 1.6888968745867412,
      "epoch": 1.3207821812089753,
      "grad_norm": 0.6024224758148193,
      "learning_rate": 6.918865392054276e-06,
      "loss": 1.4121,
      "mean_token_accuracy": 0.6446995933850607,
      "num_tokens": 2016132439.0,
      "step": 12023
    },
    {
      "entropy": 1.6744337181250255,
      "epoch": 1.3208920381203482,
      "grad_norm": 0.6757270097732544,
      "learning_rate": 6.917438407457888e-06,
      "loss": 1.4779,
      "mean_token_accuracy": 0.6477493494749069,
      "num_tokens": 2016327301.0,
      "step": 12024
    },
    {
      "entropy": 1.6705586810906727,
      "epoch": 1.321001895031721,
      "grad_norm": 0.6879779696464539,
      "learning_rate": 6.916011552072729e-06,
      "loss": 1.3824,
      "mean_token_accuracy": 0.6512851764758428,
      "num_tokens": 2016514623.0,
      "step": 12025
    },
    {
      "entropy": 1.6962314943472545,
      "epoch": 1.3211117519430942,
      "grad_norm": 0.7470236420631409,
      "learning_rate": 6.9145848259439676e-06,
      "loss": 1.3411,
      "mean_token_accuracy": 0.6559085547924042,
      "num_tokens": 2016664612.0,
      "step": 12026
    },
    {
      "entropy": 1.6964036126931508,
      "epoch": 1.321221608854467,
      "grad_norm": 0.6507591009140015,
      "learning_rate": 6.913158229116755e-06,
      "loss": 1.3099,
      "mean_token_accuracy": 0.6590965191523234,
      "num_tokens": 2016862328.0,
      "step": 12027
    },
    {
      "entropy": 1.6942812999089558,
      "epoch": 1.32133146576584,
      "grad_norm": 0.8158959150314331,
      "learning_rate": 6.911731761636241e-06,
      "loss": 1.2446,
      "mean_token_accuracy": 0.6787735968828201,
      "num_tokens": 2016988531.0,
      "step": 12028
    },
    {
      "entropy": 1.6633458336194356,
      "epoch": 1.321441322677213,
      "grad_norm": 0.7270153760910034,
      "learning_rate": 6.910305423547574e-06,
      "loss": 1.4116,
      "mean_token_accuracy": 0.6561925808588663,
      "num_tokens": 2017194398.0,
      "step": 12029
    },
    {
      "entropy": 1.7125836710135143,
      "epoch": 1.321551179588586,
      "grad_norm": 0.7208383083343506,
      "learning_rate": 6.908879214895902e-06,
      "loss": 1.5425,
      "mean_token_accuracy": 0.629949559768041,
      "num_tokens": 2017344053.0,
      "step": 12030
    },
    {
      "entropy": 1.6911011735598247,
      "epoch": 1.3216610364999588,
      "grad_norm": 0.6760180592536926,
      "learning_rate": 6.907453135726358e-06,
      "loss": 1.2465,
      "mean_token_accuracy": 0.6811218510071436,
      "num_tokens": 2017484897.0,
      "step": 12031
    },
    {
      "entropy": 1.7392044166723888,
      "epoch": 1.3217708934113317,
      "grad_norm": 0.6357057094573975,
      "learning_rate": 6.906027186084079e-06,
      "loss": 1.4049,
      "mean_token_accuracy": 0.6535494228204092,
      "num_tokens": 2017680899.0,
      "step": 12032
    },
    {
      "entropy": 1.7378877997398376,
      "epoch": 1.3218807503227046,
      "grad_norm": 0.7144643664360046,
      "learning_rate": 6.9046013660141895e-06,
      "loss": 1.4085,
      "mean_token_accuracy": 0.6645797441403071,
      "num_tokens": 2017822147.0,
      "step": 12033
    },
    {
      "entropy": 1.67686927318573,
      "epoch": 1.3219906072340777,
      "grad_norm": 0.6405379772186279,
      "learning_rate": 6.903175675561823e-06,
      "loss": 1.5225,
      "mean_token_accuracy": 0.6583962291479111,
      "num_tokens": 2018060459.0,
      "step": 12034
    },
    {
      "entropy": 1.7921959658463795,
      "epoch": 1.3221004641454506,
      "grad_norm": 0.6897278428077698,
      "learning_rate": 6.901750114772107e-06,
      "loss": 1.5251,
      "mean_token_accuracy": 0.6415904760360718,
      "num_tokens": 2018209159.0,
      "step": 12035
    },
    {
      "entropy": 1.748464286327362,
      "epoch": 1.3222103210568235,
      "grad_norm": 0.7679427862167358,
      "learning_rate": 6.900324683690145e-06,
      "loss": 1.2433,
      "mean_token_accuracy": 0.6749467998743057,
      "num_tokens": 2018314401.0,
      "step": 12036
    },
    {
      "entropy": 1.808843304713567,
      "epoch": 1.3223201779681963,
      "grad_norm": 0.6774364709854126,
      "learning_rate": 6.8988993823610595e-06,
      "loss": 1.5223,
      "mean_token_accuracy": 0.646757240096728,
      "num_tokens": 2018473445.0,
      "step": 12037
    },
    {
      "entropy": 1.7024830679098766,
      "epoch": 1.3224300348795692,
      "grad_norm": 0.6565459966659546,
      "learning_rate": 6.897474210829965e-06,
      "loss": 1.4297,
      "mean_token_accuracy": 0.6503916382789612,
      "num_tokens": 2018649350.0,
      "step": 12038
    },
    {
      "entropy": 1.6916101773579915,
      "epoch": 1.3225398917909423,
      "grad_norm": 0.7631819248199463,
      "learning_rate": 6.896049169141964e-06,
      "loss": 1.4192,
      "mean_token_accuracy": 0.6639653344949087,
      "num_tokens": 2018818121.0,
      "step": 12039
    },
    {
      "entropy": 1.6281659305095673,
      "epoch": 1.3226497487023152,
      "grad_norm": 0.6123877167701721,
      "learning_rate": 6.894624257342153e-06,
      "loss": 1.3443,
      "mean_token_accuracy": 0.6637972791989645,
      "num_tokens": 2018982855.0,
      "step": 12040
    },
    {
      "entropy": 1.6332585612932842,
      "epoch": 1.322759605613688,
      "grad_norm": 0.6782002449035645,
      "learning_rate": 6.893199475475638e-06,
      "loss": 1.4276,
      "mean_token_accuracy": 0.6608372827370962,
      "num_tokens": 2019181386.0,
      "step": 12041
    },
    {
      "entropy": 1.6969127257664998,
      "epoch": 1.3228694625250612,
      "grad_norm": 0.751428484916687,
      "learning_rate": 6.891774823587505e-06,
      "loss": 1.4005,
      "mean_token_accuracy": 0.6656929155190786,
      "num_tokens": 2019326811.0,
      "step": 12042
    },
    {
      "entropy": 1.6707496643066406,
      "epoch": 1.322979319436434,
      "grad_norm": 0.6801748871803284,
      "learning_rate": 6.890350301722852e-06,
      "loss": 1.405,
      "mean_token_accuracy": 0.6508347243070602,
      "num_tokens": 2019497430.0,
      "step": 12043
    },
    {
      "entropy": 1.770410180091858,
      "epoch": 1.323089176347807,
      "grad_norm": 0.6442971229553223,
      "learning_rate": 6.888925909926758e-06,
      "loss": 1.4553,
      "mean_token_accuracy": 0.6529978712399801,
      "num_tokens": 2019663455.0,
      "step": 12044
    },
    {
      "entropy": 1.7813760836919148,
      "epoch": 1.3231990332591799,
      "grad_norm": 0.7301626801490784,
      "learning_rate": 6.887501648244306e-06,
      "loss": 1.3938,
      "mean_token_accuracy": 0.6543681472539902,
      "num_tokens": 2019814550.0,
      "step": 12045
    },
    {
      "entropy": 1.7918006579081218,
      "epoch": 1.3233088901705528,
      "grad_norm": 0.7231292724609375,
      "learning_rate": 6.886077516720572e-06,
      "loss": 1.614,
      "mean_token_accuracy": 0.6222240428129832,
      "num_tokens": 2020042991.0,
      "step": 12046
    },
    {
      "entropy": 1.6463509897391002,
      "epoch": 1.3234187470819259,
      "grad_norm": 0.6251701712608337,
      "learning_rate": 6.8846535154006385e-06,
      "loss": 1.3859,
      "mean_token_accuracy": 0.667206252614657,
      "num_tokens": 2020213466.0,
      "step": 12047
    },
    {
      "entropy": 1.739404598871867,
      "epoch": 1.3235286039932987,
      "grad_norm": 0.7523561716079712,
      "learning_rate": 6.8832296443295585e-06,
      "loss": 1.4522,
      "mean_token_accuracy": 0.648137629032135,
      "num_tokens": 2020366099.0,
      "step": 12048
    },
    {
      "entropy": 1.6742408871650696,
      "epoch": 1.3236384609046716,
      "grad_norm": 0.7165248394012451,
      "learning_rate": 6.881805903552408e-06,
      "loss": 1.4481,
      "mean_token_accuracy": 0.6673527806997299,
      "num_tokens": 2020537306.0,
      "step": 12049
    },
    {
      "entropy": 1.7045758267243702,
      "epoch": 1.3237483178160447,
      "grad_norm": 0.7423866987228394,
      "learning_rate": 6.880382293114245e-06,
      "loss": 1.4574,
      "mean_token_accuracy": 0.6491605639457703,
      "num_tokens": 2020660666.0,
      "step": 12050
    },
    {
      "entropy": 1.7853013277053833,
      "epoch": 1.3238581747274174,
      "grad_norm": 0.6766754984855652,
      "learning_rate": 6.878958813060127e-06,
      "loss": 1.3687,
      "mean_token_accuracy": 0.6513369977474213,
      "num_tokens": 2020832651.0,
      "step": 12051
    },
    {
      "entropy": 1.657790740331014,
      "epoch": 1.3239680316387905,
      "grad_norm": 0.6425931453704834,
      "learning_rate": 6.877535463435103e-06,
      "loss": 1.3053,
      "mean_token_accuracy": 0.6669684946537018,
      "num_tokens": 2020962525.0,
      "step": 12052
    },
    {
      "entropy": 1.6860653658707936,
      "epoch": 1.3240778885501634,
      "grad_norm": 0.6832910180091858,
      "learning_rate": 6.876112244284228e-06,
      "loss": 1.2645,
      "mean_token_accuracy": 0.6669280380010605,
      "num_tokens": 2021106646.0,
      "step": 12053
    },
    {
      "entropy": 1.693892925977707,
      "epoch": 1.3241877454615363,
      "grad_norm": 0.5836326479911804,
      "learning_rate": 6.874689155652537e-06,
      "loss": 1.4917,
      "mean_token_accuracy": 0.6535281638304392,
      "num_tokens": 2021316957.0,
      "step": 12054
    },
    {
      "entropy": 1.7312416632970173,
      "epoch": 1.3242976023729094,
      "grad_norm": 0.9197054505348206,
      "learning_rate": 6.873266197585079e-06,
      "loss": 1.4773,
      "mean_token_accuracy": 0.6464556207259496,
      "num_tokens": 2021458891.0,
      "step": 12055
    },
    {
      "entropy": 1.6423344214757283,
      "epoch": 1.3244074592842823,
      "grad_norm": 0.5606783628463745,
      "learning_rate": 6.8718433701268885e-06,
      "loss": 1.2475,
      "mean_token_accuracy": 0.6767958799997965,
      "num_tokens": 2021632253.0,
      "step": 12056
    },
    {
      "entropy": 1.7067996362845104,
      "epoch": 1.3245173161956552,
      "grad_norm": 0.5830101370811462,
      "learning_rate": 6.870420673322988e-06,
      "loss": 1.393,
      "mean_token_accuracy": 0.6444303045670191,
      "num_tokens": 2021840691.0,
      "step": 12057
    },
    {
      "entropy": 1.745294988155365,
      "epoch": 1.324627173107028,
      "grad_norm": 0.6736421585083008,
      "learning_rate": 6.8689981072184166e-06,
      "loss": 1.402,
      "mean_token_accuracy": 0.6488266239563624,
      "num_tokens": 2021994717.0,
      "step": 12058
    },
    {
      "entropy": 1.7859689891338348,
      "epoch": 1.324737030018401,
      "grad_norm": 0.7754059433937073,
      "learning_rate": 6.867575671858197e-06,
      "loss": 1.4224,
      "mean_token_accuracy": 0.641977791984876,
      "num_tokens": 2022184817.0,
      "step": 12059
    },
    {
      "entropy": 1.6727923055489857,
      "epoch": 1.324846886929774,
      "grad_norm": 0.6476246118545532,
      "learning_rate": 6.86615336728734e-06,
      "loss": 1.3758,
      "mean_token_accuracy": 0.6541973451773325,
      "num_tokens": 2022383266.0,
      "step": 12060
    },
    {
      "entropy": 1.7898275355497997,
      "epoch": 1.324956743841147,
      "grad_norm": 0.8410981297492981,
      "learning_rate": 6.864731193550867e-06,
      "loss": 1.3628,
      "mean_token_accuracy": 0.6513276447852453,
      "num_tokens": 2022514087.0,
      "step": 12061
    },
    {
      "entropy": 1.658981204032898,
      "epoch": 1.3250666007525198,
      "grad_norm": 0.7151813507080078,
      "learning_rate": 6.863309150693789e-06,
      "loss": 1.3358,
      "mean_token_accuracy": 0.6637451301018397,
      "num_tokens": 2022697233.0,
      "step": 12062
    },
    {
      "entropy": 1.723794678846995,
      "epoch": 1.325176457663893,
      "grad_norm": 0.706913411617279,
      "learning_rate": 6.861887238761116e-06,
      "loss": 1.4122,
      "mean_token_accuracy": 0.6545346329609553,
      "num_tokens": 2022854156.0,
      "step": 12063
    },
    {
      "entropy": 1.7677522897720337,
      "epoch": 1.3252863145752656,
      "grad_norm": 0.6113898158073425,
      "learning_rate": 6.86046545779784e-06,
      "loss": 1.5288,
      "mean_token_accuracy": 0.6368463883797327,
      "num_tokens": 2023116448.0,
      "step": 12064
    },
    {
      "entropy": 1.7364682853221893,
      "epoch": 1.3253961714866387,
      "grad_norm": 0.6671069860458374,
      "learning_rate": 6.859043807848973e-06,
      "loss": 1.4571,
      "mean_token_accuracy": 0.6500351677338282,
      "num_tokens": 2023293074.0,
      "step": 12065
    },
    {
      "entropy": 1.726439744234085,
      "epoch": 1.3255060283980116,
      "grad_norm": 0.6300005912780762,
      "learning_rate": 6.8576222889595e-06,
      "loss": 1.3818,
      "mean_token_accuracy": 0.6553014020125071,
      "num_tokens": 2023473442.0,
      "step": 12066
    },
    {
      "entropy": 1.7023302714029949,
      "epoch": 1.3256158853093845,
      "grad_norm": 0.7470946311950684,
      "learning_rate": 6.856200901174417e-06,
      "loss": 1.5458,
      "mean_token_accuracy": 0.6382872660954794,
      "num_tokens": 2023630081.0,
      "step": 12067
    },
    {
      "entropy": 1.7234592040379841,
      "epoch": 1.3257257422207576,
      "grad_norm": 0.7340896129608154,
      "learning_rate": 6.854779644538708e-06,
      "loss": 1.4096,
      "mean_token_accuracy": 0.6467949201663336,
      "num_tokens": 2023806667.0,
      "step": 12068
    },
    {
      "entropy": 1.735681543747584,
      "epoch": 1.3258355991321304,
      "grad_norm": 0.7612413763999939,
      "learning_rate": 6.853358519097353e-06,
      "loss": 1.5394,
      "mean_token_accuracy": 0.6362536748250326,
      "num_tokens": 2023996526.0,
      "step": 12069
    },
    {
      "entropy": 1.6876520315806072,
      "epoch": 1.3259454560435033,
      "grad_norm": 0.7015395164489746,
      "learning_rate": 6.851937524895334e-06,
      "loss": 1.3935,
      "mean_token_accuracy": 0.6509424696365992,
      "num_tokens": 2024153887.0,
      "step": 12070
    },
    {
      "entropy": 1.7338077227274578,
      "epoch": 1.3260553129548762,
      "grad_norm": 0.7074576020240784,
      "learning_rate": 6.850516661977626e-06,
      "loss": 1.4231,
      "mean_token_accuracy": 0.6674382239580154,
      "num_tokens": 2024314815.0,
      "step": 12071
    },
    {
      "entropy": 1.7138215899467468,
      "epoch": 1.326165169866249,
      "grad_norm": 0.7921140789985657,
      "learning_rate": 6.849095930389193e-06,
      "loss": 1.3343,
      "mean_token_accuracy": 0.6653185288111368,
      "num_tokens": 2024439564.0,
      "step": 12072
    },
    {
      "entropy": 1.7277231812477112,
      "epoch": 1.3262750267776222,
      "grad_norm": 0.6742545366287231,
      "learning_rate": 6.847675330175001e-06,
      "loss": 1.5814,
      "mean_token_accuracy": 0.6412968585888544,
      "num_tokens": 2024634239.0,
      "step": 12073
    },
    {
      "entropy": 1.6866126358509064,
      "epoch": 1.326384883688995,
      "grad_norm": 0.6755991578102112,
      "learning_rate": 6.8462548613800176e-06,
      "loss": 1.3887,
      "mean_token_accuracy": 0.6467768748601278,
      "num_tokens": 2024837409.0,
      "step": 12074
    },
    {
      "entropy": 1.763855755329132,
      "epoch": 1.326494740600368,
      "grad_norm": 0.8013515472412109,
      "learning_rate": 6.844834524049198e-06,
      "loss": 1.4646,
      "mean_token_accuracy": 0.6409885436296463,
      "num_tokens": 2025036012.0,
      "step": 12075
    },
    {
      "entropy": 1.765538622935613,
      "epoch": 1.326604597511741,
      "grad_norm": 0.6882338523864746,
      "learning_rate": 6.843414318227486e-06,
      "loss": 1.3705,
      "mean_token_accuracy": 0.6453090657790502,
      "num_tokens": 2025164469.0,
      "step": 12076
    },
    {
      "entropy": 1.6984353959560394,
      "epoch": 1.326714454423114,
      "grad_norm": 0.7873267531394958,
      "learning_rate": 6.8419942439598445e-06,
      "loss": 1.5014,
      "mean_token_accuracy": 0.6472826500733694,
      "num_tokens": 2025344537.0,
      "step": 12077
    },
    {
      "entropy": 1.7276420692602794,
      "epoch": 1.3268243113344869,
      "grad_norm": 0.6308796405792236,
      "learning_rate": 6.8405743012912074e-06,
      "loss": 1.3326,
      "mean_token_accuracy": 0.6528024027744929,
      "num_tokens": 2025488514.0,
      "step": 12078
    },
    {
      "entropy": 1.7100607454776764,
      "epoch": 1.3269341682458597,
      "grad_norm": 0.6320695877075195,
      "learning_rate": 6.839154490266521e-06,
      "loss": 1.377,
      "mean_token_accuracy": 0.6606988708178202,
      "num_tokens": 2025632637.0,
      "step": 12079
    },
    {
      "entropy": 1.730517605940501,
      "epoch": 1.3270440251572326,
      "grad_norm": 0.9139355421066284,
      "learning_rate": 6.837734810930722e-06,
      "loss": 1.242,
      "mean_token_accuracy": 0.68810007472833,
      "num_tokens": 2025747502.0,
      "step": 12080
    },
    {
      "entropy": 1.695272147655487,
      "epoch": 1.3271538820686057,
      "grad_norm": 0.6435163021087646,
      "learning_rate": 6.836315263328737e-06,
      "loss": 1.4986,
      "mean_token_accuracy": 0.6545588473478953,
      "num_tokens": 2025962120.0,
      "step": 12081
    },
    {
      "entropy": 1.6857863465944927,
      "epoch": 1.3272637389799786,
      "grad_norm": 0.7062543630599976,
      "learning_rate": 6.834895847505496e-06,
      "loss": 1.3823,
      "mean_token_accuracy": 0.6642873833576838,
      "num_tokens": 2026100917.0,
      "step": 12082
    },
    {
      "entropy": 1.6795487602551777,
      "epoch": 1.3273735958913515,
      "grad_norm": 0.6519520282745361,
      "learning_rate": 6.833476563505934e-06,
      "loss": 1.454,
      "mean_token_accuracy": 0.6510899215936661,
      "num_tokens": 2026281990.0,
      "step": 12083
    },
    {
      "entropy": 1.7207885682582855,
      "epoch": 1.3274834528027244,
      "grad_norm": 0.5761967301368713,
      "learning_rate": 6.8320574113749535e-06,
      "loss": 1.4114,
      "mean_token_accuracy": 0.6519269794225693,
      "num_tokens": 2026492957.0,
      "step": 12084
    },
    {
      "entropy": 1.7370118896166484,
      "epoch": 1.3275933097140973,
      "grad_norm": 1.0227420330047607,
      "learning_rate": 6.830638391157478e-06,
      "loss": 1.3871,
      "mean_token_accuracy": 0.6556207984685898,
      "num_tokens": 2026647880.0,
      "step": 12085
    },
    {
      "entropy": 1.7096319099267323,
      "epoch": 1.3277031666254704,
      "grad_norm": 0.6812415719032288,
      "learning_rate": 6.829219502898421e-06,
      "loss": 1.3995,
      "mean_token_accuracy": 0.6833713253339132,
      "num_tokens": 2026809514.0,
      "step": 12086
    },
    {
      "entropy": 1.704438676436742,
      "epoch": 1.3278130235368433,
      "grad_norm": 0.7178927063941956,
      "learning_rate": 6.827800746642688e-06,
      "loss": 1.5393,
      "mean_token_accuracy": 0.6350291073322296,
      "num_tokens": 2027020403.0,
      "step": 12087
    },
    {
      "entropy": 1.6621620655059814,
      "epoch": 1.3279228804482162,
      "grad_norm": 0.7681390643119812,
      "learning_rate": 6.826382122435178e-06,
      "loss": 1.3886,
      "mean_token_accuracy": 0.6718294769525528,
      "num_tokens": 2027223142.0,
      "step": 12088
    },
    {
      "entropy": 1.6573795974254608,
      "epoch": 1.3280327373595893,
      "grad_norm": 0.6329140067100525,
      "learning_rate": 6.824963630320798e-06,
      "loss": 1.3725,
      "mean_token_accuracy": 0.6754241387049357,
      "num_tokens": 2027379460.0,
      "step": 12089
    },
    {
      "entropy": 1.6735499898592632,
      "epoch": 1.3281425942709622,
      "grad_norm": 0.780312180519104,
      "learning_rate": 6.823545270344432e-06,
      "loss": 1.3158,
      "mean_token_accuracy": 0.6761320730050405,
      "num_tokens": 2027511602.0,
      "step": 12090
    },
    {
      "entropy": 1.7244892517725627,
      "epoch": 1.328252451182335,
      "grad_norm": 0.796455442905426,
      "learning_rate": 6.822127042550983e-06,
      "loss": 1.2815,
      "mean_token_accuracy": 0.6747524440288544,
      "num_tokens": 2027691642.0,
      "step": 12091
    },
    {
      "entropy": 1.6727336744467418,
      "epoch": 1.328362308093708,
      "grad_norm": 0.5619511604309082,
      "learning_rate": 6.820708946985325e-06,
      "loss": 1.3715,
      "mean_token_accuracy": 0.6650692274173101,
      "num_tokens": 2027869176.0,
      "step": 12092
    },
    {
      "entropy": 1.6756927768389385,
      "epoch": 1.3284721650050808,
      "grad_norm": 0.6625829935073853,
      "learning_rate": 6.819290983692346e-06,
      "loss": 1.2637,
      "mean_token_accuracy": 0.6874003559350967,
      "num_tokens": 2028019901.0,
      "step": 12093
    },
    {
      "entropy": 1.6760556896527607,
      "epoch": 1.328582021916454,
      "grad_norm": 0.6881618499755859,
      "learning_rate": 6.817873152716925e-06,
      "loss": 1.41,
      "mean_token_accuracy": 0.6657233734925588,
      "num_tokens": 2028184898.0,
      "step": 12094
    },
    {
      "entropy": 1.7184965113798778,
      "epoch": 1.3286918788278268,
      "grad_norm": 0.6784566640853882,
      "learning_rate": 6.816455454103936e-06,
      "loss": 1.4383,
      "mean_token_accuracy": 0.6545319110155106,
      "num_tokens": 2028337020.0,
      "step": 12095
    },
    {
      "entropy": 1.6974100073178608,
      "epoch": 1.3288017357391997,
      "grad_norm": 0.623323380947113,
      "learning_rate": 6.815037887898243e-06,
      "loss": 1.5349,
      "mean_token_accuracy": 0.6560999403397242,
      "num_tokens": 2028506971.0,
      "step": 12096
    },
    {
      "entropy": 1.6983208358287811,
      "epoch": 1.3289115926505726,
      "grad_norm": 0.7683018445968628,
      "learning_rate": 6.813620454144718e-06,
      "loss": 1.3477,
      "mean_token_accuracy": 0.663595899939537,
      "num_tokens": 2028724476.0,
      "step": 12097
    },
    {
      "entropy": 1.701758086681366,
      "epoch": 1.3290214495619455,
      "grad_norm": 0.7559242248535156,
      "learning_rate": 6.812203152888216e-06,
      "loss": 1.3109,
      "mean_token_accuracy": 0.6690565794706345,
      "num_tokens": 2028875421.0,
      "step": 12098
    },
    {
      "entropy": 1.722754289706548,
      "epoch": 1.3291313064733186,
      "grad_norm": 0.6389537453651428,
      "learning_rate": 6.8107859841736e-06,
      "loss": 1.3986,
      "mean_token_accuracy": 0.6538368314504623,
      "num_tokens": 2029057890.0,
      "step": 12099
    },
    {
      "entropy": 1.7785523335138957,
      "epoch": 1.3292411633846914,
      "grad_norm": 0.7880353927612305,
      "learning_rate": 6.80936894804572e-06,
      "loss": 1.3391,
      "mean_token_accuracy": 0.6652881453434626,
      "num_tokens": 2029173437.0,
      "step": 12100
    },
    {
      "entropy": 1.6625278691450756,
      "epoch": 1.3293510202960643,
      "grad_norm": 0.715702474117279,
      "learning_rate": 6.807952044549422e-06,
      "loss": 1.2885,
      "mean_token_accuracy": 0.6675082196791967,
      "num_tokens": 2029315644.0,
      "step": 12101
    },
    {
      "entropy": 1.7816561063130696,
      "epoch": 1.3294608772074374,
      "grad_norm": 0.6899002194404602,
      "learning_rate": 6.806535273729551e-06,
      "loss": 1.5393,
      "mean_token_accuracy": 0.6315892537434896,
      "num_tokens": 2029493296.0,
      "step": 12102
    },
    {
      "entropy": 1.6816334029038746,
      "epoch": 1.3295707341188103,
      "grad_norm": 0.6617991328239441,
      "learning_rate": 6.8051186356309585e-06,
      "loss": 1.2528,
      "mean_token_accuracy": 0.6830165733893713,
      "num_tokens": 2029629625.0,
      "step": 12103
    },
    {
      "entropy": 1.750120351711909,
      "epoch": 1.3296805910301832,
      "grad_norm": 0.7644038796424866,
      "learning_rate": 6.803702130298462e-06,
      "loss": 1.3048,
      "mean_token_accuracy": 0.6720990637938181,
      "num_tokens": 2029736612.0,
      "step": 12104
    },
    {
      "entropy": 1.7711990475654602,
      "epoch": 1.329790447941556,
      "grad_norm": 0.712631106376648,
      "learning_rate": 6.802285757776903e-06,
      "loss": 1.4558,
      "mean_token_accuracy": 0.6478696018457413,
      "num_tokens": 2029871767.0,
      "step": 12105
    },
    {
      "entropy": 1.7491689622402191,
      "epoch": 1.329900304852929,
      "grad_norm": 0.6656632423400879,
      "learning_rate": 6.800869518111111e-06,
      "loss": 1.3455,
      "mean_token_accuracy": 0.6632706572612127,
      "num_tokens": 2030058925.0,
      "step": 12106
    },
    {
      "entropy": 1.7960249086221058,
      "epoch": 1.330010161764302,
      "grad_norm": 0.6363185048103333,
      "learning_rate": 6.7994534113459075e-06,
      "loss": 1.5365,
      "mean_token_accuracy": 0.61135300497214,
      "num_tokens": 2030274330.0,
      "step": 12107
    },
    {
      "entropy": 1.631099820137024,
      "epoch": 1.330120018675675,
      "grad_norm": 0.7717340588569641,
      "learning_rate": 6.798037437526106e-06,
      "loss": 1.2993,
      "mean_token_accuracy": 0.6846882502237955,
      "num_tokens": 2030417966.0,
      "step": 12108
    },
    {
      "entropy": 1.6861089169979095,
      "epoch": 1.3302298755870479,
      "grad_norm": 0.8972033262252808,
      "learning_rate": 6.796621596696531e-06,
      "loss": 1.7368,
      "mean_token_accuracy": 0.6355453704794248,
      "num_tokens": 2030588343.0,
      "step": 12109
    },
    {
      "entropy": 1.7588840822378795,
      "epoch": 1.3303397324984207,
      "grad_norm": 0.6780613660812378,
      "learning_rate": 6.795205888901984e-06,
      "loss": 1.4806,
      "mean_token_accuracy": 0.6419356018304825,
      "num_tokens": 2030766964.0,
      "step": 12110
    },
    {
      "entropy": 1.7469553053379059,
      "epoch": 1.3304495894097936,
      "grad_norm": 0.6792296767234802,
      "learning_rate": 6.793790314187281e-06,
      "loss": 1.3987,
      "mean_token_accuracy": 0.6516177902619044,
      "num_tokens": 2030931496.0,
      "step": 12111
    },
    {
      "entropy": 1.6458273430665333,
      "epoch": 1.3305594463211667,
      "grad_norm": 0.8105985522270203,
      "learning_rate": 6.792374872597217e-06,
      "loss": 1.2897,
      "mean_token_accuracy": 0.6808892091115316,
      "num_tokens": 2031079780.0,
      "step": 12112
    },
    {
      "entropy": 1.6807252566019695,
      "epoch": 1.3306693032325396,
      "grad_norm": 0.7525298595428467,
      "learning_rate": 6.79095956417659e-06,
      "loss": 1.3477,
      "mean_token_accuracy": 0.6601622154315313,
      "num_tokens": 2031305389.0,
      "step": 12113
    },
    {
      "entropy": 1.751152257124583,
      "epoch": 1.3307791601439125,
      "grad_norm": 1.0267671346664429,
      "learning_rate": 6.789544388970196e-06,
      "loss": 1.4263,
      "mean_token_accuracy": 0.6512612501780192,
      "num_tokens": 2031449086.0,
      "step": 12114
    },
    {
      "entropy": 1.6886617640654247,
      "epoch": 1.3308890170552856,
      "grad_norm": 0.766525149345398,
      "learning_rate": 6.788129347022832e-06,
      "loss": 1.2504,
      "mean_token_accuracy": 0.6706090221802393,
      "num_tokens": 2031571554.0,
      "step": 12115
    },
    {
      "entropy": 1.7444157203038533,
      "epoch": 1.3309988739666585,
      "grad_norm": 0.7540661692619324,
      "learning_rate": 6.786714438379269e-06,
      "loss": 1.3464,
      "mean_token_accuracy": 0.6591867109139761,
      "num_tokens": 2031697222.0,
      "step": 12116
    },
    {
      "entropy": 1.717256059249242,
      "epoch": 1.3311087308780314,
      "grad_norm": 0.7085712552070618,
      "learning_rate": 6.7852996630842936e-06,
      "loss": 1.4093,
      "mean_token_accuracy": 0.6617002884546915,
      "num_tokens": 2031842284.0,
      "step": 12117
    },
    {
      "entropy": 1.6935730675856273,
      "epoch": 1.3312185877894043,
      "grad_norm": 0.7506963014602661,
      "learning_rate": 6.7838850211826925e-06,
      "loss": 1.5524,
      "mean_token_accuracy": 0.6330506006876627,
      "num_tokens": 2032029021.0,
      "step": 12118
    },
    {
      "entropy": 1.6292231281598408,
      "epoch": 1.3313284447007772,
      "grad_norm": 0.6500567197799683,
      "learning_rate": 6.782470512719227e-06,
      "loss": 1.4116,
      "mean_token_accuracy": 0.6551267306009928,
      "num_tokens": 2032225231.0,
      "step": 12119
    },
    {
      "entropy": 1.7364420294761658,
      "epoch": 1.3314383016121503,
      "grad_norm": 0.6082978248596191,
      "learning_rate": 6.781056137738667e-06,
      "loss": 1.3851,
      "mean_token_accuracy": 0.6635348598162333,
      "num_tokens": 2032400791.0,
      "step": 12120
    },
    {
      "entropy": 1.6161598761876423,
      "epoch": 1.3315481585235232,
      "grad_norm": 0.612918496131897,
      "learning_rate": 6.779641896285783e-06,
      "loss": 1.3149,
      "mean_token_accuracy": 0.6781648695468903,
      "num_tokens": 2032538191.0,
      "step": 12121
    },
    {
      "entropy": 1.726882795492808,
      "epoch": 1.331658015434896,
      "grad_norm": 0.7016002535820007,
      "learning_rate": 6.778227788405325e-06,
      "loss": 1.6569,
      "mean_token_accuracy": 0.6355594048897425,
      "num_tokens": 2032731160.0,
      "step": 12122
    },
    {
      "entropy": 1.6399606863657634,
      "epoch": 1.331767872346269,
      "grad_norm": 0.8239472508430481,
      "learning_rate": 6.776813814142062e-06,
      "loss": 1.2364,
      "mean_token_accuracy": 0.6827895094950994,
      "num_tokens": 2032887536.0,
      "step": 12123
    },
    {
      "entropy": 1.7254582345485687,
      "epoch": 1.3318777292576418,
      "grad_norm": 0.6165110468864441,
      "learning_rate": 6.7753999735407375e-06,
      "loss": 1.4148,
      "mean_token_accuracy": 0.6540853381156921,
      "num_tokens": 2033034011.0,
      "step": 12124
    },
    {
      "entropy": 1.6723759472370148,
      "epoch": 1.331987586169015,
      "grad_norm": 0.7529140710830688,
      "learning_rate": 6.773986266646098e-06,
      "loss": 1.4075,
      "mean_token_accuracy": 0.66306305428346,
      "num_tokens": 2033173974.0,
      "step": 12125
    },
    {
      "entropy": 1.6746163368225098,
      "epoch": 1.3320974430803878,
      "grad_norm": 0.6699461936950684,
      "learning_rate": 6.772572693502887e-06,
      "loss": 1.4146,
      "mean_token_accuracy": 0.6633772750695547,
      "num_tokens": 2033318698.0,
      "step": 12126
    },
    {
      "entropy": 1.6714819769064586,
      "epoch": 1.3322072999917607,
      "grad_norm": 0.8034442663192749,
      "learning_rate": 6.771159254155853e-06,
      "loss": 1.3074,
      "mean_token_accuracy": 0.6753875811894735,
      "num_tokens": 2033446101.0,
      "step": 12127
    },
    {
      "entropy": 1.644019901752472,
      "epoch": 1.3323171569031338,
      "grad_norm": 0.5550585985183716,
      "learning_rate": 6.769745948649717e-06,
      "loss": 1.3786,
      "mean_token_accuracy": 0.6502327471971512,
      "num_tokens": 2033648528.0,
      "step": 12128
    },
    {
      "entropy": 1.7570864657560985,
      "epoch": 1.3324270138145067,
      "grad_norm": 0.7444114685058594,
      "learning_rate": 6.768332777029214e-06,
      "loss": 1.5661,
      "mean_token_accuracy": 0.6311159779628118,
      "num_tokens": 2033809795.0,
      "step": 12129
    },
    {
      "entropy": 1.702331284681956,
      "epoch": 1.3325368707258796,
      "grad_norm": 0.6505382061004639,
      "learning_rate": 6.766919739339076e-06,
      "loss": 1.4109,
      "mean_token_accuracy": 0.6532570620377859,
      "num_tokens": 2033966956.0,
      "step": 12130
    },
    {
      "entropy": 1.6757369736830394,
      "epoch": 1.3326467276372524,
      "grad_norm": 0.6705249547958374,
      "learning_rate": 6.76550683562402e-06,
      "loss": 1.3289,
      "mean_token_accuracy": 0.6670956462621689,
      "num_tokens": 2034141052.0,
      "step": 12131
    },
    {
      "entropy": 1.7126195033391316,
      "epoch": 1.3327565845486253,
      "grad_norm": 0.7784457802772522,
      "learning_rate": 6.764094065928762e-06,
      "loss": 1.3657,
      "mean_token_accuracy": 0.6621719797452291,
      "num_tokens": 2034413616.0,
      "step": 12132
    },
    {
      "entropy": 1.6480099658171337,
      "epoch": 1.3328664414599984,
      "grad_norm": 0.634157657623291,
      "learning_rate": 6.762681430298021e-06,
      "loss": 1.5479,
      "mean_token_accuracy": 0.6490356723467509,
      "num_tokens": 2034615609.0,
      "step": 12133
    },
    {
      "entropy": 1.7340960800647736,
      "epoch": 1.3329762983713713,
      "grad_norm": 0.7252094149589539,
      "learning_rate": 6.7612689287764996e-06,
      "loss": 1.3478,
      "mean_token_accuracy": 0.6707275907198588,
      "num_tokens": 2034723645.0,
      "step": 12134
    },
    {
      "entropy": 1.6428366204102833,
      "epoch": 1.3330861552827442,
      "grad_norm": 0.7468758225440979,
      "learning_rate": 6.759856561408912e-06,
      "loss": 1.3562,
      "mean_token_accuracy": 0.659113829334577,
      "num_tokens": 2034890797.0,
      "step": 12135
    },
    {
      "entropy": 1.743541826804479,
      "epoch": 1.333196012194117,
      "grad_norm": 0.7921319603919983,
      "learning_rate": 6.758444328239951e-06,
      "loss": 1.2967,
      "mean_token_accuracy": 0.6673512558142344,
      "num_tokens": 2035037394.0,
      "step": 12136
    },
    {
      "entropy": 1.7060744762420654,
      "epoch": 1.33330586910549,
      "grad_norm": 0.8504371047019958,
      "learning_rate": 6.757032229314314e-06,
      "loss": 1.2957,
      "mean_token_accuracy": 0.6720158954461416,
      "num_tokens": 2035148382.0,
      "step": 12137
    },
    {
      "entropy": 1.660773108402888,
      "epoch": 1.333415726016863,
      "grad_norm": 0.6613491773605347,
      "learning_rate": 6.7556202646766955e-06,
      "loss": 1.2584,
      "mean_token_accuracy": 0.6726939876874288,
      "num_tokens": 2035265813.0,
      "step": 12138
    },
    {
      "entropy": 1.7064545849959056,
      "epoch": 1.333525582928236,
      "grad_norm": 0.7123542428016663,
      "learning_rate": 6.7542084343717885e-06,
      "loss": 1.407,
      "mean_token_accuracy": 0.6450283875068029,
      "num_tokens": 2035442166.0,
      "step": 12139
    },
    {
      "entropy": 1.759802907705307,
      "epoch": 1.3336354398396089,
      "grad_norm": 0.6230959296226501,
      "learning_rate": 6.752796738444265e-06,
      "loss": 1.4219,
      "mean_token_accuracy": 0.640018438299497,
      "num_tokens": 2035628368.0,
      "step": 12140
    },
    {
      "entropy": 1.6767445107301076,
      "epoch": 1.333745296750982,
      "grad_norm": 0.7107008695602417,
      "learning_rate": 6.7513851769388105e-06,
      "loss": 1.5074,
      "mean_token_accuracy": 0.6424607733885447,
      "num_tokens": 2035852613.0,
      "step": 12141
    },
    {
      "entropy": 1.6929062108198802,
      "epoch": 1.3338551536623549,
      "grad_norm": 0.8039124011993408,
      "learning_rate": 6.749973749900104e-06,
      "loss": 1.4325,
      "mean_token_accuracy": 0.6694301267464956,
      "num_tokens": 2036027820.0,
      "step": 12142
    },
    {
      "entropy": 1.695325791835785,
      "epoch": 1.3339650105737277,
      "grad_norm": 0.7455415725708008,
      "learning_rate": 6.748562457372814e-06,
      "loss": 1.599,
      "mean_token_accuracy": 0.6340650320053101,
      "num_tokens": 2036191571.0,
      "step": 12143
    },
    {
      "entropy": 1.6283740599950154,
      "epoch": 1.3340748674851006,
      "grad_norm": 0.597327709197998,
      "learning_rate": 6.747151299401602e-06,
      "loss": 1.4393,
      "mean_token_accuracy": 0.6598650167385737,
      "num_tokens": 2036409052.0,
      "step": 12144
    },
    {
      "entropy": 1.70907461643219,
      "epoch": 1.3341847243964735,
      "grad_norm": 0.7348134517669678,
      "learning_rate": 6.74574027603114e-06,
      "loss": 1.3319,
      "mean_token_accuracy": 0.6699612587690353,
      "num_tokens": 2036548176.0,
      "step": 12145
    },
    {
      "entropy": 1.750954935948054,
      "epoch": 1.3342945813078466,
      "grad_norm": 0.6614691019058228,
      "learning_rate": 6.744329387306077e-06,
      "loss": 1.5194,
      "mean_token_accuracy": 0.6467989534139633,
      "num_tokens": 2036787561.0,
      "step": 12146
    },
    {
      "entropy": 1.7040914098421733,
      "epoch": 1.3344044382192195,
      "grad_norm": 0.8070111274719238,
      "learning_rate": 6.742918633271074e-06,
      "loss": 1.5117,
      "mean_token_accuracy": 0.6465377608935038,
      "num_tokens": 2036938048.0,
      "step": 12147
    },
    {
      "entropy": 1.744322548309962,
      "epoch": 1.3345142951305924,
      "grad_norm": 0.7317628264427185,
      "learning_rate": 6.741508013970779e-06,
      "loss": 1.3279,
      "mean_token_accuracy": 0.6692080895105997,
      "num_tokens": 2037071722.0,
      "step": 12148
    },
    {
      "entropy": 1.7309604982535045,
      "epoch": 1.3346241520419653,
      "grad_norm": 0.6659313440322876,
      "learning_rate": 6.740097529449833e-06,
      "loss": 1.4134,
      "mean_token_accuracy": 0.6467402577400208,
      "num_tokens": 2037281053.0,
      "step": 12149
    },
    {
      "entropy": 1.7567891379197438,
      "epoch": 1.3347340089533382,
      "grad_norm": 0.6446396112442017,
      "learning_rate": 6.7386871797528816e-06,
      "loss": 1.38,
      "mean_token_accuracy": 0.6591022710005442,
      "num_tokens": 2037409299.0,
      "step": 12150
    },
    {
      "entropy": 1.7695753872394562,
      "epoch": 1.3348438658647113,
      "grad_norm": 0.8622597455978394,
      "learning_rate": 6.737276964924564e-06,
      "loss": 1.4295,
      "mean_token_accuracy": 0.665856863061587,
      "num_tokens": 2037543858.0,
      "step": 12151
    },
    {
      "entropy": 1.6813296675682068,
      "epoch": 1.3349537227760842,
      "grad_norm": 0.711685299873352,
      "learning_rate": 6.735866885009506e-06,
      "loss": 1.2672,
      "mean_token_accuracy": 0.6845654745896658,
      "num_tokens": 2037666476.0,
      "step": 12152
    },
    {
      "entropy": 1.6936272382736206,
      "epoch": 1.335063579687457,
      "grad_norm": 0.6655703783035278,
      "learning_rate": 6.7344569400523404e-06,
      "loss": 1.348,
      "mean_token_accuracy": 0.670586441953977,
      "num_tokens": 2037839539.0,
      "step": 12153
    },
    {
      "entropy": 1.659144659837087,
      "epoch": 1.3351734365988301,
      "grad_norm": 0.6707544922828674,
      "learning_rate": 6.733047130097689e-06,
      "loss": 1.3097,
      "mean_token_accuracy": 0.670238604148229,
      "num_tokens": 2037978288.0,
      "step": 12154
    },
    {
      "entropy": 1.6983022093772888,
      "epoch": 1.335283293510203,
      "grad_norm": 0.5423887968063354,
      "learning_rate": 6.731637455190177e-06,
      "loss": 1.4855,
      "mean_token_accuracy": 0.6436324616273245,
      "num_tokens": 2038175684.0,
      "step": 12155
    },
    {
      "entropy": 1.6970913509527843,
      "epoch": 1.335393150421576,
      "grad_norm": 0.6358638405799866,
      "learning_rate": 6.730227915374414e-06,
      "loss": 1.3425,
      "mean_token_accuracy": 0.6590030988057455,
      "num_tokens": 2038309359.0,
      "step": 12156
    },
    {
      "entropy": 1.68005574742953,
      "epoch": 1.3355030073329488,
      "grad_norm": 0.6394631862640381,
      "learning_rate": 6.728818510695012e-06,
      "loss": 1.4228,
      "mean_token_accuracy": 0.6577940632899603,
      "num_tokens": 2038463898.0,
      "step": 12157
    },
    {
      "entropy": 1.7448046207427979,
      "epoch": 1.3356128642443217,
      "grad_norm": 0.677924394607544,
      "learning_rate": 6.7274092411965795e-06,
      "loss": 1.3776,
      "mean_token_accuracy": 0.6486985584100088,
      "num_tokens": 2038682056.0,
      "step": 12158
    },
    {
      "entropy": 1.706708659728368,
      "epoch": 1.3357227211556948,
      "grad_norm": 0.6977136731147766,
      "learning_rate": 6.7260001069237265e-06,
      "loss": 1.4341,
      "mean_token_accuracy": 0.650297815601031,
      "num_tokens": 2038849719.0,
      "step": 12159
    },
    {
      "entropy": 1.7140244444211323,
      "epoch": 1.3358325780670677,
      "grad_norm": 0.6504734754562378,
      "learning_rate": 6.7245911079210365e-06,
      "loss": 1.4013,
      "mean_token_accuracy": 0.6597279409567515,
      "num_tokens": 2039024559.0,
      "step": 12160
    },
    {
      "entropy": 1.7537720998128254,
      "epoch": 1.3359424349784406,
      "grad_norm": 0.6768696308135986,
      "learning_rate": 6.723182244233111e-06,
      "loss": 1.4743,
      "mean_token_accuracy": 0.6464989334344864,
      "num_tokens": 2039186877.0,
      "step": 12161
    },
    {
      "entropy": 1.7301738758881886,
      "epoch": 1.3360522918898134,
      "grad_norm": 0.8379589915275574,
      "learning_rate": 6.7217735159045434e-06,
      "loss": 1.301,
      "mean_token_accuracy": 0.6735063940286636,
      "num_tokens": 2039339067.0,
      "step": 12162
    },
    {
      "entropy": 1.6896904309590657,
      "epoch": 1.3361621488011863,
      "grad_norm": 0.7300477623939514,
      "learning_rate": 6.720364922979918e-06,
      "loss": 1.3683,
      "mean_token_accuracy": 0.6638319989045461,
      "num_tokens": 2039499002.0,
      "step": 12163
    },
    {
      "entropy": 1.7401621341705322,
      "epoch": 1.3362720057125594,
      "grad_norm": 0.814299464225769,
      "learning_rate": 6.71895646550381e-06,
      "loss": 1.5958,
      "mean_token_accuracy": 0.6319139301776886,
      "num_tokens": 2039683860.0,
      "step": 12164
    },
    {
      "entropy": 1.7155976593494415,
      "epoch": 1.3363818626239323,
      "grad_norm": 0.614666759967804,
      "learning_rate": 6.7175481435208045e-06,
      "loss": 1.4577,
      "mean_token_accuracy": 0.6343758553266525,
      "num_tokens": 2039861354.0,
      "step": 12165
    },
    {
      "entropy": 1.6503975987434387,
      "epoch": 1.3364917195353052,
      "grad_norm": 0.6941211223602295,
      "learning_rate": 6.716139957075466e-06,
      "loss": 1.262,
      "mean_token_accuracy": 0.669905404249827,
      "num_tokens": 2039997906.0,
      "step": 12166
    },
    {
      "entropy": 1.7294440964857738,
      "epoch": 1.3366015764466783,
      "grad_norm": 0.860774040222168,
      "learning_rate": 6.71473190621237e-06,
      "loss": 1.4486,
      "mean_token_accuracy": 0.6619910101095835,
      "num_tokens": 2040154720.0,
      "step": 12167
    },
    {
      "entropy": 1.7141015529632568,
      "epoch": 1.3367114333580512,
      "grad_norm": 0.6437616348266602,
      "learning_rate": 6.7133239909760815e-06,
      "loss": 1.3718,
      "mean_token_accuracy": 0.6447582989931107,
      "num_tokens": 2040342386.0,
      "step": 12168
    },
    {
      "entropy": 1.7256827255090077,
      "epoch": 1.336821290269424,
      "grad_norm": 0.8925187587738037,
      "learning_rate": 6.711916211411151e-06,
      "loss": 1.5247,
      "mean_token_accuracy": 0.6567995399236679,
      "num_tokens": 2040464956.0,
      "step": 12169
    },
    {
      "entropy": 1.6982427140076954,
      "epoch": 1.336931147180797,
      "grad_norm": 0.709115207195282,
      "learning_rate": 6.710508567562142e-06,
      "loss": 1.3701,
      "mean_token_accuracy": 0.6482947717110316,
      "num_tokens": 2040624818.0,
      "step": 12170
    },
    {
      "entropy": 1.7100390096505482,
      "epoch": 1.3370410040921699,
      "grad_norm": 0.6098870038986206,
      "learning_rate": 6.7091010594736096e-06,
      "loss": 1.2835,
      "mean_token_accuracy": 0.6711164067188898,
      "num_tokens": 2040777685.0,
      "step": 12171
    },
    {
      "entropy": 1.7272491256395976,
      "epoch": 1.337150861003543,
      "grad_norm": 0.6299756169319153,
      "learning_rate": 6.7076936871900876e-06,
      "loss": 1.3556,
      "mean_token_accuracy": 0.6612934718529383,
      "num_tokens": 2040945251.0,
      "step": 12172
    },
    {
      "entropy": 1.7412489652633667,
      "epoch": 1.3372607179149159,
      "grad_norm": 0.6856157183647156,
      "learning_rate": 6.706286450756129e-06,
      "loss": 1.2422,
      "mean_token_accuracy": 0.6719231804211935,
      "num_tokens": 2041059005.0,
      "step": 12173
    },
    {
      "entropy": 1.6607161959012349,
      "epoch": 1.3373705748262887,
      "grad_norm": 0.6099095940589905,
      "learning_rate": 6.70487935021627e-06,
      "loss": 1.3921,
      "mean_token_accuracy": 0.6561809430519739,
      "num_tokens": 2041292263.0,
      "step": 12174
    },
    {
      "entropy": 1.661214272181193,
      "epoch": 1.3374804317376616,
      "grad_norm": 0.6299693584442139,
      "learning_rate": 6.703472385615045e-06,
      "loss": 1.2867,
      "mean_token_accuracy": 0.6732292920351028,
      "num_tokens": 2041428050.0,
      "step": 12175
    },
    {
      "entropy": 1.7231532831986744,
      "epoch": 1.3375902886490345,
      "grad_norm": 0.7081091403961182,
      "learning_rate": 6.7020655569969795e-06,
      "loss": 1.3649,
      "mean_token_accuracy": 0.6584912836551666,
      "num_tokens": 2041583936.0,
      "step": 12176
    },
    {
      "entropy": 1.7170475920041401,
      "epoch": 1.3377001455604076,
      "grad_norm": 0.7208677530288696,
      "learning_rate": 6.700658864406607e-06,
      "loss": 1.3288,
      "mean_token_accuracy": 0.6651655087868372,
      "num_tokens": 2041738235.0,
      "step": 12177
    },
    {
      "entropy": 1.6539806723594666,
      "epoch": 1.3378100024717805,
      "grad_norm": 0.5469607710838318,
      "learning_rate": 6.69925230788844e-06,
      "loss": 1.3708,
      "mean_token_accuracy": 0.6626506249109904,
      "num_tokens": 2041949745.0,
      "step": 12178
    },
    {
      "entropy": 1.6960765818754833,
      "epoch": 1.3379198593831534,
      "grad_norm": 0.6942289471626282,
      "learning_rate": 6.697845887487002e-06,
      "loss": 1.3427,
      "mean_token_accuracy": 0.666606068611145,
      "num_tokens": 2042104158.0,
      "step": 12179
    },
    {
      "entropy": 1.7386765678723652,
      "epoch": 1.3380297162945265,
      "grad_norm": 0.7499749064445496,
      "learning_rate": 6.696439603246805e-06,
      "loss": 1.355,
      "mean_token_accuracy": 0.6540759851535162,
      "num_tokens": 2042257471.0,
      "step": 12180
    },
    {
      "entropy": 1.6771236062049866,
      "epoch": 1.3381395732058994,
      "grad_norm": 0.6517854928970337,
      "learning_rate": 6.69503345521235e-06,
      "loss": 1.4844,
      "mean_token_accuracy": 0.6465798964103063,
      "num_tokens": 2042424318.0,
      "step": 12181
    },
    {
      "entropy": 1.6540433168411255,
      "epoch": 1.3382494301172723,
      "grad_norm": 0.7354924082756042,
      "learning_rate": 6.693627443428146e-06,
      "loss": 1.2878,
      "mean_token_accuracy": 0.6684385339419047,
      "num_tokens": 2042554398.0,
      "step": 12182
    },
    {
      "entropy": 1.7346096734205882,
      "epoch": 1.3383592870286452,
      "grad_norm": 0.6490511894226074,
      "learning_rate": 6.6922215679387014e-06,
      "loss": 1.4537,
      "mean_token_accuracy": 0.6384791831175486,
      "num_tokens": 2042753232.0,
      "step": 12183
    },
    {
      "entropy": 1.6197856763998668,
      "epoch": 1.338469143940018,
      "grad_norm": 0.6182257533073425,
      "learning_rate": 6.690815828788495e-06,
      "loss": 1.3176,
      "mean_token_accuracy": 0.6738310505946478,
      "num_tokens": 2042931082.0,
      "step": 12184
    },
    {
      "entropy": 1.6874169707298279,
      "epoch": 1.3385790008513911,
      "grad_norm": 0.6227688193321228,
      "learning_rate": 6.6894102260220266e-06,
      "loss": 1.3646,
      "mean_token_accuracy": 0.6637938221295675,
      "num_tokens": 2043074729.0,
      "step": 12185
    },
    {
      "entropy": 1.7578496237595875,
      "epoch": 1.338688857762764,
      "grad_norm": 0.6879784464836121,
      "learning_rate": 6.688004759683784e-06,
      "loss": 1.4202,
      "mean_token_accuracy": 0.6445033997297287,
      "num_tokens": 2043229062.0,
      "step": 12186
    },
    {
      "entropy": 1.7419428924719493,
      "epoch": 1.338798714674137,
      "grad_norm": 0.6606770157814026,
      "learning_rate": 6.68659942981825e-06,
      "loss": 1.3376,
      "mean_token_accuracy": 0.6617419819037119,
      "num_tokens": 2043347488.0,
      "step": 12187
    },
    {
      "entropy": 1.7223469018936157,
      "epoch": 1.3389085715855098,
      "grad_norm": 0.6497092247009277,
      "learning_rate": 6.685194236469896e-06,
      "loss": 1.5492,
      "mean_token_accuracy": 0.6567690620819727,
      "num_tokens": 2043535592.0,
      "step": 12188
    },
    {
      "entropy": 1.748223255077998,
      "epoch": 1.3390184284968827,
      "grad_norm": 1.2254005670547485,
      "learning_rate": 6.683789179683203e-06,
      "loss": 1.4608,
      "mean_token_accuracy": 0.6514624655246735,
      "num_tokens": 2043684053.0,
      "step": 12189
    },
    {
      "entropy": 1.6679157416025798,
      "epoch": 1.3391282854082558,
      "grad_norm": 0.5853722095489502,
      "learning_rate": 6.682384259502635e-06,
      "loss": 1.3211,
      "mean_token_accuracy": 0.6666586250066757,
      "num_tokens": 2043841336.0,
      "step": 12190
    },
    {
      "entropy": 1.6924639145533245,
      "epoch": 1.3392381423196287,
      "grad_norm": 0.7584408521652222,
      "learning_rate": 6.680979475972664e-06,
      "loss": 1.3216,
      "mean_token_accuracy": 0.6670918017625809,
      "num_tokens": 2043997000.0,
      "step": 12191
    },
    {
      "entropy": 1.7606268525123596,
      "epoch": 1.3393479992310016,
      "grad_norm": 0.7066436409950256,
      "learning_rate": 6.679574829137744e-06,
      "loss": 1.4732,
      "mean_token_accuracy": 0.6344574143489202,
      "num_tokens": 2044206455.0,
      "step": 12192
    },
    {
      "entropy": 1.7649494012196858,
      "epoch": 1.3394578561423747,
      "grad_norm": 0.7756333947181702,
      "learning_rate": 6.678170319042332e-06,
      "loss": 1.5191,
      "mean_token_accuracy": 0.6414674917856852,
      "num_tokens": 2044379695.0,
      "step": 12193
    },
    {
      "entropy": 1.7187654276688893,
      "epoch": 1.3395677130537476,
      "grad_norm": 0.7068918347358704,
      "learning_rate": 6.676765945730881e-06,
      "loss": 1.4654,
      "mean_token_accuracy": 0.6458430662751198,
      "num_tokens": 2044525734.0,
      "step": 12194
    },
    {
      "entropy": 1.7495672305425007,
      "epoch": 1.3396775699651204,
      "grad_norm": 0.6518183350563049,
      "learning_rate": 6.675361709247847e-06,
      "loss": 1.4416,
      "mean_token_accuracy": 0.6462061703205109,
      "num_tokens": 2044703188.0,
      "step": 12195
    },
    {
      "entropy": 1.7593078414599101,
      "epoch": 1.3397874268764933,
      "grad_norm": 0.8291671276092529,
      "learning_rate": 6.673957609637659e-06,
      "loss": 1.2821,
      "mean_token_accuracy": 0.6755085190137228,
      "num_tokens": 2044844945.0,
      "step": 12196
    },
    {
      "entropy": 1.6297094126542409,
      "epoch": 1.3398972837878662,
      "grad_norm": 0.6503934264183044,
      "learning_rate": 6.672553646944764e-06,
      "loss": 1.5341,
      "mean_token_accuracy": 0.6331368734439214,
      "num_tokens": 2045065342.0,
      "step": 12197
    },
    {
      "entropy": 1.730812023083369,
      "epoch": 1.3400071406992393,
      "grad_norm": 0.6852719187736511,
      "learning_rate": 6.6711498212135994e-06,
      "loss": 1.3495,
      "mean_token_accuracy": 0.6606137305498123,
      "num_tokens": 2045262146.0,
      "step": 12198
    },
    {
      "entropy": 1.6728038688500722,
      "epoch": 1.3401169976106122,
      "grad_norm": 0.6521802544593811,
      "learning_rate": 6.669746132488591e-06,
      "loss": 1.3743,
      "mean_token_accuracy": 0.6557741363843282,
      "num_tokens": 2045501023.0,
      "step": 12199
    },
    {
      "entropy": 1.7133564253648121,
      "epoch": 1.340226854521985,
      "grad_norm": 0.8919302821159363,
      "learning_rate": 6.668342580814165e-06,
      "loss": 1.3303,
      "mean_token_accuracy": 0.6722137182950974,
      "num_tokens": 2045671599.0,
      "step": 12200
    },
    {
      "entropy": 1.776214490334193,
      "epoch": 1.340336711433358,
      "grad_norm": 0.8077658414840698,
      "learning_rate": 6.666939166234747e-06,
      "loss": 1.4297,
      "mean_token_accuracy": 0.6601533641417822,
      "num_tokens": 2045889947.0,
      "step": 12201
    },
    {
      "entropy": 1.7369691332181294,
      "epoch": 1.3404465683447309,
      "grad_norm": 0.6759545207023621,
      "learning_rate": 6.665535888794748e-06,
      "loss": 1.2795,
      "mean_token_accuracy": 0.664157842596372,
      "num_tokens": 2046039114.0,
      "step": 12202
    },
    {
      "entropy": 1.7115701337655385,
      "epoch": 1.340556425256104,
      "grad_norm": 0.8110707402229309,
      "learning_rate": 6.664132748538588e-06,
      "loss": 1.3392,
      "mean_token_accuracy": 0.6724221408367157,
      "num_tokens": 2046210860.0,
      "step": 12203
    },
    {
      "entropy": 1.6262700359026592,
      "epoch": 1.3406662821674769,
      "grad_norm": 0.6628835201263428,
      "learning_rate": 6.662729745510674e-06,
      "loss": 1.1864,
      "mean_token_accuracy": 0.6867125034332275,
      "num_tokens": 2046348059.0,
      "step": 12204
    },
    {
      "entropy": 1.7018965184688568,
      "epoch": 1.3407761390788497,
      "grad_norm": 0.8943867683410645,
      "learning_rate": 6.661326879755403e-06,
      "loss": 1.2828,
      "mean_token_accuracy": 0.6711592872937521,
      "num_tokens": 2046465860.0,
      "step": 12205
    },
    {
      "entropy": 1.7263304789861043,
      "epoch": 1.3408859959902228,
      "grad_norm": 0.6487671136856079,
      "learning_rate": 6.659924151317184e-06,
      "loss": 1.3756,
      "mean_token_accuracy": 0.6614161481459936,
      "num_tokens": 2046623387.0,
      "step": 12206
    },
    {
      "entropy": 1.6342344085375469,
      "epoch": 1.3409958529015957,
      "grad_norm": 0.5863806009292603,
      "learning_rate": 6.658521560240416e-06,
      "loss": 1.4543,
      "mean_token_accuracy": 0.6475448707739512,
      "num_tokens": 2046836646.0,
      "step": 12207
    },
    {
      "entropy": 1.6563426355520885,
      "epoch": 1.3411057098129686,
      "grad_norm": 0.7072530388832092,
      "learning_rate": 6.657119106569477e-06,
      "loss": 1.2196,
      "mean_token_accuracy": 0.6976286470890045,
      "num_tokens": 2046975202.0,
      "step": 12208
    },
    {
      "entropy": 1.7593169311682384,
      "epoch": 1.3412155667243415,
      "grad_norm": 0.64771568775177,
      "learning_rate": 6.655716790348763e-06,
      "loss": 1.5249,
      "mean_token_accuracy": 0.6462835719188055,
      "num_tokens": 2047176210.0,
      "step": 12209
    },
    {
      "entropy": 1.7476372917493184,
      "epoch": 1.3413254236357144,
      "grad_norm": 0.6780056953430176,
      "learning_rate": 6.654314611622656e-06,
      "loss": 1.3844,
      "mean_token_accuracy": 0.6559838354587555,
      "num_tokens": 2047355243.0,
      "step": 12210
    },
    {
      "entropy": 1.7375625570615132,
      "epoch": 1.3414352805470875,
      "grad_norm": 0.6932122707366943,
      "learning_rate": 6.652912570435536e-06,
      "loss": 1.2896,
      "mean_token_accuracy": 0.6642061273256937,
      "num_tokens": 2047471435.0,
      "step": 12211
    },
    {
      "entropy": 1.7208791573842366,
      "epoch": 1.3415451374584604,
      "grad_norm": 0.6981452107429504,
      "learning_rate": 6.651510666831772e-06,
      "loss": 1.3985,
      "mean_token_accuracy": 0.6554392377535502,
      "num_tokens": 2047653436.0,
      "step": 12212
    },
    {
      "entropy": 1.703304221232732,
      "epoch": 1.3416549943698333,
      "grad_norm": 0.7472629547119141,
      "learning_rate": 6.650108900855734e-06,
      "loss": 1.405,
      "mean_token_accuracy": 0.662998785575231,
      "num_tokens": 2047810436.0,
      "step": 12213
    },
    {
      "entropy": 1.6598742206891377,
      "epoch": 1.3417648512812062,
      "grad_norm": 0.6906598806381226,
      "learning_rate": 6.6487072725517874e-06,
      "loss": 1.3876,
      "mean_token_accuracy": 0.669889286160469,
      "num_tokens": 2047947809.0,
      "step": 12214
    },
    {
      "entropy": 1.7231373190879822,
      "epoch": 1.341874708192579,
      "grad_norm": 0.7631545662879944,
      "learning_rate": 6.647305781964304e-06,
      "loss": 1.4282,
      "mean_token_accuracy": 0.665252481897672,
      "num_tokens": 2048165206.0,
      "step": 12215
    },
    {
      "entropy": 1.693508545557658,
      "epoch": 1.3419845651039521,
      "grad_norm": 0.6549314260482788,
      "learning_rate": 6.645904429137622e-06,
      "loss": 1.3312,
      "mean_token_accuracy": 0.6650498857100805,
      "num_tokens": 2048331616.0,
      "step": 12216
    },
    {
      "entropy": 1.6807125707467396,
      "epoch": 1.342094422015325,
      "grad_norm": 0.6334341168403625,
      "learning_rate": 6.644503214116105e-06,
      "loss": 1.5014,
      "mean_token_accuracy": 0.6361768593390783,
      "num_tokens": 2048541247.0,
      "step": 12217
    },
    {
      "entropy": 1.7305749952793121,
      "epoch": 1.342204278926698,
      "grad_norm": 0.7204241752624512,
      "learning_rate": 6.6431021369441005e-06,
      "loss": 1.3633,
      "mean_token_accuracy": 0.6571338723103205,
      "num_tokens": 2048708995.0,
      "step": 12218
    },
    {
      "entropy": 1.688479075829188,
      "epoch": 1.342314135838071,
      "grad_norm": 0.65947026014328,
      "learning_rate": 6.64170119766595e-06,
      "loss": 1.4483,
      "mean_token_accuracy": 0.6561633894840876,
      "num_tokens": 2048890366.0,
      "step": 12219
    },
    {
      "entropy": 1.669929713010788,
      "epoch": 1.342423992749444,
      "grad_norm": 0.702551007270813,
      "learning_rate": 6.640300396325991e-06,
      "loss": 1.3,
      "mean_token_accuracy": 0.6672399689753851,
      "num_tokens": 2049007667.0,
      "step": 12220
    },
    {
      "entropy": 1.7009166479110718,
      "epoch": 1.3425338496608168,
      "grad_norm": 0.6616597175598145,
      "learning_rate": 6.638899732968562e-06,
      "loss": 1.3765,
      "mean_token_accuracy": 0.6643947462240855,
      "num_tokens": 2049182073.0,
      "step": 12221
    },
    {
      "entropy": 1.6636148790518444,
      "epoch": 1.3426437065721897,
      "grad_norm": 0.6758390665054321,
      "learning_rate": 6.637499207637988e-06,
      "loss": 1.2797,
      "mean_token_accuracy": 0.686865970492363,
      "num_tokens": 2049322365.0,
      "step": 12222
    },
    {
      "entropy": 1.729952871799469,
      "epoch": 1.3427535634835626,
      "grad_norm": 0.6957722902297974,
      "learning_rate": 6.636098820378603e-06,
      "loss": 1.4878,
      "mean_token_accuracy": 0.6524218966563543,
      "num_tokens": 2049500723.0,
      "step": 12223
    },
    {
      "entropy": 1.68058975537618,
      "epoch": 1.3428634203949357,
      "grad_norm": 0.677686870098114,
      "learning_rate": 6.6346985712347215e-06,
      "loss": 1.2679,
      "mean_token_accuracy": 0.6779388835032781,
      "num_tokens": 2049657923.0,
      "step": 12224
    },
    {
      "entropy": 1.629438002904256,
      "epoch": 1.3429732773063086,
      "grad_norm": 0.7106833457946777,
      "learning_rate": 6.633298460250661e-06,
      "loss": 1.363,
      "mean_token_accuracy": 0.6710018614927927,
      "num_tokens": 2049895914.0,
      "step": 12225
    },
    {
      "entropy": 1.692349870999654,
      "epoch": 1.3430831342176814,
      "grad_norm": 0.6746785044670105,
      "learning_rate": 6.631898487470736e-06,
      "loss": 1.4901,
      "mean_token_accuracy": 0.6519258220990499,
      "num_tokens": 2050061436.0,
      "step": 12226
    },
    {
      "entropy": 1.7352541486422222,
      "epoch": 1.3431929911290543,
      "grad_norm": 0.6847538948059082,
      "learning_rate": 6.630498652939263e-06,
      "loss": 1.4904,
      "mean_token_accuracy": 0.6462793598572413,
      "num_tokens": 2050247189.0,
      "step": 12227
    },
    {
      "entropy": 1.697327196598053,
      "epoch": 1.3433028480404272,
      "grad_norm": 0.9095365405082703,
      "learning_rate": 6.6290989567005325e-06,
      "loss": 1.8281,
      "mean_token_accuracy": 0.6107906103134155,
      "num_tokens": 2050449478.0,
      "step": 12228
    },
    {
      "entropy": 1.6943837304910023,
      "epoch": 1.3434127049518003,
      "grad_norm": 0.7068896293640137,
      "learning_rate": 6.627699398798849e-06,
      "loss": 1.3645,
      "mean_token_accuracy": 0.6637044797341028,
      "num_tokens": 2050599011.0,
      "step": 12229
    },
    {
      "entropy": 1.7469304104646046,
      "epoch": 1.3435225618631732,
      "grad_norm": 0.6389604210853577,
      "learning_rate": 6.626299979278514e-06,
      "loss": 1.3339,
      "mean_token_accuracy": 0.6636842538913091,
      "num_tokens": 2050749646.0,
      "step": 12230
    },
    {
      "entropy": 1.7814926008383434,
      "epoch": 1.343632418774546,
      "grad_norm": 0.6876501441001892,
      "learning_rate": 6.6249006981838134e-06,
      "loss": 1.4588,
      "mean_token_accuracy": 0.6435671746730804,
      "num_tokens": 2050899001.0,
      "step": 12231
    },
    {
      "entropy": 1.6366635859012604,
      "epoch": 1.3437422756859192,
      "grad_norm": 0.6466518044471741,
      "learning_rate": 6.623501555559031e-06,
      "loss": 1.2687,
      "mean_token_accuracy": 0.6803223540385565,
      "num_tokens": 2051066927.0,
      "step": 12232
    },
    {
      "entropy": 1.6806427439053853,
      "epoch": 1.343852132597292,
      "grad_norm": 0.6225482225418091,
      "learning_rate": 6.622102551448456e-06,
      "loss": 1.2683,
      "mean_token_accuracy": 0.6693209211031595,
      "num_tokens": 2051200497.0,
      "step": 12233
    },
    {
      "entropy": 1.7055828273296356,
      "epoch": 1.343961989508665,
      "grad_norm": 0.6730872988700867,
      "learning_rate": 6.620703685896358e-06,
      "loss": 1.4317,
      "mean_token_accuracy": 0.6518972416718801,
      "num_tokens": 2051333834.0,
      "step": 12234
    },
    {
      "entropy": 1.7186238567034404,
      "epoch": 1.3440718464200379,
      "grad_norm": 0.6576967835426331,
      "learning_rate": 6.619304958947019e-06,
      "loss": 1.4835,
      "mean_token_accuracy": 0.6451779951651891,
      "num_tokens": 2051514481.0,
      "step": 12235
    },
    {
      "entropy": 1.7354322572549183,
      "epoch": 1.3441817033314107,
      "grad_norm": 0.609137237071991,
      "learning_rate": 6.617906370644704e-06,
      "loss": 1.3636,
      "mean_token_accuracy": 0.6611924121777216,
      "num_tokens": 2051685341.0,
      "step": 12236
    },
    {
      "entropy": 1.696060409148534,
      "epoch": 1.3442915602427838,
      "grad_norm": 0.6814700961112976,
      "learning_rate": 6.616507921033673e-06,
      "loss": 1.1382,
      "mean_token_accuracy": 0.6968227724234263,
      "num_tokens": 2051839522.0,
      "step": 12237
    },
    {
      "entropy": 1.7019359568754833,
      "epoch": 1.3444014171541567,
      "grad_norm": 0.7261495590209961,
      "learning_rate": 6.615109610158194e-06,
      "loss": 1.3654,
      "mean_token_accuracy": 0.6753996213277181,
      "num_tokens": 2051985272.0,
      "step": 12238
    },
    {
      "entropy": 1.727369596560796,
      "epoch": 1.3445112740655296,
      "grad_norm": 0.6944707632064819,
      "learning_rate": 6.6137114380625255e-06,
      "loss": 1.349,
      "mean_token_accuracy": 0.6564425776402155,
      "num_tokens": 2052119479.0,
      "step": 12239
    },
    {
      "entropy": 1.7554010450839996,
      "epoch": 1.3446211309769027,
      "grad_norm": 0.8773122429847717,
      "learning_rate": 6.612313404790907e-06,
      "loss": 1.3218,
      "mean_token_accuracy": 0.6642026404539744,
      "num_tokens": 2052246785.0,
      "step": 12240
    },
    {
      "entropy": 1.6962561508019764,
      "epoch": 1.3447309878882754,
      "grad_norm": 0.6583256721496582,
      "learning_rate": 6.61091551038759e-06,
      "loss": 1.3261,
      "mean_token_accuracy": 0.6596464316050211,
      "num_tokens": 2052401863.0,
      "step": 12241
    },
    {
      "entropy": 1.6963837146759033,
      "epoch": 1.3448408447996485,
      "grad_norm": 0.6508731842041016,
      "learning_rate": 6.609517754896824e-06,
      "loss": 1.3197,
      "mean_token_accuracy": 0.6548064053058624,
      "num_tokens": 2052537089.0,
      "step": 12242
    },
    {
      "entropy": 1.6928088863690693,
      "epoch": 1.3449507017110214,
      "grad_norm": 0.6507278084754944,
      "learning_rate": 6.608120138362844e-06,
      "loss": 1.4328,
      "mean_token_accuracy": 0.6521178285280863,
      "num_tokens": 2052697099.0,
      "step": 12243
    },
    {
      "entropy": 1.743686467409134,
      "epoch": 1.3450605586223943,
      "grad_norm": 0.6717689037322998,
      "learning_rate": 6.6067226608298765e-06,
      "loss": 1.4188,
      "mean_token_accuracy": 0.6479152143001556,
      "num_tokens": 2052886501.0,
      "step": 12244
    },
    {
      "entropy": 1.6980459491411846,
      "epoch": 1.3451704155337674,
      "grad_norm": 0.7341813445091248,
      "learning_rate": 6.605325322342162e-06,
      "loss": 1.3154,
      "mean_token_accuracy": 0.6584825615088145,
      "num_tokens": 2053021245.0,
      "step": 12245
    },
    {
      "entropy": 1.7826583683490753,
      "epoch": 1.3452802724451403,
      "grad_norm": 0.770753026008606,
      "learning_rate": 6.603928122943918e-06,
      "loss": 1.3637,
      "mean_token_accuracy": 0.6621987770001093,
      "num_tokens": 2053162265.0,
      "step": 12246
    },
    {
      "entropy": 1.7585231363773346,
      "epoch": 1.3453901293565131,
      "grad_norm": 0.7951369881629944,
      "learning_rate": 6.602531062679371e-06,
      "loss": 1.426,
      "mean_token_accuracy": 0.6497030705213547,
      "num_tokens": 2053305821.0,
      "step": 12247
    },
    {
      "entropy": 1.6882805128892262,
      "epoch": 1.345499986267886,
      "grad_norm": 0.7582414150238037,
      "learning_rate": 6.6011341415927345e-06,
      "loss": 1.4527,
      "mean_token_accuracy": 0.6527374486128489,
      "num_tokens": 2053475006.0,
      "step": 12248
    },
    {
      "entropy": 1.7408703466256459,
      "epoch": 1.345609843179259,
      "grad_norm": 0.621370255947113,
      "learning_rate": 6.599737359728216e-06,
      "loss": 1.4883,
      "mean_token_accuracy": 0.6453725149234136,
      "num_tokens": 2053652199.0,
      "step": 12249
    },
    {
      "entropy": 1.6780038674672444,
      "epoch": 1.345719700090632,
      "grad_norm": 0.7224386930465698,
      "learning_rate": 6.598340717130027e-06,
      "loss": 1.3707,
      "mean_token_accuracy": 0.6695211380720139,
      "num_tokens": 2053819186.0,
      "step": 12250
    },
    {
      "entropy": 1.7335948844750722,
      "epoch": 1.345829557002005,
      "grad_norm": 0.6624288558959961,
      "learning_rate": 6.59694421384238e-06,
      "loss": 1.4288,
      "mean_token_accuracy": 0.6465139786402384,
      "num_tokens": 2053967739.0,
      "step": 12251
    },
    {
      "entropy": 1.7141142686208088,
      "epoch": 1.3459394139133778,
      "grad_norm": 0.6660525798797607,
      "learning_rate": 6.595547849909456e-06,
      "loss": 1.55,
      "mean_token_accuracy": 0.6478944619496664,
      "num_tokens": 2054156120.0,
      "step": 12252
    },
    {
      "entropy": 1.756292422612508,
      "epoch": 1.346049270824751,
      "grad_norm": 0.781925618648529,
      "learning_rate": 6.594151625375458e-06,
      "loss": 1.2002,
      "mean_token_accuracy": 0.6815067678689957,
      "num_tokens": 2054258490.0,
      "step": 12253
    },
    {
      "entropy": 1.7494585911432903,
      "epoch": 1.3461591277361236,
      "grad_norm": 0.8068336844444275,
      "learning_rate": 6.5927555402845775e-06,
      "loss": 1.4026,
      "mean_token_accuracy": 0.6626935104529063,
      "num_tokens": 2054424651.0,
      "step": 12254
    },
    {
      "entropy": 1.715184877316157,
      "epoch": 1.3462689846474967,
      "grad_norm": 0.7686038613319397,
      "learning_rate": 6.591359594681001e-06,
      "loss": 1.2625,
      "mean_token_accuracy": 0.6788710653781891,
      "num_tokens": 2054553349.0,
      "step": 12255
    },
    {
      "entropy": 1.7815559605757396,
      "epoch": 1.3463788415588696,
      "grad_norm": 0.8140032291412354,
      "learning_rate": 6.5899637886089014e-06,
      "loss": 1.3976,
      "mean_token_accuracy": 0.6547159850597382,
      "num_tokens": 2054696873.0,
      "step": 12256
    },
    {
      "entropy": 1.671088566382726,
      "epoch": 1.3464886984702424,
      "grad_norm": 0.6825757026672363,
      "learning_rate": 6.588568122112464e-06,
      "loss": 1.5188,
      "mean_token_accuracy": 0.6364674071470896,
      "num_tokens": 2054865237.0,
      "step": 12257
    },
    {
      "entropy": 1.7114405731360118,
      "epoch": 1.3465985553816155,
      "grad_norm": 0.7471262216567993,
      "learning_rate": 6.587172595235856e-06,
      "loss": 1.426,
      "mean_token_accuracy": 0.6726455787817637,
      "num_tokens": 2054979860.0,
      "step": 12258
    },
    {
      "entropy": 1.708991785844167,
      "epoch": 1.3467084122929884,
      "grad_norm": 0.641041100025177,
      "learning_rate": 6.585777208023249e-06,
      "loss": 1.4844,
      "mean_token_accuracy": 0.65794704357783,
      "num_tokens": 2055155113.0,
      "step": 12259
    },
    {
      "entropy": 1.7066246469815571,
      "epoch": 1.3468182692043613,
      "grad_norm": 0.6625202298164368,
      "learning_rate": 6.584381960518805e-06,
      "loss": 1.3399,
      "mean_token_accuracy": 0.6542827486991882,
      "num_tokens": 2055292902.0,
      "step": 12260
    },
    {
      "entropy": 1.7277962068716686,
      "epoch": 1.3469281261157342,
      "grad_norm": 0.7618191838264465,
      "learning_rate": 6.58298685276668e-06,
      "loss": 1.5263,
      "mean_token_accuracy": 0.6597974797089895,
      "num_tokens": 2055475600.0,
      "step": 12261
    },
    {
      "entropy": 1.7162013947963715,
      "epoch": 1.347037983027107,
      "grad_norm": 0.6941340565681458,
      "learning_rate": 6.581591884811029e-06,
      "loss": 1.3457,
      "mean_token_accuracy": 0.653758093714714,
      "num_tokens": 2055605034.0,
      "step": 12262
    },
    {
      "entropy": 1.6504423717657726,
      "epoch": 1.3471478399384802,
      "grad_norm": 0.6448864340782166,
      "learning_rate": 6.580197056696009e-06,
      "loss": 1.3639,
      "mean_token_accuracy": 0.6632355799277624,
      "num_tokens": 2055763298.0,
      "step": 12263
    },
    {
      "entropy": 1.7163707713286083,
      "epoch": 1.347257696849853,
      "grad_norm": 0.740750253200531,
      "learning_rate": 6.578802368465758e-06,
      "loss": 1.318,
      "mean_token_accuracy": 0.6563950031995773,
      "num_tokens": 2055913303.0,
      "step": 12264
    },
    {
      "entropy": 1.6848769783973694,
      "epoch": 1.347367553761226,
      "grad_norm": 0.7327452301979065,
      "learning_rate": 6.577407820164417e-06,
      "loss": 1.2855,
      "mean_token_accuracy": 0.6678441762924194,
      "num_tokens": 2056037104.0,
      "step": 12265
    },
    {
      "entropy": 1.731307754913966,
      "epoch": 1.347477410672599,
      "grad_norm": 0.7852592468261719,
      "learning_rate": 6.576013411836128e-06,
      "loss": 1.3271,
      "mean_token_accuracy": 0.6711703638235728,
      "num_tokens": 2056238659.0,
      "step": 12266
    },
    {
      "entropy": 1.640326350927353,
      "epoch": 1.347587267583972,
      "grad_norm": 0.6604642271995544,
      "learning_rate": 6.5746191435250226e-06,
      "loss": 1.4065,
      "mean_token_accuracy": 0.6636442442735037,
      "num_tokens": 2056418652.0,
      "step": 12267
    },
    {
      "entropy": 1.6644433339436848,
      "epoch": 1.3476971244953448,
      "grad_norm": 0.7689099311828613,
      "learning_rate": 6.5732250152752245e-06,
      "loss": 1.252,
      "mean_token_accuracy": 0.6750207046667734,
      "num_tokens": 2056524847.0,
      "step": 12268
    },
    {
      "entropy": 1.6737519601980846,
      "epoch": 1.3478069814067177,
      "grad_norm": 0.665513813495636,
      "learning_rate": 6.5718310271308635e-06,
      "loss": 1.3628,
      "mean_token_accuracy": 0.6609103033939997,
      "num_tokens": 2056685770.0,
      "step": 12269
    },
    {
      "entropy": 1.705015589793523,
      "epoch": 1.3479168383180906,
      "grad_norm": 0.5894766449928284,
      "learning_rate": 6.57043717913605e-06,
      "loss": 1.5859,
      "mean_token_accuracy": 0.6079653153816859,
      "num_tokens": 2056913511.0,
      "step": 12270
    },
    {
      "entropy": 1.7268774608771007,
      "epoch": 1.3480266952294637,
      "grad_norm": 0.7870163321495056,
      "learning_rate": 6.569043471334908e-06,
      "loss": 1.6112,
      "mean_token_accuracy": 0.6265291919310888,
      "num_tokens": 2057089554.0,
      "step": 12271
    },
    {
      "entropy": 1.7062111397584279,
      "epoch": 1.3481365521408366,
      "grad_norm": 0.7420828342437744,
      "learning_rate": 6.567649903771543e-06,
      "loss": 1.4877,
      "mean_token_accuracy": 0.638950581351916,
      "num_tokens": 2057257100.0,
      "step": 12272
    },
    {
      "entropy": 1.6089070041974385,
      "epoch": 1.3482464090522095,
      "grad_norm": 0.6262128949165344,
      "learning_rate": 6.56625647649006e-06,
      "loss": 1.2779,
      "mean_token_accuracy": 0.6737044056256613,
      "num_tokens": 2057420018.0,
      "step": 12273
    },
    {
      "entropy": 1.706796109676361,
      "epoch": 1.3483562659635824,
      "grad_norm": 0.6636627912521362,
      "learning_rate": 6.564863189534562e-06,
      "loss": 1.2494,
      "mean_token_accuracy": 0.6729203015565872,
      "num_tokens": 2057522688.0,
      "step": 12274
    },
    {
      "entropy": 1.6989140808582306,
      "epoch": 1.3484661228749553,
      "grad_norm": 0.6211623549461365,
      "learning_rate": 6.563470042949147e-06,
      "loss": 1.3388,
      "mean_token_accuracy": 0.6737065613269806,
      "num_tokens": 2057711110.0,
      "step": 12275
    },
    {
      "entropy": 1.6851005852222443,
      "epoch": 1.3485759797863284,
      "grad_norm": 0.7660583257675171,
      "learning_rate": 6.562077036777902e-06,
      "loss": 1.4126,
      "mean_token_accuracy": 0.6566516806681951,
      "num_tokens": 2057882659.0,
      "step": 12276
    },
    {
      "entropy": 1.7562197347482045,
      "epoch": 1.3486858366977013,
      "grad_norm": 0.6725447177886963,
      "learning_rate": 6.560684171064924e-06,
      "loss": 1.354,
      "mean_token_accuracy": 0.6481892019510269,
      "num_tokens": 2058055824.0,
      "step": 12277
    },
    {
      "entropy": 1.7564709782600403,
      "epoch": 1.3487956936090741,
      "grad_norm": 0.7089916467666626,
      "learning_rate": 6.5592914458542855e-06,
      "loss": 1.5148,
      "mean_token_accuracy": 0.6371178328990936,
      "num_tokens": 2058221303.0,
      "step": 12278
    },
    {
      "entropy": 1.7744645377000172,
      "epoch": 1.3489055505204472,
      "grad_norm": 0.785156786441803,
      "learning_rate": 6.557898861190077e-06,
      "loss": 1.4629,
      "mean_token_accuracy": 0.6464930176734924,
      "num_tokens": 2058427514.0,
      "step": 12279
    },
    {
      "entropy": 1.7491690417130787,
      "epoch": 1.3490154074318201,
      "grad_norm": 0.7399646043777466,
      "learning_rate": 6.556506417116368e-06,
      "loss": 1.3963,
      "mean_token_accuracy": 0.6607019901275635,
      "num_tokens": 2058610955.0,
      "step": 12280
    },
    {
      "entropy": 1.7057534257570903,
      "epoch": 1.349125264343193,
      "grad_norm": 0.8085160255432129,
      "learning_rate": 6.555114113677226e-06,
      "loss": 1.4088,
      "mean_token_accuracy": 0.6513328750928243,
      "num_tokens": 2058770075.0,
      "step": 12281
    },
    {
      "entropy": 1.7024572590986888,
      "epoch": 1.349235121254566,
      "grad_norm": 0.6303825378417969,
      "learning_rate": 6.553721950916717e-06,
      "loss": 1.334,
      "mean_token_accuracy": 0.6583151618639628,
      "num_tokens": 2058936370.0,
      "step": 12282
    },
    {
      "entropy": 1.7161445319652557,
      "epoch": 1.3493449781659388,
      "grad_norm": 0.7127066254615784,
      "learning_rate": 6.552329928878914e-06,
      "loss": 1.4262,
      "mean_token_accuracy": 0.6654284497102102,
      "num_tokens": 2059051247.0,
      "step": 12283
    },
    {
      "entropy": 1.7131555875142415,
      "epoch": 1.349454835077312,
      "grad_norm": 0.6429823637008667,
      "learning_rate": 6.550938047607855e-06,
      "loss": 1.3437,
      "mean_token_accuracy": 0.6701266666253408,
      "num_tokens": 2059187258.0,
      "step": 12284
    },
    {
      "entropy": 1.6841067373752594,
      "epoch": 1.3495646919886848,
      "grad_norm": 0.623063862323761,
      "learning_rate": 6.549546307147604e-06,
      "loss": 1.4499,
      "mean_token_accuracy": 0.6565073132514954,
      "num_tokens": 2059370768.0,
      "step": 12285
    },
    {
      "entropy": 1.7391627728939056,
      "epoch": 1.3496745489000577,
      "grad_norm": 0.5836269855499268,
      "learning_rate": 6.548154707542209e-06,
      "loss": 1.5104,
      "mean_token_accuracy": 0.6366867274045944,
      "num_tokens": 2059615803.0,
      "step": 12286
    },
    {
      "entropy": 1.725864330927531,
      "epoch": 1.3497844058114306,
      "grad_norm": 0.6897220015525818,
      "learning_rate": 6.546763248835713e-06,
      "loss": 1.3016,
      "mean_token_accuracy": 0.659923846522967,
      "num_tokens": 2059736379.0,
      "step": 12287
    },
    {
      "entropy": 1.6832166115442913,
      "epoch": 1.3498942627228034,
      "grad_norm": 0.7074958086013794,
      "learning_rate": 6.5453719310721485e-06,
      "loss": 1.2413,
      "mean_token_accuracy": 0.6812171091636022,
      "num_tokens": 2059877019.0,
      "step": 12288
    },
    {
      "entropy": 1.7349075376987457,
      "epoch": 1.3500041196341765,
      "grad_norm": 0.7303879857063293,
      "learning_rate": 6.543980754295559e-06,
      "loss": 1.2653,
      "mean_token_accuracy": 0.6705899288256963,
      "num_tokens": 2060007355.0,
      "step": 12289
    },
    {
      "entropy": 1.6935294369856517,
      "epoch": 1.3501139765455494,
      "grad_norm": 0.9410924911499023,
      "learning_rate": 6.542589718549968e-06,
      "loss": 1.5074,
      "mean_token_accuracy": 0.6501014828681946,
      "num_tokens": 2060194841.0,
      "step": 12290
    },
    {
      "entropy": 1.649632195631663,
      "epoch": 1.3502238334569223,
      "grad_norm": 0.5783915519714355,
      "learning_rate": 6.541198823879406e-06,
      "loss": 1.2677,
      "mean_token_accuracy": 0.6630587677160898,
      "num_tokens": 2060380983.0,
      "step": 12291
    },
    {
      "entropy": 1.7274872958660126,
      "epoch": 1.3503336903682954,
      "grad_norm": 0.67799311876297,
      "learning_rate": 6.5398080703278935e-06,
      "loss": 1.3454,
      "mean_token_accuracy": 0.6603363305330276,
      "num_tokens": 2060548780.0,
      "step": 12292
    },
    {
      "entropy": 1.7195112307866414,
      "epoch": 1.3504435472796683,
      "grad_norm": 0.7613741755485535,
      "learning_rate": 6.5384174579394435e-06,
      "loss": 1.2624,
      "mean_token_accuracy": 0.6771682302157084,
      "num_tokens": 2060657304.0,
      "step": 12293
    },
    {
      "entropy": 1.7164626916249592,
      "epoch": 1.3505534041910412,
      "grad_norm": 0.8549966216087341,
      "learning_rate": 6.537026986758068e-06,
      "loss": 1.3898,
      "mean_token_accuracy": 0.650303453207016,
      "num_tokens": 2060815540.0,
      "step": 12294
    },
    {
      "entropy": 1.7116701900959015,
      "epoch": 1.350663261102414,
      "grad_norm": 0.6703973412513733,
      "learning_rate": 6.5356366568277855e-06,
      "loss": 1.4342,
      "mean_token_accuracy": 0.6575676451126734,
      "num_tokens": 2060986234.0,
      "step": 12295
    },
    {
      "entropy": 1.6897992591063182,
      "epoch": 1.350773118013787,
      "grad_norm": 0.6119180917739868,
      "learning_rate": 6.534246468192582e-06,
      "loss": 1.3418,
      "mean_token_accuracy": 0.6577243904272715,
      "num_tokens": 2061159321.0,
      "step": 12296
    },
    {
      "entropy": 1.6780081788698833,
      "epoch": 1.35088297492516,
      "grad_norm": 0.6298530697822571,
      "learning_rate": 6.532856420896469e-06,
      "loss": 1.3248,
      "mean_token_accuracy": 0.6540986796220144,
      "num_tokens": 2061293448.0,
      "step": 12297
    },
    {
      "entropy": 1.701556493838628,
      "epoch": 1.350992831836533,
      "grad_norm": 0.6996129155158997,
      "learning_rate": 6.531466514983438e-06,
      "loss": 1.4905,
      "mean_token_accuracy": 0.6383817990620931,
      "num_tokens": 2061518965.0,
      "step": 12298
    },
    {
      "entropy": 1.665728211402893,
      "epoch": 1.3511026887479058,
      "grad_norm": 0.8420900106430054,
      "learning_rate": 6.530076750497479e-06,
      "loss": 1.4345,
      "mean_token_accuracy": 0.6632737889885902,
      "num_tokens": 2061659464.0,
      "step": 12299
    },
    {
      "entropy": 1.680874894062678,
      "epoch": 1.3512125456592787,
      "grad_norm": 0.669554591178894,
      "learning_rate": 6.5286871274825736e-06,
      "loss": 1.5223,
      "mean_token_accuracy": 0.642878438035647,
      "num_tokens": 2061862373.0,
      "step": 12300
    },
    {
      "entropy": 1.7252130707105,
      "epoch": 1.3513224025706516,
      "grad_norm": 0.6238853335380554,
      "learning_rate": 6.527297645982709e-06,
      "loss": 1.4893,
      "mean_token_accuracy": 0.6513131509224573,
      "num_tokens": 2062013384.0,
      "step": 12301
    },
    {
      "entropy": 1.6984285215536754,
      "epoch": 1.3514322594820247,
      "grad_norm": 0.7303968667984009,
      "learning_rate": 6.525908306041855e-06,
      "loss": 1.2639,
      "mean_token_accuracy": 0.6747083564599355,
      "num_tokens": 2062142981.0,
      "step": 12302
    },
    {
      "entropy": 1.685420423746109,
      "epoch": 1.3515421163933976,
      "grad_norm": 0.7917304039001465,
      "learning_rate": 6.52451910770399e-06,
      "loss": 1.3632,
      "mean_token_accuracy": 0.6628880898157755,
      "num_tokens": 2062320185.0,
      "step": 12303
    },
    {
      "entropy": 1.7349448402722676,
      "epoch": 1.3516519733047705,
      "grad_norm": 0.732818067073822,
      "learning_rate": 6.52313005101308e-06,
      "loss": 1.3378,
      "mean_token_accuracy": 0.661628877123197,
      "num_tokens": 2062477090.0,
      "step": 12304
    },
    {
      "entropy": 1.7262056469917297,
      "epoch": 1.3517618302161436,
      "grad_norm": 0.8141718506813049,
      "learning_rate": 6.5217411360130815e-06,
      "loss": 1.5927,
      "mean_token_accuracy": 0.642752543091774,
      "num_tokens": 2062658383.0,
      "step": 12305
    },
    {
      "entropy": 1.697360982497533,
      "epoch": 1.3518716871275165,
      "grad_norm": 0.685117244720459,
      "learning_rate": 6.520352362747959e-06,
      "loss": 1.2822,
      "mean_token_accuracy": 0.6733687619368235,
      "num_tokens": 2062789276.0,
      "step": 12306
    },
    {
      "entropy": 1.6366734206676483,
      "epoch": 1.3519815440388894,
      "grad_norm": 0.7046248316764832,
      "learning_rate": 6.518963731261673e-06,
      "loss": 1.3198,
      "mean_token_accuracy": 0.6753099660078684,
      "num_tokens": 2062938946.0,
      "step": 12307
    },
    {
      "entropy": 1.662851224342982,
      "epoch": 1.3520914009502623,
      "grad_norm": 0.6730368137359619,
      "learning_rate": 6.517575241598157e-06,
      "loss": 1.3058,
      "mean_token_accuracy": 0.6809868812561035,
      "num_tokens": 2063102608.0,
      "step": 12308
    },
    {
      "entropy": 1.6642492314179738,
      "epoch": 1.3522012578616351,
      "grad_norm": 0.6425415873527527,
      "learning_rate": 6.516186893801366e-06,
      "loss": 1.4789,
      "mean_token_accuracy": 0.6525690505901972,
      "num_tokens": 2063301963.0,
      "step": 12309
    },
    {
      "entropy": 1.6880824367205303,
      "epoch": 1.3523111147730082,
      "grad_norm": 0.6970797181129456,
      "learning_rate": 6.514798687915243e-06,
      "loss": 1.3369,
      "mean_token_accuracy": 0.6655599971612295,
      "num_tokens": 2063467828.0,
      "step": 12310
    },
    {
      "entropy": 1.7415729264418285,
      "epoch": 1.3524209716843811,
      "grad_norm": 0.7570353746414185,
      "learning_rate": 6.513410623983719e-06,
      "loss": 1.4903,
      "mean_token_accuracy": 0.652079368631045,
      "num_tokens": 2063628984.0,
      "step": 12311
    },
    {
      "entropy": 1.7562313973903656,
      "epoch": 1.352530828595754,
      "grad_norm": 0.834516167640686,
      "learning_rate": 6.512022702050726e-06,
      "loss": 1.2405,
      "mean_token_accuracy": 0.6728113840023676,
      "num_tokens": 2063738934.0,
      "step": 12312
    },
    {
      "entropy": 1.7031614283720653,
      "epoch": 1.352640685507127,
      "grad_norm": 0.6265947222709656,
      "learning_rate": 6.510634922160194e-06,
      "loss": 1.3499,
      "mean_token_accuracy": 0.6655804167191187,
      "num_tokens": 2063945293.0,
      "step": 12313
    },
    {
      "entropy": 1.750719130039215,
      "epoch": 1.3527505424184998,
      "grad_norm": 0.7226284742355347,
      "learning_rate": 6.5092472843560404e-06,
      "loss": 1.4446,
      "mean_token_accuracy": 0.6544534166653951,
      "num_tokens": 2064107640.0,
      "step": 12314
    },
    {
      "entropy": 1.6810857057571411,
      "epoch": 1.352860399329873,
      "grad_norm": 0.7839952111244202,
      "learning_rate": 6.507859788682191e-06,
      "loss": 1.3484,
      "mean_token_accuracy": 0.6710902700821558,
      "num_tokens": 2064260066.0,
      "step": 12315
    },
    {
      "entropy": 1.7289798359076183,
      "epoch": 1.3529702562412458,
      "grad_norm": 0.7496806979179382,
      "learning_rate": 6.506472435182555e-06,
      "loss": 1.417,
      "mean_token_accuracy": 0.656493753194809,
      "num_tokens": 2064413871.0,
      "step": 12316
    },
    {
      "entropy": 1.724411557118098,
      "epoch": 1.3530801131526187,
      "grad_norm": 0.7686552405357361,
      "learning_rate": 6.505085223901037e-06,
      "loss": 1.4302,
      "mean_token_accuracy": 0.6589695413907369,
      "num_tokens": 2064584214.0,
      "step": 12317
    },
    {
      "entropy": 1.7191261947154999,
      "epoch": 1.3531899700639918,
      "grad_norm": 0.65711510181427,
      "learning_rate": 6.503698154881547e-06,
      "loss": 1.5165,
      "mean_token_accuracy": 0.6463207254807154,
      "num_tokens": 2064812066.0,
      "step": 12318
    },
    {
      "entropy": 1.7270474930604298,
      "epoch": 1.3532998269753647,
      "grad_norm": 0.7155986428260803,
      "learning_rate": 6.50231122816799e-06,
      "loss": 1.4462,
      "mean_token_accuracy": 0.6558532069126765,
      "num_tokens": 2064987126.0,
      "step": 12319
    },
    {
      "entropy": 1.6704954504966736,
      "epoch": 1.3534096838867375,
      "grad_norm": 0.7355462312698364,
      "learning_rate": 6.500924443804251e-06,
      "loss": 1.4153,
      "mean_token_accuracy": 0.6554108460744222,
      "num_tokens": 2065163540.0,
      "step": 12320
    },
    {
      "entropy": 1.7073476314544678,
      "epoch": 1.3535195407981104,
      "grad_norm": 0.6781120896339417,
      "learning_rate": 6.499537801834224e-06,
      "loss": 1.4084,
      "mean_token_accuracy": 0.645026778181394,
      "num_tokens": 2065344154.0,
      "step": 12321
    },
    {
      "entropy": 1.6700172821680705,
      "epoch": 1.3536293977094833,
      "grad_norm": 0.6056855320930481,
      "learning_rate": 6.4981513023018026e-06,
      "loss": 1.4415,
      "mean_token_accuracy": 0.6474265257517496,
      "num_tokens": 2065592601.0,
      "step": 12322
    },
    {
      "entropy": 1.7153640190760295,
      "epoch": 1.3537392546208564,
      "grad_norm": 0.6348044276237488,
      "learning_rate": 6.4967649452508645e-06,
      "loss": 1.3697,
      "mean_token_accuracy": 0.6543361097574234,
      "num_tokens": 2065767977.0,
      "step": 12323
    },
    {
      "entropy": 1.714322954416275,
      "epoch": 1.3538491115322293,
      "grad_norm": 0.6365450024604797,
      "learning_rate": 6.4953787307252815e-06,
      "loss": 1.442,
      "mean_token_accuracy": 0.635169451435407,
      "num_tokens": 2065967643.0,
      "step": 12324
    },
    {
      "entropy": 1.7047211130460103,
      "epoch": 1.3539589684436022,
      "grad_norm": 0.8873185515403748,
      "learning_rate": 6.493992658768935e-06,
      "loss": 1.418,
      "mean_token_accuracy": 0.6530811885992686,
      "num_tokens": 2066111579.0,
      "step": 12325
    },
    {
      "entropy": 1.7306146423021953,
      "epoch": 1.354068825354975,
      "grad_norm": 0.7051663398742676,
      "learning_rate": 6.492606729425688e-06,
      "loss": 1.4218,
      "mean_token_accuracy": 0.6628289421399435,
      "num_tokens": 2066301945.0,
      "step": 12326
    },
    {
      "entropy": 1.7398844460646312,
      "epoch": 1.354178682266348,
      "grad_norm": 0.6335932612419128,
      "learning_rate": 6.491220942739411e-06,
      "loss": 1.276,
      "mean_token_accuracy": 0.6720243046681086,
      "num_tokens": 2066426077.0,
      "step": 12327
    },
    {
      "entropy": 1.707278350989024,
      "epoch": 1.354288539177721,
      "grad_norm": 0.6095598936080933,
      "learning_rate": 6.489835298753959e-06,
      "loss": 1.4107,
      "mean_token_accuracy": 0.6501167962948481,
      "num_tokens": 2066577706.0,
      "step": 12328
    },
    {
      "entropy": 1.7580445806185405,
      "epoch": 1.354398396089094,
      "grad_norm": 0.6501827836036682,
      "learning_rate": 6.488449797513183e-06,
      "loss": 1.4603,
      "mean_token_accuracy": 0.6521537154912949,
      "num_tokens": 2066736674.0,
      "step": 12329
    },
    {
      "entropy": 1.7793205082416534,
      "epoch": 1.3545082530004668,
      "grad_norm": 0.8058743476867676,
      "learning_rate": 6.487064439060939e-06,
      "loss": 1.4942,
      "mean_token_accuracy": 0.649241695801417,
      "num_tokens": 2066929361.0,
      "step": 12330
    },
    {
      "entropy": 1.6442664166291554,
      "epoch": 1.35461810991184,
      "grad_norm": 0.7431530356407166,
      "learning_rate": 6.485679223441079e-06,
      "loss": 1.2053,
      "mean_token_accuracy": 0.6872799694538116,
      "num_tokens": 2067059964.0,
      "step": 12331
    },
    {
      "entropy": 1.6199305057525635,
      "epoch": 1.3547279668232128,
      "grad_norm": 0.6863206624984741,
      "learning_rate": 6.48429415069743e-06,
      "loss": 1.3179,
      "mean_token_accuracy": 0.6764807005723318,
      "num_tokens": 2067198007.0,
      "step": 12332
    },
    {
      "entropy": 1.6564082105954487,
      "epoch": 1.3548378237345857,
      "grad_norm": 0.6196966767311096,
      "learning_rate": 6.482909220873838e-06,
      "loss": 1.447,
      "mean_token_accuracy": 0.6547676275173823,
      "num_tokens": 2067377864.0,
      "step": 12333
    },
    {
      "entropy": 1.7091114819049835,
      "epoch": 1.3549476806459586,
      "grad_norm": 0.8706151843070984,
      "learning_rate": 6.481524434014134e-06,
      "loss": 1.4952,
      "mean_token_accuracy": 0.6537403712670008,
      "num_tokens": 2067518216.0,
      "step": 12334
    },
    {
      "entropy": 1.685113827387492,
      "epoch": 1.3550575375573315,
      "grad_norm": 0.7392619848251343,
      "learning_rate": 6.480139790162146e-06,
      "loss": 1.4484,
      "mean_token_accuracy": 0.652221699555715,
      "num_tokens": 2067650159.0,
      "step": 12335
    },
    {
      "entropy": 1.7211529811223347,
      "epoch": 1.3551673944687046,
      "grad_norm": 0.7249420285224915,
      "learning_rate": 6.478755289361698e-06,
      "loss": 1.4059,
      "mean_token_accuracy": 0.642576590180397,
      "num_tokens": 2067855074.0,
      "step": 12336
    },
    {
      "entropy": 1.7155493001143138,
      "epoch": 1.3552772513800775,
      "grad_norm": 1.159257411956787,
      "learning_rate": 6.4773709316566036e-06,
      "loss": 1.237,
      "mean_token_accuracy": 0.6643270750840505,
      "num_tokens": 2068013117.0,
      "step": 12337
    },
    {
      "entropy": 1.693147212266922,
      "epoch": 1.3553871082914504,
      "grad_norm": 0.692810595035553,
      "learning_rate": 6.475986717090683e-06,
      "loss": 1.3471,
      "mean_token_accuracy": 0.6661613335212072,
      "num_tokens": 2068174867.0,
      "step": 12338
    },
    {
      "entropy": 1.66440216700236,
      "epoch": 1.3554969652028233,
      "grad_norm": 0.6912005543708801,
      "learning_rate": 6.474602645707746e-06,
      "loss": 1.3643,
      "mean_token_accuracy": 0.660924697915713,
      "num_tokens": 2068363011.0,
      "step": 12339
    },
    {
      "entropy": 1.7170608242352803,
      "epoch": 1.3556068221141961,
      "grad_norm": 0.6402304172515869,
      "learning_rate": 6.473218717551597e-06,
      "loss": 1.5135,
      "mean_token_accuracy": 0.6523879170417786,
      "num_tokens": 2068560209.0,
      "step": 12340
    },
    {
      "entropy": 1.7328025897343953,
      "epoch": 1.3557166790255692,
      "grad_norm": 0.6300782561302185,
      "learning_rate": 6.471834932666033e-06,
      "loss": 1.3726,
      "mean_token_accuracy": 0.6494940121968588,
      "num_tokens": 2068759721.0,
      "step": 12341
    },
    {
      "entropy": 1.7307655314604442,
      "epoch": 1.3558265359369421,
      "grad_norm": 0.716905951499939,
      "learning_rate": 6.470451291094855e-06,
      "loss": 1.3454,
      "mean_token_accuracy": 0.6711088915665945,
      "num_tokens": 2068930911.0,
      "step": 12342
    },
    {
      "entropy": 1.7667767107486725,
      "epoch": 1.355936392848315,
      "grad_norm": 0.6788172721862793,
      "learning_rate": 6.469067792881853e-06,
      "loss": 1.4581,
      "mean_token_accuracy": 0.6369956433773041,
      "num_tokens": 2069122750.0,
      "step": 12343
    },
    {
      "entropy": 1.7475673854351044,
      "epoch": 1.3560462497596881,
      "grad_norm": 0.744155764579773,
      "learning_rate": 6.467684438070809e-06,
      "loss": 1.3626,
      "mean_token_accuracy": 0.6463822772105535,
      "num_tokens": 2069264289.0,
      "step": 12344
    },
    {
      "entropy": 1.7614603241284688,
      "epoch": 1.356156106671061,
      "grad_norm": 0.6432300209999084,
      "learning_rate": 6.466301226705516e-06,
      "loss": 1.4698,
      "mean_token_accuracy": 0.6485941559076309,
      "num_tokens": 2069414632.0,
      "step": 12345
    },
    {
      "entropy": 1.6905387043952942,
      "epoch": 1.356265963582434,
      "grad_norm": 0.6607070565223694,
      "learning_rate": 6.464918158829741e-06,
      "loss": 1.4342,
      "mean_token_accuracy": 0.6547519415616989,
      "num_tokens": 2069600554.0,
      "step": 12346
    },
    {
      "entropy": 1.660075883070628,
      "epoch": 1.3563758204938068,
      "grad_norm": 0.6849450469017029,
      "learning_rate": 6.463535234487267e-06,
      "loss": 1.3493,
      "mean_token_accuracy": 0.6670071085294088,
      "num_tokens": 2069751438.0,
      "step": 12347
    },
    {
      "entropy": 1.7046632369359334,
      "epoch": 1.3564856774051797,
      "grad_norm": 0.6302372217178345,
      "learning_rate": 6.462152453721859e-06,
      "loss": 1.3905,
      "mean_token_accuracy": 0.6431731383005778,
      "num_tokens": 2069882559.0,
      "step": 12348
    },
    {
      "entropy": 1.7553166151046753,
      "epoch": 1.3565955343165528,
      "grad_norm": 0.7600220441818237,
      "learning_rate": 6.460769816577277e-06,
      "loss": 1.3602,
      "mean_token_accuracy": 0.6480604211489359,
      "num_tokens": 2070014200.0,
      "step": 12349
    },
    {
      "entropy": 1.6376391152540843,
      "epoch": 1.3567053912279257,
      "grad_norm": 0.7972891926765442,
      "learning_rate": 6.4593873230972845e-06,
      "loss": 1.4161,
      "mean_token_accuracy": 0.6628619134426117,
      "num_tokens": 2070220462.0,
      "step": 12350
    },
    {
      "entropy": 1.6964278320471446,
      "epoch": 1.3568152481392985,
      "grad_norm": 0.6905115842819214,
      "learning_rate": 6.458004973325643e-06,
      "loss": 1.2696,
      "mean_token_accuracy": 0.6703715721766154,
      "num_tokens": 2070379579.0,
      "step": 12351
    },
    {
      "entropy": 1.695211390654246,
      "epoch": 1.3569251050506714,
      "grad_norm": 0.6479082107543945,
      "learning_rate": 6.456622767306093e-06,
      "loss": 1.3873,
      "mean_token_accuracy": 0.6564722607533137,
      "num_tokens": 2070508597.0,
      "step": 12352
    },
    {
      "entropy": 1.6002402206261952,
      "epoch": 1.3570349619620443,
      "grad_norm": 0.6399569511413574,
      "learning_rate": 6.455240705082386e-06,
      "loss": 1.1791,
      "mean_token_accuracy": 0.6922868291536967,
      "num_tokens": 2070662900.0,
      "step": 12353
    },
    {
      "entropy": 1.667330761750539,
      "epoch": 1.3571448188734174,
      "grad_norm": 0.6267159581184387,
      "learning_rate": 6.453858786698264e-06,
      "loss": 1.4196,
      "mean_token_accuracy": 0.6513769179582596,
      "num_tokens": 2070864178.0,
      "step": 12354
    },
    {
      "entropy": 1.697418709595998,
      "epoch": 1.3572546757847903,
      "grad_norm": 0.615899920463562,
      "learning_rate": 6.4524770121974625e-06,
      "loss": 1.4321,
      "mean_token_accuracy": 0.6468136459589005,
      "num_tokens": 2071051168.0,
      "step": 12355
    },
    {
      "entropy": 1.7128571271896362,
      "epoch": 1.3573645326961632,
      "grad_norm": 0.6929111480712891,
      "learning_rate": 6.451095381623711e-06,
      "loss": 1.3526,
      "mean_token_accuracy": 0.6634085973103842,
      "num_tokens": 2071226809.0,
      "step": 12356
    },
    {
      "entropy": 1.7381273806095123,
      "epoch": 1.3574743896075363,
      "grad_norm": 0.6834197640419006,
      "learning_rate": 6.449713895020746e-06,
      "loss": 1.4679,
      "mean_token_accuracy": 0.6420772125323614,
      "num_tokens": 2071396186.0,
      "step": 12357
    },
    {
      "entropy": 1.722596416870753,
      "epoch": 1.3575842465189092,
      "grad_norm": 0.6959985494613647,
      "learning_rate": 6.448332552432282e-06,
      "loss": 1.4207,
      "mean_token_accuracy": 0.6518757989009222,
      "num_tokens": 2071595004.0,
      "step": 12358
    },
    {
      "entropy": 1.6781906882921855,
      "epoch": 1.357694103430282,
      "grad_norm": 0.63628751039505,
      "learning_rate": 6.446951353902045e-06,
      "loss": 1.4942,
      "mean_token_accuracy": 0.663748636841774,
      "num_tokens": 2071740366.0,
      "step": 12359
    },
    {
      "entropy": 1.6715950568517048,
      "epoch": 1.357803960341655,
      "grad_norm": 0.6627793312072754,
      "learning_rate": 6.445570299473744e-06,
      "loss": 1.4144,
      "mean_token_accuracy": 0.660917063554128,
      "num_tokens": 2071913108.0,
      "step": 12360
    },
    {
      "entropy": 1.803322861591975,
      "epoch": 1.3579138172530278,
      "grad_norm": 0.7100440859794617,
      "learning_rate": 6.4441893891910885e-06,
      "loss": 1.6403,
      "mean_token_accuracy": 0.6258356620868047,
      "num_tokens": 2072140175.0,
      "step": 12361
    },
    {
      "entropy": 1.7187660336494446,
      "epoch": 1.358023674164401,
      "grad_norm": 0.648104727268219,
      "learning_rate": 6.442808623097787e-06,
      "loss": 1.3935,
      "mean_token_accuracy": 0.6531741370757421,
      "num_tokens": 2072329640.0,
      "step": 12362
    },
    {
      "entropy": 1.6625087360541027,
      "epoch": 1.3581335310757738,
      "grad_norm": 0.6913976669311523,
      "learning_rate": 6.441428001237546e-06,
      "loss": 1.3703,
      "mean_token_accuracy": 0.6623245229323705,
      "num_tokens": 2072470021.0,
      "step": 12363
    },
    {
      "entropy": 1.6901950438817341,
      "epoch": 1.3582433879871467,
      "grad_norm": 0.6735898852348328,
      "learning_rate": 6.440047523654047e-06,
      "loss": 1.5483,
      "mean_token_accuracy": 0.6314966926972071,
      "num_tokens": 2072671483.0,
      "step": 12364
    },
    {
      "entropy": 1.7260485688845317,
      "epoch": 1.3583532448985196,
      "grad_norm": 0.7406774163246155,
      "learning_rate": 6.438667190390989e-06,
      "loss": 1.2643,
      "mean_token_accuracy": 0.676031157374382,
      "num_tokens": 2072824287.0,
      "step": 12365
    },
    {
      "entropy": 1.6700426439444225,
      "epoch": 1.3584631018098925,
      "grad_norm": 0.6413915157318115,
      "learning_rate": 6.437287001492063e-06,
      "loss": 1.3453,
      "mean_token_accuracy": 0.6662431508302689,
      "num_tokens": 2072998417.0,
      "step": 12366
    },
    {
      "entropy": 1.717922439177831,
      "epoch": 1.3585729587212656,
      "grad_norm": 0.7316557765007019,
      "learning_rate": 6.4359069570009455e-06,
      "loss": 1.5969,
      "mean_token_accuracy": 0.620139608780543,
      "num_tokens": 2073209496.0,
      "step": 12367
    },
    {
      "entropy": 1.6824163496494293,
      "epoch": 1.3586828156326385,
      "grad_norm": 0.667999804019928,
      "learning_rate": 6.434527056961315e-06,
      "loss": 1.3104,
      "mean_token_accuracy": 0.6806386361519495,
      "num_tokens": 2073399215.0,
      "step": 12368
    },
    {
      "entropy": 1.6601607302824657,
      "epoch": 1.3587926725440114,
      "grad_norm": 0.5929083228111267,
      "learning_rate": 6.4331473014168485e-06,
      "loss": 1.2936,
      "mean_token_accuracy": 0.6646314362684885,
      "num_tokens": 2073573586.0,
      "step": 12369
    },
    {
      "entropy": 1.8227445185184479,
      "epoch": 1.3589025294553845,
      "grad_norm": 0.6329379677772522,
      "learning_rate": 6.431767690411208e-06,
      "loss": 1.4407,
      "mean_token_accuracy": 0.6459532777468363,
      "num_tokens": 2073708654.0,
      "step": 12370
    },
    {
      "entropy": 1.6659250060717266,
      "epoch": 1.3590123863667574,
      "grad_norm": 0.6623415946960449,
      "learning_rate": 6.430388223988067e-06,
      "loss": 1.6464,
      "mean_token_accuracy": 0.6338375359773636,
      "num_tokens": 2073930206.0,
      "step": 12371
    },
    {
      "entropy": 1.730675846338272,
      "epoch": 1.3591222432781302,
      "grad_norm": 0.6786333918571472,
      "learning_rate": 6.429008902191077e-06,
      "loss": 1.3172,
      "mean_token_accuracy": 0.676612580815951,
      "num_tokens": 2074090430.0,
      "step": 12372
    },
    {
      "entropy": 1.723184158404668,
      "epoch": 1.3592321001895031,
      "grad_norm": 0.9140381217002869,
      "learning_rate": 6.4276297250638945e-06,
      "loss": 1.3079,
      "mean_token_accuracy": 0.6676105012496313,
      "num_tokens": 2074265822.0,
      "step": 12373
    },
    {
      "entropy": 1.6886428495248158,
      "epoch": 1.359341957100876,
      "grad_norm": 0.696064293384552,
      "learning_rate": 6.426250692650169e-06,
      "loss": 1.2555,
      "mean_token_accuracy": 0.6780825853347778,
      "num_tokens": 2074394539.0,
      "step": 12374
    },
    {
      "entropy": 1.7155614097913106,
      "epoch": 1.3594518140122491,
      "grad_norm": 0.751995861530304,
      "learning_rate": 6.424871804993555e-06,
      "loss": 1.4351,
      "mean_token_accuracy": 0.6506524682044983,
      "num_tokens": 2074589651.0,
      "step": 12375
    },
    {
      "entropy": 1.7856918176015217,
      "epoch": 1.359561670923622,
      "grad_norm": 0.8634830117225647,
      "learning_rate": 6.423493062137683e-06,
      "loss": 1.4097,
      "mean_token_accuracy": 0.6395214746395746,
      "num_tokens": 2074752173.0,
      "step": 12376
    },
    {
      "entropy": 1.6887954970200856,
      "epoch": 1.359671527834995,
      "grad_norm": 0.686133623123169,
      "learning_rate": 6.42211446412619e-06,
      "loss": 1.3559,
      "mean_token_accuracy": 0.665522962808609,
      "num_tokens": 2074914932.0,
      "step": 12377
    },
    {
      "entropy": 1.6841253538926442,
      "epoch": 1.3597813847463678,
      "grad_norm": 0.6983356475830078,
      "learning_rate": 6.420736011002715e-06,
      "loss": 1.3099,
      "mean_token_accuracy": 0.674403061469396,
      "num_tokens": 2075065681.0,
      "step": 12378
    },
    {
      "entropy": 1.7410068213939667,
      "epoch": 1.3598912416577407,
      "grad_norm": 0.798302173614502,
      "learning_rate": 6.419357702810882e-06,
      "loss": 1.4741,
      "mean_token_accuracy": 0.6387134939432144,
      "num_tokens": 2075284738.0,
      "step": 12379
    },
    {
      "entropy": 1.711126794417699,
      "epoch": 1.3600010985691138,
      "grad_norm": 0.6752367615699768,
      "learning_rate": 6.417979539594311e-06,
      "loss": 1.4566,
      "mean_token_accuracy": 0.6450911511977514,
      "num_tokens": 2075459304.0,
      "step": 12380
    },
    {
      "entropy": 1.6090798874696095,
      "epoch": 1.3601109554804867,
      "grad_norm": 0.7679362297058105,
      "learning_rate": 6.416601521396626e-06,
      "loss": 1.453,
      "mean_token_accuracy": 0.6455042411883672,
      "num_tokens": 2075657038.0,
      "step": 12381
    },
    {
      "entropy": 1.7894425988197327,
      "epoch": 1.3602208123918595,
      "grad_norm": 0.685226559638977,
      "learning_rate": 6.4152236482614336e-06,
      "loss": 1.6363,
      "mean_token_accuracy": 0.6196721792221069,
      "num_tokens": 2075889197.0,
      "step": 12382
    },
    {
      "entropy": 1.6688521007696788,
      "epoch": 1.3603306693032327,
      "grad_norm": 0.606177031993866,
      "learning_rate": 6.413845920232351e-06,
      "loss": 1.5137,
      "mean_token_accuracy": 0.641996776064237,
      "num_tokens": 2076111995.0,
      "step": 12383
    },
    {
      "entropy": 1.7345014313856761,
      "epoch": 1.3604405262146055,
      "grad_norm": 0.7717848420143127,
      "learning_rate": 6.41246833735298e-06,
      "loss": 1.4069,
      "mean_token_accuracy": 0.6651813685894012,
      "num_tokens": 2076293865.0,
      "step": 12384
    },
    {
      "entropy": 1.6873282094796498,
      "epoch": 1.3605503831259784,
      "grad_norm": 0.6491485238075256,
      "learning_rate": 6.411090899666912e-06,
      "loss": 1.4593,
      "mean_token_accuracy": 0.6515095929304758,
      "num_tokens": 2076503891.0,
      "step": 12385
    },
    {
      "entropy": 1.6362064977486928,
      "epoch": 1.3606602400373513,
      "grad_norm": 0.669855535030365,
      "learning_rate": 6.4097136072177516e-06,
      "loss": 1.4198,
      "mean_token_accuracy": 0.6423494170109431,
      "num_tokens": 2076635813.0,
      "step": 12386
    },
    {
      "entropy": 1.7514414191246033,
      "epoch": 1.3607700969487242,
      "grad_norm": 0.683935284614563,
      "learning_rate": 6.408336460049091e-06,
      "loss": 1.3794,
      "mean_token_accuracy": 0.6483311802148819,
      "num_tokens": 2076766414.0,
      "step": 12387
    },
    {
      "entropy": 1.7777518530686696,
      "epoch": 1.3608799538600973,
      "grad_norm": 0.7260268926620483,
      "learning_rate": 6.406959458204509e-06,
      "loss": 1.4164,
      "mean_token_accuracy": 0.6536405185858408,
      "num_tokens": 2076906861.0,
      "step": 12388
    },
    {
      "entropy": 1.7372454206148784,
      "epoch": 1.3609898107714702,
      "grad_norm": 0.6218958497047424,
      "learning_rate": 6.4055826017275895e-06,
      "loss": 1.4287,
      "mean_token_accuracy": 0.6501857141653696,
      "num_tokens": 2077064213.0,
      "step": 12389
    },
    {
      "entropy": 1.6530345578988392,
      "epoch": 1.361099667682843,
      "grad_norm": 0.6436760425567627,
      "learning_rate": 6.404205890661914e-06,
      "loss": 1.4417,
      "mean_token_accuracy": 0.6399639348189036,
      "num_tokens": 2077282573.0,
      "step": 12390
    },
    {
      "entropy": 1.7672642767429352,
      "epoch": 1.361209524594216,
      "grad_norm": 0.6963381767272949,
      "learning_rate": 6.40282932505105e-06,
      "loss": 1.388,
      "mean_token_accuracy": 0.6588474710782369,
      "num_tokens": 2077494073.0,
      "step": 12391
    },
    {
      "entropy": 1.6798830231030781,
      "epoch": 1.3613193815055888,
      "grad_norm": 0.7534324526786804,
      "learning_rate": 6.4014529049385674e-06,
      "loss": 1.2571,
      "mean_token_accuracy": 0.6731600165367126,
      "num_tokens": 2077645291.0,
      "step": 12392
    },
    {
      "entropy": 1.6944253742694855,
      "epoch": 1.361429238416962,
      "grad_norm": 0.7895978093147278,
      "learning_rate": 6.400076630368024e-06,
      "loss": 1.3938,
      "mean_token_accuracy": 0.6565722674131393,
      "num_tokens": 2077779765.0,
      "step": 12393
    },
    {
      "entropy": 1.732394814491272,
      "epoch": 1.3615390953283348,
      "grad_norm": 0.7902349233627319,
      "learning_rate": 6.398700501382983e-06,
      "loss": 1.5484,
      "mean_token_accuracy": 0.6475964114069939,
      "num_tokens": 2077979044.0,
      "step": 12394
    },
    {
      "entropy": 1.6490447123845418,
      "epoch": 1.3616489522397077,
      "grad_norm": 0.6817672252655029,
      "learning_rate": 6.397324518027002e-06,
      "loss": 1.3966,
      "mean_token_accuracy": 0.6636393964290619,
      "num_tokens": 2078130750.0,
      "step": 12395
    },
    {
      "entropy": 1.7045618295669556,
      "epoch": 1.3617588091510808,
      "grad_norm": 0.6113632917404175,
      "learning_rate": 6.395948680343625e-06,
      "loss": 1.5267,
      "mean_token_accuracy": 0.6461210399866104,
      "num_tokens": 2078334424.0,
      "step": 12396
    },
    {
      "entropy": 1.677074631055196,
      "epoch": 1.3618686660624537,
      "grad_norm": 0.6405321955680847,
      "learning_rate": 6.394572988376393e-06,
      "loss": 1.3298,
      "mean_token_accuracy": 0.6814304739236832,
      "num_tokens": 2078483301.0,
      "step": 12397
    },
    {
      "entropy": 1.6795497337977092,
      "epoch": 1.3619785229738266,
      "grad_norm": 0.6742625832557678,
      "learning_rate": 6.393197442168856e-06,
      "loss": 1.4616,
      "mean_token_accuracy": 0.6637395819028219,
      "num_tokens": 2078651932.0,
      "step": 12398
    },
    {
      "entropy": 1.6983890235424042,
      "epoch": 1.3620883798851995,
      "grad_norm": 0.8591446280479431,
      "learning_rate": 6.391822041764542e-06,
      "loss": 1.3586,
      "mean_token_accuracy": 0.6608823935190836,
      "num_tokens": 2078783927.0,
      "step": 12399
    },
    {
      "entropy": 1.7535987198352814,
      "epoch": 1.3621982367965724,
      "grad_norm": 0.6175576448440552,
      "learning_rate": 6.390446787206983e-06,
      "loss": 1.5121,
      "mean_token_accuracy": 0.6477769613265991,
      "num_tokens": 2078957176.0,
      "step": 12400
    },
    {
      "entropy": 1.7856710652510326,
      "epoch": 1.3623080937079455,
      "grad_norm": 0.6982350945472717,
      "learning_rate": 6.389071678539708e-06,
      "loss": 1.4667,
      "mean_token_accuracy": 0.6387214660644531,
      "num_tokens": 2079129907.0,
      "step": 12401
    },
    {
      "entropy": 1.7471899092197418,
      "epoch": 1.3624179506193184,
      "grad_norm": 0.895235002040863,
      "learning_rate": 6.387696715806233e-06,
      "loss": 1.5033,
      "mean_token_accuracy": 0.6521243900060654,
      "num_tokens": 2079292376.0,
      "step": 12402
    },
    {
      "entropy": 1.702579249938329,
      "epoch": 1.3625278075306912,
      "grad_norm": 0.80966717004776,
      "learning_rate": 6.3863218990500835e-06,
      "loss": 1.424,
      "mean_token_accuracy": 0.6629576434691747,
      "num_tokens": 2079480359.0,
      "step": 12403
    },
    {
      "entropy": 1.6714877784252167,
      "epoch": 1.3626376644420641,
      "grad_norm": 0.7189324498176575,
      "learning_rate": 6.384947228314765e-06,
      "loss": 1.239,
      "mean_token_accuracy": 0.6766127347946167,
      "num_tokens": 2079633790.0,
      "step": 12404
    },
    {
      "entropy": 1.6770406166712444,
      "epoch": 1.362747521353437,
      "grad_norm": 0.5395998358726501,
      "learning_rate": 6.383572703643786e-06,
      "loss": 1.4526,
      "mean_token_accuracy": 0.6433726151784261,
      "num_tokens": 2079890149.0,
      "step": 12405
    },
    {
      "entropy": 1.6809902389844258,
      "epoch": 1.3628573782648101,
      "grad_norm": 0.6718010306358337,
      "learning_rate": 6.382198325080649e-06,
      "loss": 1.5027,
      "mean_token_accuracy": 0.636824240287145,
      "num_tokens": 2080094393.0,
      "step": 12406
    },
    {
      "entropy": 1.6974414388338726,
      "epoch": 1.362967235176183,
      "grad_norm": 0.6535385847091675,
      "learning_rate": 6.380824092668857e-06,
      "loss": 1.3319,
      "mean_token_accuracy": 0.6718876659870148,
      "num_tokens": 2080234231.0,
      "step": 12407
    },
    {
      "entropy": 1.701567719380061,
      "epoch": 1.363077092087556,
      "grad_norm": 0.5973226428031921,
      "learning_rate": 6.379450006451902e-06,
      "loss": 1.5466,
      "mean_token_accuracy": 0.6344873458147049,
      "num_tokens": 2080439315.0,
      "step": 12408
    },
    {
      "entropy": 1.6704054077466328,
      "epoch": 1.363186948998929,
      "grad_norm": 0.6961952447891235,
      "learning_rate": 6.378076066473269e-06,
      "loss": 1.4765,
      "mean_token_accuracy": 0.6445471247037252,
      "num_tokens": 2080636110.0,
      "step": 12409
    },
    {
      "entropy": 1.7136572698752086,
      "epoch": 1.363296805910302,
      "grad_norm": 0.8393598198890686,
      "learning_rate": 6.37670227277645e-06,
      "loss": 1.4695,
      "mean_token_accuracy": 0.6775861183802286,
      "num_tokens": 2080766358.0,
      "step": 12410
    },
    {
      "entropy": 1.6980823675791423,
      "epoch": 1.3634066628216748,
      "grad_norm": 0.7727437019348145,
      "learning_rate": 6.37532862540492e-06,
      "loss": 1.4852,
      "mean_token_accuracy": 0.6424992879231771,
      "num_tokens": 2080940544.0,
      "step": 12411
    },
    {
      "entropy": 1.7293777863184612,
      "epoch": 1.3635165197330477,
      "grad_norm": 0.7608976364135742,
      "learning_rate": 6.3739551244021515e-06,
      "loss": 1.4743,
      "mean_token_accuracy": 0.6436664660771688,
      "num_tokens": 2081098947.0,
      "step": 12412
    },
    {
      "entropy": 1.7463851571083069,
      "epoch": 1.3636263766444205,
      "grad_norm": 0.6330917477607727,
      "learning_rate": 6.372581769811621e-06,
      "loss": 1.3279,
      "mean_token_accuracy": 0.6707935730616251,
      "num_tokens": 2081249943.0,
      "step": 12413
    },
    {
      "entropy": 1.744843582312266,
      "epoch": 1.3637362335557937,
      "grad_norm": 0.8132315874099731,
      "learning_rate": 6.37120856167679e-06,
      "loss": 1.6554,
      "mean_token_accuracy": 0.635198379556338,
      "num_tokens": 2081409375.0,
      "step": 12414
    },
    {
      "entropy": 1.6739271680514018,
      "epoch": 1.3638460904671665,
      "grad_norm": 0.7317605018615723,
      "learning_rate": 6.369835500041126e-06,
      "loss": 1.3227,
      "mean_token_accuracy": 0.663427397608757,
      "num_tokens": 2081563302.0,
      "step": 12415
    },
    {
      "entropy": 1.6746556460857391,
      "epoch": 1.3639559473785394,
      "grad_norm": 0.7247527837753296,
      "learning_rate": 6.368462584948082e-06,
      "loss": 1.3398,
      "mean_token_accuracy": 0.6720200031995773,
      "num_tokens": 2081684223.0,
      "step": 12416
    },
    {
      "entropy": 1.6810146073500316,
      "epoch": 1.3640658042899123,
      "grad_norm": 0.7046148777008057,
      "learning_rate": 6.367089816441106e-06,
      "loss": 1.3198,
      "mean_token_accuracy": 0.6763695975144705,
      "num_tokens": 2081804676.0,
      "step": 12417
    },
    {
      "entropy": 1.7369506259759266,
      "epoch": 1.3641756612012852,
      "grad_norm": 0.679513156414032,
      "learning_rate": 6.36571719456365e-06,
      "loss": 1.4399,
      "mean_token_accuracy": 0.652540922164917,
      "num_tokens": 2081966586.0,
      "step": 12418
    },
    {
      "entropy": 1.7097415924072266,
      "epoch": 1.3642855181126583,
      "grad_norm": 0.6426488161087036,
      "learning_rate": 6.364344719359161e-06,
      "loss": 1.4498,
      "mean_token_accuracy": 0.6472660650809606,
      "num_tokens": 2082178544.0,
      "step": 12419
    },
    {
      "entropy": 1.7177700698375702,
      "epoch": 1.3643953750240312,
      "grad_norm": 0.6975800395011902,
      "learning_rate": 6.362972390871072e-06,
      "loss": 1.4556,
      "mean_token_accuracy": 0.6420897940794627,
      "num_tokens": 2082354325.0,
      "step": 12420
    },
    {
      "entropy": 1.6956178347269695,
      "epoch": 1.364505231935404,
      "grad_norm": 0.6548015475273132,
      "learning_rate": 6.361600209142813e-06,
      "loss": 1.2944,
      "mean_token_accuracy": 0.6646904796361923,
      "num_tokens": 2082470336.0,
      "step": 12421
    },
    {
      "entropy": 1.6302022536595662,
      "epoch": 1.3646150888467772,
      "grad_norm": 1.402173638343811,
      "learning_rate": 6.360228174217822e-06,
      "loss": 1.3346,
      "mean_token_accuracy": 0.6607320159673691,
      "num_tokens": 2082670245.0,
      "step": 12422
    },
    {
      "entropy": 1.7581724623839061,
      "epoch": 1.36472494575815,
      "grad_norm": 0.7247641682624817,
      "learning_rate": 6.358856286139517e-06,
      "loss": 1.3864,
      "mean_token_accuracy": 0.65654323498408,
      "num_tokens": 2082832020.0,
      "step": 12423
    },
    {
      "entropy": 1.7525269190470378,
      "epoch": 1.364834802669523,
      "grad_norm": 0.7007389664649963,
      "learning_rate": 6.3574845449513175e-06,
      "loss": 1.5072,
      "mean_token_accuracy": 0.6481544723113378,
      "num_tokens": 2082991463.0,
      "step": 12424
    },
    {
      "entropy": 1.693600445985794,
      "epoch": 1.3649446595808958,
      "grad_norm": 0.7632626891136169,
      "learning_rate": 6.356112950696642e-06,
      "loss": 1.3861,
      "mean_token_accuracy": 0.6590569615364075,
      "num_tokens": 2083136636.0,
      "step": 12425
    },
    {
      "entropy": 1.680637151002884,
      "epoch": 1.3650545164922687,
      "grad_norm": 0.6591139435768127,
      "learning_rate": 6.354741503418897e-06,
      "loss": 1.4859,
      "mean_token_accuracy": 0.6472095102071762,
      "num_tokens": 2083318799.0,
      "step": 12426
    },
    {
      "entropy": 1.7445678512255351,
      "epoch": 1.3651643734036418,
      "grad_norm": 0.8773960471153259,
      "learning_rate": 6.353370203161493e-06,
      "loss": 1.5806,
      "mean_token_accuracy": 0.6431012004613876,
      "num_tokens": 2083489179.0,
      "step": 12427
    },
    {
      "entropy": 1.6873707075913746,
      "epoch": 1.3652742303150147,
      "grad_norm": 0.6120126843452454,
      "learning_rate": 6.351999049967829e-06,
      "loss": 1.4179,
      "mean_token_accuracy": 0.6483838905890783,
      "num_tokens": 2083675182.0,
      "step": 12428
    },
    {
      "entropy": 1.7138080596923828,
      "epoch": 1.3653840872263876,
      "grad_norm": 0.7926364541053772,
      "learning_rate": 6.350628043881296e-06,
      "loss": 1.3874,
      "mean_token_accuracy": 0.6502122531334559,
      "num_tokens": 2083802000.0,
      "step": 12429
    },
    {
      "entropy": 1.6688072582085927,
      "epoch": 1.3654939441377605,
      "grad_norm": 0.6590139865875244,
      "learning_rate": 6.349257184945291e-06,
      "loss": 1.3461,
      "mean_token_accuracy": 0.6638127416372299,
      "num_tokens": 2083975602.0,
      "step": 12430
    },
    {
      "entropy": 1.6825914184252422,
      "epoch": 1.3656038010491334,
      "grad_norm": 0.6948336958885193,
      "learning_rate": 6.347886473203204e-06,
      "loss": 1.4358,
      "mean_token_accuracy": 0.6588354905446371,
      "num_tokens": 2084152778.0,
      "step": 12431
    },
    {
      "entropy": 1.6966508328914642,
      "epoch": 1.3657136579605065,
      "grad_norm": 0.6842400431632996,
      "learning_rate": 6.346515908698414e-06,
      "loss": 1.4629,
      "mean_token_accuracy": 0.6462537546952566,
      "num_tokens": 2084319697.0,
      "step": 12432
    },
    {
      "entropy": 1.7046682834625244,
      "epoch": 1.3658235148718794,
      "grad_norm": 0.6207724213600159,
      "learning_rate": 6.345145491474295e-06,
      "loss": 1.3735,
      "mean_token_accuracy": 0.6687126259009043,
      "num_tokens": 2084458870.0,
      "step": 12433
    },
    {
      "entropy": 1.6672801077365875,
      "epoch": 1.3659333717832522,
      "grad_norm": 0.7119844555854797,
      "learning_rate": 6.3437752215742264e-06,
      "loss": 1.4564,
      "mean_token_accuracy": 0.672510157028834,
      "num_tokens": 2084603570.0,
      "step": 12434
    },
    {
      "entropy": 1.6629460255304973,
      "epoch": 1.3660432286946254,
      "grad_norm": 0.7983689904212952,
      "learning_rate": 6.3424050990415745e-06,
      "loss": 1.4319,
      "mean_token_accuracy": 0.6575490633646647,
      "num_tokens": 2084752897.0,
      "step": 12435
    },
    {
      "entropy": 1.6838939388593037,
      "epoch": 1.3661530856059982,
      "grad_norm": 0.6658820509910583,
      "learning_rate": 6.341035123919699e-06,
      "loss": 1.6706,
      "mean_token_accuracy": 0.6166095087925593,
      "num_tokens": 2084981969.0,
      "step": 12436
    },
    {
      "entropy": 1.6812881429990132,
      "epoch": 1.3662629425173711,
      "grad_norm": 0.6590875387191772,
      "learning_rate": 6.339665296251966e-06,
      "loss": 1.4998,
      "mean_token_accuracy": 0.6573397864898046,
      "num_tokens": 2085171039.0,
      "step": 12437
    },
    {
      "entropy": 1.706734577814738,
      "epoch": 1.366372799428744,
      "grad_norm": 0.6647880673408508,
      "learning_rate": 6.338295616081722e-06,
      "loss": 1.4314,
      "mean_token_accuracy": 0.6501033653815588,
      "num_tokens": 2085335853.0,
      "step": 12438
    },
    {
      "entropy": 1.6170736749966939,
      "epoch": 1.366482656340117,
      "grad_norm": 0.7858694195747375,
      "learning_rate": 6.336926083452326e-06,
      "loss": 1.2863,
      "mean_token_accuracy": 0.6720435669024786,
      "num_tokens": 2085498251.0,
      "step": 12439
    },
    {
      "entropy": 1.6985772848129272,
      "epoch": 1.36659251325149,
      "grad_norm": 0.6605982184410095,
      "learning_rate": 6.335556698407117e-06,
      "loss": 1.3983,
      "mean_token_accuracy": 0.6527110983928045,
      "num_tokens": 2085671772.0,
      "step": 12440
    },
    {
      "entropy": 1.6974250773588817,
      "epoch": 1.366702370162863,
      "grad_norm": 0.7720880508422852,
      "learning_rate": 6.334187460989434e-06,
      "loss": 1.3258,
      "mean_token_accuracy": 0.6786187787850698,
      "num_tokens": 2085791125.0,
      "step": 12441
    },
    {
      "entropy": 1.7007473905881245,
      "epoch": 1.3668122270742358,
      "grad_norm": 0.6617766618728638,
      "learning_rate": 6.332818371242615e-06,
      "loss": 1.3439,
      "mean_token_accuracy": 0.6567811866601309,
      "num_tokens": 2085914564.0,
      "step": 12442
    },
    {
      "entropy": 1.6779978076616924,
      "epoch": 1.3669220839856089,
      "grad_norm": 0.6167494058609009,
      "learning_rate": 6.331449429209998e-06,
      "loss": 1.5439,
      "mean_token_accuracy": 0.6489314138889313,
      "num_tokens": 2086101783.0,
      "step": 12443
    },
    {
      "entropy": 1.6638370255629222,
      "epoch": 1.3670319408969815,
      "grad_norm": 0.6931138634681702,
      "learning_rate": 6.330080634934896e-06,
      "loss": 1.245,
      "mean_token_accuracy": 0.6787913938363394,
      "num_tokens": 2086270110.0,
      "step": 12444
    },
    {
      "entropy": 1.7775676747163136,
      "epoch": 1.3671417978083547,
      "grad_norm": 0.673394501209259,
      "learning_rate": 6.3287119884606385e-06,
      "loss": 1.3892,
      "mean_token_accuracy": 0.6486051231622696,
      "num_tokens": 2086442552.0,
      "step": 12445
    },
    {
      "entropy": 1.7234329481919606,
      "epoch": 1.3672516547197275,
      "grad_norm": 0.6274213194847107,
      "learning_rate": 6.327343489830544e-06,
      "loss": 1.409,
      "mean_token_accuracy": 0.6496559977531433,
      "num_tokens": 2086600998.0,
      "step": 12446
    },
    {
      "entropy": 1.6764400204022725,
      "epoch": 1.3673615116311004,
      "grad_norm": 0.5889531970024109,
      "learning_rate": 6.3259751390879235e-06,
      "loss": 1.4925,
      "mean_token_accuracy": 0.6441396176815033,
      "num_tokens": 2086809020.0,
      "step": 12447
    },
    {
      "entropy": 1.7784501016139984,
      "epoch": 1.3674713685424735,
      "grad_norm": 0.6351875066757202,
      "learning_rate": 6.324606936276081e-06,
      "loss": 1.3461,
      "mean_token_accuracy": 0.6528228173653284,
      "num_tokens": 2086958944.0,
      "step": 12448
    },
    {
      "entropy": 1.7382746239503224,
      "epoch": 1.3675812254538464,
      "grad_norm": 0.7826247811317444,
      "learning_rate": 6.323238881438322e-06,
      "loss": 1.2748,
      "mean_token_accuracy": 0.6688608477512995,
      "num_tokens": 2087071918.0,
      "step": 12449
    },
    {
      "entropy": 1.6849194665749867,
      "epoch": 1.3676910823652193,
      "grad_norm": 0.8119662404060364,
      "learning_rate": 6.321870974617945e-06,
      "loss": 1.4217,
      "mean_token_accuracy": 0.6616232146819433,
      "num_tokens": 2087246848.0,
      "step": 12450
    },
    {
      "entropy": 1.6627297898133595,
      "epoch": 1.3678009392765922,
      "grad_norm": 0.7588232755661011,
      "learning_rate": 6.320503215858247e-06,
      "loss": 1.3605,
      "mean_token_accuracy": 0.6651882280906042,
      "num_tokens": 2087390127.0,
      "step": 12451
    },
    {
      "entropy": 1.6607940097649891,
      "epoch": 1.367910796187965,
      "grad_norm": 0.6578659415245056,
      "learning_rate": 6.3191356052025125e-06,
      "loss": 1.3467,
      "mean_token_accuracy": 0.663345048824946,
      "num_tokens": 2087593548.0,
      "step": 12452
    },
    {
      "entropy": 1.7427105605602264,
      "epoch": 1.3680206530993382,
      "grad_norm": 0.6504858136177063,
      "learning_rate": 6.317768142694023e-06,
      "loss": 1.5592,
      "mean_token_accuracy": 0.6351048996051153,
      "num_tokens": 2087811467.0,
      "step": 12453
    },
    {
      "entropy": 1.7341377437114716,
      "epoch": 1.368130510010711,
      "grad_norm": 0.7811003923416138,
      "learning_rate": 6.316400828376067e-06,
      "loss": 1.3086,
      "mean_token_accuracy": 0.6740827312072118,
      "num_tokens": 2087971627.0,
      "step": 12454
    },
    {
      "entropy": 1.73456209897995,
      "epoch": 1.368240366922084,
      "grad_norm": 0.8186246156692505,
      "learning_rate": 6.315033662291913e-06,
      "loss": 1.3032,
      "mean_token_accuracy": 0.6766839226086935,
      "num_tokens": 2088104619.0,
      "step": 12455
    },
    {
      "entropy": 1.745054046312968,
      "epoch": 1.368350223833457,
      "grad_norm": 0.6494616270065308,
      "learning_rate": 6.31366664448483e-06,
      "loss": 1.4788,
      "mean_token_accuracy": 0.6535368661085764,
      "num_tokens": 2088264333.0,
      "step": 12456
    },
    {
      "entropy": 1.6955593327681224,
      "epoch": 1.3684600807448297,
      "grad_norm": 0.6850633025169373,
      "learning_rate": 6.312299774998088e-06,
      "loss": 1.3775,
      "mean_token_accuracy": 0.6563636163870493,
      "num_tokens": 2088428326.0,
      "step": 12457
    },
    {
      "entropy": 1.6658681730429332,
      "epoch": 1.3685699376562028,
      "grad_norm": 0.7219941020011902,
      "learning_rate": 6.310933053874944e-06,
      "loss": 1.3378,
      "mean_token_accuracy": 0.6682392458120981,
      "num_tokens": 2088585255.0,
      "step": 12458
    },
    {
      "entropy": 1.6764575441678364,
      "epoch": 1.3686797945675757,
      "grad_norm": 0.6834865212440491,
      "learning_rate": 6.309566481158657e-06,
      "loss": 1.4419,
      "mean_token_accuracy": 0.6662019590536753,
      "num_tokens": 2088742531.0,
      "step": 12459
    },
    {
      "entropy": 1.6608708600203197,
      "epoch": 1.3687896514789486,
      "grad_norm": 0.5805539488792419,
      "learning_rate": 6.30820005689248e-06,
      "loss": 1.3691,
      "mean_token_accuracy": 0.667238692442576,
      "num_tokens": 2088931283.0,
      "step": 12460
    },
    {
      "entropy": 1.6612081130345662,
      "epoch": 1.3688995083903217,
      "grad_norm": 0.6132814288139343,
      "learning_rate": 6.306833781119653e-06,
      "loss": 1.3991,
      "mean_token_accuracy": 0.6704057107369105,
      "num_tokens": 2089145116.0,
      "step": 12461
    },
    {
      "entropy": 1.656867245833079,
      "epoch": 1.3690093653016946,
      "grad_norm": 0.587921142578125,
      "learning_rate": 6.305467653883419e-06,
      "loss": 1.3241,
      "mean_token_accuracy": 0.6596115976572037,
      "num_tokens": 2089314770.0,
      "step": 12462
    },
    {
      "entropy": 1.6916143695513408,
      "epoch": 1.3691192222130675,
      "grad_norm": 0.6570534110069275,
      "learning_rate": 6.304101675227025e-06,
      "loss": 1.2452,
      "mean_token_accuracy": 0.6774038225412369,
      "num_tokens": 2089454204.0,
      "step": 12463
    },
    {
      "entropy": 1.655198593934377,
      "epoch": 1.3692290791244404,
      "grad_norm": 0.7079626321792603,
      "learning_rate": 6.3027358451936945e-06,
      "loss": 1.4054,
      "mean_token_accuracy": 0.6695781598488489,
      "num_tokens": 2089589977.0,
      "step": 12464
    },
    {
      "entropy": 1.7478280862172444,
      "epoch": 1.3693389360358132,
      "grad_norm": 0.8134309649467468,
      "learning_rate": 6.301370163826657e-06,
      "loss": 1.3172,
      "mean_token_accuracy": 0.6582539429267248,
      "num_tokens": 2089722453.0,
      "step": 12465
    },
    {
      "entropy": 1.7540696163972218,
      "epoch": 1.3694487929471864,
      "grad_norm": 0.8033037781715393,
      "learning_rate": 6.30000463116914e-06,
      "loss": 1.4302,
      "mean_token_accuracy": 0.6428679327170054,
      "num_tokens": 2089859787.0,
      "step": 12466
    },
    {
      "entropy": 1.7167806526025136,
      "epoch": 1.3695586498585592,
      "grad_norm": 0.9351958632469177,
      "learning_rate": 6.298639247264356e-06,
      "loss": 1.3128,
      "mean_token_accuracy": 0.6571259746948878,
      "num_tokens": 2090018785.0,
      "step": 12467
    },
    {
      "entropy": 1.6641875207424164,
      "epoch": 1.3696685067699321,
      "grad_norm": 0.6932764053344727,
      "learning_rate": 6.297274012155521e-06,
      "loss": 1.4692,
      "mean_token_accuracy": 0.6500126868486404,
      "num_tokens": 2090182955.0,
      "step": 12468
    },
    {
      "entropy": 1.6753845711549122,
      "epoch": 1.3697783636813052,
      "grad_norm": 0.6691131591796875,
      "learning_rate": 6.295908925885845e-06,
      "loss": 1.3916,
      "mean_token_accuracy": 0.6713538318872452,
      "num_tokens": 2090346994.0,
      "step": 12469
    },
    {
      "entropy": 1.715299944082896,
      "epoch": 1.3698882205926781,
      "grad_norm": 0.7135533690452576,
      "learning_rate": 6.294543988498529e-06,
      "loss": 1.2943,
      "mean_token_accuracy": 0.6677762617667516,
      "num_tokens": 2090522173.0,
      "step": 12470
    },
    {
      "entropy": 1.7170192102591197,
      "epoch": 1.369998077504051,
      "grad_norm": 0.60918790102005,
      "learning_rate": 6.293179200036781e-06,
      "loss": 1.4456,
      "mean_token_accuracy": 0.6431434949239095,
      "num_tokens": 2090703501.0,
      "step": 12471
    },
    {
      "entropy": 1.7095450460910797,
      "epoch": 1.370107934415424,
      "grad_norm": 0.8031734824180603,
      "learning_rate": 6.29181456054379e-06,
      "loss": 1.3702,
      "mean_token_accuracy": 0.653916930158933,
      "num_tokens": 2090852167.0,
      "step": 12472
    },
    {
      "entropy": 1.6358346939086914,
      "epoch": 1.3702177913267968,
      "grad_norm": 0.7461312413215637,
      "learning_rate": 6.290450070062741e-06,
      "loss": 1.3405,
      "mean_token_accuracy": 0.6676389326651891,
      "num_tokens": 2091034902.0,
      "step": 12473
    },
    {
      "entropy": 1.6393639147281647,
      "epoch": 1.3703276482381699,
      "grad_norm": 0.7326330542564392,
      "learning_rate": 6.289085728636827e-06,
      "loss": 1.4606,
      "mean_token_accuracy": 0.6608719974756241,
      "num_tokens": 2091197060.0,
      "step": 12474
    },
    {
      "entropy": 1.702725499868393,
      "epoch": 1.3704375051495428,
      "grad_norm": 0.7266789674758911,
      "learning_rate": 6.287721536309228e-06,
      "loss": 1.468,
      "mean_token_accuracy": 0.6516217837731043,
      "num_tokens": 2091354267.0,
      "step": 12475
    },
    {
      "entropy": 1.7397367060184479,
      "epoch": 1.3705473620609157,
      "grad_norm": 0.6959664821624756,
      "learning_rate": 6.286357493123121e-06,
      "loss": 1.3982,
      "mean_token_accuracy": 0.644005666176478,
      "num_tokens": 2091481641.0,
      "step": 12476
    },
    {
      "entropy": 1.6641556123892467,
      "epoch": 1.3706572189722885,
      "grad_norm": 0.5910245776176453,
      "learning_rate": 6.284993599121671e-06,
      "loss": 1.4441,
      "mean_token_accuracy": 0.6538594514131546,
      "num_tokens": 2091691502.0,
      "step": 12477
    },
    {
      "entropy": 1.6857453385988872,
      "epoch": 1.3707670758836614,
      "grad_norm": 0.7743722796440125,
      "learning_rate": 6.283629854348053e-06,
      "loss": 1.5228,
      "mean_token_accuracy": 0.6551050196091334,
      "num_tokens": 2091850943.0,
      "step": 12478
    },
    {
      "entropy": 1.7026999294757843,
      "epoch": 1.3708769327950345,
      "grad_norm": 0.8539242744445801,
      "learning_rate": 6.2822662588454255e-06,
      "loss": 1.2969,
      "mean_token_accuracy": 0.6824150482813517,
      "num_tokens": 2091973000.0,
      "step": 12479
    },
    {
      "entropy": 1.650414725144704,
      "epoch": 1.3709867897064074,
      "grad_norm": 0.6949166059494019,
      "learning_rate": 6.280902812656941e-06,
      "loss": 1.3121,
      "mean_token_accuracy": 0.668070966998736,
      "num_tokens": 2092112881.0,
      "step": 12480
    },
    {
      "entropy": 1.7248587508996327,
      "epoch": 1.3710966466177803,
      "grad_norm": 0.843644917011261,
      "learning_rate": 6.279539515825759e-06,
      "loss": 1.5992,
      "mean_token_accuracy": 0.6491927405198415,
      "num_tokens": 2092288051.0,
      "step": 12481
    },
    {
      "entropy": 1.6901381611824036,
      "epoch": 1.3712065035291534,
      "grad_norm": 0.6566561460494995,
      "learning_rate": 6.2781763683950216e-06,
      "loss": 1.4618,
      "mean_token_accuracy": 0.6334747324387232,
      "num_tokens": 2092497839.0,
      "step": 12482
    },
    {
      "entropy": 1.6996184488137562,
      "epoch": 1.3713163604405263,
      "grad_norm": 0.6987338066101074,
      "learning_rate": 6.276813370407876e-06,
      "loss": 1.476,
      "mean_token_accuracy": 0.6629880964756012,
      "num_tokens": 2092636759.0,
      "step": 12483
    },
    {
      "entropy": 1.750564714272817,
      "epoch": 1.3714262173518992,
      "grad_norm": 0.8554201722145081,
      "learning_rate": 6.27545052190746e-06,
      "loss": 1.4742,
      "mean_token_accuracy": 0.6432334631681442,
      "num_tokens": 2092770538.0,
      "step": 12484
    },
    {
      "entropy": 1.6747083564599354,
      "epoch": 1.371536074263272,
      "grad_norm": 0.6590608358383179,
      "learning_rate": 6.274087822936904e-06,
      "loss": 1.3891,
      "mean_token_accuracy": 0.6730438470840454,
      "num_tokens": 2092951129.0,
      "step": 12485
    },
    {
      "entropy": 1.6601560016473134,
      "epoch": 1.371645931174645,
      "grad_norm": 0.7627508640289307,
      "learning_rate": 6.272725273539337e-06,
      "loss": 1.3777,
      "mean_token_accuracy": 0.6717945039272308,
      "num_tokens": 2093112437.0,
      "step": 12486
    },
    {
      "entropy": 1.6760172843933105,
      "epoch": 1.371755788086018,
      "grad_norm": 0.6052493453025818,
      "learning_rate": 6.271362873757889e-06,
      "loss": 1.3659,
      "mean_token_accuracy": 0.6492635011672974,
      "num_tokens": 2093284948.0,
      "step": 12487
    },
    {
      "entropy": 1.7177870472272236,
      "epoch": 1.371865644997391,
      "grad_norm": 0.6940590739250183,
      "learning_rate": 6.270000623635675e-06,
      "loss": 1.3116,
      "mean_token_accuracy": 0.6777070065339407,
      "num_tokens": 2093413636.0,
      "step": 12488
    },
    {
      "entropy": 1.7334169745445251,
      "epoch": 1.3719755019087638,
      "grad_norm": 0.7038564682006836,
      "learning_rate": 6.268638523215807e-06,
      "loss": 1.5389,
      "mean_token_accuracy": 0.6339151461919149,
      "num_tokens": 2093610103.0,
      "step": 12489
    },
    {
      "entropy": 1.7048886219660442,
      "epoch": 1.3720853588201367,
      "grad_norm": 0.7182838916778564,
      "learning_rate": 6.267276572541401e-06,
      "loss": 1.4323,
      "mean_token_accuracy": 0.6515081773201624,
      "num_tokens": 2093782215.0,
      "step": 12490
    },
    {
      "entropy": 1.6638799210389454,
      "epoch": 1.3721952157315096,
      "grad_norm": 0.6247413754463196,
      "learning_rate": 6.265914771655559e-06,
      "loss": 1.4979,
      "mean_token_accuracy": 0.649769072731336,
      "num_tokens": 2094006255.0,
      "step": 12491
    },
    {
      "entropy": 1.684423953294754,
      "epoch": 1.3723050726428827,
      "grad_norm": 0.6764265894889832,
      "learning_rate": 6.264553120601378e-06,
      "loss": 1.44,
      "mean_token_accuracy": 0.6405173540115356,
      "num_tokens": 2094154650.0,
      "step": 12492
    },
    {
      "entropy": 1.707674354314804,
      "epoch": 1.3724149295542556,
      "grad_norm": 0.6965126395225525,
      "learning_rate": 6.26319161942196e-06,
      "loss": 1.321,
      "mean_token_accuracy": 0.6638032595316569,
      "num_tokens": 2094304169.0,
      "step": 12493
    },
    {
      "entropy": 1.7017245789368947,
      "epoch": 1.3725247864656285,
      "grad_norm": 0.687353253364563,
      "learning_rate": 6.261830268160388e-06,
      "loss": 1.2905,
      "mean_token_accuracy": 0.6623808195193609,
      "num_tokens": 2094463463.0,
      "step": 12494
    },
    {
      "entropy": 1.7572371661663055,
      "epoch": 1.3726346433770016,
      "grad_norm": 0.6422104239463806,
      "learning_rate": 6.260469066859758e-06,
      "loss": 1.5449,
      "mean_token_accuracy": 0.6423913687467575,
      "num_tokens": 2094645342.0,
      "step": 12495
    },
    {
      "entropy": 1.7151329219341278,
      "epoch": 1.3727445002883745,
      "grad_norm": 0.7359181046485901,
      "learning_rate": 6.259108015563146e-06,
      "loss": 1.4197,
      "mean_token_accuracy": 0.6493860632181168,
      "num_tokens": 2094828348.0,
      "step": 12496
    },
    {
      "entropy": 1.71349502603213,
      "epoch": 1.3728543571997474,
      "grad_norm": 0.6822761297225952,
      "learning_rate": 6.257747114313626e-06,
      "loss": 1.4804,
      "mean_token_accuracy": 0.6557674954334894,
      "num_tokens": 2095006520.0,
      "step": 12497
    },
    {
      "entropy": 1.688800722360611,
      "epoch": 1.3729642141111202,
      "grad_norm": 0.5929533839225769,
      "learning_rate": 6.256386363154272e-06,
      "loss": 1.3362,
      "mean_token_accuracy": 0.6658134708801905,
      "num_tokens": 2095165179.0,
      "step": 12498
    },
    {
      "entropy": 1.7582799593607585,
      "epoch": 1.3730740710224931,
      "grad_norm": 0.6980983018875122,
      "learning_rate": 6.255025762128156e-06,
      "loss": 1.5299,
      "mean_token_accuracy": 0.6501601040363312,
      "num_tokens": 2095338814.0,
      "step": 12499
    },
    {
      "entropy": 1.6549382110436757,
      "epoch": 1.3731839279338662,
      "grad_norm": 0.6574755907058716,
      "learning_rate": 6.253665311278337e-06,
      "loss": 1.4851,
      "mean_token_accuracy": 0.6519963542620341,
      "num_tokens": 2095554250.0,
      "step": 12500
    },
    {
      "entropy": 1.7362759113311768,
      "epoch": 1.3732937848452391,
      "grad_norm": 0.6475224494934082,
      "learning_rate": 6.252305010647868e-06,
      "loss": 1.3406,
      "mean_token_accuracy": 0.6704058945178986,
      "num_tokens": 2095687229.0,
      "step": 12501
    },
    {
      "entropy": 1.683371404806773,
      "epoch": 1.373403641756612,
      "grad_norm": 0.6420804858207703,
      "learning_rate": 6.250944860279809e-06,
      "loss": 1.344,
      "mean_token_accuracy": 0.6628765761852264,
      "num_tokens": 2095919210.0,
      "step": 12502
    },
    {
      "entropy": 1.7301292022069295,
      "epoch": 1.3735134986679849,
      "grad_norm": 0.8406617641448975,
      "learning_rate": 6.249584860217206e-06,
      "loss": 1.4015,
      "mean_token_accuracy": 0.6547163327534994,
      "num_tokens": 2096052146.0,
      "step": 12503
    },
    {
      "entropy": 1.6722088654836018,
      "epoch": 1.3736233555793578,
      "grad_norm": 0.7558131814002991,
      "learning_rate": 6.248225010503098e-06,
      "loss": 1.4738,
      "mean_token_accuracy": 0.6520429998636246,
      "num_tokens": 2096209673.0,
      "step": 12504
    },
    {
      "entropy": 1.684027413527171,
      "epoch": 1.3737332124907309,
      "grad_norm": 0.8138048648834229,
      "learning_rate": 6.246865311180532e-06,
      "loss": 1.5581,
      "mean_token_accuracy": 0.6619268457094828,
      "num_tokens": 2096376074.0,
      "step": 12505
    },
    {
      "entropy": 1.666286826133728,
      "epoch": 1.3738430694021038,
      "grad_norm": 0.6682919859886169,
      "learning_rate": 6.245505762292532e-06,
      "loss": 1.3127,
      "mean_token_accuracy": 0.6639792720476786,
      "num_tokens": 2096564264.0,
      "step": 12506
    },
    {
      "entropy": 1.760203758875529,
      "epoch": 1.3739529263134767,
      "grad_norm": 0.7202064990997314,
      "learning_rate": 6.2441463638821355e-06,
      "loss": 1.5849,
      "mean_token_accuracy": 0.6438749060034752,
      "num_tokens": 2096724407.0,
      "step": 12507
    },
    {
      "entropy": 1.758449226617813,
      "epoch": 1.3740627832248498,
      "grad_norm": 0.6769862771034241,
      "learning_rate": 6.242787115992364e-06,
      "loss": 1.5019,
      "mean_token_accuracy": 0.6401093502839407,
      "num_tokens": 2096904566.0,
      "step": 12508
    },
    {
      "entropy": 1.6738151510556538,
      "epoch": 1.3741726401362226,
      "grad_norm": 0.5517680644989014,
      "learning_rate": 6.241428018666234e-06,
      "loss": 1.3892,
      "mean_token_accuracy": 0.655499001344045,
      "num_tokens": 2097086758.0,
      "step": 12509
    },
    {
      "entropy": 1.714376340309779,
      "epoch": 1.3742824970475955,
      "grad_norm": 0.6948719620704651,
      "learning_rate": 6.240069071946762e-06,
      "loss": 1.4616,
      "mean_token_accuracy": 0.6460278133551279,
      "num_tokens": 2097254724.0,
      "step": 12510
    },
    {
      "entropy": 1.7263469596703847,
      "epoch": 1.3743923539589684,
      "grad_norm": 0.6415128707885742,
      "learning_rate": 6.238710275876962e-06,
      "loss": 1.3862,
      "mean_token_accuracy": 0.6575345396995544,
      "num_tokens": 2097417417.0,
      "step": 12511
    },
    {
      "entropy": 1.698015163342158,
      "epoch": 1.3745022108703413,
      "grad_norm": 0.6114696264266968,
      "learning_rate": 6.237351630499837e-06,
      "loss": 1.4891,
      "mean_token_accuracy": 0.6359892090161642,
      "num_tokens": 2097646264.0,
      "step": 12512
    },
    {
      "entropy": 1.764273762702942,
      "epoch": 1.3746120677817144,
      "grad_norm": 0.9009761810302734,
      "learning_rate": 6.235993135858387e-06,
      "loss": 1.4376,
      "mean_token_accuracy": 0.6558701246976852,
      "num_tokens": 2097847731.0,
      "step": 12513
    },
    {
      "entropy": 1.7166384359200795,
      "epoch": 1.3747219246930873,
      "grad_norm": 0.7256246209144592,
      "learning_rate": 6.234634791995603e-06,
      "loss": 1.2758,
      "mean_token_accuracy": 0.6786874433358511,
      "num_tokens": 2097976363.0,
      "step": 12514
    },
    {
      "entropy": 1.7404154340426128,
      "epoch": 1.3748317816044602,
      "grad_norm": 0.7519568800926208,
      "learning_rate": 6.233276598954485e-06,
      "loss": 1.4151,
      "mean_token_accuracy": 0.6605635484059652,
      "num_tokens": 2098120603.0,
      "step": 12515
    },
    {
      "entropy": 1.6740521490573883,
      "epoch": 1.374941638515833,
      "grad_norm": 0.7059155106544495,
      "learning_rate": 6.231918556778014e-06,
      "loss": 1.3228,
      "mean_token_accuracy": 0.6625839471817017,
      "num_tokens": 2098259613.0,
      "step": 12516
    },
    {
      "entropy": 1.7056198716163635,
      "epoch": 1.375051495427206,
      "grad_norm": 0.6181541085243225,
      "learning_rate": 6.2305606655091685e-06,
      "loss": 1.347,
      "mean_token_accuracy": 0.6637411365906397,
      "num_tokens": 2098407106.0,
      "step": 12517
    },
    {
      "entropy": 1.7412952582041423,
      "epoch": 1.375161352338579,
      "grad_norm": 0.645773708820343,
      "learning_rate": 6.229202925190931e-06,
      "loss": 1.5052,
      "mean_token_accuracy": 0.6412904262542725,
      "num_tokens": 2098599802.0,
      "step": 12518
    },
    {
      "entropy": 1.7033185958862305,
      "epoch": 1.375271209249952,
      "grad_norm": 0.7069703936576843,
      "learning_rate": 6.227845335866271e-06,
      "loss": 1.3859,
      "mean_token_accuracy": 0.6646387676397959,
      "num_tokens": 2098760048.0,
      "step": 12519
    },
    {
      "entropy": 1.7417400777339935,
      "epoch": 1.3753810661613248,
      "grad_norm": 0.8793759346008301,
      "learning_rate": 6.226487897578159e-06,
      "loss": 1.3239,
      "mean_token_accuracy": 0.665963664650917,
      "num_tokens": 2098930969.0,
      "step": 12520
    },
    {
      "entropy": 1.6477711200714111,
      "epoch": 1.375490923072698,
      "grad_norm": 0.8466112017631531,
      "learning_rate": 6.22513061036955e-06,
      "loss": 1.3336,
      "mean_token_accuracy": 0.6694683879613876,
      "num_tokens": 2099084185.0,
      "step": 12521
    },
    {
      "entropy": 1.7149950762589772,
      "epoch": 1.3756007799840708,
      "grad_norm": 0.8220770359039307,
      "learning_rate": 6.223773474283408e-06,
      "loss": 1.387,
      "mean_token_accuracy": 0.6811329424381256,
      "num_tokens": 2099253890.0,
      "step": 12522
    },
    {
      "entropy": 1.6823686361312866,
      "epoch": 1.3757106368954437,
      "grad_norm": 0.6571083664894104,
      "learning_rate": 6.222416489362683e-06,
      "loss": 1.2217,
      "mean_token_accuracy": 0.6786747376124064,
      "num_tokens": 2099388467.0,
      "step": 12523
    },
    {
      "entropy": 1.6723161041736603,
      "epoch": 1.3758204938068166,
      "grad_norm": 0.6704456806182861,
      "learning_rate": 6.221059655650321e-06,
      "loss": 1.369,
      "mean_token_accuracy": 0.6669376641511917,
      "num_tokens": 2099559332.0,
      "step": 12524
    },
    {
      "entropy": 1.7238895495732625,
      "epoch": 1.3759303507181895,
      "grad_norm": 0.846031904220581,
      "learning_rate": 6.21970297318927e-06,
      "loss": 1.5058,
      "mean_token_accuracy": 0.6613429884115855,
      "num_tokens": 2099730332.0,
      "step": 12525
    },
    {
      "entropy": 1.6958635946114857,
      "epoch": 1.3760402076295626,
      "grad_norm": 0.6999905705451965,
      "learning_rate": 6.218346442022462e-06,
      "loss": 1.2999,
      "mean_token_accuracy": 0.6632877240578333,
      "num_tokens": 2099900875.0,
      "step": 12526
    },
    {
      "entropy": 1.6386962433656056,
      "epoch": 1.3761500645409355,
      "grad_norm": 0.5973513126373291,
      "learning_rate": 6.2169900621928394e-06,
      "loss": 1.4151,
      "mean_token_accuracy": 0.6484298954407374,
      "num_tokens": 2100076851.0,
      "step": 12527
    },
    {
      "entropy": 1.6838893989721935,
      "epoch": 1.3762599214523084,
      "grad_norm": 0.7201468348503113,
      "learning_rate": 6.215633833743325e-06,
      "loss": 1.2795,
      "mean_token_accuracy": 0.6828643282254537,
      "num_tokens": 2100209931.0,
      "step": 12528
    },
    {
      "entropy": 1.653613954782486,
      "epoch": 1.3763697783636812,
      "grad_norm": 0.6516929268836975,
      "learning_rate": 6.214277756716841e-06,
      "loss": 1.3982,
      "mean_token_accuracy": 0.6462257554133733,
      "num_tokens": 2100421383.0,
      "step": 12529
    },
    {
      "entropy": 1.5921331147352855,
      "epoch": 1.3764796352750541,
      "grad_norm": 0.6113102436065674,
      "learning_rate": 6.212921831156309e-06,
      "loss": 1.3048,
      "mean_token_accuracy": 0.6834805657466253,
      "num_tokens": 2100566416.0,
      "step": 12530
    },
    {
      "entropy": 1.6861707468827565,
      "epoch": 1.3765894921864272,
      "grad_norm": 0.744138240814209,
      "learning_rate": 6.2115660571046475e-06,
      "loss": 1.4114,
      "mean_token_accuracy": 0.6627868016560873,
      "num_tokens": 2100707648.0,
      "step": 12531
    },
    {
      "entropy": 1.7084755897521973,
      "epoch": 1.3766993490978001,
      "grad_norm": 0.613015353679657,
      "learning_rate": 6.2102104346047635e-06,
      "loss": 1.4212,
      "mean_token_accuracy": 0.659169336160024,
      "num_tokens": 2100885511.0,
      "step": 12532
    },
    {
      "entropy": 1.7335072060426076,
      "epoch": 1.376809206009173,
      "grad_norm": 0.6884053945541382,
      "learning_rate": 6.208854963699555e-06,
      "loss": 1.3903,
      "mean_token_accuracy": 0.6577414770921072,
      "num_tokens": 2101034010.0,
      "step": 12533
    },
    {
      "entropy": 1.6870386103789012,
      "epoch": 1.376919062920546,
      "grad_norm": 0.6219229102134705,
      "learning_rate": 6.207499644431935e-06,
      "loss": 1.3897,
      "mean_token_accuracy": 0.6502025226751963,
      "num_tokens": 2101186648.0,
      "step": 12534
    },
    {
      "entropy": 1.7138726909955342,
      "epoch": 1.377028919831919,
      "grad_norm": 0.5587577819824219,
      "learning_rate": 6.206144476844789e-06,
      "loss": 1.4165,
      "mean_token_accuracy": 0.6410103340943655,
      "num_tokens": 2101425465.0,
      "step": 12535
    },
    {
      "entropy": 1.7444292902946472,
      "epoch": 1.3771387767432919,
      "grad_norm": 0.6542041301727295,
      "learning_rate": 6.204789460981008e-06,
      "loss": 1.5301,
      "mean_token_accuracy": 0.6419963190952936,
      "num_tokens": 2101626304.0,
      "step": 12536
    },
    {
      "entropy": 1.6845300594965618,
      "epoch": 1.3772486336546648,
      "grad_norm": 0.7498136758804321,
      "learning_rate": 6.203434596883482e-06,
      "loss": 1.3899,
      "mean_token_accuracy": 0.6670129199822744,
      "num_tokens": 2101765786.0,
      "step": 12537
    },
    {
      "entropy": 1.8169357279936473,
      "epoch": 1.3773584905660377,
      "grad_norm": 0.7087510824203491,
      "learning_rate": 6.202079884595088e-06,
      "loss": 1.3182,
      "mean_token_accuracy": 0.6673329919576645,
      "num_tokens": 2101886833.0,
      "step": 12538
    },
    {
      "entropy": 1.7348575592041016,
      "epoch": 1.3774683474774108,
      "grad_norm": 0.7547774910926819,
      "learning_rate": 6.200725324158705e-06,
      "loss": 1.3981,
      "mean_token_accuracy": 0.6532778888940811,
      "num_tokens": 2102006067.0,
      "step": 12539
    },
    {
      "entropy": 1.695908526579539,
      "epoch": 1.3775782043887836,
      "grad_norm": 0.7535329461097717,
      "learning_rate": 6.199370915617204e-06,
      "loss": 1.4789,
      "mean_token_accuracy": 0.665493423740069,
      "num_tokens": 2102171012.0,
      "step": 12540
    },
    {
      "entropy": 1.715345323085785,
      "epoch": 1.3776880613001565,
      "grad_norm": 0.6196267604827881,
      "learning_rate": 6.198016659013447e-06,
      "loss": 1.3696,
      "mean_token_accuracy": 0.6550077845652899,
      "num_tokens": 2102338771.0,
      "step": 12541
    },
    {
      "entropy": 1.689347783724467,
      "epoch": 1.3777979182115294,
      "grad_norm": 0.7949912548065186,
      "learning_rate": 6.196662554390298e-06,
      "loss": 1.2438,
      "mean_token_accuracy": 0.6799779733022054,
      "num_tokens": 2102449380.0,
      "step": 12542
    },
    {
      "entropy": 1.717601974805196,
      "epoch": 1.3779077751229023,
      "grad_norm": 0.682672381401062,
      "learning_rate": 6.19530860179062e-06,
      "loss": 1.303,
      "mean_token_accuracy": 0.6659560054540634,
      "num_tokens": 2102580923.0,
      "step": 12543
    },
    {
      "entropy": 1.6912067731221516,
      "epoch": 1.3780176320342754,
      "grad_norm": 0.6183836460113525,
      "learning_rate": 6.1939548012572585e-06,
      "loss": 1.5116,
      "mean_token_accuracy": 0.6377200831969579,
      "num_tokens": 2102835634.0,
      "step": 12544
    },
    {
      "entropy": 1.7292577226956685,
      "epoch": 1.3781274889456483,
      "grad_norm": 0.7108417749404907,
      "learning_rate": 6.1926011528330575e-06,
      "loss": 1.4302,
      "mean_token_accuracy": 0.6581776638825735,
      "num_tokens": 2102968731.0,
      "step": 12545
    },
    {
      "entropy": 1.663769433895747,
      "epoch": 1.3782373458570212,
      "grad_norm": 0.5661031603813171,
      "learning_rate": 6.191247656560868e-06,
      "loss": 1.3358,
      "mean_token_accuracy": 0.6701933294534683,
      "num_tokens": 2103135710.0,
      "step": 12546
    },
    {
      "entropy": 1.7361170947551727,
      "epoch": 1.3783472027683943,
      "grad_norm": 0.7165773510932922,
      "learning_rate": 6.189894312483524e-06,
      "loss": 1.4254,
      "mean_token_accuracy": 0.6522279679775238,
      "num_tokens": 2103314119.0,
      "step": 12547
    },
    {
      "entropy": 1.7245140473047893,
      "epoch": 1.3784570596797672,
      "grad_norm": 0.6944742202758789,
      "learning_rate": 6.188541120643854e-06,
      "loss": 1.2226,
      "mean_token_accuracy": 0.6783800820509592,
      "num_tokens": 2103440751.0,
      "step": 12548
    },
    {
      "entropy": 1.7549363176027934,
      "epoch": 1.37856691659114,
      "grad_norm": 0.7486315369606018,
      "learning_rate": 6.1871880810846915e-06,
      "loss": 1.3902,
      "mean_token_accuracy": 0.6532481958468755,
      "num_tokens": 2103581713.0,
      "step": 12549
    },
    {
      "entropy": 1.616852581501007,
      "epoch": 1.378676773502513,
      "grad_norm": 0.8074557781219482,
      "learning_rate": 6.185835193848856e-06,
      "loss": 1.2921,
      "mean_token_accuracy": 0.6893499394257864,
      "num_tokens": 2103724805.0,
      "step": 12550
    },
    {
      "entropy": 1.7497636179129283,
      "epoch": 1.3787866304138858,
      "grad_norm": 0.8509400486946106,
      "learning_rate": 6.184482458979169e-06,
      "loss": 1.4539,
      "mean_token_accuracy": 0.6395279069741567,
      "num_tokens": 2103893055.0,
      "step": 12551
    },
    {
      "entropy": 1.6811266740163167,
      "epoch": 1.378896487325259,
      "grad_norm": 0.7023653388023376,
      "learning_rate": 6.183129876518443e-06,
      "loss": 1.3276,
      "mean_token_accuracy": 0.666248674194018,
      "num_tokens": 2104081495.0,
      "step": 12552
    },
    {
      "entropy": 1.7035264372825623,
      "epoch": 1.3790063442366318,
      "grad_norm": 0.5721656084060669,
      "learning_rate": 6.181777446509482e-06,
      "loss": 1.4066,
      "mean_token_accuracy": 0.6570123036702474,
      "num_tokens": 2104292769.0,
      "step": 12553
    },
    {
      "entropy": 1.6963448226451874,
      "epoch": 1.3791162011480047,
      "grad_norm": 0.6713624596595764,
      "learning_rate": 6.180425168995094e-06,
      "loss": 1.4223,
      "mean_token_accuracy": 0.6561168730258942,
      "num_tokens": 2104442926.0,
      "step": 12554
    },
    {
      "entropy": 1.6694329380989075,
      "epoch": 1.3792260580593776,
      "grad_norm": 0.6325618624687195,
      "learning_rate": 6.179073044018082e-06,
      "loss": 1.4122,
      "mean_token_accuracy": 0.6522913922866186,
      "num_tokens": 2104676130.0,
      "step": 12555
    },
    {
      "entropy": 1.7309764126936595,
      "epoch": 1.3793359149707505,
      "grad_norm": 0.7151079773902893,
      "learning_rate": 6.177721071621234e-06,
      "loss": 1.3119,
      "mean_token_accuracy": 0.6660696119070053,
      "num_tokens": 2104807634.0,
      "step": 12556
    },
    {
      "entropy": 1.6221238374710083,
      "epoch": 1.3794457718821236,
      "grad_norm": 0.7269033193588257,
      "learning_rate": 6.176369251847341e-06,
      "loss": 1.343,
      "mean_token_accuracy": 0.6632204552491506,
      "num_tokens": 2104975691.0,
      "step": 12557
    },
    {
      "entropy": 1.7174046039581299,
      "epoch": 1.3795556287934965,
      "grad_norm": 0.7088026404380798,
      "learning_rate": 6.175017584739187e-06,
      "loss": 1.2995,
      "mean_token_accuracy": 0.6678259124358495,
      "num_tokens": 2105128915.0,
      "step": 12558
    },
    {
      "entropy": 1.7887861529986064,
      "epoch": 1.3796654857048694,
      "grad_norm": 0.696653425693512,
      "learning_rate": 6.173666070339554e-06,
      "loss": 1.4658,
      "mean_token_accuracy": 0.6444426278273264,
      "num_tokens": 2105294149.0,
      "step": 12559
    },
    {
      "entropy": 1.7095742324988048,
      "epoch": 1.3797753426162425,
      "grad_norm": 0.6750052571296692,
      "learning_rate": 6.172314708691212e-06,
      "loss": 1.3382,
      "mean_token_accuracy": 0.6658424387375513,
      "num_tokens": 2105438713.0,
      "step": 12560
    },
    {
      "entropy": 1.694052904844284,
      "epoch": 1.3798851995276153,
      "grad_norm": 0.5075100064277649,
      "learning_rate": 6.170963499836937e-06,
      "loss": 1.3667,
      "mean_token_accuracy": 0.6514973640441895,
      "num_tokens": 2105612254.0,
      "step": 12561
    },
    {
      "entropy": 1.6640310784180958,
      "epoch": 1.3799950564389882,
      "grad_norm": 0.5934505462646484,
      "learning_rate": 6.169612443819488e-06,
      "loss": 1.3747,
      "mean_token_accuracy": 0.6665078550577164,
      "num_tokens": 2105797489.0,
      "step": 12562
    },
    {
      "entropy": 1.6789606213569641,
      "epoch": 1.3801049133503611,
      "grad_norm": 0.6959724426269531,
      "learning_rate": 6.1682615406816325e-06,
      "loss": 1.2852,
      "mean_token_accuracy": 0.6706260542074839,
      "num_tokens": 2105957291.0,
      "step": 12563
    },
    {
      "entropy": 1.7314012149969737,
      "epoch": 1.380214770261734,
      "grad_norm": 0.7916790246963501,
      "learning_rate": 6.166910790466121e-06,
      "loss": 1.3361,
      "mean_token_accuracy": 0.6655499537785848,
      "num_tokens": 2106101795.0,
      "step": 12564
    },
    {
      "entropy": 1.6863299409548442,
      "epoch": 1.380324627173107,
      "grad_norm": 0.8303491473197937,
      "learning_rate": 6.165560193215702e-06,
      "loss": 1.2178,
      "mean_token_accuracy": 0.6846508930126826,
      "num_tokens": 2106228777.0,
      "step": 12565
    },
    {
      "entropy": 1.6824834048748016,
      "epoch": 1.38043448408448,
      "grad_norm": 0.6064619421958923,
      "learning_rate": 6.164209748973124e-06,
      "loss": 1.4575,
      "mean_token_accuracy": 0.6451242392261823,
      "num_tokens": 2106442223.0,
      "step": 12566
    },
    {
      "entropy": 1.6857933203379314,
      "epoch": 1.3805443409958529,
      "grad_norm": 0.6482805609703064,
      "learning_rate": 6.162859457781132e-06,
      "loss": 1.4251,
      "mean_token_accuracy": 0.6491700212160746,
      "num_tokens": 2106642621.0,
      "step": 12567
    },
    {
      "entropy": 1.746164898077647,
      "epoch": 1.3806541979072258,
      "grad_norm": 0.7709128260612488,
      "learning_rate": 6.161509319682459e-06,
      "loss": 1.3878,
      "mean_token_accuracy": 0.6586853563785553,
      "num_tokens": 2106813233.0,
      "step": 12568
    },
    {
      "entropy": 1.7627079784870148,
      "epoch": 1.3807640548185987,
      "grad_norm": 1.2081003189086914,
      "learning_rate": 6.160159334719833e-06,
      "loss": 1.4917,
      "mean_token_accuracy": 0.6570613433917364,
      "num_tokens": 2106996455.0,
      "step": 12569
    },
    {
      "entropy": 1.6405859887599945,
      "epoch": 1.3808739117299718,
      "grad_norm": 0.703881561756134,
      "learning_rate": 6.158809502935985e-06,
      "loss": 1.2482,
      "mean_token_accuracy": 0.6670927107334137,
      "num_tokens": 2107209001.0,
      "step": 12570
    },
    {
      "entropy": 1.6598562101523082,
      "epoch": 1.3809837686413446,
      "grad_norm": 0.7052212953567505,
      "learning_rate": 6.1574598243736346e-06,
      "loss": 1.3986,
      "mean_token_accuracy": 0.662861779332161,
      "num_tokens": 2107392456.0,
      "step": 12571
    },
    {
      "entropy": 1.7908701996008556,
      "epoch": 1.3810936255527175,
      "grad_norm": 0.6938340663909912,
      "learning_rate": 6.156110299075501e-06,
      "loss": 1.3683,
      "mean_token_accuracy": 0.6564254115025202,
      "num_tokens": 2107530671.0,
      "step": 12572
    },
    {
      "entropy": 1.7378122210502625,
      "epoch": 1.3812034824640906,
      "grad_norm": 0.8076921701431274,
      "learning_rate": 6.154760927084289e-06,
      "loss": 1.5943,
      "mean_token_accuracy": 0.6301184669137001,
      "num_tokens": 2107734369.0,
      "step": 12573
    },
    {
      "entropy": 1.6900312105814617,
      "epoch": 1.3813133393754635,
      "grad_norm": 0.7580331563949585,
      "learning_rate": 6.153411708442709e-06,
      "loss": 1.4061,
      "mean_token_accuracy": 0.6511543840169907,
      "num_tokens": 2107933013.0,
      "step": 12574
    },
    {
      "entropy": 1.7424448728561401,
      "epoch": 1.3814231962868364,
      "grad_norm": 0.8853403329849243,
      "learning_rate": 6.152062643193469e-06,
      "loss": 1.395,
      "mean_token_accuracy": 0.6606808751821518,
      "num_tokens": 2108052983.0,
      "step": 12575
    },
    {
      "entropy": 1.6669080555438995,
      "epoch": 1.3815330531982093,
      "grad_norm": 0.7201902866363525,
      "learning_rate": 6.150713731379262e-06,
      "loss": 1.3757,
      "mean_token_accuracy": 0.6702162722746531,
      "num_tokens": 2108200984.0,
      "step": 12576
    },
    {
      "entropy": 1.6895977854728699,
      "epoch": 1.3816429101095822,
      "grad_norm": 0.6631450653076172,
      "learning_rate": 6.1493649730427775e-06,
      "loss": 1.4566,
      "mean_token_accuracy": 0.6551151325305303,
      "num_tokens": 2108383996.0,
      "step": 12577
    },
    {
      "entropy": 1.8024785220623016,
      "epoch": 1.3817527670209553,
      "grad_norm": 0.758419394493103,
      "learning_rate": 6.148016368226708e-06,
      "loss": 1.4561,
      "mean_token_accuracy": 0.652512788772583,
      "num_tokens": 2108632948.0,
      "step": 12578
    },
    {
      "entropy": 1.6716083586215973,
      "epoch": 1.3818626239323282,
      "grad_norm": 0.6724756360054016,
      "learning_rate": 6.1466679169737305e-06,
      "loss": 1.2769,
      "mean_token_accuracy": 0.6760951578617096,
      "num_tokens": 2108779464.0,
      "step": 12579
    },
    {
      "entropy": 1.7235155701637268,
      "epoch": 1.381972480843701,
      "grad_norm": 0.6784364581108093,
      "learning_rate": 6.145319619326531e-06,
      "loss": 1.4671,
      "mean_token_accuracy": 0.6498638937870661,
      "num_tokens": 2108948254.0,
      "step": 12580
    },
    {
      "entropy": 1.763847251733144,
      "epoch": 1.382082337755074,
      "grad_norm": 0.8038673400878906,
      "learning_rate": 6.143971475327777e-06,
      "loss": 1.5473,
      "mean_token_accuracy": 0.6444573253393173,
      "num_tokens": 2109131964.0,
      "step": 12581
    },
    {
      "entropy": 1.7665770848592122,
      "epoch": 1.3821921946664468,
      "grad_norm": 0.6910974979400635,
      "learning_rate": 6.142623485020135e-06,
      "loss": 1.4179,
      "mean_token_accuracy": 0.649805506070455,
      "num_tokens": 2109315655.0,
      "step": 12582
    },
    {
      "entropy": 1.6560252110163372,
      "epoch": 1.38230205157782,
      "grad_norm": 0.6830186247825623,
      "learning_rate": 6.141275648446274e-06,
      "loss": 1.3571,
      "mean_token_accuracy": 0.6550218462944031,
      "num_tokens": 2109499004.0,
      "step": 12583
    },
    {
      "entropy": 1.7072090804576874,
      "epoch": 1.3824119084891928,
      "grad_norm": 0.7160013318061829,
      "learning_rate": 6.139927965648848e-06,
      "loss": 1.3447,
      "mean_token_accuracy": 0.6548336744308472,
      "num_tokens": 2109659932.0,
      "step": 12584
    },
    {
      "entropy": 1.686892330646515,
      "epoch": 1.3825217654005657,
      "grad_norm": 0.6150763034820557,
      "learning_rate": 6.138580436670512e-06,
      "loss": 1.4549,
      "mean_token_accuracy": 0.635261004169782,
      "num_tokens": 2109900953.0,
      "step": 12585
    },
    {
      "entropy": 1.75520854194959,
      "epoch": 1.3826316223119388,
      "grad_norm": 0.6944630146026611,
      "learning_rate": 6.137233061553914e-06,
      "loss": 1.5959,
      "mean_token_accuracy": 0.6286770751078924,
      "num_tokens": 2110108815.0,
      "step": 12586
    },
    {
      "entropy": 1.720687488714854,
      "epoch": 1.3827414792233117,
      "grad_norm": 0.6678749322891235,
      "learning_rate": 6.1358858403416985e-06,
      "loss": 1.3596,
      "mean_token_accuracy": 0.6810717135667801,
      "num_tokens": 2110296447.0,
      "step": 12587
    },
    {
      "entropy": 1.7100276947021484,
      "epoch": 1.3828513361346846,
      "grad_norm": 0.6869692206382751,
      "learning_rate": 6.134538773076506e-06,
      "loss": 1.3972,
      "mean_token_accuracy": 0.6752725392580032,
      "num_tokens": 2110501100.0,
      "step": 12588
    },
    {
      "entropy": 1.7093996107578278,
      "epoch": 1.3829611930460575,
      "grad_norm": 0.7765591144561768,
      "learning_rate": 6.1331918598009664e-06,
      "loss": 1.2499,
      "mean_token_accuracy": 0.6684116174777349,
      "num_tokens": 2110646493.0,
      "step": 12589
    },
    {
      "entropy": 1.7051993509133656,
      "epoch": 1.3830710499574304,
      "grad_norm": 0.7620055079460144,
      "learning_rate": 6.131845100557713e-06,
      "loss": 1.3419,
      "mean_token_accuracy": 0.6666328310966492,
      "num_tokens": 2110816819.0,
      "step": 12590
    },
    {
      "entropy": 1.7090232570966084,
      "epoch": 1.3831809068688035,
      "grad_norm": 0.6869613528251648,
      "learning_rate": 6.130498495389365e-06,
      "loss": 1.4943,
      "mean_token_accuracy": 0.6450514495372772,
      "num_tokens": 2110994559.0,
      "step": 12591
    },
    {
      "entropy": 1.6619928280512493,
      "epoch": 1.3832907637801763,
      "grad_norm": 0.6001034379005432,
      "learning_rate": 6.129152044338551e-06,
      "loss": 1.2886,
      "mean_token_accuracy": 0.6643996685743332,
      "num_tokens": 2111140891.0,
      "step": 12592
    },
    {
      "entropy": 1.7544625401496887,
      "epoch": 1.3834006206915492,
      "grad_norm": 0.7446973919868469,
      "learning_rate": 6.1278057474478795e-06,
      "loss": 1.2745,
      "mean_token_accuracy": 0.676040510336558,
      "num_tokens": 2111325676.0,
      "step": 12593
    },
    {
      "entropy": 1.6300282776355743,
      "epoch": 1.3835104776029221,
      "grad_norm": 0.7586323022842407,
      "learning_rate": 6.1264596047599555e-06,
      "loss": 1.4867,
      "mean_token_accuracy": 0.6626367469628652,
      "num_tokens": 2111503103.0,
      "step": 12594
    },
    {
      "entropy": 1.6632478535175323,
      "epoch": 1.383620334514295,
      "grad_norm": 0.6314704418182373,
      "learning_rate": 6.125113616317394e-06,
      "loss": 1.4226,
      "mean_token_accuracy": 0.6542702714602152,
      "num_tokens": 2111687155.0,
      "step": 12595
    },
    {
      "entropy": 1.7528144121170044,
      "epoch": 1.383730191425668,
      "grad_norm": 0.7653163075447083,
      "learning_rate": 6.123767782162789e-06,
      "loss": 1.2804,
      "mean_token_accuracy": 0.672723392645518,
      "num_tokens": 2111806165.0,
      "step": 12596
    },
    {
      "entropy": 1.7398656606674194,
      "epoch": 1.383840048337041,
      "grad_norm": 0.7522697448730469,
      "learning_rate": 6.1224221023387335e-06,
      "loss": 1.426,
      "mean_token_accuracy": 0.6618303308884302,
      "num_tokens": 2111943423.0,
      "step": 12597
    },
    {
      "entropy": 1.7423573831717174,
      "epoch": 1.3839499052484139,
      "grad_norm": 0.8257996439933777,
      "learning_rate": 6.121076576887821e-06,
      "loss": 1.4182,
      "mean_token_accuracy": 0.678856705625852,
      "num_tokens": 2112103993.0,
      "step": 12598
    },
    {
      "entropy": 1.7207870781421661,
      "epoch": 1.384059762159787,
      "grad_norm": 0.6698588728904724,
      "learning_rate": 6.119731205852638e-06,
      "loss": 1.5969,
      "mean_token_accuracy": 0.6185207416613897,
      "num_tokens": 2112323075.0,
      "step": 12599
    },
    {
      "entropy": 1.7429817418257396,
      "epoch": 1.3841696190711599,
      "grad_norm": 0.6996835470199585,
      "learning_rate": 6.118385989275766e-06,
      "loss": 1.4458,
      "mean_token_accuracy": 0.6526039093732834,
      "num_tokens": 2112446359.0,
      "step": 12600
    },
    {
      "entropy": 1.7398698528607686,
      "epoch": 1.3842794759825328,
      "grad_norm": 0.8282992839813232,
      "learning_rate": 6.117040927199771e-06,
      "loss": 1.5379,
      "mean_token_accuracy": 0.648671011130015,
      "num_tokens": 2112590838.0,
      "step": 12601
    },
    {
      "entropy": 1.6970640818277996,
      "epoch": 1.3843893328939056,
      "grad_norm": 0.7883489727973938,
      "learning_rate": 6.115696019667236e-06,
      "loss": 1.5544,
      "mean_token_accuracy": 0.6379801481962204,
      "num_tokens": 2112806234.0,
      "step": 12602
    },
    {
      "entropy": 1.7620785633722942,
      "epoch": 1.3844991898052785,
      "grad_norm": 0.8957377672195435,
      "learning_rate": 6.1143512667207195e-06,
      "loss": 1.4253,
      "mean_token_accuracy": 0.6558419863382975,
      "num_tokens": 2112951869.0,
      "step": 12603
    },
    {
      "entropy": 1.6944806178410847,
      "epoch": 1.3846090467166516,
      "grad_norm": 0.591116726398468,
      "learning_rate": 6.113006668402783e-06,
      "loss": 1.5106,
      "mean_token_accuracy": 0.6455500026543936,
      "num_tokens": 2113186421.0,
      "step": 12604
    },
    {
      "entropy": 1.6918245454629262,
      "epoch": 1.3847189036280245,
      "grad_norm": 0.9420191645622253,
      "learning_rate": 6.111662224755984e-06,
      "loss": 1.0811,
      "mean_token_accuracy": 0.6826836367448171,
      "num_tokens": 2113359446.0,
      "step": 12605
    },
    {
      "entropy": 1.7305250068505604,
      "epoch": 1.3848287605393974,
      "grad_norm": 0.7896611094474792,
      "learning_rate": 6.110317935822871e-06,
      "loss": 1.4241,
      "mean_token_accuracy": 0.657659446199735,
      "num_tokens": 2113523537.0,
      "step": 12606
    },
    {
      "entropy": 1.6499216953913372,
      "epoch": 1.3849386174507703,
      "grad_norm": 0.7420812845230103,
      "learning_rate": 6.108973801645994e-06,
      "loss": 1.3184,
      "mean_token_accuracy": 0.6785426884889603,
      "num_tokens": 2113662311.0,
      "step": 12607
    },
    {
      "entropy": 1.7228143910566966,
      "epoch": 1.3850484743621432,
      "grad_norm": 0.7056854367256165,
      "learning_rate": 6.107629822267894e-06,
      "loss": 1.3208,
      "mean_token_accuracy": 0.6636027296384176,
      "num_tokens": 2113793614.0,
      "step": 12608
    },
    {
      "entropy": 1.795301725467046,
      "epoch": 1.3851583312735163,
      "grad_norm": 0.9566717147827148,
      "learning_rate": 6.106285997731101e-06,
      "loss": 1.4437,
      "mean_token_accuracy": 0.6586398979028066,
      "num_tokens": 2113942725.0,
      "step": 12609
    },
    {
      "entropy": 1.679547091325124,
      "epoch": 1.3852681881848892,
      "grad_norm": 0.58782958984375,
      "learning_rate": 6.1049423280781515e-06,
      "loss": 1.3413,
      "mean_token_accuracy": 0.6591441829999288,
      "num_tokens": 2114102494.0,
      "step": 12610
    },
    {
      "entropy": 1.7034885783990223,
      "epoch": 1.385378045096262,
      "grad_norm": 0.7246780395507812,
      "learning_rate": 6.103598813351575e-06,
      "loss": 1.3381,
      "mean_token_accuracy": 0.6627988219261169,
      "num_tokens": 2114234854.0,
      "step": 12611
    },
    {
      "entropy": 1.7090636690457661,
      "epoch": 1.3854879020076352,
      "grad_norm": 0.6690557599067688,
      "learning_rate": 6.10225545359389e-06,
      "loss": 1.4635,
      "mean_token_accuracy": 0.6498597512642542,
      "num_tokens": 2114454147.0,
      "step": 12612
    },
    {
      "entropy": 1.7583944102128346,
      "epoch": 1.385597758919008,
      "grad_norm": 0.8286144137382507,
      "learning_rate": 6.100912248847608e-06,
      "loss": 1.3619,
      "mean_token_accuracy": 0.6575885117053986,
      "num_tokens": 2114634934.0,
      "step": 12613
    },
    {
      "entropy": 1.6706369022528331,
      "epoch": 1.385707615830381,
      "grad_norm": 0.6204984188079834,
      "learning_rate": 6.099569199155251e-06,
      "loss": 1.3126,
      "mean_token_accuracy": 0.6611980448166529,
      "num_tokens": 2114792957.0,
      "step": 12614
    },
    {
      "entropy": 1.6743928492069244,
      "epoch": 1.3858174727417538,
      "grad_norm": 0.6785169243812561,
      "learning_rate": 6.09822630455932e-06,
      "loss": 1.3939,
      "mean_token_accuracy": 0.658115471402804,
      "num_tokens": 2114962832.0,
      "step": 12615
    },
    {
      "entropy": 1.6953681409358978,
      "epoch": 1.3859273296531267,
      "grad_norm": 0.6881593465805054,
      "learning_rate": 6.0968835651023135e-06,
      "loss": 1.389,
      "mean_token_accuracy": 0.6494457125663757,
      "num_tokens": 2115136453.0,
      "step": 12616
    },
    {
      "entropy": 1.7425408363342285,
      "epoch": 1.3860371865644998,
      "grad_norm": 0.7663772702217102,
      "learning_rate": 6.0955409808267375e-06,
      "loss": 1.4875,
      "mean_token_accuracy": 0.6456399957338969,
      "num_tokens": 2115377261.0,
      "step": 12617
    },
    {
      "entropy": 1.6987970372041066,
      "epoch": 1.3861470434758727,
      "grad_norm": 0.6070899963378906,
      "learning_rate": 6.0941985517750745e-06,
      "loss": 1.4082,
      "mean_token_accuracy": 0.6523675471544266,
      "num_tokens": 2115581762.0,
      "step": 12618
    },
    {
      "entropy": 1.7355947196483612,
      "epoch": 1.3862569003872456,
      "grad_norm": 0.7134828567504883,
      "learning_rate": 6.092856277989822e-06,
      "loss": 1.1913,
      "mean_token_accuracy": 0.687599798043569,
      "num_tokens": 2115710252.0,
      "step": 12619
    },
    {
      "entropy": 1.6785525679588318,
      "epoch": 1.3863667572986185,
      "grad_norm": 0.6055605411529541,
      "learning_rate": 6.0915141595134555e-06,
      "loss": 1.3615,
      "mean_token_accuracy": 0.6554200698932012,
      "num_tokens": 2115893536.0,
      "step": 12620
    },
    {
      "entropy": 1.7625056405862172,
      "epoch": 1.3864766142099914,
      "grad_norm": 0.9016237854957581,
      "learning_rate": 6.090172196388451e-06,
      "loss": 1.5013,
      "mean_token_accuracy": 0.6534651468197504,
      "num_tokens": 2116052986.0,
      "step": 12621
    },
    {
      "entropy": 1.7133546868960063,
      "epoch": 1.3865864711213645,
      "grad_norm": 0.6940526366233826,
      "learning_rate": 6.088830388657284e-06,
      "loss": 1.3231,
      "mean_token_accuracy": 0.6634116520484289,
      "num_tokens": 2116218287.0,
      "step": 12622
    },
    {
      "entropy": 1.6911606689294179,
      "epoch": 1.3866963280327373,
      "grad_norm": 0.6579228639602661,
      "learning_rate": 6.0874887363624255e-06,
      "loss": 1.2912,
      "mean_token_accuracy": 0.6736189971367518,
      "num_tokens": 2116348102.0,
      "step": 12623
    },
    {
      "entropy": 1.6526914338270824,
      "epoch": 1.3868061849441102,
      "grad_norm": 0.6540764570236206,
      "learning_rate": 6.086147239546336e-06,
      "loss": 1.418,
      "mean_token_accuracy": 0.6521534671386083,
      "num_tokens": 2116528433.0,
      "step": 12624
    },
    {
      "entropy": 1.6569193700949352,
      "epoch": 1.3869160418554833,
      "grad_norm": 0.5886544585227966,
      "learning_rate": 6.084805898251468e-06,
      "loss": 1.4071,
      "mean_token_accuracy": 0.660218303402265,
      "num_tokens": 2116774255.0,
      "step": 12625
    },
    {
      "entropy": 1.7367678980032604,
      "epoch": 1.3870258987668562,
      "grad_norm": 0.7575657367706299,
      "learning_rate": 6.083464712520282e-06,
      "loss": 1.415,
      "mean_token_accuracy": 0.6493276755015055,
      "num_tokens": 2116913832.0,
      "step": 12626
    },
    {
      "entropy": 1.7625746925671895,
      "epoch": 1.387135755678229,
      "grad_norm": 0.723961353302002,
      "learning_rate": 6.082123682395222e-06,
      "loss": 1.5134,
      "mean_token_accuracy": 0.6588109185298284,
      "num_tokens": 2117102538.0,
      "step": 12627
    },
    {
      "entropy": 1.6678134202957153,
      "epoch": 1.387245612589602,
      "grad_norm": 0.7065550088882446,
      "learning_rate": 6.080782807918728e-06,
      "loss": 1.3057,
      "mean_token_accuracy": 0.676655059059461,
      "num_tokens": 2117230523.0,
      "step": 12628
    },
    {
      "entropy": 1.742838462193807,
      "epoch": 1.3873554695009749,
      "grad_norm": 0.7316716313362122,
      "learning_rate": 6.079442089133245e-06,
      "loss": 1.3569,
      "mean_token_accuracy": 0.6540696074565252,
      "num_tokens": 2117359500.0,
      "step": 12629
    },
    {
      "entropy": 1.7375612556934357,
      "epoch": 1.387465326412348,
      "grad_norm": 0.756300687789917,
      "learning_rate": 6.078101526081199e-06,
      "loss": 1.5052,
      "mean_token_accuracy": 0.6618654529253641,
      "num_tokens": 2117537412.0,
      "step": 12630
    },
    {
      "entropy": 1.6921890676021576,
      "epoch": 1.3875751833237209,
      "grad_norm": 0.6773094534873962,
      "learning_rate": 6.076761118805026e-06,
      "loss": 1.3607,
      "mean_token_accuracy": 0.661697601278623,
      "num_tokens": 2117723137.0,
      "step": 12631
    },
    {
      "entropy": 1.68595223625501,
      "epoch": 1.3876850402350938,
      "grad_norm": 0.6630276441574097,
      "learning_rate": 6.075420867347144e-06,
      "loss": 1.3329,
      "mean_token_accuracy": 0.6754196931918462,
      "num_tokens": 2117863313.0,
      "step": 12632
    },
    {
      "entropy": 1.7486995458602905,
      "epoch": 1.3877948971464666,
      "grad_norm": 0.8930343985557556,
      "learning_rate": 6.07408077174997e-06,
      "loss": 1.4725,
      "mean_token_accuracy": 0.660398542881012,
      "num_tokens": 2118000107.0,
      "step": 12633
    },
    {
      "entropy": 1.6790860096613567,
      "epoch": 1.3879047540578395,
      "grad_norm": 0.633882462978363,
      "learning_rate": 6.072740832055923e-06,
      "loss": 1.402,
      "mean_token_accuracy": 0.6450261523326238,
      "num_tokens": 2118213587.0,
      "step": 12634
    },
    {
      "entropy": 1.7514410018920898,
      "epoch": 1.3880146109692126,
      "grad_norm": 0.7302515506744385,
      "learning_rate": 6.071401048307406e-06,
      "loss": 1.3367,
      "mean_token_accuracy": 0.6589195132255554,
      "num_tokens": 2118373897.0,
      "step": 12635
    },
    {
      "entropy": 1.734345058600108,
      "epoch": 1.3881244678805855,
      "grad_norm": 0.6358147859573364,
      "learning_rate": 6.070061420546827e-06,
      "loss": 1.4476,
      "mean_token_accuracy": 0.6477800408999125,
      "num_tokens": 2118531537.0,
      "step": 12636
    },
    {
      "entropy": 1.7529782156149547,
      "epoch": 1.3882343247919584,
      "grad_norm": 0.6754707098007202,
      "learning_rate": 6.0687219488165826e-06,
      "loss": 1.3373,
      "mean_token_accuracy": 0.6639518241087595,
      "num_tokens": 2118681904.0,
      "step": 12637
    },
    {
      "entropy": 1.674676090478897,
      "epoch": 1.3883441817033315,
      "grad_norm": 0.8263653516769409,
      "learning_rate": 6.067382633159062e-06,
      "loss": 1.2034,
      "mean_token_accuracy": 0.6820022811492285,
      "num_tokens": 2118787859.0,
      "step": 12638
    },
    {
      "entropy": 1.7267674307028453,
      "epoch": 1.3884540386147044,
      "grad_norm": 0.6797496676445007,
      "learning_rate": 6.066043473616665e-06,
      "loss": 1.3251,
      "mean_token_accuracy": 0.6689668297767639,
      "num_tokens": 2118933401.0,
      "step": 12639
    },
    {
      "entropy": 1.6904515027999878,
      "epoch": 1.3885638955260773,
      "grad_norm": 0.7103528380393982,
      "learning_rate": 6.064704470231766e-06,
      "loss": 1.3393,
      "mean_token_accuracy": 0.6714362452427546,
      "num_tokens": 2119096794.0,
      "step": 12640
    },
    {
      "entropy": 1.729119469722112,
      "epoch": 1.3886737524374502,
      "grad_norm": 0.7350696921348572,
      "learning_rate": 6.063365623046744e-06,
      "loss": 1.4866,
      "mean_token_accuracy": 0.6382670154174169,
      "num_tokens": 2119289765.0,
      "step": 12641
    },
    {
      "entropy": 1.6505240897337596,
      "epoch": 1.388783609348823,
      "grad_norm": 0.6928836107254028,
      "learning_rate": 6.062026932103976e-06,
      "loss": 1.3396,
      "mean_token_accuracy": 0.6640495459238688,
      "num_tokens": 2119449525.0,
      "step": 12642
    },
    {
      "entropy": 1.6739195088545482,
      "epoch": 1.3888934662601962,
      "grad_norm": 0.6808801293373108,
      "learning_rate": 6.0606883974458345e-06,
      "loss": 1.4049,
      "mean_token_accuracy": 0.6502687732378641,
      "num_tokens": 2119607013.0,
      "step": 12643
    },
    {
      "entropy": 1.7042246758937836,
      "epoch": 1.389003323171569,
      "grad_norm": 0.9757330417633057,
      "learning_rate": 6.059350019114678e-06,
      "loss": 1.5106,
      "mean_token_accuracy": 0.6467631061871847,
      "num_tokens": 2119764218.0,
      "step": 12644
    },
    {
      "entropy": 1.7424436310927074,
      "epoch": 1.389113180082942,
      "grad_norm": 0.7235627770423889,
      "learning_rate": 6.0580117971528655e-06,
      "loss": 1.3913,
      "mean_token_accuracy": 0.6477436472972234,
      "num_tokens": 2119946466.0,
      "step": 12645
    },
    {
      "entropy": 1.7050765951474507,
      "epoch": 1.389223036994315,
      "grad_norm": 0.6872043609619141,
      "learning_rate": 6.056673731602753e-06,
      "loss": 1.2568,
      "mean_token_accuracy": 0.6747584690650305,
      "num_tokens": 2120094895.0,
      "step": 12646
    },
    {
      "entropy": 1.667133589585622,
      "epoch": 1.3893328939056877,
      "grad_norm": 0.7159779071807861,
      "learning_rate": 6.055335822506688e-06,
      "loss": 1.2612,
      "mean_token_accuracy": 0.6703705290953318,
      "num_tokens": 2120234938.0,
      "step": 12647
    },
    {
      "entropy": 1.7026324371496837,
      "epoch": 1.3894427508170608,
      "grad_norm": 0.6149495244026184,
      "learning_rate": 6.053998069907019e-06,
      "loss": 1.3952,
      "mean_token_accuracy": 0.6657251864671707,
      "num_tokens": 2120393921.0,
      "step": 12648
    },
    {
      "entropy": 1.7234665950139363,
      "epoch": 1.3895526077284337,
      "grad_norm": 0.6455737352371216,
      "learning_rate": 6.052660473846084e-06,
      "loss": 1.5308,
      "mean_token_accuracy": 0.626121923327446,
      "num_tokens": 2120594349.0,
      "step": 12649
    },
    {
      "entropy": 1.6969818969567616,
      "epoch": 1.3896624646398066,
      "grad_norm": 0.7119026184082031,
      "learning_rate": 6.05132303436621e-06,
      "loss": 1.4113,
      "mean_token_accuracy": 0.6501194735368093,
      "num_tokens": 2120773080.0,
      "step": 12650
    },
    {
      "entropy": 1.7361374100049336,
      "epoch": 1.3897723215511797,
      "grad_norm": 0.7004039287567139,
      "learning_rate": 6.049985751509737e-06,
      "loss": 1.3639,
      "mean_token_accuracy": 0.6526622970898946,
      "num_tokens": 2120923549.0,
      "step": 12651
    },
    {
      "entropy": 1.737576534350713,
      "epoch": 1.3898821784625526,
      "grad_norm": 0.7022482752799988,
      "learning_rate": 6.048648625318984e-06,
      "loss": 1.4327,
      "mean_token_accuracy": 0.6477037022511164,
      "num_tokens": 2121135737.0,
      "step": 12652
    },
    {
      "entropy": 1.6698547104994457,
      "epoch": 1.3899920353739255,
      "grad_norm": 0.6836487054824829,
      "learning_rate": 6.0473116558362664e-06,
      "loss": 1.2327,
      "mean_token_accuracy": 0.6811383267243704,
      "num_tokens": 2121273006.0,
      "step": 12653
    },
    {
      "entropy": 1.696809043486913,
      "epoch": 1.3901018922852983,
      "grad_norm": 0.820905327796936,
      "learning_rate": 6.045974843103905e-06,
      "loss": 1.3486,
      "mean_token_accuracy": 0.6534950186808904,
      "num_tokens": 2121413071.0,
      "step": 12654
    },
    {
      "entropy": 1.6631783346335094,
      "epoch": 1.3902117491966712,
      "grad_norm": 0.6575664281845093,
      "learning_rate": 6.0446381871642094e-06,
      "loss": 1.4987,
      "mean_token_accuracy": 0.6349124858776728,
      "num_tokens": 2121632157.0,
      "step": 12655
    },
    {
      "entropy": 1.6863780121008556,
      "epoch": 1.3903216061080443,
      "grad_norm": 0.6468070149421692,
      "learning_rate": 6.043301688059482e-06,
      "loss": 1.4576,
      "mean_token_accuracy": 0.6422467132409414,
      "num_tokens": 2121782067.0,
      "step": 12656
    },
    {
      "entropy": 1.7445188562075298,
      "epoch": 1.3904314630194172,
      "grad_norm": 0.6437369585037231,
      "learning_rate": 6.04196534583202e-06,
      "loss": 1.3062,
      "mean_token_accuracy": 0.6756186882654825,
      "num_tokens": 2121955217.0,
      "step": 12657
    },
    {
      "entropy": 1.7488488654295604,
      "epoch": 1.39054131993079,
      "grad_norm": 0.7552010416984558,
      "learning_rate": 6.0406291605241255e-06,
      "loss": 1.321,
      "mean_token_accuracy": 0.6689753333727518,
      "num_tokens": 2122074461.0,
      "step": 12658
    },
    {
      "entropy": 1.6862552265326183,
      "epoch": 1.3906511768421632,
      "grad_norm": 0.7533565759658813,
      "learning_rate": 6.039293132178078e-06,
      "loss": 1.4313,
      "mean_token_accuracy": 0.6706264317035675,
      "num_tokens": 2122270613.0,
      "step": 12659
    },
    {
      "entropy": 1.668715238571167,
      "epoch": 1.390761033753536,
      "grad_norm": 0.6359433531761169,
      "learning_rate": 6.0379572608361715e-06,
      "loss": 1.2886,
      "mean_token_accuracy": 0.6727031916379929,
      "num_tokens": 2122418030.0,
      "step": 12660
    },
    {
      "entropy": 1.7360176543394725,
      "epoch": 1.390870890664909,
      "grad_norm": 0.6393101215362549,
      "learning_rate": 6.036621546540682e-06,
      "loss": 1.4723,
      "mean_token_accuracy": 0.6463060726722082,
      "num_tokens": 2122658480.0,
      "step": 12661
    },
    {
      "entropy": 1.6931299567222595,
      "epoch": 1.3909807475762819,
      "grad_norm": 0.6674166321754456,
      "learning_rate": 6.035285989333879e-06,
      "loss": 1.2776,
      "mean_token_accuracy": 0.6711171269416809,
      "num_tokens": 2122775840.0,
      "step": 12662
    },
    {
      "entropy": 1.6795523365338643,
      "epoch": 1.3910906044876548,
      "grad_norm": 0.6074432134628296,
      "learning_rate": 6.033950589258042e-06,
      "loss": 1.3652,
      "mean_token_accuracy": 0.6604388256867727,
      "num_tokens": 2122943493.0,
      "step": 12663
    },
    {
      "entropy": 1.6648745040098827,
      "epoch": 1.3912004613990279,
      "grad_norm": 0.6981958150863647,
      "learning_rate": 6.032615346355431e-06,
      "loss": 1.5333,
      "mean_token_accuracy": 0.6418487280607224,
      "num_tokens": 2123127314.0,
      "step": 12664
    },
    {
      "entropy": 1.6763863563537598,
      "epoch": 1.3913103183104008,
      "grad_norm": 0.6888807415962219,
      "learning_rate": 6.031280260668304e-06,
      "loss": 1.3952,
      "mean_token_accuracy": 0.6572959423065186,
      "num_tokens": 2123323822.0,
      "step": 12665
    },
    {
      "entropy": 1.6850894292195637,
      "epoch": 1.3914201752217736,
      "grad_norm": 0.6015814542770386,
      "learning_rate": 6.029945332238916e-06,
      "loss": 1.5196,
      "mean_token_accuracy": 0.6445889174938202,
      "num_tokens": 2123520705.0,
      "step": 12666
    },
    {
      "entropy": 1.7734043498833973,
      "epoch": 1.3915300321331465,
      "grad_norm": 0.6743616461753845,
      "learning_rate": 6.028610561109522e-06,
      "loss": 1.5488,
      "mean_token_accuracy": 0.6452811906735102,
      "num_tokens": 2123672858.0,
      "step": 12667
    },
    {
      "entropy": 1.7352135578791301,
      "epoch": 1.3916398890445194,
      "grad_norm": 0.73172527551651,
      "learning_rate": 6.027275947322364e-06,
      "loss": 1.3727,
      "mean_token_accuracy": 0.6599378883838654,
      "num_tokens": 2123804318.0,
      "step": 12668
    },
    {
      "entropy": 1.7475886444250743,
      "epoch": 1.3917497459558925,
      "grad_norm": 0.6466162800788879,
      "learning_rate": 6.025941490919678e-06,
      "loss": 1.4018,
      "mean_token_accuracy": 0.6429226100444794,
      "num_tokens": 2123975562.0,
      "step": 12669
    },
    {
      "entropy": 1.7205195526281993,
      "epoch": 1.3918596028672654,
      "grad_norm": 0.6437305808067322,
      "learning_rate": 6.024607191943707e-06,
      "loss": 1.3518,
      "mean_token_accuracy": 0.6662203172842661,
      "num_tokens": 2124119989.0,
      "step": 12670
    },
    {
      "entropy": 1.6926952401796977,
      "epoch": 1.3919694597786383,
      "grad_norm": 0.6400312185287476,
      "learning_rate": 6.023273050436671e-06,
      "loss": 1.3766,
      "mean_token_accuracy": 0.6680413832267126,
      "num_tokens": 2124270078.0,
      "step": 12671
    },
    {
      "entropy": 1.7688163717587788,
      "epoch": 1.3920793166900114,
      "grad_norm": 0.7608019113540649,
      "learning_rate": 6.021939066440805e-06,
      "loss": 1.3084,
      "mean_token_accuracy": 0.6677152961492538,
      "num_tokens": 2124413626.0,
      "step": 12672
    },
    {
      "entropy": 1.6955342292785645,
      "epoch": 1.3921891736013843,
      "grad_norm": 0.669330358505249,
      "learning_rate": 6.020605239998325e-06,
      "loss": 1.4574,
      "mean_token_accuracy": 0.6318171223004659,
      "num_tokens": 2124604904.0,
      "step": 12673
    },
    {
      "entropy": 1.7541027069091797,
      "epoch": 1.3922990305127572,
      "grad_norm": 0.7224034667015076,
      "learning_rate": 6.0192715711514415e-06,
      "loss": 1.3589,
      "mean_token_accuracy": 0.6613028347492218,
      "num_tokens": 2124738170.0,
      "step": 12674
    },
    {
      "entropy": 1.623542954524358,
      "epoch": 1.39240888742413,
      "grad_norm": 0.7347180247306824,
      "learning_rate": 6.01793805994237e-06,
      "loss": 1.4068,
      "mean_token_accuracy": 0.6547928502162298,
      "num_tokens": 2124955515.0,
      "step": 12675
    },
    {
      "entropy": 1.7191152274608612,
      "epoch": 1.392518744335503,
      "grad_norm": 0.6667714715003967,
      "learning_rate": 6.016604706413316e-06,
      "loss": 1.3162,
      "mean_token_accuracy": 0.6564339945713679,
      "num_tokens": 2125103505.0,
      "step": 12676
    },
    {
      "entropy": 1.7070033649603527,
      "epoch": 1.392628601246876,
      "grad_norm": 0.868321418762207,
      "learning_rate": 6.015271510606473e-06,
      "loss": 1.4041,
      "mean_token_accuracy": 0.6572008927663168,
      "num_tokens": 2125269047.0,
      "step": 12677
    },
    {
      "entropy": 1.7142626245816548,
      "epoch": 1.392738458158249,
      "grad_norm": 0.6363254189491272,
      "learning_rate": 6.01393847256404e-06,
      "loss": 1.5588,
      "mean_token_accuracy": 0.6368576760093371,
      "num_tokens": 2125441325.0,
      "step": 12678
    },
    {
      "entropy": 1.7593932350476582,
      "epoch": 1.3928483150696218,
      "grad_norm": 0.5922143459320068,
      "learning_rate": 6.012605592328213e-06,
      "loss": 1.4497,
      "mean_token_accuracy": 0.6469251116116842,
      "num_tokens": 2125633983.0,
      "step": 12679
    },
    {
      "entropy": 1.699719746907552,
      "epoch": 1.3929581719809947,
      "grad_norm": 0.7195116877555847,
      "learning_rate": 6.0112728699411714e-06,
      "loss": 1.4665,
      "mean_token_accuracy": 0.6510594636201859,
      "num_tokens": 2125807954.0,
      "step": 12680
    },
    {
      "entropy": 1.76499076684316,
      "epoch": 1.3930680288923676,
      "grad_norm": 0.7974780797958374,
      "learning_rate": 6.009940305445091e-06,
      "loss": 1.3902,
      "mean_token_accuracy": 0.6549367159605026,
      "num_tokens": 2125928186.0,
      "step": 12681
    },
    {
      "entropy": 1.6431426803270976,
      "epoch": 1.3931778858037407,
      "grad_norm": 0.6491580605506897,
      "learning_rate": 6.008607898882155e-06,
      "loss": 1.3716,
      "mean_token_accuracy": 0.6630857636531194,
      "num_tokens": 2126146596.0,
      "step": 12682
    },
    {
      "entropy": 1.6817518671353657,
      "epoch": 1.3932877427151136,
      "grad_norm": 0.7032451629638672,
      "learning_rate": 6.00727565029453e-06,
      "loss": 1.4448,
      "mean_token_accuracy": 0.6501007825136185,
      "num_tokens": 2126341206.0,
      "step": 12683
    },
    {
      "entropy": 1.6864906052748363,
      "epoch": 1.3933975996264865,
      "grad_norm": 0.8053936958312988,
      "learning_rate": 6.005943559724376e-06,
      "loss": 1.5758,
      "mean_token_accuracy": 0.6425473292668661,
      "num_tokens": 2126538622.0,
      "step": 12684
    },
    {
      "entropy": 1.6943072477976482,
      "epoch": 1.3935074565378596,
      "grad_norm": 0.6725866198539734,
      "learning_rate": 6.004611627213863e-06,
      "loss": 1.3835,
      "mean_token_accuracy": 0.6750175058841705,
      "num_tokens": 2126712924.0,
      "step": 12685
    },
    {
      "entropy": 1.7044211824735005,
      "epoch": 1.3936173134492325,
      "grad_norm": 0.6494740843772888,
      "learning_rate": 6.003279852805137e-06,
      "loss": 1.4474,
      "mean_token_accuracy": 0.6646173646052679,
      "num_tokens": 2126862241.0,
      "step": 12686
    },
    {
      "entropy": 1.7204302748044331,
      "epoch": 1.3937271703606053,
      "grad_norm": 0.6521239876747131,
      "learning_rate": 6.001948236540357e-06,
      "loss": 1.4459,
      "mean_token_accuracy": 0.6400475154320399,
      "num_tokens": 2127025520.0,
      "step": 12687
    },
    {
      "entropy": 1.716679612795512,
      "epoch": 1.3938370272719782,
      "grad_norm": 0.7173079252243042,
      "learning_rate": 6.000616778461661e-06,
      "loss": 1.3788,
      "mean_token_accuracy": 0.6761051565408707,
      "num_tokens": 2127282244.0,
      "step": 12688
    },
    {
      "entropy": 1.7010992169380188,
      "epoch": 1.393946884183351,
      "grad_norm": 19.059829711914062,
      "learning_rate": 5.99928547861119e-06,
      "loss": 1.3966,
      "mean_token_accuracy": 0.6659414370854696,
      "num_tokens": 2127448006.0,
      "step": 12689
    },
    {
      "entropy": 1.657021979490916,
      "epoch": 1.3940567410947242,
      "grad_norm": 0.5839347839355469,
      "learning_rate": 5.9979543370310775e-06,
      "loss": 1.4324,
      "mean_token_accuracy": 0.636112704873085,
      "num_tokens": 2127644165.0,
      "step": 12690
    },
    {
      "entropy": 1.714819739262263,
      "epoch": 1.394166598006097,
      "grad_norm": 0.6099923849105835,
      "learning_rate": 5.996623353763462e-06,
      "loss": 1.4218,
      "mean_token_accuracy": 0.6461069136857986,
      "num_tokens": 2127789572.0,
      "step": 12691
    },
    {
      "entropy": 1.7752255698045094,
      "epoch": 1.39427645491747,
      "grad_norm": 0.722017228603363,
      "learning_rate": 5.995292528850462e-06,
      "loss": 1.5213,
      "mean_token_accuracy": 0.6427341798941294,
      "num_tokens": 2127974615.0,
      "step": 12692
    },
    {
      "entropy": 1.7523868183294933,
      "epoch": 1.3943863118288429,
      "grad_norm": 0.6684828996658325,
      "learning_rate": 5.993961862334197e-06,
      "loss": 1.4147,
      "mean_token_accuracy": 0.653435617685318,
      "num_tokens": 2128141442.0,
      "step": 12693
    },
    {
      "entropy": 1.7046211461226146,
      "epoch": 1.3944961687402158,
      "grad_norm": 0.7684405446052551,
      "learning_rate": 5.9926313542567815e-06,
      "loss": 1.2746,
      "mean_token_accuracy": 0.6661444703737894,
      "num_tokens": 2128311566.0,
      "step": 12694
    },
    {
      "entropy": 1.7271720071633656,
      "epoch": 1.3946060256515889,
      "grad_norm": 0.6236696839332581,
      "learning_rate": 5.99130100466033e-06,
      "loss": 1.3441,
      "mean_token_accuracy": 0.663600504398346,
      "num_tokens": 2128500803.0,
      "step": 12695
    },
    {
      "entropy": 1.7542118628819783,
      "epoch": 1.3947158825629618,
      "grad_norm": 0.8479838371276855,
      "learning_rate": 5.989970813586945e-06,
      "loss": 1.4227,
      "mean_token_accuracy": 0.6497650593519211,
      "num_tokens": 2128680857.0,
      "step": 12696
    },
    {
      "entropy": 1.66288094719251,
      "epoch": 1.3948257394743346,
      "grad_norm": 0.6915057897567749,
      "learning_rate": 5.988640781078724e-06,
      "loss": 1.3693,
      "mean_token_accuracy": 0.6525774498780569,
      "num_tokens": 2128866827.0,
      "step": 12697
    },
    {
      "entropy": 1.729894479115804,
      "epoch": 1.3949355963857077,
      "grad_norm": 0.6445484161376953,
      "learning_rate": 5.987310907177763e-06,
      "loss": 1.4009,
      "mean_token_accuracy": 0.6387731532255808,
      "num_tokens": 2129076102.0,
      "step": 12698
    },
    {
      "entropy": 1.6647725601991017,
      "epoch": 1.3950454532970806,
      "grad_norm": 0.7019267678260803,
      "learning_rate": 5.985981191926156e-06,
      "loss": 1.4318,
      "mean_token_accuracy": 0.6519081046183904,
      "num_tokens": 2129283963.0,
      "step": 12699
    },
    {
      "entropy": 1.6667829751968384,
      "epoch": 1.3951553102084535,
      "grad_norm": 0.6425153017044067,
      "learning_rate": 5.984651635365985e-06,
      "loss": 1.4025,
      "mean_token_accuracy": 0.6508398950099945,
      "num_tokens": 2129458498.0,
      "step": 12700
    },
    {
      "entropy": 1.6813570360342662,
      "epoch": 1.3952651671198264,
      "grad_norm": 0.7219659090042114,
      "learning_rate": 5.983322237539326e-06,
      "loss": 1.331,
      "mean_token_accuracy": 0.6687901417414347,
      "num_tokens": 2129633109.0,
      "step": 12701
    },
    {
      "entropy": 1.7440830767154694,
      "epoch": 1.3953750240311993,
      "grad_norm": 0.7922948598861694,
      "learning_rate": 5.981992998488262e-06,
      "loss": 1.3723,
      "mean_token_accuracy": 0.6505018224318823,
      "num_tokens": 2129786689.0,
      "step": 12702
    },
    {
      "entropy": 1.6904495855172474,
      "epoch": 1.3954848809425724,
      "grad_norm": 0.7381642460823059,
      "learning_rate": 5.980663918254854e-06,
      "loss": 1.449,
      "mean_token_accuracy": 0.6513757407665253,
      "num_tokens": 2129959663.0,
      "step": 12703
    },
    {
      "entropy": 1.594289908806483,
      "epoch": 1.3955947378539453,
      "grad_norm": 0.7294413447380066,
      "learning_rate": 5.979334996881177e-06,
      "loss": 1.2396,
      "mean_token_accuracy": 0.6839832961559296,
      "num_tokens": 2130119921.0,
      "step": 12704
    },
    {
      "entropy": 1.6758387287457783,
      "epoch": 1.3957045947653182,
      "grad_norm": 0.6613010168075562,
      "learning_rate": 5.978006234409282e-06,
      "loss": 1.4366,
      "mean_token_accuracy": 0.6469068974256516,
      "num_tokens": 2130320202.0,
      "step": 12705
    },
    {
      "entropy": 1.6659991939862568,
      "epoch": 1.395814451676691,
      "grad_norm": 0.6377636790275574,
      "learning_rate": 5.9766776308812245e-06,
      "loss": 1.3725,
      "mean_token_accuracy": 0.6629499892393748,
      "num_tokens": 2130524111.0,
      "step": 12706
    },
    {
      "entropy": 1.6998618841171265,
      "epoch": 1.395924308588064,
      "grad_norm": 0.6595562100410461,
      "learning_rate": 5.9753491863390585e-06,
      "loss": 1.5279,
      "mean_token_accuracy": 0.6366192599137624,
      "num_tokens": 2130767602.0,
      "step": 12707
    },
    {
      "entropy": 1.7020623286565144,
      "epoch": 1.396034165499437,
      "grad_norm": 0.8012373447418213,
      "learning_rate": 5.974020900824829e-06,
      "loss": 1.4119,
      "mean_token_accuracy": 0.675724262992541,
      "num_tokens": 2130889858.0,
      "step": 12708
    },
    {
      "entropy": 1.7753592034180958,
      "epoch": 1.39614402241081,
      "grad_norm": 0.7129668593406677,
      "learning_rate": 5.972692774380568e-06,
      "loss": 1.3992,
      "mean_token_accuracy": 0.669427881638209,
      "num_tokens": 2131043830.0,
      "step": 12709
    },
    {
      "entropy": 1.67575670282046,
      "epoch": 1.3962538793221828,
      "grad_norm": 0.7088383436203003,
      "learning_rate": 5.9713648070483165e-06,
      "loss": 1.5448,
      "mean_token_accuracy": 0.6411570161581039,
      "num_tokens": 2131241286.0,
      "step": 12710
    },
    {
      "entropy": 1.6525772909323375,
      "epoch": 1.396363736233556,
      "grad_norm": 0.7682273983955383,
      "learning_rate": 5.9700369988701055e-06,
      "loss": 1.3177,
      "mean_token_accuracy": 0.6682016005118688,
      "num_tokens": 2131431791.0,
      "step": 12711
    },
    {
      "entropy": 1.6430234909057617,
      "epoch": 1.3964735931449288,
      "grad_norm": 0.5847803950309753,
      "learning_rate": 5.968709349887957e-06,
      "loss": 1.3363,
      "mean_token_accuracy": 0.676411454876264,
      "num_tokens": 2131614057.0,
      "step": 12712
    },
    {
      "entropy": 1.679671843846639,
      "epoch": 1.3965834500563017,
      "grad_norm": 0.7472701072692871,
      "learning_rate": 5.9673818601438885e-06,
      "loss": 1.2549,
      "mean_token_accuracy": 0.6748977800210317,
      "num_tokens": 2131726410.0,
      "step": 12713
    },
    {
      "entropy": 1.7021221121152241,
      "epoch": 1.3966933069676746,
      "grad_norm": 0.8775181174278259,
      "learning_rate": 5.9660545296799185e-06,
      "loss": 1.3966,
      "mean_token_accuracy": 0.6520507534344991,
      "num_tokens": 2131916348.0,
      "step": 12714
    },
    {
      "entropy": 1.6914891302585602,
      "epoch": 1.3968031638790475,
      "grad_norm": 0.6840558648109436,
      "learning_rate": 5.964727358538049e-06,
      "loss": 1.2845,
      "mean_token_accuracy": 0.6717403084039688,
      "num_tokens": 2132060214.0,
      "step": 12715
    },
    {
      "entropy": 1.7304686605930328,
      "epoch": 1.3969130207904206,
      "grad_norm": 0.7312942147254944,
      "learning_rate": 5.963400346760297e-06,
      "loss": 1.5967,
      "mean_token_accuracy": 0.6488021487991015,
      "num_tokens": 2132217864.0,
      "step": 12716
    },
    {
      "entropy": 1.7533520062764485,
      "epoch": 1.3970228777017935,
      "grad_norm": 0.6745875477790833,
      "learning_rate": 5.962073494388652e-06,
      "loss": 1.4307,
      "mean_token_accuracy": 0.6536213358243307,
      "num_tokens": 2132385245.0,
      "step": 12717
    },
    {
      "entropy": 1.7508942981561024,
      "epoch": 1.3971327346131663,
      "grad_norm": 0.7504527568817139,
      "learning_rate": 5.9607468014651085e-06,
      "loss": 1.5074,
      "mean_token_accuracy": 0.6408179601033529,
      "num_tokens": 2132551692.0,
      "step": 12718
    },
    {
      "entropy": 1.7008541425069172,
      "epoch": 1.3972425915245392,
      "grad_norm": 0.6057212352752686,
      "learning_rate": 5.959420268031661e-06,
      "loss": 1.5229,
      "mean_token_accuracy": 0.6457130114237467,
      "num_tokens": 2132768679.0,
      "step": 12719
    },
    {
      "entropy": 1.6575111548105876,
      "epoch": 1.397352448435912,
      "grad_norm": 0.8810737133026123,
      "learning_rate": 5.9580938941302905e-06,
      "loss": 1.2997,
      "mean_token_accuracy": 0.6577588965495428,
      "num_tokens": 2132902521.0,
      "step": 12720
    },
    {
      "entropy": 1.7134600281715393,
      "epoch": 1.3974623053472852,
      "grad_norm": 0.6999838948249817,
      "learning_rate": 5.956767679802972e-06,
      "loss": 1.4848,
      "mean_token_accuracy": 0.6436127026875814,
      "num_tokens": 2133091286.0,
      "step": 12721
    },
    {
      "entropy": 1.6435298323631287,
      "epoch": 1.397572162258658,
      "grad_norm": 0.7796320915222168,
      "learning_rate": 5.955441625091685e-06,
      "loss": 1.5166,
      "mean_token_accuracy": 0.6519753734270731,
      "num_tokens": 2133271963.0,
      "step": 12722
    },
    {
      "entropy": 1.7259367903073628,
      "epoch": 1.397682019170031,
      "grad_norm": 0.7645683288574219,
      "learning_rate": 5.9541157300384015e-06,
      "loss": 1.501,
      "mean_token_accuracy": 0.6502551784118017,
      "num_tokens": 2133415532.0,
      "step": 12723
    },
    {
      "entropy": 1.693211168050766,
      "epoch": 1.397791876081404,
      "grad_norm": 0.7891166806221008,
      "learning_rate": 5.95278999468508e-06,
      "loss": 1.2687,
      "mean_token_accuracy": 0.6685374329487482,
      "num_tokens": 2133555494.0,
      "step": 12724
    },
    {
      "entropy": 1.6511625250180562,
      "epoch": 1.397901732992777,
      "grad_norm": 0.5752436518669128,
      "learning_rate": 5.951464419073677e-06,
      "loss": 1.441,
      "mean_token_accuracy": 0.6449030637741089,
      "num_tokens": 2133777556.0,
      "step": 12725
    },
    {
      "entropy": 1.6687390704949696,
      "epoch": 1.3980115899041499,
      "grad_norm": 0.6337757110595703,
      "learning_rate": 5.9501390032461555e-06,
      "loss": 1.3054,
      "mean_token_accuracy": 0.6698885361353556,
      "num_tokens": 2134009899.0,
      "step": 12726
    },
    {
      "entropy": 1.7128651042779286,
      "epoch": 1.3981214468155228,
      "grad_norm": 0.6634067296981812,
      "learning_rate": 5.9488137472444526e-06,
      "loss": 1.4062,
      "mean_token_accuracy": 0.6472688515981039,
      "num_tokens": 2134211243.0,
      "step": 12727
    },
    {
      "entropy": 1.7509056230386097,
      "epoch": 1.3982313037268956,
      "grad_norm": 0.691646933555603,
      "learning_rate": 5.947488651110525e-06,
      "loss": 1.4227,
      "mean_token_accuracy": 0.6611177225907644,
      "num_tokens": 2134348640.0,
      "step": 12728
    },
    {
      "entropy": 1.7512084345022838,
      "epoch": 1.3983411606382687,
      "grad_norm": 0.8137237429618835,
      "learning_rate": 5.946163714886304e-06,
      "loss": 1.3646,
      "mean_token_accuracy": 0.6650453756252924,
      "num_tokens": 2134516069.0,
      "step": 12729
    },
    {
      "entropy": 1.702260931332906,
      "epoch": 1.3984510175496416,
      "grad_norm": 0.6533256769180298,
      "learning_rate": 5.944838938613722e-06,
      "loss": 1.4827,
      "mean_token_accuracy": 0.6493832468986511,
      "num_tokens": 2134719967.0,
      "step": 12730
    },
    {
      "entropy": 1.720413823922475,
      "epoch": 1.3985608744610145,
      "grad_norm": 0.7293774485588074,
      "learning_rate": 5.94351432233471e-06,
      "loss": 1.3079,
      "mean_token_accuracy": 0.6654588927825292,
      "num_tokens": 2134840334.0,
      "step": 12731
    },
    {
      "entropy": 1.6680286626021068,
      "epoch": 1.3986707313723874,
      "grad_norm": 0.7952906489372253,
      "learning_rate": 5.942189866091192e-06,
      "loss": 1.4333,
      "mean_token_accuracy": 0.6534133901198705,
      "num_tokens": 2134991028.0,
      "step": 12732
    },
    {
      "entropy": 1.6684763828913372,
      "epoch": 1.3987805882837603,
      "grad_norm": 0.6839401721954346,
      "learning_rate": 5.940865569925084e-06,
      "loss": 1.5594,
      "mean_token_accuracy": 0.6263647129138311,
      "num_tokens": 2135260443.0,
      "step": 12733
    },
    {
      "entropy": 1.763797640800476,
      "epoch": 1.3988904451951334,
      "grad_norm": 0.6452272534370422,
      "learning_rate": 5.9395414338783e-06,
      "loss": 1.4462,
      "mean_token_accuracy": 0.6526133120059967,
      "num_tokens": 2135421632.0,
      "step": 12734
    },
    {
      "entropy": 1.7352626224358876,
      "epoch": 1.3990003021065063,
      "grad_norm": 0.6591407060623169,
      "learning_rate": 5.938217457992752e-06,
      "loss": 1.3205,
      "mean_token_accuracy": 0.6572297314802805,
      "num_tokens": 2135570456.0,
      "step": 12735
    },
    {
      "entropy": 1.6932378311951954,
      "epoch": 1.3991101590178792,
      "grad_norm": 1.0089200735092163,
      "learning_rate": 5.936893642310342e-06,
      "loss": 1.4389,
      "mean_token_accuracy": 0.6600636690855026,
      "num_tokens": 2135747412.0,
      "step": 12736
    },
    {
      "entropy": 1.6893216868241627,
      "epoch": 1.3992200159292523,
      "grad_norm": 0.5760171413421631,
      "learning_rate": 5.935569986872962e-06,
      "loss": 1.4425,
      "mean_token_accuracy": 0.6468855142593384,
      "num_tokens": 2135980426.0,
      "step": 12737
    },
    {
      "entropy": 1.7061325411001842,
      "epoch": 1.3993298728406252,
      "grad_norm": 0.6980313062667847,
      "learning_rate": 5.934246491722515e-06,
      "loss": 1.3273,
      "mean_token_accuracy": 0.6672591865062714,
      "num_tokens": 2136158512.0,
      "step": 12738
    },
    {
      "entropy": 1.734901487827301,
      "epoch": 1.399439729751998,
      "grad_norm": 0.8329048752784729,
      "learning_rate": 5.93292315690088e-06,
      "loss": 1.3188,
      "mean_token_accuracy": 0.6712016463279724,
      "num_tokens": 2136318374.0,
      "step": 12739
    },
    {
      "entropy": 1.7213096022605896,
      "epoch": 1.399549586663371,
      "grad_norm": 0.8984243273735046,
      "learning_rate": 5.931599982449945e-06,
      "loss": 1.5536,
      "mean_token_accuracy": 0.648496687412262,
      "num_tokens": 2136472657.0,
      "step": 12740
    },
    {
      "entropy": 1.6307465930779774,
      "epoch": 1.3996594435747438,
      "grad_norm": 0.6590262651443481,
      "learning_rate": 5.930276968411589e-06,
      "loss": 1.3478,
      "mean_token_accuracy": 0.6669967323541641,
      "num_tokens": 2136625484.0,
      "step": 12741
    },
    {
      "entropy": 1.744086354970932,
      "epoch": 1.399769300486117,
      "grad_norm": 0.794403612613678,
      "learning_rate": 5.928954114827679e-06,
      "loss": 1.2884,
      "mean_token_accuracy": 0.6704124808311462,
      "num_tokens": 2136783736.0,
      "step": 12742
    },
    {
      "entropy": 1.7087414264678955,
      "epoch": 1.3998791573974898,
      "grad_norm": 0.6517627239227295,
      "learning_rate": 5.927631421740088e-06,
      "loss": 1.4211,
      "mean_token_accuracy": 0.6420366764068604,
      "num_tokens": 2136965121.0,
      "step": 12743
    },
    {
      "entropy": 1.7388703723748524,
      "epoch": 1.3999890143088627,
      "grad_norm": 0.5937987565994263,
      "learning_rate": 5.926308889190677e-06,
      "loss": 1.3561,
      "mean_token_accuracy": 0.6579962919155756,
      "num_tokens": 2137139051.0,
      "step": 12744
    },
    {
      "entropy": 1.710933009783427,
      "epoch": 1.4000988712202356,
      "grad_norm": 0.653157651424408,
      "learning_rate": 5.9249865172213e-06,
      "loss": 1.4606,
      "mean_token_accuracy": 0.647930254538854,
      "num_tokens": 2137320154.0,
      "step": 12745
    },
    {
      "entropy": 1.6999001502990723,
      "epoch": 1.4002087281316085,
      "grad_norm": 0.7102558612823486,
      "learning_rate": 5.9236643058738154e-06,
      "loss": 1.4033,
      "mean_token_accuracy": 0.6542644649744034,
      "num_tokens": 2137500878.0,
      "step": 12746
    },
    {
      "entropy": 1.7328318357467651,
      "epoch": 1.4003185850429816,
      "grad_norm": 0.6837024092674255,
      "learning_rate": 5.922342255190069e-06,
      "loss": 1.346,
      "mean_token_accuracy": 0.66578309237957,
      "num_tokens": 2137655692.0,
      "step": 12747
    },
    {
      "entropy": 1.6835198104381561,
      "epoch": 1.4004284419543545,
      "grad_norm": 0.6370250582695007,
      "learning_rate": 5.921020365211904e-06,
      "loss": 1.5254,
      "mean_token_accuracy": 0.6239050130049387,
      "num_tokens": 2137823214.0,
      "step": 12748
    },
    {
      "entropy": 1.7602061529954274,
      "epoch": 1.4005382988657273,
      "grad_norm": 0.6429856419563293,
      "learning_rate": 5.91969863598115e-06,
      "loss": 1.4799,
      "mean_token_accuracy": 0.6393208205699921,
      "num_tokens": 2138018064.0,
      "step": 12749
    },
    {
      "entropy": 1.745541363954544,
      "epoch": 1.4006481557771004,
      "grad_norm": 0.8476991653442383,
      "learning_rate": 5.918377067539649e-06,
      "loss": 1.1879,
      "mean_token_accuracy": 0.6587680826584498,
      "num_tokens": 2138210800.0,
      "step": 12750
    },
    {
      "entropy": 1.7145410180091858,
      "epoch": 1.4007580126884733,
      "grad_norm": 0.7389444708824158,
      "learning_rate": 5.917055659929226e-06,
      "loss": 1.4971,
      "mean_token_accuracy": 0.6424557218949,
      "num_tokens": 2138401395.0,
      "step": 12751
    },
    {
      "entropy": 1.7683631479740143,
      "epoch": 1.4008678695998462,
      "grad_norm": 0.7572634816169739,
      "learning_rate": 5.9157344131916964e-06,
      "loss": 1.2822,
      "mean_token_accuracy": 0.6673834770917892,
      "num_tokens": 2138510935.0,
      "step": 12752
    },
    {
      "entropy": 1.7613183856010437,
      "epoch": 1.400977726511219,
      "grad_norm": 0.7066530585289001,
      "learning_rate": 5.914413327368884e-06,
      "loss": 1.4304,
      "mean_token_accuracy": 0.6482445945342382,
      "num_tokens": 2138700696.0,
      "step": 12753
    },
    {
      "entropy": 1.7241238355636597,
      "epoch": 1.401087583422592,
      "grad_norm": 0.6761777997016907,
      "learning_rate": 5.913092402502596e-06,
      "loss": 1.4649,
      "mean_token_accuracy": 0.632220983505249,
      "num_tokens": 2138879164.0,
      "step": 12754
    },
    {
      "entropy": 1.7183875143527985,
      "epoch": 1.401197440333965,
      "grad_norm": 0.6765937209129333,
      "learning_rate": 5.911771638634645e-06,
      "loss": 1.3318,
      "mean_token_accuracy": 0.6607321550448736,
      "num_tokens": 2138999181.0,
      "step": 12755
    },
    {
      "entropy": 1.7736754318078358,
      "epoch": 1.401307297245338,
      "grad_norm": 6.098966598510742,
      "learning_rate": 5.910451035806827e-06,
      "loss": 1.3586,
      "mean_token_accuracy": 0.6717801292737325,
      "num_tokens": 2139163745.0,
      "step": 12756
    },
    {
      "entropy": 1.617441564798355,
      "epoch": 1.4014171541567109,
      "grad_norm": 0.6018511652946472,
      "learning_rate": 5.909130594060937e-06,
      "loss": 1.497,
      "mean_token_accuracy": 0.6571058879295985,
      "num_tokens": 2139356692.0,
      "step": 12757
    },
    {
      "entropy": 1.7085582911968231,
      "epoch": 1.4015270110680838,
      "grad_norm": 0.7229043245315552,
      "learning_rate": 5.907810313438773e-06,
      "loss": 1.2965,
      "mean_token_accuracy": 0.6663492073615392,
      "num_tokens": 2139499979.0,
      "step": 12758
    },
    {
      "entropy": 1.7085819641749065,
      "epoch": 1.4016368679794566,
      "grad_norm": 0.6772550344467163,
      "learning_rate": 5.906490193982117e-06,
      "loss": 1.4769,
      "mean_token_accuracy": 0.6481290062268575,
      "num_tokens": 2139690644.0,
      "step": 12759
    },
    {
      "entropy": 1.7135390937328339,
      "epoch": 1.4017467248908297,
      "grad_norm": 0.7282260060310364,
      "learning_rate": 5.905170235732753e-06,
      "loss": 1.3773,
      "mean_token_accuracy": 0.6570235292116801,
      "num_tokens": 2139868571.0,
      "step": 12760
    },
    {
      "entropy": 1.7161648571491241,
      "epoch": 1.4018565818022026,
      "grad_norm": 0.820698082447052,
      "learning_rate": 5.903850438732454e-06,
      "loss": 1.6134,
      "mean_token_accuracy": 0.6403177628914515,
      "num_tokens": 2140033198.0,
      "step": 12761
    },
    {
      "entropy": 1.6414225101470947,
      "epoch": 1.4019664387135755,
      "grad_norm": 0.7905219197273254,
      "learning_rate": 5.9025308030229926e-06,
      "loss": 1.334,
      "mean_token_accuracy": 0.6737157901128134,
      "num_tokens": 2140175099.0,
      "step": 12762
    },
    {
      "entropy": 1.6699174046516418,
      "epoch": 1.4020762956249486,
      "grad_norm": 0.7612943053245544,
      "learning_rate": 5.901211328646134e-06,
      "loss": 1.3,
      "mean_token_accuracy": 0.6618338972330093,
      "num_tokens": 2140342013.0,
      "step": 12763
    },
    {
      "entropy": 1.721044272184372,
      "epoch": 1.4021861525363215,
      "grad_norm": 0.6190001964569092,
      "learning_rate": 5.899892015643641e-06,
      "loss": 1.3738,
      "mean_token_accuracy": 0.6535343378782272,
      "num_tokens": 2140523914.0,
      "step": 12764
    },
    {
      "entropy": 1.7023292283217113,
      "epoch": 1.4022960094476944,
      "grad_norm": 0.6998386979103088,
      "learning_rate": 5.898572864057264e-06,
      "loss": 1.2795,
      "mean_token_accuracy": 0.6628076682488123,
      "num_tokens": 2140648869.0,
      "step": 12765
    },
    {
      "entropy": 1.684864302476247,
      "epoch": 1.4024058663590673,
      "grad_norm": 0.7491025328636169,
      "learning_rate": 5.8972538739287565e-06,
      "loss": 1.3828,
      "mean_token_accuracy": 0.6604053676128387,
      "num_tokens": 2140791080.0,
      "step": 12766
    },
    {
      "entropy": 1.6907603442668915,
      "epoch": 1.4025157232704402,
      "grad_norm": 0.7660679221153259,
      "learning_rate": 5.895935045299868e-06,
      "loss": 1.4723,
      "mean_token_accuracy": 0.6463464796543121,
      "num_tokens": 2140950257.0,
      "step": 12767
    },
    {
      "entropy": 1.7172885537147522,
      "epoch": 1.4026255801818133,
      "grad_norm": 0.6535598635673523,
      "learning_rate": 5.894616378212335e-06,
      "loss": 1.6173,
      "mean_token_accuracy": 0.6273392041524252,
      "num_tokens": 2141170697.0,
      "step": 12768
    },
    {
      "entropy": 1.6735565066337585,
      "epoch": 1.4027354370931862,
      "grad_norm": 0.7289633750915527,
      "learning_rate": 5.8932978727078916e-06,
      "loss": 1.5432,
      "mean_token_accuracy": 0.6520901521046957,
      "num_tokens": 2141348090.0,
      "step": 12769
    },
    {
      "entropy": 1.7456530233224232,
      "epoch": 1.402845294004559,
      "grad_norm": 0.6960586905479431,
      "learning_rate": 5.891979528828271e-06,
      "loss": 1.3654,
      "mean_token_accuracy": 0.6549131870269775,
      "num_tokens": 2141509964.0,
      "step": 12770
    },
    {
      "entropy": 1.7111040155092876,
      "epoch": 1.402955150915932,
      "grad_norm": 0.660510241985321,
      "learning_rate": 5.8906613466151945e-06,
      "loss": 1.5111,
      "mean_token_accuracy": 0.6399530122677485,
      "num_tokens": 2141692058.0,
      "step": 12771
    },
    {
      "entropy": 1.64168119430542,
      "epoch": 1.4030650078273048,
      "grad_norm": 0.6687092185020447,
      "learning_rate": 5.889343326110386e-06,
      "loss": 1.3046,
      "mean_token_accuracy": 0.6702596594889959,
      "num_tokens": 2141843417.0,
      "step": 12772
    },
    {
      "entropy": 1.6783235470453899,
      "epoch": 1.403174864738678,
      "grad_norm": 0.6634986996650696,
      "learning_rate": 5.8880254673555585e-06,
      "loss": 1.3643,
      "mean_token_accuracy": 0.6527419487635294,
      "num_tokens": 2142029490.0,
      "step": 12773
    },
    {
      "entropy": 1.8106913566589355,
      "epoch": 1.4032847216500508,
      "grad_norm": 0.9083941578865051,
      "learning_rate": 5.886707770392419e-06,
      "loss": 1.3996,
      "mean_token_accuracy": 0.6511979649464289,
      "num_tokens": 2142270554.0,
      "step": 12774
    },
    {
      "entropy": 1.673154612382253,
      "epoch": 1.4033945785614237,
      "grad_norm": 0.8272859454154968,
      "learning_rate": 5.885390235262678e-06,
      "loss": 1.3946,
      "mean_token_accuracy": 0.6538991828759512,
      "num_tokens": 2142445460.0,
      "step": 12775
    },
    {
      "entropy": 1.7107236782709758,
      "epoch": 1.4035044354727968,
      "grad_norm": 0.7277297377586365,
      "learning_rate": 5.88407286200803e-06,
      "loss": 1.359,
      "mean_token_accuracy": 0.6583436330159506,
      "num_tokens": 2142591637.0,
      "step": 12776
    },
    {
      "entropy": 1.7707445522149403,
      "epoch": 1.4036142923841697,
      "grad_norm": 0.8745039701461792,
      "learning_rate": 5.882755650670168e-06,
      "loss": 1.3564,
      "mean_token_accuracy": 0.6674359192450842,
      "num_tokens": 2142733811.0,
      "step": 12777
    },
    {
      "entropy": 1.7235571146011353,
      "epoch": 1.4037241492955426,
      "grad_norm": 0.644283652305603,
      "learning_rate": 5.881438601290783e-06,
      "loss": 1.3158,
      "mean_token_accuracy": 0.6760291904211044,
      "num_tokens": 2142913022.0,
      "step": 12778
    },
    {
      "entropy": 1.7330328822135925,
      "epoch": 1.4038340062069155,
      "grad_norm": 0.8673796057701111,
      "learning_rate": 5.880121713911564e-06,
      "loss": 1.2657,
      "mean_token_accuracy": 0.6716126203536987,
      "num_tokens": 2143050557.0,
      "step": 12779
    },
    {
      "entropy": 1.6988015472888947,
      "epoch": 1.4039438631182883,
      "grad_norm": 0.6786276698112488,
      "learning_rate": 5.878804988574187e-06,
      "loss": 1.4185,
      "mean_token_accuracy": 0.6512501438458761,
      "num_tokens": 2143287497.0,
      "step": 12780
    },
    {
      "entropy": 1.691178212563197,
      "epoch": 1.4040537200296614,
      "grad_norm": 0.6749993562698364,
      "learning_rate": 5.877488425320319e-06,
      "loss": 1.555,
      "mean_token_accuracy": 0.6484788060188293,
      "num_tokens": 2143479455.0,
      "step": 12781
    },
    {
      "entropy": 1.7058672209580739,
      "epoch": 1.4041635769410343,
      "grad_norm": 0.7358183264732361,
      "learning_rate": 5.876172024191638e-06,
      "loss": 1.4368,
      "mean_token_accuracy": 0.6451542327801386,
      "num_tokens": 2143664368.0,
      "step": 12782
    },
    {
      "entropy": 1.7063271800676982,
      "epoch": 1.4042734338524072,
      "grad_norm": 0.5937331318855286,
      "learning_rate": 5.8748557852298e-06,
      "loss": 1.4229,
      "mean_token_accuracy": 0.6448936760425568,
      "num_tokens": 2143865254.0,
      "step": 12783
    },
    {
      "entropy": 1.6791508595148723,
      "epoch": 1.40438329076378,
      "grad_norm": 0.6096206903457642,
      "learning_rate": 5.8735397084764715e-06,
      "loss": 1.5288,
      "mean_token_accuracy": 0.6363308951258659,
      "num_tokens": 2144054655.0,
      "step": 12784
    },
    {
      "entropy": 1.6694469451904297,
      "epoch": 1.404493147675153,
      "grad_norm": 0.6919692754745483,
      "learning_rate": 5.8722237939733e-06,
      "loss": 1.3743,
      "mean_token_accuracy": 0.6567158748706182,
      "num_tokens": 2144227659.0,
      "step": 12785
    },
    {
      "entropy": 1.69756019115448,
      "epoch": 1.404603004586526,
      "grad_norm": 0.5972253680229187,
      "learning_rate": 5.870908041761931e-06,
      "loss": 1.4428,
      "mean_token_accuracy": 0.6423445741335551,
      "num_tokens": 2144422290.0,
      "step": 12786
    },
    {
      "entropy": 1.7097438871860504,
      "epoch": 1.404712861497899,
      "grad_norm": 0.7439383268356323,
      "learning_rate": 5.869592451884016e-06,
      "loss": 1.5138,
      "mean_token_accuracy": 0.6612397755185763,
      "num_tokens": 2144562143.0,
      "step": 12787
    },
    {
      "entropy": 1.6832230985164642,
      "epoch": 1.4048227184092719,
      "grad_norm": 0.6270433664321899,
      "learning_rate": 5.868277024381188e-06,
      "loss": 1.4087,
      "mean_token_accuracy": 0.6563821186621984,
      "num_tokens": 2144747093.0,
      "step": 12788
    },
    {
      "entropy": 1.6605586012204487,
      "epoch": 1.404932575320645,
      "grad_norm": 0.5849980711936951,
      "learning_rate": 5.8669617592950756e-06,
      "loss": 1.4643,
      "mean_token_accuracy": 0.6427861303091049,
      "num_tokens": 2144974369.0,
      "step": 12789
    },
    {
      "entropy": 1.754450609286626,
      "epoch": 1.4050424322320179,
      "grad_norm": 0.6792782545089722,
      "learning_rate": 5.8656466566673096e-06,
      "loss": 1.5626,
      "mean_token_accuracy": 0.6303362647692362,
      "num_tokens": 2145155907.0,
      "step": 12790
    },
    {
      "entropy": 1.7363029321034749,
      "epoch": 1.4051522891433907,
      "grad_norm": 0.7463129162788391,
      "learning_rate": 5.864331716539519e-06,
      "loss": 1.5308,
      "mean_token_accuracy": 0.6494456827640533,
      "num_tokens": 2145329791.0,
      "step": 12791
    },
    {
      "entropy": 1.665359725554784,
      "epoch": 1.4052621460547636,
      "grad_norm": 0.681336522102356,
      "learning_rate": 5.863016938953313e-06,
      "loss": 1.4401,
      "mean_token_accuracy": 0.6599595348040262,
      "num_tokens": 2145484550.0,
      "step": 12792
    },
    {
      "entropy": 1.6739614307880402,
      "epoch": 1.4053720029661365,
      "grad_norm": 0.6140089631080627,
      "learning_rate": 5.861702323950304e-06,
      "loss": 1.366,
      "mean_token_accuracy": 0.654315322637558,
      "num_tokens": 2145641851.0,
      "step": 12793
    },
    {
      "entropy": 1.7016875247160594,
      "epoch": 1.4054818598775096,
      "grad_norm": 0.6950314044952393,
      "learning_rate": 5.860387871572105e-06,
      "loss": 1.3112,
      "mean_token_accuracy": 0.6771847307682037,
      "num_tokens": 2145795212.0,
      "step": 12794
    },
    {
      "entropy": 1.7205670773983002,
      "epoch": 1.4055917167888825,
      "grad_norm": 0.6614289879798889,
      "learning_rate": 5.85907358186031e-06,
      "loss": 1.4641,
      "mean_token_accuracy": 0.646242747704188,
      "num_tokens": 2146010519.0,
      "step": 12795
    },
    {
      "entropy": 1.6690000593662262,
      "epoch": 1.4057015737002554,
      "grad_norm": 0.7087666988372803,
      "learning_rate": 5.857759454856522e-06,
      "loss": 1.2666,
      "mean_token_accuracy": 0.6690100828806559,
      "num_tokens": 2146162066.0,
      "step": 12796
    },
    {
      "entropy": 1.7213394542535145,
      "epoch": 1.4058114306116283,
      "grad_norm": 0.6396216750144958,
      "learning_rate": 5.856445490602332e-06,
      "loss": 1.4768,
      "mean_token_accuracy": 0.642402172088623,
      "num_tokens": 2146343869.0,
      "step": 12797
    },
    {
      "entropy": 1.7456571360429127,
      "epoch": 1.4059212875230012,
      "grad_norm": 0.775600016117096,
      "learning_rate": 5.855131689139319e-06,
      "loss": 1.5141,
      "mean_token_accuracy": 0.6424583395322164,
      "num_tokens": 2146511314.0,
      "step": 12798
    },
    {
      "entropy": 1.6875923077265422,
      "epoch": 1.4060311444343743,
      "grad_norm": 0.8226394653320312,
      "learning_rate": 5.853818050509075e-06,
      "loss": 1.3774,
      "mean_token_accuracy": 0.6524281054735184,
      "num_tokens": 2146732048.0,
      "step": 12799
    },
    {
      "entropy": 1.6746432185173035,
      "epoch": 1.4061410013457472,
      "grad_norm": 0.8111725449562073,
      "learning_rate": 5.852504574753171e-06,
      "loss": 1.3547,
      "mean_token_accuracy": 0.670900379618009,
      "num_tokens": 2146891070.0,
      "step": 12800
    },
    {
      "entropy": 1.7106841901938121,
      "epoch": 1.40625085825712,
      "grad_norm": 0.8684120178222656,
      "learning_rate": 5.851191261913173e-06,
      "loss": 1.4345,
      "mean_token_accuracy": 0.6579526364803314,
      "num_tokens": 2147074096.0,
      "step": 12801
    },
    {
      "entropy": 1.6633965174357097,
      "epoch": 1.4063607151684931,
      "grad_norm": 0.6919369101524353,
      "learning_rate": 5.8498781120306515e-06,
      "loss": 1.5774,
      "mean_token_accuracy": 0.6280744473139445,
      "num_tokens": 2147378563.0,
      "step": 12802
    },
    {
      "entropy": 1.7567805548508961,
      "epoch": 1.406470572079866,
      "grad_norm": 0.6097819805145264,
      "learning_rate": 5.84856512514717e-06,
      "loss": 1.5855,
      "mean_token_accuracy": 0.6411197036504745,
      "num_tokens": 2147542328.0,
      "step": 12803
    },
    {
      "entropy": 1.7062805791695912,
      "epoch": 1.406580428991239,
      "grad_norm": 0.7504722476005554,
      "learning_rate": 5.847252301304283e-06,
      "loss": 1.4771,
      "mean_token_accuracy": 0.6363706986109415,
      "num_tokens": 2147776239.0,
      "step": 12804
    },
    {
      "entropy": 1.6895011464754741,
      "epoch": 1.4066902859026118,
      "grad_norm": 0.7538740038871765,
      "learning_rate": 5.845939640543532e-06,
      "loss": 1.161,
      "mean_token_accuracy": 0.6999478687842687,
      "num_tokens": 2147905569.0,
      "step": 12805
    },
    {
      "entropy": 1.742385983467102,
      "epoch": 1.4068001428139847,
      "grad_norm": 0.7203928828239441,
      "learning_rate": 5.844627142906476e-06,
      "loss": 1.3725,
      "mean_token_accuracy": 0.65119768679142,
      "num_tokens": 2148091661.0,
      "step": 12806
    },
    {
      "entropy": 1.6920853157838185,
      "epoch": 1.4069099997253578,
      "grad_norm": 0.9913017153739929,
      "learning_rate": 5.843314808434642e-06,
      "loss": 1.2324,
      "mean_token_accuracy": 0.6863707005977631,
      "num_tokens": 2148224018.0,
      "step": 12807
    },
    {
      "entropy": 1.7018676499525707,
      "epoch": 1.4070198566367307,
      "grad_norm": 0.6461707949638367,
      "learning_rate": 5.842002637169575e-06,
      "loss": 1.4177,
      "mean_token_accuracy": 0.6471654524405798,
      "num_tokens": 2148433747.0,
      "step": 12808
    },
    {
      "entropy": 1.6787349085013072,
      "epoch": 1.4071297135481036,
      "grad_norm": 0.7102311253547668,
      "learning_rate": 5.840690629152801e-06,
      "loss": 1.6121,
      "mean_token_accuracy": 0.6307234813769659,
      "num_tokens": 2148624255.0,
      "step": 12809
    },
    {
      "entropy": 1.7247712711493175,
      "epoch": 1.4072395704594765,
      "grad_norm": 0.7935449481010437,
      "learning_rate": 5.8393787844258395e-06,
      "loss": 1.4452,
      "mean_token_accuracy": 0.6595299392938614,
      "num_tokens": 2148761952.0,
      "step": 12810
    },
    {
      "entropy": 1.7299401660760243,
      "epoch": 1.4073494273708493,
      "grad_norm": 0.7766920328140259,
      "learning_rate": 5.838067103030216e-06,
      "loss": 1.4923,
      "mean_token_accuracy": 0.6479160586992899,
      "num_tokens": 2148884392.0,
      "step": 12811
    },
    {
      "entropy": 1.658048282066981,
      "epoch": 1.4074592842822224,
      "grad_norm": 0.6866027116775513,
      "learning_rate": 5.836755585007445e-06,
      "loss": 1.3419,
      "mean_token_accuracy": 0.6578021794557571,
      "num_tokens": 2149045505.0,
      "step": 12812
    },
    {
      "entropy": 1.6724791725476582,
      "epoch": 1.4075691411935953,
      "grad_norm": 0.8036855459213257,
      "learning_rate": 5.8354442303990285e-06,
      "loss": 1.3986,
      "mean_token_accuracy": 0.6611756682395935,
      "num_tokens": 2149207385.0,
      "step": 12813
    },
    {
      "entropy": 1.7076423863569896,
      "epoch": 1.4076789981049682,
      "grad_norm": 0.7133153676986694,
      "learning_rate": 5.834133039246479e-06,
      "loss": 1.4558,
      "mean_token_accuracy": 0.6625415583451589,
      "num_tokens": 2149386316.0,
      "step": 12814
    },
    {
      "entropy": 1.6813267568747203,
      "epoch": 1.4077888550163413,
      "grad_norm": 0.697750985622406,
      "learning_rate": 5.832822011591287e-06,
      "loss": 1.2656,
      "mean_token_accuracy": 0.6713636467854182,
      "num_tokens": 2149506203.0,
      "step": 12815
    },
    {
      "entropy": 1.7380880614121754,
      "epoch": 1.4078987119277142,
      "grad_norm": 0.8035324215888977,
      "learning_rate": 5.831511147474953e-06,
      "loss": 1.3003,
      "mean_token_accuracy": 0.6692630002895991,
      "num_tokens": 2149633124.0,
      "step": 12816
    },
    {
      "entropy": 1.6894714534282684,
      "epoch": 1.408008568839087,
      "grad_norm": 0.918594241142273,
      "learning_rate": 5.830200446938963e-06,
      "loss": 1.3384,
      "mean_token_accuracy": 0.6638317654530207,
      "num_tokens": 2149829653.0,
      "step": 12817
    },
    {
      "entropy": 1.6925647656122844,
      "epoch": 1.40811842575046,
      "grad_norm": 0.7484959959983826,
      "learning_rate": 5.828889910024796e-06,
      "loss": 1.3594,
      "mean_token_accuracy": 0.670293723543485,
      "num_tokens": 2149990639.0,
      "step": 12818
    },
    {
      "entropy": 1.7760498821735382,
      "epoch": 1.4082282826618329,
      "grad_norm": 0.890577495098114,
      "learning_rate": 5.827579536773933e-06,
      "loss": 1.559,
      "mean_token_accuracy": 0.6545114864905676,
      "num_tokens": 2150162739.0,
      "step": 12819
    },
    {
      "entropy": 1.7027121881643932,
      "epoch": 1.408338139573206,
      "grad_norm": 0.625486433506012,
      "learning_rate": 5.826269327227853e-06,
      "loss": 1.5667,
      "mean_token_accuracy": 0.6334756761789322,
      "num_tokens": 2150347461.0,
      "step": 12820
    },
    {
      "entropy": 1.7147199014822643,
      "epoch": 1.4084479964845789,
      "grad_norm": 0.7005285024642944,
      "learning_rate": 5.824959281428012e-06,
      "loss": 1.281,
      "mean_token_accuracy": 0.6745847860972086,
      "num_tokens": 2150493583.0,
      "step": 12821
    },
    {
      "entropy": 1.6792974670728047,
      "epoch": 1.4085578533959517,
      "grad_norm": 0.6783992648124695,
      "learning_rate": 5.823649399415876e-06,
      "loss": 1.3088,
      "mean_token_accuracy": 0.671634684006373,
      "num_tokens": 2150622072.0,
      "step": 12822
    },
    {
      "entropy": 1.7010674675305684,
      "epoch": 1.4086677103073246,
      "grad_norm": 0.6391741037368774,
      "learning_rate": 5.822339681232909e-06,
      "loss": 1.3342,
      "mean_token_accuracy": 0.6632145543893179,
      "num_tokens": 2150816027.0,
      "step": 12823
    },
    {
      "entropy": 1.7505244612693787,
      "epoch": 1.4087775672186975,
      "grad_norm": 0.7569530606269836,
      "learning_rate": 5.821030126920558e-06,
      "loss": 1.5322,
      "mean_token_accuracy": 0.6407630940278372,
      "num_tokens": 2150992201.0,
      "step": 12824
    },
    {
      "entropy": 1.724602570136388,
      "epoch": 1.4088874241300706,
      "grad_norm": 0.7671657800674438,
      "learning_rate": 5.819720736520265e-06,
      "loss": 1.3978,
      "mean_token_accuracy": 0.6648318469524384,
      "num_tokens": 2151147887.0,
      "step": 12825
    },
    {
      "entropy": 1.6906703511873882,
      "epoch": 1.4089972810414435,
      "grad_norm": 0.688035249710083,
      "learning_rate": 5.818411510073481e-06,
      "loss": 1.3757,
      "mean_token_accuracy": 0.6557995080947876,
      "num_tokens": 2151322253.0,
      "step": 12826
    },
    {
      "entropy": 1.6956557631492615,
      "epoch": 1.4091071379528164,
      "grad_norm": 0.5983976125717163,
      "learning_rate": 5.817102447621634e-06,
      "loss": 1.5676,
      "mean_token_accuracy": 0.639850397904714,
      "num_tokens": 2151538705.0,
      "step": 12827
    },
    {
      "entropy": 1.7294293542702992,
      "epoch": 1.4092169948641895,
      "grad_norm": 0.7593173384666443,
      "learning_rate": 5.815793549206163e-06,
      "loss": 1.4723,
      "mean_token_accuracy": 0.6482956012090048,
      "num_tokens": 2151684485.0,
      "step": 12828
    },
    {
      "entropy": 1.6686496635278065,
      "epoch": 1.4093268517755624,
      "grad_norm": 0.7154465317726135,
      "learning_rate": 5.8144848148684885e-06,
      "loss": 1.2243,
      "mean_token_accuracy": 0.6809603323539098,
      "num_tokens": 2151805051.0,
      "step": 12829
    },
    {
      "entropy": 1.685718337694804,
      "epoch": 1.4094367086869353,
      "grad_norm": 0.6651716232299805,
      "learning_rate": 5.813176244650032e-06,
      "loss": 1.2744,
      "mean_token_accuracy": 0.6674046268065771,
      "num_tokens": 2151913172.0,
      "step": 12830
    },
    {
      "entropy": 1.738152305285136,
      "epoch": 1.4095465655983082,
      "grad_norm": 0.7076160907745361,
      "learning_rate": 5.811867838592211e-06,
      "loss": 1.477,
      "mean_token_accuracy": 0.6419303814570109,
      "num_tokens": 2152093205.0,
      "step": 12831
    },
    {
      "entropy": 1.7107795576254528,
      "epoch": 1.409656422509681,
      "grad_norm": 0.6455994844436646,
      "learning_rate": 5.810559596736437e-06,
      "loss": 1.344,
      "mean_token_accuracy": 0.6550297737121582,
      "num_tokens": 2152241280.0,
      "step": 12832
    },
    {
      "entropy": 1.717966268459956,
      "epoch": 1.4097662794210541,
      "grad_norm": 0.6599206924438477,
      "learning_rate": 5.809251519124109e-06,
      "loss": 1.4948,
      "mean_token_accuracy": 0.6381760487953821,
      "num_tokens": 2152459746.0,
      "step": 12833
    },
    {
      "entropy": 1.7183611194292705,
      "epoch": 1.409876136332427,
      "grad_norm": 0.5863080024719238,
      "learning_rate": 5.807943605796631e-06,
      "loss": 1.4689,
      "mean_token_accuracy": 0.6355762084325155,
      "num_tokens": 2152659000.0,
      "step": 12834
    },
    {
      "entropy": 1.6961732705434163,
      "epoch": 1.4099859932438,
      "grad_norm": 0.6659945249557495,
      "learning_rate": 5.806635856795404e-06,
      "loss": 1.3066,
      "mean_token_accuracy": 0.6640375355879465,
      "num_tokens": 2152798280.0,
      "step": 12835
    },
    {
      "entropy": 1.7171707153320312,
      "epoch": 1.410095850155173,
      "grad_norm": 0.5799298286437988,
      "learning_rate": 5.80532827216181e-06,
      "loss": 1.458,
      "mean_token_accuracy": 0.6387546559174856,
      "num_tokens": 2153031793.0,
      "step": 12836
    },
    {
      "entropy": 1.7386144399642944,
      "epoch": 1.4102057070665457,
      "grad_norm": 0.6916424632072449,
      "learning_rate": 5.804020851937231e-06,
      "loss": 1.4831,
      "mean_token_accuracy": 0.6459663063287735,
      "num_tokens": 2153245122.0,
      "step": 12837
    },
    {
      "entropy": 1.7278761863708496,
      "epoch": 1.4103155639779188,
      "grad_norm": 0.657574474811554,
      "learning_rate": 5.8027135961630565e-06,
      "loss": 1.4642,
      "mean_token_accuracy": 0.6525082488854727,
      "num_tokens": 2153416789.0,
      "step": 12838
    },
    {
      "entropy": 1.7336822350819905,
      "epoch": 1.4104254208892917,
      "grad_norm": 0.7622162103652954,
      "learning_rate": 5.801406504880649e-06,
      "loss": 1.3134,
      "mean_token_accuracy": 0.6629678755998611,
      "num_tokens": 2153535980.0,
      "step": 12839
    },
    {
      "entropy": 1.654565433661143,
      "epoch": 1.4105352778006646,
      "grad_norm": 0.6035882830619812,
      "learning_rate": 5.800099578131388e-06,
      "loss": 1.3029,
      "mean_token_accuracy": 0.680802529056867,
      "num_tokens": 2153683959.0,
      "step": 12840
    },
    {
      "entropy": 1.6937087972958882,
      "epoch": 1.4106451347120377,
      "grad_norm": 0.6252169609069824,
      "learning_rate": 5.798792815956632e-06,
      "loss": 1.3357,
      "mean_token_accuracy": 0.6599215567111969,
      "num_tokens": 2153878650.0,
      "step": 12841
    },
    {
      "entropy": 1.7652093668778737,
      "epoch": 1.4107549916234106,
      "grad_norm": 0.715120255947113,
      "learning_rate": 5.797486218397737e-06,
      "loss": 1.4924,
      "mean_token_accuracy": 0.6500881711641947,
      "num_tokens": 2154048004.0,
      "step": 12842
    },
    {
      "entropy": 1.6499028007189434,
      "epoch": 1.4108648485347834,
      "grad_norm": 0.8363161683082581,
      "learning_rate": 5.796179785496061e-06,
      "loss": 1.3537,
      "mean_token_accuracy": 0.6692218035459518,
      "num_tokens": 2154206593.0,
      "step": 12843
    },
    {
      "entropy": 1.6193082729975383,
      "epoch": 1.4109747054461563,
      "grad_norm": 0.6517688035964966,
      "learning_rate": 5.7948735172929495e-06,
      "loss": 1.2561,
      "mean_token_accuracy": 0.6783891270558039,
      "num_tokens": 2154358170.0,
      "step": 12844
    },
    {
      "entropy": 1.685720553000768,
      "epoch": 1.4110845623575292,
      "grad_norm": 0.6175381541252136,
      "learning_rate": 5.7935674138297435e-06,
      "loss": 1.3547,
      "mean_token_accuracy": 0.653323769569397,
      "num_tokens": 2154528515.0,
      "step": 12845
    },
    {
      "entropy": 1.6989250282446544,
      "epoch": 1.4111944192689023,
      "grad_norm": 0.8476423025131226,
      "learning_rate": 5.792261475147782e-06,
      "loss": 1.5093,
      "mean_token_accuracy": 0.6390935728947321,
      "num_tokens": 2154727006.0,
      "step": 12846
    },
    {
      "entropy": 1.6973857482274373,
      "epoch": 1.4113042761802752,
      "grad_norm": 0.7867861986160278,
      "learning_rate": 5.790955701288402e-06,
      "loss": 1.4885,
      "mean_token_accuracy": 0.6534365713596344,
      "num_tokens": 2154880048.0,
      "step": 12847
    },
    {
      "entropy": 1.7213109532992046,
      "epoch": 1.411414133091648,
      "grad_norm": 0.6492405533790588,
      "learning_rate": 5.7896500922929265e-06,
      "loss": 1.3551,
      "mean_token_accuracy": 0.6515356749296188,
      "num_tokens": 2155041717.0,
      "step": 12848
    },
    {
      "entropy": 1.7319613297780354,
      "epoch": 1.4115239900030212,
      "grad_norm": 0.6068700551986694,
      "learning_rate": 5.788344648202675e-06,
      "loss": 1.327,
      "mean_token_accuracy": 0.6601489931344986,
      "num_tokens": 2155192456.0,
      "step": 12849
    },
    {
      "entropy": 1.6868494153022766,
      "epoch": 1.4116338469143939,
      "grad_norm": 0.6022621393203735,
      "learning_rate": 5.78703936905897e-06,
      "loss": 1.4006,
      "mean_token_accuracy": 0.6591216822465261,
      "num_tokens": 2155389011.0,
      "step": 12850
    },
    {
      "entropy": 1.6397359669208527,
      "epoch": 1.411743703825767,
      "grad_norm": 0.7067409753799438,
      "learning_rate": 5.785734254903117e-06,
      "loss": 1.346,
      "mean_token_accuracy": 0.6666657626628876,
      "num_tokens": 2155528733.0,
      "step": 12851
    },
    {
      "entropy": 1.6686400373776753,
      "epoch": 1.4118535607371399,
      "grad_norm": 0.6087329387664795,
      "learning_rate": 5.784429305776427e-06,
      "loss": 1.3229,
      "mean_token_accuracy": 0.6637933800617853,
      "num_tokens": 2155688378.0,
      "step": 12852
    },
    {
      "entropy": 1.7409396668275197,
      "epoch": 1.4119634176485127,
      "grad_norm": 0.7018166184425354,
      "learning_rate": 5.7831245217202e-06,
      "loss": 1.5291,
      "mean_token_accuracy": 0.6422918488581976,
      "num_tokens": 2155840989.0,
      "step": 12853
    },
    {
      "entropy": 1.7613717218240101,
      "epoch": 1.4120732745598858,
      "grad_norm": 0.6511824727058411,
      "learning_rate": 5.7818199027757296e-06,
      "loss": 1.4611,
      "mean_token_accuracy": 0.6367582231760025,
      "num_tokens": 2156025021.0,
      "step": 12854
    },
    {
      "entropy": 1.6414049168427784,
      "epoch": 1.4121831314712587,
      "grad_norm": 0.82599276304245,
      "learning_rate": 5.78051544898431e-06,
      "loss": 1.2513,
      "mean_token_accuracy": 0.6847147146860758,
      "num_tokens": 2156184157.0,
      "step": 12855
    },
    {
      "entropy": 1.6162588596343994,
      "epoch": 1.4122929883826316,
      "grad_norm": 0.6030210256576538,
      "learning_rate": 5.779211160387224e-06,
      "loss": 1.2715,
      "mean_token_accuracy": 0.681743452946345,
      "num_tokens": 2156337483.0,
      "step": 12856
    },
    {
      "entropy": 1.7061065038045247,
      "epoch": 1.4124028452940045,
      "grad_norm": 0.7851901054382324,
      "learning_rate": 5.777907037025748e-06,
      "loss": 1.2282,
      "mean_token_accuracy": 0.6925330509742101,
      "num_tokens": 2156434763.0,
      "step": 12857
    },
    {
      "entropy": 1.6331138213475545,
      "epoch": 1.4125127022053774,
      "grad_norm": 0.6462249755859375,
      "learning_rate": 5.776603078941163e-06,
      "loss": 1.3081,
      "mean_token_accuracy": 0.6729962974786758,
      "num_tokens": 2156592213.0,
      "step": 12858
    },
    {
      "entropy": 1.7185394763946533,
      "epoch": 1.4126225591167505,
      "grad_norm": 0.7172744274139404,
      "learning_rate": 5.775299286174739e-06,
      "loss": 1.5015,
      "mean_token_accuracy": 0.6441001494725546,
      "num_tokens": 2156745527.0,
      "step": 12859
    },
    {
      "entropy": 1.743662456671397,
      "epoch": 1.4127324160281234,
      "grad_norm": 0.6882581114768982,
      "learning_rate": 5.773995658767739e-06,
      "loss": 1.4154,
      "mean_token_accuracy": 0.6491503864526749,
      "num_tokens": 2156898386.0,
      "step": 12860
    },
    {
      "entropy": 1.7289847433567047,
      "epoch": 1.4128422729394963,
      "grad_norm": 0.6334021687507629,
      "learning_rate": 5.772692196761418e-06,
      "loss": 1.3968,
      "mean_token_accuracy": 0.64505868156751,
      "num_tokens": 2157089076.0,
      "step": 12861
    },
    {
      "entropy": 1.6975704431533813,
      "epoch": 1.4129521298508694,
      "grad_norm": 0.6869586706161499,
      "learning_rate": 5.771388900197037e-06,
      "loss": 1.4119,
      "mean_token_accuracy": 0.6508818864822388,
      "num_tokens": 2157300620.0,
      "step": 12862
    },
    {
      "entropy": 1.6993489861488342,
      "epoch": 1.4130619867622423,
      "grad_norm": 0.5923440456390381,
      "learning_rate": 5.770085769115836e-06,
      "loss": 1.4502,
      "mean_token_accuracy": 0.6494368265072504,
      "num_tokens": 2157490825.0,
      "step": 12863
    },
    {
      "entropy": 1.6607881089051564,
      "epoch": 1.4131718436736151,
      "grad_norm": 0.6591402292251587,
      "learning_rate": 5.76878280355907e-06,
      "loss": 1.4262,
      "mean_token_accuracy": 0.6494799305995306,
      "num_tokens": 2157695141.0,
      "step": 12864
    },
    {
      "entropy": 1.6793291966120403,
      "epoch": 1.413281700584988,
      "grad_norm": 0.6479206085205078,
      "learning_rate": 5.76748000356797e-06,
      "loss": 1.2806,
      "mean_token_accuracy": 0.6759979277849197,
      "num_tokens": 2157865996.0,
      "step": 12865
    },
    {
      "entropy": 1.7249796688556671,
      "epoch": 1.413391557496361,
      "grad_norm": 0.7696998715400696,
      "learning_rate": 5.766177369183767e-06,
      "loss": 1.4357,
      "mean_token_accuracy": 0.642528717716535,
      "num_tokens": 2158053561.0,
      "step": 12866
    },
    {
      "entropy": 1.760029007991155,
      "epoch": 1.413501414407734,
      "grad_norm": 0.8501371145248413,
      "learning_rate": 5.764874900447693e-06,
      "loss": 1.6135,
      "mean_token_accuracy": 0.6389002650976181,
      "num_tokens": 2158203865.0,
      "step": 12867
    },
    {
      "entropy": 1.7189124127229054,
      "epoch": 1.413611271319107,
      "grad_norm": 0.723200261592865,
      "learning_rate": 5.763572597400972e-06,
      "loss": 1.3901,
      "mean_token_accuracy": 0.6513624439636866,
      "num_tokens": 2158354427.0,
      "step": 12868
    },
    {
      "entropy": 1.6675411363442738,
      "epoch": 1.4137211282304798,
      "grad_norm": 0.6228331923484802,
      "learning_rate": 5.762270460084813e-06,
      "loss": 1.3496,
      "mean_token_accuracy": 0.6633824755748113,
      "num_tokens": 2158523511.0,
      "step": 12869
    },
    {
      "entropy": 1.8182001411914825,
      "epoch": 1.4138309851418527,
      "grad_norm": 0.7652587890625,
      "learning_rate": 5.760968488540437e-06,
      "loss": 1.7234,
      "mean_token_accuracy": 0.6275846213102341,
      "num_tokens": 2158704933.0,
      "step": 12870
    },
    {
      "entropy": 1.7456133862336476,
      "epoch": 1.4139408420532256,
      "grad_norm": 0.9210031628608704,
      "learning_rate": 5.759666682809049e-06,
      "loss": 1.3865,
      "mean_token_accuracy": 0.662195548415184,
      "num_tokens": 2158826778.0,
      "step": 12871
    },
    {
      "entropy": 1.7603688438733418,
      "epoch": 1.4140506989645987,
      "grad_norm": 1.4208470582962036,
      "learning_rate": 5.758365042931848e-06,
      "loss": 1.4263,
      "mean_token_accuracy": 0.6728880008061727,
      "num_tokens": 2158989638.0,
      "step": 12872
    },
    {
      "entropy": 1.616513580083847,
      "epoch": 1.4141605558759716,
      "grad_norm": 0.6693636775016785,
      "learning_rate": 5.75706356895003e-06,
      "loss": 1.1544,
      "mean_token_accuracy": 0.6959843138853709,
      "num_tokens": 2159102023.0,
      "step": 12873
    },
    {
      "entropy": 1.7250353495279949,
      "epoch": 1.4142704127873444,
      "grad_norm": 0.7106985449790955,
      "learning_rate": 5.75576226090479e-06,
      "loss": 1.3421,
      "mean_token_accuracy": 0.6622584760189056,
      "num_tokens": 2159251112.0,
      "step": 12874
    },
    {
      "entropy": 1.6478977501392365,
      "epoch": 1.4143802696987176,
      "grad_norm": 0.7380810379981995,
      "learning_rate": 5.754461118837309e-06,
      "loss": 1.498,
      "mean_token_accuracy": 0.6418175796667734,
      "num_tokens": 2159440534.0,
      "step": 12875
    },
    {
      "entropy": 1.691566934188207,
      "epoch": 1.4144901266100904,
      "grad_norm": 0.6885169744491577,
      "learning_rate": 5.753160142788775e-06,
      "loss": 1.3672,
      "mean_token_accuracy": 0.6527943164110184,
      "num_tokens": 2159592449.0,
      "step": 12876
    },
    {
      "entropy": 1.718112548192342,
      "epoch": 1.4145999835214633,
      "grad_norm": 3.1608479022979736,
      "learning_rate": 5.7518593328003515e-06,
      "loss": 1.1454,
      "mean_token_accuracy": 0.6821771760781606,
      "num_tokens": 2159796095.0,
      "step": 12877
    },
    {
      "entropy": 1.6949720482031505,
      "epoch": 1.4147098404328362,
      "grad_norm": 0.6075740456581116,
      "learning_rate": 5.750558688913217e-06,
      "loss": 1.3461,
      "mean_token_accuracy": 0.6663214464982351,
      "num_tokens": 2159968669.0,
      "step": 12878
    },
    {
      "entropy": 1.654084712266922,
      "epoch": 1.414819697344209,
      "grad_norm": 0.5908815264701843,
      "learning_rate": 5.749258211168536e-06,
      "loss": 1.2713,
      "mean_token_accuracy": 0.6685434530178705,
      "num_tokens": 2160112122.0,
      "step": 12879
    },
    {
      "entropy": 1.7059245606263478,
      "epoch": 1.4149295542555822,
      "grad_norm": 0.6774670481681824,
      "learning_rate": 5.747957899607468e-06,
      "loss": 1.5032,
      "mean_token_accuracy": 0.6411937922239304,
      "num_tokens": 2160296569.0,
      "step": 12880
    },
    {
      "entropy": 1.6509164174397786,
      "epoch": 1.415039411166955,
      "grad_norm": 0.6976071000099182,
      "learning_rate": 5.7466577542711634e-06,
      "loss": 1.5301,
      "mean_token_accuracy": 0.6424646973609924,
      "num_tokens": 2160522783.0,
      "step": 12881
    },
    {
      "entropy": 1.5837687651316326,
      "epoch": 1.415149268078328,
      "grad_norm": 0.5916568040847778,
      "learning_rate": 5.745357775200775e-06,
      "loss": 1.3209,
      "mean_token_accuracy": 0.6775771975517273,
      "num_tokens": 2160705969.0,
      "step": 12882
    },
    {
      "entropy": 1.7270430326461792,
      "epoch": 1.4152591249897009,
      "grad_norm": 0.6653161644935608,
      "learning_rate": 5.744057962437441e-06,
      "loss": 1.4435,
      "mean_token_accuracy": 0.6445691585540771,
      "num_tokens": 2160854814.0,
      "step": 12883
    },
    {
      "entropy": 1.7269325355688732,
      "epoch": 1.4153689819010737,
      "grad_norm": 0.6765090227127075,
      "learning_rate": 5.74275831602231e-06,
      "loss": 1.317,
      "mean_token_accuracy": 0.6648717721303304,
      "num_tokens": 2160986318.0,
      "step": 12884
    },
    {
      "entropy": 1.7668460508187611,
      "epoch": 1.4154788388124468,
      "grad_norm": 0.8804817199707031,
      "learning_rate": 5.741458835996507e-06,
      "loss": 1.5703,
      "mean_token_accuracy": 0.6425085514783859,
      "num_tokens": 2161164540.0,
      "step": 12885
    },
    {
      "entropy": 1.719743698835373,
      "epoch": 1.4155886957238197,
      "grad_norm": 0.8075534105300903,
      "learning_rate": 5.740159522401161e-06,
      "loss": 1.3203,
      "mean_token_accuracy": 0.6848004907369614,
      "num_tokens": 2161294773.0,
      "step": 12886
    },
    {
      "entropy": 1.726130078236262,
      "epoch": 1.4156985526351926,
      "grad_norm": 0.6449326276779175,
      "learning_rate": 5.738860375277395e-06,
      "loss": 1.4198,
      "mean_token_accuracy": 0.630332425236702,
      "num_tokens": 2161463323.0,
      "step": 12887
    },
    {
      "entropy": 1.712664246559143,
      "epoch": 1.4158084095465657,
      "grad_norm": 0.6622018218040466,
      "learning_rate": 5.737561394666336e-06,
      "loss": 1.3093,
      "mean_token_accuracy": 0.6683304011821747,
      "num_tokens": 2161633350.0,
      "step": 12888
    },
    {
      "entropy": 1.6602988839149475,
      "epoch": 1.4159182664579386,
      "grad_norm": 0.6974785923957825,
      "learning_rate": 5.7362625806090775e-06,
      "loss": 1.3417,
      "mean_token_accuracy": 0.6663461575905482,
      "num_tokens": 2161813061.0,
      "step": 12889
    },
    {
      "entropy": 1.651836782693863,
      "epoch": 1.4160281233693115,
      "grad_norm": 0.6534989476203918,
      "learning_rate": 5.734963933146739e-06,
      "loss": 1.4203,
      "mean_token_accuracy": 0.6599469731251398,
      "num_tokens": 2161992435.0,
      "step": 12890
    },
    {
      "entropy": 1.709712266921997,
      "epoch": 1.4161379802806844,
      "grad_norm": 0.7406985759735107,
      "learning_rate": 5.733665452320422e-06,
      "loss": 1.4721,
      "mean_token_accuracy": 0.6705115636189779,
      "num_tokens": 2162170219.0,
      "step": 12891
    },
    {
      "entropy": 1.669614851474762,
      "epoch": 1.4162478371920573,
      "grad_norm": 0.6635571122169495,
      "learning_rate": 5.73236713817122e-06,
      "loss": 1.3549,
      "mean_token_accuracy": 0.6629445304473242,
      "num_tokens": 2162337356.0,
      "step": 12892
    },
    {
      "entropy": 1.6756293376286824,
      "epoch": 1.4163576941034304,
      "grad_norm": 0.6038379073143005,
      "learning_rate": 5.731068990740222e-06,
      "loss": 1.4527,
      "mean_token_accuracy": 0.633764331539472,
      "num_tokens": 2162534176.0,
      "step": 12893
    },
    {
      "entropy": 1.6719582378864288,
      "epoch": 1.4164675510148033,
      "grad_norm": 0.7196714282035828,
      "learning_rate": 5.729771010068518e-06,
      "loss": 1.2758,
      "mean_token_accuracy": 0.6750404040018717,
      "num_tokens": 2162683391.0,
      "step": 12894
    },
    {
      "entropy": 1.7006418605645497,
      "epoch": 1.4165774079261761,
      "grad_norm": 0.6588510274887085,
      "learning_rate": 5.728473196197184e-06,
      "loss": 1.3755,
      "mean_token_accuracy": 0.6491716603438059,
      "num_tokens": 2162858449.0,
      "step": 12895
    },
    {
      "entropy": 1.704519013563792,
      "epoch": 1.416687264837549,
      "grad_norm": 0.7052327990531921,
      "learning_rate": 5.7271755491673035e-06,
      "loss": 1.2329,
      "mean_token_accuracy": 0.6732802291711172,
      "num_tokens": 2162964910.0,
      "step": 12896
    },
    {
      "entropy": 1.695040076971054,
      "epoch": 1.416797121748922,
      "grad_norm": 0.6275352835655212,
      "learning_rate": 5.725878069019937e-06,
      "loss": 1.538,
      "mean_token_accuracy": 0.6412870685259501,
      "num_tokens": 2163208900.0,
      "step": 12897
    },
    {
      "entropy": 1.6921038031578064,
      "epoch": 1.416906978660295,
      "grad_norm": 0.7399893999099731,
      "learning_rate": 5.724580755796152e-06,
      "loss": 1.4541,
      "mean_token_accuracy": 0.6728978330890337,
      "num_tokens": 2163332942.0,
      "step": 12898
    },
    {
      "entropy": 1.708950052658717,
      "epoch": 1.417016835571668,
      "grad_norm": 0.7712686657905579,
      "learning_rate": 5.72328360953701e-06,
      "loss": 1.4268,
      "mean_token_accuracy": 0.6555162221193314,
      "num_tokens": 2163493726.0,
      "step": 12899
    },
    {
      "entropy": 1.714707463979721,
      "epoch": 1.4171266924830408,
      "grad_norm": 0.6765271425247192,
      "learning_rate": 5.7219866302835684e-06,
      "loss": 1.4633,
      "mean_token_accuracy": 0.6470478971799215,
      "num_tokens": 2163663872.0,
      "step": 12900
    },
    {
      "entropy": 1.6449009974797566,
      "epoch": 1.417236549394414,
      "grad_norm": 0.6789788603782654,
      "learning_rate": 5.720689818076864e-06,
      "loss": 1.3217,
      "mean_token_accuracy": 0.6745987633864085,
      "num_tokens": 2163845660.0,
      "step": 12901
    },
    {
      "entropy": 1.6422028144200642,
      "epoch": 1.4173464063057868,
      "grad_norm": 0.8197759389877319,
      "learning_rate": 5.719393172957951e-06,
      "loss": 1.3709,
      "mean_token_accuracy": 0.670257086555163,
      "num_tokens": 2163970180.0,
      "step": 12902
    },
    {
      "entropy": 1.6707020998001099,
      "epoch": 1.4174562632171597,
      "grad_norm": 0.8020114302635193,
      "learning_rate": 5.718096694967866e-06,
      "loss": 1.4755,
      "mean_token_accuracy": 0.6537665476401647,
      "num_tokens": 2164098025.0,
      "step": 12903
    },
    {
      "entropy": 1.723763604958852,
      "epoch": 1.4175661201285326,
      "grad_norm": 0.8109487295150757,
      "learning_rate": 5.716800384147642e-06,
      "loss": 1.5173,
      "mean_token_accuracy": 0.6525298108657202,
      "num_tokens": 2164325693.0,
      "step": 12904
    },
    {
      "entropy": 1.6953211824099224,
      "epoch": 1.4176759770399054,
      "grad_norm": 0.7380589842796326,
      "learning_rate": 5.715504240538301e-06,
      "loss": 1.2802,
      "mean_token_accuracy": 0.6700010697046915,
      "num_tokens": 2164459673.0,
      "step": 12905
    },
    {
      "entropy": 1.735133836666743,
      "epoch": 1.4177858339512786,
      "grad_norm": 0.8321533799171448,
      "learning_rate": 5.714208264180872e-06,
      "loss": 1.5847,
      "mean_token_accuracy": 0.6274262269337972,
      "num_tokens": 2164662503.0,
      "step": 12906
    },
    {
      "entropy": 1.6269804338614147,
      "epoch": 1.4178956908626514,
      "grad_norm": 0.7073882818222046,
      "learning_rate": 5.712912455116367e-06,
      "loss": 1.3359,
      "mean_token_accuracy": 0.6600817640622457,
      "num_tokens": 2164855340.0,
      "step": 12907
    },
    {
      "entropy": 1.7148225208123524,
      "epoch": 1.4180055477740243,
      "grad_norm": 0.700375497341156,
      "learning_rate": 5.7116168133858044e-06,
      "loss": 1.3533,
      "mean_token_accuracy": 0.6706081926822662,
      "num_tokens": 2165023645.0,
      "step": 12908
    },
    {
      "entropy": 1.7189152439435322,
      "epoch": 1.4181154046853972,
      "grad_norm": 0.7371551394462585,
      "learning_rate": 5.710321339030186e-06,
      "loss": 1.43,
      "mean_token_accuracy": 0.6535715262095133,
      "num_tokens": 2165227184.0,
      "step": 12909
    },
    {
      "entropy": 1.6818451484044392,
      "epoch": 1.41822526159677,
      "grad_norm": 0.660900354385376,
      "learning_rate": 5.70902603209051e-06,
      "loss": 1.184,
      "mean_token_accuracy": 0.6832146992286047,
      "num_tokens": 2165339873.0,
      "step": 12910
    },
    {
      "entropy": 1.6560562153657277,
      "epoch": 1.4183351185081432,
      "grad_norm": 0.6540271043777466,
      "learning_rate": 5.70773089260778e-06,
      "loss": 1.2773,
      "mean_token_accuracy": 0.6754108965396881,
      "num_tokens": 2165478503.0,
      "step": 12911
    },
    {
      "entropy": 1.644927054643631,
      "epoch": 1.418444975419516,
      "grad_norm": 0.6257344484329224,
      "learning_rate": 5.7064359206229825e-06,
      "loss": 1.3435,
      "mean_token_accuracy": 0.6578503449757894,
      "num_tokens": 2165658626.0,
      "step": 12912
    },
    {
      "entropy": 1.678837110598882,
      "epoch": 1.418554832330889,
      "grad_norm": 0.7022602558135986,
      "learning_rate": 5.7051411161771e-06,
      "loss": 1.5779,
      "mean_token_accuracy": 0.6389969835678736,
      "num_tokens": 2165860011.0,
      "step": 12913
    },
    {
      "entropy": 1.671900063753128,
      "epoch": 1.418664689242262,
      "grad_norm": 0.7610450983047485,
      "learning_rate": 5.703846479311113e-06,
      "loss": 1.3848,
      "mean_token_accuracy": 0.6613888889551163,
      "num_tokens": 2166057539.0,
      "step": 12914
    },
    {
      "entropy": 1.732055425643921,
      "epoch": 1.418774546153635,
      "grad_norm": 0.8880397081375122,
      "learning_rate": 5.702552010066004e-06,
      "loss": 1.2981,
      "mean_token_accuracy": 0.6812852670749029,
      "num_tokens": 2166212303.0,
      "step": 12915
    },
    {
      "entropy": 1.6862863500912983,
      "epoch": 1.4188844030650078,
      "grad_norm": 0.7152805924415588,
      "learning_rate": 5.701257708482736e-06,
      "loss": 1.3078,
      "mean_token_accuracy": 0.6692292392253876,
      "num_tokens": 2166363658.0,
      "step": 12916
    },
    {
      "entropy": 1.7482119103272755,
      "epoch": 1.4189942599763807,
      "grad_norm": 0.7135628461837769,
      "learning_rate": 5.69996357460227e-06,
      "loss": 1.6073,
      "mean_token_accuracy": 0.6363287791609764,
      "num_tokens": 2166531130.0,
      "step": 12917
    },
    {
      "entropy": 1.6944365203380585,
      "epoch": 1.4191041168877536,
      "grad_norm": 0.8478591442108154,
      "learning_rate": 5.6986696084655725e-06,
      "loss": 1.2922,
      "mean_token_accuracy": 0.6734979252020518,
      "num_tokens": 2166657623.0,
      "step": 12918
    },
    {
      "entropy": 1.6972975830237071,
      "epoch": 1.4192139737991267,
      "grad_norm": 0.5631718039512634,
      "learning_rate": 5.6973758101135905e-06,
      "loss": 1.3744,
      "mean_token_accuracy": 0.6703929851452509,
      "num_tokens": 2166856825.0,
      "step": 12919
    },
    {
      "entropy": 1.6998174389203389,
      "epoch": 1.4193238307104996,
      "grad_norm": 0.7097121477127075,
      "learning_rate": 5.696082179587275e-06,
      "loss": 1.4455,
      "mean_token_accuracy": 0.6481041411558787,
      "num_tokens": 2167059792.0,
      "step": 12920
    },
    {
      "entropy": 1.6798253854115803,
      "epoch": 1.4194336876218725,
      "grad_norm": 0.6257836818695068,
      "learning_rate": 5.694788716927571e-06,
      "loss": 1.4738,
      "mean_token_accuracy": 0.64958456158638,
      "num_tokens": 2167257982.0,
      "step": 12921
    },
    {
      "entropy": 1.673070341348648,
      "epoch": 1.4195435445332454,
      "grad_norm": 0.6729440093040466,
      "learning_rate": 5.69349542217541e-06,
      "loss": 1.3327,
      "mean_token_accuracy": 0.6657520681619644,
      "num_tokens": 2167412027.0,
      "step": 12922
    },
    {
      "entropy": 1.7135821183522542,
      "epoch": 1.4196534014446183,
      "grad_norm": 0.7069577574729919,
      "learning_rate": 5.692202295371731e-06,
      "loss": 1.4568,
      "mean_token_accuracy": 0.6652841120958328,
      "num_tokens": 2167572724.0,
      "step": 12923
    },
    {
      "entropy": 1.7391641736030579,
      "epoch": 1.4197632583559914,
      "grad_norm": 0.6086916923522949,
      "learning_rate": 5.690909336557458e-06,
      "loss": 1.4022,
      "mean_token_accuracy": 0.6388307412465414,
      "num_tokens": 2167724978.0,
      "step": 12924
    },
    {
      "entropy": 1.6861611207326253,
      "epoch": 1.4198731152673643,
      "grad_norm": 0.6505236625671387,
      "learning_rate": 5.689616545773508e-06,
      "loss": 1.4473,
      "mean_token_accuracy": 0.652971088886261,
      "num_tokens": 2167860519.0,
      "step": 12925
    },
    {
      "entropy": 1.7772870361804962,
      "epoch": 1.4199829721787371,
      "grad_norm": 0.7045353055000305,
      "learning_rate": 5.6883239230608024e-06,
      "loss": 1.3123,
      "mean_token_accuracy": 0.6595732072989146,
      "num_tokens": 2167959886.0,
      "step": 12926
    },
    {
      "entropy": 1.7017023464043934,
      "epoch": 1.4200928290901103,
      "grad_norm": 0.8636213541030884,
      "learning_rate": 5.687031468460253e-06,
      "loss": 1.3478,
      "mean_token_accuracy": 0.6783096243937811,
      "num_tokens": 2168139313.0,
      "step": 12927
    },
    {
      "entropy": 1.680685927470525,
      "epoch": 1.4202026860014831,
      "grad_norm": 0.7073819637298584,
      "learning_rate": 5.685739182012764e-06,
      "loss": 1.3014,
      "mean_token_accuracy": 0.6693469732999802,
      "num_tokens": 2168261083.0,
      "step": 12928
    },
    {
      "entropy": 1.7441634833812714,
      "epoch": 1.420312542912856,
      "grad_norm": 0.6499477624893188,
      "learning_rate": 5.684447063759233e-06,
      "loss": 1.4158,
      "mean_token_accuracy": 0.6491926809151968,
      "num_tokens": 2168426919.0,
      "step": 12929
    },
    {
      "entropy": 1.7324085434277852,
      "epoch": 1.420422399824229,
      "grad_norm": 0.7667383551597595,
      "learning_rate": 5.683155113740559e-06,
      "loss": 1.2891,
      "mean_token_accuracy": 0.6760394672552744,
      "num_tokens": 2168542110.0,
      "step": 12930
    },
    {
      "entropy": 1.7055922349294026,
      "epoch": 1.4205322567356018,
      "grad_norm": 0.674475908279419,
      "learning_rate": 5.681863331997628e-06,
      "loss": 1.4863,
      "mean_token_accuracy": 0.6470987647771835,
      "num_tokens": 2168739330.0,
      "step": 12931
    },
    {
      "entropy": 1.698354721069336,
      "epoch": 1.420642113646975,
      "grad_norm": 0.6338586807250977,
      "learning_rate": 5.680571718571328e-06,
      "loss": 1.3027,
      "mean_token_accuracy": 0.6713970800240835,
      "num_tokens": 2168880859.0,
      "step": 12932
    },
    {
      "entropy": 1.645394931236903,
      "epoch": 1.4207519705583478,
      "grad_norm": 0.67153000831604,
      "learning_rate": 5.679280273502537e-06,
      "loss": 1.33,
      "mean_token_accuracy": 0.6692242324352264,
      "num_tokens": 2169052718.0,
      "step": 12933
    },
    {
      "entropy": 1.7089401880900066,
      "epoch": 1.4208618274697207,
      "grad_norm": 0.6924530863761902,
      "learning_rate": 5.677988996832124e-06,
      "loss": 1.4324,
      "mean_token_accuracy": 0.6542358994483948,
      "num_tokens": 2169198381.0,
      "step": 12934
    },
    {
      "entropy": 1.7337498764197032,
      "epoch": 1.4209716843810936,
      "grad_norm": 0.7746621370315552,
      "learning_rate": 5.676697888600965e-06,
      "loss": 1.3295,
      "mean_token_accuracy": 0.6665536761283875,
      "num_tokens": 2169349542.0,
      "step": 12935
    },
    {
      "entropy": 1.6929566363493602,
      "epoch": 1.4210815412924664,
      "grad_norm": 0.6887615323066711,
      "learning_rate": 5.675406948849919e-06,
      "loss": 1.6089,
      "mean_token_accuracy": 0.6433848490317663,
      "num_tokens": 2169537168.0,
      "step": 12936
    },
    {
      "entropy": 1.7130916615327199,
      "epoch": 1.4211913982038396,
      "grad_norm": 1.0259429216384888,
      "learning_rate": 5.67411617761984e-06,
      "loss": 1.4418,
      "mean_token_accuracy": 0.650916631023089,
      "num_tokens": 2169701884.0,
      "step": 12937
    },
    {
      "entropy": 1.6535163124402363,
      "epoch": 1.4213012551152124,
      "grad_norm": 0.6167465448379517,
      "learning_rate": 5.672825574951588e-06,
      "loss": 1.3627,
      "mean_token_accuracy": 0.6604279528061548,
      "num_tokens": 2169914597.0,
      "step": 12938
    },
    {
      "entropy": 1.6423707405726116,
      "epoch": 1.4214111120265853,
      "grad_norm": 0.6382650136947632,
      "learning_rate": 5.671535140886002e-06,
      "loss": 1.3769,
      "mean_token_accuracy": 0.6672868579626083,
      "num_tokens": 2170071581.0,
      "step": 12939
    },
    {
      "entropy": 1.7335049013296764,
      "epoch": 1.4215209689379584,
      "grad_norm": 0.8444647192955017,
      "learning_rate": 5.670244875463931e-06,
      "loss": 1.4357,
      "mean_token_accuracy": 0.6631718277931213,
      "num_tokens": 2170211841.0,
      "step": 12940
    },
    {
      "entropy": 1.732320378224055,
      "epoch": 1.4216308258493313,
      "grad_norm": 0.7674136757850647,
      "learning_rate": 5.668954778726209e-06,
      "loss": 1.2571,
      "mean_token_accuracy": 0.681780661145846,
      "num_tokens": 2170337013.0,
      "step": 12941
    },
    {
      "entropy": 1.6558412313461304,
      "epoch": 1.4217406827607042,
      "grad_norm": 0.5625472068786621,
      "learning_rate": 5.667664850713662e-06,
      "loss": 1.3564,
      "mean_token_accuracy": 0.6685200929641724,
      "num_tokens": 2170505477.0,
      "step": 12942
    },
    {
      "entropy": 1.6879661480585735,
      "epoch": 1.421850539672077,
      "grad_norm": 0.6796611547470093,
      "learning_rate": 5.66637509146712e-06,
      "loss": 1.5171,
      "mean_token_accuracy": 0.646856447060903,
      "num_tokens": 2170703823.0,
      "step": 12943
    },
    {
      "entropy": 1.7009165585041046,
      "epoch": 1.42196039658345,
      "grad_norm": 0.7441216111183167,
      "learning_rate": 5.66508550102741e-06,
      "loss": 1.5151,
      "mean_token_accuracy": 0.6342372844616572,
      "num_tokens": 2170899789.0,
      "step": 12944
    },
    {
      "entropy": 1.7801036536693573,
      "epoch": 1.422070253494823,
      "grad_norm": 0.7327330112457275,
      "learning_rate": 5.663796079435331e-06,
      "loss": 1.3925,
      "mean_token_accuracy": 0.6534372419118881,
      "num_tokens": 2171035224.0,
      "step": 12945
    },
    {
      "entropy": 1.6900883217652638,
      "epoch": 1.422180110406196,
      "grad_norm": 0.7192649245262146,
      "learning_rate": 5.662506826731704e-06,
      "loss": 1.2754,
      "mean_token_accuracy": 0.6802859654029211,
      "num_tokens": 2171203629.0,
      "step": 12946
    },
    {
      "entropy": 1.7146925528844197,
      "epoch": 1.4222899673175688,
      "grad_norm": 0.8082349896430969,
      "learning_rate": 5.661217742957333e-06,
      "loss": 1.6062,
      "mean_token_accuracy": 0.6461126953363419,
      "num_tokens": 2171370122.0,
      "step": 12947
    },
    {
      "entropy": 1.7389146387577057,
      "epoch": 1.4223998242289417,
      "grad_norm": 0.7392411828041077,
      "learning_rate": 5.659928828153015e-06,
      "loss": 1.3126,
      "mean_token_accuracy": 0.667231614391009,
      "num_tokens": 2171482880.0,
      "step": 12948
    },
    {
      "entropy": 1.6697891255219777,
      "epoch": 1.4225096811403146,
      "grad_norm": 0.6810927987098694,
      "learning_rate": 5.658640082359541e-06,
      "loss": 1.2989,
      "mean_token_accuracy": 0.6649407347043356,
      "num_tokens": 2171621173.0,
      "step": 12949
    },
    {
      "entropy": 1.7280420064926147,
      "epoch": 1.4226195380516877,
      "grad_norm": 0.6208683252334595,
      "learning_rate": 5.657351505617703e-06,
      "loss": 1.458,
      "mean_token_accuracy": 0.6525483777125677,
      "num_tokens": 2171892873.0,
      "step": 12950
    },
    {
      "entropy": 1.7015692094961803,
      "epoch": 1.4227293949630606,
      "grad_norm": 0.7659103274345398,
      "learning_rate": 5.656063097968281e-06,
      "loss": 1.4574,
      "mean_token_accuracy": 0.6513445029656092,
      "num_tokens": 2172057108.0,
      "step": 12951
    },
    {
      "entropy": 1.7544087767601013,
      "epoch": 1.4228392518744335,
      "grad_norm": 0.7193136215209961,
      "learning_rate": 5.6547748594520556e-06,
      "loss": 1.3002,
      "mean_token_accuracy": 0.6638988107442856,
      "num_tokens": 2172162991.0,
      "step": 12952
    },
    {
      "entropy": 1.6446592311064403,
      "epoch": 1.4229491087858066,
      "grad_norm": 0.6459053754806519,
      "learning_rate": 5.653486790109798e-06,
      "loss": 1.319,
      "mean_token_accuracy": 0.6649145980676016,
      "num_tokens": 2172326151.0,
      "step": 12953
    },
    {
      "entropy": 1.6824187239011128,
      "epoch": 1.4230589656971795,
      "grad_norm": 0.6160148978233337,
      "learning_rate": 5.65219888998227e-06,
      "loss": 1.4223,
      "mean_token_accuracy": 0.6440077473719915,
      "num_tokens": 2172475596.0,
      "step": 12954
    },
    {
      "entropy": 1.6969729959964752,
      "epoch": 1.4231688226085524,
      "grad_norm": 0.748254120349884,
      "learning_rate": 5.650911159110239e-06,
      "loss": 1.2247,
      "mean_token_accuracy": 0.6879066576560339,
      "num_tokens": 2172577164.0,
      "step": 12955
    },
    {
      "entropy": 1.71368607878685,
      "epoch": 1.4232786795199253,
      "grad_norm": 0.7107913494110107,
      "learning_rate": 5.649623597534466e-06,
      "loss": 1.3242,
      "mean_token_accuracy": 0.6704561958710352,
      "num_tokens": 2172735492.0,
      "step": 12956
    },
    {
      "entropy": 1.6840336819489796,
      "epoch": 1.4233885364312981,
      "grad_norm": 0.6022214889526367,
      "learning_rate": 5.648336205295687e-06,
      "loss": 1.3555,
      "mean_token_accuracy": 0.6485221783320109,
      "num_tokens": 2172911336.0,
      "step": 12957
    },
    {
      "entropy": 1.7092094123363495,
      "epoch": 1.4234983933426713,
      "grad_norm": 0.8171796202659607,
      "learning_rate": 5.647048982434656e-06,
      "loss": 1.4057,
      "mean_token_accuracy": 0.65643543501695,
      "num_tokens": 2173068228.0,
      "step": 12958
    },
    {
      "entropy": 1.762761503458023,
      "epoch": 1.4236082502540441,
      "grad_norm": 0.7240894436836243,
      "learning_rate": 5.645761928992117e-06,
      "loss": 1.3219,
      "mean_token_accuracy": 0.6557150532801946,
      "num_tokens": 2173184380.0,
      "step": 12959
    },
    {
      "entropy": 1.721298485994339,
      "epoch": 1.423718107165417,
      "grad_norm": 0.7749879360198975,
      "learning_rate": 5.644475045008799e-06,
      "loss": 1.5254,
      "mean_token_accuracy": 0.6502954959869385,
      "num_tokens": 2173328706.0,
      "step": 12960
    },
    {
      "entropy": 1.7307699620723724,
      "epoch": 1.42382796407679,
      "grad_norm": 0.7057486772537231,
      "learning_rate": 5.643188330525431e-06,
      "loss": 1.2917,
      "mean_token_accuracy": 0.6716625094413757,
      "num_tokens": 2173441079.0,
      "step": 12961
    },
    {
      "entropy": 1.716073344151179,
      "epoch": 1.4239378209881628,
      "grad_norm": 0.6514110565185547,
      "learning_rate": 5.641901785582739e-06,
      "loss": 1.3905,
      "mean_token_accuracy": 0.6514262358347574,
      "num_tokens": 2173586081.0,
      "step": 12962
    },
    {
      "entropy": 1.655029982328415,
      "epoch": 1.424047677899536,
      "grad_norm": 0.6521716117858887,
      "learning_rate": 5.640615410221442e-06,
      "loss": 1.3778,
      "mean_token_accuracy": 0.6559510032335917,
      "num_tokens": 2173819782.0,
      "step": 12963
    },
    {
      "entropy": 1.6636370718479156,
      "epoch": 1.4241575348109088,
      "grad_norm": 0.6372007727622986,
      "learning_rate": 5.639329204482252e-06,
      "loss": 1.3485,
      "mean_token_accuracy": 0.6604503045479456,
      "num_tokens": 2173978689.0,
      "step": 12964
    },
    {
      "entropy": 1.6833548645178478,
      "epoch": 1.4242673917222817,
      "grad_norm": 0.7769525051116943,
      "learning_rate": 5.638043168405878e-06,
      "loss": 1.4396,
      "mean_token_accuracy": 0.6549781362215678,
      "num_tokens": 2174216659.0,
      "step": 12965
    },
    {
      "entropy": 1.7020526230335236,
      "epoch": 1.4243772486336548,
      "grad_norm": 0.6384181380271912,
      "learning_rate": 5.636757302033018e-06,
      "loss": 1.321,
      "mean_token_accuracy": 0.6678778429826101,
      "num_tokens": 2174383271.0,
      "step": 12966
    },
    {
      "entropy": 1.6687651177247365,
      "epoch": 1.4244871055450277,
      "grad_norm": 0.7364367246627808,
      "learning_rate": 5.6354716054043726e-06,
      "loss": 1.5467,
      "mean_token_accuracy": 0.6513969451189041,
      "num_tokens": 2174578775.0,
      "step": 12967
    },
    {
      "entropy": 1.6899695893128712,
      "epoch": 1.4245969624564006,
      "grad_norm": 0.6350962519645691,
      "learning_rate": 5.634186078560641e-06,
      "loss": 1.339,
      "mean_token_accuracy": 0.6744259546200434,
      "num_tokens": 2174745441.0,
      "step": 12968
    },
    {
      "entropy": 1.6761878331502278,
      "epoch": 1.4247068193677734,
      "grad_norm": 0.726622998714447,
      "learning_rate": 5.632900721542496e-06,
      "loss": 1.5962,
      "mean_token_accuracy": 0.6452071170012156,
      "num_tokens": 2174967033.0,
      "step": 12969
    },
    {
      "entropy": 1.6440961559613545,
      "epoch": 1.4248166762791463,
      "grad_norm": 0.7337450385093689,
      "learning_rate": 5.631615534390623e-06,
      "loss": 1.4722,
      "mean_token_accuracy": 0.6409422506888708,
      "num_tokens": 2175205554.0,
      "step": 12970
    },
    {
      "entropy": 1.720875859260559,
      "epoch": 1.4249265331905194,
      "grad_norm": 0.7657408118247986,
      "learning_rate": 5.630330517145704e-06,
      "loss": 1.5809,
      "mean_token_accuracy": 0.6256515284379324,
      "num_tokens": 2175426782.0,
      "step": 12971
    },
    {
      "entropy": 1.740049531062444,
      "epoch": 1.4250363901018923,
      "grad_norm": 0.6672664880752563,
      "learning_rate": 5.6290456698484045e-06,
      "loss": 1.5588,
      "mean_token_accuracy": 0.6511749972899755,
      "num_tokens": 2175633316.0,
      "step": 12972
    },
    {
      "entropy": 1.7396978239218395,
      "epoch": 1.4251462470132652,
      "grad_norm": 0.6931610107421875,
      "learning_rate": 5.627760992539384e-06,
      "loss": 1.3684,
      "mean_token_accuracy": 0.6563472002744675,
      "num_tokens": 2175780067.0,
      "step": 12973
    },
    {
      "entropy": 1.6736437479654949,
      "epoch": 1.425256103924638,
      "grad_norm": 0.574825644493103,
      "learning_rate": 5.626476485259314e-06,
      "loss": 1.6164,
      "mean_token_accuracy": 0.6455618888139725,
      "num_tokens": 2175994610.0,
      "step": 12974
    },
    {
      "entropy": 1.6988399227460225,
      "epoch": 1.425365960836011,
      "grad_norm": 0.828632652759552,
      "learning_rate": 5.6251921480488355e-06,
      "loss": 1.3082,
      "mean_token_accuracy": 0.6656528313954672,
      "num_tokens": 2176110701.0,
      "step": 12975
    },
    {
      "entropy": 1.7076418995857239,
      "epoch": 1.425475817747384,
      "grad_norm": 0.5862886309623718,
      "learning_rate": 5.623907980948608e-06,
      "loss": 1.3982,
      "mean_token_accuracy": 0.662509153286616,
      "num_tokens": 2176301670.0,
      "step": 12976
    },
    {
      "entropy": 1.7174928188323975,
      "epoch": 1.425585674658757,
      "grad_norm": 0.8851239681243896,
      "learning_rate": 5.6226239839992715e-06,
      "loss": 1.4016,
      "mean_token_accuracy": 0.6703563729921976,
      "num_tokens": 2176456456.0,
      "step": 12977
    },
    {
      "entropy": 1.7496284544467926,
      "epoch": 1.4256955315701298,
      "grad_norm": 0.6377162337303162,
      "learning_rate": 5.6213401572414575e-06,
      "loss": 1.3347,
      "mean_token_accuracy": 0.6575185209512711,
      "num_tokens": 2176602131.0,
      "step": 12978
    },
    {
      "entropy": 1.766124387582143,
      "epoch": 1.425805388481503,
      "grad_norm": 0.667473316192627,
      "learning_rate": 5.620056500715805e-06,
      "loss": 1.3978,
      "mean_token_accuracy": 0.654146542151769,
      "num_tokens": 2176788934.0,
      "step": 12979
    },
    {
      "entropy": 1.7000204424063365,
      "epoch": 1.4259152453928758,
      "grad_norm": 0.7213659286499023,
      "learning_rate": 5.618773014462946e-06,
      "loss": 1.1064,
      "mean_token_accuracy": 0.7038625578085581,
      "num_tokens": 2176882325.0,
      "step": 12980
    },
    {
      "entropy": 1.7640029390652974,
      "epoch": 1.4260251023042487,
      "grad_norm": 0.6563233733177185,
      "learning_rate": 5.617489698523491e-06,
      "loss": 1.4325,
      "mean_token_accuracy": 0.6590708047151566,
      "num_tokens": 2177014004.0,
      "step": 12981
    },
    {
      "entropy": 1.6775661706924438,
      "epoch": 1.4261349592156216,
      "grad_norm": 0.5699209570884705,
      "learning_rate": 5.616206552938059e-06,
      "loss": 1.3725,
      "mean_token_accuracy": 0.6618246585130692,
      "num_tokens": 2177185937.0,
      "step": 12982
    },
    {
      "entropy": 1.6460503935813904,
      "epoch": 1.4262448161269945,
      "grad_norm": 0.7296600937843323,
      "learning_rate": 5.614923577747269e-06,
      "loss": 1.3168,
      "mean_token_accuracy": 0.6661859899759293,
      "num_tokens": 2177345935.0,
      "step": 12983
    },
    {
      "entropy": 1.6979570190111797,
      "epoch": 1.4263546730383676,
      "grad_norm": 0.6132034063339233,
      "learning_rate": 5.613640772991721e-06,
      "loss": 1.4773,
      "mean_token_accuracy": 0.6433689743280411,
      "num_tokens": 2177602730.0,
      "step": 12984
    },
    {
      "entropy": 1.6999173959096272,
      "epoch": 1.4264645299497405,
      "grad_norm": 0.6948098540306091,
      "learning_rate": 5.612358138712011e-06,
      "loss": 1.4101,
      "mean_token_accuracy": 0.6698167969783148,
      "num_tokens": 2177759033.0,
      "step": 12985
    },
    {
      "entropy": 1.7339690029621124,
      "epoch": 1.4265743868611134,
      "grad_norm": 0.7029469013214111,
      "learning_rate": 5.611075674948743e-06,
      "loss": 1.2782,
      "mean_token_accuracy": 0.6747192790110906,
      "num_tokens": 2177875280.0,
      "step": 12986
    },
    {
      "entropy": 1.6518168846766155,
      "epoch": 1.4266842437724863,
      "grad_norm": 0.7279475331306458,
      "learning_rate": 5.609793381742497e-06,
      "loss": 1.1832,
      "mean_token_accuracy": 0.6870991041262945,
      "num_tokens": 2177996766.0,
      "step": 12987
    },
    {
      "entropy": 1.7683051228523254,
      "epoch": 1.4267941006838591,
      "grad_norm": 0.7115809917449951,
      "learning_rate": 5.608511259133867e-06,
      "loss": 1.4565,
      "mean_token_accuracy": 0.6595746825138727,
      "num_tokens": 2178140721.0,
      "step": 12988
    },
    {
      "entropy": 1.6959002912044525,
      "epoch": 1.4269039575952323,
      "grad_norm": 0.7604736089706421,
      "learning_rate": 5.607229307163423e-06,
      "loss": 1.2443,
      "mean_token_accuracy": 0.6789979139963785,
      "num_tokens": 2178285786.0,
      "step": 12989
    },
    {
      "entropy": 1.751099556684494,
      "epoch": 1.4270138145066051,
      "grad_norm": 0.6957893967628479,
      "learning_rate": 5.60594752587174e-06,
      "loss": 1.3528,
      "mean_token_accuracy": 0.6624589115381241,
      "num_tokens": 2178418812.0,
      "step": 12990
    },
    {
      "entropy": 1.7143315374851227,
      "epoch": 1.427123671417978,
      "grad_norm": 0.6933035850524902,
      "learning_rate": 5.60466591529939e-06,
      "loss": 1.3594,
      "mean_token_accuracy": 0.6720022509495417,
      "num_tokens": 2178586498.0,
      "step": 12991
    },
    {
      "entropy": 1.7343165179093678,
      "epoch": 1.4272335283293511,
      "grad_norm": 0.6081417798995972,
      "learning_rate": 5.603384475486932e-06,
      "loss": 1.4883,
      "mean_token_accuracy": 0.6346796850363413,
      "num_tokens": 2178832189.0,
      "step": 12992
    },
    {
      "entropy": 1.7000845571358998,
      "epoch": 1.427343385240724,
      "grad_norm": 0.6261142492294312,
      "learning_rate": 5.602103206474922e-06,
      "loss": 1.3748,
      "mean_token_accuracy": 0.6570387482643127,
      "num_tokens": 2179026605.0,
      "step": 12993
    },
    {
      "entropy": 1.6828905642032623,
      "epoch": 1.427453242152097,
      "grad_norm": 0.7044478058815002,
      "learning_rate": 5.600822108303916e-06,
      "loss": 1.296,
      "mean_token_accuracy": 0.6614427367846171,
      "num_tokens": 2179195579.0,
      "step": 12994
    },
    {
      "entropy": 1.6979553401470184,
      "epoch": 1.4275630990634698,
      "grad_norm": 0.8138183355331421,
      "learning_rate": 5.599541181014453e-06,
      "loss": 1.4325,
      "mean_token_accuracy": 0.6653849979241689,
      "num_tokens": 2179366662.0,
      "step": 12995
    },
    {
      "entropy": 1.758367915948232,
      "epoch": 1.4276729559748427,
      "grad_norm": 0.7187701463699341,
      "learning_rate": 5.598260424647081e-06,
      "loss": 1.3425,
      "mean_token_accuracy": 0.656711811820666,
      "num_tokens": 2179506900.0,
      "step": 12996
    },
    {
      "entropy": 1.6735180914402008,
      "epoch": 1.4277828128862158,
      "grad_norm": 0.7112841606140137,
      "learning_rate": 5.596979839242335e-06,
      "loss": 1.2976,
      "mean_token_accuracy": 0.6648980478445689,
      "num_tokens": 2179630864.0,
      "step": 12997
    },
    {
      "entropy": 1.7127126554648082,
      "epoch": 1.4278926697975887,
      "grad_norm": 0.6963240504264832,
      "learning_rate": 5.595699424840737e-06,
      "loss": 1.3437,
      "mean_token_accuracy": 0.6695072799921036,
      "num_tokens": 2179771664.0,
      "step": 12998
    },
    {
      "entropy": 1.6788500547409058,
      "epoch": 1.4280025267089616,
      "grad_norm": 0.8437992334365845,
      "learning_rate": 5.5944191814828174e-06,
      "loss": 1.346,
      "mean_token_accuracy": 0.6613343755404154,
      "num_tokens": 2179961091.0,
      "step": 12999
    },
    {
      "entropy": 1.7473607063293457,
      "epoch": 1.4281123836203344,
      "grad_norm": 0.7349570393562317,
      "learning_rate": 5.593139109209102e-06,
      "loss": 1.4735,
      "mean_token_accuracy": 0.6576576034228007,
      "num_tokens": 2180151428.0,
      "step": 13000
    },
    {
      "entropy": 1.6567772924900055,
      "epoch": 1.4282222405317073,
      "grad_norm": 0.7208495736122131,
      "learning_rate": 5.591859208060091e-06,
      "loss": 1.2619,
      "mean_token_accuracy": 0.6733733216921488,
      "num_tokens": 2180285719.0,
      "step": 13001
    },
    {
      "entropy": 1.7362763285636902,
      "epoch": 1.4283320974430804,
      "grad_norm": 0.725077748298645,
      "learning_rate": 5.590579478076298e-06,
      "loss": 1.2903,
      "mean_token_accuracy": 0.6674645096063614,
      "num_tokens": 2180390288.0,
      "step": 13002
    },
    {
      "entropy": 1.6696288685003917,
      "epoch": 1.4284419543544533,
      "grad_norm": 0.5948540568351746,
      "learning_rate": 5.58929991929823e-06,
      "loss": 1.4792,
      "mean_token_accuracy": 0.6409497807423273,
      "num_tokens": 2180565522.0,
      "step": 13003
    },
    {
      "entropy": 1.703221042950948,
      "epoch": 1.4285518112658262,
      "grad_norm": 0.6803807020187378,
      "learning_rate": 5.5880205317663824e-06,
      "loss": 1.3171,
      "mean_token_accuracy": 0.6711372335751852,
      "num_tokens": 2180680337.0,
      "step": 13004
    },
    {
      "entropy": 1.6649436155954997,
      "epoch": 1.4286616681771993,
      "grad_norm": 0.6614540219306946,
      "learning_rate": 5.586741315521245e-06,
      "loss": 1.5934,
      "mean_token_accuracy": 0.62440458436807,
      "num_tokens": 2180939669.0,
      "step": 13005
    },
    {
      "entropy": 1.6837556461493175,
      "epoch": 1.4287715250885722,
      "grad_norm": 0.6564772725105286,
      "learning_rate": 5.585462270603306e-06,
      "loss": 1.4291,
      "mean_token_accuracy": 0.662267878651619,
      "num_tokens": 2181122104.0,
      "step": 13006
    },
    {
      "entropy": 1.7078391114870708,
      "epoch": 1.428881381999945,
      "grad_norm": 0.6484875679016113,
      "learning_rate": 5.5841833970530425e-06,
      "loss": 1.3659,
      "mean_token_accuracy": 0.6654360741376877,
      "num_tokens": 2181268418.0,
      "step": 13007
    },
    {
      "entropy": 1.6462851862112682,
      "epoch": 1.428991238911318,
      "grad_norm": 0.5821180939674377,
      "learning_rate": 5.58290469491094e-06,
      "loss": 1.3693,
      "mean_token_accuracy": 0.6470950643221537,
      "num_tokens": 2181533426.0,
      "step": 13008
    },
    {
      "entropy": 1.7857622504234314,
      "epoch": 1.4291010958226908,
      "grad_norm": 0.7754672169685364,
      "learning_rate": 5.581626164217461e-06,
      "loss": 1.4693,
      "mean_token_accuracy": 0.6310462603966395,
      "num_tokens": 2181692955.0,
      "step": 13009
    },
    {
      "entropy": 1.6840496559937794,
      "epoch": 1.429210952734064,
      "grad_norm": 1.3394370079040527,
      "learning_rate": 5.58034780501307e-06,
      "loss": 1.4793,
      "mean_token_accuracy": 0.6427704244852066,
      "num_tokens": 2181887005.0,
      "step": 13010
    },
    {
      "entropy": 1.7042312423388164,
      "epoch": 1.4293208096454368,
      "grad_norm": 0.6307734847068787,
      "learning_rate": 5.579069617338229e-06,
      "loss": 1.4193,
      "mean_token_accuracy": 0.6560370475053787,
      "num_tokens": 2182086766.0,
      "step": 13011
    },
    {
      "entropy": 1.7062763075033824,
      "epoch": 1.4294306665568097,
      "grad_norm": 0.6449376344680786,
      "learning_rate": 5.577791601233398e-06,
      "loss": 1.5444,
      "mean_token_accuracy": 0.6326194703578949,
      "num_tokens": 2182269781.0,
      "step": 13012
    },
    {
      "entropy": 1.6698502898216248,
      "epoch": 1.4295405234681826,
      "grad_norm": 0.6093115210533142,
      "learning_rate": 5.576513756739012e-06,
      "loss": 1.2875,
      "mean_token_accuracy": 0.6728635678688685,
      "num_tokens": 2182442382.0,
      "step": 13013
    },
    {
      "entropy": 1.7181947231292725,
      "epoch": 1.4296503803795555,
      "grad_norm": 0.682712733745575,
      "learning_rate": 5.5752360838955215e-06,
      "loss": 1.3765,
      "mean_token_accuracy": 0.6576512654622396,
      "num_tokens": 2182589601.0,
      "step": 13014
    },
    {
      "entropy": 1.6917083462079365,
      "epoch": 1.4297602372909286,
      "grad_norm": 0.6454870700836182,
      "learning_rate": 5.573958582743368e-06,
      "loss": 1.4754,
      "mean_token_accuracy": 0.6636495043834051,
      "num_tokens": 2182779186.0,
      "step": 13015
    },
    {
      "entropy": 1.7364496489365895,
      "epoch": 1.4298700942023015,
      "grad_norm": 0.8121635317802429,
      "learning_rate": 5.572681253322983e-06,
      "loss": 1.4932,
      "mean_token_accuracy": 0.6382195055484772,
      "num_tokens": 2182965939.0,
      "step": 13016
    },
    {
      "entropy": 1.705742100874583,
      "epoch": 1.4299799511136744,
      "grad_norm": 0.6007391810417175,
      "learning_rate": 5.571404095674786e-06,
      "loss": 1.4925,
      "mean_token_accuracy": 0.6454195727904638,
      "num_tokens": 2183198308.0,
      "step": 13017
    },
    {
      "entropy": 1.7828343609968822,
      "epoch": 1.4300898080250475,
      "grad_norm": 0.857241690158844,
      "learning_rate": 5.570127109839205e-06,
      "loss": 1.5772,
      "mean_token_accuracy": 0.6316992690165838,
      "num_tokens": 2183435367.0,
      "step": 13018
    },
    {
      "entropy": 1.719041536251704,
      "epoch": 1.4301996649364204,
      "grad_norm": 0.6930078864097595,
      "learning_rate": 5.568850295856652e-06,
      "loss": 1.434,
      "mean_token_accuracy": 0.6500537196795145,
      "num_tokens": 2183640896.0,
      "step": 13019
    },
    {
      "entropy": 1.6936982572078705,
      "epoch": 1.4303095218477933,
      "grad_norm": 0.8050754070281982,
      "learning_rate": 5.567573653767544e-06,
      "loss": 1.3243,
      "mean_token_accuracy": 0.667048583428065,
      "num_tokens": 2183808495.0,
      "step": 13020
    },
    {
      "entropy": 1.7069650292396545,
      "epoch": 1.4304193787591661,
      "grad_norm": 0.7172401547431946,
      "learning_rate": 5.5662971836122795e-06,
      "loss": 1.2996,
      "mean_token_accuracy": 0.6751367499430975,
      "num_tokens": 2183998179.0,
      "step": 13021
    },
    {
      "entropy": 1.744606077671051,
      "epoch": 1.430529235670539,
      "grad_norm": 0.7243566513061523,
      "learning_rate": 5.56502088543126e-06,
      "loss": 1.3691,
      "mean_token_accuracy": 0.6522730439901352,
      "num_tokens": 2184155317.0,
      "step": 13022
    },
    {
      "entropy": 1.6920949220657349,
      "epoch": 1.4306390925819121,
      "grad_norm": 0.5887582898139954,
      "learning_rate": 5.56374475926488e-06,
      "loss": 1.4795,
      "mean_token_accuracy": 0.6456716706355413,
      "num_tokens": 2184358935.0,
      "step": 13023
    },
    {
      "entropy": 1.7107125322024028,
      "epoch": 1.430748949493285,
      "grad_norm": 0.6471151113510132,
      "learning_rate": 5.562468805153534e-06,
      "loss": 1.4389,
      "mean_token_accuracy": 0.6550725599129995,
      "num_tokens": 2184539771.0,
      "step": 13024
    },
    {
      "entropy": 1.7102607389291127,
      "epoch": 1.430858806404658,
      "grad_norm": 0.7383255958557129,
      "learning_rate": 5.561193023137595e-06,
      "loss": 1.3653,
      "mean_token_accuracy": 0.6568672160307566,
      "num_tokens": 2184693987.0,
      "step": 13025
    },
    {
      "entropy": 1.7418889204661052,
      "epoch": 1.4309686633160308,
      "grad_norm": 0.8502252697944641,
      "learning_rate": 5.559917413257444e-06,
      "loss": 1.3336,
      "mean_token_accuracy": 0.6681547611951828,
      "num_tokens": 2184835284.0,
      "step": 13026
    },
    {
      "entropy": 1.7333911557992299,
      "epoch": 1.4310785202274037,
      "grad_norm": 0.669732928276062,
      "learning_rate": 5.558641975553459e-06,
      "loss": 1.2936,
      "mean_token_accuracy": 0.664469505349795,
      "num_tokens": 2184953631.0,
      "step": 13027
    },
    {
      "entropy": 1.7422559758027394,
      "epoch": 1.4311883771387768,
      "grad_norm": 0.7372428178787231,
      "learning_rate": 5.557366710066006e-06,
      "loss": 1.4934,
      "mean_token_accuracy": 0.6541983361045519,
      "num_tokens": 2185094275.0,
      "step": 13028
    },
    {
      "entropy": 1.6865850885709126,
      "epoch": 1.4312982340501497,
      "grad_norm": 0.7553392648696899,
      "learning_rate": 5.556091616835438e-06,
      "loss": 1.4829,
      "mean_token_accuracy": 0.6615019887685776,
      "num_tokens": 2185230818.0,
      "step": 13029
    },
    {
      "entropy": 1.7182862261931102,
      "epoch": 1.4314080909615226,
      "grad_norm": 0.6798596382141113,
      "learning_rate": 5.554816695902122e-06,
      "loss": 1.4433,
      "mean_token_accuracy": 0.6591095378001531,
      "num_tokens": 2185375644.0,
      "step": 13030
    },
    {
      "entropy": 1.771297464768092,
      "epoch": 1.4315179478728957,
      "grad_norm": 0.7370211482048035,
      "learning_rate": 5.5535419473064015e-06,
      "loss": 1.4662,
      "mean_token_accuracy": 0.6467802077531815,
      "num_tokens": 2185563893.0,
      "step": 13031
    },
    {
      "entropy": 1.6960931917031605,
      "epoch": 1.4316278047842685,
      "grad_norm": 0.7024471163749695,
      "learning_rate": 5.552267371088626e-06,
      "loss": 1.5382,
      "mean_token_accuracy": 0.6351848443349203,
      "num_tokens": 2185756274.0,
      "step": 13032
    },
    {
      "entropy": 1.7461300293604534,
      "epoch": 1.4317376616956414,
      "grad_norm": 0.7345073223114014,
      "learning_rate": 5.550992967289134e-06,
      "loss": 1.3774,
      "mean_token_accuracy": 0.6503315269947052,
      "num_tokens": 2185906994.0,
      "step": 13033
    },
    {
      "entropy": 1.7313400208950043,
      "epoch": 1.4318475186070143,
      "grad_norm": 0.6339378952980042,
      "learning_rate": 5.549718735948255e-06,
      "loss": 1.4133,
      "mean_token_accuracy": 0.6485500335693359,
      "num_tokens": 2186094480.0,
      "step": 13034
    },
    {
      "entropy": 1.6995634138584137,
      "epoch": 1.4319573755183872,
      "grad_norm": 0.6970425248146057,
      "learning_rate": 5.548444677106324e-06,
      "loss": 1.3832,
      "mean_token_accuracy": 0.6507101853688558,
      "num_tokens": 2186266968.0,
      "step": 13035
    },
    {
      "entropy": 1.6785328388214111,
      "epoch": 1.4320672324297603,
      "grad_norm": 0.8331180214881897,
      "learning_rate": 5.547170790803667e-06,
      "loss": 1.394,
      "mean_token_accuracy": 0.6583549777666727,
      "num_tokens": 2186422477.0,
      "step": 13036
    },
    {
      "entropy": 1.7474220593770344,
      "epoch": 1.4321770893411332,
      "grad_norm": 0.7904669642448425,
      "learning_rate": 5.545897077080591e-06,
      "loss": 1.5484,
      "mean_token_accuracy": 0.6391499191522598,
      "num_tokens": 2186658720.0,
      "step": 13037
    },
    {
      "entropy": 1.745592087507248,
      "epoch": 1.432286946252506,
      "grad_norm": 0.688362181186676,
      "learning_rate": 5.544623535977416e-06,
      "loss": 1.4482,
      "mean_token_accuracy": 0.6570040633281072,
      "num_tokens": 2186849614.0,
      "step": 13038
    },
    {
      "entropy": 1.683472563823064,
      "epoch": 1.4323968031638792,
      "grad_norm": 0.6357275247573853,
      "learning_rate": 5.543350167534451e-06,
      "loss": 1.3715,
      "mean_token_accuracy": 0.6654830276966095,
      "num_tokens": 2187013867.0,
      "step": 13039
    },
    {
      "entropy": 1.6940331260363262,
      "epoch": 1.4325066600752518,
      "grad_norm": 0.621670126914978,
      "learning_rate": 5.542076971791994e-06,
      "loss": 1.3792,
      "mean_token_accuracy": 0.6595076471567154,
      "num_tokens": 2187182576.0,
      "step": 13040
    },
    {
      "entropy": 1.7123170693715413,
      "epoch": 1.432616516986625,
      "grad_norm": 0.9452431797981262,
      "learning_rate": 5.5408039487903375e-06,
      "loss": 1.4066,
      "mean_token_accuracy": 0.6636346479256948,
      "num_tokens": 2187310672.0,
      "step": 13041
    },
    {
      "entropy": 1.6607805689175923,
      "epoch": 1.4327263738979978,
      "grad_norm": 0.6522439122200012,
      "learning_rate": 5.5395310985697804e-06,
      "loss": 1.1924,
      "mean_token_accuracy": 0.6833398044109344,
      "num_tokens": 2187434823.0,
      "step": 13042
    },
    {
      "entropy": 1.709082802136739,
      "epoch": 1.4328362308093707,
      "grad_norm": 0.6486063003540039,
      "learning_rate": 5.538258421170599e-06,
      "loss": 1.4724,
      "mean_token_accuracy": 0.6308440069357554,
      "num_tokens": 2187628693.0,
      "step": 13043
    },
    {
      "entropy": 1.6720016201337178,
      "epoch": 1.4329460877207438,
      "grad_norm": 0.790734052658081,
      "learning_rate": 5.5369859166330816e-06,
      "loss": 1.456,
      "mean_token_accuracy": 0.6650431652863821,
      "num_tokens": 2187795256.0,
      "step": 13044
    },
    {
      "entropy": 1.7333543697992961,
      "epoch": 1.4330559446321167,
      "grad_norm": 0.6807409524917603,
      "learning_rate": 5.535713584997498e-06,
      "loss": 1.4672,
      "mean_token_accuracy": 0.6574084411064783,
      "num_tokens": 2187948169.0,
      "step": 13045
    },
    {
      "entropy": 1.7210048735141754,
      "epoch": 1.4331658015434896,
      "grad_norm": 0.7557775974273682,
      "learning_rate": 5.5344414263041145e-06,
      "loss": 1.3155,
      "mean_token_accuracy": 0.6705209712187449,
      "num_tokens": 2188074869.0,
      "step": 13046
    },
    {
      "entropy": 1.679331550995509,
      "epoch": 1.4332756584548625,
      "grad_norm": 0.6121296286582947,
      "learning_rate": 5.5331694405931966e-06,
      "loss": 1.553,
      "mean_token_accuracy": 0.629560798406601,
      "num_tokens": 2188272724.0,
      "step": 13047
    },
    {
      "entropy": 1.6509125630060832,
      "epoch": 1.4333855153662354,
      "grad_norm": 0.764921247959137,
      "learning_rate": 5.531897627905009e-06,
      "loss": 1.2867,
      "mean_token_accuracy": 0.6722366611162821,
      "num_tokens": 2188438097.0,
      "step": 13048
    },
    {
      "entropy": 1.668609122435252,
      "epoch": 1.4334953722776085,
      "grad_norm": 0.6842905282974243,
      "learning_rate": 5.530625988279791e-06,
      "loss": 1.373,
      "mean_token_accuracy": 0.6644268482923508,
      "num_tokens": 2188625138.0,
      "step": 13049
    },
    {
      "entropy": 1.7268520295619965,
      "epoch": 1.4336052291889814,
      "grad_norm": 0.7898194789886475,
      "learning_rate": 5.529354521757796e-06,
      "loss": 1.3678,
      "mean_token_accuracy": 0.6659293274084727,
      "num_tokens": 2188786405.0,
      "step": 13050
    },
    {
      "entropy": 1.6797465880711873,
      "epoch": 1.4337150861003543,
      "grad_norm": 0.6213613748550415,
      "learning_rate": 5.5280832283792685e-06,
      "loss": 1.2378,
      "mean_token_accuracy": 0.6838393161694208,
      "num_tokens": 2188901389.0,
      "step": 13051
    },
    {
      "entropy": 1.749913473924001,
      "epoch": 1.4338249430117274,
      "grad_norm": 0.8360404372215271,
      "learning_rate": 5.52681210818444e-06,
      "loss": 1.4877,
      "mean_token_accuracy": 0.6598167518774668,
      "num_tokens": 2189098778.0,
      "step": 13052
    },
    {
      "entropy": 1.6591697732607524,
      "epoch": 1.4339347999231002,
      "grad_norm": 0.736677885055542,
      "learning_rate": 5.52554116121354e-06,
      "loss": 1.292,
      "mean_token_accuracy": 0.6754182428121567,
      "num_tokens": 2189222964.0,
      "step": 13053
    },
    {
      "entropy": 1.6895016729831696,
      "epoch": 1.4340446568344731,
      "grad_norm": 0.6395838260650635,
      "learning_rate": 5.5242703875067985e-06,
      "loss": 1.3534,
      "mean_token_accuracy": 0.6683394263188044,
      "num_tokens": 2189399202.0,
      "step": 13054
    },
    {
      "entropy": 1.7012076675891876,
      "epoch": 1.434154513745846,
      "grad_norm": 0.5661507844924927,
      "learning_rate": 5.522999787104429e-06,
      "loss": 1.3654,
      "mean_token_accuracy": 0.672503188252449,
      "num_tokens": 2189573162.0,
      "step": 13055
    },
    {
      "entropy": 1.7428718010584514,
      "epoch": 1.434264370657219,
      "grad_norm": 0.5942409634590149,
      "learning_rate": 5.521729360046653e-06,
      "loss": 1.3816,
      "mean_token_accuracy": 0.6550378203392029,
      "num_tokens": 2189775760.0,
      "step": 13056
    },
    {
      "entropy": 1.7421286702156067,
      "epoch": 1.434374227568592,
      "grad_norm": 0.6235953569412231,
      "learning_rate": 5.52045910637367e-06,
      "loss": 1.5425,
      "mean_token_accuracy": 0.6408863415320715,
      "num_tokens": 2189967802.0,
      "step": 13057
    },
    {
      "entropy": 1.763216882944107,
      "epoch": 1.434484084479965,
      "grad_norm": 0.7079127430915833,
      "learning_rate": 5.519189026125684e-06,
      "loss": 1.3053,
      "mean_token_accuracy": 0.6678203245004019,
      "num_tokens": 2190080360.0,
      "step": 13058
    },
    {
      "entropy": 1.6415379345417023,
      "epoch": 1.4345939413913378,
      "grad_norm": 0.6366350650787354,
      "learning_rate": 5.5179191193429015e-06,
      "loss": 1.2732,
      "mean_token_accuracy": 0.6822443703810374,
      "num_tokens": 2190213423.0,
      "step": 13059
    },
    {
      "entropy": 1.66671418150266,
      "epoch": 1.4347037983027107,
      "grad_norm": 37.921844482421875,
      "learning_rate": 5.516649386065508e-06,
      "loss": 1.3524,
      "mean_token_accuracy": 0.6727404892444611,
      "num_tokens": 2190381575.0,
      "step": 13060
    },
    {
      "entropy": 1.6547318299611409,
      "epoch": 1.4348136552140835,
      "grad_norm": 0.6079090237617493,
      "learning_rate": 5.515379826333688e-06,
      "loss": 1.49,
      "mean_token_accuracy": 0.6499229669570923,
      "num_tokens": 2190556977.0,
      "step": 13061
    },
    {
      "entropy": 1.7024961809317272,
      "epoch": 1.4349235121254567,
      "grad_norm": 0.664475679397583,
      "learning_rate": 5.514110440187628e-06,
      "loss": 1.5275,
      "mean_token_accuracy": 0.6373623659213384,
      "num_tokens": 2190773850.0,
      "step": 13062
    },
    {
      "entropy": 1.7388477126757305,
      "epoch": 1.4350333690368295,
      "grad_norm": 0.7594343423843384,
      "learning_rate": 5.5128412276674955e-06,
      "loss": 1.448,
      "mean_token_accuracy": 0.6530890514453253,
      "num_tokens": 2190944059.0,
      "step": 13063
    },
    {
      "entropy": 1.761966496706009,
      "epoch": 1.4351432259482024,
      "grad_norm": 0.7008910775184631,
      "learning_rate": 5.5115721888134695e-06,
      "loss": 1.5423,
      "mean_token_accuracy": 0.6320922573407491,
      "num_tokens": 2191128206.0,
      "step": 13064
    },
    {
      "entropy": 1.7421748340129852,
      "epoch": 1.4352530828595755,
      "grad_norm": 0.7401275634765625,
      "learning_rate": 5.510303323665712e-06,
      "loss": 1.4024,
      "mean_token_accuracy": 0.6560095548629761,
      "num_tokens": 2191241600.0,
      "step": 13065
    },
    {
      "entropy": 1.7223056654135387,
      "epoch": 1.4353629397709484,
      "grad_norm": 0.6929873824119568,
      "learning_rate": 5.509034632264376e-06,
      "loss": 1.2268,
      "mean_token_accuracy": 0.6787229428688685,
      "num_tokens": 2191357856.0,
      "step": 13066
    },
    {
      "entropy": 1.7451776067415874,
      "epoch": 1.4354727966823213,
      "grad_norm": 0.7561651468276978,
      "learning_rate": 5.507766114649622e-06,
      "loss": 1.445,
      "mean_token_accuracy": 0.6532369504372278,
      "num_tokens": 2191496045.0,
      "step": 13067
    },
    {
      "entropy": 1.7426794469356537,
      "epoch": 1.4355826535936942,
      "grad_norm": 0.6168361306190491,
      "learning_rate": 5.506497770861598e-06,
      "loss": 1.4346,
      "mean_token_accuracy": 0.6491942703723907,
      "num_tokens": 2191669650.0,
      "step": 13068
    },
    {
      "entropy": 1.679451435804367,
      "epoch": 1.435692510505067,
      "grad_norm": 0.7383124232292175,
      "learning_rate": 5.50522960094044e-06,
      "loss": 1.3998,
      "mean_token_accuracy": 0.6661538481712341,
      "num_tokens": 2191842559.0,
      "step": 13069
    },
    {
      "entropy": 1.723546991745631,
      "epoch": 1.4358023674164402,
      "grad_norm": 0.8791068196296692,
      "learning_rate": 5.503961604926291e-06,
      "loss": 1.4383,
      "mean_token_accuracy": 0.6561855375766754,
      "num_tokens": 2192029229.0,
      "step": 13070
    },
    {
      "entropy": 1.7081499894460042,
      "epoch": 1.435912224327813,
      "grad_norm": 0.7823132872581482,
      "learning_rate": 5.502693782859282e-06,
      "loss": 1.4804,
      "mean_token_accuracy": 0.6432801336050034,
      "num_tokens": 2192197284.0,
      "step": 13071
    },
    {
      "entropy": 1.7025318245093028,
      "epoch": 1.436022081239186,
      "grad_norm": 0.655196487903595,
      "learning_rate": 5.501426134779538e-06,
      "loss": 1.3445,
      "mean_token_accuracy": 0.6672158092260361,
      "num_tokens": 2192338396.0,
      "step": 13072
    },
    {
      "entropy": 1.7241312563419342,
      "epoch": 1.4361319381505588,
      "grad_norm": 0.7512596845626831,
      "learning_rate": 5.500158660727175e-06,
      "loss": 1.2377,
      "mean_token_accuracy": 0.6815748860438665,
      "num_tokens": 2192441821.0,
      "step": 13073
    },
    {
      "entropy": 1.683451513449351,
      "epoch": 1.4362417950619317,
      "grad_norm": 0.6415113210678101,
      "learning_rate": 5.498891360742316e-06,
      "loss": 1.3612,
      "mean_token_accuracy": 0.6760003666083018,
      "num_tokens": 2192589743.0,
      "step": 13074
    },
    {
      "entropy": 1.6738179723421733,
      "epoch": 1.4363516519733048,
      "grad_norm": 0.6926242709159851,
      "learning_rate": 5.497624234865062e-06,
      "loss": 1.3332,
      "mean_token_accuracy": 0.6816667566696802,
      "num_tokens": 2192738312.0,
      "step": 13075
    },
    {
      "entropy": 1.71518008907636,
      "epoch": 1.4364615088846777,
      "grad_norm": 0.6560258865356445,
      "learning_rate": 5.496357283135526e-06,
      "loss": 1.5321,
      "mean_token_accuracy": 0.6293992896874746,
      "num_tokens": 2192940324.0,
      "step": 13076
    },
    {
      "entropy": 1.6770286560058594,
      "epoch": 1.4365713657960506,
      "grad_norm": 0.6862941980361938,
      "learning_rate": 5.495090505593802e-06,
      "loss": 1.3098,
      "mean_token_accuracy": 0.6722962707281113,
      "num_tokens": 2193087527.0,
      "step": 13077
    },
    {
      "entropy": 1.7614335318406422,
      "epoch": 1.4366812227074237,
      "grad_norm": 0.6682018637657166,
      "learning_rate": 5.49382390227998e-06,
      "loss": 1.3978,
      "mean_token_accuracy": 0.6473137189944586,
      "num_tokens": 2193276538.0,
      "step": 13078
    },
    {
      "entropy": 1.6820653875668843,
      "epoch": 1.4367910796187966,
      "grad_norm": 0.6352739334106445,
      "learning_rate": 5.49255747323415e-06,
      "loss": 1.3586,
      "mean_token_accuracy": 0.6693233251571655,
      "num_tokens": 2193450625.0,
      "step": 13079
    },
    {
      "entropy": 1.7216021815935771,
      "epoch": 1.4369009365301695,
      "grad_norm": 0.6901304721832275,
      "learning_rate": 5.4912912184964e-06,
      "loss": 1.2759,
      "mean_token_accuracy": 0.6686844925085703,
      "num_tokens": 2193553352.0,
      "step": 13080
    },
    {
      "entropy": 1.7992511590321858,
      "epoch": 1.4370107934415424,
      "grad_norm": 0.6699839234352112,
      "learning_rate": 5.490025138106795e-06,
      "loss": 1.445,
      "mean_token_accuracy": 0.6500095178683599,
      "num_tokens": 2193705121.0,
      "step": 13081
    },
    {
      "entropy": 1.7488137980302174,
      "epoch": 1.4371206503529153,
      "grad_norm": 0.7710155844688416,
      "learning_rate": 5.488759232105412e-06,
      "loss": 1.5234,
      "mean_token_accuracy": 0.6365531980991364,
      "num_tokens": 2193866132.0,
      "step": 13082
    },
    {
      "entropy": 1.7383404672145844,
      "epoch": 1.4372305072642884,
      "grad_norm": 0.7229591608047485,
      "learning_rate": 5.487493500532318e-06,
      "loss": 1.5024,
      "mean_token_accuracy": 0.6449161618947983,
      "num_tokens": 2194048183.0,
      "step": 13083
    },
    {
      "entropy": 1.74971208969752,
      "epoch": 1.4373403641756612,
      "grad_norm": 0.8270702362060547,
      "learning_rate": 5.4862279434275716e-06,
      "loss": 1.5017,
      "mean_token_accuracy": 0.6444364488124847,
      "num_tokens": 2194201146.0,
      "step": 13084
    },
    {
      "entropy": 1.710715075333913,
      "epoch": 1.4374502210870341,
      "grad_norm": 0.8305548429489136,
      "learning_rate": 5.484962560831223e-06,
      "loss": 1.5135,
      "mean_token_accuracy": 0.6555256595214208,
      "num_tokens": 2194373810.0,
      "step": 13085
    },
    {
      "entropy": 1.740293820699056,
      "epoch": 1.437560077998407,
      "grad_norm": 0.6739172339439392,
      "learning_rate": 5.483697352783326e-06,
      "loss": 1.48,
      "mean_token_accuracy": 0.6560692836840948,
      "num_tokens": 2194537495.0,
      "step": 13086
    },
    {
      "entropy": 1.687047153711319,
      "epoch": 1.43766993490978,
      "grad_norm": 0.6256750226020813,
      "learning_rate": 5.48243231932392e-06,
      "loss": 1.3393,
      "mean_token_accuracy": 0.6665924340486526,
      "num_tokens": 2194693871.0,
      "step": 13087
    },
    {
      "entropy": 1.6996191541353862,
      "epoch": 1.437779791821153,
      "grad_norm": 0.7012233734130859,
      "learning_rate": 5.481167460493049e-06,
      "loss": 1.3996,
      "mean_token_accuracy": 0.653436486919721,
      "num_tokens": 2194841359.0,
      "step": 13088
    },
    {
      "entropy": 1.683770517508189,
      "epoch": 1.437889648732526,
      "grad_norm": 0.7458353042602539,
      "learning_rate": 5.479902776330739e-06,
      "loss": 1.2305,
      "mean_token_accuracy": 0.674822653333346,
      "num_tokens": 2194979501.0,
      "step": 13089
    },
    {
      "entropy": 1.7308926284313202,
      "epoch": 1.4379995056438988,
      "grad_norm": 0.8598765134811401,
      "learning_rate": 5.478638266877016e-06,
      "loss": 1.5589,
      "mean_token_accuracy": 0.6545391033093134,
      "num_tokens": 2195155093.0,
      "step": 13090
    },
    {
      "entropy": 1.774180034796397,
      "epoch": 1.4381093625552719,
      "grad_norm": 0.6300092935562134,
      "learning_rate": 5.4773739321719055e-06,
      "loss": 1.4823,
      "mean_token_accuracy": 0.6337632189194361,
      "num_tokens": 2195363872.0,
      "step": 13091
    },
    {
      "entropy": 1.686318536599477,
      "epoch": 1.4382192194666448,
      "grad_norm": 0.591356098651886,
      "learning_rate": 5.4761097722554264e-06,
      "loss": 1.3622,
      "mean_token_accuracy": 0.6576072623332342,
      "num_tokens": 2195569789.0,
      "step": 13092
    },
    {
      "entropy": 1.7126056949297588,
      "epoch": 1.4383290763780177,
      "grad_norm": 0.6735844016075134,
      "learning_rate": 5.474845787167578e-06,
      "loss": 1.433,
      "mean_token_accuracy": 0.6552617400884628,
      "num_tokens": 2195731935.0,
      "step": 13093
    },
    {
      "entropy": 1.6593547960122426,
      "epoch": 1.4384389332893905,
      "grad_norm": 0.7271912097930908,
      "learning_rate": 5.47358197694837e-06,
      "loss": 1.3903,
      "mean_token_accuracy": 0.6405983914931616,
      "num_tokens": 2195915850.0,
      "step": 13094
    },
    {
      "entropy": 1.7243566314379375,
      "epoch": 1.4385487902007634,
      "grad_norm": 0.7322264909744263,
      "learning_rate": 5.472318341637805e-06,
      "loss": 1.3498,
      "mean_token_accuracy": 0.6661138186852137,
      "num_tokens": 2196067340.0,
      "step": 13095
    },
    {
      "entropy": 1.7625857293605804,
      "epoch": 1.4386586471121365,
      "grad_norm": 0.7507118582725525,
      "learning_rate": 5.471054881275875e-06,
      "loss": 1.3823,
      "mean_token_accuracy": 0.6484930912653605,
      "num_tokens": 2196190131.0,
      "step": 13096
    },
    {
      "entropy": 1.6906941831111908,
      "epoch": 1.4387685040235094,
      "grad_norm": 0.6131132245063782,
      "learning_rate": 5.4697915959025625e-06,
      "loss": 1.465,
      "mean_token_accuracy": 0.6531191219886144,
      "num_tokens": 2196349851.0,
      "step": 13097
    },
    {
      "entropy": 1.6890461246172588,
      "epoch": 1.4388783609348823,
      "grad_norm": 0.6666757464408875,
      "learning_rate": 5.468528485557858e-06,
      "loss": 1.312,
      "mean_token_accuracy": 0.6747940282026926,
      "num_tokens": 2196519592.0,
      "step": 13098
    },
    {
      "entropy": 1.645443985859553,
      "epoch": 1.4389882178462552,
      "grad_norm": 0.617806613445282,
      "learning_rate": 5.4672655502817315e-06,
      "loss": 1.3039,
      "mean_token_accuracy": 0.6676177283128103,
      "num_tokens": 2196708869.0,
      "step": 13099
    },
    {
      "entropy": 1.728934407234192,
      "epoch": 1.439098074757628,
      "grad_norm": 0.6053014993667603,
      "learning_rate": 5.46600279011416e-06,
      "loss": 1.4976,
      "mean_token_accuracy": 0.632400318980217,
      "num_tokens": 2196936983.0,
      "step": 13100
    },
    {
      "entropy": 1.6949416001637776,
      "epoch": 1.4392079316690012,
      "grad_norm": 0.719120442867279,
      "learning_rate": 5.464740205095106e-06,
      "loss": 1.4367,
      "mean_token_accuracy": 0.6461255997419357,
      "num_tokens": 2197102049.0,
      "step": 13101
    },
    {
      "entropy": 1.6866117616494496,
      "epoch": 1.439317788580374,
      "grad_norm": 0.6704388856887817,
      "learning_rate": 5.463477795264527e-06,
      "loss": 1.4006,
      "mean_token_accuracy": 0.6509098261594772,
      "num_tokens": 2197273218.0,
      "step": 13102
    },
    {
      "entropy": 1.6496765514214833,
      "epoch": 1.439427645491747,
      "grad_norm": 0.6062201261520386,
      "learning_rate": 5.462215560662383e-06,
      "loss": 1.3943,
      "mean_token_accuracy": 0.6622524907191595,
      "num_tokens": 2197423275.0,
      "step": 13103
    },
    {
      "entropy": 1.68293896317482,
      "epoch": 1.43953750240312,
      "grad_norm": 0.7043601870536804,
      "learning_rate": 5.460953501328626e-06,
      "loss": 1.3067,
      "mean_token_accuracy": 0.6639659106731415,
      "num_tokens": 2197540176.0,
      "step": 13104
    },
    {
      "entropy": 1.7241731981436412,
      "epoch": 1.439647359314493,
      "grad_norm": 0.810967743396759,
      "learning_rate": 5.459691617303187e-06,
      "loss": 1.6757,
      "mean_token_accuracy": 0.6301688055197397,
      "num_tokens": 2197770837.0,
      "step": 13105
    },
    {
      "entropy": 1.7493579188982646,
      "epoch": 1.4397572162258658,
      "grad_norm": 0.6431688070297241,
      "learning_rate": 5.458429908626013e-06,
      "loss": 1.4976,
      "mean_token_accuracy": 0.6429360012213389,
      "num_tokens": 2197961177.0,
      "step": 13106
    },
    {
      "entropy": 1.7181467115879059,
      "epoch": 1.4398670731372387,
      "grad_norm": 0.8091310262680054,
      "learning_rate": 5.457168375337039e-06,
      "loss": 1.4059,
      "mean_token_accuracy": 0.662377749880155,
      "num_tokens": 2198144542.0,
      "step": 13107
    },
    {
      "entropy": 1.7004645963509877,
      "epoch": 1.4399769300486116,
      "grad_norm": 0.6322354078292847,
      "learning_rate": 5.455907017476188e-06,
      "loss": 1.3193,
      "mean_token_accuracy": 0.6652690172195435,
      "num_tokens": 2198283451.0,
      "step": 13108
    },
    {
      "entropy": 1.7281455794970195,
      "epoch": 1.4400867869599847,
      "grad_norm": 0.7495424747467041,
      "learning_rate": 5.4546458350833775e-06,
      "loss": 1.4623,
      "mean_token_accuracy": 0.6501360982656479,
      "num_tokens": 2198417040.0,
      "step": 13109
    },
    {
      "entropy": 1.6602643132209778,
      "epoch": 1.4401966438713576,
      "grad_norm": 0.6429694294929504,
      "learning_rate": 5.453384828198532e-06,
      "loss": 1.5415,
      "mean_token_accuracy": 0.642531914015611,
      "num_tokens": 2198623547.0,
      "step": 13110
    },
    {
      "entropy": 1.6596784790356953,
      "epoch": 1.4403065007827305,
      "grad_norm": 0.597550630569458,
      "learning_rate": 5.452123996861554e-06,
      "loss": 1.5658,
      "mean_token_accuracy": 0.6343776235977808,
      "num_tokens": 2198853878.0,
      "step": 13111
    },
    {
      "entropy": 1.6523742377758026,
      "epoch": 1.4404163576941034,
      "grad_norm": 0.812057614326477,
      "learning_rate": 5.4508633411123535e-06,
      "loss": 1.259,
      "mean_token_accuracy": 0.6862892160813013,
      "num_tokens": 2198973379.0,
      "step": 13112
    },
    {
      "entropy": 1.7168854574362438,
      "epoch": 1.4405262146054763,
      "grad_norm": 0.6416419148445129,
      "learning_rate": 5.449602860990828e-06,
      "loss": 1.4105,
      "mean_token_accuracy": 0.6478788256645203,
      "num_tokens": 2199129783.0,
      "step": 13113
    },
    {
      "entropy": 1.6594553391138713,
      "epoch": 1.4406360715168494,
      "grad_norm": 0.681231677532196,
      "learning_rate": 5.448342556536869e-06,
      "loss": 1.4884,
      "mean_token_accuracy": 0.639866515994072,
      "num_tokens": 2199387460.0,
      "step": 13114
    },
    {
      "entropy": 1.6886393030484517,
      "epoch": 1.4407459284282222,
      "grad_norm": 0.6803062558174133,
      "learning_rate": 5.447082427790368e-06,
      "loss": 1.3325,
      "mean_token_accuracy": 0.677370235323906,
      "num_tokens": 2199547310.0,
      "step": 13115
    },
    {
      "entropy": 1.709013928969701,
      "epoch": 1.4408557853395951,
      "grad_norm": 0.5610901713371277,
      "learning_rate": 5.445822474791207e-06,
      "loss": 1.4096,
      "mean_token_accuracy": 0.6584896892309189,
      "num_tokens": 2199735361.0,
      "step": 13116
    },
    {
      "entropy": 1.7390046020348866,
      "epoch": 1.4409656422509682,
      "grad_norm": 0.6881232261657715,
      "learning_rate": 5.444562697579259e-06,
      "loss": 1.388,
      "mean_token_accuracy": 0.6504150678714117,
      "num_tokens": 2199928625.0,
      "step": 13117
    },
    {
      "entropy": 1.7665140330791473,
      "epoch": 1.4410754991623411,
      "grad_norm": 0.6938253045082092,
      "learning_rate": 5.443303096194401e-06,
      "loss": 1.3693,
      "mean_token_accuracy": 0.66404556731383,
      "num_tokens": 2200069167.0,
      "step": 13118
    },
    {
      "entropy": 1.7453898986180623,
      "epoch": 1.441185356073714,
      "grad_norm": 0.6774733662605286,
      "learning_rate": 5.442043670676494e-06,
      "loss": 1.5307,
      "mean_token_accuracy": 0.6523572206497192,
      "num_tokens": 2200247454.0,
      "step": 13119
    },
    {
      "entropy": 1.7234888970851898,
      "epoch": 1.441295212985087,
      "grad_norm": 0.6913623213768005,
      "learning_rate": 5.440784421065402e-06,
      "loss": 1.2941,
      "mean_token_accuracy": 0.6711312582095464,
      "num_tokens": 2200358346.0,
      "step": 13120
    },
    {
      "entropy": 1.6904946466286976,
      "epoch": 1.4414050698964598,
      "grad_norm": 0.6734454035758972,
      "learning_rate": 5.439525347400978e-06,
      "loss": 1.2959,
      "mean_token_accuracy": 0.6673662761847178,
      "num_tokens": 2200517442.0,
      "step": 13121
    },
    {
      "entropy": 1.6776606639226277,
      "epoch": 1.4415149268078329,
      "grad_norm": 0.5592838525772095,
      "learning_rate": 5.438266449723069e-06,
      "loss": 1.4938,
      "mean_token_accuracy": 0.634076843659083,
      "num_tokens": 2200776827.0,
      "step": 13122
    },
    {
      "entropy": 1.661406288544337,
      "epoch": 1.4416247837192058,
      "grad_norm": 0.7140949964523315,
      "learning_rate": 5.437007728071519e-06,
      "loss": 1.3046,
      "mean_token_accuracy": 0.6735624670982361,
      "num_tokens": 2200946844.0,
      "step": 13123
    },
    {
      "entropy": 1.6646969815095265,
      "epoch": 1.4417346406305787,
      "grad_norm": 0.6813852190971375,
      "learning_rate": 5.435749182486175e-06,
      "loss": 1.4353,
      "mean_token_accuracy": 0.6477916638056437,
      "num_tokens": 2201107821.0,
      "step": 13124
    },
    {
      "entropy": 1.6899653573830922,
      "epoch": 1.4418444975419515,
      "grad_norm": 0.7384040951728821,
      "learning_rate": 5.4344908130068566e-06,
      "loss": 1.3519,
      "mean_token_accuracy": 0.6741080085436503,
      "num_tokens": 2201275870.0,
      "step": 13125
    },
    {
      "entropy": 1.6645598411560059,
      "epoch": 1.4419543544533244,
      "grad_norm": 0.6502087712287903,
      "learning_rate": 5.433232619673396e-06,
      "loss": 1.4388,
      "mean_token_accuracy": 0.662499854962031,
      "num_tokens": 2201458482.0,
      "step": 13126
    },
    {
      "entropy": 1.6533268988132477,
      "epoch": 1.4420642113646975,
      "grad_norm": 0.728032112121582,
      "learning_rate": 5.431974602525617e-06,
      "loss": 1.2845,
      "mean_token_accuracy": 0.6791494935750961,
      "num_tokens": 2201632361.0,
      "step": 13127
    },
    {
      "entropy": 1.7500494917233784,
      "epoch": 1.4421740682760704,
      "grad_norm": 0.6480644941329956,
      "learning_rate": 5.430716761603332e-06,
      "loss": 1.3909,
      "mean_token_accuracy": 0.6503734489281973,
      "num_tokens": 2201814325.0,
      "step": 13128
    },
    {
      "entropy": 1.7360434929529827,
      "epoch": 1.4422839251874433,
      "grad_norm": 0.7137820720672607,
      "learning_rate": 5.42945909694635e-06,
      "loss": 1.4508,
      "mean_token_accuracy": 0.6532419472932816,
      "num_tokens": 2201964448.0,
      "step": 13129
    },
    {
      "entropy": 1.6693811416625977,
      "epoch": 1.4423937820988164,
      "grad_norm": 0.6493667960166931,
      "learning_rate": 5.42820160859448e-06,
      "loss": 1.3158,
      "mean_token_accuracy": 0.6628794223070145,
      "num_tokens": 2202094892.0,
      "step": 13130
    },
    {
      "entropy": 1.738204260667165,
      "epoch": 1.4425036390101893,
      "grad_norm": 0.8041599988937378,
      "learning_rate": 5.426944296587515e-06,
      "loss": 1.6111,
      "mean_token_accuracy": 0.6330114702383677,
      "num_tokens": 2202341847.0,
      "step": 13131
    },
    {
      "entropy": 1.6739278137683868,
      "epoch": 1.4426134959215622,
      "grad_norm": 0.7445047497749329,
      "learning_rate": 5.425687160965256e-06,
      "loss": 1.3705,
      "mean_token_accuracy": 0.6565392563740412,
      "num_tokens": 2202489083.0,
      "step": 13132
    },
    {
      "entropy": 1.7505607505639393,
      "epoch": 1.442723352832935,
      "grad_norm": 0.6818254590034485,
      "learning_rate": 5.424430201767486e-06,
      "loss": 1.3646,
      "mean_token_accuracy": 0.6577309419711431,
      "num_tokens": 2202634715.0,
      "step": 13133
    },
    {
      "entropy": 1.6894071300824482,
      "epoch": 1.442833209744308,
      "grad_norm": 0.6561980247497559,
      "learning_rate": 5.423173419033985e-06,
      "loss": 1.2953,
      "mean_token_accuracy": 0.6628958334525427,
      "num_tokens": 2202768025.0,
      "step": 13134
    },
    {
      "entropy": 1.6657811105251312,
      "epoch": 1.442943066655681,
      "grad_norm": 0.753799557685852,
      "learning_rate": 5.4219168128045315e-06,
      "loss": 1.275,
      "mean_token_accuracy": 0.6830256134271622,
      "num_tokens": 2202911105.0,
      "step": 13135
    },
    {
      "entropy": 1.7518598437309265,
      "epoch": 1.443052923567054,
      "grad_norm": 0.6313562393188477,
      "learning_rate": 5.420660383118903e-06,
      "loss": 1.3652,
      "mean_token_accuracy": 0.6742727309465408,
      "num_tokens": 2203082635.0,
      "step": 13136
    },
    {
      "entropy": 1.6960064272085826,
      "epoch": 1.4431627804784268,
      "grad_norm": 0.7373610138893127,
      "learning_rate": 5.419404130016854e-06,
      "loss": 1.3989,
      "mean_token_accuracy": 0.6607239097356796,
      "num_tokens": 2203239727.0,
      "step": 13137
    },
    {
      "entropy": 1.6716348230838776,
      "epoch": 1.4432726373897997,
      "grad_norm": 0.7793363928794861,
      "learning_rate": 5.41814805353815e-06,
      "loss": 1.484,
      "mean_token_accuracy": 0.6447274684906006,
      "num_tokens": 2203425558.0,
      "step": 13138
    },
    {
      "entropy": 1.6881347199281056,
      "epoch": 1.4433824943011726,
      "grad_norm": 0.6784332394599915,
      "learning_rate": 5.416892153722548e-06,
      "loss": 1.3327,
      "mean_token_accuracy": 0.6610169510046641,
      "num_tokens": 2203588235.0,
      "step": 13139
    },
    {
      "entropy": 1.752338171005249,
      "epoch": 1.4434923512125457,
      "grad_norm": 0.8655160665512085,
      "learning_rate": 5.415636430609792e-06,
      "loss": 1.2634,
      "mean_token_accuracy": 0.6677990953127543,
      "num_tokens": 2203720757.0,
      "step": 13140
    },
    {
      "entropy": 1.705585926771164,
      "epoch": 1.4436022081239186,
      "grad_norm": 0.6548242568969727,
      "learning_rate": 5.414380884239625e-06,
      "loss": 1.5122,
      "mean_token_accuracy": 0.64339513083299,
      "num_tokens": 2203891963.0,
      "step": 13141
    },
    {
      "entropy": 1.7506338755289714,
      "epoch": 1.4437120650352915,
      "grad_norm": 0.6873526573181152,
      "learning_rate": 5.413125514651789e-06,
      "loss": 1.3258,
      "mean_token_accuracy": 0.6546006848414739,
      "num_tokens": 2204046733.0,
      "step": 13142
    },
    {
      "entropy": 1.6650571823120117,
      "epoch": 1.4438219219466646,
      "grad_norm": 0.8502957820892334,
      "learning_rate": 5.411870321886009e-06,
      "loss": 1.4231,
      "mean_token_accuracy": 0.6577673802773157,
      "num_tokens": 2204230937.0,
      "step": 13143
    },
    {
      "entropy": 1.7141657968362172,
      "epoch": 1.4439317788580375,
      "grad_norm": 0.6910656690597534,
      "learning_rate": 5.410615305982019e-06,
      "loss": 1.4016,
      "mean_token_accuracy": 0.6469135781129202,
      "num_tokens": 2204437250.0,
      "step": 13144
    },
    {
      "entropy": 1.6625679234663646,
      "epoch": 1.4440416357694104,
      "grad_norm": 0.6473484039306641,
      "learning_rate": 5.409360466979537e-06,
      "loss": 1.3574,
      "mean_token_accuracy": 0.6670989692211151,
      "num_tokens": 2204612238.0,
      "step": 13145
    },
    {
      "entropy": 1.713254948457082,
      "epoch": 1.4441514926807832,
      "grad_norm": 0.6853258013725281,
      "learning_rate": 5.408105804918271e-06,
      "loss": 1.3635,
      "mean_token_accuracy": 0.6598356068134308,
      "num_tokens": 2204763539.0,
      "step": 13146
    },
    {
      "entropy": 1.7004669805367787,
      "epoch": 1.4442613495921561,
      "grad_norm": 0.7649045586585999,
      "learning_rate": 5.406851319837938e-06,
      "loss": 1.4385,
      "mean_token_accuracy": 0.6565716167291006,
      "num_tokens": 2204909107.0,
      "step": 13147
    },
    {
      "entropy": 1.658108522494634,
      "epoch": 1.4443712065035292,
      "grad_norm": 0.6900636553764343,
      "learning_rate": 5.405597011778248e-06,
      "loss": 1.3316,
      "mean_token_accuracy": 0.6711122145255407,
      "num_tokens": 2205065286.0,
      "step": 13148
    },
    {
      "entropy": 1.7093073030312855,
      "epoch": 1.4444810634149021,
      "grad_norm": 0.7754839658737183,
      "learning_rate": 5.404342880778883e-06,
      "loss": 1.2241,
      "mean_token_accuracy": 0.6803254435459772,
      "num_tokens": 2205185259.0,
      "step": 13149
    },
    {
      "entropy": 1.743496169646581,
      "epoch": 1.444590920326275,
      "grad_norm": 0.7815446853637695,
      "learning_rate": 5.403088926879546e-06,
      "loss": 1.4544,
      "mean_token_accuracy": 0.6503811130921046,
      "num_tokens": 2205326720.0,
      "step": 13150
    },
    {
      "entropy": 1.7162681818008423,
      "epoch": 1.444700777237648,
      "grad_norm": 0.6339192986488342,
      "learning_rate": 5.401835150119925e-06,
      "loss": 1.4343,
      "mean_token_accuracy": 0.6413728495438894,
      "num_tokens": 2205487610.0,
      "step": 13151
    },
    {
      "entropy": 1.7141146957874298,
      "epoch": 1.4448106341490208,
      "grad_norm": 0.6438986659049988,
      "learning_rate": 5.400581550539699e-06,
      "loss": 1.4737,
      "mean_token_accuracy": 0.655816008647283,
      "num_tokens": 2205642144.0,
      "step": 13152
    },
    {
      "entropy": 1.7310173114140828,
      "epoch": 1.4449204910603939,
      "grad_norm": 0.7602280974388123,
      "learning_rate": 5.3993281281785415e-06,
      "loss": 1.4238,
      "mean_token_accuracy": 0.6691502779722214,
      "num_tokens": 2205789686.0,
      "step": 13153
    },
    {
      "entropy": 1.720057229200999,
      "epoch": 1.4450303479717668,
      "grad_norm": 0.6413891911506653,
      "learning_rate": 5.398074883076127e-06,
      "loss": 1.3896,
      "mean_token_accuracy": 0.6561499089002609,
      "num_tokens": 2205968385.0,
      "step": 13154
    },
    {
      "entropy": 1.6746338705221813,
      "epoch": 1.4451402048831397,
      "grad_norm": 0.6567736864089966,
      "learning_rate": 5.396821815272115e-06,
      "loss": 1.3772,
      "mean_token_accuracy": 0.6559559206167856,
      "num_tokens": 2206140553.0,
      "step": 13155
    },
    {
      "entropy": 1.7500001788139343,
      "epoch": 1.4452500617945128,
      "grad_norm": 0.7306400537490845,
      "learning_rate": 5.395568924806171e-06,
      "loss": 1.3747,
      "mean_token_accuracy": 0.6527500202258428,
      "num_tokens": 2206310921.0,
      "step": 13156
    },
    {
      "entropy": 1.7621792455514271,
      "epoch": 1.4453599187058856,
      "grad_norm": 0.6839621067047119,
      "learning_rate": 5.394316211717945e-06,
      "loss": 1.3053,
      "mean_token_accuracy": 0.6592706839243571,
      "num_tokens": 2206415388.0,
      "step": 13157
    },
    {
      "entropy": 1.6396544377009075,
      "epoch": 1.4454697756172585,
      "grad_norm": 0.64600670337677,
      "learning_rate": 5.393063676047083e-06,
      "loss": 1.2404,
      "mean_token_accuracy": 0.6779094239075979,
      "num_tokens": 2206534812.0,
      "step": 13158
    },
    {
      "entropy": 1.6962849795818329,
      "epoch": 1.4455796325286314,
      "grad_norm": 0.7013195157051086,
      "learning_rate": 5.391811317833229e-06,
      "loss": 1.3592,
      "mean_token_accuracy": 0.6624196718136469,
      "num_tokens": 2206682279.0,
      "step": 13159
    },
    {
      "entropy": 1.7327560285727184,
      "epoch": 1.4456894894400043,
      "grad_norm": 0.5949588418006897,
      "learning_rate": 5.390559137116025e-06,
      "loss": 1.4016,
      "mean_token_accuracy": 0.6511549949645996,
      "num_tokens": 2206866260.0,
      "step": 13160
    },
    {
      "entropy": 1.7158630589644115,
      "epoch": 1.4457993463513774,
      "grad_norm": 0.6915740370750427,
      "learning_rate": 5.38930713393509e-06,
      "loss": 1.463,
      "mean_token_accuracy": 0.6487186849117279,
      "num_tokens": 2207049927.0,
      "step": 13161
    },
    {
      "entropy": 1.675972153743108,
      "epoch": 1.4459092032627503,
      "grad_norm": 0.622731626033783,
      "learning_rate": 5.388055308330057e-06,
      "loss": 1.4674,
      "mean_token_accuracy": 0.6402994245290756,
      "num_tokens": 2207239023.0,
      "step": 13162
    },
    {
      "entropy": 1.749548574288686,
      "epoch": 1.4460190601741232,
      "grad_norm": 0.776073694229126,
      "learning_rate": 5.386803660340547e-06,
      "loss": 1.4152,
      "mean_token_accuracy": 0.6454198757807413,
      "num_tokens": 2207381870.0,
      "step": 13163
    },
    {
      "entropy": 1.618944267431895,
      "epoch": 1.446128917085496,
      "grad_norm": 0.592343807220459,
      "learning_rate": 5.3855521900061725e-06,
      "loss": 1.4439,
      "mean_token_accuracy": 0.6512120515108109,
      "num_tokens": 2207569716.0,
      "step": 13164
    },
    {
      "entropy": 1.6773555179437,
      "epoch": 1.446238773996869,
      "grad_norm": 0.7094241380691528,
      "learning_rate": 5.384300897366537e-06,
      "loss": 1.3302,
      "mean_token_accuracy": 0.6653115550676981,
      "num_tokens": 2207697714.0,
      "step": 13165
    },
    {
      "entropy": 1.7085080246130626,
      "epoch": 1.446348630908242,
      "grad_norm": 0.7474088072776794,
      "learning_rate": 5.383049782461251e-06,
      "loss": 1.5104,
      "mean_token_accuracy": 0.6549822489420573,
      "num_tokens": 2207875635.0,
      "step": 13166
    },
    {
      "entropy": 1.6417442560195923,
      "epoch": 1.446458487819615,
      "grad_norm": 0.7819391489028931,
      "learning_rate": 5.3817988453299064e-06,
      "loss": 1.2799,
      "mean_token_accuracy": 0.6651287525892258,
      "num_tokens": 2208032382.0,
      "step": 13167
    },
    {
      "entropy": 1.7218000292778015,
      "epoch": 1.4465683447309878,
      "grad_norm": 0.7218011021614075,
      "learning_rate": 5.380548086012099e-06,
      "loss": 1.4495,
      "mean_token_accuracy": 0.6531488001346588,
      "num_tokens": 2208182762.0,
      "step": 13168
    },
    {
      "entropy": 1.710701008637746,
      "epoch": 1.446678201642361,
      "grad_norm": 1.3408112525939941,
      "learning_rate": 5.379297504547412e-06,
      "loss": 1.1826,
      "mean_token_accuracy": 0.6656645238399506,
      "num_tokens": 2208344898.0,
      "step": 13169
    },
    {
      "entropy": 1.6560823222001393,
      "epoch": 1.4467880585537338,
      "grad_norm": 0.6145971417427063,
      "learning_rate": 5.378047100975424e-06,
      "loss": 1.3074,
      "mean_token_accuracy": 0.6633361180623373,
      "num_tokens": 2208515722.0,
      "step": 13170
    },
    {
      "entropy": 1.6993583242098491,
      "epoch": 1.4468979154651067,
      "grad_norm": 0.8017585277557373,
      "learning_rate": 5.376796875335713e-06,
      "loss": 1.5519,
      "mean_token_accuracy": 0.6469237754742304,
      "num_tokens": 2208708203.0,
      "step": 13171
    },
    {
      "entropy": 1.7376844882965088,
      "epoch": 1.4470077723764796,
      "grad_norm": 0.6851217150688171,
      "learning_rate": 5.375546827667851e-06,
      "loss": 1.5577,
      "mean_token_accuracy": 0.6304005980491638,
      "num_tokens": 2208910762.0,
      "step": 13172
    },
    {
      "entropy": 1.7630626857280731,
      "epoch": 1.4471176292878525,
      "grad_norm": 0.6860126256942749,
      "learning_rate": 5.3742969580113915e-06,
      "loss": 1.4536,
      "mean_token_accuracy": 0.6431644906600317,
      "num_tokens": 2209114237.0,
      "step": 13173
    },
    {
      "entropy": 1.668500433365504,
      "epoch": 1.4472274861992256,
      "grad_norm": 0.7579459547996521,
      "learning_rate": 5.3730472664059e-06,
      "loss": 1.37,
      "mean_token_accuracy": 0.6733713150024414,
      "num_tokens": 2209269635.0,
      "step": 13174
    },
    {
      "entropy": 1.6985759337743123,
      "epoch": 1.4473373431105985,
      "grad_norm": 0.7717159986495972,
      "learning_rate": 5.371797752890928e-06,
      "loss": 1.4412,
      "mean_token_accuracy": 0.6420165300369263,
      "num_tokens": 2209444154.0,
      "step": 13175
    },
    {
      "entropy": 1.6884556114673615,
      "epoch": 1.4474472000219714,
      "grad_norm": 0.7163543701171875,
      "learning_rate": 5.370548417506023e-06,
      "loss": 1.3367,
      "mean_token_accuracy": 0.6587778131167094,
      "num_tokens": 2209553018.0,
      "step": 13176
    },
    {
      "entropy": 1.6677973469098408,
      "epoch": 1.4475570569333442,
      "grad_norm": 0.5317003130912781,
      "learning_rate": 5.369299260290723e-06,
      "loss": 1.5134,
      "mean_token_accuracy": 0.636811763048172,
      "num_tokens": 2209829266.0,
      "step": 13177
    },
    {
      "entropy": 1.7124519248803456,
      "epoch": 1.4476669138447171,
      "grad_norm": 0.704308271408081,
      "learning_rate": 5.3680502812845606e-06,
      "loss": 1.4137,
      "mean_token_accuracy": 0.6537395964066187,
      "num_tokens": 2209975703.0,
      "step": 13178
    },
    {
      "entropy": 1.6899917125701904,
      "epoch": 1.4477767707560902,
      "grad_norm": 0.7196908593177795,
      "learning_rate": 5.366801480527068e-06,
      "loss": 1.3503,
      "mean_token_accuracy": 0.6669531762599945,
      "num_tokens": 2210131799.0,
      "step": 13179
    },
    {
      "entropy": 1.726241260766983,
      "epoch": 1.4478866276674631,
      "grad_norm": 0.6660773158073425,
      "learning_rate": 5.3655528580577785e-06,
      "loss": 1.4985,
      "mean_token_accuracy": 0.6414483537276586,
      "num_tokens": 2210311687.0,
      "step": 13180
    },
    {
      "entropy": 1.7482622861862183,
      "epoch": 1.447996484578836,
      "grad_norm": 0.6919118762016296,
      "learning_rate": 5.364304413916195e-06,
      "loss": 1.3277,
      "mean_token_accuracy": 0.6661824136972427,
      "num_tokens": 2210497399.0,
      "step": 13181
    },
    {
      "entropy": 1.6985487540562947,
      "epoch": 1.4481063414902091,
      "grad_norm": 0.7943996787071228,
      "learning_rate": 5.363056148141838e-06,
      "loss": 1.2813,
      "mean_token_accuracy": 0.6696479817231497,
      "num_tokens": 2210622604.0,
      "step": 13182
    },
    {
      "entropy": 1.6598475178082783,
      "epoch": 1.448216198401582,
      "grad_norm": 0.6746430397033691,
      "learning_rate": 5.361808060774216e-06,
      "loss": 1.3158,
      "mean_token_accuracy": 0.6594479928414027,
      "num_tokens": 2210777670.0,
      "step": 13183
    },
    {
      "entropy": 1.7671760121981304,
      "epoch": 1.4483260553129549,
      "grad_norm": 0.7635937333106995,
      "learning_rate": 5.360560151852828e-06,
      "loss": 1.4199,
      "mean_token_accuracy": 0.6667883445819219,
      "num_tokens": 2210926645.0,
      "step": 13184
    },
    {
      "entropy": 1.690992146730423,
      "epoch": 1.4484359122243278,
      "grad_norm": 0.7546091675758362,
      "learning_rate": 5.359312421417168e-06,
      "loss": 1.5281,
      "mean_token_accuracy": 0.6310638238986334,
      "num_tokens": 2211176157.0,
      "step": 13185
    },
    {
      "entropy": 1.6956369777520497,
      "epoch": 1.4485457691357007,
      "grad_norm": 0.6036320328712463,
      "learning_rate": 5.358064869506731e-06,
      "loss": 1.469,
      "mean_token_accuracy": 0.6401687761147817,
      "num_tokens": 2211393488.0,
      "step": 13186
    },
    {
      "entropy": 1.6649706959724426,
      "epoch": 1.4486556260470738,
      "grad_norm": 0.6010493040084839,
      "learning_rate": 5.356817496160994e-06,
      "loss": 1.3602,
      "mean_token_accuracy": 0.6572969208161036,
      "num_tokens": 2211585446.0,
      "step": 13187
    },
    {
      "entropy": 1.7027298510074615,
      "epoch": 1.4487654829584466,
      "grad_norm": 0.7195990681648254,
      "learning_rate": 5.355570301419446e-06,
      "loss": 1.3763,
      "mean_token_accuracy": 0.6585088024536768,
      "num_tokens": 2211740010.0,
      "step": 13188
    },
    {
      "entropy": 1.6455882887045543,
      "epoch": 1.4488753398698195,
      "grad_norm": 0.7932417392730713,
      "learning_rate": 5.354323285321552e-06,
      "loss": 1.3226,
      "mean_token_accuracy": 0.6679457773764929,
      "num_tokens": 2211907834.0,
      "step": 13189
    },
    {
      "entropy": 1.6916816929976146,
      "epoch": 1.4489851967811924,
      "grad_norm": 2.6084368228912354,
      "learning_rate": 5.3530764479067795e-06,
      "loss": 1.1454,
      "mean_token_accuracy": 0.6937383910020193,
      "num_tokens": 2212070495.0,
      "step": 13190
    },
    {
      "entropy": 1.6980760792891185,
      "epoch": 1.4490950536925653,
      "grad_norm": 0.7769445776939392,
      "learning_rate": 5.3518297892145955e-06,
      "loss": 1.463,
      "mean_token_accuracy": 0.6506317506233851,
      "num_tokens": 2212241884.0,
      "step": 13191
    },
    {
      "entropy": 1.7203065752983093,
      "epoch": 1.4492049106039384,
      "grad_norm": 0.671053409576416,
      "learning_rate": 5.350583309284456e-06,
      "loss": 1.4886,
      "mean_token_accuracy": 0.6554620762666067,
      "num_tokens": 2212416939.0,
      "step": 13192
    },
    {
      "entropy": 1.6941389739513397,
      "epoch": 1.4493147675153113,
      "grad_norm": 0.6860373616218567,
      "learning_rate": 5.349337008155805e-06,
      "loss": 1.2588,
      "mean_token_accuracy": 0.6677055060863495,
      "num_tokens": 2212572265.0,
      "step": 13193
    },
    {
      "entropy": 1.7378354767958324,
      "epoch": 1.4494246244266842,
      "grad_norm": 0.7001467943191528,
      "learning_rate": 5.348090885868091e-06,
      "loss": 1.4168,
      "mean_token_accuracy": 0.6458163360754648,
      "num_tokens": 2212720904.0,
      "step": 13194
    },
    {
      "entropy": 1.7072244087855022,
      "epoch": 1.4495344813380573,
      "grad_norm": 0.6630334854125977,
      "learning_rate": 5.346844942460756e-06,
      "loss": 1.2521,
      "mean_token_accuracy": 0.6737230718135834,
      "num_tokens": 2212833669.0,
      "step": 13195
    },
    {
      "entropy": 1.6764145195484161,
      "epoch": 1.4496443382494302,
      "grad_norm": 0.6521428823471069,
      "learning_rate": 5.345599177973233e-06,
      "loss": 1.3123,
      "mean_token_accuracy": 0.6774703562259674,
      "num_tokens": 2213000587.0,
      "step": 13196
    },
    {
      "entropy": 1.767681509256363,
      "epoch": 1.449754195160803,
      "grad_norm": 0.7817487120628357,
      "learning_rate": 5.344353592444943e-06,
      "loss": 1.2971,
      "mean_token_accuracy": 0.6568180421988169,
      "num_tokens": 2213145438.0,
      "step": 13197
    },
    {
      "entropy": 1.663481096426646,
      "epoch": 1.449864052072176,
      "grad_norm": 0.5956518650054932,
      "learning_rate": 5.3431081859153174e-06,
      "loss": 1.3152,
      "mean_token_accuracy": 0.6751365313927332,
      "num_tokens": 2213305808.0,
      "step": 13198
    },
    {
      "entropy": 1.6766654352347057,
      "epoch": 1.4499739089835488,
      "grad_norm": 0.6852260231971741,
      "learning_rate": 5.341862958423765e-06,
      "loss": 1.3912,
      "mean_token_accuracy": 0.6689743250608444,
      "num_tokens": 2213454974.0,
      "step": 13199
    },
    {
      "entropy": 1.7198993066946666,
      "epoch": 1.450083765894922,
      "grad_norm": 0.7866743206977844,
      "learning_rate": 5.340617910009705e-06,
      "loss": 1.4372,
      "mean_token_accuracy": 0.6474678864081701,
      "num_tokens": 2213626936.0,
      "step": 13200
    },
    {
      "entropy": 1.6825834314028423,
      "epoch": 1.4501936228062948,
      "grad_norm": 0.8059370517730713,
      "learning_rate": 5.3393730407125365e-06,
      "loss": 1.2714,
      "mean_token_accuracy": 0.6706172774235407,
      "num_tokens": 2213775434.0,
      "step": 13201
    },
    {
      "entropy": 1.6637190183003743,
      "epoch": 1.4503034797176677,
      "grad_norm": 14.398298263549805,
      "learning_rate": 5.338128350571659e-06,
      "loss": 1.3967,
      "mean_token_accuracy": 0.6558897644281387,
      "num_tokens": 2214009223.0,
      "step": 13202
    },
    {
      "entropy": 1.7083501815795898,
      "epoch": 1.4504133366290406,
      "grad_norm": 0.7195196747779846,
      "learning_rate": 5.336883839626466e-06,
      "loss": 1.4648,
      "mean_token_accuracy": 0.6481581528981527,
      "num_tokens": 2214193907.0,
      "step": 13203
    },
    {
      "entropy": 1.708481788635254,
      "epoch": 1.4505231935404135,
      "grad_norm": 0.815433919429779,
      "learning_rate": 5.335639507916354e-06,
      "loss": 1.4208,
      "mean_token_accuracy": 0.6755526115496954,
      "num_tokens": 2214358384.0,
      "step": 13204
    },
    {
      "entropy": 1.7456343571345012,
      "epoch": 1.4506330504517866,
      "grad_norm": 0.653662919998169,
      "learning_rate": 5.334395355480692e-06,
      "loss": 1.4671,
      "mean_token_accuracy": 0.6519175618886948,
      "num_tokens": 2214500150.0,
      "step": 13205
    },
    {
      "entropy": 1.683765749136607,
      "epoch": 1.4507429073631595,
      "grad_norm": 1.1602147817611694,
      "learning_rate": 5.333151382358867e-06,
      "loss": 1.3494,
      "mean_token_accuracy": 0.6610773354768753,
      "num_tokens": 2214625247.0,
      "step": 13206
    },
    {
      "entropy": 1.7299201289812725,
      "epoch": 1.4508527642745324,
      "grad_norm": 0.6895291805267334,
      "learning_rate": 5.331907588590248e-06,
      "loss": 1.4314,
      "mean_token_accuracy": 0.6494416346152624,
      "num_tokens": 2214811498.0,
      "step": 13207
    },
    {
      "entropy": 1.658159464597702,
      "epoch": 1.4509626211859055,
      "grad_norm": 0.6312925219535828,
      "learning_rate": 5.3306639742142015e-06,
      "loss": 1.36,
      "mean_token_accuracy": 0.6664116680622101,
      "num_tokens": 2214974047.0,
      "step": 13208
    },
    {
      "entropy": 1.7353888948758442,
      "epoch": 1.4510724780972784,
      "grad_norm": 0.6342319846153259,
      "learning_rate": 5.329420539270082e-06,
      "loss": 1.3164,
      "mean_token_accuracy": 0.6630458980798721,
      "num_tokens": 2215193942.0,
      "step": 13209
    },
    {
      "entropy": 1.7596177558104198,
      "epoch": 1.4511823350086512,
      "grad_norm": 0.6443141102790833,
      "learning_rate": 5.328177283797249e-06,
      "loss": 1.5036,
      "mean_token_accuracy": 0.6435278157393137,
      "num_tokens": 2215360444.0,
      "step": 13210
    },
    {
      "entropy": 1.6973899205525715,
      "epoch": 1.4512921919200241,
      "grad_norm": 0.6556523442268372,
      "learning_rate": 5.3269342078350465e-06,
      "loss": 1.4033,
      "mean_token_accuracy": 0.6569543530543646,
      "num_tokens": 2215502761.0,
      "step": 13211
    },
    {
      "entropy": 1.7224473754564922,
      "epoch": 1.451402048831397,
      "grad_norm": 0.6724802851676941,
      "learning_rate": 5.325691311422824e-06,
      "loss": 1.4342,
      "mean_token_accuracy": 0.6421651244163513,
      "num_tokens": 2215672804.0,
      "step": 13212
    },
    {
      "entropy": 1.6691329777240753,
      "epoch": 1.4515119057427701,
      "grad_norm": 0.6420386433601379,
      "learning_rate": 5.324448594599914e-06,
      "loss": 1.5087,
      "mean_token_accuracy": 0.6413849592208862,
      "num_tokens": 2215874049.0,
      "step": 13213
    },
    {
      "entropy": 1.624968518813451,
      "epoch": 1.451621762654143,
      "grad_norm": 0.7023099064826965,
      "learning_rate": 5.323206057405645e-06,
      "loss": 1.3814,
      "mean_token_accuracy": 0.6555198530356089,
      "num_tokens": 2216024759.0,
      "step": 13214
    },
    {
      "entropy": 1.6852657397588093,
      "epoch": 1.4517316195655159,
      "grad_norm": 0.7389397621154785,
      "learning_rate": 5.321963699879347e-06,
      "loss": 1.4723,
      "mean_token_accuracy": 0.646138941248258,
      "num_tokens": 2216188508.0,
      "step": 13215
    },
    {
      "entropy": 1.6744611859321594,
      "epoch": 1.4518414764768888,
      "grad_norm": 0.6439229846000671,
      "learning_rate": 5.320721522060346e-06,
      "loss": 1.4371,
      "mean_token_accuracy": 0.6564580400784811,
      "num_tokens": 2216352452.0,
      "step": 13216
    },
    {
      "entropy": 1.683128794034322,
      "epoch": 1.4519513333882617,
      "grad_norm": 0.7556068301200867,
      "learning_rate": 5.319479523987943e-06,
      "loss": 1.2867,
      "mean_token_accuracy": 0.6663307448228201,
      "num_tokens": 2216522725.0,
      "step": 13217
    },
    {
      "entropy": 1.7548390924930573,
      "epoch": 1.4520611902996348,
      "grad_norm": 0.6996464133262634,
      "learning_rate": 5.318237705701451e-06,
      "loss": 1.3232,
      "mean_token_accuracy": 0.6729239821434021,
      "num_tokens": 2216664562.0,
      "step": 13218
    },
    {
      "entropy": 1.7093205749988556,
      "epoch": 1.4521710472110076,
      "grad_norm": 0.7138844728469849,
      "learning_rate": 5.316996067240181e-06,
      "loss": 1.2359,
      "mean_token_accuracy": 0.6787795623143514,
      "num_tokens": 2216772838.0,
      "step": 13219
    },
    {
      "entropy": 1.6784123480319977,
      "epoch": 1.4522809041223805,
      "grad_norm": 0.6939015984535217,
      "learning_rate": 5.3157546086434245e-06,
      "loss": 1.2327,
      "mean_token_accuracy": 0.6807336856921514,
      "num_tokens": 2216919138.0,
      "step": 13220
    },
    {
      "entropy": 1.7018550237019856,
      "epoch": 1.4523907610337536,
      "grad_norm": 0.8771721124649048,
      "learning_rate": 5.314513329950469e-06,
      "loss": 1.3378,
      "mean_token_accuracy": 0.6704970449209213,
      "num_tokens": 2217068295.0,
      "step": 13221
    },
    {
      "entropy": 1.7389337023099263,
      "epoch": 1.4525006179451265,
      "grad_norm": 0.6254299879074097,
      "learning_rate": 5.313272231200609e-06,
      "loss": 1.4183,
      "mean_token_accuracy": 0.6511034518480301,
      "num_tokens": 2217280813.0,
      "step": 13222
    },
    {
      "entropy": 1.783752590417862,
      "epoch": 1.4526104748564994,
      "grad_norm": 0.6950295567512512,
      "learning_rate": 5.312031312433117e-06,
      "loss": 1.3607,
      "mean_token_accuracy": 0.6620252877473831,
      "num_tokens": 2217419842.0,
      "step": 13223
    },
    {
      "entropy": 1.7052730023860931,
      "epoch": 1.4527203317678723,
      "grad_norm": 0.6519191861152649,
      "learning_rate": 5.3107905736872745e-06,
      "loss": 1.4891,
      "mean_token_accuracy": 0.6575401375691096,
      "num_tokens": 2217599361.0,
      "step": 13224
    },
    {
      "entropy": 1.7535746296246846,
      "epoch": 1.4528301886792452,
      "grad_norm": 0.8356174826622009,
      "learning_rate": 5.309550015002346e-06,
      "loss": 1.2754,
      "mean_token_accuracy": 0.6758607228597006,
      "num_tokens": 2217738156.0,
      "step": 13225
    },
    {
      "entropy": 1.692326823870341,
      "epoch": 1.4529400455906183,
      "grad_norm": 0.6344167590141296,
      "learning_rate": 5.308309636417593e-06,
      "loss": 1.4251,
      "mean_token_accuracy": 0.6521053711573283,
      "num_tokens": 2217913111.0,
      "step": 13226
    },
    {
      "entropy": 1.68477068344752,
      "epoch": 1.4530499025019912,
      "grad_norm": 0.722823977470398,
      "learning_rate": 5.307069437972274e-06,
      "loss": 1.3475,
      "mean_token_accuracy": 0.6687405457099279,
      "num_tokens": 2218072811.0,
      "step": 13227
    },
    {
      "entropy": 1.6299297511577606,
      "epoch": 1.453159759413364,
      "grad_norm": 0.7247095704078674,
      "learning_rate": 5.305829419705648e-06,
      "loss": 1.2793,
      "mean_token_accuracy": 0.6687569071849188,
      "num_tokens": 2218206884.0,
      "step": 13228
    },
    {
      "entropy": 1.726058046023051,
      "epoch": 1.4532696163247372,
      "grad_norm": 0.6222012639045715,
      "learning_rate": 5.30458958165695e-06,
      "loss": 1.4566,
      "mean_token_accuracy": 0.6559246480464935,
      "num_tokens": 2218388967.0,
      "step": 13229
    },
    {
      "entropy": 1.7035260498523712,
      "epoch": 1.4533794732361098,
      "grad_norm": 0.6351275444030762,
      "learning_rate": 5.303349923865425e-06,
      "loss": 1.4242,
      "mean_token_accuracy": 0.6489528665939966,
      "num_tokens": 2218568637.0,
      "step": 13230
    },
    {
      "entropy": 1.6851453681786854,
      "epoch": 1.453489330147483,
      "grad_norm": 0.7717143297195435,
      "learning_rate": 5.30211044637031e-06,
      "loss": 1.2123,
      "mean_token_accuracy": 0.6865204274654388,
      "num_tokens": 2218672479.0,
      "step": 13231
    },
    {
      "entropy": 1.6864939232667286,
      "epoch": 1.4535991870588558,
      "grad_norm": 0.7055935859680176,
      "learning_rate": 5.300871149210833e-06,
      "loss": 1.3668,
      "mean_token_accuracy": 0.6618408660093943,
      "num_tokens": 2218894075.0,
      "step": 13232
    },
    {
      "entropy": 1.651742806037267,
      "epoch": 1.4537090439702287,
      "grad_norm": 0.7507491707801819,
      "learning_rate": 5.299632032426213e-06,
      "loss": 1.3153,
      "mean_token_accuracy": 0.6831634243329366,
      "num_tokens": 2219006787.0,
      "step": 13233
    },
    {
      "entropy": 1.772430956363678,
      "epoch": 1.4538189008816018,
      "grad_norm": 0.7279871702194214,
      "learning_rate": 5.298393096055674e-06,
      "loss": 1.4669,
      "mean_token_accuracy": 0.6384557783603668,
      "num_tokens": 2219193713.0,
      "step": 13234
    },
    {
      "entropy": 1.6615471144517262,
      "epoch": 1.4539287577929747,
      "grad_norm": 0.7124606966972351,
      "learning_rate": 5.297154340138419e-06,
      "loss": 1.5806,
      "mean_token_accuracy": 0.6216800361871719,
      "num_tokens": 2219441667.0,
      "step": 13235
    },
    {
      "entropy": 1.6834536989529927,
      "epoch": 1.4540386147043476,
      "grad_norm": 0.6642992496490479,
      "learning_rate": 5.295915764713666e-06,
      "loss": 1.22,
      "mean_token_accuracy": 0.673203244805336,
      "num_tokens": 2219605960.0,
      "step": 13236
    },
    {
      "entropy": 1.7114764948685963,
      "epoch": 1.4541484716157205,
      "grad_norm": 0.6740455627441406,
      "learning_rate": 5.294677369820605e-06,
      "loss": 1.433,
      "mean_token_accuracy": 0.6435778339703878,
      "num_tokens": 2219763478.0,
      "step": 13237
    },
    {
      "entropy": 1.66608660419782,
      "epoch": 1.4542583285270934,
      "grad_norm": 0.6613836288452148,
      "learning_rate": 5.293439155498435e-06,
      "loss": 1.507,
      "mean_token_accuracy": 0.6401470750570297,
      "num_tokens": 2219939231.0,
      "step": 13238
    },
    {
      "entropy": 1.7152255574862163,
      "epoch": 1.4543681854384665,
      "grad_norm": 0.799233615398407,
      "learning_rate": 5.292201121786345e-06,
      "loss": 1.3541,
      "mean_token_accuracy": 0.6578367203474045,
      "num_tokens": 2220093449.0,
      "step": 13239
    },
    {
      "entropy": 1.6978593568007152,
      "epoch": 1.4544780423498394,
      "grad_norm": 0.6676912903785706,
      "learning_rate": 5.290963268723517e-06,
      "loss": 1.367,
      "mean_token_accuracy": 0.6562477846940359,
      "num_tokens": 2220241070.0,
      "step": 13240
    },
    {
      "entropy": 1.726622184117635,
      "epoch": 1.4545878992612122,
      "grad_norm": 0.804278552532196,
      "learning_rate": 5.289725596349128e-06,
      "loss": 1.3472,
      "mean_token_accuracy": 0.6571770707766215,
      "num_tokens": 2220390433.0,
      "step": 13241
    },
    {
      "entropy": 1.6938590904076893,
      "epoch": 1.4546977561725853,
      "grad_norm": 0.6081349849700928,
      "learning_rate": 5.2884881047023516e-06,
      "loss": 1.4959,
      "mean_token_accuracy": 0.64292544623216,
      "num_tokens": 2220584496.0,
      "step": 13242
    },
    {
      "entropy": 1.6884879171848297,
      "epoch": 1.454807613083958,
      "grad_norm": 0.7846350073814392,
      "learning_rate": 5.287250793822352e-06,
      "loss": 1.4016,
      "mean_token_accuracy": 0.6731372624635696,
      "num_tokens": 2220768356.0,
      "step": 13243
    },
    {
      "entropy": 1.6507751047611237,
      "epoch": 1.4549174699953311,
      "grad_norm": 0.5410248637199402,
      "learning_rate": 5.286013663748292e-06,
      "loss": 1.4474,
      "mean_token_accuracy": 0.6416066288948059,
      "num_tokens": 2220995309.0,
      "step": 13244
    },
    {
      "entropy": 1.7409183184305828,
      "epoch": 1.455027326906704,
      "grad_norm": 0.7013614773750305,
      "learning_rate": 5.284776714519326e-06,
      "loss": 1.4582,
      "mean_token_accuracy": 0.6478712111711502,
      "num_tokens": 2221198221.0,
      "step": 13245
    },
    {
      "entropy": 1.7032929261525471,
      "epoch": 1.4551371838180769,
      "grad_norm": 0.6887391209602356,
      "learning_rate": 5.2835399461745965e-06,
      "loss": 1.4032,
      "mean_token_accuracy": 0.6849873264630636,
      "num_tokens": 2221400687.0,
      "step": 13246
    },
    {
      "entropy": 1.6999091704686482,
      "epoch": 1.45524704072945,
      "grad_norm": 0.7940466403961182,
      "learning_rate": 5.2823033587532545e-06,
      "loss": 1.2728,
      "mean_token_accuracy": 0.675998126467069,
      "num_tokens": 2221549840.0,
      "step": 13247
    },
    {
      "entropy": 1.657990833123525,
      "epoch": 1.4553568976408229,
      "grad_norm": 0.6163055896759033,
      "learning_rate": 5.281066952294436e-06,
      "loss": 1.4401,
      "mean_token_accuracy": 0.6552244772513708,
      "num_tokens": 2221785884.0,
      "step": 13248
    },
    {
      "entropy": 1.7675037880738576,
      "epoch": 1.4554667545521958,
      "grad_norm": 0.6566433310508728,
      "learning_rate": 5.2798307268372714e-06,
      "loss": 1.453,
      "mean_token_accuracy": 0.6563322295745214,
      "num_tokens": 2221930165.0,
      "step": 13249
    },
    {
      "entropy": 1.7534189720948536,
      "epoch": 1.4555766114635686,
      "grad_norm": 0.659052848815918,
      "learning_rate": 5.2785946824208845e-06,
      "loss": 1.4248,
      "mean_token_accuracy": 0.6439740558465322,
      "num_tokens": 2222126390.0,
      "step": 13250
    },
    {
      "entropy": 1.693113644917806,
      "epoch": 1.4556864683749415,
      "grad_norm": 0.7174281477928162,
      "learning_rate": 5.277358819084401e-06,
      "loss": 1.4873,
      "mean_token_accuracy": 0.6578061381975809,
      "num_tokens": 2222313824.0,
      "step": 13251
    },
    {
      "entropy": 1.6609934270381927,
      "epoch": 1.4557963252863146,
      "grad_norm": 0.5869874954223633,
      "learning_rate": 5.276123136866931e-06,
      "loss": 1.3664,
      "mean_token_accuracy": 0.6591756095488867,
      "num_tokens": 2222498021.0,
      "step": 13252
    },
    {
      "entropy": 1.6955777903397877,
      "epoch": 1.4559061821976875,
      "grad_norm": 0.736538290977478,
      "learning_rate": 5.274887635807584e-06,
      "loss": 1.3698,
      "mean_token_accuracy": 0.6608079870541891,
      "num_tokens": 2222666538.0,
      "step": 13253
    },
    {
      "entropy": 1.7050454417864482,
      "epoch": 1.4560160391090604,
      "grad_norm": 0.7196376323699951,
      "learning_rate": 5.273652315945464e-06,
      "loss": 1.3256,
      "mean_token_accuracy": 0.6665113717317581,
      "num_tokens": 2222791127.0,
      "step": 13254
    },
    {
      "entropy": 1.7047736942768097,
      "epoch": 1.4561258960204335,
      "grad_norm": 0.787895917892456,
      "learning_rate": 5.2724171773196665e-06,
      "loss": 1.4962,
      "mean_token_accuracy": 0.6398163984219233,
      "num_tokens": 2222997665.0,
      "step": 13255
    },
    {
      "entropy": 1.7137849926948547,
      "epoch": 1.4562357529318064,
      "grad_norm": 0.8692581057548523,
      "learning_rate": 5.271182219969286e-06,
      "loss": 1.3989,
      "mean_token_accuracy": 0.6480956127246221,
      "num_tokens": 2223183484.0,
      "step": 13256
    },
    {
      "entropy": 1.7420273820559184,
      "epoch": 1.4563456098431793,
      "grad_norm": 0.7221806049346924,
      "learning_rate": 5.269947443933408e-06,
      "loss": 1.3607,
      "mean_token_accuracy": 0.6581288725137711,
      "num_tokens": 2223324598.0,
      "step": 13257
    },
    {
      "entropy": 1.624452531337738,
      "epoch": 1.4564554667545522,
      "grad_norm": 0.6961126327514648,
      "learning_rate": 5.2687128492511075e-06,
      "loss": 1.4168,
      "mean_token_accuracy": 0.6610220770041147,
      "num_tokens": 2223496057.0,
      "step": 13258
    },
    {
      "entropy": 1.6884084045886993,
      "epoch": 1.456565323665925,
      "grad_norm": 1.0178797245025635,
      "learning_rate": 5.267478435961462e-06,
      "loss": 1.3582,
      "mean_token_accuracy": 0.665848026672999,
      "num_tokens": 2223654632.0,
      "step": 13259
    },
    {
      "entropy": 1.6696566045284271,
      "epoch": 1.4566751805772982,
      "grad_norm": 0.6774824261665344,
      "learning_rate": 5.266244204103548e-06,
      "loss": 1.343,
      "mean_token_accuracy": 0.6636465241511663,
      "num_tokens": 2223806523.0,
      "step": 13260
    },
    {
      "entropy": 1.7208555539449055,
      "epoch": 1.456785037488671,
      "grad_norm": 0.6381753087043762,
      "learning_rate": 5.265010153716415e-06,
      "loss": 1.3636,
      "mean_token_accuracy": 0.6624864041805267,
      "num_tokens": 2223993713.0,
      "step": 13261
    },
    {
      "entropy": 1.697748472293218,
      "epoch": 1.456894894400044,
      "grad_norm": 0.7066287994384766,
      "learning_rate": 5.263776284839126e-06,
      "loss": 1.2882,
      "mean_token_accuracy": 0.6692610581715902,
      "num_tokens": 2224121187.0,
      "step": 13262
    },
    {
      "entropy": 1.6702364484469097,
      "epoch": 1.4570047513114168,
      "grad_norm": 0.6550009250640869,
      "learning_rate": 5.2625425975107366e-06,
      "loss": 1.5535,
      "mean_token_accuracy": 0.6461095362901688,
      "num_tokens": 2224294928.0,
      "step": 13263
    },
    {
      "entropy": 1.671968440214793,
      "epoch": 1.4571146082227897,
      "grad_norm": 0.7919005751609802,
      "learning_rate": 5.261309091770288e-06,
      "loss": 1.3144,
      "mean_token_accuracy": 0.6730043093363444,
      "num_tokens": 2224442529.0,
      "step": 13264
    },
    {
      "entropy": 1.6805502672990162,
      "epoch": 1.4572244651341628,
      "grad_norm": 0.6840505599975586,
      "learning_rate": 5.260075767656818e-06,
      "loss": 1.3058,
      "mean_token_accuracy": 0.6673836757739385,
      "num_tokens": 2224580676.0,
      "step": 13265
    },
    {
      "entropy": 1.723142812649409,
      "epoch": 1.4573343220455357,
      "grad_norm": 0.7580272555351257,
      "learning_rate": 5.258842625209367e-06,
      "loss": 1.4996,
      "mean_token_accuracy": 0.641799122095108,
      "num_tokens": 2224774246.0,
      "step": 13266
    },
    {
      "entropy": 1.702703317006429,
      "epoch": 1.4574441789569086,
      "grad_norm": 1.6131107807159424,
      "learning_rate": 5.257609664466956e-06,
      "loss": 0.9713,
      "mean_token_accuracy": 0.6902973006169001,
      "num_tokens": 2224908967.0,
      "step": 13267
    },
    {
      "entropy": 1.7422963480154674,
      "epoch": 1.4575540358682817,
      "grad_norm": 0.830781102180481,
      "learning_rate": 5.256376885468615e-06,
      "loss": 1.5733,
      "mean_token_accuracy": 0.6498822967211405,
      "num_tokens": 2225102321.0,
      "step": 13268
    },
    {
      "entropy": 1.7461797297000885,
      "epoch": 1.4576638927796546,
      "grad_norm": 0.7430237531661987,
      "learning_rate": 5.255144288253357e-06,
      "loss": 1.408,
      "mean_token_accuracy": 0.6493665178616842,
      "num_tokens": 2225238306.0,
      "step": 13269
    },
    {
      "entropy": 1.6967601478099823,
      "epoch": 1.4577737496910275,
      "grad_norm": 0.7158797979354858,
      "learning_rate": 5.253911872860191e-06,
      "loss": 1.2596,
      "mean_token_accuracy": 0.6785516838232676,
      "num_tokens": 2225363858.0,
      "step": 13270
    },
    {
      "entropy": 1.7182322641213734,
      "epoch": 1.4578836066024004,
      "grad_norm": 0.5696946978569031,
      "learning_rate": 5.252679639328125e-06,
      "loss": 1.5107,
      "mean_token_accuracy": 0.6287727604309717,
      "num_tokens": 2225608182.0,
      "step": 13271
    },
    {
      "entropy": 1.7183633248011272,
      "epoch": 1.4579934635137732,
      "grad_norm": 0.8003261685371399,
      "learning_rate": 5.2514475876961655e-06,
      "loss": 1.3841,
      "mean_token_accuracy": 0.6599841763575872,
      "num_tokens": 2225734061.0,
      "step": 13272
    },
    {
      "entropy": 1.6641955971717834,
      "epoch": 1.4581033204251463,
      "grad_norm": 0.6576728820800781,
      "learning_rate": 5.250215718003293e-06,
      "loss": 1.2564,
      "mean_token_accuracy": 0.6735943456490835,
      "num_tokens": 2225892115.0,
      "step": 13273
    },
    {
      "entropy": 1.6959330240885417,
      "epoch": 1.4582131773365192,
      "grad_norm": 0.7016428112983704,
      "learning_rate": 5.2489840302885e-06,
      "loss": 1.2863,
      "mean_token_accuracy": 0.665631502866745,
      "num_tokens": 2226025946.0,
      "step": 13274
    },
    {
      "entropy": 1.6741726001103718,
      "epoch": 1.4583230342478921,
      "grad_norm": 0.7208593487739563,
      "learning_rate": 5.247752524590776e-06,
      "loss": 1.4776,
      "mean_token_accuracy": 0.6564379036426544,
      "num_tokens": 2226179358.0,
      "step": 13275
    },
    {
      "entropy": 1.682859222094218,
      "epoch": 1.458432891159265,
      "grad_norm": 0.7038945555686951,
      "learning_rate": 5.246521200949093e-06,
      "loss": 1.3761,
      "mean_token_accuracy": 0.6612346222003301,
      "num_tokens": 2226343715.0,
      "step": 13276
    },
    {
      "entropy": 1.7394512792428334,
      "epoch": 1.4585427480706379,
      "grad_norm": 0.778741180896759,
      "learning_rate": 5.245290059402417e-06,
      "loss": 1.3302,
      "mean_token_accuracy": 0.6651216298341751,
      "num_tokens": 2226515575.0,
      "step": 13277
    },
    {
      "entropy": 1.7190166016419728,
      "epoch": 1.458652604982011,
      "grad_norm": 0.6520856022834778,
      "learning_rate": 5.24405909998972e-06,
      "loss": 1.2736,
      "mean_token_accuracy": 0.6683216094970703,
      "num_tokens": 2226636398.0,
      "step": 13278
    },
    {
      "entropy": 1.736037790775299,
      "epoch": 1.4587624618933839,
      "grad_norm": 0.7920129299163818,
      "learning_rate": 5.242828322749958e-06,
      "loss": 1.4525,
      "mean_token_accuracy": 0.6551641374826431,
      "num_tokens": 2226803388.0,
      "step": 13279
    },
    {
      "entropy": 1.693130115667979,
      "epoch": 1.4588723188047568,
      "grad_norm": 0.6134016513824463,
      "learning_rate": 5.241597727722088e-06,
      "loss": 1.3696,
      "mean_token_accuracy": 0.6638036072254181,
      "num_tokens": 2226951444.0,
      "step": 13280
    },
    {
      "entropy": 1.7208605806032817,
      "epoch": 1.4589821757161299,
      "grad_norm": 0.7502411603927612,
      "learning_rate": 5.240367314945054e-06,
      "loss": 1.4216,
      "mean_token_accuracy": 0.6602864662806193,
      "num_tokens": 2227074694.0,
      "step": 13281
    },
    {
      "entropy": 1.6609876056512196,
      "epoch": 1.4590920326275028,
      "grad_norm": 0.6450250744819641,
      "learning_rate": 5.239137084457795e-06,
      "loss": 1.3909,
      "mean_token_accuracy": 0.656602198878924,
      "num_tokens": 2227238549.0,
      "step": 13282
    },
    {
      "entropy": 1.6838933726151784,
      "epoch": 1.4592018895388756,
      "grad_norm": 0.6704497337341309,
      "learning_rate": 5.2379070362992525e-06,
      "loss": 1.2862,
      "mean_token_accuracy": 0.6715071648359299,
      "num_tokens": 2227393583.0,
      "step": 13283
    },
    {
      "entropy": 1.7411844432353973,
      "epoch": 1.4593117464502485,
      "grad_norm": 0.7020705342292786,
      "learning_rate": 5.236677170508363e-06,
      "loss": 1.7397,
      "mean_token_accuracy": 0.6055120974779129,
      "num_tokens": 2227595673.0,
      "step": 13284
    },
    {
      "entropy": 1.6689063012599945,
      "epoch": 1.4594216033616214,
      "grad_norm": 0.7527252435684204,
      "learning_rate": 5.235447487124037e-06,
      "loss": 1.296,
      "mean_token_accuracy": 0.6730232934157053,
      "num_tokens": 2227767400.0,
      "step": 13285
    },
    {
      "entropy": 1.6576413909594219,
      "epoch": 1.4595314602729945,
      "grad_norm": 0.7640280723571777,
      "learning_rate": 5.234217986185201e-06,
      "loss": 1.4514,
      "mean_token_accuracy": 0.6499234984318415,
      "num_tokens": 2227956387.0,
      "step": 13286
    },
    {
      "entropy": 1.7037740747133892,
      "epoch": 1.4596413171843674,
      "grad_norm": 0.6326615214347839,
      "learning_rate": 5.23298866773077e-06,
      "loss": 1.4418,
      "mean_token_accuracy": 0.6500868995984396,
      "num_tokens": 2228170702.0,
      "step": 13287
    },
    {
      "entropy": 1.7462695737679799,
      "epoch": 1.4597511740957403,
      "grad_norm": 0.8364010453224182,
      "learning_rate": 5.231759531799649e-06,
      "loss": 1.4275,
      "mean_token_accuracy": 0.6656624972820282,
      "num_tokens": 2228377715.0,
      "step": 13288
    },
    {
      "entropy": 1.707568754752477,
      "epoch": 1.4598610310071132,
      "grad_norm": 0.820871889591217,
      "learning_rate": 5.230530578430737e-06,
      "loss": 1.284,
      "mean_token_accuracy": 0.6757774303356806,
      "num_tokens": 2228529705.0,
      "step": 13289
    },
    {
      "entropy": 1.7350817521413167,
      "epoch": 1.459970887918486,
      "grad_norm": 0.7010106444358826,
      "learning_rate": 5.229301807662937e-06,
      "loss": 1.3151,
      "mean_token_accuracy": 0.6694407761096954,
      "num_tokens": 2228686318.0,
      "step": 13290
    },
    {
      "entropy": 1.7383721967538197,
      "epoch": 1.4600807448298592,
      "grad_norm": 0.5950272679328918,
      "learning_rate": 5.228073219535128e-06,
      "loss": 1.6986,
      "mean_token_accuracy": 0.6260428552826246,
      "num_tokens": 2228943488.0,
      "step": 13291
    },
    {
      "entropy": 1.7025316456953685,
      "epoch": 1.460190601741232,
      "grad_norm": 0.7957791090011597,
      "learning_rate": 5.226844814086206e-06,
      "loss": 1.3464,
      "mean_token_accuracy": 0.6687312970558802,
      "num_tokens": 2229072202.0,
      "step": 13292
    },
    {
      "entropy": 1.671481430530548,
      "epoch": 1.460300458652605,
      "grad_norm": 0.7400625348091125,
      "learning_rate": 5.2256165913550425e-06,
      "loss": 1.3572,
      "mean_token_accuracy": 0.6515611658493677,
      "num_tokens": 2229265397.0,
      "step": 13293
    },
    {
      "entropy": 1.6869538923104603,
      "epoch": 1.460410315563978,
      "grad_norm": 0.7097235321998596,
      "learning_rate": 5.22438855138051e-06,
      "loss": 1.3306,
      "mean_token_accuracy": 0.6697370956341425,
      "num_tokens": 2229437081.0,
      "step": 13294
    },
    {
      "entropy": 1.7623671690622966,
      "epoch": 1.460520172475351,
      "grad_norm": 0.7999326586723328,
      "learning_rate": 5.223160694201477e-06,
      "loss": 1.4252,
      "mean_token_accuracy": 0.6673903316259384,
      "num_tokens": 2229599506.0,
      "step": 13295
    },
    {
      "entropy": 1.699026753505071,
      "epoch": 1.4606300293867238,
      "grad_norm": 0.6532884240150452,
      "learning_rate": 5.221933019856813e-06,
      "loss": 1.2955,
      "mean_token_accuracy": 0.6673917869726816,
      "num_tokens": 2229733052.0,
      "step": 13296
    },
    {
      "entropy": 1.6547558307647705,
      "epoch": 1.4607398862980967,
      "grad_norm": 0.6670539975166321,
      "learning_rate": 5.220705528385357e-06,
      "loss": 1.2823,
      "mean_token_accuracy": 0.669133797287941,
      "num_tokens": 2229887116.0,
      "step": 13297
    },
    {
      "entropy": 1.6800335148970287,
      "epoch": 1.4608497432094696,
      "grad_norm": 0.7013092041015625,
      "learning_rate": 5.219478219825969e-06,
      "loss": 1.2742,
      "mean_token_accuracy": 0.6806422223647436,
      "num_tokens": 2230068473.0,
      "step": 13298
    },
    {
      "entropy": 1.7160185774167378,
      "epoch": 1.4609596001208427,
      "grad_norm": 0.706506073474884,
      "learning_rate": 5.2182510942174904e-06,
      "loss": 1.3858,
      "mean_token_accuracy": 0.6637303580840429,
      "num_tokens": 2230208267.0,
      "step": 13299
    },
    {
      "entropy": 1.7366038858890533,
      "epoch": 1.4610694570322156,
      "grad_norm": 0.7497095465660095,
      "learning_rate": 5.217024151598759e-06,
      "loss": 1.656,
      "mean_token_accuracy": 0.6435926059881846,
      "num_tokens": 2230359536.0,
      "step": 13300
    },
    {
      "entropy": 1.6858433783054352,
      "epoch": 1.4611793139435885,
      "grad_norm": 0.6425523161888123,
      "learning_rate": 5.21579739200861e-06,
      "loss": 1.3171,
      "mean_token_accuracy": 0.6678670247395834,
      "num_tokens": 2230496567.0,
      "step": 13301
    },
    {
      "entropy": 1.712745487689972,
      "epoch": 1.4612891708549614,
      "grad_norm": 0.746553897857666,
      "learning_rate": 5.214570815485865e-06,
      "loss": 1.3764,
      "mean_token_accuracy": 0.6616001923878988,
      "num_tokens": 2230655773.0,
      "step": 13302
    },
    {
      "entropy": 1.681189884742101,
      "epoch": 1.4613990277663342,
      "grad_norm": 0.6803275346755981,
      "learning_rate": 5.213344422069344e-06,
      "loss": 1.4087,
      "mean_token_accuracy": 0.6556661377350489,
      "num_tokens": 2230883918.0,
      "step": 13303
    },
    {
      "entropy": 1.7151753803094227,
      "epoch": 1.4615088846777073,
      "grad_norm": 0.6623923778533936,
      "learning_rate": 5.212118211797868e-06,
      "loss": 1.5692,
      "mean_token_accuracy": 0.6383712540070215,
      "num_tokens": 2231057143.0,
      "step": 13304
    },
    {
      "entropy": 1.7497306366761525,
      "epoch": 1.4616187415890802,
      "grad_norm": 0.682961106300354,
      "learning_rate": 5.210892184710243e-06,
      "loss": 1.2886,
      "mean_token_accuracy": 0.6717896262804667,
      "num_tokens": 2231220320.0,
      "step": 13305
    },
    {
      "entropy": 1.6684472461541493,
      "epoch": 1.4617285985004531,
      "grad_norm": 0.8259005546569824,
      "learning_rate": 5.209666340845268e-06,
      "loss": 1.5261,
      "mean_token_accuracy": 0.6499257162213326,
      "num_tokens": 2231385621.0,
      "step": 13306
    },
    {
      "entropy": 1.644069214661916,
      "epoch": 1.4618384554118262,
      "grad_norm": 0.6260018944740295,
      "learning_rate": 5.2084406802417484e-06,
      "loss": 1.4294,
      "mean_token_accuracy": 0.6403475701808929,
      "num_tokens": 2231582756.0,
      "step": 13307
    },
    {
      "entropy": 1.7100238502025604,
      "epoch": 1.461948312323199,
      "grad_norm": 0.7612260580062866,
      "learning_rate": 5.207215202938471e-06,
      "loss": 1.4929,
      "mean_token_accuracy": 0.6612754563490549,
      "num_tokens": 2231709892.0,
      "step": 13308
    },
    {
      "entropy": 1.6849770645300548,
      "epoch": 1.462058169234572,
      "grad_norm": 0.7276026606559753,
      "learning_rate": 5.205989908974218e-06,
      "loss": 1.4184,
      "mean_token_accuracy": 0.6592111438512802,
      "num_tokens": 2231854359.0,
      "step": 13309
    },
    {
      "entropy": 1.698674072821935,
      "epoch": 1.4621680261459449,
      "grad_norm": 0.6991817951202393,
      "learning_rate": 5.204764798387778e-06,
      "loss": 1.4016,
      "mean_token_accuracy": 0.6530411044756571,
      "num_tokens": 2232053954.0,
      "step": 13310
    },
    {
      "entropy": 1.6900160908699036,
      "epoch": 1.4622778830573178,
      "grad_norm": 0.6570863127708435,
      "learning_rate": 5.203539871217918e-06,
      "loss": 1.4676,
      "mean_token_accuracy": 0.6459223727385203,
      "num_tokens": 2232234666.0,
      "step": 13311
    },
    {
      "entropy": 1.69076007604599,
      "epoch": 1.4623877399686909,
      "grad_norm": 0.8549068570137024,
      "learning_rate": 5.202315127503411e-06,
      "loss": 1.1945,
      "mean_token_accuracy": 0.6830791085958481,
      "num_tokens": 2232351276.0,
      "step": 13312
    },
    {
      "entropy": 1.7095185021559398,
      "epoch": 1.4624975968800638,
      "grad_norm": 0.7216442823410034,
      "learning_rate": 5.201090567283019e-06,
      "loss": 1.3842,
      "mean_token_accuracy": 0.6556618362665176,
      "num_tokens": 2232487699.0,
      "step": 13313
    },
    {
      "entropy": 1.7185616195201874,
      "epoch": 1.4626074537914366,
      "grad_norm": 0.6242141723632812,
      "learning_rate": 5.1998661905954925e-06,
      "loss": 1.2984,
      "mean_token_accuracy": 0.6604965478181839,
      "num_tokens": 2232640944.0,
      "step": 13314
    },
    {
      "entropy": 1.7047783136367798,
      "epoch": 1.4627173107028095,
      "grad_norm": 0.7990993857383728,
      "learning_rate": 5.1986419974795895e-06,
      "loss": 1.3772,
      "mean_token_accuracy": 0.6700956672430038,
      "num_tokens": 2232790937.0,
      "step": 13315
    },
    {
      "entropy": 1.6940909028053284,
      "epoch": 1.4628271676141824,
      "grad_norm": 0.6506087779998779,
      "learning_rate": 5.197417987974056e-06,
      "loss": 1.3113,
      "mean_token_accuracy": 0.6701582570870718,
      "num_tokens": 2232959603.0,
      "step": 13316
    },
    {
      "entropy": 1.7363331615924835,
      "epoch": 1.4629370245255555,
      "grad_norm": 0.668000340461731,
      "learning_rate": 5.196194162117627e-06,
      "loss": 1.4191,
      "mean_token_accuracy": 0.6679625312487284,
      "num_tokens": 2233101967.0,
      "step": 13317
    },
    {
      "entropy": 1.64047638575236,
      "epoch": 1.4630468814369284,
      "grad_norm": 0.7590168714523315,
      "learning_rate": 5.194970519949035e-06,
      "loss": 1.3215,
      "mean_token_accuracy": 0.6645925690730413,
      "num_tokens": 2233240156.0,
      "step": 13318
    },
    {
      "entropy": 1.64529550075531,
      "epoch": 1.4631567383483013,
      "grad_norm": 0.6108586192131042,
      "learning_rate": 5.193747061507015e-06,
      "loss": 1.4469,
      "mean_token_accuracy": 0.65325299402078,
      "num_tokens": 2233428355.0,
      "step": 13319
    },
    {
      "entropy": 1.7181050678094227,
      "epoch": 1.4632665952596744,
      "grad_norm": 0.6974697113037109,
      "learning_rate": 5.1925237868302815e-06,
      "loss": 1.4742,
      "mean_token_accuracy": 0.6386492003997167,
      "num_tokens": 2233622238.0,
      "step": 13320
    },
    {
      "entropy": 1.6982758343219757,
      "epoch": 1.4633764521710473,
      "grad_norm": 0.6342235207557678,
      "learning_rate": 5.1913006959575515e-06,
      "loss": 1.4225,
      "mean_token_accuracy": 0.6377789328495661,
      "num_tokens": 2233805645.0,
      "step": 13321
    },
    {
      "entropy": 1.6800893247127533,
      "epoch": 1.4634863090824202,
      "grad_norm": 0.7242743372917175,
      "learning_rate": 5.19007778892754e-06,
      "loss": 1.2808,
      "mean_token_accuracy": 0.6725705116987228,
      "num_tokens": 2233968192.0,
      "step": 13322
    },
    {
      "entropy": 1.7239407698313396,
      "epoch": 1.463596165993793,
      "grad_norm": 0.6715902090072632,
      "learning_rate": 5.188855065778946e-06,
      "loss": 1.4202,
      "mean_token_accuracy": 0.6526324351628622,
      "num_tokens": 2234137698.0,
      "step": 13323
    },
    {
      "entropy": 1.7070810496807098,
      "epoch": 1.463706022905166,
      "grad_norm": 0.6120285987854004,
      "learning_rate": 5.187632526550472e-06,
      "loss": 1.3874,
      "mean_token_accuracy": 0.6460235466559728,
      "num_tokens": 2234325035.0,
      "step": 13324
    },
    {
      "entropy": 1.738279104232788,
      "epoch": 1.463815879816539,
      "grad_norm": 0.776631236076355,
      "learning_rate": 5.1864101712808115e-06,
      "loss": 1.4277,
      "mean_token_accuracy": 0.6572244515021642,
      "num_tokens": 2234503600.0,
      "step": 13325
    },
    {
      "entropy": 1.6941909690697987,
      "epoch": 1.463925736727912,
      "grad_norm": 0.6817474961280823,
      "learning_rate": 5.185188000008645e-06,
      "loss": 1.251,
      "mean_token_accuracy": 0.6787453691164652,
      "num_tokens": 2234640034.0,
      "step": 13326
    },
    {
      "entropy": 1.7105824053287506,
      "epoch": 1.4640355936392848,
      "grad_norm": 0.6769583821296692,
      "learning_rate": 5.183966012772657e-06,
      "loss": 1.3502,
      "mean_token_accuracy": 0.6620890498161316,
      "num_tokens": 2234800322.0,
      "step": 13327
    },
    {
      "entropy": 1.7065203487873077,
      "epoch": 1.4641454505506577,
      "grad_norm": 0.7230082154273987,
      "learning_rate": 5.18274420961153e-06,
      "loss": 1.2583,
      "mean_token_accuracy": 0.6677148640155792,
      "num_tokens": 2234902867.0,
      "step": 13328
    },
    {
      "entropy": 1.6912482976913452,
      "epoch": 1.4642553074620306,
      "grad_norm": 0.6191965937614441,
      "learning_rate": 5.181522590563925e-06,
      "loss": 1.3609,
      "mean_token_accuracy": 0.6615066925684611,
      "num_tokens": 2235083263.0,
      "step": 13329
    },
    {
      "entropy": 1.7631979684034984,
      "epoch": 1.4643651643734037,
      "grad_norm": 0.6107144355773926,
      "learning_rate": 5.180301155668506e-06,
      "loss": 1.5027,
      "mean_token_accuracy": 0.634604016939799,
      "num_tokens": 2235264330.0,
      "step": 13330
    },
    {
      "entropy": 1.641640196243922,
      "epoch": 1.4644750212847766,
      "grad_norm": 0.5961340665817261,
      "learning_rate": 5.179079904963936e-06,
      "loss": 1.2884,
      "mean_token_accuracy": 0.6740356385707855,
      "num_tokens": 2235492587.0,
      "step": 13331
    },
    {
      "entropy": 1.68045578400294,
      "epoch": 1.4645848781961495,
      "grad_norm": 0.774403989315033,
      "learning_rate": 5.177858838488864e-06,
      "loss": 1.3224,
      "mean_token_accuracy": 0.6614306718111038,
      "num_tokens": 2235653770.0,
      "step": 13332
    },
    {
      "entropy": 1.6718662977218628,
      "epoch": 1.4646947351075226,
      "grad_norm": 0.730610728263855,
      "learning_rate": 5.176637956281934e-06,
      "loss": 1.4181,
      "mean_token_accuracy": 0.6523456772168478,
      "num_tokens": 2235821839.0,
      "step": 13333
    },
    {
      "entropy": 1.7122483650843303,
      "epoch": 1.4648045920188955,
      "grad_norm": 0.7947407960891724,
      "learning_rate": 5.175417258381789e-06,
      "loss": 1.2752,
      "mean_token_accuracy": 0.6747554838657379,
      "num_tokens": 2235967588.0,
      "step": 13334
    },
    {
      "entropy": 1.692185898621877,
      "epoch": 1.4649144489302683,
      "grad_norm": 0.7685208320617676,
      "learning_rate": 5.174196744827063e-06,
      "loss": 1.5189,
      "mean_token_accuracy": 0.6478336552778879,
      "num_tokens": 2236139430.0,
      "step": 13335
    },
    {
      "entropy": 1.7424322664737701,
      "epoch": 1.4650243058416412,
      "grad_norm": 0.8064534068107605,
      "learning_rate": 5.172976415656385e-06,
      "loss": 1.3833,
      "mean_token_accuracy": 0.6672340482473373,
      "num_tokens": 2236303607.0,
      "step": 13336
    },
    {
      "entropy": 1.7538822293281555,
      "epoch": 1.4651341627530141,
      "grad_norm": 0.6886154413223267,
      "learning_rate": 5.171756270908381e-06,
      "loss": 1.4997,
      "mean_token_accuracy": 0.6409474760293961,
      "num_tokens": 2236475795.0,
      "step": 13337
    },
    {
      "entropy": 1.6770086487134297,
      "epoch": 1.4652440196643872,
      "grad_norm": 0.7982631325721741,
      "learning_rate": 5.170536310621661e-06,
      "loss": 1.2743,
      "mean_token_accuracy": 0.6710592210292816,
      "num_tokens": 2236606141.0,
      "step": 13338
    },
    {
      "entropy": 1.7379637956619263,
      "epoch": 1.46535387657576,
      "grad_norm": 0.7204148173332214,
      "learning_rate": 5.169316534834838e-06,
      "loss": 1.39,
      "mean_token_accuracy": 0.6521616876125336,
      "num_tokens": 2236743945.0,
      "step": 13339
    },
    {
      "entropy": 1.764588902393977,
      "epoch": 1.465463733487133,
      "grad_norm": 0.7058348655700684,
      "learning_rate": 5.168096943586527e-06,
      "loss": 1.3477,
      "mean_token_accuracy": 0.6545776476462682,
      "num_tokens": 2236858423.0,
      "step": 13340
    },
    {
      "entropy": 1.7272200087706249,
      "epoch": 1.4655735903985059,
      "grad_norm": 0.7121959924697876,
      "learning_rate": 5.166877536915313e-06,
      "loss": 1.2527,
      "mean_token_accuracy": 0.6780747969945272,
      "num_tokens": 2236992537.0,
      "step": 13341
    },
    {
      "entropy": 1.7803178131580353,
      "epoch": 1.4656834473098788,
      "grad_norm": 0.7428368926048279,
      "learning_rate": 5.165658314859798e-06,
      "loss": 1.3522,
      "mean_token_accuracy": 0.6523331006368002,
      "num_tokens": 2237127144.0,
      "step": 13342
    },
    {
      "entropy": 1.7277946869532268,
      "epoch": 1.4657933042212519,
      "grad_norm": 0.7097252607345581,
      "learning_rate": 5.164439277458569e-06,
      "loss": 1.3009,
      "mean_token_accuracy": 0.6694452812274297,
      "num_tokens": 2237262457.0,
      "step": 13343
    },
    {
      "entropy": 1.6825427611668904,
      "epoch": 1.4659031611326248,
      "grad_norm": 0.723095178604126,
      "learning_rate": 5.163220424750209e-06,
      "loss": 1.5455,
      "mean_token_accuracy": 0.6467806448539098,
      "num_tokens": 2237409509.0,
      "step": 13344
    },
    {
      "entropy": 1.6955235799153645,
      "epoch": 1.4660130180439976,
      "grad_norm": 0.6675035357475281,
      "learning_rate": 5.162001756773289e-06,
      "loss": 1.5552,
      "mean_token_accuracy": 0.6430306434631348,
      "num_tokens": 2237551260.0,
      "step": 13345
    },
    {
      "entropy": 1.7177290419737499,
      "epoch": 1.4661228749553707,
      "grad_norm": 0.76436448097229,
      "learning_rate": 5.160783273566385e-06,
      "loss": 1.3634,
      "mean_token_accuracy": 0.6647897511720657,
      "num_tokens": 2237675393.0,
      "step": 13346
    },
    {
      "entropy": 1.6530766189098358,
      "epoch": 1.4662327318667436,
      "grad_norm": 0.613264799118042,
      "learning_rate": 5.1595649751680575e-06,
      "loss": 1.414,
      "mean_token_accuracy": 0.6538712580998739,
      "num_tokens": 2237881038.0,
      "step": 13347
    },
    {
      "entropy": 1.7521977821985881,
      "epoch": 1.4663425887781165,
      "grad_norm": 0.5653010010719299,
      "learning_rate": 5.1583468616168685e-06,
      "loss": 1.5067,
      "mean_token_accuracy": 0.6414316246906916,
      "num_tokens": 2238070216.0,
      "step": 13348
    },
    {
      "entropy": 1.7145592470963795,
      "epoch": 1.4664524456894894,
      "grad_norm": 0.6285973787307739,
      "learning_rate": 5.157128932951369e-06,
      "loss": 1.344,
      "mean_token_accuracy": 0.668559322754542,
      "num_tokens": 2238222293.0,
      "step": 13349
    },
    {
      "entropy": 1.7896797955036163,
      "epoch": 1.4665623026008623,
      "grad_norm": 0.6855942606925964,
      "learning_rate": 5.155911189210105e-06,
      "loss": 1.3821,
      "mean_token_accuracy": 0.6510206758975983,
      "num_tokens": 2238356636.0,
      "step": 13350
    },
    {
      "entropy": 1.6923208236694336,
      "epoch": 1.4666721595122354,
      "grad_norm": 0.6504180431365967,
      "learning_rate": 5.154693630431617e-06,
      "loss": 1.4542,
      "mean_token_accuracy": 0.6632367918888727,
      "num_tokens": 2238572585.0,
      "step": 13351
    },
    {
      "entropy": 1.7046404878298442,
      "epoch": 1.4667820164236083,
      "grad_norm": 0.6475574970245361,
      "learning_rate": 5.153476256654448e-06,
      "loss": 1.4873,
      "mean_token_accuracy": 0.6398185839255651,
      "num_tokens": 2238780003.0,
      "step": 13352
    },
    {
      "entropy": 1.6447254419326782,
      "epoch": 1.4668918733349812,
      "grad_norm": 0.6468961834907532,
      "learning_rate": 5.1522590679171135e-06,
      "loss": 1.4823,
      "mean_token_accuracy": 0.6522268503904343,
      "num_tokens": 2238954299.0,
      "step": 13353
    },
    {
      "entropy": 1.7484534879525502,
      "epoch": 1.467001730246354,
      "grad_norm": 0.8634352684020996,
      "learning_rate": 5.151042064258145e-06,
      "loss": 1.4664,
      "mean_token_accuracy": 0.6500384410222372,
      "num_tokens": 2239151290.0,
      "step": 13354
    },
    {
      "entropy": 1.7502192457516987,
      "epoch": 1.467111587157727,
      "grad_norm": 0.6729628443717957,
      "learning_rate": 5.149825245716063e-06,
      "loss": 1.421,
      "mean_token_accuracy": 0.6504283597071966,
      "num_tokens": 2239313609.0,
      "step": 13355
    },
    {
      "entropy": 1.658990353345871,
      "epoch": 1.4672214440691,
      "grad_norm": 0.7221643328666687,
      "learning_rate": 5.148608612329378e-06,
      "loss": 1.3597,
      "mean_token_accuracy": 0.658984954158465,
      "num_tokens": 2239519569.0,
      "step": 13356
    },
    {
      "entropy": 1.6480421324570973,
      "epoch": 1.467331300980473,
      "grad_norm": 0.578301727771759,
      "learning_rate": 5.147392164136591e-06,
      "loss": 1.3677,
      "mean_token_accuracy": 0.6631327817837397,
      "num_tokens": 2239722966.0,
      "step": 13357
    },
    {
      "entropy": 1.6934454341729481,
      "epoch": 1.4674411578918458,
      "grad_norm": 0.65192711353302,
      "learning_rate": 5.146175901176203e-06,
      "loss": 1.3089,
      "mean_token_accuracy": 0.6639690001805624,
      "num_tokens": 2239902756.0,
      "step": 13358
    },
    {
      "entropy": 1.7277617851893108,
      "epoch": 1.467551014803219,
      "grad_norm": 0.617236316204071,
      "learning_rate": 5.144959823486708e-06,
      "loss": 1.5418,
      "mean_token_accuracy": 0.6341453293959299,
      "num_tokens": 2240145800.0,
      "step": 13359
    },
    {
      "entropy": 1.6705620487531025,
      "epoch": 1.4676608717145918,
      "grad_norm": 0.6375599503517151,
      "learning_rate": 5.1437439311066006e-06,
      "loss": 1.3709,
      "mean_token_accuracy": 0.6495741556088129,
      "num_tokens": 2240318927.0,
      "step": 13360
    },
    {
      "entropy": 1.658727725346883,
      "epoch": 1.4677707286259647,
      "grad_norm": 0.6619511842727661,
      "learning_rate": 5.142528224074359e-06,
      "loss": 1.4811,
      "mean_token_accuracy": 0.6575326571861903,
      "num_tokens": 2240495823.0,
      "step": 13361
    },
    {
      "entropy": 1.669166515270869,
      "epoch": 1.4678805855373376,
      "grad_norm": 0.7321708798408508,
      "learning_rate": 5.141312702428456e-06,
      "loss": 1.3142,
      "mean_token_accuracy": 0.6671041746934255,
      "num_tokens": 2240668352.0,
      "step": 13362
    },
    {
      "entropy": 1.7291592756907146,
      "epoch": 1.4679904424487105,
      "grad_norm": 0.7490743398666382,
      "learning_rate": 5.140097366207371e-06,
      "loss": 1.3883,
      "mean_token_accuracy": 0.6642330040534338,
      "num_tokens": 2240837521.0,
      "step": 13363
    },
    {
      "entropy": 1.6821561257044475,
      "epoch": 1.4681002993600836,
      "grad_norm": 0.6379314661026001,
      "learning_rate": 5.138882215449561e-06,
      "loss": 1.2651,
      "mean_token_accuracy": 0.6746839582920074,
      "num_tokens": 2240975191.0,
      "step": 13364
    },
    {
      "entropy": 1.699595848719279,
      "epoch": 1.4682101562714565,
      "grad_norm": 0.7495248913764954,
      "learning_rate": 5.137667250193487e-06,
      "loss": 1.3034,
      "mean_token_accuracy": 0.6714814802010854,
      "num_tokens": 2241136736.0,
      "step": 13365
    },
    {
      "entropy": 1.6805048982302349,
      "epoch": 1.4683200131828293,
      "grad_norm": 0.7307020425796509,
      "learning_rate": 5.136452470477605e-06,
      "loss": 1.5607,
      "mean_token_accuracy": 0.6429369499286016,
      "num_tokens": 2241302570.0,
      "step": 13366
    },
    {
      "entropy": 1.6858853499094646,
      "epoch": 1.4684298700942022,
      "grad_norm": 0.7530251741409302,
      "learning_rate": 5.135237876340357e-06,
      "loss": 1.4323,
      "mean_token_accuracy": 0.6499339739481608,
      "num_tokens": 2241459406.0,
      "step": 13367
    },
    {
      "entropy": 1.7072277665138245,
      "epoch": 1.4685397270055751,
      "grad_norm": 0.7187586426734924,
      "learning_rate": 5.1340234678201905e-06,
      "loss": 1.4593,
      "mean_token_accuracy": 0.6429513593514761,
      "num_tokens": 2241601911.0,
      "step": 13368
    },
    {
      "entropy": 1.7173350950082142,
      "epoch": 1.4686495839169482,
      "grad_norm": 0.6327357888221741,
      "learning_rate": 5.132809244955538e-06,
      "loss": 1.3817,
      "mean_token_accuracy": 0.6499977658192316,
      "num_tokens": 2241787986.0,
      "step": 13369
    },
    {
      "entropy": 1.7320161958535512,
      "epoch": 1.468759440828321,
      "grad_norm": 0.5910692811012268,
      "learning_rate": 5.131595207784826e-06,
      "loss": 1.5099,
      "mean_token_accuracy": 0.6356032888094584,
      "num_tokens": 2241965938.0,
      "step": 13370
    },
    {
      "entropy": 1.6744110186894734,
      "epoch": 1.468869297739694,
      "grad_norm": 0.6589808464050293,
      "learning_rate": 5.130381356346482e-06,
      "loss": 1.4489,
      "mean_token_accuracy": 0.6553682386875153,
      "num_tokens": 2242170006.0,
      "step": 13371
    },
    {
      "entropy": 1.6842441360155742,
      "epoch": 1.468979154651067,
      "grad_norm": 0.6548722386360168,
      "learning_rate": 5.129167690678926e-06,
      "loss": 1.4434,
      "mean_token_accuracy": 0.6569918642441431,
      "num_tokens": 2242349906.0,
      "step": 13372
    },
    {
      "entropy": 1.6717151006062825,
      "epoch": 1.46908901156244,
      "grad_norm": 0.7034960985183716,
      "learning_rate": 5.127954210820566e-06,
      "loss": 1.2131,
      "mean_token_accuracy": 0.6854620377222697,
      "num_tokens": 2242479249.0,
      "step": 13373
    },
    {
      "entropy": 1.7261487344900768,
      "epoch": 1.4691988684738129,
      "grad_norm": 0.6977003812789917,
      "learning_rate": 5.126740916809807e-06,
      "loss": 1.4922,
      "mean_token_accuracy": 0.6372009714444479,
      "num_tokens": 2242681993.0,
      "step": 13374
    },
    {
      "entropy": 1.6832520266373951,
      "epoch": 1.4693087253851858,
      "grad_norm": 0.6861147284507751,
      "learning_rate": 5.125527808685054e-06,
      "loss": 1.4987,
      "mean_token_accuracy": 0.6465383569399515,
      "num_tokens": 2242854318.0,
      "step": 13375
    },
    {
      "entropy": 1.6995068192481995,
      "epoch": 1.4694185822965586,
      "grad_norm": 0.6299582123756409,
      "learning_rate": 5.1243148864847e-06,
      "loss": 1.3544,
      "mean_token_accuracy": 0.6593434164921442,
      "num_tokens": 2243028642.0,
      "step": 13376
    },
    {
      "entropy": 1.6980251967906952,
      "epoch": 1.4695284392079317,
      "grad_norm": 0.7787138223648071,
      "learning_rate": 5.1231021502471275e-06,
      "loss": 1.4421,
      "mean_token_accuracy": 0.6528284599383672,
      "num_tokens": 2243237493.0,
      "step": 13377
    },
    {
      "entropy": 1.717189719279607,
      "epoch": 1.4696382961193046,
      "grad_norm": 0.6779033541679382,
      "learning_rate": 5.121889600010727e-06,
      "loss": 1.5139,
      "mean_token_accuracy": 0.6445932437976202,
      "num_tokens": 2243438772.0,
      "step": 13378
    },
    {
      "entropy": 1.7422145505746205,
      "epoch": 1.4697481530306775,
      "grad_norm": 0.6294360756874084,
      "learning_rate": 5.120677235813871e-06,
      "loss": 1.3356,
      "mean_token_accuracy": 0.6672088205814362,
      "num_tokens": 2243605382.0,
      "step": 13379
    },
    {
      "entropy": 1.72358504931132,
      "epoch": 1.4698580099420504,
      "grad_norm": 0.7390589118003845,
      "learning_rate": 5.1194650576949326e-06,
      "loss": 1.3306,
      "mean_token_accuracy": 0.6668838312228521,
      "num_tokens": 2243725776.0,
      "step": 13380
    },
    {
      "entropy": 1.7053417166074116,
      "epoch": 1.4699678668534233,
      "grad_norm": 0.7105720043182373,
      "learning_rate": 5.118253065692276e-06,
      "loss": 1.4912,
      "mean_token_accuracy": 0.6499655246734619,
      "num_tokens": 2243901685.0,
      "step": 13381
    },
    {
      "entropy": 1.7427148222923279,
      "epoch": 1.4700777237647964,
      "grad_norm": 0.640266478061676,
      "learning_rate": 5.117041259844256e-06,
      "loss": 1.4751,
      "mean_token_accuracy": 0.6555547416210175,
      "num_tokens": 2244055138.0,
      "step": 13382
    },
    {
      "entropy": 1.7193391521771748,
      "epoch": 1.4701875806761693,
      "grad_norm": 0.7918505668640137,
      "learning_rate": 5.115829640189229e-06,
      "loss": 1.3312,
      "mean_token_accuracy": 0.6624412635962168,
      "num_tokens": 2244239813.0,
      "step": 13383
    },
    {
      "entropy": 1.6076705555121105,
      "epoch": 1.4702974375875422,
      "grad_norm": 0.700372040271759,
      "learning_rate": 5.1146182067655445e-06,
      "loss": 1.2775,
      "mean_token_accuracy": 0.6678995142380396,
      "num_tokens": 2244452998.0,
      "step": 13384
    },
    {
      "entropy": 1.7358313500881195,
      "epoch": 1.4704072944989153,
      "grad_norm": 0.6558439135551453,
      "learning_rate": 5.113406959611545e-06,
      "loss": 1.4388,
      "mean_token_accuracy": 0.6488740295171738,
      "num_tokens": 2244601173.0,
      "step": 13385
    },
    {
      "entropy": 1.7473020454247792,
      "epoch": 1.4705171514102882,
      "grad_norm": 0.704651415348053,
      "learning_rate": 5.112195898765557e-06,
      "loss": 1.5605,
      "mean_token_accuracy": 0.6439760675032934,
      "num_tokens": 2244776293.0,
      "step": 13386
    },
    {
      "entropy": 1.702320804198583,
      "epoch": 1.470627008321661,
      "grad_norm": 0.7008829712867737,
      "learning_rate": 5.110985024265917e-06,
      "loss": 1.4391,
      "mean_token_accuracy": 0.6583433995644251,
      "num_tokens": 2244939458.0,
      "step": 13387
    },
    {
      "entropy": 1.700803816318512,
      "epoch": 1.470736865233034,
      "grad_norm": 0.7770166993141174,
      "learning_rate": 5.109774336150951e-06,
      "loss": 1.4417,
      "mean_token_accuracy": 0.6354402701059977,
      "num_tokens": 2245145754.0,
      "step": 13388
    },
    {
      "entropy": 1.7102882862091064,
      "epoch": 1.4708467221444068,
      "grad_norm": 0.7285779118537903,
      "learning_rate": 5.108563834458969e-06,
      "loss": 1.4532,
      "mean_token_accuracy": 0.6507706940174103,
      "num_tokens": 2245356512.0,
      "step": 13389
    },
    {
      "entropy": 1.7527295649051666,
      "epoch": 1.47095657905578,
      "grad_norm": 0.793194055557251,
      "learning_rate": 5.107353519228289e-06,
      "loss": 1.2389,
      "mean_token_accuracy": 0.6625605672597885,
      "num_tokens": 2245496613.0,
      "step": 13390
    },
    {
      "entropy": 1.723008652528127,
      "epoch": 1.4710664359671528,
      "grad_norm": 0.6528907418251038,
      "learning_rate": 5.106143390497211e-06,
      "loss": 1.2856,
      "mean_token_accuracy": 0.6656887034575144,
      "num_tokens": 2245622811.0,
      "step": 13391
    },
    {
      "entropy": 1.6672236522038777,
      "epoch": 1.4711762928785257,
      "grad_norm": 0.5492684245109558,
      "learning_rate": 5.1049334483040436e-06,
      "loss": 1.3844,
      "mean_token_accuracy": 0.6572863310575485,
      "num_tokens": 2245825018.0,
      "step": 13392
    },
    {
      "entropy": 1.695264220237732,
      "epoch": 1.4712861497898986,
      "grad_norm": 0.6142525672912598,
      "learning_rate": 5.103723692687076e-06,
      "loss": 1.3716,
      "mean_token_accuracy": 0.6567343175411224,
      "num_tokens": 2246014688.0,
      "step": 13393
    },
    {
      "entropy": 1.7013497749964397,
      "epoch": 1.4713960067012715,
      "grad_norm": 0.6703829765319824,
      "learning_rate": 5.102514123684594e-06,
      "loss": 1.3899,
      "mean_token_accuracy": 0.6593191623687744,
      "num_tokens": 2246182122.0,
      "step": 13394
    },
    {
      "entropy": 1.7167363564173381,
      "epoch": 1.4715058636126446,
      "grad_norm": 0.7111037373542786,
      "learning_rate": 5.101304741334883e-06,
      "loss": 1.4901,
      "mean_token_accuracy": 0.6491454988718033,
      "num_tokens": 2246416059.0,
      "step": 13395
    },
    {
      "entropy": 1.6614757577578227,
      "epoch": 1.4716157205240175,
      "grad_norm": 0.6759634017944336,
      "learning_rate": 5.10009554567622e-06,
      "loss": 1.2934,
      "mean_token_accuracy": 0.6705714662869772,
      "num_tokens": 2246560395.0,
      "step": 13396
    },
    {
      "entropy": 1.6646903554598491,
      "epoch": 1.4717255774353903,
      "grad_norm": 0.6592537760734558,
      "learning_rate": 5.0988865367468746e-06,
      "loss": 1.2862,
      "mean_token_accuracy": 0.6767180810372034,
      "num_tokens": 2246720000.0,
      "step": 13397
    },
    {
      "entropy": 1.7495815654595692,
      "epoch": 1.4718354343467634,
      "grad_norm": 0.8151704668998718,
      "learning_rate": 5.09767771458511e-06,
      "loss": 1.5063,
      "mean_token_accuracy": 0.6574457635482153,
      "num_tokens": 2246873756.0,
      "step": 13398
    },
    {
      "entropy": 1.6735199590524037,
      "epoch": 1.4719452912581363,
      "grad_norm": 0.6688457131385803,
      "learning_rate": 5.096469079229187e-06,
      "loss": 1.3796,
      "mean_token_accuracy": 0.6598214159409205,
      "num_tokens": 2247046154.0,
      "step": 13399
    },
    {
      "entropy": 1.6267732282479603,
      "epoch": 1.4720551481695092,
      "grad_norm": 0.6082208156585693,
      "learning_rate": 5.095260630717358e-06,
      "loss": 1.3601,
      "mean_token_accuracy": 0.6803909589846929,
      "num_tokens": 2247214410.0,
      "step": 13400
    },
    {
      "entropy": 1.7172918021678925,
      "epoch": 1.472165005080882,
      "grad_norm": 0.7851716876029968,
      "learning_rate": 5.0940523690878665e-06,
      "loss": 1.2889,
      "mean_token_accuracy": 0.6563605020443598,
      "num_tokens": 2247347179.0,
      "step": 13401
    },
    {
      "entropy": 1.674240271250407,
      "epoch": 1.472274861992255,
      "grad_norm": 0.7133161425590515,
      "learning_rate": 5.092844294378959e-06,
      "loss": 1.6189,
      "mean_token_accuracy": 0.65032958984375,
      "num_tokens": 2247510287.0,
      "step": 13402
    },
    {
      "entropy": 1.7008503377437592,
      "epoch": 1.472384718903628,
      "grad_norm": 0.7033988237380981,
      "learning_rate": 5.091636406628866e-06,
      "loss": 1.4201,
      "mean_token_accuracy": 0.6558716595172882,
      "num_tokens": 2247651329.0,
      "step": 13403
    },
    {
      "entropy": 1.6965941190719604,
      "epoch": 1.472494575815001,
      "grad_norm": 0.7866081595420837,
      "learning_rate": 5.090428705875821e-06,
      "loss": 1.465,
      "mean_token_accuracy": 0.6466370224952698,
      "num_tokens": 2247825351.0,
      "step": 13404
    },
    {
      "entropy": 1.656824787457784,
      "epoch": 1.4726044327263739,
      "grad_norm": 0.7088666558265686,
      "learning_rate": 5.089221192158043e-06,
      "loss": 1.3121,
      "mean_token_accuracy": 0.6727252850929896,
      "num_tokens": 2248030695.0,
      "step": 13405
    },
    {
      "entropy": 1.7407319247722626,
      "epoch": 1.4727142896377468,
      "grad_norm": 0.7755722999572754,
      "learning_rate": 5.088013865513749e-06,
      "loss": 1.5342,
      "mean_token_accuracy": 0.6439951807260513,
      "num_tokens": 2248239120.0,
      "step": 13406
    },
    {
      "entropy": 1.6667874654134114,
      "epoch": 1.4728241465491196,
      "grad_norm": 0.6196835041046143,
      "learning_rate": 5.086806725981153e-06,
      "loss": 1.388,
      "mean_token_accuracy": 0.667399138212204,
      "num_tokens": 2248406198.0,
      "step": 13407
    },
    {
      "entropy": 1.7022119263807933,
      "epoch": 1.4729340034604927,
      "grad_norm": 0.6414451599121094,
      "learning_rate": 5.08559977359846e-06,
      "loss": 1.3475,
      "mean_token_accuracy": 0.6679307371377945,
      "num_tokens": 2248546706.0,
      "step": 13408
    },
    {
      "entropy": 1.67433958252271,
      "epoch": 1.4730438603718656,
      "grad_norm": 0.7130979895591736,
      "learning_rate": 5.0843930084038696e-06,
      "loss": 1.2636,
      "mean_token_accuracy": 0.6698357065518697,
      "num_tokens": 2248687310.0,
      "step": 13409
    },
    {
      "entropy": 1.658446768919627,
      "epoch": 1.4731537172832385,
      "grad_norm": 0.7370253801345825,
      "learning_rate": 5.083186430435574e-06,
      "loss": 1.4569,
      "mean_token_accuracy": 0.6521903574466705,
      "num_tokens": 2248871430.0,
      "step": 13410
    },
    {
      "entropy": 1.725239743789037,
      "epoch": 1.4732635741946116,
      "grad_norm": 0.6639283299446106,
      "learning_rate": 5.0819800397317635e-06,
      "loss": 1.3176,
      "mean_token_accuracy": 0.6676472028096517,
      "num_tokens": 2249035961.0,
      "step": 13411
    },
    {
      "entropy": 1.7703583141167958,
      "epoch": 1.4733734311059845,
      "grad_norm": 0.6325090527534485,
      "learning_rate": 5.0807738363306165e-06,
      "loss": 1.4219,
      "mean_token_accuracy": 0.6441073268651962,
      "num_tokens": 2249163917.0,
      "step": 13412
    },
    {
      "entropy": 1.7586402297019958,
      "epoch": 1.4734832880173574,
      "grad_norm": 0.6557300686836243,
      "learning_rate": 5.0795678202703104e-06,
      "loss": 1.4752,
      "mean_token_accuracy": 0.6431727459033331,
      "num_tokens": 2249359791.0,
      "step": 13413
    },
    {
      "entropy": 1.7578627566496532,
      "epoch": 1.4735931449287303,
      "grad_norm": 0.7130923271179199,
      "learning_rate": 5.078361991589016e-06,
      "loss": 1.3846,
      "mean_token_accuracy": 0.6526891241470972,
      "num_tokens": 2249514293.0,
      "step": 13414
    },
    {
      "entropy": 1.7255384922027588,
      "epoch": 1.4737030018401032,
      "grad_norm": 0.6839941740036011,
      "learning_rate": 5.0771563503248944e-06,
      "loss": 1.3951,
      "mean_token_accuracy": 0.6575382997592291,
      "num_tokens": 2249650382.0,
      "step": 13415
    },
    {
      "entropy": 1.6533535917599995,
      "epoch": 1.4738128587514763,
      "grad_norm": 0.6555220484733582,
      "learning_rate": 5.075950896516107e-06,
      "loss": 1.2708,
      "mean_token_accuracy": 0.6787864863872528,
      "num_tokens": 2249800802.0,
      "step": 13416
    },
    {
      "entropy": 1.7047683497269948,
      "epoch": 1.4739227156628492,
      "grad_norm": 0.7065283060073853,
      "learning_rate": 5.074745630200806e-06,
      "loss": 1.3563,
      "mean_token_accuracy": 0.673611119389534,
      "num_tokens": 2249944260.0,
      "step": 13417
    },
    {
      "entropy": 1.7077392141024272,
      "epoch": 1.474032572574222,
      "grad_norm": 0.7069240212440491,
      "learning_rate": 5.073540551417131e-06,
      "loss": 1.2927,
      "mean_token_accuracy": 0.664387916525205,
      "num_tokens": 2250053815.0,
      "step": 13418
    },
    {
      "entropy": 1.675834854443868,
      "epoch": 1.474142429485595,
      "grad_norm": 0.6132168173789978,
      "learning_rate": 5.072335660203231e-06,
      "loss": 1.5704,
      "mean_token_accuracy": 0.6342288305362066,
      "num_tokens": 2250337503.0,
      "step": 13419
    },
    {
      "entropy": 1.7231556475162506,
      "epoch": 1.4742522863969678,
      "grad_norm": 0.8251075744628906,
      "learning_rate": 5.071130956597236e-06,
      "loss": 1.3726,
      "mean_token_accuracy": 0.6538362056016922,
      "num_tokens": 2250483346.0,
      "step": 13420
    },
    {
      "entropy": 1.7046967844168346,
      "epoch": 1.474362143308341,
      "grad_norm": 0.7439585328102112,
      "learning_rate": 5.069926440637272e-06,
      "loss": 1.4672,
      "mean_token_accuracy": 0.6513397047917048,
      "num_tokens": 2250658255.0,
      "step": 13421
    },
    {
      "entropy": 1.756682167450587,
      "epoch": 1.4744720002197138,
      "grad_norm": 0.7163110375404358,
      "learning_rate": 5.068722112361466e-06,
      "loss": 1.5754,
      "mean_token_accuracy": 0.6236685266097387,
      "num_tokens": 2250872770.0,
      "step": 13422
    },
    {
      "entropy": 1.7206588784853618,
      "epoch": 1.4745818571310867,
      "grad_norm": 0.6744549870491028,
      "learning_rate": 5.067517971807931e-06,
      "loss": 1.4174,
      "mean_token_accuracy": 0.6684413055578867,
      "num_tokens": 2251059371.0,
      "step": 13423
    },
    {
      "entropy": 1.6995096405347188,
      "epoch": 1.4746917140424598,
      "grad_norm": 0.8165592551231384,
      "learning_rate": 5.066314019014781e-06,
      "loss": 1.1724,
      "mean_token_accuracy": 0.6960208316644033,
      "num_tokens": 2251185914.0,
      "step": 13424
    },
    {
      "entropy": 1.6548355321089427,
      "epoch": 1.4748015709538327,
      "grad_norm": 0.6455921530723572,
      "learning_rate": 5.065110254020118e-06,
      "loss": 1.5029,
      "mean_token_accuracy": 0.6502973834673563,
      "num_tokens": 2251393117.0,
      "step": 13425
    },
    {
      "entropy": 1.6629098852475483,
      "epoch": 1.4749114278652056,
      "grad_norm": 0.8761639595031738,
      "learning_rate": 5.063906676862039e-06,
      "loss": 1.3805,
      "mean_token_accuracy": 0.6616864850123724,
      "num_tokens": 2251558769.0,
      "step": 13426
    },
    {
      "entropy": 1.7066173553466797,
      "epoch": 1.4750212847765785,
      "grad_norm": 0.7723012566566467,
      "learning_rate": 5.062703287578638e-06,
      "loss": 1.3899,
      "mean_token_accuracy": 0.65970512231191,
      "num_tokens": 2251741724.0,
      "step": 13427
    },
    {
      "entropy": 1.6936110059420268,
      "epoch": 1.4751311416879513,
      "grad_norm": 0.5787246823310852,
      "learning_rate": 5.061500086208007e-06,
      "loss": 1.3812,
      "mean_token_accuracy": 0.662451446056366,
      "num_tokens": 2251977302.0,
      "step": 13428
    },
    {
      "entropy": 1.721141795317332,
      "epoch": 1.4752409985993244,
      "grad_norm": 0.5804960131645203,
      "learning_rate": 5.060297072788221e-06,
      "loss": 1.5953,
      "mean_token_accuracy": 0.6185376693805059,
      "num_tokens": 2252212559.0,
      "step": 13429
    },
    {
      "entropy": 1.7097849945227306,
      "epoch": 1.4753508555106973,
      "grad_norm": 0.7100227475166321,
      "learning_rate": 5.059094247357354e-06,
      "loss": 1.4159,
      "mean_token_accuracy": 0.6612443824609121,
      "num_tokens": 2252360518.0,
      "step": 13430
    },
    {
      "entropy": 1.6556785504023235,
      "epoch": 1.4754607124220702,
      "grad_norm": 0.6368470788002014,
      "learning_rate": 5.05789160995348e-06,
      "loss": 1.5139,
      "mean_token_accuracy": 0.65046127140522,
      "num_tokens": 2252576094.0,
      "step": 13431
    },
    {
      "entropy": 1.7037680546442668,
      "epoch": 1.4755705693334433,
      "grad_norm": 0.7826297879219055,
      "learning_rate": 5.056689160614659e-06,
      "loss": 1.3208,
      "mean_token_accuracy": 0.6799842069546381,
      "num_tokens": 2252703056.0,
      "step": 13432
    },
    {
      "entropy": 1.7210968534151714,
      "epoch": 1.475680426244816,
      "grad_norm": 0.8060481548309326,
      "learning_rate": 5.055486899378944e-06,
      "loss": 1.419,
      "mean_token_accuracy": 0.6568311204512914,
      "num_tokens": 2252857460.0,
      "step": 13433
    },
    {
      "entropy": 1.677445928255717,
      "epoch": 1.475790283156189,
      "grad_norm": 0.5863375067710876,
      "learning_rate": 5.054284826284393e-06,
      "loss": 1.4257,
      "mean_token_accuracy": 0.6570474654436111,
      "num_tokens": 2253067045.0,
      "step": 13434
    },
    {
      "entropy": 1.7341270844141643,
      "epoch": 1.475900140067562,
      "grad_norm": 0.594789445400238,
      "learning_rate": 5.053082941369045e-06,
      "loss": 1.3536,
      "mean_token_accuracy": 0.6686640679836273,
      "num_tokens": 2253265121.0,
      "step": 13435
    },
    {
      "entropy": 1.7422856092453003,
      "epoch": 1.4760099969789349,
      "grad_norm": 0.7513555884361267,
      "learning_rate": 5.051881244670947e-06,
      "loss": 1.4024,
      "mean_token_accuracy": 0.6600150018930435,
      "num_tokens": 2253440176.0,
      "step": 13436
    },
    {
      "entropy": 1.6602600614229839,
      "epoch": 1.476119853890308,
      "grad_norm": 0.6317045092582703,
      "learning_rate": 5.050679736228125e-06,
      "loss": 1.5157,
      "mean_token_accuracy": 0.6511089901129404,
      "num_tokens": 2253643777.0,
      "step": 13437
    },
    {
      "entropy": 1.7466975152492523,
      "epoch": 1.4762297108016809,
      "grad_norm": 0.647018313407898,
      "learning_rate": 5.049478416078608e-06,
      "loss": 1.3602,
      "mean_token_accuracy": 0.6553884297609329,
      "num_tokens": 2253771315.0,
      "step": 13438
    },
    {
      "entropy": 1.682116021712621,
      "epoch": 1.4763395677130537,
      "grad_norm": 0.8301473259925842,
      "learning_rate": 5.048277284260416e-06,
      "loss": 1.3466,
      "mean_token_accuracy": 0.6662062009175619,
      "num_tokens": 2253950173.0,
      "step": 13439
    },
    {
      "entropy": 1.7308276693026226,
      "epoch": 1.4764494246244266,
      "grad_norm": 0.8368297219276428,
      "learning_rate": 5.047076340811569e-06,
      "loss": 1.3698,
      "mean_token_accuracy": 0.6646293699741364,
      "num_tokens": 2254076894.0,
      "step": 13440
    },
    {
      "entropy": 1.7010807593663533,
      "epoch": 1.4765592815357995,
      "grad_norm": 0.6222649216651917,
      "learning_rate": 5.0458755857700725e-06,
      "loss": 1.3895,
      "mean_token_accuracy": 0.6515608131885529,
      "num_tokens": 2254301385.0,
      "step": 13441
    },
    {
      "entropy": 1.6313113868236542,
      "epoch": 1.4766691384471726,
      "grad_norm": 0.6975681185722351,
      "learning_rate": 5.04467501917393e-06,
      "loss": 1.1905,
      "mean_token_accuracy": 0.6868863999843597,
      "num_tokens": 2254455186.0,
      "step": 13442
    },
    {
      "entropy": 1.6619862020015717,
      "epoch": 1.4767789953585455,
      "grad_norm": 0.5563586354255676,
      "learning_rate": 5.043474641061141e-06,
      "loss": 1.4175,
      "mean_token_accuracy": 0.6464668810367584,
      "num_tokens": 2254700519.0,
      "step": 13443
    },
    {
      "entropy": 1.6394928991794586,
      "epoch": 1.4768888522699184,
      "grad_norm": 0.6185762882232666,
      "learning_rate": 5.042274451469696e-06,
      "loss": 1.3622,
      "mean_token_accuracy": 0.6612973709901174,
      "num_tokens": 2254900856.0,
      "step": 13444
    },
    {
      "entropy": 1.7395354708035786,
      "epoch": 1.4769987091812915,
      "grad_norm": 0.7197256684303284,
      "learning_rate": 5.041074450437577e-06,
      "loss": 1.3647,
      "mean_token_accuracy": 0.6561250587304434,
      "num_tokens": 2255066819.0,
      "step": 13445
    },
    {
      "entropy": 1.7001774807771046,
      "epoch": 1.4771085660926644,
      "grad_norm": 0.753657341003418,
      "learning_rate": 5.039874638002771e-06,
      "loss": 1.3652,
      "mean_token_accuracy": 0.6524695505698522,
      "num_tokens": 2255201358.0,
      "step": 13446
    },
    {
      "entropy": 1.6709985435009003,
      "epoch": 1.4772184230040373,
      "grad_norm": 0.6185214519500732,
      "learning_rate": 5.038675014203243e-06,
      "loss": 1.1932,
      "mean_token_accuracy": 0.6734795669714609,
      "num_tokens": 2255383642.0,
      "step": 13447
    },
    {
      "entropy": 1.7464906374613445,
      "epoch": 1.4773282799154102,
      "grad_norm": 0.6656374931335449,
      "learning_rate": 5.037475579076966e-06,
      "loss": 1.3962,
      "mean_token_accuracy": 0.6644060959418615,
      "num_tokens": 2255534586.0,
      "step": 13448
    },
    {
      "entropy": 1.685450941324234,
      "epoch": 1.477438136826783,
      "grad_norm": 0.808623731136322,
      "learning_rate": 5.0362763326619e-06,
      "loss": 1.4986,
      "mean_token_accuracy": 0.6441106796264648,
      "num_tokens": 2255683821.0,
      "step": 13449
    },
    {
      "entropy": 1.7671352128187816,
      "epoch": 1.4775479937381562,
      "grad_norm": 0.7077687382698059,
      "learning_rate": 5.0350772749960004e-06,
      "loss": 1.1849,
      "mean_token_accuracy": 0.6855556517839432,
      "num_tokens": 2255778360.0,
      "step": 13450
    },
    {
      "entropy": 1.633953034877777,
      "epoch": 1.477657850649529,
      "grad_norm": 0.6457007527351379,
      "learning_rate": 5.033878406117215e-06,
      "loss": 1.6397,
      "mean_token_accuracy": 0.6252560267845789,
      "num_tokens": 2256008403.0,
      "step": 13451
    },
    {
      "entropy": 1.6935044626394908,
      "epoch": 1.477767707560902,
      "grad_norm": 0.7718963623046875,
      "learning_rate": 5.032679726063494e-06,
      "loss": 1.2658,
      "mean_token_accuracy": 0.6831946323315302,
      "num_tokens": 2256131286.0,
      "step": 13452
    },
    {
      "entropy": 1.6343218088150024,
      "epoch": 1.4778775644722748,
      "grad_norm": 0.6215181350708008,
      "learning_rate": 5.03148123487277e-06,
      "loss": 1.3287,
      "mean_token_accuracy": 0.6735940128564835,
      "num_tokens": 2256326690.0,
      "step": 13453
    },
    {
      "entropy": 1.7170305450757344,
      "epoch": 1.4779874213836477,
      "grad_norm": 0.6218499541282654,
      "learning_rate": 5.030282932582972e-06,
      "loss": 1.4629,
      "mean_token_accuracy": 0.6319693426291147,
      "num_tokens": 2256500661.0,
      "step": 13454
    },
    {
      "entropy": 1.6966708103815715,
      "epoch": 1.4780972782950208,
      "grad_norm": 0.7736793756484985,
      "learning_rate": 5.0290848192320344e-06,
      "loss": 1.465,
      "mean_token_accuracy": 0.6512386153141657,
      "num_tokens": 2256690681.0,
      "step": 13455
    },
    {
      "entropy": 1.6986188689867656,
      "epoch": 1.4782071352063937,
      "grad_norm": 0.8579681515693665,
      "learning_rate": 5.02788689485787e-06,
      "loss": 1.4793,
      "mean_token_accuracy": 0.6540632620453835,
      "num_tokens": 2256859278.0,
      "step": 13456
    },
    {
      "entropy": 1.7905776103337605,
      "epoch": 1.4783169921177666,
      "grad_norm": 0.6369954347610474,
      "learning_rate": 5.02668915949839e-06,
      "loss": 1.5357,
      "mean_token_accuracy": 0.651649167140325,
      "num_tokens": 2257015967.0,
      "step": 13457
    },
    {
      "entropy": 1.7184994022051494,
      "epoch": 1.4784268490291397,
      "grad_norm": 0.5851972103118896,
      "learning_rate": 5.025491613191511e-06,
      "loss": 1.4093,
      "mean_token_accuracy": 0.6455397953589758,
      "num_tokens": 2257178746.0,
      "step": 13458
    },
    {
      "entropy": 1.694368600845337,
      "epoch": 1.4785367059405126,
      "grad_norm": 0.7007179856300354,
      "learning_rate": 5.0242942559751275e-06,
      "loss": 1.3101,
      "mean_token_accuracy": 0.6777728994687399,
      "num_tokens": 2257309719.0,
      "step": 13459
    },
    {
      "entropy": 1.741744190454483,
      "epoch": 1.4786465628518854,
      "grad_norm": 0.6834388971328735,
      "learning_rate": 5.023097087887141e-06,
      "loss": 1.3221,
      "mean_token_accuracy": 0.6692759493986765,
      "num_tokens": 2257454575.0,
      "step": 13460
    },
    {
      "entropy": 1.7196588615576427,
      "epoch": 1.4787564197632583,
      "grad_norm": 0.7268269658088684,
      "learning_rate": 5.021900108965438e-06,
      "loss": 1.2486,
      "mean_token_accuracy": 0.6762056102355322,
      "num_tokens": 2257600219.0,
      "step": 13461
    },
    {
      "entropy": 1.722573568423589,
      "epoch": 1.4788662766746312,
      "grad_norm": 0.7268519997596741,
      "learning_rate": 5.0207033192479e-06,
      "loss": 1.6339,
      "mean_token_accuracy": 0.6259458661079407,
      "num_tokens": 2257841931.0,
      "step": 13462
    },
    {
      "entropy": 1.6968311369419098,
      "epoch": 1.4789761335860043,
      "grad_norm": 0.6865484714508057,
      "learning_rate": 5.019506718772407e-06,
      "loss": 1.3771,
      "mean_token_accuracy": 0.6622037986914316,
      "num_tokens": 2258003647.0,
      "step": 13463
    },
    {
      "entropy": 1.6797509094079335,
      "epoch": 1.4790859904973772,
      "grad_norm": 0.6517234444618225,
      "learning_rate": 5.018310307576835e-06,
      "loss": 1.2848,
      "mean_token_accuracy": 0.6743231564760208,
      "num_tokens": 2258187580.0,
      "step": 13464
    },
    {
      "entropy": 1.7106235921382904,
      "epoch": 1.47919584740875,
      "grad_norm": 0.6443414092063904,
      "learning_rate": 5.017114085699046e-06,
      "loss": 1.4221,
      "mean_token_accuracy": 0.6623661716779073,
      "num_tokens": 2258378553.0,
      "step": 13465
    },
    {
      "entropy": 1.715536544720332,
      "epoch": 1.479305704320123,
      "grad_norm": 0.7782425284385681,
      "learning_rate": 5.0159180531768985e-06,
      "loss": 1.3477,
      "mean_token_accuracy": 0.6619761238495508,
      "num_tokens": 2258508761.0,
      "step": 13466
    },
    {
      "entropy": 1.7270130614439647,
      "epoch": 1.4794155612314959,
      "grad_norm": 0.6732892990112305,
      "learning_rate": 5.014722210048251e-06,
      "loss": 1.3856,
      "mean_token_accuracy": 0.6509933620691299,
      "num_tokens": 2258685957.0,
      "step": 13467
    },
    {
      "entropy": 1.73613902926445,
      "epoch": 1.479525418142869,
      "grad_norm": 0.6732542514801025,
      "learning_rate": 5.0135265563509475e-06,
      "loss": 1.3947,
      "mean_token_accuracy": 0.6510529269774755,
      "num_tokens": 2258863473.0,
      "step": 13468
    },
    {
      "entropy": 1.7343490421772003,
      "epoch": 1.4796352750542419,
      "grad_norm": 0.7667641639709473,
      "learning_rate": 5.0123310921228265e-06,
      "loss": 1.2903,
      "mean_token_accuracy": 0.6681475838025411,
      "num_tokens": 2259013861.0,
      "step": 13469
    },
    {
      "entropy": 1.7270642916361492,
      "epoch": 1.4797451319656147,
      "grad_norm": 0.7105488777160645,
      "learning_rate": 5.011135817401733e-06,
      "loss": 1.2928,
      "mean_token_accuracy": 0.6620072424411774,
      "num_tokens": 2259178477.0,
      "step": 13470
    },
    {
      "entropy": 1.7137524485588074,
      "epoch": 1.4798549888769879,
      "grad_norm": 0.7805687785148621,
      "learning_rate": 5.009940732225489e-06,
      "loss": 1.3888,
      "mean_token_accuracy": 0.6767902622620264,
      "num_tokens": 2259334869.0,
      "step": 13471
    },
    {
      "entropy": 1.7165914575258892,
      "epoch": 1.4799648457883607,
      "grad_norm": 0.7019093632698059,
      "learning_rate": 5.008745836631925e-06,
      "loss": 1.4593,
      "mean_token_accuracy": 0.6598990907271703,
      "num_tokens": 2259474030.0,
      "step": 13472
    },
    {
      "entropy": 1.6991265912850697,
      "epoch": 1.4800747026997336,
      "grad_norm": 0.6628867387771606,
      "learning_rate": 5.007551130658857e-06,
      "loss": 1.5422,
      "mean_token_accuracy": 0.6464388569196066,
      "num_tokens": 2259650297.0,
      "step": 13473
    },
    {
      "entropy": 1.6515828371047974,
      "epoch": 1.4801845596111065,
      "grad_norm": 0.622098982334137,
      "learning_rate": 5.00635661434409e-06,
      "loss": 1.3175,
      "mean_token_accuracy": 0.6653083264827728,
      "num_tokens": 2259822214.0,
      "step": 13474
    },
    {
      "entropy": 1.6867812772591908,
      "epoch": 1.4802944165224794,
      "grad_norm": 0.6378466486930847,
      "learning_rate": 5.0051622877254355e-06,
      "loss": 1.4009,
      "mean_token_accuracy": 0.6632012327512106,
      "num_tokens": 2259989102.0,
      "step": 13475
    },
    {
      "entropy": 1.683827131986618,
      "epoch": 1.4804042734338525,
      "grad_norm": 0.6706616282463074,
      "learning_rate": 5.003968150840697e-06,
      "loss": 1.4421,
      "mean_token_accuracy": 0.6411708742380142,
      "num_tokens": 2260172218.0,
      "step": 13476
    },
    {
      "entropy": 1.7033619185288746,
      "epoch": 1.4805141303452254,
      "grad_norm": 0.6120789051055908,
      "learning_rate": 5.002774203727665e-06,
      "loss": 1.3766,
      "mean_token_accuracy": 0.6580955187479655,
      "num_tokens": 2260328696.0,
      "step": 13477
    },
    {
      "entropy": 1.6510994335015614,
      "epoch": 1.4806239872565983,
      "grad_norm": 0.6583324670791626,
      "learning_rate": 5.001580446424126e-06,
      "loss": 1.2989,
      "mean_token_accuracy": 0.6703228702147802,
      "num_tokens": 2260527309.0,
      "step": 13478
    },
    {
      "entropy": 1.7263270119826,
      "epoch": 1.4807338441679712,
      "grad_norm": 0.8199454545974731,
      "learning_rate": 5.00038687896786e-06,
      "loss": 1.5701,
      "mean_token_accuracy": 0.6611626545588175,
      "num_tokens": 2260654170.0,
      "step": 13479
    },
    {
      "entropy": 1.6092917223771412,
      "epoch": 1.480843701079344,
      "grad_norm": 0.649434506893158,
      "learning_rate": 4.999193501396651e-06,
      "loss": 1.3777,
      "mean_token_accuracy": 0.6647194971640905,
      "num_tokens": 2260850430.0,
      "step": 13480
    },
    {
      "entropy": 1.7251697679360707,
      "epoch": 1.4809535579907172,
      "grad_norm": 0.6333536505699158,
      "learning_rate": 4.998000313748261e-06,
      "loss": 1.36,
      "mean_token_accuracy": 0.6603184541066488,
      "num_tokens": 2260977793.0,
      "step": 13481
    },
    {
      "entropy": 1.757962852716446,
      "epoch": 1.48106341490209,
      "grad_norm": 0.8047628402709961,
      "learning_rate": 4.9968073160604545e-06,
      "loss": 1.3915,
      "mean_token_accuracy": 0.6611624906460444,
      "num_tokens": 2261094020.0,
      "step": 13482
    },
    {
      "entropy": 1.6559306979179382,
      "epoch": 1.481173271813463,
      "grad_norm": 0.6404219269752502,
      "learning_rate": 4.995614508370992e-06,
      "loss": 1.3355,
      "mean_token_accuracy": 0.6575894902149836,
      "num_tokens": 2261227135.0,
      "step": 13483
    },
    {
      "entropy": 1.7070954938729603,
      "epoch": 1.481283128724836,
      "grad_norm": 0.749505341053009,
      "learning_rate": 4.994421890717627e-06,
      "loss": 1.2544,
      "mean_token_accuracy": 0.6670717298984528,
      "num_tokens": 2261352833.0,
      "step": 13484
    },
    {
      "entropy": 1.694403092066447,
      "epoch": 1.481392985636209,
      "grad_norm": 0.7458823919296265,
      "learning_rate": 4.9932294631381025e-06,
      "loss": 1.273,
      "mean_token_accuracy": 0.6751887102921804,
      "num_tokens": 2261469789.0,
      "step": 13485
    },
    {
      "entropy": 1.767996261517207,
      "epoch": 1.4815028425475818,
      "grad_norm": 0.7070764899253845,
      "learning_rate": 4.992037225670156e-06,
      "loss": 1.2761,
      "mean_token_accuracy": 0.6802639961242676,
      "num_tokens": 2261593206.0,
      "step": 13486
    },
    {
      "entropy": 1.6416256129741669,
      "epoch": 1.4816126994589547,
      "grad_norm": 0.6489446759223938,
      "learning_rate": 4.990845178351528e-06,
      "loss": 1.3192,
      "mean_token_accuracy": 0.6602905988693237,
      "num_tokens": 2261754373.0,
      "step": 13487
    },
    {
      "entropy": 1.7270208696524303,
      "epoch": 1.4817225563703276,
      "grad_norm": 0.5677620768547058,
      "learning_rate": 4.989653321219938e-06,
      "loss": 1.4977,
      "mean_token_accuracy": 0.65739672879378,
      "num_tokens": 2261959159.0,
      "step": 13488
    },
    {
      "entropy": 1.6949149171511333,
      "epoch": 1.4818324132817007,
      "grad_norm": 0.6971380114555359,
      "learning_rate": 4.988461654313116e-06,
      "loss": 1.3033,
      "mean_token_accuracy": 0.6612110733985901,
      "num_tokens": 2262083678.0,
      "step": 13489
    },
    {
      "entropy": 1.7387464841206868,
      "epoch": 1.4819422701930736,
      "grad_norm": 0.7100080251693726,
      "learning_rate": 4.987270177668773e-06,
      "loss": 1.2981,
      "mean_token_accuracy": 0.6643347293138504,
      "num_tokens": 2262239288.0,
      "step": 13490
    },
    {
      "entropy": 1.6716001530488331,
      "epoch": 1.4820521271044464,
      "grad_norm": 0.5574256181716919,
      "learning_rate": 4.986078891324617e-06,
      "loss": 1.4879,
      "mean_token_accuracy": 0.6372141987085342,
      "num_tokens": 2262514560.0,
      "step": 13491
    },
    {
      "entropy": 1.6284152368704479,
      "epoch": 1.4821619840158193,
      "grad_norm": 0.598142683506012,
      "learning_rate": 4.9848877953183575e-06,
      "loss": 1.3574,
      "mean_token_accuracy": 0.6729972014824549,
      "num_tokens": 2262727556.0,
      "step": 13492
    },
    {
      "entropy": 1.7167203028996785,
      "epoch": 1.4822718409271922,
      "grad_norm": 0.6333439946174622,
      "learning_rate": 4.9836968896876885e-06,
      "loss": 1.4435,
      "mean_token_accuracy": 0.6489839653174082,
      "num_tokens": 2262893662.0,
      "step": 13493
    },
    {
      "entropy": 1.72333358724912,
      "epoch": 1.4823816978385653,
      "grad_norm": 0.7966588139533997,
      "learning_rate": 4.982506174470299e-06,
      "loss": 1.6081,
      "mean_token_accuracy": 0.6349592606226603,
      "num_tokens": 2263116005.0,
      "step": 13494
    },
    {
      "entropy": 1.673676609992981,
      "epoch": 1.4824915547499382,
      "grad_norm": 0.6574962139129639,
      "learning_rate": 4.981315649703877e-06,
      "loss": 1.4094,
      "mean_token_accuracy": 0.6473542600870132,
      "num_tokens": 2263312879.0,
      "step": 13495
    },
    {
      "entropy": 1.6873856385548909,
      "epoch": 1.482601411661311,
      "grad_norm": 0.7907306551933289,
      "learning_rate": 4.980125315426106e-06,
      "loss": 1.4349,
      "mean_token_accuracy": 0.6571491559346517,
      "num_tokens": 2263522149.0,
      "step": 13496
    },
    {
      "entropy": 1.6957029402256012,
      "epoch": 1.4827112685726842,
      "grad_norm": 0.6600527763366699,
      "learning_rate": 4.9789351716746555e-06,
      "loss": 1.3383,
      "mean_token_accuracy": 0.6599696377913157,
      "num_tokens": 2263680544.0,
      "step": 13497
    },
    {
      "entropy": 1.716781238714854,
      "epoch": 1.482821125484057,
      "grad_norm": 0.7186543345451355,
      "learning_rate": 4.9777452184871915e-06,
      "loss": 1.299,
      "mean_token_accuracy": 0.6676995903253555,
      "num_tokens": 2263800785.0,
      "step": 13498
    },
    {
      "entropy": 1.7211474776268005,
      "epoch": 1.48293098239543,
      "grad_norm": 0.719422459602356,
      "learning_rate": 4.97655545590138e-06,
      "loss": 1.4209,
      "mean_token_accuracy": 0.6576556066672007,
      "num_tokens": 2263984167.0,
      "step": 13499
    },
    {
      "entropy": 1.7104551792144775,
      "epoch": 1.4830408393068029,
      "grad_norm": 0.7389053702354431,
      "learning_rate": 4.9753658839548745e-06,
      "loss": 1.4894,
      "mean_token_accuracy": 0.6423831830422083,
      "num_tokens": 2264212746.0,
      "step": 13500
    },
    {
      "entropy": 1.7473791042963664,
      "epoch": 1.4831506962181757,
      "grad_norm": 0.8776116967201233,
      "learning_rate": 4.97417650268532e-06,
      "loss": 1.3598,
      "mean_token_accuracy": 0.6644879480202993,
      "num_tokens": 2264366316.0,
      "step": 13501
    },
    {
      "entropy": 1.7517230312029521,
      "epoch": 1.4832605531295489,
      "grad_norm": 0.6201359033584595,
      "learning_rate": 4.972987312130369e-06,
      "loss": 1.4633,
      "mean_token_accuracy": 0.6426295389731725,
      "num_tokens": 2264580750.0,
      "step": 13502
    },
    {
      "entropy": 1.7220464249451954,
      "epoch": 1.4833704100409217,
      "grad_norm": 0.6405351758003235,
      "learning_rate": 4.97179831232765e-06,
      "loss": 1.4245,
      "mean_token_accuracy": 0.6534823377927145,
      "num_tokens": 2264733000.0,
      "step": 13503
    },
    {
      "entropy": 1.69864288965861,
      "epoch": 1.4834802669522946,
      "grad_norm": 0.624673068523407,
      "learning_rate": 4.9706095033148e-06,
      "loss": 1.3807,
      "mean_token_accuracy": 0.6559500147898992,
      "num_tokens": 2264898277.0,
      "step": 13504
    },
    {
      "entropy": 1.7481873134771984,
      "epoch": 1.4835901238636675,
      "grad_norm": 0.7108025550842285,
      "learning_rate": 4.969420885129443e-06,
      "loss": 1.4226,
      "mean_token_accuracy": 0.6583486298720042,
      "num_tokens": 2265061391.0,
      "step": 13505
    },
    {
      "entropy": 1.65755029519399,
      "epoch": 1.4836999807750404,
      "grad_norm": 0.6649439930915833,
      "learning_rate": 4.968232457809195e-06,
      "loss": 1.3684,
      "mean_token_accuracy": 0.6610806783040365,
      "num_tokens": 2265255559.0,
      "step": 13506
    },
    {
      "entropy": 1.7579138378302257,
      "epoch": 1.4838098376864135,
      "grad_norm": 0.686124324798584,
      "learning_rate": 4.967044221391671e-06,
      "loss": 1.438,
      "mean_token_accuracy": 0.6544395188490549,
      "num_tokens": 2265466450.0,
      "step": 13507
    },
    {
      "entropy": 1.743057797352473,
      "epoch": 1.4839196945977864,
      "grad_norm": 0.8767577409744263,
      "learning_rate": 4.9658561759144815e-06,
      "loss": 1.3654,
      "mean_token_accuracy": 0.65755066772302,
      "num_tokens": 2265596110.0,
      "step": 13508
    },
    {
      "entropy": 1.6500622431437175,
      "epoch": 1.4840295515091593,
      "grad_norm": 0.6735820174217224,
      "learning_rate": 4.964668321415226e-06,
      "loss": 1.2918,
      "mean_token_accuracy": 0.6772434115409851,
      "num_tokens": 2265768382.0,
      "step": 13509
    },
    {
      "entropy": 1.631582687298457,
      "epoch": 1.4841394084205324,
      "grad_norm": 0.6203559637069702,
      "learning_rate": 4.963480657931496e-06,
      "loss": 1.4507,
      "mean_token_accuracy": 0.6736873388290405,
      "num_tokens": 2265997734.0,
      "step": 13510
    },
    {
      "entropy": 1.7016975184281666,
      "epoch": 1.4842492653319053,
      "grad_norm": 0.8607683777809143,
      "learning_rate": 4.9622931855008845e-06,
      "loss": 1.2962,
      "mean_token_accuracy": 0.6669759303331375,
      "num_tokens": 2266140837.0,
      "step": 13511
    },
    {
      "entropy": 1.7488416135311127,
      "epoch": 1.4843591222432782,
      "grad_norm": 0.70814049243927,
      "learning_rate": 4.961105904160974e-06,
      "loss": 1.4504,
      "mean_token_accuracy": 0.6467891732851664,
      "num_tokens": 2266334509.0,
      "step": 13512
    },
    {
      "entropy": 1.6617756883303325,
      "epoch": 1.484468979154651,
      "grad_norm": 0.6905792355537415,
      "learning_rate": 4.959918813949338e-06,
      "loss": 1.4075,
      "mean_token_accuracy": 0.6694660286108652,
      "num_tokens": 2266497729.0,
      "step": 13513
    },
    {
      "entropy": 1.7315144042174022,
      "epoch": 1.484578836066024,
      "grad_norm": 0.6920166015625,
      "learning_rate": 4.958731914903551e-06,
      "loss": 1.302,
      "mean_token_accuracy": 0.6789048910140991,
      "num_tokens": 2266671543.0,
      "step": 13514
    },
    {
      "entropy": 1.6354870001475017,
      "epoch": 1.484688692977397,
      "grad_norm": 0.6212617754936218,
      "learning_rate": 4.957545207061175e-06,
      "loss": 1.3765,
      "mean_token_accuracy": 0.6648024767637253,
      "num_tokens": 2266861233.0,
      "step": 13515
    },
    {
      "entropy": 1.6495544612407684,
      "epoch": 1.48479854988877,
      "grad_norm": 0.7335532307624817,
      "learning_rate": 4.956358690459772e-06,
      "loss": 1.3946,
      "mean_token_accuracy": 0.6647347460190455,
      "num_tokens": 2267046550.0,
      "step": 13516
    },
    {
      "entropy": 1.704295853773753,
      "epoch": 1.4849084068001428,
      "grad_norm": 0.6387439966201782,
      "learning_rate": 4.955172365136894e-06,
      "loss": 1.4945,
      "mean_token_accuracy": 0.6511774758497874,
      "num_tokens": 2267211866.0,
      "step": 13517
    },
    {
      "entropy": 1.6961783468723297,
      "epoch": 1.4850182637115157,
      "grad_norm": 0.6863455176353455,
      "learning_rate": 4.953986231130084e-06,
      "loss": 1.2193,
      "mean_token_accuracy": 0.6830638696750005,
      "num_tokens": 2267318169.0,
      "step": 13518
    },
    {
      "entropy": 1.7797902425130208,
      "epoch": 1.4851281206228886,
      "grad_norm": 0.7058371305465698,
      "learning_rate": 4.952800288476886e-06,
      "loss": 1.5065,
      "mean_token_accuracy": 0.6423899084329605,
      "num_tokens": 2267468527.0,
      "step": 13519
    },
    {
      "entropy": 1.7239426573117573,
      "epoch": 1.4852379775342617,
      "grad_norm": 0.6466138958930969,
      "learning_rate": 4.951614537214837e-06,
      "loss": 1.4439,
      "mean_token_accuracy": 0.6584398398796717,
      "num_tokens": 2267672535.0,
      "step": 13520
    },
    {
      "entropy": 1.761413335800171,
      "epoch": 1.4853478344456346,
      "grad_norm": 0.7396242022514343,
      "learning_rate": 4.950428977381461e-06,
      "loss": 1.5382,
      "mean_token_accuracy": 0.645782599846522,
      "num_tokens": 2267851281.0,
      "step": 13521
    },
    {
      "entropy": 1.7479993800322216,
      "epoch": 1.4854576913570074,
      "grad_norm": 0.6907133460044861,
      "learning_rate": 4.94924360901428e-06,
      "loss": 1.5213,
      "mean_token_accuracy": 0.6497216572364172,
      "num_tokens": 2268048660.0,
      "step": 13522
    },
    {
      "entropy": 1.6639278034369152,
      "epoch": 1.4855675482683806,
      "grad_norm": 0.6215951442718506,
      "learning_rate": 4.948058432150814e-06,
      "loss": 1.4487,
      "mean_token_accuracy": 0.6463829030593237,
      "num_tokens": 2268254892.0,
      "step": 13523
    },
    {
      "entropy": 1.6794349352518718,
      "epoch": 1.4856774051797534,
      "grad_norm": 0.7702376842498779,
      "learning_rate": 4.946873446828572e-06,
      "loss": 1.4576,
      "mean_token_accuracy": 0.6624968846638998,
      "num_tokens": 2268433753.0,
      "step": 13524
    },
    {
      "entropy": 1.6901362140973408,
      "epoch": 1.4857872620911263,
      "grad_norm": 0.6038414239883423,
      "learning_rate": 4.945688653085055e-06,
      "loss": 1.4401,
      "mean_token_accuracy": 0.657305101553599,
      "num_tokens": 2268603211.0,
      "step": 13525
    },
    {
      "entropy": 1.7209720313549042,
      "epoch": 1.4858971190024992,
      "grad_norm": 0.6884058117866516,
      "learning_rate": 4.944504050957767e-06,
      "loss": 1.3502,
      "mean_token_accuracy": 0.6485557009776434,
      "num_tokens": 2268803883.0,
      "step": 13526
    },
    {
      "entropy": 1.6918534139792125,
      "epoch": 1.486006975913872,
      "grad_norm": 0.6835710406303406,
      "learning_rate": 4.943319640484195e-06,
      "loss": 1.4551,
      "mean_token_accuracy": 0.6516717125972112,
      "num_tokens": 2268996894.0,
      "step": 13527
    },
    {
      "entropy": 1.7772463758786519,
      "epoch": 1.4861168328252452,
      "grad_norm": 0.7287479639053345,
      "learning_rate": 4.942135421701829e-06,
      "loss": 1.5589,
      "mean_token_accuracy": 0.6285470475753149,
      "num_tokens": 2269206030.0,
      "step": 13528
    },
    {
      "entropy": 1.7186577022075653,
      "epoch": 1.486226689736618,
      "grad_norm": 0.6499691009521484,
      "learning_rate": 4.940951394648148e-06,
      "loss": 1.4773,
      "mean_token_accuracy": 0.6425957729419073,
      "num_tokens": 2269406402.0,
      "step": 13529
    },
    {
      "entropy": 1.7541224757830303,
      "epoch": 1.486336546647991,
      "grad_norm": 0.6786013841629028,
      "learning_rate": 4.939767559360621e-06,
      "loss": 1.4135,
      "mean_token_accuracy": 0.6587019910415014,
      "num_tokens": 2269547356.0,
      "step": 13530
    },
    {
      "entropy": 1.650489757458369,
      "epoch": 1.4864464035593639,
      "grad_norm": 0.7876176238059998,
      "learning_rate": 4.938583915876721e-06,
      "loss": 1.3363,
      "mean_token_accuracy": 0.663826659321785,
      "num_tokens": 2269723665.0,
      "step": 13531
    },
    {
      "entropy": 1.7275867958863576,
      "epoch": 1.4865562604707367,
      "grad_norm": 0.809974193572998,
      "learning_rate": 4.937400464233911e-06,
      "loss": 1.4697,
      "mean_token_accuracy": 0.6594187666972479,
      "num_tokens": 2269860339.0,
      "step": 13532
    },
    {
      "entropy": 1.6629600922266643,
      "epoch": 1.4866661173821099,
      "grad_norm": 0.7391853332519531,
      "learning_rate": 4.936217204469645e-06,
      "loss": 1.3979,
      "mean_token_accuracy": 0.6491153140862783,
      "num_tokens": 2270029166.0,
      "step": 13533
    },
    {
      "entropy": 1.6912591656049092,
      "epoch": 1.4867759742934827,
      "grad_norm": 0.6969987750053406,
      "learning_rate": 4.9350341366213685e-06,
      "loss": 1.3193,
      "mean_token_accuracy": 0.6674131552378336,
      "num_tokens": 2270166752.0,
      "step": 13534
    },
    {
      "entropy": 1.6451220214366913,
      "epoch": 1.4868858312048556,
      "grad_norm": 0.6137616634368896,
      "learning_rate": 4.9338512607265325e-06,
      "loss": 1.235,
      "mean_token_accuracy": 0.6780912727117538,
      "num_tokens": 2270320590.0,
      "step": 13535
    },
    {
      "entropy": 1.7086876134077709,
      "epoch": 1.4869956881162287,
      "grad_norm": 0.6514938473701477,
      "learning_rate": 4.9326685768225695e-06,
      "loss": 1.5391,
      "mean_token_accuracy": 0.6244403074185053,
      "num_tokens": 2270503385.0,
      "step": 13536
    },
    {
      "entropy": 1.6874873240788777,
      "epoch": 1.4871055450276016,
      "grad_norm": 0.6039011478424072,
      "learning_rate": 4.9314860849469134e-06,
      "loss": 1.4688,
      "mean_token_accuracy": 0.6564833472172419,
      "num_tokens": 2270710407.0,
      "step": 13537
    },
    {
      "entropy": 1.6665807565053303,
      "epoch": 1.4872154019389745,
      "grad_norm": 0.7873986959457397,
      "learning_rate": 4.9303037851369836e-06,
      "loss": 1.3184,
      "mean_token_accuracy": 0.6774963239828745,
      "num_tokens": 2270843801.0,
      "step": 13538
    },
    {
      "entropy": 1.700388679901759,
      "epoch": 1.4873252588503474,
      "grad_norm": 0.627056896686554,
      "learning_rate": 4.929121677430204e-06,
      "loss": 1.5074,
      "mean_token_accuracy": 0.6504200547933578,
      "num_tokens": 2271024231.0,
      "step": 13539
    },
    {
      "entropy": 1.6944973468780518,
      "epoch": 1.4874351157617203,
      "grad_norm": 0.6724776029586792,
      "learning_rate": 4.927939761863993e-06,
      "loss": 1.347,
      "mean_token_accuracy": 0.6622181783119837,
      "num_tokens": 2271156544.0,
      "step": 13540
    },
    {
      "entropy": 1.6311760048071544,
      "epoch": 1.4875449726730934,
      "grad_norm": 0.6557187438011169,
      "learning_rate": 4.926758038475751e-06,
      "loss": 1.4786,
      "mean_token_accuracy": 0.6390694926182429,
      "num_tokens": 2271409977.0,
      "step": 13541
    },
    {
      "entropy": 1.7377532819906871,
      "epoch": 1.4876548295844663,
      "grad_norm": 0.7433091998100281,
      "learning_rate": 4.9255765073028764e-06,
      "loss": 1.4261,
      "mean_token_accuracy": 0.6504714637994766,
      "num_tokens": 2271551261.0,
      "step": 13542
    },
    {
      "entropy": 1.6590198477109273,
      "epoch": 1.4877646864958392,
      "grad_norm": 0.6879268288612366,
      "learning_rate": 4.924395168382772e-06,
      "loss": 1.3696,
      "mean_token_accuracy": 0.6614403426647186,
      "num_tokens": 2271705504.0,
      "step": 13543
    },
    {
      "entropy": 1.716480682293574,
      "epoch": 1.487874543407212,
      "grad_norm": 0.7290632128715515,
      "learning_rate": 4.9232140217528205e-06,
      "loss": 1.4055,
      "mean_token_accuracy": 0.6647356102863947,
      "num_tokens": 2271842583.0,
      "step": 13544
    },
    {
      "entropy": 1.7306012709935505,
      "epoch": 1.487984400318585,
      "grad_norm": 0.7125338912010193,
      "learning_rate": 4.922033067450408e-06,
      "loss": 1.3186,
      "mean_token_accuracy": 0.6647218614816666,
      "num_tokens": 2271986650.0,
      "step": 13545
    },
    {
      "entropy": 1.6511406401793163,
      "epoch": 1.488094257229958,
      "grad_norm": 0.6755971908569336,
      "learning_rate": 4.920852305512911e-06,
      "loss": 1.2941,
      "mean_token_accuracy": 0.677680104970932,
      "num_tokens": 2272131530.0,
      "step": 13546
    },
    {
      "entropy": 1.6403106550375621,
      "epoch": 1.488204114141331,
      "grad_norm": 0.6104917526245117,
      "learning_rate": 4.919671735977698e-06,
      "loss": 1.2273,
      "mean_token_accuracy": 0.677567387620608,
      "num_tokens": 2272258498.0,
      "step": 13547
    },
    {
      "entropy": 1.6783630152543385,
      "epoch": 1.4883139710527038,
      "grad_norm": 0.7859485745429993,
      "learning_rate": 4.9184913588821355e-06,
      "loss": 1.3253,
      "mean_token_accuracy": 0.6634241938591003,
      "num_tokens": 2272400247.0,
      "step": 13548
    },
    {
      "entropy": 1.6718779901663463,
      "epoch": 1.488423827964077,
      "grad_norm": 0.6356991529464722,
      "learning_rate": 4.917311174263582e-06,
      "loss": 1.3806,
      "mean_token_accuracy": 0.6621431310971578,
      "num_tokens": 2272578243.0,
      "step": 13549
    },
    {
      "entropy": 1.6918590764204662,
      "epoch": 1.4885336848754498,
      "grad_norm": 0.6709624528884888,
      "learning_rate": 4.916131182159385e-06,
      "loss": 1.4217,
      "mean_token_accuracy": 0.6508203744888306,
      "num_tokens": 2272739851.0,
      "step": 13550
    },
    {
      "entropy": 1.6766121685504913,
      "epoch": 1.4886435417868227,
      "grad_norm": 0.6813299655914307,
      "learning_rate": 4.914951382606896e-06,
      "loss": 1.4075,
      "mean_token_accuracy": 0.6498910933732986,
      "num_tokens": 2272979858.0,
      "step": 13551
    },
    {
      "entropy": 1.6789940396944683,
      "epoch": 1.4887533986981956,
      "grad_norm": 0.7328557968139648,
      "learning_rate": 4.913771775643456e-06,
      "loss": 1.3464,
      "mean_token_accuracy": 0.6630066633224487,
      "num_tokens": 2273127557.0,
      "step": 13552
    },
    {
      "entropy": 1.7166900932788849,
      "epoch": 1.4888632556095684,
      "grad_norm": 0.7445768117904663,
      "learning_rate": 4.912592361306397e-06,
      "loss": 1.4081,
      "mean_token_accuracy": 0.6634646505117416,
      "num_tokens": 2273281855.0,
      "step": 13553
    },
    {
      "entropy": 1.7078879574934642,
      "epoch": 1.4889731125209416,
      "grad_norm": 0.7372060418128967,
      "learning_rate": 4.911413139633044e-06,
      "loss": 1.5168,
      "mean_token_accuracy": 0.6509969532489777,
      "num_tokens": 2273451264.0,
      "step": 13554
    },
    {
      "entropy": 1.650009383757909,
      "epoch": 1.4890829694323144,
      "grad_norm": 0.5854784250259399,
      "learning_rate": 4.910234110660724e-06,
      "loss": 1.3294,
      "mean_token_accuracy": 0.6673146585623423,
      "num_tokens": 2273598602.0,
      "step": 13555
    },
    {
      "entropy": 1.6960578461488087,
      "epoch": 1.4891928263436873,
      "grad_norm": 0.7097931504249573,
      "learning_rate": 4.909055274426747e-06,
      "loss": 1.3523,
      "mean_token_accuracy": 0.6700321088234583,
      "num_tokens": 2273761448.0,
      "step": 13556
    },
    {
      "entropy": 1.739314426978429,
      "epoch": 1.4893026832550602,
      "grad_norm": 0.7183867692947388,
      "learning_rate": 4.907876630968429e-06,
      "loss": 1.4509,
      "mean_token_accuracy": 0.651702399055163,
      "num_tokens": 2273921418.0,
      "step": 13557
    },
    {
      "entropy": 1.7305655578772228,
      "epoch": 1.489412540166433,
      "grad_norm": 0.6984145045280457,
      "learning_rate": 4.906698180323072e-06,
      "loss": 1.3913,
      "mean_token_accuracy": 0.668786495923996,
      "num_tokens": 2274158793.0,
      "step": 13558
    },
    {
      "entropy": 1.7573081453641255,
      "epoch": 1.4895223970778062,
      "grad_norm": 0.7101246118545532,
      "learning_rate": 4.9055199225279674e-06,
      "loss": 1.4446,
      "mean_token_accuracy": 0.6512223184108734,
      "num_tokens": 2274343919.0,
      "step": 13559
    },
    {
      "entropy": 1.7201645970344543,
      "epoch": 1.489632253989179,
      "grad_norm": 0.7223523855209351,
      "learning_rate": 4.904341857620415e-06,
      "loss": 1.3581,
      "mean_token_accuracy": 0.6549399097760519,
      "num_tokens": 2274495539.0,
      "step": 13560
    },
    {
      "entropy": 1.7697237531344097,
      "epoch": 1.489742110900552,
      "grad_norm": 0.7736477255821228,
      "learning_rate": 4.903163985637695e-06,
      "loss": 1.3867,
      "mean_token_accuracy": 0.6666910151640574,
      "num_tokens": 2274674058.0,
      "step": 13561
    },
    {
      "entropy": 1.7430163423220317,
      "epoch": 1.489851967811925,
      "grad_norm": 0.6027993559837341,
      "learning_rate": 4.901986306617085e-06,
      "loss": 1.4971,
      "mean_token_accuracy": 0.6381118098894755,
      "num_tokens": 2274879632.0,
      "step": 13562
    },
    {
      "entropy": 1.677459180355072,
      "epoch": 1.489961824723298,
      "grad_norm": 0.8948626518249512,
      "learning_rate": 4.9008088205958605e-06,
      "loss": 1.2984,
      "mean_token_accuracy": 0.6767031649748484,
      "num_tokens": 2275027702.0,
      "step": 13563
    },
    {
      "entropy": 1.7206537226835887,
      "epoch": 1.4900716816346709,
      "grad_norm": 0.6878028512001038,
      "learning_rate": 4.89963152761129e-06,
      "loss": 1.4045,
      "mean_token_accuracy": 0.6523149311542511,
      "num_tokens": 2275187790.0,
      "step": 13564
    },
    {
      "entropy": 1.6853440205256145,
      "epoch": 1.4901815385460437,
      "grad_norm": 0.6887045502662659,
      "learning_rate": 4.898454427700635e-06,
      "loss": 1.3973,
      "mean_token_accuracy": 0.6593828996022543,
      "num_tokens": 2275344735.0,
      "step": 13565
    },
    {
      "entropy": 1.708954284588496,
      "epoch": 1.4902913954574166,
      "grad_norm": 0.7596457600593567,
      "learning_rate": 4.897277520901144e-06,
      "loss": 1.4333,
      "mean_token_accuracy": 0.6570628980795542,
      "num_tokens": 2275476549.0,
      "step": 13566
    },
    {
      "entropy": 1.6877670685450237,
      "epoch": 1.4904012523687897,
      "grad_norm": 0.7278691530227661,
      "learning_rate": 4.896100807250073e-06,
      "loss": 1.3566,
      "mean_token_accuracy": 0.663535346587499,
      "num_tokens": 2275637937.0,
      "step": 13567
    },
    {
      "entropy": 1.6145448486010234,
      "epoch": 1.4905111092801626,
      "grad_norm": 0.6225070953369141,
      "learning_rate": 4.894924286784657e-06,
      "loss": 1.1552,
      "mean_token_accuracy": 0.6904433170954386,
      "num_tokens": 2275760835.0,
      "step": 13568
    },
    {
      "entropy": 1.717700292666753,
      "epoch": 1.4906209661915355,
      "grad_norm": 0.6022528409957886,
      "learning_rate": 4.89374795954214e-06,
      "loss": 1.3925,
      "mean_token_accuracy": 0.664552241563797,
      "num_tokens": 2275936821.0,
      "step": 13569
    },
    {
      "entropy": 1.7442820469538372,
      "epoch": 1.4907308231029084,
      "grad_norm": 0.708743691444397,
      "learning_rate": 4.892571825559749e-06,
      "loss": 1.3119,
      "mean_token_accuracy": 0.6691465228796005,
      "num_tokens": 2276075486.0,
      "step": 13570
    },
    {
      "entropy": 1.7310235400994618,
      "epoch": 1.4908406800142813,
      "grad_norm": 0.6880050301551819,
      "learning_rate": 4.891395884874705e-06,
      "loss": 1.4393,
      "mean_token_accuracy": 0.6460549732049307,
      "num_tokens": 2276292408.0,
      "step": 13571
    },
    {
      "entropy": 1.6751873592535655,
      "epoch": 1.4909505369256544,
      "grad_norm": 0.6142544746398926,
      "learning_rate": 4.890220137524229e-06,
      "loss": 1.3366,
      "mean_token_accuracy": 0.6657705307006836,
      "num_tokens": 2276454867.0,
      "step": 13572
    },
    {
      "entropy": 1.6691831449667613,
      "epoch": 1.4910603938370273,
      "grad_norm": 0.7860159873962402,
      "learning_rate": 4.889044583545535e-06,
      "loss": 1.4698,
      "mean_token_accuracy": 0.6658653269211451,
      "num_tokens": 2276631139.0,
      "step": 13573
    },
    {
      "entropy": 1.6530809303124745,
      "epoch": 1.4911702507484002,
      "grad_norm": 0.6658622622489929,
      "learning_rate": 4.887869222975823e-06,
      "loss": 1.3893,
      "mean_token_accuracy": 0.6663869768381119,
      "num_tokens": 2276811087.0,
      "step": 13574
    },
    {
      "entropy": 1.6668502887090046,
      "epoch": 1.4912801076597733,
      "grad_norm": 0.7318044900894165,
      "learning_rate": 4.886694055852295e-06,
      "loss": 1.2348,
      "mean_token_accuracy": 0.6809373696645101,
      "num_tokens": 2276936016.0,
      "step": 13575
    },
    {
      "entropy": 1.7107643485069275,
      "epoch": 1.4913899645711461,
      "grad_norm": 0.618091881275177,
      "learning_rate": 4.885519082212148e-06,
      "loss": 1.4674,
      "mean_token_accuracy": 0.6436606744925181,
      "num_tokens": 2277114355.0,
      "step": 13576
    },
    {
      "entropy": 1.716734250386556,
      "epoch": 1.491499821482519,
      "grad_norm": 0.6230522990226746,
      "learning_rate": 4.884344302092569e-06,
      "loss": 1.4011,
      "mean_token_accuracy": 0.6655239959557852,
      "num_tokens": 2277275543.0,
      "step": 13577
    },
    {
      "entropy": 1.710130383570989,
      "epoch": 1.491609678393892,
      "grad_norm": 0.6273171305656433,
      "learning_rate": 4.883169715530732e-06,
      "loss": 1.4362,
      "mean_token_accuracy": 0.638149564464887,
      "num_tokens": 2277452793.0,
      "step": 13578
    },
    {
      "entropy": 1.7487995425860088,
      "epoch": 1.4917195353052648,
      "grad_norm": 0.7999676465988159,
      "learning_rate": 4.881995322563821e-06,
      "loss": 1.2994,
      "mean_token_accuracy": 0.671253576874733,
      "num_tokens": 2277600260.0,
      "step": 13579
    },
    {
      "entropy": 1.6912379463513691,
      "epoch": 1.491829392216638,
      "grad_norm": 0.6340394616127014,
      "learning_rate": 4.880821123229002e-06,
      "loss": 1.295,
      "mean_token_accuracy": 0.6654437184333801,
      "num_tokens": 2277753911.0,
      "step": 13580
    },
    {
      "entropy": 1.6957992414633434,
      "epoch": 1.4919392491280108,
      "grad_norm": 0.778068482875824,
      "learning_rate": 4.879647117563432e-06,
      "loss": 1.4732,
      "mean_token_accuracy": 0.6568873922030131,
      "num_tokens": 2277934943.0,
      "step": 13581
    },
    {
      "entropy": 1.6554166972637177,
      "epoch": 1.4920491060393837,
      "grad_norm": 0.6689861416816711,
      "learning_rate": 4.8784733056042775e-06,
      "loss": 1.2573,
      "mean_token_accuracy": 0.67509492735068,
      "num_tokens": 2278061278.0,
      "step": 13582
    },
    {
      "entropy": 1.754564344882965,
      "epoch": 1.4921589629507566,
      "grad_norm": 0.7395191788673401,
      "learning_rate": 4.877299687388681e-06,
      "loss": 1.3777,
      "mean_token_accuracy": 0.6584471513827642,
      "num_tokens": 2278186060.0,
      "step": 13583
    },
    {
      "entropy": 1.7302316029866536,
      "epoch": 1.4922688198621294,
      "grad_norm": 0.6741985082626343,
      "learning_rate": 4.876126262953793e-06,
      "loss": 1.3478,
      "mean_token_accuracy": 0.6610042850176493,
      "num_tokens": 2278357055.0,
      "step": 13584
    },
    {
      "entropy": 1.6924872994422913,
      "epoch": 1.4923786767735026,
      "grad_norm": 1.0467135906219482,
      "learning_rate": 4.87495303233675e-06,
      "loss": 1.2743,
      "mean_token_accuracy": 0.6736592451731364,
      "num_tokens": 2278554005.0,
      "step": 13585
    },
    {
      "entropy": 1.6124165058135986,
      "epoch": 1.4924885336848754,
      "grad_norm": 0.6575326919555664,
      "learning_rate": 4.87377999557468e-06,
      "loss": 1.3924,
      "mean_token_accuracy": 0.6724445472160975,
      "num_tokens": 2278713474.0,
      "step": 13586
    },
    {
      "entropy": 1.7254461348056793,
      "epoch": 1.4925983905962483,
      "grad_norm": 0.6653977632522583,
      "learning_rate": 4.872607152704713e-06,
      "loss": 1.3827,
      "mean_token_accuracy": 0.6479282975196838,
      "num_tokens": 2278875327.0,
      "step": 13587
    },
    {
      "entropy": 1.7107085188229878,
      "epoch": 1.4927082475076214,
      "grad_norm": 0.7601565718650818,
      "learning_rate": 4.871434503763971e-06,
      "loss": 1.2622,
      "mean_token_accuracy": 0.6768785417079926,
      "num_tokens": 2278986177.0,
      "step": 13588
    },
    {
      "entropy": 1.7034134566783905,
      "epoch": 1.4928181044189943,
      "grad_norm": 0.8460795879364014,
      "learning_rate": 4.870262048789566e-06,
      "loss": 1.3049,
      "mean_token_accuracy": 0.6756768574317297,
      "num_tokens": 2279104088.0,
      "step": 13589
    },
    {
      "entropy": 1.7182818551858265,
      "epoch": 1.4929279613303672,
      "grad_norm": 0.6793023347854614,
      "learning_rate": 4.869089787818602e-06,
      "loss": 1.2894,
      "mean_token_accuracy": 0.666498064994812,
      "num_tokens": 2279231469.0,
      "step": 13590
    },
    {
      "entropy": 1.6521180470784504,
      "epoch": 1.49303781824174,
      "grad_norm": 0.7240891456604004,
      "learning_rate": 4.8679177208881855e-06,
      "loss": 1.4182,
      "mean_token_accuracy": 0.6724280714988708,
      "num_tokens": 2279385523.0,
      "step": 13591
    },
    {
      "entropy": 1.7422040899594624,
      "epoch": 1.493147675153113,
      "grad_norm": 0.623020589351654,
      "learning_rate": 4.866745848035412e-06,
      "loss": 1.3963,
      "mean_token_accuracy": 0.6499710033337275,
      "num_tokens": 2279561897.0,
      "step": 13592
    },
    {
      "entropy": 1.6989782949288685,
      "epoch": 1.493257532064486,
      "grad_norm": 0.6899892091751099,
      "learning_rate": 4.865574169297364e-06,
      "loss": 1.5596,
      "mean_token_accuracy": 0.6443688968817393,
      "num_tokens": 2279737279.0,
      "step": 13593
    },
    {
      "entropy": 1.6587830980618794,
      "epoch": 1.493367388975859,
      "grad_norm": 0.7197852730751038,
      "learning_rate": 4.864402684711133e-06,
      "loss": 1.5172,
      "mean_token_accuracy": 0.6575819750626882,
      "num_tokens": 2279901224.0,
      "step": 13594
    },
    {
      "entropy": 1.7458328505357106,
      "epoch": 1.4934772458872319,
      "grad_norm": 0.7012457847595215,
      "learning_rate": 4.863231394313789e-06,
      "loss": 1.4828,
      "mean_token_accuracy": 0.6473122785488764,
      "num_tokens": 2280096468.0,
      "step": 13595
    },
    {
      "entropy": 1.700047234694163,
      "epoch": 1.4935871027986047,
      "grad_norm": 0.705938994884491,
      "learning_rate": 4.8620602981424085e-06,
      "loss": 1.364,
      "mean_token_accuracy": 0.6618212511142095,
      "num_tokens": 2280279827.0,
      "step": 13596
    },
    {
      "entropy": 1.7099564174811046,
      "epoch": 1.4936969597099776,
      "grad_norm": 0.8156763315200806,
      "learning_rate": 4.860889396234055e-06,
      "loss": 1.3052,
      "mean_token_accuracy": 0.6710335661967596,
      "num_tokens": 2280416224.0,
      "step": 13597
    },
    {
      "entropy": 1.7591630319754283,
      "epoch": 1.4938068166213507,
      "grad_norm": 0.7641903162002563,
      "learning_rate": 4.859718688625782e-06,
      "loss": 1.3536,
      "mean_token_accuracy": 0.6579357037941614,
      "num_tokens": 2280551404.0,
      "step": 13598
    },
    {
      "entropy": 1.684128353993098,
      "epoch": 1.4939166735327236,
      "grad_norm": 0.6860581040382385,
      "learning_rate": 4.8585481753546486e-06,
      "loss": 1.3339,
      "mean_token_accuracy": 0.6609357595443726,
      "num_tokens": 2280670594.0,
      "step": 13599
    },
    {
      "entropy": 1.7321399648984273,
      "epoch": 1.4940265304440965,
      "grad_norm": 0.7905336618423462,
      "learning_rate": 4.8573778564576955e-06,
      "loss": 1.362,
      "mean_token_accuracy": 0.6644478042920431,
      "num_tokens": 2280802125.0,
      "step": 13600
    },
    {
      "entropy": 1.7287112375100453,
      "epoch": 1.4941363873554696,
      "grad_norm": 0.842991054058075,
      "learning_rate": 4.856207731971968e-06,
      "loss": 1.2462,
      "mean_token_accuracy": 0.6818788150946299,
      "num_tokens": 2280911360.0,
      "step": 13601
    },
    {
      "entropy": 1.7669661144415538,
      "epoch": 1.4942462442668425,
      "grad_norm": 0.6029599905014038,
      "learning_rate": 4.855037801934497e-06,
      "loss": 1.5295,
      "mean_token_accuracy": 0.6283855885267258,
      "num_tokens": 2281119023.0,
      "step": 13602
    },
    {
      "entropy": 1.6890939672787983,
      "epoch": 1.4943561011782154,
      "grad_norm": 0.6715998649597168,
      "learning_rate": 4.853868066382308e-06,
      "loss": 1.3511,
      "mean_token_accuracy": 0.6587308794260025,
      "num_tokens": 2281311484.0,
      "step": 13603
    },
    {
      "entropy": 1.7232101559638977,
      "epoch": 1.4944659580895883,
      "grad_norm": 0.6396613717079163,
      "learning_rate": 4.852698525352427e-06,
      "loss": 1.4827,
      "mean_token_accuracy": 0.649900938073794,
      "num_tokens": 2281526052.0,
      "step": 13604
    },
    {
      "entropy": 1.7208843032519023,
      "epoch": 1.4945758150009611,
      "grad_norm": 0.6806747913360596,
      "learning_rate": 4.8515291788818695e-06,
      "loss": 1.3837,
      "mean_token_accuracy": 0.6432156016429266,
      "num_tokens": 2281723549.0,
      "step": 13605
    },
    {
      "entropy": 1.6507877906163533,
      "epoch": 1.4946856719123343,
      "grad_norm": 0.829356849193573,
      "learning_rate": 4.850360027007639e-06,
      "loss": 1.257,
      "mean_token_accuracy": 0.677089735865593,
      "num_tokens": 2281892258.0,
      "step": 13606
    },
    {
      "entropy": 1.7317637304464977,
      "epoch": 1.4947955288237071,
      "grad_norm": 0.6524384021759033,
      "learning_rate": 4.8491910697667425e-06,
      "loss": 1.5544,
      "mean_token_accuracy": 0.6447519858678182,
      "num_tokens": 2282084102.0,
      "step": 13607
    },
    {
      "entropy": 1.7073566317558289,
      "epoch": 1.49490538573508,
      "grad_norm": 0.5912280678749084,
      "learning_rate": 4.848022307196181e-06,
      "loss": 1.368,
      "mean_token_accuracy": 0.6703123350938162,
      "num_tokens": 2282240654.0,
      "step": 13608
    },
    {
      "entropy": 1.7419903775056202,
      "epoch": 1.495015242646453,
      "grad_norm": 0.6560501456260681,
      "learning_rate": 4.84685373933294e-06,
      "loss": 1.2839,
      "mean_token_accuracy": 0.6740489850441614,
      "num_tokens": 2282376898.0,
      "step": 13609
    },
    {
      "entropy": 1.6600103080272675,
      "epoch": 1.4951250995578258,
      "grad_norm": 0.6871337890625,
      "learning_rate": 4.845685366214003e-06,
      "loss": 1.51,
      "mean_token_accuracy": 0.6429749627908071,
      "num_tokens": 2282552047.0,
      "step": 13610
    },
    {
      "entropy": 1.7339093486467998,
      "epoch": 1.495234956469199,
      "grad_norm": 0.7348884344100952,
      "learning_rate": 4.8445171878763536e-06,
      "loss": 1.2774,
      "mean_token_accuracy": 0.6790765027205149,
      "num_tokens": 2282690136.0,
      "step": 13611
    },
    {
      "entropy": 1.7065096199512482,
      "epoch": 1.4953448133805718,
      "grad_norm": 0.548129141330719,
      "learning_rate": 4.84334920435696e-06,
      "loss": 1.3133,
      "mean_token_accuracy": 0.6773122251033783,
      "num_tokens": 2282868665.0,
      "step": 13612
    },
    {
      "entropy": 1.7016609410444896,
      "epoch": 1.4954546702919447,
      "grad_norm": 0.6310706734657288,
      "learning_rate": 4.842181415692791e-06,
      "loss": 1.4762,
      "mean_token_accuracy": 0.6426133811473846,
      "num_tokens": 2283027370.0,
      "step": 13613
    },
    {
      "entropy": 1.7180238564809163,
      "epoch": 1.4955645272033178,
      "grad_norm": 0.6619656682014465,
      "learning_rate": 4.841013821920805e-06,
      "loss": 1.289,
      "mean_token_accuracy": 0.6721247384945551,
      "num_tokens": 2283197730.0,
      "step": 13614
    },
    {
      "entropy": 1.6656270027160645,
      "epoch": 1.4956743841146907,
      "grad_norm": 0.6908462047576904,
      "learning_rate": 4.839846423077955e-06,
      "loss": 1.2454,
      "mean_token_accuracy": 0.6713667859633764,
      "num_tokens": 2283312940.0,
      "step": 13615
    },
    {
      "entropy": 1.7119423349698384,
      "epoch": 1.4957842410260636,
      "grad_norm": 0.7182555198669434,
      "learning_rate": 4.838679219201192e-06,
      "loss": 1.5939,
      "mean_token_accuracy": 0.6521507352590561,
      "num_tokens": 2283454962.0,
      "step": 13616
    },
    {
      "entropy": 1.7009160617987316,
      "epoch": 1.4958940979374364,
      "grad_norm": 0.5092278718948364,
      "learning_rate": 4.837512210327456e-06,
      "loss": 1.493,
      "mean_token_accuracy": 0.624845340847969,
      "num_tokens": 2283755025.0,
      "step": 13617
    },
    {
      "entropy": 1.6453999876976013,
      "epoch": 1.4960039548488093,
      "grad_norm": 0.6449650526046753,
      "learning_rate": 4.836345396493678e-06,
      "loss": 1.3157,
      "mean_token_accuracy": 0.6672974874575933,
      "num_tokens": 2283966223.0,
      "step": 13618
    },
    {
      "entropy": 1.7281176149845123,
      "epoch": 1.4961138117601824,
      "grad_norm": 0.6479874849319458,
      "learning_rate": 4.835178777736791e-06,
      "loss": 1.4652,
      "mean_token_accuracy": 0.6569635172684988,
      "num_tokens": 2284138007.0,
      "step": 13619
    },
    {
      "entropy": 1.7001449863115947,
      "epoch": 1.4962236686715553,
      "grad_norm": 0.7589164972305298,
      "learning_rate": 4.83401235409372e-06,
      "loss": 1.4462,
      "mean_token_accuracy": 0.6550010740756989,
      "num_tokens": 2284287063.0,
      "step": 13620
    },
    {
      "entropy": 1.7176421483357747,
      "epoch": 1.4963335255829282,
      "grad_norm": 0.6610986590385437,
      "learning_rate": 4.832846125601381e-06,
      "loss": 1.4037,
      "mean_token_accuracy": 0.6466071307659149,
      "num_tokens": 2284436041.0,
      "step": 13621
    },
    {
      "entropy": 1.682494064172109,
      "epoch": 1.4964433824943013,
      "grad_norm": 0.7629041075706482,
      "learning_rate": 4.831680092296679e-06,
      "loss": 1.3422,
      "mean_token_accuracy": 0.6677883863449097,
      "num_tokens": 2284602710.0,
      "step": 13622
    },
    {
      "entropy": 1.6760949591795604,
      "epoch": 1.496553239405674,
      "grad_norm": 0.73377525806427,
      "learning_rate": 4.830514254216527e-06,
      "loss": 1.3821,
      "mean_token_accuracy": 0.6497271855672201,
      "num_tokens": 2284767266.0,
      "step": 13623
    },
    {
      "entropy": 1.6992427905400593,
      "epoch": 1.496663096317047,
      "grad_norm": 0.6510926485061646,
      "learning_rate": 4.829348611397815e-06,
      "loss": 1.3355,
      "mean_token_accuracy": 0.653320108850797,
      "num_tokens": 2284923786.0,
      "step": 13624
    },
    {
      "entropy": 1.6941948135693867,
      "epoch": 1.49677295322842,
      "grad_norm": 0.7802711725234985,
      "learning_rate": 4.828183163877441e-06,
      "loss": 1.2977,
      "mean_token_accuracy": 0.6674275199572245,
      "num_tokens": 2285069673.0,
      "step": 13625
    },
    {
      "entropy": 1.7570783694585164,
      "epoch": 1.4968828101397929,
      "grad_norm": 0.7150521278381348,
      "learning_rate": 4.82701791169229e-06,
      "loss": 1.4907,
      "mean_token_accuracy": 0.6550498505433401,
      "num_tokens": 2285211769.0,
      "step": 13626
    },
    {
      "entropy": 1.711845616499583,
      "epoch": 1.496992667051166,
      "grad_norm": 0.8639612793922424,
      "learning_rate": 4.825852854879236e-06,
      "loss": 1.3726,
      "mean_token_accuracy": 0.6677491863568624,
      "num_tokens": 2285352305.0,
      "step": 13627
    },
    {
      "entropy": 1.703562508026759,
      "epoch": 1.4971025239625388,
      "grad_norm": 0.6228059530258179,
      "learning_rate": 4.8246879934751615e-06,
      "loss": 1.2863,
      "mean_token_accuracy": 0.662003293633461,
      "num_tokens": 2285514680.0,
      "step": 13628
    },
    {
      "entropy": 1.661176194747289,
      "epoch": 1.4972123808739117,
      "grad_norm": 0.651232123374939,
      "learning_rate": 4.823523327516929e-06,
      "loss": 1.4186,
      "mean_token_accuracy": 0.6596865157286326,
      "num_tokens": 2285640894.0,
      "step": 13629
    },
    {
      "entropy": 1.7480360170205433,
      "epoch": 1.4973222377852846,
      "grad_norm": 0.6672519445419312,
      "learning_rate": 4.822358857041396e-06,
      "loss": 1.338,
      "mean_token_accuracy": 0.6738019635279974,
      "num_tokens": 2285786016.0,
      "step": 13630
    },
    {
      "entropy": 1.728183130423228,
      "epoch": 1.4974320946966575,
      "grad_norm": 0.6858686208724976,
      "learning_rate": 4.821194582085423e-06,
      "loss": 1.5963,
      "mean_token_accuracy": 0.6362834026416143,
      "num_tokens": 2285993402.0,
      "step": 13631
    },
    {
      "entropy": 1.7002196311950684,
      "epoch": 1.4975419516080306,
      "grad_norm": 0.7614853382110596,
      "learning_rate": 4.82003050268586e-06,
      "loss": 1.2961,
      "mean_token_accuracy": 0.6599853783845901,
      "num_tokens": 2286130357.0,
      "step": 13632
    },
    {
      "entropy": 1.6387390891710918,
      "epoch": 1.4976518085194035,
      "grad_norm": 0.6776584982872009,
      "learning_rate": 4.818866618879546e-06,
      "loss": 1.3764,
      "mean_token_accuracy": 0.6690385490655899,
      "num_tokens": 2286305495.0,
      "step": 13633
    },
    {
      "entropy": 1.7022567987442017,
      "epoch": 1.4977616654307764,
      "grad_norm": 0.6763585209846497,
      "learning_rate": 4.817702930703316e-06,
      "loss": 1.3917,
      "mean_token_accuracy": 0.6675192614396414,
      "num_tokens": 2286436486.0,
      "step": 13634
    },
    {
      "entropy": 1.7336170276006062,
      "epoch": 1.4978715223421495,
      "grad_norm": 0.5927034020423889,
      "learning_rate": 4.816539438194004e-06,
      "loss": 1.3455,
      "mean_token_accuracy": 0.6625049064556757,
      "num_tokens": 2286591633.0,
      "step": 13635
    },
    {
      "entropy": 1.7186884780724843,
      "epoch": 1.4979813792535221,
      "grad_norm": 0.6435331106185913,
      "learning_rate": 4.815376141388432e-06,
      "loss": 1.2864,
      "mean_token_accuracy": 0.6589618921279907,
      "num_tokens": 2286735105.0,
      "step": 13636
    },
    {
      "entropy": 1.7794620990753174,
      "epoch": 1.4980912361648953,
      "grad_norm": 0.6708908677101135,
      "learning_rate": 4.814213040323419e-06,
      "loss": 1.2498,
      "mean_token_accuracy": 0.6653878291447958,
      "num_tokens": 2286838400.0,
      "step": 13637
    },
    {
      "entropy": 1.6840010782082875,
      "epoch": 1.4982010930762681,
      "grad_norm": 0.6124277114868164,
      "learning_rate": 4.813050135035776e-06,
      "loss": 1.4343,
      "mean_token_accuracy": 0.6520940760771433,
      "num_tokens": 2287052287.0,
      "step": 13638
    },
    {
      "entropy": 1.6653833985328674,
      "epoch": 1.498310949987641,
      "grad_norm": 0.582930862903595,
      "learning_rate": 4.811887425562305e-06,
      "loss": 1.4394,
      "mean_token_accuracy": 0.6390776584545771,
      "num_tokens": 2287256232.0,
      "step": 13639
    },
    {
      "entropy": 1.7373347878456116,
      "epoch": 1.4984208068990141,
      "grad_norm": 0.7825767397880554,
      "learning_rate": 4.810724911939813e-06,
      "loss": 1.3372,
      "mean_token_accuracy": 0.6598907858133316,
      "num_tokens": 2287415673.0,
      "step": 13640
    },
    {
      "entropy": 1.6686055858929951,
      "epoch": 1.498530663810387,
      "grad_norm": 0.5538728833198547,
      "learning_rate": 4.809562594205088e-06,
      "loss": 1.4187,
      "mean_token_accuracy": 0.6480937798817953,
      "num_tokens": 2287619130.0,
      "step": 13641
    },
    {
      "entropy": 1.7331142822901409,
      "epoch": 1.49864052072176,
      "grad_norm": 0.7984141111373901,
      "learning_rate": 4.808400472394915e-06,
      "loss": 1.5261,
      "mean_token_accuracy": 0.6605927993853887,
      "num_tokens": 2287777134.0,
      "step": 13642
    },
    {
      "entropy": 1.7319643298784893,
      "epoch": 1.4987503776331328,
      "grad_norm": 0.7856102585792542,
      "learning_rate": 4.807238546546077e-06,
      "loss": 1.4331,
      "mean_token_accuracy": 0.6482569624980291,
      "num_tokens": 2287929596.0,
      "step": 13643
    },
    {
      "entropy": 1.7171655396620433,
      "epoch": 1.4988602345445057,
      "grad_norm": 0.7845726609230042,
      "learning_rate": 4.806076816695351e-06,
      "loss": 1.515,
      "mean_token_accuracy": 0.6387662142515182,
      "num_tokens": 2288091381.0,
      "step": 13644
    },
    {
      "entropy": 1.6830125947793324,
      "epoch": 1.4989700914558788,
      "grad_norm": 0.6584486365318298,
      "learning_rate": 4.804915282879503e-06,
      "loss": 1.2917,
      "mean_token_accuracy": 0.6716272433598837,
      "num_tokens": 2288232915.0,
      "step": 13645
    },
    {
      "entropy": 1.7228589157263439,
      "epoch": 1.4990799483672517,
      "grad_norm": 0.7010536193847656,
      "learning_rate": 4.80375394513529e-06,
      "loss": 1.4135,
      "mean_token_accuracy": 0.6520048628250757,
      "num_tokens": 2288398947.0,
      "step": 13646
    },
    {
      "entropy": 1.7012008130550385,
      "epoch": 1.4991898052786246,
      "grad_norm": 0.7033513784408569,
      "learning_rate": 4.802592803499477e-06,
      "loss": 1.2313,
      "mean_token_accuracy": 0.6781880507866541,
      "num_tokens": 2288506315.0,
      "step": 13647
    },
    {
      "entropy": 1.6403611302375793,
      "epoch": 1.4992996621899977,
      "grad_norm": 0.6568671464920044,
      "learning_rate": 4.80143185800881e-06,
      "loss": 1.2665,
      "mean_token_accuracy": 0.6699175884326299,
      "num_tokens": 2288658086.0,
      "step": 13648
    },
    {
      "entropy": 1.7293101052443187,
      "epoch": 1.4994095191013705,
      "grad_norm": 0.7070812582969666,
      "learning_rate": 4.800271108700027e-06,
      "loss": 1.623,
      "mean_token_accuracy": 0.626306434472402,
      "num_tokens": 2288892470.0,
      "step": 13649
    },
    {
      "entropy": 1.687088151772817,
      "epoch": 1.4995193760127434,
      "grad_norm": 0.5417489409446716,
      "learning_rate": 4.799110555609874e-06,
      "loss": 1.1432,
      "mean_token_accuracy": 0.6710360199213028,
      "num_tokens": 2289111747.0,
      "step": 13650
    },
    {
      "entropy": 1.7193756500879924,
      "epoch": 1.4996292329241163,
      "grad_norm": 0.590350329875946,
      "learning_rate": 4.797950198775074e-06,
      "loss": 1.3533,
      "mean_token_accuracy": 0.6762384523948034,
      "num_tokens": 2289293601.0,
      "step": 13651
    },
    {
      "entropy": 1.6460750301678975,
      "epoch": 1.4997390898354892,
      "grad_norm": 0.617831826210022,
      "learning_rate": 4.796790038232359e-06,
      "loss": 1.4126,
      "mean_token_accuracy": 0.6668714483579,
      "num_tokens": 2289481612.0,
      "step": 13652
    },
    {
      "entropy": 1.6675611039002736,
      "epoch": 1.4998489467468623,
      "grad_norm": 0.6598964333534241,
      "learning_rate": 4.795630074018443e-06,
      "loss": 1.541,
      "mean_token_accuracy": 0.6393274962902069,
      "num_tokens": 2289662266.0,
      "step": 13653
    },
    {
      "entropy": 1.6732101341088612,
      "epoch": 1.4999588036582352,
      "grad_norm": 0.837954580783844,
      "learning_rate": 4.794470306170038e-06,
      "loss": 1.5671,
      "mean_token_accuracy": 0.6427912364403406,
      "num_tokens": 2289836806.0,
      "step": 13654
    },
    {
      "entropy": 1.7142541805903118,
      "epoch": 1.500068660569608,
      "grad_norm": 0.7065649032592773,
      "learning_rate": 4.79331073472385e-06,
      "loss": 1.6684,
      "mean_token_accuracy": 0.6320697516202927,
      "num_tokens": 2290122996.0,
      "step": 13655
    },
    {
      "entropy": 1.7274170815944672,
      "epoch": 1.5001785174809812,
      "grad_norm": 0.6198680996894836,
      "learning_rate": 4.792151359716585e-06,
      "loss": 1.383,
      "mean_token_accuracy": 0.6606019486983618,
      "num_tokens": 2290319640.0,
      "step": 13656
    },
    {
      "entropy": 1.7504333357016246,
      "epoch": 1.5002883743923539,
      "grad_norm": 0.6796494126319885,
      "learning_rate": 4.79099218118493e-06,
      "loss": 1.3203,
      "mean_token_accuracy": 0.6651289115349451,
      "num_tokens": 2290446566.0,
      "step": 13657
    },
    {
      "entropy": 1.6876095831394196,
      "epoch": 1.500398231303727,
      "grad_norm": 0.6724913716316223,
      "learning_rate": 4.7898331991655764e-06,
      "loss": 1.6636,
      "mean_token_accuracy": 0.6144607166449229,
      "num_tokens": 2290691085.0,
      "step": 13658
    },
    {
      "entropy": 1.7187560300032299,
      "epoch": 1.5005080882150998,
      "grad_norm": 0.6489282250404358,
      "learning_rate": 4.7886744136951996e-06,
      "loss": 1.5508,
      "mean_token_accuracy": 0.6420976668596268,
      "num_tokens": 2290903404.0,
      "step": 13659
    },
    {
      "entropy": 1.6801285644372304,
      "epoch": 1.5006179451264727,
      "grad_norm": 0.6258361339569092,
      "learning_rate": 4.787515824810483e-06,
      "loss": 1.3144,
      "mean_token_accuracy": 0.6689251512289047,
      "num_tokens": 2291106588.0,
      "step": 13660
    },
    {
      "entropy": 1.7926131387551625,
      "epoch": 1.5007278020378458,
      "grad_norm": 0.7377539277076721,
      "learning_rate": 4.78635743254809e-06,
      "loss": 1.3222,
      "mean_token_accuracy": 0.6706551959117254,
      "num_tokens": 2291214514.0,
      "step": 13661
    },
    {
      "entropy": 1.708193560441335,
      "epoch": 1.5008376589492185,
      "grad_norm": 0.6403104066848755,
      "learning_rate": 4.785199236944681e-06,
      "loss": 1.4077,
      "mean_token_accuracy": 0.644023617108663,
      "num_tokens": 2291407970.0,
      "step": 13662
    },
    {
      "entropy": 1.6744596858819325,
      "epoch": 1.5009475158605916,
      "grad_norm": 0.751727819442749,
      "learning_rate": 4.784041238036917e-06,
      "loss": 1.3342,
      "mean_token_accuracy": 0.6770372043053309,
      "num_tokens": 2291571695.0,
      "step": 13663
    },
    {
      "entropy": 1.7439305186271667,
      "epoch": 1.5010573727719645,
      "grad_norm": 0.824898362159729,
      "learning_rate": 4.782883435861449e-06,
      "loss": 1.4083,
      "mean_token_accuracy": 0.6511137386163076,
      "num_tokens": 2291720500.0,
      "step": 13664
    },
    {
      "entropy": 1.7442241807778676,
      "epoch": 1.5011672296833374,
      "grad_norm": 0.8911228179931641,
      "learning_rate": 4.781725830454919e-06,
      "loss": 1.4769,
      "mean_token_accuracy": 0.6623394538958868,
      "num_tokens": 2291875701.0,
      "step": 13665
    },
    {
      "entropy": 1.6710403362909954,
      "epoch": 1.5012770865947105,
      "grad_norm": 0.6459485292434692,
      "learning_rate": 4.780568421853962e-06,
      "loss": 1.3773,
      "mean_token_accuracy": 0.6579457273085912,
      "num_tokens": 2292060235.0,
      "step": 13666
    },
    {
      "entropy": 1.7651425302028656,
      "epoch": 1.5013869435060834,
      "grad_norm": 0.8423007130622864,
      "learning_rate": 4.779411210095214e-06,
      "loss": 1.4055,
      "mean_token_accuracy": 0.6594301611185074,
      "num_tokens": 2292192597.0,
      "step": 13667
    },
    {
      "entropy": 1.6896374821662903,
      "epoch": 1.5014968004174563,
      "grad_norm": 0.7431081533432007,
      "learning_rate": 4.778254195215295e-06,
      "loss": 1.3766,
      "mean_token_accuracy": 0.6599178363879522,
      "num_tokens": 2292354541.0,
      "step": 13668
    },
    {
      "entropy": 1.6598813434441884,
      "epoch": 1.5016066573288294,
      "grad_norm": 0.8162408471107483,
      "learning_rate": 4.777097377250831e-06,
      "loss": 1.3112,
      "mean_token_accuracy": 0.677242711186409,
      "num_tokens": 2292495597.0,
      "step": 13669
    },
    {
      "entropy": 1.7197925249735515,
      "epoch": 1.501716514240202,
      "grad_norm": 0.649800181388855,
      "learning_rate": 4.775940756238431e-06,
      "loss": 1.5137,
      "mean_token_accuracy": 0.6383554091056188,
      "num_tokens": 2292653072.0,
      "step": 13670
    },
    {
      "entropy": 1.6852848728497822,
      "epoch": 1.5018263711515751,
      "grad_norm": 0.7410378456115723,
      "learning_rate": 4.774784332214697e-06,
      "loss": 1.4563,
      "mean_token_accuracy": 0.6579979757467905,
      "num_tokens": 2292806988.0,
      "step": 13671
    },
    {
      "entropy": 1.746435950199763,
      "epoch": 1.501936228062948,
      "grad_norm": 0.6971200108528137,
      "learning_rate": 4.773628105216238e-06,
      "loss": 1.3093,
      "mean_token_accuracy": 0.6615460316340128,
      "num_tokens": 2292939408.0,
      "step": 13672
    },
    {
      "entropy": 1.6766025920708973,
      "epoch": 1.502046084974321,
      "grad_norm": 0.6413285732269287,
      "learning_rate": 4.772472075279643e-06,
      "loss": 1.3751,
      "mean_token_accuracy": 0.6748560518026352,
      "num_tokens": 2293083000.0,
      "step": 13673
    },
    {
      "entropy": 1.6996668179829915,
      "epoch": 1.502155941885694,
      "grad_norm": 0.7790882587432861,
      "learning_rate": 4.771316242441498e-06,
      "loss": 1.327,
      "mean_token_accuracy": 0.661717543999354,
      "num_tokens": 2293233616.0,
      "step": 13674
    },
    {
      "entropy": 1.6642019947369893,
      "epoch": 1.5022657987970667,
      "grad_norm": 0.7140267491340637,
      "learning_rate": 4.7701606067383875e-06,
      "loss": 1.2386,
      "mean_token_accuracy": 0.6947644750277201,
      "num_tokens": 2293363011.0,
      "step": 13675
    },
    {
      "entropy": 1.7092399597167969,
      "epoch": 1.5023756557084398,
      "grad_norm": 0.6863964796066284,
      "learning_rate": 4.76900516820689e-06,
      "loss": 1.3732,
      "mean_token_accuracy": 0.6574582954247793,
      "num_tokens": 2293515091.0,
      "step": 13676
    },
    {
      "entropy": 1.6853445172309875,
      "epoch": 1.5024855126198127,
      "grad_norm": 0.7969051599502563,
      "learning_rate": 4.76784992688357e-06,
      "loss": 1.4371,
      "mean_token_accuracy": 0.6546561618645986,
      "num_tokens": 2293667579.0,
      "step": 13677
    },
    {
      "entropy": 1.6716053783893585,
      "epoch": 1.5025953695311856,
      "grad_norm": 8.106036186218262,
      "learning_rate": 4.76669488280499e-06,
      "loss": 1.2827,
      "mean_token_accuracy": 0.6833441058794657,
      "num_tokens": 2293876244.0,
      "step": 13678
    },
    {
      "entropy": 1.6749347150325775,
      "epoch": 1.5027052264425587,
      "grad_norm": 0.7246283292770386,
      "learning_rate": 4.76554003600771e-06,
      "loss": 1.4164,
      "mean_token_accuracy": 0.6572469621896744,
      "num_tokens": 2294045369.0,
      "step": 13679
    },
    {
      "entropy": 1.6581110556920369,
      "epoch": 1.5028150833539315,
      "grad_norm": 0.684249997138977,
      "learning_rate": 4.764385386528276e-06,
      "loss": 1.3176,
      "mean_token_accuracy": 0.6688032547632853,
      "num_tokens": 2294188555.0,
      "step": 13680
    },
    {
      "entropy": 1.8024831314881642,
      "epoch": 1.5029249402653044,
      "grad_norm": 0.7943997979164124,
      "learning_rate": 4.763230934403237e-06,
      "loss": 1.44,
      "mean_token_accuracy": 0.6461151192585627,
      "num_tokens": 2294350821.0,
      "step": 13681
    },
    {
      "entropy": 1.6654022733370464,
      "epoch": 1.5030347971766775,
      "grad_norm": 0.6539124250411987,
      "learning_rate": 4.762076679669128e-06,
      "loss": 1.4501,
      "mean_token_accuracy": 0.6525823424259821,
      "num_tokens": 2294535256.0,
      "step": 13682
    },
    {
      "entropy": 1.6741309265295665,
      "epoch": 1.5031446540880502,
      "grad_norm": 0.7052878737449646,
      "learning_rate": 4.760922622362481e-06,
      "loss": 1.3265,
      "mean_token_accuracy": 0.6755642145872116,
      "num_tokens": 2294715316.0,
      "step": 13683
    },
    {
      "entropy": 1.7677266299724579,
      "epoch": 1.5032545109994233,
      "grad_norm": 0.6491983532905579,
      "learning_rate": 4.759768762519822e-06,
      "loss": 1.4475,
      "mean_token_accuracy": 0.6450400104125341,
      "num_tokens": 2294970194.0,
      "step": 13684
    },
    {
      "entropy": 1.706259439388911,
      "epoch": 1.5033643679107962,
      "grad_norm": 0.6732988953590393,
      "learning_rate": 4.75861510017767e-06,
      "loss": 1.291,
      "mean_token_accuracy": 0.6787703533967336,
      "num_tokens": 2295122089.0,
      "step": 13685
    },
    {
      "entropy": 1.7781917651494343,
      "epoch": 1.503474224822169,
      "grad_norm": 0.7497197985649109,
      "learning_rate": 4.757461635372536e-06,
      "loss": 1.3894,
      "mean_token_accuracy": 0.6516469866037369,
      "num_tokens": 2295249519.0,
      "step": 13686
    },
    {
      "entropy": 1.6908331016699474,
      "epoch": 1.5035840817335422,
      "grad_norm": 0.6211578845977783,
      "learning_rate": 4.756308368140927e-06,
      "loss": 1.4081,
      "mean_token_accuracy": 0.6597599039475123,
      "num_tokens": 2295417437.0,
      "step": 13687
    },
    {
      "entropy": 1.738340864578883,
      "epoch": 1.5036939386449149,
      "grad_norm": 0.7150505781173706,
      "learning_rate": 4.755155298519349e-06,
      "loss": 1.4526,
      "mean_token_accuracy": 0.6501429776350657,
      "num_tokens": 2295603865.0,
      "step": 13688
    },
    {
      "entropy": 1.7665735979874928,
      "epoch": 1.503803795556288,
      "grad_norm": 0.7368733286857605,
      "learning_rate": 4.7540024265442905e-06,
      "loss": 1.5544,
      "mean_token_accuracy": 0.6462236990531286,
      "num_tokens": 2295751755.0,
      "step": 13689
    },
    {
      "entropy": 1.7254281441370647,
      "epoch": 1.5039136524676608,
      "grad_norm": 0.7418520450592041,
      "learning_rate": 4.7528497522522385e-06,
      "loss": 1.4659,
      "mean_token_accuracy": 0.6408105889956156,
      "num_tokens": 2295946046.0,
      "step": 13690
    },
    {
      "entropy": 1.7010563015937805,
      "epoch": 1.5040235093790337,
      "grad_norm": 0.6515077948570251,
      "learning_rate": 4.75169727567968e-06,
      "loss": 1.448,
      "mean_token_accuracy": 0.6640833069880804,
      "num_tokens": 2296143617.0,
      "step": 13691
    },
    {
      "entropy": 1.693510760863622,
      "epoch": 1.5041333662904068,
      "grad_norm": 0.650558590888977,
      "learning_rate": 4.750544996863083e-06,
      "loss": 1.4015,
      "mean_token_accuracy": 0.6564928144216537,
      "num_tokens": 2296290922.0,
      "step": 13692
    },
    {
      "entropy": 1.7150411407152812,
      "epoch": 1.5042432232017797,
      "grad_norm": 0.6943185329437256,
      "learning_rate": 4.749392915838925e-06,
      "loss": 1.3855,
      "mean_token_accuracy": 0.6770055890083313,
      "num_tokens": 2296481790.0,
      "step": 13693
    },
    {
      "entropy": 1.7828082740306854,
      "epoch": 1.5043530801131526,
      "grad_norm": 0.7607249617576599,
      "learning_rate": 4.748241032643664e-06,
      "loss": 1.4255,
      "mean_token_accuracy": 0.6515330821275711,
      "num_tokens": 2296600354.0,
      "step": 13694
    },
    {
      "entropy": 1.6512650549411774,
      "epoch": 1.5044629370245257,
      "grad_norm": 0.6560864448547363,
      "learning_rate": 4.747089347313755e-06,
      "loss": 1.2883,
      "mean_token_accuracy": 0.6671764502922694,
      "num_tokens": 2296774491.0,
      "step": 13695
    },
    {
      "entropy": 1.7189783950646718,
      "epoch": 1.5045727939358984,
      "grad_norm": 0.7325725555419922,
      "learning_rate": 4.7459378598856525e-06,
      "loss": 1.3908,
      "mean_token_accuracy": 0.6567257990439733,
      "num_tokens": 2296914415.0,
      "step": 13696
    },
    {
      "entropy": 1.729427436987559,
      "epoch": 1.5046826508472715,
      "grad_norm": 0.751825749874115,
      "learning_rate": 4.744786570395798e-06,
      "loss": 1.3657,
      "mean_token_accuracy": 0.6634038190046946,
      "num_tokens": 2297093221.0,
      "step": 13697
    },
    {
      "entropy": 1.7347900966803234,
      "epoch": 1.5047925077586444,
      "grad_norm": 0.6090309619903564,
      "learning_rate": 4.743635478880628e-06,
      "loss": 1.462,
      "mean_token_accuracy": 0.6348727444807688,
      "num_tokens": 2297310033.0,
      "step": 13698
    },
    {
      "entropy": 1.7234489421049755,
      "epoch": 1.5049023646700173,
      "grad_norm": 0.6301156878471375,
      "learning_rate": 4.742484585376576e-06,
      "loss": 1.4262,
      "mean_token_accuracy": 0.6584373613198599,
      "num_tokens": 2297493384.0,
      "step": 13699
    },
    {
      "entropy": 1.6984918216864269,
      "epoch": 1.5050122215813904,
      "grad_norm": 0.6758148074150085,
      "learning_rate": 4.74133388992007e-06,
      "loss": 1.4503,
      "mean_token_accuracy": 0.6438490003347397,
      "num_tokens": 2297684605.0,
      "step": 13700
    },
    {
      "entropy": 1.7280223667621613,
      "epoch": 1.505122078492763,
      "grad_norm": 0.5646396279335022,
      "learning_rate": 4.740183392547526e-06,
      "loss": 1.4605,
      "mean_token_accuracy": 0.6355783194303513,
      "num_tokens": 2297901393.0,
      "step": 13701
    },
    {
      "entropy": 1.6897727847099304,
      "epoch": 1.5052319354041361,
      "grad_norm": 0.7985787987709045,
      "learning_rate": 4.739033093295354e-06,
      "loss": 1.3079,
      "mean_token_accuracy": 0.6786791036526362,
      "num_tokens": 2298041421.0,
      "step": 13702
    },
    {
      "entropy": 1.6934953530629475,
      "epoch": 1.505341792315509,
      "grad_norm": 0.6441080570220947,
      "learning_rate": 4.737882992199966e-06,
      "loss": 1.4262,
      "mean_token_accuracy": 0.6507407377163569,
      "num_tokens": 2298251682.0,
      "step": 13703
    },
    {
      "entropy": 1.7239458660284679,
      "epoch": 1.505451649226882,
      "grad_norm": 0.6519790291786194,
      "learning_rate": 4.7367330892977575e-06,
      "loss": 1.5049,
      "mean_token_accuracy": 0.6607875376939774,
      "num_tokens": 2298459653.0,
      "step": 13704
    },
    {
      "entropy": 1.669982651869456,
      "epoch": 1.505561506138255,
      "grad_norm": 0.7108668684959412,
      "learning_rate": 4.735583384625126e-06,
      "loss": 1.4123,
      "mean_token_accuracy": 0.6692193200190862,
      "num_tokens": 2298597296.0,
      "step": 13705
    },
    {
      "entropy": 1.6570941507816315,
      "epoch": 1.505671363049628,
      "grad_norm": 0.7075870633125305,
      "learning_rate": 4.734433878218458e-06,
      "loss": 1.4478,
      "mean_token_accuracy": 0.6687259177366892,
      "num_tokens": 2298807746.0,
      "step": 13706
    },
    {
      "entropy": 1.733141968647639,
      "epoch": 1.5057812199610008,
      "grad_norm": 0.7741393446922302,
      "learning_rate": 4.733284570114132e-06,
      "loss": 1.4514,
      "mean_token_accuracy": 0.6441124876340231,
      "num_tokens": 2298973558.0,
      "step": 13707
    },
    {
      "entropy": 1.7128113210201263,
      "epoch": 1.505891076872374,
      "grad_norm": 0.7485846877098083,
      "learning_rate": 4.732135460348528e-06,
      "loss": 1.362,
      "mean_token_accuracy": 0.6596867889165878,
      "num_tokens": 2299133295.0,
      "step": 13708
    },
    {
      "entropy": 1.695679912964503,
      "epoch": 1.5060009337837466,
      "grad_norm": 0.7252331376075745,
      "learning_rate": 4.730986548958013e-06,
      "loss": 1.5427,
      "mean_token_accuracy": 0.6482022255659103,
      "num_tokens": 2299358470.0,
      "step": 13709
    },
    {
      "entropy": 1.6781230370203655,
      "epoch": 1.5061107906951197,
      "grad_norm": 0.6633203029632568,
      "learning_rate": 4.729837835978946e-06,
      "loss": 1.2652,
      "mean_token_accuracy": 0.6692434151967367,
      "num_tokens": 2299493276.0,
      "step": 13710
    },
    {
      "entropy": 1.7279355724652607,
      "epoch": 1.5062206476064925,
      "grad_norm": 0.9011074900627136,
      "learning_rate": 4.728689321447685e-06,
      "loss": 1.4516,
      "mean_token_accuracy": 0.660559723774592,
      "num_tokens": 2299656386.0,
      "step": 13711
    },
    {
      "entropy": 1.6402093569437664,
      "epoch": 1.5063305045178654,
      "grad_norm": 0.7499086260795593,
      "learning_rate": 4.727541005400584e-06,
      "loss": 1.4408,
      "mean_token_accuracy": 0.6577077358961105,
      "num_tokens": 2299799422.0,
      "step": 13712
    },
    {
      "entropy": 1.70639768242836,
      "epoch": 1.5064403614292385,
      "grad_norm": 0.7071443200111389,
      "learning_rate": 4.726392887873984e-06,
      "loss": 1.4686,
      "mean_token_accuracy": 0.6468622287114462,
      "num_tokens": 2299983882.0,
      "step": 13713
    },
    {
      "entropy": 1.6494310796260834,
      "epoch": 1.5065502183406112,
      "grad_norm": 0.7178316116333008,
      "learning_rate": 4.725244968904219e-06,
      "loss": 1.3299,
      "mean_token_accuracy": 0.6607310126225153,
      "num_tokens": 2300124046.0,
      "step": 13714
    },
    {
      "entropy": 1.6953360736370087,
      "epoch": 1.5066600752519843,
      "grad_norm": 0.861855685710907,
      "learning_rate": 4.724097248527627e-06,
      "loss": 1.4663,
      "mean_token_accuracy": 0.6720197945833206,
      "num_tokens": 2300287184.0,
      "step": 13715
    },
    {
      "entropy": 1.7422000865141551,
      "epoch": 1.5067699321633572,
      "grad_norm": 0.7510853409767151,
      "learning_rate": 4.722949726780526e-06,
      "loss": 1.318,
      "mean_token_accuracy": 0.6652670900026957,
      "num_tokens": 2300394163.0,
      "step": 13716
    },
    {
      "entropy": 1.7209021250406902,
      "epoch": 1.50687978907473,
      "grad_norm": 0.8294375538825989,
      "learning_rate": 4.721802403699244e-06,
      "loss": 1.4164,
      "mean_token_accuracy": 0.6530443280935287,
      "num_tokens": 2300530554.0,
      "step": 13717
    },
    {
      "entropy": 1.7540078063805897,
      "epoch": 1.5069896459861032,
      "grad_norm": 0.6351104378700256,
      "learning_rate": 4.720655279320079e-06,
      "loss": 1.4425,
      "mean_token_accuracy": 0.6411314457654953,
      "num_tokens": 2300742561.0,
      "step": 13718
    },
    {
      "entropy": 1.665945549805959,
      "epoch": 1.507099502897476,
      "grad_norm": 0.6579576134681702,
      "learning_rate": 4.719508353679347e-06,
      "loss": 1.4437,
      "mean_token_accuracy": 0.6524225821097692,
      "num_tokens": 2300910840.0,
      "step": 13719
    },
    {
      "entropy": 1.6633223791917164,
      "epoch": 1.507209359808849,
      "grad_norm": 0.6341217756271362,
      "learning_rate": 4.718361626813347e-06,
      "loss": 1.3326,
      "mean_token_accuracy": 0.6552438537279764,
      "num_tokens": 2301079382.0,
      "step": 13720
    },
    {
      "entropy": 1.722684770822525,
      "epoch": 1.507319216720222,
      "grad_norm": 0.6889148354530334,
      "learning_rate": 4.717215098758373e-06,
      "loss": 1.4923,
      "mean_token_accuracy": 0.6483738025029501,
      "num_tokens": 2301291490.0,
      "step": 13721
    },
    {
      "entropy": 1.728617916504542,
      "epoch": 1.5074290736315947,
      "grad_norm": 0.811132550239563,
      "learning_rate": 4.716068769550705e-06,
      "loss": 1.4803,
      "mean_token_accuracy": 0.6466376930475235,
      "num_tokens": 2301465815.0,
      "step": 13722
    },
    {
      "entropy": 1.717352608839671,
      "epoch": 1.5075389305429678,
      "grad_norm": 0.7719509601593018,
      "learning_rate": 4.714922639226632e-06,
      "loss": 1.4298,
      "mean_token_accuracy": 0.65669085085392,
      "num_tokens": 2301627400.0,
      "step": 13723
    },
    {
      "entropy": 1.6580866078535716,
      "epoch": 1.5076487874543407,
      "grad_norm": 0.6603320240974426,
      "learning_rate": 4.713776707822424e-06,
      "loss": 1.4617,
      "mean_token_accuracy": 0.6624788045883179,
      "num_tokens": 2301832465.0,
      "step": 13724
    },
    {
      "entropy": 1.7385274867216747,
      "epoch": 1.5077586443657136,
      "grad_norm": 0.7888380885124207,
      "learning_rate": 4.712630975374352e-06,
      "loss": 1.3048,
      "mean_token_accuracy": 0.6638933221499125,
      "num_tokens": 2301979094.0,
      "step": 13725
    },
    {
      "entropy": 1.7239436507225037,
      "epoch": 1.5078685012770867,
      "grad_norm": 0.8936779499053955,
      "learning_rate": 4.711485441918676e-06,
      "loss": 1.2566,
      "mean_token_accuracy": 0.678350642323494,
      "num_tokens": 2302110862.0,
      "step": 13726
    },
    {
      "entropy": 1.61548513174057,
      "epoch": 1.5079783581884594,
      "grad_norm": 0.5887323021888733,
      "learning_rate": 4.7103401074916505e-06,
      "loss": 1.3824,
      "mean_token_accuracy": 0.6588394343852997,
      "num_tokens": 2302319582.0,
      "step": 13727
    },
    {
      "entropy": 1.7819407383600872,
      "epoch": 1.5080882150998325,
      "grad_norm": 0.7063882946968079,
      "learning_rate": 4.70919497212953e-06,
      "loss": 1.699,
      "mean_token_accuracy": 0.610893577337265,
      "num_tokens": 2302538990.0,
      "step": 13728
    },
    {
      "entropy": 1.7448661824067433,
      "epoch": 1.5081980720112054,
      "grad_norm": 0.6677849888801575,
      "learning_rate": 4.708050035868552e-06,
      "loss": 1.5426,
      "mean_token_accuracy": 0.6525959322849909,
      "num_tokens": 2302738791.0,
      "step": 13729
    },
    {
      "entropy": 1.6619132260481517,
      "epoch": 1.5083079289225783,
      "grad_norm": 0.7120320200920105,
      "learning_rate": 4.706905298744953e-06,
      "loss": 1.3273,
      "mean_token_accuracy": 0.660373717546463,
      "num_tokens": 2302885338.0,
      "step": 13730
    },
    {
      "entropy": 1.7256252070267994,
      "epoch": 1.5084177858339514,
      "grad_norm": 0.7116526961326599,
      "learning_rate": 4.705760760794966e-06,
      "loss": 1.4432,
      "mean_token_accuracy": 0.6434483329455057,
      "num_tokens": 2303047678.0,
      "step": 13731
    },
    {
      "entropy": 1.727946698665619,
      "epoch": 1.5085276427453242,
      "grad_norm": 0.8816052079200745,
      "learning_rate": 4.704616422054816e-06,
      "loss": 1.2795,
      "mean_token_accuracy": 0.6723741243282954,
      "num_tokens": 2303171804.0,
      "step": 13732
    },
    {
      "entropy": 1.7127221127351124,
      "epoch": 1.5086374996566971,
      "grad_norm": 0.6119446754455566,
      "learning_rate": 4.7034722825607205e-06,
      "loss": 1.3865,
      "mean_token_accuracy": 0.652864803870519,
      "num_tokens": 2303339544.0,
      "step": 13733
    },
    {
      "entropy": 1.6904581189155579,
      "epoch": 1.5087473565680702,
      "grad_norm": 0.7307989001274109,
      "learning_rate": 4.702328342348888e-06,
      "loss": 1.4435,
      "mean_token_accuracy": 0.6472090234359106,
      "num_tokens": 2303523201.0,
      "step": 13734
    },
    {
      "entropy": 1.7181105117003124,
      "epoch": 1.508857213479443,
      "grad_norm": 0.6447550654411316,
      "learning_rate": 4.701184601455527e-06,
      "loss": 1.4236,
      "mean_token_accuracy": 0.6380515098571777,
      "num_tokens": 2303765509.0,
      "step": 13735
    },
    {
      "entropy": 1.727871795495351,
      "epoch": 1.508967070390816,
      "grad_norm": 0.7264792919158936,
      "learning_rate": 4.700041059916833e-06,
      "loss": 1.4861,
      "mean_token_accuracy": 0.6438801288604736,
      "num_tokens": 2303938570.0,
      "step": 13736
    },
    {
      "entropy": 1.6387112736701965,
      "epoch": 1.509076927302189,
      "grad_norm": 0.6865224838256836,
      "learning_rate": 4.6988977177690035e-06,
      "loss": 1.4266,
      "mean_token_accuracy": 0.6634560376405716,
      "num_tokens": 2304111132.0,
      "step": 13737
    },
    {
      "entropy": 1.6926419138908386,
      "epoch": 1.5091867842135618,
      "grad_norm": 0.6934045553207397,
      "learning_rate": 4.697754575048223e-06,
      "loss": 1.4896,
      "mean_token_accuracy": 0.6502173244953156,
      "num_tokens": 2304281050.0,
      "step": 13738
    },
    {
      "entropy": 1.7066146433353424,
      "epoch": 1.509296641124935,
      "grad_norm": 0.7495198249816895,
      "learning_rate": 4.696611631790665e-06,
      "loss": 1.3706,
      "mean_token_accuracy": 0.6793716996908188,
      "num_tokens": 2304436350.0,
      "step": 13739
    },
    {
      "entropy": 1.7890824973583221,
      "epoch": 1.5094064980363076,
      "grad_norm": 0.7411239743232727,
      "learning_rate": 4.695468888032513e-06,
      "loss": 1.4913,
      "mean_token_accuracy": 0.6336054851611456,
      "num_tokens": 2304575159.0,
      "step": 13740
    },
    {
      "entropy": 1.7109392881393433,
      "epoch": 1.5095163549476807,
      "grad_norm": 0.6763020157814026,
      "learning_rate": 4.694326343809929e-06,
      "loss": 1.4573,
      "mean_token_accuracy": 0.6470163067181905,
      "num_tokens": 2304755316.0,
      "step": 13741
    },
    {
      "entropy": 1.6757989923159282,
      "epoch": 1.5096262118590535,
      "grad_norm": 0.6875401139259338,
      "learning_rate": 4.693183999159073e-06,
      "loss": 1.4078,
      "mean_token_accuracy": 0.6494525969028473,
      "num_tokens": 2304937028.0,
      "step": 13742
    },
    {
      "entropy": 1.7914471526940663,
      "epoch": 1.5097360687704264,
      "grad_norm": 0.8657746911048889,
      "learning_rate": 4.692041854116101e-06,
      "loss": 1.4989,
      "mean_token_accuracy": 0.6594147632519404,
      "num_tokens": 2305111526.0,
      "step": 13743
    },
    {
      "entropy": 1.7403202851613362,
      "epoch": 1.5098459256817995,
      "grad_norm": 0.6036834716796875,
      "learning_rate": 4.6908999087171645e-06,
      "loss": 1.3853,
      "mean_token_accuracy": 0.6570370892683665,
      "num_tokens": 2305273638.0,
      "step": 13744
    },
    {
      "entropy": 1.699168711900711,
      "epoch": 1.5099557825931724,
      "grad_norm": 0.6418320536613464,
      "learning_rate": 4.689758162998403e-06,
      "loss": 1.4483,
      "mean_token_accuracy": 0.6439376026391983,
      "num_tokens": 2305466484.0,
      "step": 13745
    },
    {
      "entropy": 1.7933777173360188,
      "epoch": 1.5100656395045453,
      "grad_norm": 0.7398175001144409,
      "learning_rate": 4.688616616995949e-06,
      "loss": 1.3478,
      "mean_token_accuracy": 0.6565447101990382,
      "num_tokens": 2305625923.0,
      "step": 13746
    },
    {
      "entropy": 1.712761531273524,
      "epoch": 1.5101754964159184,
      "grad_norm": 0.5988736152648926,
      "learning_rate": 4.687475270745939e-06,
      "loss": 1.4272,
      "mean_token_accuracy": 0.6635372291008631,
      "num_tokens": 2305795495.0,
      "step": 13747
    },
    {
      "entropy": 1.6717861990133922,
      "epoch": 1.510285353327291,
      "grad_norm": 0.6338712573051453,
      "learning_rate": 4.686334124284489e-06,
      "loss": 1.4542,
      "mean_token_accuracy": 0.6616056164105734,
      "num_tokens": 2306022578.0,
      "step": 13748
    },
    {
      "entropy": 1.6783255338668823,
      "epoch": 1.5103952102386642,
      "grad_norm": 0.7062821984291077,
      "learning_rate": 4.685193177647721e-06,
      "loss": 1.4289,
      "mean_token_accuracy": 0.6619517654180527,
      "num_tokens": 2306208025.0,
      "step": 13749
    },
    {
      "entropy": 1.7133217950661976,
      "epoch": 1.510505067150037,
      "grad_norm": 0.8360413312911987,
      "learning_rate": 4.684052430871744e-06,
      "loss": 1.3356,
      "mean_token_accuracy": 0.6822609504063925,
      "num_tokens": 2306394670.0,
      "step": 13750
    },
    {
      "entropy": 1.7764535943667095,
      "epoch": 1.51061492406141,
      "grad_norm": 0.7038290500640869,
      "learning_rate": 4.682911883992659e-06,
      "loss": 1.3857,
      "mean_token_accuracy": 0.6598734309275945,
      "num_tokens": 2306545028.0,
      "step": 13751
    },
    {
      "entropy": 1.7245705723762512,
      "epoch": 1.510724780972783,
      "grad_norm": 0.6591954231262207,
      "learning_rate": 4.681771537046568e-06,
      "loss": 1.3675,
      "mean_token_accuracy": 0.6651880691448847,
      "num_tokens": 2306708834.0,
      "step": 13752
    },
    {
      "entropy": 1.7273605664571126,
      "epoch": 1.5108346378841557,
      "grad_norm": 0.754412055015564,
      "learning_rate": 4.680631390069561e-06,
      "loss": 1.3327,
      "mean_token_accuracy": 0.665368507305781,
      "num_tokens": 2306860973.0,
      "step": 13753
    },
    {
      "entropy": 1.6641030311584473,
      "epoch": 1.5109444947955288,
      "grad_norm": 0.8478244543075562,
      "learning_rate": 4.679491443097721e-06,
      "loss": 1.3195,
      "mean_token_accuracy": 0.6591992974281311,
      "num_tokens": 2307024826.0,
      "step": 13754
    },
    {
      "entropy": 1.7281495829423268,
      "epoch": 1.5110543517069017,
      "grad_norm": 0.8327801823616028,
      "learning_rate": 4.678351696167129e-06,
      "loss": 1.2827,
      "mean_token_accuracy": 0.66518135368824,
      "num_tokens": 2307155483.0,
      "step": 13755
    },
    {
      "entropy": 1.676687588294347,
      "epoch": 1.5111642086182746,
      "grad_norm": 0.6652231812477112,
      "learning_rate": 4.677212149313859e-06,
      "loss": 1.3258,
      "mean_token_accuracy": 0.6645462463299433,
      "num_tokens": 2307328046.0,
      "step": 13756
    },
    {
      "entropy": 1.7564114332199097,
      "epoch": 1.5112740655296477,
      "grad_norm": 0.6835631132125854,
      "learning_rate": 4.676072802573976e-06,
      "loss": 1.3074,
      "mean_token_accuracy": 0.6630533536275228,
      "num_tokens": 2307471442.0,
      "step": 13757
    },
    {
      "entropy": 1.7643627524375916,
      "epoch": 1.5113839224410206,
      "grad_norm": 0.7151616215705872,
      "learning_rate": 4.674933655983535e-06,
      "loss": 1.4011,
      "mean_token_accuracy": 0.6479361802339554,
      "num_tokens": 2307601581.0,
      "step": 13758
    },
    {
      "entropy": 1.7416835725307465,
      "epoch": 1.5114937793523935,
      "grad_norm": 0.6428912878036499,
      "learning_rate": 4.673794709578598e-06,
      "loss": 1.5211,
      "mean_token_accuracy": 0.6297041177749634,
      "num_tokens": 2307869204.0,
      "step": 13759
    },
    {
      "entropy": 1.7405222256978352,
      "epoch": 1.5116036362637666,
      "grad_norm": 0.7016375660896301,
      "learning_rate": 4.672655963395205e-06,
      "loss": 1.3975,
      "mean_token_accuracy": 0.6664147426684698,
      "num_tokens": 2308073195.0,
      "step": 13760
    },
    {
      "entropy": 1.6804000735282898,
      "epoch": 1.5117134931751393,
      "grad_norm": 0.6481202840805054,
      "learning_rate": 4.671517417469402e-06,
      "loss": 1.496,
      "mean_token_accuracy": 0.6482650935649872,
      "num_tokens": 2308239309.0,
      "step": 13761
    },
    {
      "entropy": 1.7526653309663136,
      "epoch": 1.5118233500865124,
      "grad_norm": 0.7293574213981628,
      "learning_rate": 4.670379071837221e-06,
      "loss": 1.4853,
      "mean_token_accuracy": 0.6492472440004349,
      "num_tokens": 2308401820.0,
      "step": 13762
    },
    {
      "entropy": 1.7497336467107136,
      "epoch": 1.5119332069978852,
      "grad_norm": 0.6734301447868347,
      "learning_rate": 4.6692409265346876e-06,
      "loss": 1.3734,
      "mean_token_accuracy": 0.6600970327854156,
      "num_tokens": 2308542755.0,
      "step": 13763
    },
    {
      "entropy": 1.701109786828359,
      "epoch": 1.5120430639092581,
      "grad_norm": 0.8500663042068481,
      "learning_rate": 4.668102981597828e-06,
      "loss": 1.5474,
      "mean_token_accuracy": 0.6489445865154266,
      "num_tokens": 2308734003.0,
      "step": 13764
    },
    {
      "entropy": 1.723372757434845,
      "epoch": 1.5121529208206312,
      "grad_norm": 0.6357081532478333,
      "learning_rate": 4.666965237062657e-06,
      "loss": 1.3514,
      "mean_token_accuracy": 0.6554248780012131,
      "num_tokens": 2308878086.0,
      "step": 13765
    },
    {
      "entropy": 1.702651709318161,
      "epoch": 1.512262777732004,
      "grad_norm": 0.7335965633392334,
      "learning_rate": 4.66582769296518e-06,
      "loss": 1.3079,
      "mean_token_accuracy": 0.6714355101188024,
      "num_tokens": 2308988685.0,
      "step": 13766
    },
    {
      "entropy": 1.710147311290105,
      "epoch": 1.512372634643377,
      "grad_norm": 0.7795404195785522,
      "learning_rate": 4.664690349341402e-06,
      "loss": 1.4638,
      "mean_token_accuracy": 0.659597784280777,
      "num_tokens": 2309151111.0,
      "step": 13767
    },
    {
      "entropy": 1.7290584842363994,
      "epoch": 1.51248249155475,
      "grad_norm": 0.6968294382095337,
      "learning_rate": 4.663553206227321e-06,
      "loss": 1.3245,
      "mean_token_accuracy": 0.6631123870611191,
      "num_tokens": 2309280184.0,
      "step": 13768
    },
    {
      "entropy": 1.7158755660057068,
      "epoch": 1.5125923484661228,
      "grad_norm": 0.6981979608535767,
      "learning_rate": 4.662416263658927e-06,
      "loss": 1.3123,
      "mean_token_accuracy": 0.6700327694416046,
      "num_tokens": 2309436766.0,
      "step": 13769
    },
    {
      "entropy": 1.7104793687661488,
      "epoch": 1.512702205377496,
      "grad_norm": 0.7425520420074463,
      "learning_rate": 4.661279521672199e-06,
      "loss": 1.4128,
      "mean_token_accuracy": 0.6677025308211645,
      "num_tokens": 2309588572.0,
      "step": 13770
    },
    {
      "entropy": 1.610454837481181,
      "epoch": 1.5128120622888688,
      "grad_norm": 0.6415528655052185,
      "learning_rate": 4.660142980303121e-06,
      "loss": 1.2953,
      "mean_token_accuracy": 0.6645541985829672,
      "num_tokens": 2309754449.0,
      "step": 13771
    },
    {
      "entropy": 1.6928213934103649,
      "epoch": 1.5129219192002417,
      "grad_norm": 0.6795879602432251,
      "learning_rate": 4.659006639587659e-06,
      "loss": 1.4469,
      "mean_token_accuracy": 0.6411414295434952,
      "num_tokens": 2309947529.0,
      "step": 13772
    },
    {
      "entropy": 1.7953710655371349,
      "epoch": 1.5130317761116148,
      "grad_norm": 0.6941425800323486,
      "learning_rate": 4.657870499561781e-06,
      "loss": 1.5126,
      "mean_token_accuracy": 0.629363218943278,
      "num_tokens": 2310124867.0,
      "step": 13773
    },
    {
      "entropy": 1.6879153450330098,
      "epoch": 1.5131416330229874,
      "grad_norm": 0.6987261772155762,
      "learning_rate": 4.656734560261445e-06,
      "loss": 1.2105,
      "mean_token_accuracy": 0.6808223128318787,
      "num_tokens": 2310246484.0,
      "step": 13774
    },
    {
      "entropy": 1.6733311613400776,
      "epoch": 1.5132514899343605,
      "grad_norm": 0.6962072253227234,
      "learning_rate": 4.655598821722597e-06,
      "loss": 1.3406,
      "mean_token_accuracy": 0.6601444731156031,
      "num_tokens": 2310381379.0,
      "step": 13775
    },
    {
      "entropy": 1.6864116390546162,
      "epoch": 1.5133613468457334,
      "grad_norm": 0.6691348552703857,
      "learning_rate": 4.654463283981193e-06,
      "loss": 1.3422,
      "mean_token_accuracy": 0.6588364889224371,
      "num_tokens": 2310624298.0,
      "step": 13776
    },
    {
      "entropy": 1.6842545072237651,
      "epoch": 1.5134712037571063,
      "grad_norm": 0.7775861024856567,
      "learning_rate": 4.653327947073165e-06,
      "loss": 1.3162,
      "mean_token_accuracy": 0.665345624089241,
      "num_tokens": 2310810645.0,
      "step": 13777
    },
    {
      "entropy": 1.6352218687534332,
      "epoch": 1.5135810606684794,
      "grad_norm": 0.626237690448761,
      "learning_rate": 4.652192811034445e-06,
      "loss": 1.3978,
      "mean_token_accuracy": 0.6582045257091522,
      "num_tokens": 2311014180.0,
      "step": 13778
    },
    {
      "entropy": 1.642144391934077,
      "epoch": 1.513690917579852,
      "grad_norm": 0.7304378747940063,
      "learning_rate": 4.651057875900964e-06,
      "loss": 1.4529,
      "mean_token_accuracy": 0.6429022600253423,
      "num_tokens": 2311188278.0,
      "step": 13779
    },
    {
      "entropy": 1.7175097266832988,
      "epoch": 1.5138007744912252,
      "grad_norm": 0.6320850253105164,
      "learning_rate": 4.649923141708639e-06,
      "loss": 1.4223,
      "mean_token_accuracy": 0.6590802123149236,
      "num_tokens": 2311368476.0,
      "step": 13780
    },
    {
      "entropy": 1.6938395003477733,
      "epoch": 1.513910631402598,
      "grad_norm": 0.6381179690361023,
      "learning_rate": 4.648788608493388e-06,
      "loss": 1.3746,
      "mean_token_accuracy": 0.6710842897494634,
      "num_tokens": 2311553528.0,
      "step": 13781
    },
    {
      "entropy": 1.7335260311762493,
      "epoch": 1.514020488313971,
      "grad_norm": 0.7260196805000305,
      "learning_rate": 4.647654276291114e-06,
      "loss": 1.3556,
      "mean_token_accuracy": 0.654750128587087,
      "num_tokens": 2311740346.0,
      "step": 13782
    },
    {
      "entropy": 1.793048232793808,
      "epoch": 1.514130345225344,
      "grad_norm": 0.7554465532302856,
      "learning_rate": 4.646520145137719e-06,
      "loss": 1.5026,
      "mean_token_accuracy": 0.6503528704245886,
      "num_tokens": 2311938873.0,
      "step": 13783
    },
    {
      "entropy": 1.7190141479174297,
      "epoch": 1.514240202136717,
      "grad_norm": 0.7326686382293701,
      "learning_rate": 4.645386215069097e-06,
      "loss": 1.423,
      "mean_token_accuracy": 0.6645475178956985,
      "num_tokens": 2312120733.0,
      "step": 13784
    },
    {
      "entropy": 1.676575392484665,
      "epoch": 1.5143500590480898,
      "grad_norm": 0.6733846068382263,
      "learning_rate": 4.644252486121145e-06,
      "loss": 1.3577,
      "mean_token_accuracy": 0.6720403631528219,
      "num_tokens": 2312307679.0,
      "step": 13785
    },
    {
      "entropy": 1.7140410840511322,
      "epoch": 1.514459915959463,
      "grad_norm": 0.6526421904563904,
      "learning_rate": 4.643118958329731e-06,
      "loss": 1.3907,
      "mean_token_accuracy": 0.6629425088564554,
      "num_tokens": 2312492173.0,
      "step": 13786
    },
    {
      "entropy": 1.6425736447175343,
      "epoch": 1.5145697728708356,
      "grad_norm": 0.7509266138076782,
      "learning_rate": 4.641985631730737e-06,
      "loss": 1.4446,
      "mean_token_accuracy": 0.6570387085278829,
      "num_tokens": 2312697867.0,
      "step": 13787
    },
    {
      "entropy": 1.730595697959264,
      "epoch": 1.5146796297822087,
      "grad_norm": 10.333463668823242,
      "learning_rate": 4.640852506360037e-06,
      "loss": 1.1871,
      "mean_token_accuracy": 0.6863798399766287,
      "num_tokens": 2312869978.0,
      "step": 13788
    },
    {
      "entropy": 1.7071086366971333,
      "epoch": 1.5147894866935816,
      "grad_norm": 0.7106054425239563,
      "learning_rate": 4.639719582253489e-06,
      "loss": 1.3772,
      "mean_token_accuracy": 0.6516473690668741,
      "num_tokens": 2313025921.0,
      "step": 13789
    },
    {
      "entropy": 1.6998887260754902,
      "epoch": 1.5148993436049545,
      "grad_norm": 0.536662757396698,
      "learning_rate": 4.638586859446947e-06,
      "loss": 1.4427,
      "mean_token_accuracy": 0.6548623442649841,
      "num_tokens": 2313202721.0,
      "step": 13790
    },
    {
      "entropy": 1.7144613564014435,
      "epoch": 1.5150092005163276,
      "grad_norm": 0.8173153400421143,
      "learning_rate": 4.637454337976267e-06,
      "loss": 1.3728,
      "mean_token_accuracy": 0.6525384138027827,
      "num_tokens": 2313375827.0,
      "step": 13791
    },
    {
      "entropy": 1.668924331665039,
      "epoch": 1.5151190574277003,
      "grad_norm": 0.6728224754333496,
      "learning_rate": 4.636322017877289e-06,
      "loss": 1.3425,
      "mean_token_accuracy": 0.6699813405672709,
      "num_tokens": 2313559355.0,
      "step": 13792
    },
    {
      "entropy": 1.6745288372039795,
      "epoch": 1.5152289143390734,
      "grad_norm": 0.6349695920944214,
      "learning_rate": 4.6351898991858526e-06,
      "loss": 1.274,
      "mean_token_accuracy": 0.6697569986184438,
      "num_tokens": 2313698496.0,
      "step": 13793
    },
    {
      "entropy": 1.7029302318890889,
      "epoch": 1.5153387712504462,
      "grad_norm": 0.6972919702529907,
      "learning_rate": 4.6340579819377885e-06,
      "loss": 1.4831,
      "mean_token_accuracy": 0.6308980584144592,
      "num_tokens": 2313906683.0,
      "step": 13794
    },
    {
      "entropy": 1.701465239127477,
      "epoch": 1.5154486281618191,
      "grad_norm": 0.6877496242523193,
      "learning_rate": 4.632926266168918e-06,
      "loss": 1.2802,
      "mean_token_accuracy": 0.6722718824942907,
      "num_tokens": 2314039947.0,
      "step": 13795
    },
    {
      "entropy": 1.755535235007604,
      "epoch": 1.5155584850731922,
      "grad_norm": 0.6645422577857971,
      "learning_rate": 4.631794751915063e-06,
      "loss": 1.5432,
      "mean_token_accuracy": 0.6427832990884781,
      "num_tokens": 2314236598.0,
      "step": 13796
    },
    {
      "entropy": 1.8075012763341267,
      "epoch": 1.5156683419845651,
      "grad_norm": 0.7589188814163208,
      "learning_rate": 4.630663439212039e-06,
      "loss": 1.6916,
      "mean_token_accuracy": 0.6184907828768095,
      "num_tokens": 2314460621.0,
      "step": 13797
    },
    {
      "entropy": 1.6989454329013824,
      "epoch": 1.515778198895938,
      "grad_norm": 0.604321300983429,
      "learning_rate": 4.629532328095641e-06,
      "loss": 1.3933,
      "mean_token_accuracy": 0.6470302095015844,
      "num_tokens": 2314660461.0,
      "step": 13798
    },
    {
      "entropy": 1.6902850965658824,
      "epoch": 1.5158880558073111,
      "grad_norm": 0.7460362911224365,
      "learning_rate": 4.628401418601675e-06,
      "loss": 1.4371,
      "mean_token_accuracy": 0.671076680223147,
      "num_tokens": 2314804887.0,
      "step": 13799
    },
    {
      "entropy": 1.7061065534750621,
      "epoch": 1.5159979127186838,
      "grad_norm": 0.6932515501976013,
      "learning_rate": 4.627270710765935e-06,
      "loss": 1.2638,
      "mean_token_accuracy": 0.6705667823553085,
      "num_tokens": 2314930379.0,
      "step": 13800
    },
    {
      "entropy": 1.6936753690242767,
      "epoch": 1.516107769630057,
      "grad_norm": 0.6244261860847473,
      "learning_rate": 4.626140204624207e-06,
      "loss": 1.4434,
      "mean_token_accuracy": 0.6529469887415568,
      "num_tokens": 2315130329.0,
      "step": 13801
    },
    {
      "entropy": 1.7133234739303589,
      "epoch": 1.5162176265414298,
      "grad_norm": 0.7487544417381287,
      "learning_rate": 4.625009900212265e-06,
      "loss": 1.3369,
      "mean_token_accuracy": 0.6595756113529205,
      "num_tokens": 2315276874.0,
      "step": 13802
    },
    {
      "entropy": 1.6450997491677601,
      "epoch": 1.5163274834528027,
      "grad_norm": 0.7113902568817139,
      "learning_rate": 4.62387979756589e-06,
      "loss": 1.3556,
      "mean_token_accuracy": 0.662777175505956,
      "num_tokens": 2315477438.0,
      "step": 13803
    },
    {
      "entropy": 1.7127596934636433,
      "epoch": 1.5164373403641758,
      "grad_norm": 0.7134985327720642,
      "learning_rate": 4.622749896720845e-06,
      "loss": 1.4482,
      "mean_token_accuracy": 0.6417205582062403,
      "num_tokens": 2315669497.0,
      "step": 13804
    },
    {
      "entropy": 1.659109354019165,
      "epoch": 1.5165471972755487,
      "grad_norm": 0.7004081010818481,
      "learning_rate": 4.621620197712894e-06,
      "loss": 1.4047,
      "mean_token_accuracy": 0.6536833544572195,
      "num_tokens": 2315841211.0,
      "step": 13805
    },
    {
      "entropy": 1.7210937837759654,
      "epoch": 1.5166570541869215,
      "grad_norm": 0.6302258372306824,
      "learning_rate": 4.620490700577788e-06,
      "loss": 1.6054,
      "mean_token_accuracy": 0.6396430979172388,
      "num_tokens": 2316082178.0,
      "step": 13806
    },
    {
      "entropy": 1.7338979343573253,
      "epoch": 1.5167669110982944,
      "grad_norm": 0.6911170482635498,
      "learning_rate": 4.619361405351276e-06,
      "loss": 1.3438,
      "mean_token_accuracy": 0.657525877157847,
      "num_tokens": 2316281274.0,
      "step": 13807
    },
    {
      "entropy": 1.6707657376925151,
      "epoch": 1.5168767680096673,
      "grad_norm": 0.5436812043190002,
      "learning_rate": 4.618232312069102e-06,
      "loss": 1.3353,
      "mean_token_accuracy": 0.6588641007741293,
      "num_tokens": 2316456603.0,
      "step": 13808
    },
    {
      "entropy": 1.7034710347652435,
      "epoch": 1.5169866249210404,
      "grad_norm": 0.8173933625221252,
      "learning_rate": 4.6171034207670005e-06,
      "loss": 1.2925,
      "mean_token_accuracy": 0.6720810929934183,
      "num_tokens": 2316592576.0,
      "step": 13809
    },
    {
      "entropy": 1.6645126938819885,
      "epoch": 1.5170964818324133,
      "grad_norm": 0.6110033392906189,
      "learning_rate": 4.615974731480695e-06,
      "loss": 1.3464,
      "mean_token_accuracy": 0.6670532127221426,
      "num_tokens": 2316743979.0,
      "step": 13810
    },
    {
      "entropy": 1.7283632159233093,
      "epoch": 1.5172063387437862,
      "grad_norm": 0.5693283081054688,
      "learning_rate": 4.614846244245914e-06,
      "loss": 1.3587,
      "mean_token_accuracy": 0.661205435792605,
      "num_tokens": 2316928848.0,
      "step": 13811
    },
    {
      "entropy": 1.7009834845860798,
      "epoch": 1.5173161956551593,
      "grad_norm": 0.6659391522407532,
      "learning_rate": 4.613717959098374e-06,
      "loss": 1.4906,
      "mean_token_accuracy": 0.6506659984588623,
      "num_tokens": 2317098556.0,
      "step": 13812
    },
    {
      "entropy": 1.7381359835465748,
      "epoch": 1.517426052566532,
      "grad_norm": 0.8102354407310486,
      "learning_rate": 4.612589876073785e-06,
      "loss": 1.3489,
      "mean_token_accuracy": 0.6604036937157313,
      "num_tokens": 2317270868.0,
      "step": 13813
    },
    {
      "entropy": 1.7617174784342449,
      "epoch": 1.517535909477905,
      "grad_norm": 0.816353440284729,
      "learning_rate": 4.611461995207843e-06,
      "loss": 1.4868,
      "mean_token_accuracy": 0.6646532714366913,
      "num_tokens": 2317428278.0,
      "step": 13814
    },
    {
      "entropy": 1.7236855427424114,
      "epoch": 1.517645766389278,
      "grad_norm": 0.6324769258499146,
      "learning_rate": 4.610334316536255e-06,
      "loss": 1.4888,
      "mean_token_accuracy": 0.6348064343134562,
      "num_tokens": 2317659506.0,
      "step": 13815
    },
    {
      "entropy": 1.6722245911757152,
      "epoch": 1.5177556233006508,
      "grad_norm": 0.737623393535614,
      "learning_rate": 4.609206840094702e-06,
      "loss": 1.3835,
      "mean_token_accuracy": 0.6555936386187872,
      "num_tokens": 2317836071.0,
      "step": 13816
    },
    {
      "entropy": 1.700161616007487,
      "epoch": 1.517865480212024,
      "grad_norm": 0.7109667658805847,
      "learning_rate": 4.608079565918877e-06,
      "loss": 1.3775,
      "mean_token_accuracy": 0.6652699112892151,
      "num_tokens": 2317969020.0,
      "step": 13817
    },
    {
      "entropy": 1.7235205272833507,
      "epoch": 1.5179753371233968,
      "grad_norm": 0.6419909000396729,
      "learning_rate": 4.606952494044452e-06,
      "loss": 1.4529,
      "mean_token_accuracy": 0.6587186654408773,
      "num_tokens": 2318125925.0,
      "step": 13818
    },
    {
      "entropy": 1.7614581386248271,
      "epoch": 1.5180851940347697,
      "grad_norm": 0.7397036552429199,
      "learning_rate": 4.605825624507097e-06,
      "loss": 1.2682,
      "mean_token_accuracy": 0.6707401523987452,
      "num_tokens": 2318235404.0,
      "step": 13819
    },
    {
      "entropy": 1.6948228081067402,
      "epoch": 1.5181950509461426,
      "grad_norm": 0.6969819068908691,
      "learning_rate": 4.604698957342484e-06,
      "loss": 1.3792,
      "mean_token_accuracy": 0.6615195969740549,
      "num_tokens": 2318404543.0,
      "step": 13820
    },
    {
      "entropy": 1.6588495473066966,
      "epoch": 1.5183049078575155,
      "grad_norm": 0.7565116286277771,
      "learning_rate": 4.603572492586266e-06,
      "loss": 1.4351,
      "mean_token_accuracy": 0.6644074221452078,
      "num_tokens": 2318598937.0,
      "step": 13821
    },
    {
      "entropy": 1.6587398151556652,
      "epoch": 1.5184147647688886,
      "grad_norm": 0.7786286473274231,
      "learning_rate": 4.602446230274094e-06,
      "loss": 1.3448,
      "mean_token_accuracy": 0.6546828200419744,
      "num_tokens": 2318769448.0,
      "step": 13822
    },
    {
      "entropy": 1.6828916768232982,
      "epoch": 1.5185246216802615,
      "grad_norm": 0.6554774045944214,
      "learning_rate": 4.601320170441616e-06,
      "loss": 1.3457,
      "mean_token_accuracy": 0.6564191430807114,
      "num_tokens": 2318939196.0,
      "step": 13823
    },
    {
      "entropy": 1.7403921981652577,
      "epoch": 1.5186344785916344,
      "grad_norm": 0.6817828416824341,
      "learning_rate": 4.6001943131244745e-06,
      "loss": 1.4085,
      "mean_token_accuracy": 0.650087426106135,
      "num_tokens": 2319099808.0,
      "step": 13824
    },
    {
      "entropy": 1.7434031864007313,
      "epoch": 1.5187443355030075,
      "grad_norm": 0.753669798374176,
      "learning_rate": 4.5990686583582985e-06,
      "loss": 1.3568,
      "mean_token_accuracy": 0.6551444629828135,
      "num_tokens": 2319261658.0,
      "step": 13825
    },
    {
      "entropy": 1.7295333445072174,
      "epoch": 1.5188541924143801,
      "grad_norm": 0.6525160670280457,
      "learning_rate": 4.597943206178712e-06,
      "loss": 1.3787,
      "mean_token_accuracy": 0.6602396667003632,
      "num_tokens": 2319392048.0,
      "step": 13826
    },
    {
      "entropy": 1.6922452350457509,
      "epoch": 1.5189640493257532,
      "grad_norm": 0.6596596837043762,
      "learning_rate": 4.596817956621342e-06,
      "loss": 1.4606,
      "mean_token_accuracy": 0.6499723295370737,
      "num_tokens": 2319591828.0,
      "step": 13827
    },
    {
      "entropy": 1.7007356186707814,
      "epoch": 1.5190739062371261,
      "grad_norm": 0.675512433052063,
      "learning_rate": 4.595692909721794e-06,
      "loss": 1.4131,
      "mean_token_accuracy": 0.6725195000569025,
      "num_tokens": 2319750099.0,
      "step": 13828
    },
    {
      "entropy": 1.7956644495328267,
      "epoch": 1.519183763148499,
      "grad_norm": 0.7226914763450623,
      "learning_rate": 4.5945680655156835e-06,
      "loss": 1.5228,
      "mean_token_accuracy": 0.6371510376532873,
      "num_tokens": 2319933057.0,
      "step": 13829
    },
    {
      "entropy": 1.7390548785527546,
      "epoch": 1.5192936200598721,
      "grad_norm": 0.7265375852584839,
      "learning_rate": 4.593443424038608e-06,
      "loss": 1.1547,
      "mean_token_accuracy": 0.6949647714694341,
      "num_tokens": 2320025210.0,
      "step": 13830
    },
    {
      "entropy": 1.6455240448315938,
      "epoch": 1.519403476971245,
      "grad_norm": 0.6959369778633118,
      "learning_rate": 4.592318985326158e-06,
      "loss": 1.2745,
      "mean_token_accuracy": 0.6683288365602493,
      "num_tokens": 2320188621.0,
      "step": 13831
    },
    {
      "entropy": 1.7331445614496868,
      "epoch": 1.519513333882618,
      "grad_norm": 0.7264030575752258,
      "learning_rate": 4.591194749413927e-06,
      "loss": 1.4339,
      "mean_token_accuracy": 0.6577616731325785,
      "num_tokens": 2320334001.0,
      "step": 13832
    },
    {
      "entropy": 1.6974613467852275,
      "epoch": 1.5196231907939908,
      "grad_norm": 0.709572970867157,
      "learning_rate": 4.590070716337495e-06,
      "loss": 1.3339,
      "mean_token_accuracy": 0.6570964654286703,
      "num_tokens": 2320480424.0,
      "step": 13833
    },
    {
      "entropy": 1.6866892476876576,
      "epoch": 1.5197330477053637,
      "grad_norm": 0.6560536623001099,
      "learning_rate": 4.588946886132433e-06,
      "loss": 1.3631,
      "mean_token_accuracy": 0.6670355498790741,
      "num_tokens": 2320674360.0,
      "step": 13834
    },
    {
      "entropy": 1.7293624182542164,
      "epoch": 1.5198429046167368,
      "grad_norm": 0.758017897605896,
      "learning_rate": 4.587823258834313e-06,
      "loss": 1.3618,
      "mean_token_accuracy": 0.6667436609665552,
      "num_tokens": 2320819919.0,
      "step": 13835
    },
    {
      "entropy": 1.6839136183261871,
      "epoch": 1.5199527615281097,
      "grad_norm": 0.6840667724609375,
      "learning_rate": 4.5866998344787e-06,
      "loss": 1.2936,
      "mean_token_accuracy": 0.6722035010655721,
      "num_tokens": 2321002330.0,
      "step": 13836
    },
    {
      "entropy": 1.6908271114031475,
      "epoch": 1.5200626184394825,
      "grad_norm": 0.7176492810249329,
      "learning_rate": 4.585576613101149e-06,
      "loss": 1.3865,
      "mean_token_accuracy": 0.6679946233828863,
      "num_tokens": 2321179746.0,
      "step": 13837
    },
    {
      "entropy": 1.6899594763914745,
      "epoch": 1.5201724753508556,
      "grad_norm": 0.6602792739868164,
      "learning_rate": 4.5844535947372066e-06,
      "loss": 1.3103,
      "mean_token_accuracy": 0.6629238277673721,
      "num_tokens": 2321320167.0,
      "step": 13838
    },
    {
      "entropy": 1.6667678654193878,
      "epoch": 1.5202823322622283,
      "grad_norm": 0.6572140455245972,
      "learning_rate": 4.583330779422415e-06,
      "loss": 1.2763,
      "mean_token_accuracy": 0.678403819600741,
      "num_tokens": 2321461364.0,
      "step": 13839
    },
    {
      "entropy": 1.6754031876722972,
      "epoch": 1.5203921891736014,
      "grad_norm": 0.7893751859664917,
      "learning_rate": 4.582208167192312e-06,
      "loss": 1.4581,
      "mean_token_accuracy": 0.6384941240151724,
      "num_tokens": 2321661021.0,
      "step": 13840
    },
    {
      "entropy": 1.7845016022523243,
      "epoch": 1.5205020460849743,
      "grad_norm": 0.7893801331520081,
      "learning_rate": 4.581085758082434e-06,
      "loss": 1.4384,
      "mean_token_accuracy": 0.6567031691471735,
      "num_tokens": 2321784876.0,
      "step": 13841
    },
    {
      "entropy": 1.6785170336564381,
      "epoch": 1.5206119029963472,
      "grad_norm": 0.6259093284606934,
      "learning_rate": 4.579963552128294e-06,
      "loss": 1.3312,
      "mean_token_accuracy": 0.6632338911294937,
      "num_tokens": 2321935360.0,
      "step": 13842
    },
    {
      "entropy": 1.696050186951955,
      "epoch": 1.5207217599077203,
      "grad_norm": 0.6764148473739624,
      "learning_rate": 4.578841549365415e-06,
      "loss": 1.3908,
      "mean_token_accuracy": 0.6596755584081014,
      "num_tokens": 2322083641.0,
      "step": 13843
    },
    {
      "entropy": 1.6868244409561157,
      "epoch": 1.5208316168190932,
      "grad_norm": 0.7002372741699219,
      "learning_rate": 4.57771974982931e-06,
      "loss": 1.3793,
      "mean_token_accuracy": 0.6510612765947977,
      "num_tokens": 2322237455.0,
      "step": 13844
    },
    {
      "entropy": 1.7343276540438335,
      "epoch": 1.520941473730466,
      "grad_norm": 0.8684859275817871,
      "learning_rate": 4.576598153555481e-06,
      "loss": 1.436,
      "mean_token_accuracy": 0.6581882784763972,
      "num_tokens": 2322398245.0,
      "step": 13845
    },
    {
      "entropy": 1.658086081345876,
      "epoch": 1.521051330641839,
      "grad_norm": 0.7486425042152405,
      "learning_rate": 4.575476760579422e-06,
      "loss": 1.4714,
      "mean_token_accuracy": 0.6543067147334417,
      "num_tokens": 2322602433.0,
      "step": 13846
    },
    {
      "entropy": 1.7451417048772175,
      "epoch": 1.5211611875532118,
      "grad_norm": 0.6304759979248047,
      "learning_rate": 4.574355570936633e-06,
      "loss": 1.4442,
      "mean_token_accuracy": 0.6402058055003484,
      "num_tokens": 2322787006.0,
      "step": 13847
    },
    {
      "entropy": 1.7013601462046306,
      "epoch": 1.521271044464585,
      "grad_norm": 0.8568814396858215,
      "learning_rate": 4.573234584662592e-06,
      "loss": 1.3864,
      "mean_token_accuracy": 0.6570970316727957,
      "num_tokens": 2322948041.0,
      "step": 13848
    },
    {
      "entropy": 1.699530432621638,
      "epoch": 1.5213809013759578,
      "grad_norm": 0.8710819482803345,
      "learning_rate": 4.572113801792783e-06,
      "loss": 1.4918,
      "mean_token_accuracy": 0.6583302120367686,
      "num_tokens": 2323150595.0,
      "step": 13849
    },
    {
      "entropy": 1.6952558259169261,
      "epoch": 1.5214907582873307,
      "grad_norm": 0.6915019154548645,
      "learning_rate": 4.570993222362674e-06,
      "loss": 1.3737,
      "mean_token_accuracy": 0.6718220909436544,
      "num_tokens": 2323287484.0,
      "step": 13850
    },
    {
      "entropy": 1.7063826123873393,
      "epoch": 1.5216006151987038,
      "grad_norm": 0.740079939365387,
      "learning_rate": 4.569872846407732e-06,
      "loss": 1.4068,
      "mean_token_accuracy": 0.6677322387695312,
      "num_tokens": 2323439617.0,
      "step": 13851
    },
    {
      "entropy": 1.7466611762841542,
      "epoch": 1.5217104721100765,
      "grad_norm": 0.6274285912513733,
      "learning_rate": 4.568752673963416e-06,
      "loss": 1.4659,
      "mean_token_accuracy": 0.6516986141602198,
      "num_tokens": 2323617361.0,
      "step": 13852
    },
    {
      "entropy": 1.7027616401513417,
      "epoch": 1.5218203290214496,
      "grad_norm": 0.57676762342453,
      "learning_rate": 4.567632705065186e-06,
      "loss": 1.5237,
      "mean_token_accuracy": 0.6254571576913198,
      "num_tokens": 2323812936.0,
      "step": 13853
    },
    {
      "entropy": 1.7192297577857971,
      "epoch": 1.5219301859328225,
      "grad_norm": 0.7230188846588135,
      "learning_rate": 4.566512939748476e-06,
      "loss": 1.4566,
      "mean_token_accuracy": 0.6502372076114019,
      "num_tokens": 2323949563.0,
      "step": 13854
    },
    {
      "entropy": 1.6509900987148285,
      "epoch": 1.5220400428441954,
      "grad_norm": 0.5848521590232849,
      "learning_rate": 4.565393378048733e-06,
      "loss": 1.5132,
      "mean_token_accuracy": 0.6319101750850677,
      "num_tokens": 2324180972.0,
      "step": 13855
    },
    {
      "entropy": 1.7650962670644124,
      "epoch": 1.5221498997555685,
      "grad_norm": 0.720257580280304,
      "learning_rate": 4.564274020001393e-06,
      "loss": 1.3704,
      "mean_token_accuracy": 0.6599539568026861,
      "num_tokens": 2324303927.0,
      "step": 13856
    },
    {
      "entropy": 1.7729399303595226,
      "epoch": 1.5222597566669414,
      "grad_norm": 0.6432046294212341,
      "learning_rate": 4.56315486564188e-06,
      "loss": 1.4875,
      "mean_token_accuracy": 0.6416818896929423,
      "num_tokens": 2324492636.0,
      "step": 13857
    },
    {
      "entropy": 1.752627670764923,
      "epoch": 1.5223696135783142,
      "grad_norm": 0.6898931264877319,
      "learning_rate": 4.562035915005611e-06,
      "loss": 1.3701,
      "mean_token_accuracy": 0.659583792090416,
      "num_tokens": 2324610878.0,
      "step": 13858
    },
    {
      "entropy": 1.730319658915202,
      "epoch": 1.5224794704896873,
      "grad_norm": 0.754682183265686,
      "learning_rate": 4.560917168128009e-06,
      "loss": 1.4008,
      "mean_token_accuracy": 0.6601613610982895,
      "num_tokens": 2324771008.0,
      "step": 13859
    },
    {
      "entropy": 1.6441446642080944,
      "epoch": 1.52258932740106,
      "grad_norm": 0.6233265399932861,
      "learning_rate": 4.559798625044473e-06,
      "loss": 1.3951,
      "mean_token_accuracy": 0.6597211956977844,
      "num_tokens": 2324942810.0,
      "step": 13860
    },
    {
      "entropy": 1.7084046204884846,
      "epoch": 1.5226991843124331,
      "grad_norm": 0.6157132983207703,
      "learning_rate": 4.558680285790413e-06,
      "loss": 1.2911,
      "mean_token_accuracy": 0.6648881336053213,
      "num_tokens": 2325106728.0,
      "step": 13861
    },
    {
      "entropy": 1.6908452014128368,
      "epoch": 1.522809041223806,
      "grad_norm": 0.6794646382331848,
      "learning_rate": 4.557562150401218e-06,
      "loss": 1.438,
      "mean_token_accuracy": 0.6520710190137228,
      "num_tokens": 2325273843.0,
      "step": 13862
    },
    {
      "entropy": 1.7190004388491313,
      "epoch": 1.5229188981351789,
      "grad_norm": 0.7677698731422424,
      "learning_rate": 4.556444218912275e-06,
      "loss": 1.4297,
      "mean_token_accuracy": 0.6583776374657949,
      "num_tokens": 2325414563.0,
      "step": 13863
    },
    {
      "entropy": 1.7089968224366505,
      "epoch": 1.523028755046552,
      "grad_norm": 0.6367853283882141,
      "learning_rate": 4.55532649135897e-06,
      "loss": 1.4434,
      "mean_token_accuracy": 0.6484352995951971,
      "num_tokens": 2325584116.0,
      "step": 13864
    },
    {
      "entropy": 1.6946298082669575,
      "epoch": 1.5231386119579247,
      "grad_norm": 0.7599850296974182,
      "learning_rate": 4.554208967776681e-06,
      "loss": 1.2423,
      "mean_token_accuracy": 0.6795276800791422,
      "num_tokens": 2325727142.0,
      "step": 13865
    },
    {
      "entropy": 1.6953876912593842,
      "epoch": 1.5232484688692978,
      "grad_norm": 0.7022786736488342,
      "learning_rate": 4.553091648200771e-06,
      "loss": 1.443,
      "mean_token_accuracy": 0.6698449452718099,
      "num_tokens": 2325866024.0,
      "step": 13866
    },
    {
      "entropy": 1.786557177702586,
      "epoch": 1.5233583257806707,
      "grad_norm": 0.8300307393074036,
      "learning_rate": 4.551974532666602e-06,
      "loss": 1.5473,
      "mean_token_accuracy": 0.62337193886439,
      "num_tokens": 2326045071.0,
      "step": 13867
    },
    {
      "entropy": 1.7563962737719219,
      "epoch": 1.5234681826920435,
      "grad_norm": 0.8392931222915649,
      "learning_rate": 4.550857621209538e-06,
      "loss": 1.4791,
      "mean_token_accuracy": 0.6514745354652405,
      "num_tokens": 2326224405.0,
      "step": 13868
    },
    {
      "entropy": 1.6940257251262665,
      "epoch": 1.5235780396034166,
      "grad_norm": 0.6167490482330322,
      "learning_rate": 4.549740913864926e-06,
      "loss": 1.3881,
      "mean_token_accuracy": 0.659416675567627,
      "num_tokens": 2326372794.0,
      "step": 13869
    },
    {
      "entropy": 1.7137708365917206,
      "epoch": 1.5236878965147895,
      "grad_norm": 0.7310816645622253,
      "learning_rate": 4.5486244106681025e-06,
      "loss": 1.4028,
      "mean_token_accuracy": 0.6513861964146296,
      "num_tokens": 2326531861.0,
      "step": 13870
    },
    {
      "entropy": 1.6824666062990825,
      "epoch": 1.5237977534261624,
      "grad_norm": 0.7571474313735962,
      "learning_rate": 4.547508111654412e-06,
      "loss": 1.4133,
      "mean_token_accuracy": 0.6456713875134786,
      "num_tokens": 2326753188.0,
      "step": 13871
    },
    {
      "entropy": 1.6938877006371815,
      "epoch": 1.5239076103375355,
      "grad_norm": 0.6758849620819092,
      "learning_rate": 4.546392016859181e-06,
      "loss": 1.3251,
      "mean_token_accuracy": 0.6616143981615702,
      "num_tokens": 2326905195.0,
      "step": 13872
    },
    {
      "entropy": 1.6427725851535797,
      "epoch": 1.5240174672489082,
      "grad_norm": 0.7181432843208313,
      "learning_rate": 4.545276126317736e-06,
      "loss": 1.3627,
      "mean_token_accuracy": 0.6573081215222677,
      "num_tokens": 2327094426.0,
      "step": 13873
    },
    {
      "entropy": 1.7088764309883118,
      "epoch": 1.5241273241602813,
      "grad_norm": 0.7042227387428284,
      "learning_rate": 4.544160440065394e-06,
      "loss": 1.5437,
      "mean_token_accuracy": 0.6491079305609068,
      "num_tokens": 2327227303.0,
      "step": 13874
    },
    {
      "entropy": 1.7235973974068959,
      "epoch": 1.5242371810716542,
      "grad_norm": 0.6834602952003479,
      "learning_rate": 4.54304495813746e-06,
      "loss": 1.2941,
      "mean_token_accuracy": 0.6685907791058222,
      "num_tokens": 2327358886.0,
      "step": 13875
    },
    {
      "entropy": 1.6720999280611675,
      "epoch": 1.524347037983027,
      "grad_norm": 0.5712348818778992,
      "learning_rate": 4.541929680569246e-06,
      "loss": 1.4281,
      "mean_token_accuracy": 0.6634454180796941,
      "num_tokens": 2327567108.0,
      "step": 13876
    },
    {
      "entropy": 1.6583287914594014,
      "epoch": 1.5244568948944002,
      "grad_norm": 0.7057250738143921,
      "learning_rate": 4.540814607396052e-06,
      "loss": 1.4087,
      "mean_token_accuracy": 0.6564200818538666,
      "num_tokens": 2327755776.0,
      "step": 13877
    },
    {
      "entropy": 1.6734488407770793,
      "epoch": 1.5245667518057728,
      "grad_norm": 0.667782187461853,
      "learning_rate": 4.53969973865316e-06,
      "loss": 1.328,
      "mean_token_accuracy": 0.6641414314508438,
      "num_tokens": 2327934192.0,
      "step": 13878
    },
    {
      "entropy": 1.704680899779002,
      "epoch": 1.524676608717146,
      "grad_norm": 0.662611722946167,
      "learning_rate": 4.538585074375861e-06,
      "loss": 1.4161,
      "mean_token_accuracy": 0.6625035852193832,
      "num_tokens": 2328111156.0,
      "step": 13879
    },
    {
      "entropy": 1.7344763179620106,
      "epoch": 1.5247864656285188,
      "grad_norm": 0.6415066123008728,
      "learning_rate": 4.537470614599434e-06,
      "loss": 1.3515,
      "mean_token_accuracy": 0.6630072891712189,
      "num_tokens": 2328262464.0,
      "step": 13880
    },
    {
      "entropy": 1.7009705603122711,
      "epoch": 1.5248963225398917,
      "grad_norm": 0.7482420802116394,
      "learning_rate": 4.5363563593591505e-06,
      "loss": 1.4322,
      "mean_token_accuracy": 0.6513066440820694,
      "num_tokens": 2328427937.0,
      "step": 13881
    },
    {
      "entropy": 1.69928045074145,
      "epoch": 1.5250061794512648,
      "grad_norm": 0.6484189629554749,
      "learning_rate": 4.5352423086902725e-06,
      "loss": 1.4215,
      "mean_token_accuracy": 0.6485116630792618,
      "num_tokens": 2328606277.0,
      "step": 13882
    },
    {
      "entropy": 1.6935794452826183,
      "epoch": 1.5251160363626377,
      "grad_norm": 0.6256346106529236,
      "learning_rate": 4.534128462628066e-06,
      "loss": 1.288,
      "mean_token_accuracy": 0.6697153101364771,
      "num_tokens": 2328753230.0,
      "step": 13883
    },
    {
      "entropy": 1.684336672226588,
      "epoch": 1.5252258932740106,
      "grad_norm": 0.6663857102394104,
      "learning_rate": 4.533014821207776e-06,
      "loss": 1.5602,
      "mean_token_accuracy": 0.6558093825976054,
      "num_tokens": 2329026991.0,
      "step": 13884
    },
    {
      "entropy": 1.772289623816808,
      "epoch": 1.5253357501853837,
      "grad_norm": 0.722428023815155,
      "learning_rate": 4.531901384464657e-06,
      "loss": 1.4207,
      "mean_token_accuracy": 0.6482864121596018,
      "num_tokens": 2329184506.0,
      "step": 13885
    },
    {
      "entropy": 1.6704554855823517,
      "epoch": 1.5254456070967564,
      "grad_norm": 0.7864761352539062,
      "learning_rate": 4.5307881524339436e-06,
      "loss": 1.5056,
      "mean_token_accuracy": 0.6587265928586324,
      "num_tokens": 2329322566.0,
      "step": 13886
    },
    {
      "entropy": 1.7044276495774586,
      "epoch": 1.5255554640081295,
      "grad_norm": 1.0024720430374146,
      "learning_rate": 4.529675125150868e-06,
      "loss": 1.2254,
      "mean_token_accuracy": 0.686733677983284,
      "num_tokens": 2329467035.0,
      "step": 13887
    },
    {
      "entropy": 1.744888146718343,
      "epoch": 1.5256653209195024,
      "grad_norm": 0.9798945784568787,
      "learning_rate": 4.528562302650661e-06,
      "loss": 1.4146,
      "mean_token_accuracy": 0.6556217769781748,
      "num_tokens": 2329619365.0,
      "step": 13888
    },
    {
      "entropy": 1.5887063244978588,
      "epoch": 1.5257751778308752,
      "grad_norm": 0.6329157948493958,
      "learning_rate": 4.527449684968542e-06,
      "loss": 1.3162,
      "mean_token_accuracy": 0.6746849020322164,
      "num_tokens": 2329831176.0,
      "step": 13889
    },
    {
      "entropy": 1.7707992394765217,
      "epoch": 1.5258850347422483,
      "grad_norm": 0.7070748805999756,
      "learning_rate": 4.5263372721397205e-06,
      "loss": 1.4715,
      "mean_token_accuracy": 0.6502692202727,
      "num_tokens": 2330045897.0,
      "step": 13890
    },
    {
      "entropy": 1.6835823158423107,
      "epoch": 1.525994891653621,
      "grad_norm": 0.6027015447616577,
      "learning_rate": 4.5252250641994066e-06,
      "loss": 1.4211,
      "mean_token_accuracy": 0.6563113729159037,
      "num_tokens": 2330194857.0,
      "step": 13891
    },
    {
      "entropy": 1.6718124349912007,
      "epoch": 1.5261047485649941,
      "grad_norm": 0.7228647470474243,
      "learning_rate": 4.524113061182806e-06,
      "loss": 1.3283,
      "mean_token_accuracy": 0.6579829454421997,
      "num_tokens": 2330352101.0,
      "step": 13892
    },
    {
      "entropy": 1.703097979227702,
      "epoch": 1.526214605476367,
      "grad_norm": 0.7070342302322388,
      "learning_rate": 4.523001263125108e-06,
      "loss": 1.3875,
      "mean_token_accuracy": 0.6609033346176147,
      "num_tokens": 2330512728.0,
      "step": 13893
    },
    {
      "entropy": 1.6350172857443492,
      "epoch": 1.5263244623877399,
      "grad_norm": 0.6093044877052307,
      "learning_rate": 4.5218896700614995e-06,
      "loss": 1.4077,
      "mean_token_accuracy": 0.6465565909941992,
      "num_tokens": 2330771542.0,
      "step": 13894
    },
    {
      "entropy": 1.7364859382311504,
      "epoch": 1.526434319299113,
      "grad_norm": 0.7398340106010437,
      "learning_rate": 4.520778282027166e-06,
      "loss": 1.4541,
      "mean_token_accuracy": 0.6436052819093069,
      "num_tokens": 2330944232.0,
      "step": 13895
    },
    {
      "entropy": 1.6555716196695964,
      "epoch": 1.5265441762104859,
      "grad_norm": 0.7023627758026123,
      "learning_rate": 4.5196670990572775e-06,
      "loss": 1.3531,
      "mean_token_accuracy": 0.6626766125361124,
      "num_tokens": 2331077782.0,
      "step": 13896
    },
    {
      "entropy": 1.6921831766764324,
      "epoch": 1.5266540331218588,
      "grad_norm": 0.7476381063461304,
      "learning_rate": 4.518556121187008e-06,
      "loss": 1.2434,
      "mean_token_accuracy": 0.6709140290816625,
      "num_tokens": 2331204207.0,
      "step": 13897
    },
    {
      "entropy": 1.656636933485667,
      "epoch": 1.5267638900332319,
      "grad_norm": 0.7082569003105164,
      "learning_rate": 4.517445348451517e-06,
      "loss": 1.3313,
      "mean_token_accuracy": 0.6678289026021957,
      "num_tokens": 2331349418.0,
      "step": 13898
    },
    {
      "entropy": 1.6638062099615734,
      "epoch": 1.5268737469446045,
      "grad_norm": 0.929499626159668,
      "learning_rate": 4.516334780885956e-06,
      "loss": 1.4912,
      "mean_token_accuracy": 0.6647545297940572,
      "num_tokens": 2331514470.0,
      "step": 13899
    },
    {
      "entropy": 1.7199692924817402,
      "epoch": 1.5269836038559776,
      "grad_norm": 0.7336742877960205,
      "learning_rate": 4.515224418525481e-06,
      "loss": 1.4878,
      "mean_token_accuracy": 0.6436636795600256,
      "num_tokens": 2331681866.0,
      "step": 13900
    },
    {
      "entropy": 1.706304907798767,
      "epoch": 1.5270934607673505,
      "grad_norm": 0.6889383792877197,
      "learning_rate": 4.51411426140523e-06,
      "loss": 1.3244,
      "mean_token_accuracy": 0.6611945678790411,
      "num_tokens": 2331824203.0,
      "step": 13901
    },
    {
      "entropy": 1.6809849242369335,
      "epoch": 1.5272033176787234,
      "grad_norm": 0.7422223687171936,
      "learning_rate": 4.513004309560339e-06,
      "loss": 1.2971,
      "mean_token_accuracy": 0.6715661436319351,
      "num_tokens": 2332002531.0,
      "step": 13902
    },
    {
      "entropy": 1.7066124081611633,
      "epoch": 1.5273131745900965,
      "grad_norm": 0.7259396910667419,
      "learning_rate": 4.511894563025941e-06,
      "loss": 1.4524,
      "mean_token_accuracy": 0.656074732542038,
      "num_tokens": 2332142038.0,
      "step": 13903
    },
    {
      "entropy": 1.668474902709325,
      "epoch": 1.5274230315014692,
      "grad_norm": 0.6683173179626465,
      "learning_rate": 4.510785021837152e-06,
      "loss": 1.3409,
      "mean_token_accuracy": 0.6598901102940241,
      "num_tokens": 2332282595.0,
      "step": 13904
    },
    {
      "entropy": 1.6978270014127095,
      "epoch": 1.5275328884128423,
      "grad_norm": 0.7189866900444031,
      "learning_rate": 4.509675686029098e-06,
      "loss": 1.2363,
      "mean_token_accuracy": 0.6774458686510721,
      "num_tokens": 2332402578.0,
      "step": 13905
    },
    {
      "entropy": 1.7065897683302562,
      "epoch": 1.5276427453242152,
      "grad_norm": 0.6405203342437744,
      "learning_rate": 4.508566555636883e-06,
      "loss": 1.4826,
      "mean_token_accuracy": 0.643202950557073,
      "num_tokens": 2332591335.0,
      "step": 13906
    },
    {
      "entropy": 1.6972811818122864,
      "epoch": 1.527752602235588,
      "grad_norm": 0.9096667170524597,
      "learning_rate": 4.507457630695608e-06,
      "loss": 1.2485,
      "mean_token_accuracy": 0.6712992439667383,
      "num_tokens": 2332720592.0,
      "step": 13907
    },
    {
      "entropy": 1.747529496749242,
      "epoch": 1.5278624591469612,
      "grad_norm": 0.6828884482383728,
      "learning_rate": 4.506348911240373e-06,
      "loss": 1.3577,
      "mean_token_accuracy": 0.6520382066567739,
      "num_tokens": 2332905147.0,
      "step": 13908
    },
    {
      "entropy": 1.7126144965489705,
      "epoch": 1.527972316058334,
      "grad_norm": 0.7815736532211304,
      "learning_rate": 4.505240397306276e-06,
      "loss": 1.3709,
      "mean_token_accuracy": 0.6534913231929144,
      "num_tokens": 2333089144.0,
      "step": 13909
    },
    {
      "entropy": 1.6652606030305226,
      "epoch": 1.528082172969707,
      "grad_norm": 0.619626522064209,
      "learning_rate": 4.504132088928387e-06,
      "loss": 1.3865,
      "mean_token_accuracy": 0.6694531738758087,
      "num_tokens": 2333339666.0,
      "step": 13910
    },
    {
      "entropy": 1.6987803876399994,
      "epoch": 1.52819202988108,
      "grad_norm": 0.670711874961853,
      "learning_rate": 4.50302398614179e-06,
      "loss": 1.3458,
      "mean_token_accuracy": 0.6516731629769007,
      "num_tokens": 2333501206.0,
      "step": 13911
    },
    {
      "entropy": 1.7137329777081807,
      "epoch": 1.5283018867924527,
      "grad_norm": 0.6769323945045471,
      "learning_rate": 4.50191608898156e-06,
      "loss": 1.3155,
      "mean_token_accuracy": 0.6620151499907175,
      "num_tokens": 2333669854.0,
      "step": 13912
    },
    {
      "entropy": 1.7096583346525829,
      "epoch": 1.5284117437038258,
      "grad_norm": 1.8156622648239136,
      "learning_rate": 4.500808397482758e-06,
      "loss": 1.4023,
      "mean_token_accuracy": 0.6582985719045004,
      "num_tokens": 2333802912.0,
      "step": 13913
    },
    {
      "entropy": 1.7230294446150463,
      "epoch": 1.5285216006151987,
      "grad_norm": 0.8509101867675781,
      "learning_rate": 4.499700911680438e-06,
      "loss": 1.3916,
      "mean_token_accuracy": 0.6567439685265223,
      "num_tokens": 2333964505.0,
      "step": 13914
    },
    {
      "entropy": 1.6359948416550953,
      "epoch": 1.5286314575265716,
      "grad_norm": 0.5980956554412842,
      "learning_rate": 4.498593631609659e-06,
      "loss": 1.3394,
      "mean_token_accuracy": 0.655903235077858,
      "num_tokens": 2334153055.0,
      "step": 13915
    },
    {
      "entropy": 1.6873148282368977,
      "epoch": 1.5287413144379447,
      "grad_norm": 0.7259606719017029,
      "learning_rate": 4.497486557305457e-06,
      "loss": 1.4662,
      "mean_token_accuracy": 0.649679829676946,
      "num_tokens": 2334300460.0,
      "step": 13916
    },
    {
      "entropy": 1.717822104692459,
      "epoch": 1.5288511713493174,
      "grad_norm": 0.6588619947433472,
      "learning_rate": 4.4963796888028795e-06,
      "loss": 1.3461,
      "mean_token_accuracy": 0.6689090430736542,
      "num_tokens": 2334450903.0,
      "step": 13917
    },
    {
      "entropy": 1.7424447536468506,
      "epoch": 1.5289610282606905,
      "grad_norm": 0.6434611082077026,
      "learning_rate": 4.495273026136955e-06,
      "loss": 1.4264,
      "mean_token_accuracy": 0.6540406395991644,
      "num_tokens": 2334682613.0,
      "step": 13918
    },
    {
      "entropy": 1.701530744632085,
      "epoch": 1.5290708851720634,
      "grad_norm": 0.6814815402030945,
      "learning_rate": 4.494166569342703e-06,
      "loss": 1.3523,
      "mean_token_accuracy": 0.6607520679632822,
      "num_tokens": 2334831018.0,
      "step": 13919
    },
    {
      "entropy": 1.7284032305081685,
      "epoch": 1.5291807420834362,
      "grad_norm": 0.6312406063079834,
      "learning_rate": 4.493060318455149e-06,
      "loss": 1.3887,
      "mean_token_accuracy": 0.6543530275424322,
      "num_tokens": 2334984799.0,
      "step": 13920
    },
    {
      "entropy": 1.6821238696575165,
      "epoch": 1.5292905989948093,
      "grad_norm": 0.8389406204223633,
      "learning_rate": 4.49195427350931e-06,
      "loss": 1.5546,
      "mean_token_accuracy": 0.6384274909893671,
      "num_tokens": 2335183329.0,
      "step": 13921
    },
    {
      "entropy": 1.6805053154627483,
      "epoch": 1.5294004559061822,
      "grad_norm": 0.6420016884803772,
      "learning_rate": 4.49084843454018e-06,
      "loss": 1.4169,
      "mean_token_accuracy": 0.6547876248757044,
      "num_tokens": 2335394113.0,
      "step": 13922
    },
    {
      "entropy": 1.7125700910886128,
      "epoch": 1.5295103128175551,
      "grad_norm": 0.6581193804740906,
      "learning_rate": 4.489742801582763e-06,
      "loss": 1.4741,
      "mean_token_accuracy": 0.6349633236726125,
      "num_tokens": 2335586212.0,
      "step": 13923
    },
    {
      "entropy": 1.6752095818519592,
      "epoch": 1.5296201697289282,
      "grad_norm": 0.6447793841362,
      "learning_rate": 4.488637374672055e-06,
      "loss": 1.3054,
      "mean_token_accuracy": 0.6653489669164022,
      "num_tokens": 2335744802.0,
      "step": 13924
    },
    {
      "entropy": 1.7021776934464772,
      "epoch": 1.5297300266403009,
      "grad_norm": 0.7589120864868164,
      "learning_rate": 4.487532153843042e-06,
      "loss": 1.3662,
      "mean_token_accuracy": 0.6518423855304718,
      "num_tokens": 2335891904.0,
      "step": 13925
    },
    {
      "entropy": 1.7558875183264415,
      "epoch": 1.529839883551674,
      "grad_norm": 0.7773360013961792,
      "learning_rate": 4.4864271391306966e-06,
      "loss": 1.587,
      "mean_token_accuracy": 0.6268220792214075,
      "num_tokens": 2336077877.0,
      "step": 13926
    },
    {
      "entropy": 1.7166087726751964,
      "epoch": 1.5299497404630469,
      "grad_norm": 0.7485700845718384,
      "learning_rate": 4.485322330570001e-06,
      "loss": 1.5295,
      "mean_token_accuracy": 0.6402496894200643,
      "num_tokens": 2336277354.0,
      "step": 13927
    },
    {
      "entropy": 1.6612951358159382,
      "epoch": 1.5300595973744198,
      "grad_norm": 0.6849234104156494,
      "learning_rate": 4.484217728195916e-06,
      "loss": 1.4499,
      "mean_token_accuracy": 0.6464580297470093,
      "num_tokens": 2336483683.0,
      "step": 13928
    },
    {
      "entropy": 1.7225702504316966,
      "epoch": 1.5301694542857929,
      "grad_norm": 0.7260335087776184,
      "learning_rate": 4.483113332043406e-06,
      "loss": 1.5129,
      "mean_token_accuracy": 0.6519743303457896,
      "num_tokens": 2336649224.0,
      "step": 13929
    },
    {
      "entropy": 1.7422150870164235,
      "epoch": 1.5302793111971655,
      "grad_norm": 0.7213874459266663,
      "learning_rate": 4.482009142147423e-06,
      "loss": 1.4632,
      "mean_token_accuracy": 0.6494071384270986,
      "num_tokens": 2336842981.0,
      "step": 13930
    },
    {
      "entropy": 1.7239739795525868,
      "epoch": 1.5303891681085386,
      "grad_norm": 1.510428786277771,
      "learning_rate": 4.48090515854291e-06,
      "loss": 1.2778,
      "mean_token_accuracy": 0.6638440688451132,
      "num_tokens": 2337021650.0,
      "step": 13931
    },
    {
      "entropy": 1.6931169827779133,
      "epoch": 1.5304990250199115,
      "grad_norm": 0.6036139130592346,
      "learning_rate": 4.479801381264812e-06,
      "loss": 1.3952,
      "mean_token_accuracy": 0.6582480867703756,
      "num_tokens": 2337184063.0,
      "step": 13932
    },
    {
      "entropy": 1.7547406653563182,
      "epoch": 1.5306088819312844,
      "grad_norm": 0.7975739240646362,
      "learning_rate": 4.478697810348067e-06,
      "loss": 1.4196,
      "mean_token_accuracy": 0.6527342349290848,
      "num_tokens": 2337334775.0,
      "step": 13933
    },
    {
      "entropy": 1.7274678846200306,
      "epoch": 1.5307187388426575,
      "grad_norm": 0.6878901124000549,
      "learning_rate": 4.477594445827593e-06,
      "loss": 1.2836,
      "mean_token_accuracy": 0.6727159321308136,
      "num_tokens": 2337481459.0,
      "step": 13934
    },
    {
      "entropy": 1.7022731602191925,
      "epoch": 1.5308285957540304,
      "grad_norm": 0.5858879685401917,
      "learning_rate": 4.476491287738315e-06,
      "loss": 1.4707,
      "mean_token_accuracy": 0.6447849820057551,
      "num_tokens": 2337670469.0,
      "step": 13935
    },
    {
      "entropy": 1.7229323883851368,
      "epoch": 1.5309384526654033,
      "grad_norm": 0.7864375710487366,
      "learning_rate": 4.47538833611515e-06,
      "loss": 1.4633,
      "mean_token_accuracy": 0.660116657614708,
      "num_tokens": 2337834873.0,
      "step": 13936
    },
    {
      "entropy": 1.6673548420270283,
      "epoch": 1.5310483095767764,
      "grad_norm": 0.6428960561752319,
      "learning_rate": 4.474285590993006e-06,
      "loss": 1.2677,
      "mean_token_accuracy": 0.6740302940209707,
      "num_tokens": 2337956224.0,
      "step": 13937
    },
    {
      "entropy": 1.710586170355479,
      "epoch": 1.531158166488149,
      "grad_norm": 0.7057774066925049,
      "learning_rate": 4.473183052406779e-06,
      "loss": 1.5108,
      "mean_token_accuracy": 0.6455043405294418,
      "num_tokens": 2338114195.0,
      "step": 13938
    },
    {
      "entropy": 1.8051166435082753,
      "epoch": 1.5312680233995222,
      "grad_norm": 0.7137125134468079,
      "learning_rate": 4.47208072039137e-06,
      "loss": 1.3484,
      "mean_token_accuracy": 0.6553170531988144,
      "num_tokens": 2338255652.0,
      "step": 13939
    },
    {
      "entropy": 1.7347020109494526,
      "epoch": 1.531377880310895,
      "grad_norm": 0.6780955195426941,
      "learning_rate": 4.470978594981662e-06,
      "loss": 1.2638,
      "mean_token_accuracy": 0.6686906566222509,
      "num_tokens": 2338407717.0,
      "step": 13940
    },
    {
      "entropy": 1.7669414679209392,
      "epoch": 1.531487737222268,
      "grad_norm": 0.6672480702400208,
      "learning_rate": 4.4698766762125424e-06,
      "loss": 1.5253,
      "mean_token_accuracy": 0.6340082536141077,
      "num_tokens": 2338614879.0,
      "step": 13941
    },
    {
      "entropy": 1.7260774771372478,
      "epoch": 1.531597594133641,
      "grad_norm": 0.7122741937637329,
      "learning_rate": 4.4687749641188825e-06,
      "loss": 1.1811,
      "mean_token_accuracy": 0.6872084339459738,
      "num_tokens": 2338713200.0,
      "step": 13942
    },
    {
      "entropy": 1.7119547426700592,
      "epoch": 1.5317074510450137,
      "grad_norm": 0.6557315587997437,
      "learning_rate": 4.4676734587355495e-06,
      "loss": 1.4215,
      "mean_token_accuracy": 0.6668926427761713,
      "num_tokens": 2338895649.0,
      "step": 13943
    },
    {
      "entropy": 1.7337224682172139,
      "epoch": 1.5318173079563868,
      "grad_norm": 0.688232421875,
      "learning_rate": 4.466572160097409e-06,
      "loss": 1.312,
      "mean_token_accuracy": 0.6711380928754807,
      "num_tokens": 2339057198.0,
      "step": 13944
    },
    {
      "entropy": 1.735473394393921,
      "epoch": 1.5319271648677597,
      "grad_norm": 0.7628278732299805,
      "learning_rate": 4.46547106823932e-06,
      "loss": 1.372,
      "mean_token_accuracy": 0.6484810014565786,
      "num_tokens": 2339218108.0,
      "step": 13945
    },
    {
      "entropy": 1.6890499293804169,
      "epoch": 1.5320370217791326,
      "grad_norm": 0.9208077788352966,
      "learning_rate": 4.464370183196122e-06,
      "loss": 1.479,
      "mean_token_accuracy": 0.6497959345579147,
      "num_tokens": 2339408501.0,
      "step": 13946
    },
    {
      "entropy": 1.7463324666023254,
      "epoch": 1.5321468786905057,
      "grad_norm": 0.8276370167732239,
      "learning_rate": 4.463269505002663e-06,
      "loss": 1.4574,
      "mean_token_accuracy": 0.6638544549544653,
      "num_tokens": 2339542985.0,
      "step": 13947
    },
    {
      "entropy": 1.671470006306966,
      "epoch": 1.5322567356018786,
      "grad_norm": 0.6009271740913391,
      "learning_rate": 4.462169033693782e-06,
      "loss": 1.3789,
      "mean_token_accuracy": 0.6519037485122681,
      "num_tokens": 2339734500.0,
      "step": 13948
    },
    {
      "entropy": 1.7509864171346028,
      "epoch": 1.5323665925132515,
      "grad_norm": 0.7692368626594543,
      "learning_rate": 4.461068769304303e-06,
      "loss": 1.3132,
      "mean_token_accuracy": 0.6650248964627584,
      "num_tokens": 2339859100.0,
      "step": 13949
    },
    {
      "entropy": 1.7392914295196533,
      "epoch": 1.5324764494246246,
      "grad_norm": 0.683042049407959,
      "learning_rate": 4.45996871186905e-06,
      "loss": 1.373,
      "mean_token_accuracy": 0.65072533984979,
      "num_tokens": 2339994657.0,
      "step": 13950
    },
    {
      "entropy": 1.709182192881902,
      "epoch": 1.5325863063359972,
      "grad_norm": 0.6510934829711914,
      "learning_rate": 4.4588688614228425e-06,
      "loss": 1.3961,
      "mean_token_accuracy": 0.654055600365003,
      "num_tokens": 2340139163.0,
      "step": 13951
    },
    {
      "entropy": 1.6690978010495503,
      "epoch": 1.5326961632473703,
      "grad_norm": 0.6553038358688354,
      "learning_rate": 4.457769218000485e-06,
      "loss": 1.3819,
      "mean_token_accuracy": 0.6699864417314529,
      "num_tokens": 2340285613.0,
      "step": 13952
    },
    {
      "entropy": 1.7530159155527751,
      "epoch": 1.5328060201587432,
      "grad_norm": 0.7141207456588745,
      "learning_rate": 4.456669781636787e-06,
      "loss": 1.4391,
      "mean_token_accuracy": 0.6459661523501078,
      "num_tokens": 2340410082.0,
      "step": 13953
    },
    {
      "entropy": 1.7613732715447743,
      "epoch": 1.5329158770701161,
      "grad_norm": 0.6994073987007141,
      "learning_rate": 4.455570552366541e-06,
      "loss": 1.4204,
      "mean_token_accuracy": 0.6491125027338663,
      "num_tokens": 2340593994.0,
      "step": 13954
    },
    {
      "entropy": 1.642663260300954,
      "epoch": 1.5330257339814892,
      "grad_norm": 0.6598994731903076,
      "learning_rate": 4.454471530224536e-06,
      "loss": 1.3548,
      "mean_token_accuracy": 0.6538633108139038,
      "num_tokens": 2340770191.0,
      "step": 13955
    },
    {
      "entropy": 1.6616478463013966,
      "epoch": 1.5331355908928619,
      "grad_norm": 0.6697360277175903,
      "learning_rate": 4.453372715245557e-06,
      "loss": 1.3995,
      "mean_token_accuracy": 0.6621593882640203,
      "num_tokens": 2340949740.0,
      "step": 13956
    },
    {
      "entropy": 1.723496437072754,
      "epoch": 1.533245447804235,
      "grad_norm": 0.7380031943321228,
      "learning_rate": 4.452274107464388e-06,
      "loss": 1.4068,
      "mean_token_accuracy": 0.6533598005771637,
      "num_tokens": 2341134749.0,
      "step": 13957
    },
    {
      "entropy": 1.7315025826295216,
      "epoch": 1.5333553047156079,
      "grad_norm": 0.6608657240867615,
      "learning_rate": 4.451175706915787e-06,
      "loss": 1.5382,
      "mean_token_accuracy": 0.6362046400705973,
      "num_tokens": 2341397004.0,
      "step": 13958
    },
    {
      "entropy": 1.7039255797863007,
      "epoch": 1.5334651616269808,
      "grad_norm": 0.6795163154602051,
      "learning_rate": 4.450077513634527e-06,
      "loss": 1.3976,
      "mean_token_accuracy": 0.6478537817796072,
      "num_tokens": 2341604517.0,
      "step": 13959
    },
    {
      "entropy": 1.6687067747116089,
      "epoch": 1.5335750185383539,
      "grad_norm": 0.7309846878051758,
      "learning_rate": 4.44897952765536e-06,
      "loss": 1.5048,
      "mean_token_accuracy": 0.655499721566836,
      "num_tokens": 2341781573.0,
      "step": 13960
    },
    {
      "entropy": 1.723157713810603,
      "epoch": 1.5336848754497268,
      "grad_norm": 0.7755676507949829,
      "learning_rate": 4.44788174901304e-06,
      "loss": 1.411,
      "mean_token_accuracy": 0.6578606764475504,
      "num_tokens": 2341911128.0,
      "step": 13961
    },
    {
      "entropy": 1.6915369133154552,
      "epoch": 1.5337947323610996,
      "grad_norm": 0.7471572160720825,
      "learning_rate": 4.446784177742312e-06,
      "loss": 1.2909,
      "mean_token_accuracy": 0.6779088576634725,
      "num_tokens": 2342089929.0,
      "step": 13962
    },
    {
      "entropy": 1.679351806640625,
      "epoch": 1.5339045892724728,
      "grad_norm": 0.5526012778282166,
      "learning_rate": 4.445686813877907e-06,
      "loss": 1.485,
      "mean_token_accuracy": 0.6317119797070821,
      "num_tokens": 2342319068.0,
      "step": 13963
    },
    {
      "entropy": 1.6245819826920826,
      "epoch": 1.5340144461838454,
      "grad_norm": 0.6974883079528809,
      "learning_rate": 4.444589657454562e-06,
      "loss": 1.4006,
      "mean_token_accuracy": 0.6653065234422684,
      "num_tokens": 2342464403.0,
      "step": 13964
    },
    {
      "entropy": 1.6968108018239338,
      "epoch": 1.5341243030952185,
      "grad_norm": 0.5962358713150024,
      "learning_rate": 4.443492708507007e-06,
      "loss": 1.4658,
      "mean_token_accuracy": 0.6390899419784546,
      "num_tokens": 2342734419.0,
      "step": 13965
    },
    {
      "entropy": 1.7429889142513275,
      "epoch": 1.5342341600065914,
      "grad_norm": 0.6705568432807922,
      "learning_rate": 4.442395967069947e-06,
      "loss": 1.4232,
      "mean_token_accuracy": 0.643167644739151,
      "num_tokens": 2342906016.0,
      "step": 13966
    },
    {
      "entropy": 1.7325883607069652,
      "epoch": 1.5343440169179643,
      "grad_norm": 0.7288616895675659,
      "learning_rate": 4.441299433178099e-06,
      "loss": 1.4707,
      "mean_token_accuracy": 0.6572986940542856,
      "num_tokens": 2343042540.0,
      "step": 13967
    },
    {
      "entropy": 1.6961339712142944,
      "epoch": 1.5344538738293374,
      "grad_norm": 0.7040743827819824,
      "learning_rate": 4.440203106866172e-06,
      "loss": 1.4501,
      "mean_token_accuracy": 0.6512836913267771,
      "num_tokens": 2343232269.0,
      "step": 13968
    },
    {
      "entropy": 1.6818045775095622,
      "epoch": 1.53456373074071,
      "grad_norm": 0.6538490653038025,
      "learning_rate": 4.439106988168861e-06,
      "loss": 1.3832,
      "mean_token_accuracy": 0.6568224181731542,
      "num_tokens": 2343424419.0,
      "step": 13969
    },
    {
      "entropy": 1.7116661369800568,
      "epoch": 1.5346735876520832,
      "grad_norm": 0.6646193265914917,
      "learning_rate": 4.438011077120854e-06,
      "loss": 1.4384,
      "mean_token_accuracy": 0.633455440402031,
      "num_tokens": 2343599348.0,
      "step": 13970
    },
    {
      "entropy": 1.6582121352354686,
      "epoch": 1.534783444563456,
      "grad_norm": 0.5454766154289246,
      "learning_rate": 4.436915373756843e-06,
      "loss": 1.3379,
      "mean_token_accuracy": 0.6576869090398153,
      "num_tokens": 2343772491.0,
      "step": 13971
    },
    {
      "entropy": 1.6670493185520172,
      "epoch": 1.534893301474829,
      "grad_norm": 0.6243618130683899,
      "learning_rate": 4.4358198781114995e-06,
      "loss": 1.3609,
      "mean_token_accuracy": 0.6600524286429087,
      "num_tokens": 2343939801.0,
      "step": 13972
    },
    {
      "entropy": 1.6370833118756611,
      "epoch": 1.535003158386202,
      "grad_norm": 0.6674981713294983,
      "learning_rate": 4.434724590219502e-06,
      "loss": 1.3437,
      "mean_token_accuracy": 0.6636191656192144,
      "num_tokens": 2344139798.0,
      "step": 13973
    },
    {
      "entropy": 1.7490037282307942,
      "epoch": 1.535113015297575,
      "grad_norm": 0.7179242372512817,
      "learning_rate": 4.433629510115512e-06,
      "loss": 1.3214,
      "mean_token_accuracy": 0.6645645598570505,
      "num_tokens": 2344267913.0,
      "step": 13974
    },
    {
      "entropy": 1.7178294559319813,
      "epoch": 1.5352228722089478,
      "grad_norm": 0.6131008267402649,
      "learning_rate": 4.432534637834188e-06,
      "loss": 1.5438,
      "mean_token_accuracy": 0.6416826993227005,
      "num_tokens": 2344466156.0,
      "step": 13975
    },
    {
      "entropy": 1.6926537454128265,
      "epoch": 1.535332729120321,
      "grad_norm": 0.673001766204834,
      "learning_rate": 4.431439973410183e-06,
      "loss": 1.5398,
      "mean_token_accuracy": 0.6400438646475474,
      "num_tokens": 2344663909.0,
      "step": 13976
    },
    {
      "entropy": 1.6792364219824474,
      "epoch": 1.5354425860316936,
      "grad_norm": 0.6953542828559875,
      "learning_rate": 4.430345516878147e-06,
      "loss": 1.4084,
      "mean_token_accuracy": 0.6717520505189896,
      "num_tokens": 2344803361.0,
      "step": 13977
    },
    {
      "entropy": 1.6765713791052501,
      "epoch": 1.5355524429430667,
      "grad_norm": 0.6225120425224304,
      "learning_rate": 4.4292512682727115e-06,
      "loss": 1.3553,
      "mean_token_accuracy": 0.6637383997440338,
      "num_tokens": 2345013367.0,
      "step": 13978
    },
    {
      "entropy": 1.7007201512654622,
      "epoch": 1.5356622998544396,
      "grad_norm": 0.7577117085456848,
      "learning_rate": 4.428157227628511e-06,
      "loss": 1.4322,
      "mean_token_accuracy": 0.6638199587663015,
      "num_tokens": 2345180653.0,
      "step": 13979
    },
    {
      "entropy": 1.6954215864340465,
      "epoch": 1.5357721567658125,
      "grad_norm": 0.6490945816040039,
      "learning_rate": 4.427063394980177e-06,
      "loss": 1.3916,
      "mean_token_accuracy": 0.6532481213410696,
      "num_tokens": 2345343665.0,
      "step": 13980
    },
    {
      "entropy": 1.6678927838802338,
      "epoch": 1.5358820136771856,
      "grad_norm": 0.6423428058624268,
      "learning_rate": 4.425969770362323e-06,
      "loss": 1.2533,
      "mean_token_accuracy": 0.6784861932198206,
      "num_tokens": 2345473755.0,
      "step": 13981
    },
    {
      "entropy": 1.6874541540940602,
      "epoch": 1.5359918705885582,
      "grad_norm": 0.6954723000526428,
      "learning_rate": 4.424876353809563e-06,
      "loss": 1.3609,
      "mean_token_accuracy": 0.6523398011922836,
      "num_tokens": 2345647433.0,
      "step": 13982
    },
    {
      "entropy": 1.7374683419863384,
      "epoch": 1.5361017274999313,
      "grad_norm": 0.6964279413223267,
      "learning_rate": 4.4237831453565035e-06,
      "loss": 1.3207,
      "mean_token_accuracy": 0.6694158862034479,
      "num_tokens": 2345753042.0,
      "step": 13983
    },
    {
      "entropy": 1.7551298042138417,
      "epoch": 1.5362115844113042,
      "grad_norm": 0.6724309921264648,
      "learning_rate": 4.422690145037743e-06,
      "loss": 1.3518,
      "mean_token_accuracy": 0.6594842871030172,
      "num_tokens": 2345889659.0,
      "step": 13984
    },
    {
      "entropy": 1.7073955833911896,
      "epoch": 1.5363214413226771,
      "grad_norm": 0.7073147296905518,
      "learning_rate": 4.421597352887879e-06,
      "loss": 1.4573,
      "mean_token_accuracy": 0.6550180613994598,
      "num_tokens": 2346072026.0,
      "step": 13985
    },
    {
      "entropy": 1.6307064195473988,
      "epoch": 1.5364312982340502,
      "grad_norm": 0.6468693017959595,
      "learning_rate": 4.420504768941493e-06,
      "loss": 1.4167,
      "mean_token_accuracy": 0.6737861136595408,
      "num_tokens": 2346229976.0,
      "step": 13986
    },
    {
      "entropy": 1.7437759339809418,
      "epoch": 1.536541155145423,
      "grad_norm": 0.7528170943260193,
      "learning_rate": 4.419412393233164e-06,
      "loss": 1.4906,
      "mean_token_accuracy": 0.6429897795120875,
      "num_tokens": 2346443997.0,
      "step": 13987
    },
    {
      "entropy": 1.6810493369897206,
      "epoch": 1.536651012056796,
      "grad_norm": 0.6314464807510376,
      "learning_rate": 4.4183202257974685e-06,
      "loss": 1.4204,
      "mean_token_accuracy": 0.6624763359626135,
      "num_tokens": 2346619458.0,
      "step": 13988
    },
    {
      "entropy": 1.7033787270387013,
      "epoch": 1.536760868968169,
      "grad_norm": 0.742909848690033,
      "learning_rate": 4.417228266668976e-06,
      "loss": 1.3033,
      "mean_token_accuracy": 0.6721209386984507,
      "num_tokens": 2346763776.0,
      "step": 13989
    },
    {
      "entropy": 1.7384433150291443,
      "epoch": 1.5368707258795418,
      "grad_norm": 0.688539445400238,
      "learning_rate": 4.4161365158822386e-06,
      "loss": 1.3789,
      "mean_token_accuracy": 0.6550500591595968,
      "num_tokens": 2346925583.0,
      "step": 13990
    },
    {
      "entropy": 1.7031288743019104,
      "epoch": 1.5369805827909149,
      "grad_norm": 0.7073594331741333,
      "learning_rate": 4.415044973471812e-06,
      "loss": 1.3824,
      "mean_token_accuracy": 0.6627199401458105,
      "num_tokens": 2347097785.0,
      "step": 13991
    },
    {
      "entropy": 1.674454540014267,
      "epoch": 1.5370904397022878,
      "grad_norm": 0.889224648475647,
      "learning_rate": 4.413953639472249e-06,
      "loss": 1.2342,
      "mean_token_accuracy": 0.6825215369462967,
      "num_tokens": 2347220132.0,
      "step": 13992
    },
    {
      "entropy": 1.6853329439957936,
      "epoch": 1.5372002966136606,
      "grad_norm": 0.6673226952552795,
      "learning_rate": 4.412862513918085e-06,
      "loss": 1.301,
      "mean_token_accuracy": 0.6678221076726913,
      "num_tokens": 2347354586.0,
      "step": 13993
    },
    {
      "entropy": 1.6549971401691437,
      "epoch": 1.5373101535250338,
      "grad_norm": 0.6486871242523193,
      "learning_rate": 4.411771596843852e-06,
      "loss": 1.4182,
      "mean_token_accuracy": 0.6577600389719009,
      "num_tokens": 2347518232.0,
      "step": 13994
    },
    {
      "entropy": 1.6686547100543976,
      "epoch": 1.5374200104364064,
      "grad_norm": 0.7365626096725464,
      "learning_rate": 4.410680888284081e-06,
      "loss": 1.428,
      "mean_token_accuracy": 0.6594243546326956,
      "num_tokens": 2347704419.0,
      "step": 13995
    },
    {
      "entropy": 1.697216699520747,
      "epoch": 1.5375298673477795,
      "grad_norm": 0.6379204392433167,
      "learning_rate": 4.409590388273288e-06,
      "loss": 1.4551,
      "mean_token_accuracy": 0.6572363177935282,
      "num_tokens": 2347903688.0,
      "step": 13996
    },
    {
      "entropy": 1.7163971066474915,
      "epoch": 1.5376397242591524,
      "grad_norm": 0.7252550721168518,
      "learning_rate": 4.4085000968459925e-06,
      "loss": 1.4578,
      "mean_token_accuracy": 0.6468437065680822,
      "num_tokens": 2348059580.0,
      "step": 13997
    },
    {
      "entropy": 1.6949025789896648,
      "epoch": 1.5377495811705253,
      "grad_norm": 0.7134789824485779,
      "learning_rate": 4.407410014036699e-06,
      "loss": 1.4531,
      "mean_token_accuracy": 0.6462388386329015,
      "num_tokens": 2348228716.0,
      "step": 13998
    },
    {
      "entropy": 1.705321490764618,
      "epoch": 1.5378594380818984,
      "grad_norm": 0.8609808087348938,
      "learning_rate": 4.406320139879906e-06,
      "loss": 1.4904,
      "mean_token_accuracy": 0.6510612418254217,
      "num_tokens": 2348400900.0,
      "step": 13999
    },
    {
      "entropy": 1.7144020994504292,
      "epoch": 1.5379692949932713,
      "grad_norm": 0.7137477993965149,
      "learning_rate": 4.405230474410108e-06,
      "loss": 1.4114,
      "mean_token_accuracy": 0.6484651267528534,
      "num_tokens": 2348613516.0,
      "step": 14000
    },
    {
      "entropy": 1.7028910517692566,
      "epoch": 1.5380791519046442,
      "grad_norm": 0.562455415725708,
      "learning_rate": 4.4041410176618e-06,
      "loss": 1.417,
      "mean_token_accuracy": 0.6450492938359579,
      "num_tokens": 2348799990.0,
      "step": 14001
    },
    {
      "entropy": 1.688763548930486,
      "epoch": 1.5381890088160173,
      "grad_norm": 0.7308263182640076,
      "learning_rate": 4.403051769669451e-06,
      "loss": 1.2927,
      "mean_token_accuracy": 0.6648479749759039,
      "num_tokens": 2348918497.0,
      "step": 14002
    },
    {
      "entropy": 1.738109012444814,
      "epoch": 1.53829886572739,
      "grad_norm": 0.6443284153938293,
      "learning_rate": 4.40196273046754e-06,
      "loss": 1.3536,
      "mean_token_accuracy": 0.6667558401823044,
      "num_tokens": 2349071410.0,
      "step": 14003
    },
    {
      "entropy": 1.702557345231374,
      "epoch": 1.538408722638763,
      "grad_norm": 0.8023272156715393,
      "learning_rate": 4.40087390009054e-06,
      "loss": 1.3405,
      "mean_token_accuracy": 0.676914319396019,
      "num_tokens": 2349234865.0,
      "step": 14004
    },
    {
      "entropy": 1.711880385875702,
      "epoch": 1.538518579550136,
      "grad_norm": 0.80071622133255,
      "learning_rate": 4.399785278572906e-06,
      "loss": 1.336,
      "mean_token_accuracy": 0.6736197620630264,
      "num_tokens": 2349415753.0,
      "step": 14005
    },
    {
      "entropy": 1.687764436006546,
      "epoch": 1.5386284364615088,
      "grad_norm": 0.7393195033073425,
      "learning_rate": 4.39869686594909e-06,
      "loss": 1.3066,
      "mean_token_accuracy": 0.6780485212802887,
      "num_tokens": 2349536443.0,
      "step": 14006
    },
    {
      "entropy": 1.6960475146770477,
      "epoch": 1.538738293372882,
      "grad_norm": 0.7331027984619141,
      "learning_rate": 4.397608662253548e-06,
      "loss": 1.2219,
      "mean_token_accuracy": 0.6794477055470148,
      "num_tokens": 2349691007.0,
      "step": 14007
    },
    {
      "entropy": 1.753263344367345,
      "epoch": 1.5388481502842548,
      "grad_norm": 0.6345871686935425,
      "learning_rate": 4.396520667520714e-06,
      "loss": 1.4942,
      "mean_token_accuracy": 0.639187882343928,
      "num_tokens": 2349883106.0,
      "step": 14008
    },
    {
      "entropy": 1.7145345509052277,
      "epoch": 1.5389580071956277,
      "grad_norm": 0.6685234308242798,
      "learning_rate": 4.395432881785028e-06,
      "loss": 1.438,
      "mean_token_accuracy": 0.6546867787837982,
      "num_tokens": 2350060890.0,
      "step": 14009
    },
    {
      "entropy": 1.7457486589749653,
      "epoch": 1.5390678641070006,
      "grad_norm": 0.6667968034744263,
      "learning_rate": 4.3943453050809144e-06,
      "loss": 1.4756,
      "mean_token_accuracy": 0.6380013773838679,
      "num_tokens": 2350245230.0,
      "step": 14010
    },
    {
      "entropy": 1.6892044444878895,
      "epoch": 1.5391777210183735,
      "grad_norm": 0.6611399054527283,
      "learning_rate": 4.393257937442793e-06,
      "loss": 1.2343,
      "mean_token_accuracy": 0.6810240397850672,
      "num_tokens": 2350353525.0,
      "step": 14011
    },
    {
      "entropy": 1.7096824645996094,
      "epoch": 1.5392875779297466,
      "grad_norm": 0.6070430278778076,
      "learning_rate": 4.392170778905081e-06,
      "loss": 1.3684,
      "mean_token_accuracy": 0.6506505062182745,
      "num_tokens": 2350592197.0,
      "step": 14012
    },
    {
      "entropy": 1.6973026096820831,
      "epoch": 1.5393974348411195,
      "grad_norm": 0.7121232748031616,
      "learning_rate": 4.3910838295021905e-06,
      "loss": 1.25,
      "mean_token_accuracy": 0.6867650945981344,
      "num_tokens": 2350738599.0,
      "step": 14013
    },
    {
      "entropy": 1.794579843680064,
      "epoch": 1.5395072917524923,
      "grad_norm": 0.7066651582717896,
      "learning_rate": 4.389997089268516e-06,
      "loss": 1.3076,
      "mean_token_accuracy": 0.6670825928449631,
      "num_tokens": 2350881742.0,
      "step": 14014
    },
    {
      "entropy": 1.6792183915774028,
      "epoch": 1.5396171486638655,
      "grad_norm": 0.6690120697021484,
      "learning_rate": 4.3889105582384525e-06,
      "loss": 1.3286,
      "mean_token_accuracy": 0.6693990727265676,
      "num_tokens": 2351073624.0,
      "step": 14015
    },
    {
      "entropy": 1.7471397519111633,
      "epoch": 1.5397270055752381,
      "grad_norm": 0.6697660684585571,
      "learning_rate": 4.387824236446395e-06,
      "loss": 1.5972,
      "mean_token_accuracy": 0.616848016778628,
      "num_tokens": 2351288596.0,
      "step": 14016
    },
    {
      "entropy": 1.7265910804271698,
      "epoch": 1.5398368624866112,
      "grad_norm": 0.6318051218986511,
      "learning_rate": 4.38673812392672e-06,
      "loss": 1.3871,
      "mean_token_accuracy": 0.6530221005280813,
      "num_tokens": 2351452744.0,
      "step": 14017
    },
    {
      "entropy": 1.6270829439163208,
      "epoch": 1.539946719397984,
      "grad_norm": 0.7931689023971558,
      "learning_rate": 4.385652220713801e-06,
      "loss": 1.4203,
      "mean_token_accuracy": 0.6615447551012039,
      "num_tokens": 2351609983.0,
      "step": 14018
    },
    {
      "entropy": 1.6672570705413818,
      "epoch": 1.540056576309357,
      "grad_norm": 0.7277114391326904,
      "learning_rate": 4.384566526842011e-06,
      "loss": 1.3248,
      "mean_token_accuracy": 0.6881892184416453,
      "num_tokens": 2351740970.0,
      "step": 14019
    },
    {
      "entropy": 1.6719843447208405,
      "epoch": 1.54016643322073,
      "grad_norm": 0.6636250615119934,
      "learning_rate": 4.383481042345707e-06,
      "loss": 1.334,
      "mean_token_accuracy": 0.669186050693194,
      "num_tokens": 2351887213.0,
      "step": 14020
    },
    {
      "entropy": 1.7347903450330098,
      "epoch": 1.540276290132103,
      "grad_norm": 0.7051345109939575,
      "learning_rate": 4.382395767259252e-06,
      "loss": 1.3205,
      "mean_token_accuracy": 0.6803038567304611,
      "num_tokens": 2352004799.0,
      "step": 14021
    },
    {
      "entropy": 1.658490777015686,
      "epoch": 1.5403861470434759,
      "grad_norm": 0.7130881547927856,
      "learning_rate": 4.381310701616985e-06,
      "loss": 1.368,
      "mean_token_accuracy": 0.6594650596380234,
      "num_tokens": 2352206971.0,
      "step": 14022
    },
    {
      "entropy": 1.7292596499125164,
      "epoch": 1.5404960039548488,
      "grad_norm": 0.6630394458770752,
      "learning_rate": 4.3802258454532495e-06,
      "loss": 1.3735,
      "mean_token_accuracy": 0.6567981640497843,
      "num_tokens": 2352400744.0,
      "step": 14023
    },
    {
      "entropy": 1.7222495377063751,
      "epoch": 1.5406058608662216,
      "grad_norm": 0.6828321814537048,
      "learning_rate": 4.379141198802388e-06,
      "loss": 1.4488,
      "mean_token_accuracy": 0.6561195055643717,
      "num_tokens": 2352562667.0,
      "step": 14024
    },
    {
      "entropy": 1.646317849556605,
      "epoch": 1.5407157177775948,
      "grad_norm": 0.7620025277137756,
      "learning_rate": 4.378056761698722e-06,
      "loss": 1.3757,
      "mean_token_accuracy": 0.6582992623249689,
      "num_tokens": 2352756006.0,
      "step": 14025
    },
    {
      "entropy": 1.6566996177037556,
      "epoch": 1.5408255746889676,
      "grad_norm": 0.6729485988616943,
      "learning_rate": 4.3769725341765745e-06,
      "loss": 1.4421,
      "mean_token_accuracy": 0.6499632894992828,
      "num_tokens": 2352952033.0,
      "step": 14026
    },
    {
      "entropy": 1.7033120195070903,
      "epoch": 1.5409354316003405,
      "grad_norm": 0.6999285817146301,
      "learning_rate": 4.375888516270264e-06,
      "loss": 1.3622,
      "mean_token_accuracy": 0.6672971496979395,
      "num_tokens": 2353094627.0,
      "step": 14027
    },
    {
      "entropy": 1.7603072027365367,
      "epoch": 1.5410452885117136,
      "grad_norm": 0.7112701535224915,
      "learning_rate": 4.3748047080140935e-06,
      "loss": 1.4744,
      "mean_token_accuracy": 0.6439538995424906,
      "num_tokens": 2353238406.0,
      "step": 14028
    },
    {
      "entropy": 1.691114326318105,
      "epoch": 1.5411551454230863,
      "grad_norm": 0.6865422129631042,
      "learning_rate": 4.373721109442373e-06,
      "loss": 1.3223,
      "mean_token_accuracy": 0.6618143618106842,
      "num_tokens": 2353364805.0,
      "step": 14029
    },
    {
      "entropy": 1.7279209593931835,
      "epoch": 1.5412650023344594,
      "grad_norm": 0.6755762100219727,
      "learning_rate": 4.3726377205893925e-06,
      "loss": 1.6106,
      "mean_token_accuracy": 0.6444238399465879,
      "num_tokens": 2353566096.0,
      "step": 14030
    },
    {
      "entropy": 1.7265671888987224,
      "epoch": 1.5413748592458323,
      "grad_norm": 0.7081911563873291,
      "learning_rate": 4.371554541489439e-06,
      "loss": 1.4627,
      "mean_token_accuracy": 0.658619354168574,
      "num_tokens": 2353736452.0,
      "step": 14031
    },
    {
      "entropy": 1.679870496193568,
      "epoch": 1.5414847161572052,
      "grad_norm": 0.6351853013038635,
      "learning_rate": 4.370471572176797e-06,
      "loss": 1.4357,
      "mean_token_accuracy": 0.651072566707929,
      "num_tokens": 2353911720.0,
      "step": 14032
    },
    {
      "entropy": 1.72749329606692,
      "epoch": 1.5415945730685783,
      "grad_norm": 0.7487029433250427,
      "learning_rate": 4.369388812685748e-06,
      "loss": 1.3973,
      "mean_token_accuracy": 0.6484367648760477,
      "num_tokens": 2354086543.0,
      "step": 14033
    },
    {
      "entropy": 1.662652164697647,
      "epoch": 1.5417044299799512,
      "grad_norm": 0.7096850872039795,
      "learning_rate": 4.3683062630505515e-06,
      "loss": 1.4054,
      "mean_token_accuracy": 0.6659991989533106,
      "num_tokens": 2354250773.0,
      "step": 14034
    },
    {
      "entropy": 1.680237591266632,
      "epoch": 1.541814286891324,
      "grad_norm": 0.8764726519584656,
      "learning_rate": 4.367223923305471e-06,
      "loss": 1.4226,
      "mean_token_accuracy": 0.6559638977050781,
      "num_tokens": 2354385839.0,
      "step": 14035
    },
    {
      "entropy": 1.6535289386908214,
      "epoch": 1.541924143802697,
      "grad_norm": 0.651672899723053,
      "learning_rate": 4.366141793484769e-06,
      "loss": 1.2837,
      "mean_token_accuracy": 0.6699432631333669,
      "num_tokens": 2354550541.0,
      "step": 14036
    },
    {
      "entropy": 1.706730951865514,
      "epoch": 1.5420340007140698,
      "grad_norm": 0.7192301154136658,
      "learning_rate": 4.365059873622689e-06,
      "loss": 1.2958,
      "mean_token_accuracy": 0.6683982561031977,
      "num_tokens": 2354690354.0,
      "step": 14037
    },
    {
      "entropy": 1.7195076942443848,
      "epoch": 1.542143857625443,
      "grad_norm": 0.6625783443450928,
      "learning_rate": 4.363978163753472e-06,
      "loss": 1.5496,
      "mean_token_accuracy": 0.6505264093478521,
      "num_tokens": 2354936587.0,
      "step": 14038
    },
    {
      "entropy": 1.7424062093098958,
      "epoch": 1.5422537145368158,
      "grad_norm": 0.7096309661865234,
      "learning_rate": 4.362896663911359e-06,
      "loss": 1.4185,
      "mean_token_accuracy": 0.6444617807865143,
      "num_tokens": 2355169144.0,
      "step": 14039
    },
    {
      "entropy": 1.6861979564030964,
      "epoch": 1.5423635714481887,
      "grad_norm": 0.6280454397201538,
      "learning_rate": 4.361815374130572e-06,
      "loss": 1.3581,
      "mean_token_accuracy": 0.6629171371459961,
      "num_tokens": 2355322642.0,
      "step": 14040
    },
    {
      "entropy": 1.7170844674110413,
      "epoch": 1.5424734283595618,
      "grad_norm": 0.6770321726799011,
      "learning_rate": 4.360734294445341e-06,
      "loss": 1.4312,
      "mean_token_accuracy": 0.650084396203359,
      "num_tokens": 2355507572.0,
      "step": 14041
    },
    {
      "entropy": 1.688788741827011,
      "epoch": 1.5425832852709345,
      "grad_norm": 0.8258582949638367,
      "learning_rate": 4.359653424889877e-06,
      "loss": 1.3963,
      "mean_token_accuracy": 0.6617969572544098,
      "num_tokens": 2355672193.0,
      "step": 14042
    },
    {
      "entropy": 1.6985827187697093,
      "epoch": 1.5426931421823076,
      "grad_norm": 0.6929754614830017,
      "learning_rate": 4.358572765498388e-06,
      "loss": 1.3762,
      "mean_token_accuracy": 0.6613185753424963,
      "num_tokens": 2355849560.0,
      "step": 14043
    },
    {
      "entropy": 1.7190652589003246,
      "epoch": 1.5428029990936805,
      "grad_norm": 0.6878488659858704,
      "learning_rate": 4.357492316305078e-06,
      "loss": 1.3982,
      "mean_token_accuracy": 0.659120962023735,
      "num_tokens": 2356025745.0,
      "step": 14044
    },
    {
      "entropy": 1.638331522544225,
      "epoch": 1.5429128560050533,
      "grad_norm": 0.5437892079353333,
      "learning_rate": 4.356412077344148e-06,
      "loss": 1.4459,
      "mean_token_accuracy": 0.6453542610009512,
      "num_tokens": 2356249597.0,
      "step": 14045
    },
    {
      "entropy": 1.6433692872524261,
      "epoch": 1.5430227129164265,
      "grad_norm": 0.7393973469734192,
      "learning_rate": 4.355332048649777e-06,
      "loss": 1.3323,
      "mean_token_accuracy": 0.6734596192836761,
      "num_tokens": 2356435811.0,
      "step": 14046
    },
    {
      "entropy": 1.6932270030180614,
      "epoch": 1.5431325698277993,
      "grad_norm": 0.7015334367752075,
      "learning_rate": 4.354252230256152e-06,
      "loss": 1.5119,
      "mean_token_accuracy": 0.6505384395519892,
      "num_tokens": 2356616344.0,
      "step": 14047
    },
    {
      "entropy": 1.722126583258311,
      "epoch": 1.5432424267391722,
      "grad_norm": 0.8697376251220703,
      "learning_rate": 4.353172622197453e-06,
      "loss": 1.593,
      "mean_token_accuracy": 0.6482644279797872,
      "num_tokens": 2356757894.0,
      "step": 14048
    },
    {
      "entropy": 1.7142964998881023,
      "epoch": 1.5433522836505453,
      "grad_norm": 0.8031371235847473,
      "learning_rate": 4.352093224507844e-06,
      "loss": 1.4184,
      "mean_token_accuracy": 0.6482335776090622,
      "num_tokens": 2356905299.0,
      "step": 14049
    },
    {
      "entropy": 1.7244684199492137,
      "epoch": 1.543462140561918,
      "grad_norm": 0.8741907477378845,
      "learning_rate": 4.351014037221487e-06,
      "loss": 1.163,
      "mean_token_accuracy": 0.687325323621432,
      "num_tokens": 2357051562.0,
      "step": 14050
    },
    {
      "entropy": 1.733912189801534,
      "epoch": 1.543571997473291,
      "grad_norm": 0.7576857209205627,
      "learning_rate": 4.349935060372542e-06,
      "loss": 1.4504,
      "mean_token_accuracy": 0.6613880942265192,
      "num_tokens": 2357268692.0,
      "step": 14051
    },
    {
      "entropy": 1.711068868637085,
      "epoch": 1.543681854384664,
      "grad_norm": 0.8415870666503906,
      "learning_rate": 4.348856293995154e-06,
      "loss": 1.3542,
      "mean_token_accuracy": 0.6686215748389562,
      "num_tokens": 2357397384.0,
      "step": 14052
    },
    {
      "entropy": 1.7130617996056874,
      "epoch": 1.5437917112960369,
      "grad_norm": 0.6683608889579773,
      "learning_rate": 4.347777738123469e-06,
      "loss": 1.4191,
      "mean_token_accuracy": 0.6496846874554952,
      "num_tokens": 2357561125.0,
      "step": 14053
    },
    {
      "entropy": 1.6761254767576854,
      "epoch": 1.54390156820741,
      "grad_norm": 0.7907574772834778,
      "learning_rate": 4.3466993927916215e-06,
      "loss": 1.5052,
      "mean_token_accuracy": 0.6459088623523712,
      "num_tokens": 2357745122.0,
      "step": 14054
    },
    {
      "entropy": 1.6257309913635254,
      "epoch": 1.5440114251187826,
      "grad_norm": 0.6445624828338623,
      "learning_rate": 4.345621258033737e-06,
      "loss": 1.421,
      "mean_token_accuracy": 0.6715798825025558,
      "num_tokens": 2357927515.0,
      "step": 14055
    },
    {
      "entropy": 1.6763292849063873,
      "epoch": 1.5441212820301558,
      "grad_norm": 0.6625300645828247,
      "learning_rate": 4.344543333883941e-06,
      "loss": 1.3599,
      "mean_token_accuracy": 0.6491398314634959,
      "num_tokens": 2358124048.0,
      "step": 14056
    },
    {
      "entropy": 1.7738927900791168,
      "epoch": 1.5442311389415286,
      "grad_norm": 0.7023770213127136,
      "learning_rate": 4.343465620376355e-06,
      "loss": 1.3112,
      "mean_token_accuracy": 0.6682771146297455,
      "num_tokens": 2358256450.0,
      "step": 14057
    },
    {
      "entropy": 1.685390333334605,
      "epoch": 1.5443409958529015,
      "grad_norm": 0.7113889455795288,
      "learning_rate": 4.342388117545078e-06,
      "loss": 1.3734,
      "mean_token_accuracy": 0.6664382467667261,
      "num_tokens": 2358391277.0,
      "step": 14058
    },
    {
      "entropy": 1.6166270176569622,
      "epoch": 1.5444508527642746,
      "grad_norm": 0.6758726835250854,
      "learning_rate": 4.341310825424215e-06,
      "loss": 1.3477,
      "mean_token_accuracy": 0.6600983242193857,
      "num_tokens": 2358561825.0,
      "step": 14059
    },
    {
      "entropy": 1.6522872944672902,
      "epoch": 1.5445607096756475,
      "grad_norm": 0.596356213092804,
      "learning_rate": 4.340233744047868e-06,
      "loss": 1.4209,
      "mean_token_accuracy": 0.6476166248321533,
      "num_tokens": 2358778206.0,
      "step": 14060
    },
    {
      "entropy": 1.724749763806661,
      "epoch": 1.5446705665870204,
      "grad_norm": 0.6655259728431702,
      "learning_rate": 4.339156873450122e-06,
      "loss": 1.3939,
      "mean_token_accuracy": 0.6588339308897654,
      "num_tokens": 2358936328.0,
      "step": 14061
    },
    {
      "entropy": 1.7044113278388977,
      "epoch": 1.5447804234983935,
      "grad_norm": 0.7894936203956604,
      "learning_rate": 4.338080213665058e-06,
      "loss": 1.362,
      "mean_token_accuracy": 0.6574911077817281,
      "num_tokens": 2359127677.0,
      "step": 14062
    },
    {
      "entropy": 1.6766592065493267,
      "epoch": 1.5448902804097662,
      "grad_norm": 0.7808144688606262,
      "learning_rate": 4.337003764726754e-06,
      "loss": 1.4714,
      "mean_token_accuracy": 0.6505367159843445,
      "num_tokens": 2359318644.0,
      "step": 14063
    },
    {
      "entropy": 1.6718900700410206,
      "epoch": 1.5450001373211393,
      "grad_norm": 0.7390754222869873,
      "learning_rate": 4.335927526669277e-06,
      "loss": 1.2496,
      "mean_token_accuracy": 0.6705302894115448,
      "num_tokens": 2359475453.0,
      "step": 14064
    },
    {
      "entropy": 1.6547542810440063,
      "epoch": 1.5451099942325122,
      "grad_norm": 0.716488242149353,
      "learning_rate": 4.334851499526693e-06,
      "loss": 1.3649,
      "mean_token_accuracy": 0.65887650847435,
      "num_tokens": 2359637946.0,
      "step": 14065
    },
    {
      "entropy": 1.6610281368096669,
      "epoch": 1.545219851143885,
      "grad_norm": 0.636939525604248,
      "learning_rate": 4.333775683333056e-06,
      "loss": 1.2319,
      "mean_token_accuracy": 0.6830330838759741,
      "num_tokens": 2359770202.0,
      "step": 14066
    },
    {
      "entropy": 1.6054012378056843,
      "epoch": 1.5453297080552582,
      "grad_norm": 0.6318295001983643,
      "learning_rate": 4.332700078122411e-06,
      "loss": 1.3044,
      "mean_token_accuracy": 0.6684317042430242,
      "num_tokens": 2359979968.0,
      "step": 14067
    },
    {
      "entropy": 1.734905183315277,
      "epoch": 1.5454395649666308,
      "grad_norm": 0.5726717114448547,
      "learning_rate": 4.3316246839288055e-06,
      "loss": 1.5647,
      "mean_token_accuracy": 0.6327670514583588,
      "num_tokens": 2360193178.0,
      "step": 14068
    },
    {
      "entropy": 1.7301185925801594,
      "epoch": 1.545549421878004,
      "grad_norm": 0.7241100668907166,
      "learning_rate": 4.330549500786279e-06,
      "loss": 1.5143,
      "mean_token_accuracy": 0.6339599887530009,
      "num_tokens": 2360414280.0,
      "step": 14069
    },
    {
      "entropy": 1.6495436231295268,
      "epoch": 1.5456592787893768,
      "grad_norm": 0.6548447012901306,
      "learning_rate": 4.329474528728851e-06,
      "loss": 1.3183,
      "mean_token_accuracy": 0.6611727774143219,
      "num_tokens": 2360550978.0,
      "step": 14070
    },
    {
      "entropy": 1.733685662349065,
      "epoch": 1.5457691357007497,
      "grad_norm": 0.7285884618759155,
      "learning_rate": 4.328399767790546e-06,
      "loss": 1.448,
      "mean_token_accuracy": 0.6412131836016973,
      "num_tokens": 2360730661.0,
      "step": 14071
    },
    {
      "entropy": 1.7295173903306325,
      "epoch": 1.5458789926121228,
      "grad_norm": 0.7899370789527893,
      "learning_rate": 4.327325218005386e-06,
      "loss": 1.3316,
      "mean_token_accuracy": 0.6687415341536204,
      "num_tokens": 2360851373.0,
      "step": 14072
    },
    {
      "entropy": 1.6831912994384766,
      "epoch": 1.5459888495234957,
      "grad_norm": 0.658294677734375,
      "learning_rate": 4.326250879407377e-06,
      "loss": 1.249,
      "mean_token_accuracy": 0.6833125005165736,
      "num_tokens": 2360979800.0,
      "step": 14073
    },
    {
      "entropy": 1.654470185438792,
      "epoch": 1.5460987064348686,
      "grad_norm": 0.6260450482368469,
      "learning_rate": 4.325176752030516e-06,
      "loss": 1.3658,
      "mean_token_accuracy": 0.6646214425563812,
      "num_tokens": 2361129203.0,
      "step": 14074
    },
    {
      "entropy": 1.6546796262264252,
      "epoch": 1.5462085633462417,
      "grad_norm": 0.6665990948677063,
      "learning_rate": 4.324102835908807e-06,
      "loss": 1.3189,
      "mean_token_accuracy": 0.6715873231490453,
      "num_tokens": 2361304020.0,
      "step": 14075
    },
    {
      "entropy": 1.684925526380539,
      "epoch": 1.5463184202576143,
      "grad_norm": 0.7178765535354614,
      "learning_rate": 4.323029131076232e-06,
      "loss": 1.3917,
      "mean_token_accuracy": 0.654693936308225,
      "num_tokens": 2361468876.0,
      "step": 14076
    },
    {
      "entropy": 1.7206127643585205,
      "epoch": 1.5464282771689875,
      "grad_norm": 0.7334764003753662,
      "learning_rate": 4.321955637566779e-06,
      "loss": 1.4133,
      "mean_token_accuracy": 0.6604679723580679,
      "num_tokens": 2361644981.0,
      "step": 14077
    },
    {
      "entropy": 1.7566125492254894,
      "epoch": 1.5465381340803603,
      "grad_norm": 0.9064491391181946,
      "learning_rate": 4.320882355414421e-06,
      "loss": 1.3328,
      "mean_token_accuracy": 0.6624845316012701,
      "num_tokens": 2361768215.0,
      "step": 14078
    },
    {
      "entropy": 1.6920438210169475,
      "epoch": 1.5466479909917332,
      "grad_norm": 0.8833717107772827,
      "learning_rate": 4.319809284653123e-06,
      "loss": 1.3987,
      "mean_token_accuracy": 0.6700094143549601,
      "num_tokens": 2361915240.0,
      "step": 14079
    },
    {
      "entropy": 1.6645349264144897,
      "epoch": 1.5467578479031063,
      "grad_norm": 0.5727179646492004,
      "learning_rate": 4.318736425316855e-06,
      "loss": 1.528,
      "mean_token_accuracy": 0.6394601066907247,
      "num_tokens": 2362137844.0,
      "step": 14080
    },
    {
      "entropy": 1.7052935063838959,
      "epoch": 1.546867704814479,
      "grad_norm": 0.7055914402008057,
      "learning_rate": 4.317663777439567e-06,
      "loss": 1.3783,
      "mean_token_accuracy": 0.6631141553322474,
      "num_tokens": 2362348283.0,
      "step": 14081
    },
    {
      "entropy": 1.6607483228047688,
      "epoch": 1.546977561725852,
      "grad_norm": 0.6008187532424927,
      "learning_rate": 4.316591341055208e-06,
      "loss": 1.3967,
      "mean_token_accuracy": 0.6505735764900843,
      "num_tokens": 2362519677.0,
      "step": 14082
    },
    {
      "entropy": 1.7044240633646648,
      "epoch": 1.547087418637225,
      "grad_norm": 0.6458705067634583,
      "learning_rate": 4.315519116197724e-06,
      "loss": 1.4219,
      "mean_token_accuracy": 0.6473012765248617,
      "num_tokens": 2362691629.0,
      "step": 14083
    },
    {
      "entropy": 1.7407875955104828,
      "epoch": 1.5471972755485979,
      "grad_norm": 0.7819077372550964,
      "learning_rate": 4.314447102901045e-06,
      "loss": 1.2604,
      "mean_token_accuracy": 0.687695175409317,
      "num_tokens": 2362816475.0,
      "step": 14084
    },
    {
      "entropy": 1.6973053614298503,
      "epoch": 1.547307132459971,
      "grad_norm": 0.6520508527755737,
      "learning_rate": 4.3133753011991046e-06,
      "loss": 1.3195,
      "mean_token_accuracy": 0.6731201509634653,
      "num_tokens": 2362972835.0,
      "step": 14085
    },
    {
      "entropy": 1.732239951690038,
      "epoch": 1.5474169893713439,
      "grad_norm": 0.8456202149391174,
      "learning_rate": 4.312303711125824e-06,
      "loss": 1.278,
      "mean_token_accuracy": 0.666911373535792,
      "num_tokens": 2363081271.0,
      "step": 14086
    },
    {
      "entropy": 1.644601583480835,
      "epoch": 1.5475268462827168,
      "grad_norm": 0.8071454763412476,
      "learning_rate": 4.311232332715114e-06,
      "loss": 1.4276,
      "mean_token_accuracy": 0.659256507953008,
      "num_tokens": 2363264153.0,
      "step": 14087
    },
    {
      "entropy": 1.6631284455458324,
      "epoch": 1.5476367031940899,
      "grad_norm": 0.6700156927108765,
      "learning_rate": 4.310161166000887e-06,
      "loss": 1.2801,
      "mean_token_accuracy": 0.6774795204401016,
      "num_tokens": 2363392436.0,
      "step": 14088
    },
    {
      "entropy": 1.7066160937150319,
      "epoch": 1.5477465601054625,
      "grad_norm": 0.6427406072616577,
      "learning_rate": 4.309090211017049e-06,
      "loss": 1.3209,
      "mean_token_accuracy": 0.6586870650450388,
      "num_tokens": 2363528126.0,
      "step": 14089
    },
    {
      "entropy": 1.799843966960907,
      "epoch": 1.5478564170168356,
      "grad_norm": 0.7809091210365295,
      "learning_rate": 4.308019467797487e-06,
      "loss": 1.4235,
      "mean_token_accuracy": 0.6456949164470037,
      "num_tokens": 2363671865.0,
      "step": 14090
    },
    {
      "entropy": 1.6500937740008037,
      "epoch": 1.5479662739282085,
      "grad_norm": 0.783412516117096,
      "learning_rate": 4.306948936376093e-06,
      "loss": 1.4475,
      "mean_token_accuracy": 0.6537269403537115,
      "num_tokens": 2363846696.0,
      "step": 14091
    },
    {
      "entropy": 1.7201881210009258,
      "epoch": 1.5480761308395814,
      "grad_norm": 0.6507890224456787,
      "learning_rate": 4.3058786167867505e-06,
      "loss": 1.349,
      "mean_token_accuracy": 0.6581819206476212,
      "num_tokens": 2364020827.0,
      "step": 14092
    },
    {
      "entropy": 1.702020267645518,
      "epoch": 1.5481859877509545,
      "grad_norm": 0.6586436033248901,
      "learning_rate": 4.304808509063335e-06,
      "loss": 1.4886,
      "mean_token_accuracy": 0.6433099905649821,
      "num_tokens": 2364256888.0,
      "step": 14093
    },
    {
      "entropy": 1.666669249534607,
      "epoch": 1.5482958446623272,
      "grad_norm": 0.7112491130828857,
      "learning_rate": 4.30373861323971e-06,
      "loss": 1.3181,
      "mean_token_accuracy": 0.6703788836797079,
      "num_tokens": 2364409964.0,
      "step": 14094
    },
    {
      "entropy": 1.702845573425293,
      "epoch": 1.5484057015737003,
      "grad_norm": 0.5408870577812195,
      "learning_rate": 4.302668929349742e-06,
      "loss": 1.4346,
      "mean_token_accuracy": 0.6451524297396342,
      "num_tokens": 2364604014.0,
      "step": 14095
    },
    {
      "entropy": 1.7024723092714946,
      "epoch": 1.5485155584850732,
      "grad_norm": 0.709581196308136,
      "learning_rate": 4.301599457427284e-06,
      "loss": 1.2413,
      "mean_token_accuracy": 0.6726260830958685,
      "num_tokens": 2364759857.0,
      "step": 14096
    },
    {
      "entropy": 1.6831977367401123,
      "epoch": 1.548625415396446,
      "grad_norm": 0.9029605388641357,
      "learning_rate": 4.300530197506187e-06,
      "loss": 1.4204,
      "mean_token_accuracy": 0.6639485061168671,
      "num_tokens": 2364941448.0,
      "step": 14097
    },
    {
      "entropy": 1.6596945226192474,
      "epoch": 1.5487352723078192,
      "grad_norm": 0.7375509142875671,
      "learning_rate": 4.299461149620289e-06,
      "loss": 1.2836,
      "mean_token_accuracy": 0.6749891887108485,
      "num_tokens": 2365057955.0,
      "step": 14098
    },
    {
      "entropy": 1.732172687848409,
      "epoch": 1.548845129219192,
      "grad_norm": 0.8708524107933044,
      "learning_rate": 4.298392313803423e-06,
      "loss": 1.6704,
      "mean_token_accuracy": 0.6292888720830282,
      "num_tokens": 2365272724.0,
      "step": 14099
    },
    {
      "entropy": 1.7026624778906505,
      "epoch": 1.548954986130565,
      "grad_norm": 0.6516265273094177,
      "learning_rate": 4.297323690089423e-06,
      "loss": 1.3864,
      "mean_token_accuracy": 0.6629829307397207,
      "num_tokens": 2365445475.0,
      "step": 14100
    },
    {
      "entropy": 1.757458617289861,
      "epoch": 1.549064843041938,
      "grad_norm": 0.6837176084518433,
      "learning_rate": 4.296255278512112e-06,
      "loss": 1.4276,
      "mean_token_accuracy": 0.6513576706250509,
      "num_tokens": 2365594575.0,
      "step": 14101
    },
    {
      "entropy": 1.6596699754397075,
      "epoch": 1.5491746999533107,
      "grad_norm": 0.7006385922431946,
      "learning_rate": 4.295187079105296e-06,
      "loss": 1.4615,
      "mean_token_accuracy": 0.6513244410355886,
      "num_tokens": 2365749946.0,
      "step": 14102
    },
    {
      "entropy": 1.7063644925753276,
      "epoch": 1.5492845568646838,
      "grad_norm": 0.712912917137146,
      "learning_rate": 4.294119091902786e-06,
      "loss": 1.4283,
      "mean_token_accuracy": 0.6631234188874563,
      "num_tokens": 2365907668.0,
      "step": 14103
    },
    {
      "entropy": 1.6990328629811604,
      "epoch": 1.5493944137760567,
      "grad_norm": 0.7050018310546875,
      "learning_rate": 4.293051316938389e-06,
      "loss": 1.2285,
      "mean_token_accuracy": 0.6825551042954127,
      "num_tokens": 2366041547.0,
      "step": 14104
    },
    {
      "entropy": 1.6146796643733978,
      "epoch": 1.5495042706874296,
      "grad_norm": 0.7505760192871094,
      "learning_rate": 4.291983754245895e-06,
      "loss": 1.3202,
      "mean_token_accuracy": 0.6715732961893082,
      "num_tokens": 2366209639.0,
      "step": 14105
    },
    {
      "entropy": 1.793668379386266,
      "epoch": 1.5496141275988027,
      "grad_norm": 0.7830557823181152,
      "learning_rate": 4.2909164038590915e-06,
      "loss": 1.3973,
      "mean_token_accuracy": 0.6473236183325449,
      "num_tokens": 2366333296.0,
      "step": 14106
    },
    {
      "entropy": 1.6847633024056752,
      "epoch": 1.5497239845101753,
      "grad_norm": 0.6471010446548462,
      "learning_rate": 4.289849265811761e-06,
      "loss": 1.3483,
      "mean_token_accuracy": 0.6691886434952418,
      "num_tokens": 2366478156.0,
      "step": 14107
    },
    {
      "entropy": 1.6979444523652394,
      "epoch": 1.5498338414215485,
      "grad_norm": 0.7506217360496521,
      "learning_rate": 4.288782340137675e-06,
      "loss": 1.3874,
      "mean_token_accuracy": 0.6577440400918325,
      "num_tokens": 2366636399.0,
      "step": 14108
    },
    {
      "entropy": 1.6835704545180004,
      "epoch": 1.5499436983329213,
      "grad_norm": 0.6772280931472778,
      "learning_rate": 4.287715626870609e-06,
      "loss": 1.318,
      "mean_token_accuracy": 0.6703698684771856,
      "num_tokens": 2366777293.0,
      "step": 14109
    },
    {
      "entropy": 1.716042975584666,
      "epoch": 1.5500535552442942,
      "grad_norm": 0.6948290467262268,
      "learning_rate": 4.286649126044316e-06,
      "loss": 1.5699,
      "mean_token_accuracy": 0.6452557643254598,
      "num_tokens": 2366963739.0,
      "step": 14110
    },
    {
      "entropy": 1.6994237899780273,
      "epoch": 1.5501634121556673,
      "grad_norm": 0.7720609307289124,
      "learning_rate": 4.2855828376925515e-06,
      "loss": 1.3042,
      "mean_token_accuracy": 0.6619250476360321,
      "num_tokens": 2367094397.0,
      "step": 14111
    },
    {
      "entropy": 1.7140393952528636,
      "epoch": 1.5502732690670402,
      "grad_norm": 0.6399521827697754,
      "learning_rate": 4.2845167618490645e-06,
      "loss": 1.4772,
      "mean_token_accuracy": 0.6374075512091318,
      "num_tokens": 2367332174.0,
      "step": 14112
    },
    {
      "entropy": 1.6940363347530365,
      "epoch": 1.550383125978413,
      "grad_norm": 0.723393976688385,
      "learning_rate": 4.283450898547601e-06,
      "loss": 1.3998,
      "mean_token_accuracy": 0.6478741665681204,
      "num_tokens": 2367479323.0,
      "step": 14113
    },
    {
      "entropy": 1.676634858051936,
      "epoch": 1.5504929828897862,
      "grad_norm": 0.724162220954895,
      "learning_rate": 4.282385247821886e-06,
      "loss": 1.234,
      "mean_token_accuracy": 0.6788554986317953,
      "num_tokens": 2367643037.0,
      "step": 14114
    },
    {
      "entropy": 1.6137764851252239,
      "epoch": 1.5506028398011589,
      "grad_norm": 0.7134261727333069,
      "learning_rate": 4.28131980970565e-06,
      "loss": 1.2265,
      "mean_token_accuracy": 0.682574192682902,
      "num_tokens": 2367828930.0,
      "step": 14115
    },
    {
      "entropy": 1.7493961155414581,
      "epoch": 1.550712696712532,
      "grad_norm": 0.6667389273643494,
      "learning_rate": 4.280254584232616e-06,
      "loss": 1.4779,
      "mean_token_accuracy": 0.6394469936688741,
      "num_tokens": 2368035180.0,
      "step": 14116
    },
    {
      "entropy": 1.6516866981983185,
      "epoch": 1.5508225536239049,
      "grad_norm": 0.7217621803283691,
      "learning_rate": 4.279189571436497e-06,
      "loss": 1.3961,
      "mean_token_accuracy": 0.6504537761211395,
      "num_tokens": 2368265315.0,
      "step": 14117
    },
    {
      "entropy": 1.720879077911377,
      "epoch": 1.5509324105352778,
      "grad_norm": 0.7750219702720642,
      "learning_rate": 4.2781247713509985e-06,
      "loss": 1.5135,
      "mean_token_accuracy": 0.6509824097156525,
      "num_tokens": 2368447962.0,
      "step": 14118
    },
    {
      "entropy": 1.7540039718151093,
      "epoch": 1.5510422674466509,
      "grad_norm": 0.768004834651947,
      "learning_rate": 4.2770601840098235e-06,
      "loss": 1.4708,
      "mean_token_accuracy": 0.664596493045489,
      "num_tokens": 2368632837.0,
      "step": 14119
    },
    {
      "entropy": 1.6874784628550212,
      "epoch": 1.5511521243580235,
      "grad_norm": 0.6328350305557251,
      "learning_rate": 4.275995809446661e-06,
      "loss": 1.3143,
      "mean_token_accuracy": 0.661526824037234,
      "num_tokens": 2368796121.0,
      "step": 14120
    },
    {
      "entropy": 1.7491315305233002,
      "epoch": 1.5512619812693966,
      "grad_norm": 0.6634995341300964,
      "learning_rate": 4.274931647695205e-06,
      "loss": 1.4015,
      "mean_token_accuracy": 0.6602429201205572,
      "num_tokens": 2368954333.0,
      "step": 14121
    },
    {
      "entropy": 1.7477340896924336,
      "epoch": 1.5513718381807695,
      "grad_norm": 0.8590699434280396,
      "learning_rate": 4.273867698789132e-06,
      "loss": 1.4338,
      "mean_token_accuracy": 0.6396941244602203,
      "num_tokens": 2369138689.0,
      "step": 14122
    },
    {
      "entropy": 1.671852171421051,
      "epoch": 1.5514816950921424,
      "grad_norm": 0.63103187084198,
      "learning_rate": 4.272803962762112e-06,
      "loss": 1.3111,
      "mean_token_accuracy": 0.6657995829979578,
      "num_tokens": 2369305079.0,
      "step": 14123
    },
    {
      "entropy": 1.6969023446242015,
      "epoch": 1.5515915520035155,
      "grad_norm": 0.8352360725402832,
      "learning_rate": 4.271740439647815e-06,
      "loss": 1.5118,
      "mean_token_accuracy": 0.6522821436325709,
      "num_tokens": 2369463395.0,
      "step": 14124
    },
    {
      "entropy": 1.7147069871425629,
      "epoch": 1.5517014089148884,
      "grad_norm": 0.714336097240448,
      "learning_rate": 4.270677129479908e-06,
      "loss": 1.3111,
      "mean_token_accuracy": 0.6640656888484955,
      "num_tokens": 2369580422.0,
      "step": 14125
    },
    {
      "entropy": 1.6699798206488292,
      "epoch": 1.5518112658262613,
      "grad_norm": 0.6139026284217834,
      "learning_rate": 4.2696140322920305e-06,
      "loss": 1.3299,
      "mean_token_accuracy": 0.6675732731819153,
      "num_tokens": 2369739830.0,
      "step": 14126
    },
    {
      "entropy": 1.642260581254959,
      "epoch": 1.5519211227376344,
      "grad_norm": 0.6656533479690552,
      "learning_rate": 4.268551148117836e-06,
      "loss": 1.4251,
      "mean_token_accuracy": 0.651205783089002,
      "num_tokens": 2369902180.0,
      "step": 14127
    },
    {
      "entropy": 1.6300160487492878,
      "epoch": 1.552030979649007,
      "grad_norm": 0.7406736612319946,
      "learning_rate": 4.26748847699097e-06,
      "loss": 1.4728,
      "mean_token_accuracy": 0.6558305223782858,
      "num_tokens": 2370101604.0,
      "step": 14128
    },
    {
      "entropy": 1.705411930878957,
      "epoch": 1.5521408365603802,
      "grad_norm": 0.6777219772338867,
      "learning_rate": 4.266426018945058e-06,
      "loss": 1.3698,
      "mean_token_accuracy": 0.6538793096939722,
      "num_tokens": 2370260513.0,
      "step": 14129
    },
    {
      "entropy": 1.6665898859500885,
      "epoch": 1.552250693471753,
      "grad_norm": 0.7032326459884644,
      "learning_rate": 4.265363774013724e-06,
      "loss": 1.4292,
      "mean_token_accuracy": 0.6513901352882385,
      "num_tokens": 2370418589.0,
      "step": 14130
    },
    {
      "entropy": 1.7191846172014873,
      "epoch": 1.552360550383126,
      "grad_norm": 0.6671421527862549,
      "learning_rate": 4.264301742230597e-06,
      "loss": 1.4887,
      "mean_token_accuracy": 0.6549615909655889,
      "num_tokens": 2370593404.0,
      "step": 14131
    },
    {
      "entropy": 1.7173360486825306,
      "epoch": 1.552470407294499,
      "grad_norm": 0.7962349057197571,
      "learning_rate": 4.263239923629281e-06,
      "loss": 1.4229,
      "mean_token_accuracy": 0.6445601582527161,
      "num_tokens": 2370764543.0,
      "step": 14132
    },
    {
      "entropy": 1.7082890371481578,
      "epoch": 1.5525802642058717,
      "grad_norm": 0.8383502960205078,
      "learning_rate": 4.262178318243388e-06,
      "loss": 1.1737,
      "mean_token_accuracy": 0.6861835420131683,
      "num_tokens": 2370883229.0,
      "step": 14133
    },
    {
      "entropy": 1.7188211580117543,
      "epoch": 1.5526901211172448,
      "grad_norm": 0.7299179434776306,
      "learning_rate": 4.261116926106516e-06,
      "loss": 1.3521,
      "mean_token_accuracy": 0.6593069980541865,
      "num_tokens": 2371046757.0,
      "step": 14134
    },
    {
      "entropy": 1.6964614987373352,
      "epoch": 1.5527999780286177,
      "grad_norm": 0.7393060326576233,
      "learning_rate": 4.260055747252254e-06,
      "loss": 1.5476,
      "mean_token_accuracy": 0.6422794361909231,
      "num_tokens": 2371236555.0,
      "step": 14135
    },
    {
      "entropy": 1.7541022598743439,
      "epoch": 1.5529098349399906,
      "grad_norm": 0.753736674785614,
      "learning_rate": 4.25899478171419e-06,
      "loss": 1.4018,
      "mean_token_accuracy": 0.6527466426293055,
      "num_tokens": 2371417078.0,
      "step": 14136
    },
    {
      "entropy": 1.7315999070803325,
      "epoch": 1.5530196918513637,
      "grad_norm": 2.197566270828247,
      "learning_rate": 4.25793402952591e-06,
      "loss": 1.1632,
      "mean_token_accuracy": 0.6761045108238856,
      "num_tokens": 2371602729.0,
      "step": 14137
    },
    {
      "entropy": 1.7214235365390778,
      "epoch": 1.5531295487627366,
      "grad_norm": 0.764700710773468,
      "learning_rate": 4.256873490720973e-06,
      "loss": 1.6514,
      "mean_token_accuracy": 0.631921668847402,
      "num_tokens": 2371808926.0,
      "step": 14138
    },
    {
      "entropy": 1.7141134142875671,
      "epoch": 1.5532394056741095,
      "grad_norm": 0.5947176814079285,
      "learning_rate": 4.2558131653329544e-06,
      "loss": 1.3755,
      "mean_token_accuracy": 0.6477245340744654,
      "num_tokens": 2372023718.0,
      "step": 14139
    },
    {
      "entropy": 1.692691445350647,
      "epoch": 1.5533492625854826,
      "grad_norm": 0.6217459440231323,
      "learning_rate": 4.254753053395409e-06,
      "loss": 1.3618,
      "mean_token_accuracy": 0.6693163911501566,
      "num_tokens": 2372178895.0,
      "step": 14140
    },
    {
      "entropy": 1.7047333717346191,
      "epoch": 1.5534591194968552,
      "grad_norm": 0.6178786158561707,
      "learning_rate": 4.2536931549418904e-06,
      "loss": 1.4113,
      "mean_token_accuracy": 0.6456644187370936,
      "num_tokens": 2372352839.0,
      "step": 14141
    },
    {
      "entropy": 1.6846307615439098,
      "epoch": 1.5535689764082283,
      "grad_norm": 0.6864225268363953,
      "learning_rate": 4.252633470005945e-06,
      "loss": 1.3063,
      "mean_token_accuracy": 0.6656875361998876,
      "num_tokens": 2372488611.0,
      "step": 14142
    },
    {
      "entropy": 1.7061450779438019,
      "epoch": 1.5536788333196012,
      "grad_norm": 0.6568386554718018,
      "learning_rate": 4.2515739986211055e-06,
      "loss": 1.6754,
      "mean_token_accuracy": 0.6310825794935226,
      "num_tokens": 2372678594.0,
      "step": 14143
    },
    {
      "entropy": 1.6643461883068085,
      "epoch": 1.553788690230974,
      "grad_norm": 0.5872832536697388,
      "learning_rate": 4.25051474082091e-06,
      "loss": 1.4162,
      "mean_token_accuracy": 0.6413596421480179,
      "num_tokens": 2372892692.0,
      "step": 14144
    },
    {
      "entropy": 1.7513802250226338,
      "epoch": 1.5538985471423472,
      "grad_norm": 0.6232224702835083,
      "learning_rate": 4.249455696638883e-06,
      "loss": 1.2908,
      "mean_token_accuracy": 0.6734890739123026,
      "num_tokens": 2373012728.0,
      "step": 14145
    },
    {
      "entropy": 1.7303274869918823,
      "epoch": 1.5540084040537199,
      "grad_norm": 0.7580487728118896,
      "learning_rate": 4.248396866108543e-06,
      "loss": 1.3061,
      "mean_token_accuracy": 0.6751085370779037,
      "num_tokens": 2373133773.0,
      "step": 14146
    },
    {
      "entropy": 1.7423675457636516,
      "epoch": 1.554118260965093,
      "grad_norm": 0.7742456197738647,
      "learning_rate": 4.247338249263395e-06,
      "loss": 1.3927,
      "mean_token_accuracy": 0.6640025774637858,
      "num_tokens": 2373288121.0,
      "step": 14147
    },
    {
      "entropy": 1.7087977528572083,
      "epoch": 1.5542281178764659,
      "grad_norm": 0.6881621479988098,
      "learning_rate": 4.246279846136953e-06,
      "loss": 1.3576,
      "mean_token_accuracy": 0.6579535851875941,
      "num_tokens": 2373465928.0,
      "step": 14148
    },
    {
      "entropy": 1.7393077313899994,
      "epoch": 1.5543379747878387,
      "grad_norm": 0.7589281797409058,
      "learning_rate": 4.24522165676271e-06,
      "loss": 1.6051,
      "mean_token_accuracy": 0.6269615292549133,
      "num_tokens": 2373690820.0,
      "step": 14149
    },
    {
      "entropy": 1.690729945898056,
      "epoch": 1.5544478316992119,
      "grad_norm": 0.6652538776397705,
      "learning_rate": 4.244163681174155e-06,
      "loss": 1.266,
      "mean_token_accuracy": 0.6762543171644211,
      "num_tokens": 2373802485.0,
      "step": 14150
    },
    {
      "entropy": 1.6694500545660655,
      "epoch": 1.5545576886105847,
      "grad_norm": 0.6579715013504028,
      "learning_rate": 4.243105919404778e-06,
      "loss": 1.298,
      "mean_token_accuracy": 0.6703143616517385,
      "num_tokens": 2373952556.0,
      "step": 14151
    },
    {
      "entropy": 1.678593675295512,
      "epoch": 1.5546675455219576,
      "grad_norm": 0.6812438368797302,
      "learning_rate": 4.2420483714880515e-06,
      "loss": 1.3788,
      "mean_token_accuracy": 0.6640019963184992,
      "num_tokens": 2374097793.0,
      "step": 14152
    },
    {
      "entropy": 1.6968460778395336,
      "epoch": 1.5547774024333307,
      "grad_norm": 0.6862781047821045,
      "learning_rate": 4.2409910374574504e-06,
      "loss": 1.4078,
      "mean_token_accuracy": 0.6522165536880493,
      "num_tokens": 2374255586.0,
      "step": 14153
    },
    {
      "entropy": 1.7099703550338745,
      "epoch": 1.5548872593447034,
      "grad_norm": 0.6841778755187988,
      "learning_rate": 4.239933917346437e-06,
      "loss": 1.4141,
      "mean_token_accuracy": 0.6437595734993616,
      "num_tokens": 2374450111.0,
      "step": 14154
    },
    {
      "entropy": 1.8270711302757263,
      "epoch": 1.5549971162560765,
      "grad_norm": 1.8875739574432373,
      "learning_rate": 4.238877011188468e-06,
      "loss": 1.5367,
      "mean_token_accuracy": 0.6540461281935374,
      "num_tokens": 2374596550.0,
      "step": 14155
    },
    {
      "entropy": 1.6991891662279766,
      "epoch": 1.5551069731674494,
      "grad_norm": 1.2882972955703735,
      "learning_rate": 4.237820319016994e-06,
      "loss": 1.2703,
      "mean_token_accuracy": 0.6688820570707321,
      "num_tokens": 2374811196.0,
      "step": 14156
    },
    {
      "entropy": 1.7167048652966816,
      "epoch": 1.5552168300788223,
      "grad_norm": 0.5811730027198792,
      "learning_rate": 4.236763840865467e-06,
      "loss": 1.508,
      "mean_token_accuracy": 0.6333837409814199,
      "num_tokens": 2375025686.0,
      "step": 14157
    },
    {
      "entropy": 1.677632709344228,
      "epoch": 1.5553266869901954,
      "grad_norm": 0.5716765522956848,
      "learning_rate": 4.23570757676731e-06,
      "loss": 1.3812,
      "mean_token_accuracy": 0.6522747029860815,
      "num_tokens": 2375216440.0,
      "step": 14158
    },
    {
      "entropy": 1.708607812722524,
      "epoch": 1.555436543901568,
      "grad_norm": 0.7346358299255371,
      "learning_rate": 4.23465152675596e-06,
      "loss": 1.4194,
      "mean_token_accuracy": 0.6497345666090647,
      "num_tokens": 2375379987.0,
      "step": 14159
    },
    {
      "entropy": 1.6388816436131795,
      "epoch": 1.5555464008129412,
      "grad_norm": 0.7345917820930481,
      "learning_rate": 4.2335956908648425e-06,
      "loss": 1.2366,
      "mean_token_accuracy": 0.6748053133487701,
      "num_tokens": 2375590298.0,
      "step": 14160
    },
    {
      "entropy": 1.7384839057922363,
      "epoch": 1.555656257724314,
      "grad_norm": 0.6710056066513062,
      "learning_rate": 4.2325400691273735e-06,
      "loss": 1.5245,
      "mean_token_accuracy": 0.6526643683513006,
      "num_tokens": 2375744576.0,
      "step": 14161
    },
    {
      "entropy": 1.6977645556132,
      "epoch": 1.555766114635687,
      "grad_norm": 0.635971188545227,
      "learning_rate": 4.231484661576959e-06,
      "loss": 1.3574,
      "mean_token_accuracy": 0.6610794266064962,
      "num_tokens": 2375881526.0,
      "step": 14162
    },
    {
      "entropy": 1.6987218856811523,
      "epoch": 1.55587597154706,
      "grad_norm": 0.6726696491241455,
      "learning_rate": 4.2304294682470074e-06,
      "loss": 1.2988,
      "mean_token_accuracy": 0.673176700870196,
      "num_tokens": 2376011240.0,
      "step": 14163
    },
    {
      "entropy": 1.6941667199134827,
      "epoch": 1.555985828458433,
      "grad_norm": 0.7962403297424316,
      "learning_rate": 4.22937448917091e-06,
      "loss": 1.2457,
      "mean_token_accuracy": 0.6745900958776474,
      "num_tokens": 2376165761.0,
      "step": 14164
    },
    {
      "entropy": 1.6965778370698292,
      "epoch": 1.5560956853698058,
      "grad_norm": 0.6440910696983337,
      "learning_rate": 4.228319724382062e-06,
      "loss": 1.5532,
      "mean_token_accuracy": 0.644252801934878,
      "num_tokens": 2376349498.0,
      "step": 14165
    },
    {
      "entropy": 1.7470646401246388,
      "epoch": 1.556205542281179,
      "grad_norm": 0.789556086063385,
      "learning_rate": 4.227265173913843e-06,
      "loss": 1.4675,
      "mean_token_accuracy": 0.6519816418488821,
      "num_tokens": 2376516296.0,
      "step": 14166
    },
    {
      "entropy": 1.7214811444282532,
      "epoch": 1.5563153991925516,
      "grad_norm": 0.62434321641922,
      "learning_rate": 4.226210837799627e-06,
      "loss": 1.4814,
      "mean_token_accuracy": 0.6433521310488383,
      "num_tokens": 2376722817.0,
      "step": 14167
    },
    {
      "entropy": 1.684100478887558,
      "epoch": 1.5564252561039247,
      "grad_norm": 0.7984063029289246,
      "learning_rate": 4.2251567160727855e-06,
      "loss": 1.3731,
      "mean_token_accuracy": 0.6490538815657297,
      "num_tokens": 2376895776.0,
      "step": 14168
    },
    {
      "entropy": 1.7043040891488392,
      "epoch": 1.5565351130152976,
      "grad_norm": 0.6661989092826843,
      "learning_rate": 4.224102808766687e-06,
      "loss": 1.381,
      "mean_token_accuracy": 0.6549601207176844,
      "num_tokens": 2377035427.0,
      "step": 14169
    },
    {
      "entropy": 1.725882242123286,
      "epoch": 1.5566449699266705,
      "grad_norm": 0.6910036206245422,
      "learning_rate": 4.223049115914676e-06,
      "loss": 1.567,
      "mean_token_accuracy": 0.6483024209737778,
      "num_tokens": 2377217821.0,
      "step": 14170
    },
    {
      "entropy": 1.665495256582896,
      "epoch": 1.5567548268380436,
      "grad_norm": 0.5861942172050476,
      "learning_rate": 4.221995637550106e-06,
      "loss": 1.4559,
      "mean_token_accuracy": 0.6493095854918162,
      "num_tokens": 2377446515.0,
      "step": 14171
    },
    {
      "entropy": 1.7102225919564564,
      "epoch": 1.5568646837494162,
      "grad_norm": 0.8284782767295837,
      "learning_rate": 4.220942373706323e-06,
      "loss": 1.524,
      "mean_token_accuracy": 0.6480698237816492,
      "num_tokens": 2377592535.0,
      "step": 14172
    },
    {
      "entropy": 1.6960971355438232,
      "epoch": 1.5569745406607893,
      "grad_norm": 0.5749043822288513,
      "learning_rate": 4.219889324416659e-06,
      "loss": 1.4179,
      "mean_token_accuracy": 0.6462828616301218,
      "num_tokens": 2377780665.0,
      "step": 14173
    },
    {
      "entropy": 1.7206454773743947,
      "epoch": 1.5570843975721622,
      "grad_norm": 0.6680061221122742,
      "learning_rate": 4.218836489714439e-06,
      "loss": 1.3162,
      "mean_token_accuracy": 0.6785482615232468,
      "num_tokens": 2377910201.0,
      "step": 14174
    },
    {
      "entropy": 1.6479010879993439,
      "epoch": 1.557194254483535,
      "grad_norm": 0.6720148921012878,
      "learning_rate": 4.217783869632992e-06,
      "loss": 1.3067,
      "mean_token_accuracy": 0.6648319562276205,
      "num_tokens": 2378062830.0,
      "step": 14175
    },
    {
      "entropy": 1.6538492143154144,
      "epoch": 1.5573041113949082,
      "grad_norm": 0.6240495443344116,
      "learning_rate": 4.216731464205627e-06,
      "loss": 1.5057,
      "mean_token_accuracy": 0.6449542989333471,
      "num_tokens": 2378278509.0,
      "step": 14176
    },
    {
      "entropy": 1.6563106775283813,
      "epoch": 1.557413968306281,
      "grad_norm": 0.6286166906356812,
      "learning_rate": 4.215679273465657e-06,
      "loss": 1.374,
      "mean_token_accuracy": 0.6685599933067957,
      "num_tokens": 2378484457.0,
      "step": 14177
    },
    {
      "entropy": 1.7658939957618713,
      "epoch": 1.557523825217654,
      "grad_norm": 0.7517053484916687,
      "learning_rate": 4.214627297446381e-06,
      "loss": 1.3914,
      "mean_token_accuracy": 0.6562267889579138,
      "num_tokens": 2378641243.0,
      "step": 14178
    },
    {
      "entropy": 1.7408847510814667,
      "epoch": 1.557633682129027,
      "grad_norm": 0.7769100666046143,
      "learning_rate": 4.2135755361810905e-06,
      "loss": 1.4162,
      "mean_token_accuracy": 0.6557272672653198,
      "num_tokens": 2378783586.0,
      "step": 14179
    },
    {
      "entropy": 1.634146640698115,
      "epoch": 1.5577435390403997,
      "grad_norm": 0.695136547088623,
      "learning_rate": 4.212523989703077e-06,
      "loss": 1.3489,
      "mean_token_accuracy": 0.6566696465015411,
      "num_tokens": 2378935922.0,
      "step": 14180
    },
    {
      "entropy": 1.7598876059055328,
      "epoch": 1.5578533959517729,
      "grad_norm": 0.7562305331230164,
      "learning_rate": 4.211472658045625e-06,
      "loss": 1.368,
      "mean_token_accuracy": 0.6584480106830597,
      "num_tokens": 2379071944.0,
      "step": 14181
    },
    {
      "entropy": 1.6786730587482452,
      "epoch": 1.5579632528631457,
      "grad_norm": 0.6836439371109009,
      "learning_rate": 4.210421541242e-06,
      "loss": 1.4001,
      "mean_token_accuracy": 0.6513353139162064,
      "num_tokens": 2379284248.0,
      "step": 14182
    },
    {
      "entropy": 1.6920330325762432,
      "epoch": 1.5580731097745186,
      "grad_norm": 0.9302690029144287,
      "learning_rate": 4.209370639325473e-06,
      "loss": 1.6559,
      "mean_token_accuracy": 0.6281924843788147,
      "num_tokens": 2379450051.0,
      "step": 14183
    },
    {
      "entropy": 1.6634094417095184,
      "epoch": 1.5581829666858917,
      "grad_norm": 0.6819601655006409,
      "learning_rate": 4.208319952329308e-06,
      "loss": 1.4073,
      "mean_token_accuracy": 0.6675108969211578,
      "num_tokens": 2379644676.0,
      "step": 14184
    },
    {
      "entropy": 1.8039693931738536,
      "epoch": 1.5582928235972644,
      "grad_norm": 0.7473592758178711,
      "learning_rate": 4.207269480286757e-06,
      "loss": 1.52,
      "mean_token_accuracy": 0.6487270295619965,
      "num_tokens": 2379777755.0,
      "step": 14185
    },
    {
      "entropy": 1.8343103528022766,
      "epoch": 1.5584026805086375,
      "grad_norm": 0.7583062648773193,
      "learning_rate": 4.2062192232310626e-06,
      "loss": 1.5376,
      "mean_token_accuracy": 0.6354842483997345,
      "num_tokens": 2379973389.0,
      "step": 14186
    },
    {
      "entropy": 1.6272041896979015,
      "epoch": 1.5585125374200104,
      "grad_norm": 0.6743770837783813,
      "learning_rate": 4.205169181195471e-06,
      "loss": 1.2484,
      "mean_token_accuracy": 0.672362208366394,
      "num_tokens": 2380116473.0,
      "step": 14187
    },
    {
      "entropy": 1.7308520078659058,
      "epoch": 1.5586223943313833,
      "grad_norm": 0.7099290490150452,
      "learning_rate": 4.204119354213211e-06,
      "loss": 1.4756,
      "mean_token_accuracy": 0.6549335817495981,
      "num_tokens": 2380265493.0,
      "step": 14188
    },
    {
      "entropy": 1.6808405816555023,
      "epoch": 1.5587322512427564,
      "grad_norm": 0.6774865984916687,
      "learning_rate": 4.203069742317514e-06,
      "loss": 1.4098,
      "mean_token_accuracy": 0.6618853112061819,
      "num_tokens": 2380433799.0,
      "step": 14189
    },
    {
      "entropy": 1.792554259300232,
      "epoch": 1.5588421081541293,
      "grad_norm": 0.7282685041427612,
      "learning_rate": 4.202020345541596e-06,
      "loss": 1.3166,
      "mean_token_accuracy": 0.6641228546698889,
      "num_tokens": 2380605424.0,
      "step": 14190
    },
    {
      "entropy": 1.718471388022105,
      "epoch": 1.5589519650655022,
      "grad_norm": 0.6723158359527588,
      "learning_rate": 4.200971163918669e-06,
      "loss": 1.3729,
      "mean_token_accuracy": 0.6559204707543055,
      "num_tokens": 2380791222.0,
      "step": 14191
    },
    {
      "entropy": 1.7398603161176045,
      "epoch": 1.5590618219768753,
      "grad_norm": 0.7290942668914795,
      "learning_rate": 4.199922197481939e-06,
      "loss": 1.3562,
      "mean_token_accuracy": 0.6515438904364904,
      "num_tokens": 2380945915.0,
      "step": 14192
    },
    {
      "entropy": 1.7121857802073162,
      "epoch": 1.559171678888248,
      "grad_norm": 0.6564915180206299,
      "learning_rate": 4.198873446264615e-06,
      "loss": 1.4534,
      "mean_token_accuracy": 0.6428688168525696,
      "num_tokens": 2381107747.0,
      "step": 14193
    },
    {
      "entropy": 1.7519804040590923,
      "epoch": 1.559281535799621,
      "grad_norm": 0.764492392539978,
      "learning_rate": 4.197824910299875e-06,
      "loss": 1.3467,
      "mean_token_accuracy": 0.6621157228946686,
      "num_tokens": 2381225043.0,
      "step": 14194
    },
    {
      "entropy": 1.6727059384187062,
      "epoch": 1.559391392710994,
      "grad_norm": 0.6586747169494629,
      "learning_rate": 4.1967765896209115e-06,
      "loss": 1.3698,
      "mean_token_accuracy": 0.6521917631228765,
      "num_tokens": 2381386769.0,
      "step": 14195
    },
    {
      "entropy": 1.7378324270248413,
      "epoch": 1.5595012496223668,
      "grad_norm": 0.7085768580436707,
      "learning_rate": 4.195728484260906e-06,
      "loss": 1.2976,
      "mean_token_accuracy": 0.6643084188302358,
      "num_tokens": 2381524930.0,
      "step": 14196
    },
    {
      "entropy": 1.6326094667116802,
      "epoch": 1.55961110653374,
      "grad_norm": 1.9627199172973633,
      "learning_rate": 4.19468059425303e-06,
      "loss": 1.4151,
      "mean_token_accuracy": 0.6560747673114141,
      "num_tokens": 2381764868.0,
      "step": 14197
    },
    {
      "entropy": 1.6878510216871898,
      "epoch": 1.5597209634451128,
      "grad_norm": 0.5996699333190918,
      "learning_rate": 4.193632919630441e-06,
      "loss": 1.3121,
      "mean_token_accuracy": 0.6628714253505071,
      "num_tokens": 2381931844.0,
      "step": 14198
    },
    {
      "entropy": 1.6812229951222737,
      "epoch": 1.5598308203564857,
      "grad_norm": 0.7253499627113342,
      "learning_rate": 4.192585460426307e-06,
      "loss": 1.3634,
      "mean_token_accuracy": 0.6608059406280518,
      "num_tokens": 2382152497.0,
      "step": 14199
    },
    {
      "entropy": 1.7064985831578572,
      "epoch": 1.5599406772678586,
      "grad_norm": 0.7470372915267944,
      "learning_rate": 4.191538216673774e-06,
      "loss": 1.3977,
      "mean_token_accuracy": 0.6608186711867651,
      "num_tokens": 2382323536.0,
      "step": 14200
    },
    {
      "entropy": 1.704755167166392,
      "epoch": 1.5600505341792315,
      "grad_norm": 0.665684700012207,
      "learning_rate": 4.190491188405989e-06,
      "loss": 1.5564,
      "mean_token_accuracy": 0.6435166969895363,
      "num_tokens": 2382522953.0,
      "step": 14201
    },
    {
      "entropy": 1.6741365194320679,
      "epoch": 1.5601603910906046,
      "grad_norm": 0.6628307104110718,
      "learning_rate": 4.189444375656091e-06,
      "loss": 1.4985,
      "mean_token_accuracy": 0.6512368569771448,
      "num_tokens": 2382704610.0,
      "step": 14202
    },
    {
      "entropy": 1.6700753569602966,
      "epoch": 1.5602702480019774,
      "grad_norm": 0.678337812423706,
      "learning_rate": 4.188397778457207e-06,
      "loss": 1.4405,
      "mean_token_accuracy": 0.6458247303962708,
      "num_tokens": 2382894458.0,
      "step": 14203
    },
    {
      "entropy": 1.6928566992282867,
      "epoch": 1.5603801049133503,
      "grad_norm": 0.7208871841430664,
      "learning_rate": 4.187351396842466e-06,
      "loss": 1.2387,
      "mean_token_accuracy": 0.6764888813098272,
      "num_tokens": 2383057750.0,
      "step": 14204
    },
    {
      "entropy": 1.670570929845174,
      "epoch": 1.5604899618247234,
      "grad_norm": 0.6567087173461914,
      "learning_rate": 4.186305230844984e-06,
      "loss": 1.3304,
      "mean_token_accuracy": 0.6640313764413198,
      "num_tokens": 2383237390.0,
      "step": 14205
    },
    {
      "entropy": 1.7132259011268616,
      "epoch": 1.560599818736096,
      "grad_norm": 0.7733318209648132,
      "learning_rate": 4.185259280497867e-06,
      "loss": 1.4444,
      "mean_token_accuracy": 0.6487619827191035,
      "num_tokens": 2383433523.0,
      "step": 14206
    },
    {
      "entropy": 1.7129162947336833,
      "epoch": 1.5607096756474692,
      "grad_norm": 0.8005481362342834,
      "learning_rate": 4.184213545834227e-06,
      "loss": 1.2981,
      "mean_token_accuracy": 0.6748090038696924,
      "num_tokens": 2383559455.0,
      "step": 14207
    },
    {
      "entropy": 1.720715989669164,
      "epoch": 1.560819532558842,
      "grad_norm": 0.7148941159248352,
      "learning_rate": 4.183168026887154e-06,
      "loss": 1.5122,
      "mean_token_accuracy": 0.6497367918491364,
      "num_tokens": 2383724385.0,
      "step": 14208
    },
    {
      "entropy": 1.647435188293457,
      "epoch": 1.560929389470215,
      "grad_norm": 0.5823018550872803,
      "learning_rate": 4.1821227236897445e-06,
      "loss": 1.3786,
      "mean_token_accuracy": 0.6537514179944992,
      "num_tokens": 2383964981.0,
      "step": 14209
    },
    {
      "entropy": 1.6917157073815663,
      "epoch": 1.561039246381588,
      "grad_norm": 0.6810054779052734,
      "learning_rate": 4.1810776362750785e-06,
      "loss": 1.4568,
      "mean_token_accuracy": 0.6532232761383057,
      "num_tokens": 2384142302.0,
      "step": 14210
    },
    {
      "entropy": 1.7271502912044525,
      "epoch": 1.561149103292961,
      "grad_norm": 0.7245599627494812,
      "learning_rate": 4.180032764676228e-06,
      "loss": 1.3084,
      "mean_token_accuracy": 0.6805372933546702,
      "num_tokens": 2384268777.0,
      "step": 14211
    },
    {
      "entropy": 1.7125717997550964,
      "epoch": 1.5612589602043339,
      "grad_norm": 0.6059805750846863,
      "learning_rate": 4.178988108926269e-06,
      "loss": 1.4136,
      "mean_token_accuracy": 0.6488851606845856,
      "num_tokens": 2384458391.0,
      "step": 14212
    },
    {
      "entropy": 1.7332377235094707,
      "epoch": 1.5613688171157067,
      "grad_norm": 0.633551299571991,
      "learning_rate": 4.177943669058267e-06,
      "loss": 1.4808,
      "mean_token_accuracy": 0.6372072199980418,
      "num_tokens": 2384688739.0,
      "step": 14213
    },
    {
      "entropy": 1.7179057399431865,
      "epoch": 1.5614786740270796,
      "grad_norm": 0.6609451174736023,
      "learning_rate": 4.176899445105271e-06,
      "loss": 1.4831,
      "mean_token_accuracy": 0.6471300423145294,
      "num_tokens": 2384873167.0,
      "step": 14214
    },
    {
      "entropy": 1.672248860200246,
      "epoch": 1.5615885309384527,
      "grad_norm": 0.6449457406997681,
      "learning_rate": 4.175855437100331e-06,
      "loss": 1.2892,
      "mean_token_accuracy": 0.6665244797865549,
      "num_tokens": 2385012942.0,
      "step": 14215
    },
    {
      "entropy": 1.6491312483946483,
      "epoch": 1.5616983878498256,
      "grad_norm": 0.7436006665229797,
      "learning_rate": 4.174811645076494e-06,
      "loss": 1.5262,
      "mean_token_accuracy": 0.6568896919488907,
      "num_tokens": 2385161630.0,
      "step": 14216
    },
    {
      "entropy": 1.7142470479011536,
      "epoch": 1.5618082447611985,
      "grad_norm": 0.732032060623169,
      "learning_rate": 4.1737680690667935e-06,
      "loss": 1.3078,
      "mean_token_accuracy": 0.6583902637163798,
      "num_tokens": 2385282234.0,
      "step": 14217
    },
    {
      "entropy": 1.6656326552232106,
      "epoch": 1.5619181016725716,
      "grad_norm": 0.6994863152503967,
      "learning_rate": 4.172724709104256e-06,
      "loss": 1.4121,
      "mean_token_accuracy": 0.6581338991721472,
      "num_tokens": 2385490081.0,
      "step": 14218
    },
    {
      "entropy": 1.7145332098007202,
      "epoch": 1.5620279585839443,
      "grad_norm": 0.7812539339065552,
      "learning_rate": 4.171681565221905e-06,
      "loss": 1.4355,
      "mean_token_accuracy": 0.6510881582895914,
      "num_tokens": 2385658398.0,
      "step": 14219
    },
    {
      "entropy": 1.6682457625865936,
      "epoch": 1.5621378154953174,
      "grad_norm": 0.8907629251480103,
      "learning_rate": 4.170638637452755e-06,
      "loss": 1.455,
      "mean_token_accuracy": 0.6465255270401636,
      "num_tokens": 2385858820.0,
      "step": 14220
    },
    {
      "entropy": 1.6630571881930034,
      "epoch": 1.5622476724066903,
      "grad_norm": 0.7714592814445496,
      "learning_rate": 4.1695959258298155e-06,
      "loss": 1.2204,
      "mean_token_accuracy": 0.6844823310772578,
      "num_tokens": 2386000558.0,
      "step": 14221
    },
    {
      "entropy": 1.7163423299789429,
      "epoch": 1.5623575293180632,
      "grad_norm": 0.7476485371589661,
      "learning_rate": 4.1685534303860895e-06,
      "loss": 1.4154,
      "mean_token_accuracy": 0.6500615924596786,
      "num_tokens": 2386147024.0,
      "step": 14222
    },
    {
      "entropy": 1.7059412399927776,
      "epoch": 1.5624673862294363,
      "grad_norm": 0.7124969959259033,
      "learning_rate": 4.1675111511545655e-06,
      "loss": 1.2981,
      "mean_token_accuracy": 0.6605760852495829,
      "num_tokens": 2386304325.0,
      "step": 14223
    },
    {
      "entropy": 1.7372475763161976,
      "epoch": 1.5625772431408091,
      "grad_norm": 0.6242848038673401,
      "learning_rate": 4.166469088168235e-06,
      "loss": 1.3766,
      "mean_token_accuracy": 0.6519166280825933,
      "num_tokens": 2386470095.0,
      "step": 14224
    },
    {
      "entropy": 1.7890447576840718,
      "epoch": 1.562687100052182,
      "grad_norm": 0.9228449463844299,
      "learning_rate": 4.16542724146008e-06,
      "loss": 1.5208,
      "mean_token_accuracy": 0.6443865299224854,
      "num_tokens": 2386662952.0,
      "step": 14225
    },
    {
      "entropy": 1.7128015756607056,
      "epoch": 1.562796956963555,
      "grad_norm": 0.585515022277832,
      "learning_rate": 4.164385611063074e-06,
      "loss": 1.3964,
      "mean_token_accuracy": 0.645780528585116,
      "num_tokens": 2386869100.0,
      "step": 14226
    },
    {
      "entropy": 1.6932969292004902,
      "epoch": 1.5629068138749278,
      "grad_norm": 0.6653163433074951,
      "learning_rate": 4.163344197010181e-06,
      "loss": 1.3276,
      "mean_token_accuracy": 0.674016997218132,
      "num_tokens": 2387014196.0,
      "step": 14227
    },
    {
      "entropy": 1.7202288210391998,
      "epoch": 1.563016670786301,
      "grad_norm": 0.7792028784751892,
      "learning_rate": 4.162302999334366e-06,
      "loss": 1.3553,
      "mean_token_accuracy": 0.6684650580088297,
      "num_tokens": 2387133483.0,
      "step": 14228
    },
    {
      "entropy": 1.6807933350404103,
      "epoch": 1.5631265276976738,
      "grad_norm": 0.6629685759544373,
      "learning_rate": 4.1612620180685795e-06,
      "loss": 1.5153,
      "mean_token_accuracy": 0.6433508296807607,
      "num_tokens": 2387302924.0,
      "step": 14229
    },
    {
      "entropy": 1.690634439388911,
      "epoch": 1.5632363846090467,
      "grad_norm": 0.6891497373580933,
      "learning_rate": 4.160221253245765e-06,
      "loss": 1.2502,
      "mean_token_accuracy": 0.6735278566678365,
      "num_tokens": 2387484689.0,
      "step": 14230
    },
    {
      "entropy": 1.7032279173533122,
      "epoch": 1.5633462415204198,
      "grad_norm": 0.6984847784042358,
      "learning_rate": 4.15918070489887e-06,
      "loss": 1.3396,
      "mean_token_accuracy": 0.6606222689151764,
      "num_tokens": 2387626318.0,
      "step": 14231
    },
    {
      "entropy": 1.678362290064494,
      "epoch": 1.5634560984317925,
      "grad_norm": 0.6913422346115112,
      "learning_rate": 4.1581403730608185e-06,
      "loss": 1.3096,
      "mean_token_accuracy": 0.6657731880744299,
      "num_tokens": 2387753790.0,
      "step": 14232
    },
    {
      "entropy": 1.6654574970404308,
      "epoch": 1.5635659553431656,
      "grad_norm": 0.8690144419670105,
      "learning_rate": 4.157100257764545e-06,
      "loss": 1.5989,
      "mean_token_accuracy": 0.6529507786035538,
      "num_tokens": 2387921051.0,
      "step": 14233
    },
    {
      "entropy": 1.715543528397878,
      "epoch": 1.5636758122545384,
      "grad_norm": 0.6697078347206116,
      "learning_rate": 4.156060359042966e-06,
      "loss": 1.4025,
      "mean_token_accuracy": 0.6578785429398218,
      "num_tokens": 2388071690.0,
      "step": 14234
    },
    {
      "entropy": 1.66527725259463,
      "epoch": 1.5637856691659113,
      "grad_norm": 0.7394384145736694,
      "learning_rate": 4.1550206769289885e-06,
      "loss": 1.3616,
      "mean_token_accuracy": 0.6681285699208578,
      "num_tokens": 2388294674.0,
      "step": 14235
    },
    {
      "entropy": 1.7145603199799855,
      "epoch": 1.5638955260772844,
      "grad_norm": 0.7570204734802246,
      "learning_rate": 4.1539812114555225e-06,
      "loss": 1.4025,
      "mean_token_accuracy": 0.6636460820833842,
      "num_tokens": 2388439276.0,
      "step": 14236
    },
    {
      "entropy": 1.624147782723109,
      "epoch": 1.5640053829886573,
      "grad_norm": 0.6261785626411438,
      "learning_rate": 4.152941962655472e-06,
      "loss": 1.3659,
      "mean_token_accuracy": 0.6665515998999277,
      "num_tokens": 2388609168.0,
      "step": 14237
    },
    {
      "entropy": 1.7175993124643962,
      "epoch": 1.5641152399000302,
      "grad_norm": 0.7182031869888306,
      "learning_rate": 4.151902930561718e-06,
      "loss": 1.3104,
      "mean_token_accuracy": 0.6693373173475266,
      "num_tokens": 2388741757.0,
      "step": 14238
    },
    {
      "entropy": 1.638315846522649,
      "epoch": 1.564225096811403,
      "grad_norm": 0.6741671562194824,
      "learning_rate": 4.150864115207149e-06,
      "loss": 1.3031,
      "mean_token_accuracy": 0.6736795554558436,
      "num_tokens": 2388882713.0,
      "step": 14239
    },
    {
      "entropy": 1.6951660414536793,
      "epoch": 1.564334953722776,
      "grad_norm": 0.8368586301803589,
      "learning_rate": 4.149825516624648e-06,
      "loss": 1.4751,
      "mean_token_accuracy": 0.6537247101465861,
      "num_tokens": 2389032474.0,
      "step": 14240
    },
    {
      "entropy": 1.7529374957084656,
      "epoch": 1.564444810634149,
      "grad_norm": 0.781149685382843,
      "learning_rate": 4.148787134847083e-06,
      "loss": 1.4741,
      "mean_token_accuracy": 0.6479151596625646,
      "num_tokens": 2389195676.0,
      "step": 14241
    },
    {
      "entropy": 1.6890328228473663,
      "epoch": 1.564554667545522,
      "grad_norm": 0.7580424547195435,
      "learning_rate": 4.147748969907315e-06,
      "loss": 1.5287,
      "mean_token_accuracy": 0.6358017772436142,
      "num_tokens": 2389402290.0,
      "step": 14242
    },
    {
      "entropy": 1.6835271914800007,
      "epoch": 1.5646645244568949,
      "grad_norm": 0.691645085811615,
      "learning_rate": 4.1467110218382065e-06,
      "loss": 1.3766,
      "mean_token_accuracy": 0.6494946281115214,
      "num_tokens": 2389597971.0,
      "step": 14243
    },
    {
      "entropy": 1.7536411086718242,
      "epoch": 1.564774381368268,
      "grad_norm": 0.7124913334846497,
      "learning_rate": 4.145673290672604e-06,
      "loss": 1.4361,
      "mean_token_accuracy": 0.6526350329319636,
      "num_tokens": 2389750552.0,
      "step": 14244
    },
    {
      "entropy": 1.761474738518397,
      "epoch": 1.5648842382796406,
      "grad_norm": 0.752509593963623,
      "learning_rate": 4.144635776443355e-06,
      "loss": 1.6245,
      "mean_token_accuracy": 0.6290792971849442,
      "num_tokens": 2390004070.0,
      "step": 14245
    },
    {
      "entropy": 1.6417441566785176,
      "epoch": 1.5649940951910137,
      "grad_norm": 0.6076568961143494,
      "learning_rate": 4.143598479183296e-06,
      "loss": 1.2921,
      "mean_token_accuracy": 0.6611118962367376,
      "num_tokens": 2390155985.0,
      "step": 14246
    },
    {
      "entropy": 1.7019707262516022,
      "epoch": 1.5651039521023866,
      "grad_norm": 0.7136411666870117,
      "learning_rate": 4.142561398925251e-06,
      "loss": 1.3393,
      "mean_token_accuracy": 0.6593159635861715,
      "num_tokens": 2390306312.0,
      "step": 14247
    },
    {
      "entropy": 1.676996996005376,
      "epoch": 1.5652138090137595,
      "grad_norm": 0.6909713745117188,
      "learning_rate": 4.14152453570205e-06,
      "loss": 1.2317,
      "mean_token_accuracy": 0.6901508718729019,
      "num_tokens": 2390448153.0,
      "step": 14248
    },
    {
      "entropy": 1.7591987252235413,
      "epoch": 1.5653236659251326,
      "grad_norm": 0.6709699630737305,
      "learning_rate": 4.140487889546511e-06,
      "loss": 1.5019,
      "mean_token_accuracy": 0.6351676136255264,
      "num_tokens": 2390635144.0,
      "step": 14249
    },
    {
      "entropy": 1.662870168685913,
      "epoch": 1.5654335228365055,
      "grad_norm": 0.7932735085487366,
      "learning_rate": 4.1394514604914346e-06,
      "loss": 1.273,
      "mean_token_accuracy": 0.6632749090592066,
      "num_tokens": 2390760110.0,
      "step": 14250
    },
    {
      "entropy": 1.716610203186671,
      "epoch": 1.5655433797478784,
      "grad_norm": 0.6800168752670288,
      "learning_rate": 4.138415248569627e-06,
      "loss": 1.5949,
      "mean_token_accuracy": 0.6412303000688553,
      "num_tokens": 2390971824.0,
      "step": 14251
    },
    {
      "entropy": 1.7617238660653431,
      "epoch": 1.5656532366592515,
      "grad_norm": 2.7349250316619873,
      "learning_rate": 4.137379253813888e-06,
      "loss": 1.3383,
      "mean_token_accuracy": 0.6525413393974304,
      "num_tokens": 2391201582.0,
      "step": 14252
    },
    {
      "entropy": 1.734719494978587,
      "epoch": 1.5657630935706242,
      "grad_norm": 0.6799651384353638,
      "learning_rate": 4.136343476257003e-06,
      "loss": 1.382,
      "mean_token_accuracy": 0.6536955088376999,
      "num_tokens": 2391339481.0,
      "step": 14253
    },
    {
      "entropy": 1.683516263961792,
      "epoch": 1.5658729504819973,
      "grad_norm": 0.6154446601867676,
      "learning_rate": 4.135307915931752e-06,
      "loss": 1.2975,
      "mean_token_accuracy": 0.6653460214535395,
      "num_tokens": 2391495107.0,
      "step": 14254
    },
    {
      "entropy": 1.6860613723595936,
      "epoch": 1.5659828073933701,
      "grad_norm": 0.6810904145240784,
      "learning_rate": 4.1342725728709155e-06,
      "loss": 1.3292,
      "mean_token_accuracy": 0.6534279535214106,
      "num_tokens": 2391656633.0,
      "step": 14255
    },
    {
      "entropy": 1.7145483096440632,
      "epoch": 1.566092664304743,
      "grad_norm": 0.6879013180732727,
      "learning_rate": 4.133237447107254e-06,
      "loss": 1.4758,
      "mean_token_accuracy": 0.6510107268889745,
      "num_tokens": 2391830562.0,
      "step": 14256
    },
    {
      "entropy": 1.716945578654607,
      "epoch": 1.5662025212161161,
      "grad_norm": 0.7154614329338074,
      "learning_rate": 4.1322025386735366e-06,
      "loss": 1.2937,
      "mean_token_accuracy": 0.6757306108872095,
      "num_tokens": 2391949707.0,
      "step": 14257
    },
    {
      "entropy": 1.684073011080424,
      "epoch": 1.5663123781274888,
      "grad_norm": 0.6808174252510071,
      "learning_rate": 4.131167847602514e-06,
      "loss": 1.3949,
      "mean_token_accuracy": 0.653533269961675,
      "num_tokens": 2392133416.0,
      "step": 14258
    },
    {
      "entropy": 1.6810634036858876,
      "epoch": 1.566422235038862,
      "grad_norm": 0.5711365342140198,
      "learning_rate": 4.130133373926931e-06,
      "loss": 1.2044,
      "mean_token_accuracy": 0.672467311223348,
      "num_tokens": 2392345107.0,
      "step": 14259
    },
    {
      "entropy": 1.6876142223676045,
      "epoch": 1.5665320919502348,
      "grad_norm": 0.6411077976226807,
      "learning_rate": 4.129099117679534e-06,
      "loss": 1.3813,
      "mean_token_accuracy": 0.6480342298746109,
      "num_tokens": 2392499285.0,
      "step": 14260
    },
    {
      "entropy": 1.74393226703008,
      "epoch": 1.5666419488616077,
      "grad_norm": 0.634601891040802,
      "learning_rate": 4.128065078893054e-06,
      "loss": 1.4692,
      "mean_token_accuracy": 0.6403647114833196,
      "num_tokens": 2392663103.0,
      "step": 14261
    },
    {
      "entropy": 1.7082592248916626,
      "epoch": 1.5667518057729808,
      "grad_norm": 0.5808596014976501,
      "learning_rate": 4.127031257600215e-06,
      "loss": 1.4834,
      "mean_token_accuracy": 0.6419193595647812,
      "num_tokens": 2392871214.0,
      "step": 14262
    },
    {
      "entropy": 1.7498057583967845,
      "epoch": 1.5668616626843537,
      "grad_norm": 0.7248362302780151,
      "learning_rate": 4.125997653833742e-06,
      "loss": 1.4285,
      "mean_token_accuracy": 0.6467612981796265,
      "num_tokens": 2393024951.0,
      "step": 14263
    },
    {
      "entropy": 1.6748530566692352,
      "epoch": 1.5669715195957266,
      "grad_norm": 0.6871564388275146,
      "learning_rate": 4.124964267626344e-06,
      "loss": 1.3883,
      "mean_token_accuracy": 0.657158151268959,
      "num_tokens": 2393157081.0,
      "step": 14264
    },
    {
      "entropy": 1.7383250097433727,
      "epoch": 1.5670813765070997,
      "grad_norm": 0.7244443893432617,
      "learning_rate": 4.123931099010731e-06,
      "loss": 1.475,
      "mean_token_accuracy": 0.648836076259613,
      "num_tokens": 2393358853.0,
      "step": 14265
    },
    {
      "entropy": 1.7299003303050995,
      "epoch": 1.5671912334184723,
      "grad_norm": 0.608918309211731,
      "learning_rate": 4.1228981480196e-06,
      "loss": 1.4105,
      "mean_token_accuracy": 0.6505444248517355,
      "num_tokens": 2393537058.0,
      "step": 14266
    },
    {
      "entropy": 1.768057684103648,
      "epoch": 1.5673010903298454,
      "grad_norm": 0.6040147542953491,
      "learning_rate": 4.121865414685641e-06,
      "loss": 1.35,
      "mean_token_accuracy": 0.6549276908238729,
      "num_tokens": 2393697269.0,
      "step": 14267
    },
    {
      "entropy": 1.7645529806613922,
      "epoch": 1.5674109472412183,
      "grad_norm": 0.7420253753662109,
      "learning_rate": 4.120832899041542e-06,
      "loss": 1.3501,
      "mean_token_accuracy": 0.6557344893614451,
      "num_tokens": 2393879833.0,
      "step": 14268
    },
    {
      "entropy": 1.685241311788559,
      "epoch": 1.5675208041525912,
      "grad_norm": 0.6206194758415222,
      "learning_rate": 4.1198006011199855e-06,
      "loss": 1.3303,
      "mean_token_accuracy": 0.6640505194664001,
      "num_tokens": 2394034031.0,
      "step": 14269
    },
    {
      "entropy": 1.664696882168452,
      "epoch": 1.5676306610639643,
      "grad_norm": 0.6417528986930847,
      "learning_rate": 4.118768520953638e-06,
      "loss": 1.2617,
      "mean_token_accuracy": 0.6767093986272812,
      "num_tokens": 2394158033.0,
      "step": 14270
    },
    {
      "entropy": 1.6648876368999481,
      "epoch": 1.567740517975337,
      "grad_norm": 0.6877491474151611,
      "learning_rate": 4.117736658575165e-06,
      "loss": 1.2169,
      "mean_token_accuracy": 0.6888188421726227,
      "num_tokens": 2394306056.0,
      "step": 14271
    },
    {
      "entropy": 1.7249459822972615,
      "epoch": 1.56785037488671,
      "grad_norm": 0.6589949131011963,
      "learning_rate": 4.116705014017229e-06,
      "loss": 1.3756,
      "mean_token_accuracy": 0.6467818568150202,
      "num_tokens": 2394459499.0,
      "step": 14272
    },
    {
      "entropy": 1.6618477304776509,
      "epoch": 1.567960231798083,
      "grad_norm": 0.7302327156066895,
      "learning_rate": 4.115673587312476e-06,
      "loss": 1.3993,
      "mean_token_accuracy": 0.6579805115858713,
      "num_tokens": 2394645406.0,
      "step": 14273
    },
    {
      "entropy": 1.7453274031480153,
      "epoch": 1.5680700887094559,
      "grad_norm": 0.6717466115951538,
      "learning_rate": 4.114642378493549e-06,
      "loss": 1.2956,
      "mean_token_accuracy": 0.6660959323247274,
      "num_tokens": 2394770158.0,
      "step": 14274
    },
    {
      "entropy": 1.7191137572129567,
      "epoch": 1.568179945620829,
      "grad_norm": 0.6410926580429077,
      "learning_rate": 4.113611387593091e-06,
      "loss": 1.3987,
      "mean_token_accuracy": 0.6500120759010315,
      "num_tokens": 2394936523.0,
      "step": 14275
    },
    {
      "entropy": 1.7772869765758514,
      "epoch": 1.5682898025322018,
      "grad_norm": 0.72120600938797,
      "learning_rate": 4.1125806146437285e-06,
      "loss": 1.4901,
      "mean_token_accuracy": 0.6559230337540308,
      "num_tokens": 2395116288.0,
      "step": 14276
    },
    {
      "entropy": 1.7197218139966328,
      "epoch": 1.5683996594435747,
      "grad_norm": 0.5482208132743835,
      "learning_rate": 4.111550059678087e-06,
      "loss": 1.5672,
      "mean_token_accuracy": 0.6186061501502991,
      "num_tokens": 2395375622.0,
      "step": 14277
    },
    {
      "entropy": 1.717966765165329,
      "epoch": 1.5685095163549478,
      "grad_norm": 0.787023663520813,
      "learning_rate": 4.110519722728782e-06,
      "loss": 1.2755,
      "mean_token_accuracy": 0.6763796657323837,
      "num_tokens": 2395509047.0,
      "step": 14278
    },
    {
      "entropy": 1.7471245626608531,
      "epoch": 1.5686193732663205,
      "grad_norm": 1.0187658071517944,
      "learning_rate": 4.109489603828422e-06,
      "loss": 1.2793,
      "mean_token_accuracy": 0.6738806962966919,
      "num_tokens": 2395635521.0,
      "step": 14279
    },
    {
      "entropy": 1.6846247414747875,
      "epoch": 1.5687292301776936,
      "grad_norm": 0.8501124382019043,
      "learning_rate": 4.10845970300961e-06,
      "loss": 1.3052,
      "mean_token_accuracy": 0.6631153573592504,
      "num_tokens": 2395770509.0,
      "step": 14280
    },
    {
      "entropy": 1.7312610546747844,
      "epoch": 1.5688390870890665,
      "grad_norm": 0.7959895133972168,
      "learning_rate": 4.107430020304945e-06,
      "loss": 1.5674,
      "mean_token_accuracy": 0.6618924016753832,
      "num_tokens": 2395923852.0,
      "step": 14281
    },
    {
      "entropy": 1.7540445923805237,
      "epoch": 1.5689489440004394,
      "grad_norm": 0.7842367887496948,
      "learning_rate": 4.106400555747015e-06,
      "loss": 1.2894,
      "mean_token_accuracy": 0.6724207550287247,
      "num_tokens": 2396076155.0,
      "step": 14282
    },
    {
      "entropy": 1.7668162484963734,
      "epoch": 1.5690588009118125,
      "grad_norm": 0.6241871118545532,
      "learning_rate": 4.105371309368399e-06,
      "loss": 1.3579,
      "mean_token_accuracy": 0.6569240589936575,
      "num_tokens": 2396220925.0,
      "step": 14283
    },
    {
      "entropy": 1.6470149258772533,
      "epoch": 1.5691686578231852,
      "grad_norm": 0.6123558878898621,
      "learning_rate": 4.104342281201676e-06,
      "loss": 1.3126,
      "mean_token_accuracy": 0.6688317805528641,
      "num_tokens": 2396398381.0,
      "step": 14284
    },
    {
      "entropy": 1.7287775576114655,
      "epoch": 1.5692785147345583,
      "grad_norm": 0.6877973675727844,
      "learning_rate": 4.103313471279413e-06,
      "loss": 1.3715,
      "mean_token_accuracy": 0.6662652442852656,
      "num_tokens": 2396575584.0,
      "step": 14285
    },
    {
      "entropy": 1.6712758839130402,
      "epoch": 1.5693883716459311,
      "grad_norm": 0.6240174174308777,
      "learning_rate": 4.102284879634167e-06,
      "loss": 1.3257,
      "mean_token_accuracy": 0.6696380823850632,
      "num_tokens": 2396771081.0,
      "step": 14286
    },
    {
      "entropy": 1.6926849484443665,
      "epoch": 1.569498228557304,
      "grad_norm": 0.7340817451477051,
      "learning_rate": 4.1012565062985e-06,
      "loss": 1.5994,
      "mean_token_accuracy": 0.620560958981514,
      "num_tokens": 2397011942.0,
      "step": 14287
    },
    {
      "entropy": 1.6864181657632191,
      "epoch": 1.5696080854686771,
      "grad_norm": 0.6771414875984192,
      "learning_rate": 4.100228351304954e-06,
      "loss": 1.3305,
      "mean_token_accuracy": 0.6688184440135956,
      "num_tokens": 2397167841.0,
      "step": 14288
    },
    {
      "entropy": 1.691802740097046,
      "epoch": 1.56971794238005,
      "grad_norm": 0.9737116098403931,
      "learning_rate": 4.0992004146860735e-06,
      "loss": 1.4348,
      "mean_token_accuracy": 0.6667732695738474,
      "num_tokens": 2397303533.0,
      "step": 14289
    },
    {
      "entropy": 1.6837505499521892,
      "epoch": 1.569827799291423,
      "grad_norm": 0.6902137994766235,
      "learning_rate": 4.098172696474389e-06,
      "loss": 1.3924,
      "mean_token_accuracy": 0.6759957373142242,
      "num_tokens": 2397479982.0,
      "step": 14290
    },
    {
      "entropy": 1.713492174943288,
      "epoch": 1.569937656202796,
      "grad_norm": 0.6719781160354614,
      "learning_rate": 4.097145196702429e-06,
      "loss": 1.3084,
      "mean_token_accuracy": 0.664943128824234,
      "num_tokens": 2397660597.0,
      "step": 14291
    },
    {
      "entropy": 1.714007943868637,
      "epoch": 1.5700475131141687,
      "grad_norm": 0.7276617884635925,
      "learning_rate": 4.096117915402711e-06,
      "loss": 1.4587,
      "mean_token_accuracy": 0.642642746369044,
      "num_tokens": 2397840863.0,
      "step": 14292
    },
    {
      "entropy": 1.6744861801465352,
      "epoch": 1.5701573700255418,
      "grad_norm": 0.7124812006950378,
      "learning_rate": 4.095090852607753e-06,
      "loss": 1.6228,
      "mean_token_accuracy": 0.6388173699378967,
      "num_tokens": 2398021773.0,
      "step": 14293
    },
    {
      "entropy": 1.6718362669150035,
      "epoch": 1.5702672269369147,
      "grad_norm": 0.6724779009819031,
      "learning_rate": 4.094064008350059e-06,
      "loss": 1.321,
      "mean_token_accuracy": 0.6795742710431417,
      "num_tokens": 2398160853.0,
      "step": 14294
    },
    {
      "entropy": 1.7398958404858906,
      "epoch": 1.5703770838482876,
      "grad_norm": 0.611190140247345,
      "learning_rate": 4.093037382662123e-06,
      "loss": 1.3787,
      "mean_token_accuracy": 0.6572253008683523,
      "num_tokens": 2398302307.0,
      "step": 14295
    },
    {
      "entropy": 1.6891403396924336,
      "epoch": 1.5704869407596607,
      "grad_norm": 0.6904042363166809,
      "learning_rate": 4.0920109755764445e-06,
      "loss": 1.2991,
      "mean_token_accuracy": 0.6698387066523234,
      "num_tokens": 2398439925.0,
      "step": 14296
    },
    {
      "entropy": 1.6572466492652893,
      "epoch": 1.5705967976710333,
      "grad_norm": 0.7035029530525208,
      "learning_rate": 4.090984787125506e-06,
      "loss": 1.3059,
      "mean_token_accuracy": 0.6694705088933309,
      "num_tokens": 2398606382.0,
      "step": 14297
    },
    {
      "entropy": 1.7408252656459808,
      "epoch": 1.5707066545824064,
      "grad_norm": 0.7190991640090942,
      "learning_rate": 4.089958817341783e-06,
      "loss": 1.4693,
      "mean_token_accuracy": 0.6496324787537257,
      "num_tokens": 2398775722.0,
      "step": 14298
    },
    {
      "entropy": 1.703038364648819,
      "epoch": 1.5708165114937793,
      "grad_norm": 0.7542386651039124,
      "learning_rate": 4.088933066257753e-06,
      "loss": 1.2668,
      "mean_token_accuracy": 0.6750974357128143,
      "num_tokens": 2398914013.0,
      "step": 14299
    },
    {
      "entropy": 1.6845628917217255,
      "epoch": 1.5709263684051522,
      "grad_norm": 0.6732815504074097,
      "learning_rate": 4.087907533905874e-06,
      "loss": 1.3025,
      "mean_token_accuracy": 0.6741761565208435,
      "num_tokens": 2399094931.0,
      "step": 14300
    },
    {
      "entropy": 1.7796473304430644,
      "epoch": 1.5710362253165253,
      "grad_norm": 0.6704933047294617,
      "learning_rate": 4.08688222031861e-06,
      "loss": 1.4761,
      "mean_token_accuracy": 0.6373851150274277,
      "num_tokens": 2399264259.0,
      "step": 14301
    },
    {
      "entropy": 1.7238643169403076,
      "epoch": 1.5711460822278982,
      "grad_norm": 0.8131667971611023,
      "learning_rate": 4.0858571255284075e-06,
      "loss": 1.5472,
      "mean_token_accuracy": 0.6483301371335983,
      "num_tokens": 2399417678.0,
      "step": 14302
    },
    {
      "entropy": 1.670019308725993,
      "epoch": 1.571255939139271,
      "grad_norm": 0.6241254210472107,
      "learning_rate": 4.084832249567709e-06,
      "loss": 1.497,
      "mean_token_accuracy": 0.641557107369105,
      "num_tokens": 2399615093.0,
      "step": 14303
    },
    {
      "entropy": 1.7172284523646038,
      "epoch": 1.5713657960506442,
      "grad_norm": 0.6693923473358154,
      "learning_rate": 4.083807592468956e-06,
      "loss": 1.2975,
      "mean_token_accuracy": 0.6784742772579193,
      "num_tokens": 2399759030.0,
      "step": 14304
    },
    {
      "entropy": 1.7683460513750713,
      "epoch": 1.5714756529620169,
      "grad_norm": 0.8016403317451477,
      "learning_rate": 4.0827831542645764e-06,
      "loss": 1.584,
      "mean_token_accuracy": 0.6237875620524088,
      "num_tokens": 2400010908.0,
      "step": 14305
    },
    {
      "entropy": 1.669872482617696,
      "epoch": 1.57158550987339,
      "grad_norm": 0.6497310996055603,
      "learning_rate": 4.081758934986993e-06,
      "loss": 1.3014,
      "mean_token_accuracy": 0.673602357506752,
      "num_tokens": 2400130678.0,
      "step": 14306
    },
    {
      "entropy": 1.7502439816792805,
      "epoch": 1.5716953667847628,
      "grad_norm": 0.8661501407623291,
      "learning_rate": 4.08073493466862e-06,
      "loss": 1.4551,
      "mean_token_accuracy": 0.6611292113860449,
      "num_tokens": 2400270119.0,
      "step": 14307
    },
    {
      "entropy": 1.7579331596692402,
      "epoch": 1.5718052236961357,
      "grad_norm": 0.7373813390731812,
      "learning_rate": 4.079711153341871e-06,
      "loss": 1.2837,
      "mean_token_accuracy": 0.6710260063409805,
      "num_tokens": 2400381408.0,
      "step": 14308
    },
    {
      "entropy": 1.7175275286038716,
      "epoch": 1.5719150806075088,
      "grad_norm": 0.7899195551872253,
      "learning_rate": 4.078687591039146e-06,
      "loss": 1.4791,
      "mean_token_accuracy": 0.6414479861656824,
      "num_tokens": 2400555300.0,
      "step": 14309
    },
    {
      "entropy": 1.7731333871682484,
      "epoch": 1.5720249375188815,
      "grad_norm": 0.7760249972343445,
      "learning_rate": 4.077664247792838e-06,
      "loss": 1.5491,
      "mean_token_accuracy": 0.6391358077526093,
      "num_tokens": 2400692168.0,
      "step": 14310
    },
    {
      "entropy": 1.658635934193929,
      "epoch": 1.5721347944302546,
      "grad_norm": 0.7568308115005493,
      "learning_rate": 4.076641123635338e-06,
      "loss": 1.5812,
      "mean_token_accuracy": 0.6311882634957632,
      "num_tokens": 2400892665.0,
      "step": 14311
    },
    {
      "entropy": 1.7353158593177795,
      "epoch": 1.5722446513416275,
      "grad_norm": 0.7283448576927185,
      "learning_rate": 4.0756182185990245e-06,
      "loss": 1.3225,
      "mean_token_accuracy": 0.6635488321383795,
      "num_tokens": 2401050516.0,
      "step": 14312
    },
    {
      "entropy": 1.605364441871643,
      "epoch": 1.5723545082530004,
      "grad_norm": 0.7137781977653503,
      "learning_rate": 4.0745955327162775e-06,
      "loss": 1.4384,
      "mean_token_accuracy": 0.6605170965194702,
      "num_tokens": 2401223303.0,
      "step": 14313
    },
    {
      "entropy": 1.7696949640909831,
      "epoch": 1.5724643651643735,
      "grad_norm": 0.7161397933959961,
      "learning_rate": 4.073573066019461e-06,
      "loss": 1.5051,
      "mean_token_accuracy": 0.6313910136620203,
      "num_tokens": 2401398847.0,
      "step": 14314
    },
    {
      "entropy": 1.7221232950687408,
      "epoch": 1.5725742220757464,
      "grad_norm": 0.6790109276771545,
      "learning_rate": 4.072550818540934e-06,
      "loss": 1.3352,
      "mean_token_accuracy": 0.6639846116304398,
      "num_tokens": 2401545939.0,
      "step": 14315
    },
    {
      "entropy": 1.7193631132443745,
      "epoch": 1.5726840789871193,
      "grad_norm": 0.6720796227455139,
      "learning_rate": 4.071528790313049e-06,
      "loss": 1.4618,
      "mean_token_accuracy": 0.6459654122591019,
      "num_tokens": 2401728338.0,
      "step": 14316
    },
    {
      "entropy": 1.6730712354183197,
      "epoch": 1.5727939358984924,
      "grad_norm": 0.7082514762878418,
      "learning_rate": 4.070506981368164e-06,
      "loss": 1.4599,
      "mean_token_accuracy": 0.6565167158842087,
      "num_tokens": 2401904602.0,
      "step": 14317
    },
    {
      "entropy": 1.7497392197450001,
      "epoch": 1.572903792809865,
      "grad_norm": 0.7780535817146301,
      "learning_rate": 4.069485391738605e-06,
      "loss": 1.4053,
      "mean_token_accuracy": 0.6494750926891962,
      "num_tokens": 2402107235.0,
      "step": 14318
    },
    {
      "entropy": 1.6548576653003693,
      "epoch": 1.5730136497212381,
      "grad_norm": 0.6952147483825684,
      "learning_rate": 4.068464021456709e-06,
      "loss": 1.426,
      "mean_token_accuracy": 0.6591857820749283,
      "num_tokens": 2402300956.0,
      "step": 14319
    },
    {
      "entropy": 1.6779307921727498,
      "epoch": 1.573123506632611,
      "grad_norm": 0.7041146159172058,
      "learning_rate": 4.0674428705548075e-06,
      "loss": 1.3681,
      "mean_token_accuracy": 0.6691206991672516,
      "num_tokens": 2402446715.0,
      "step": 14320
    },
    {
      "entropy": 1.6910231411457062,
      "epoch": 1.573233363543984,
      "grad_norm": 0.5578975081443787,
      "learning_rate": 4.0664219390652146e-06,
      "loss": 1.407,
      "mean_token_accuracy": 0.6494897405306498,
      "num_tokens": 2402638395.0,
      "step": 14321
    },
    {
      "entropy": 1.6795838276545207,
      "epoch": 1.573343220455357,
      "grad_norm": 0.6371523141860962,
      "learning_rate": 4.065401227020243e-06,
      "loss": 1.3769,
      "mean_token_accuracy": 0.6553529649972916,
      "num_tokens": 2402777742.0,
      "step": 14322
    },
    {
      "entropy": 1.6951970160007477,
      "epoch": 1.5734530773667297,
      "grad_norm": 0.7004981637001038,
      "learning_rate": 4.064380734452195e-06,
      "loss": 1.1673,
      "mean_token_accuracy": 0.687474250793457,
      "num_tokens": 2402925563.0,
      "step": 14323
    },
    {
      "entropy": 1.6712155938148499,
      "epoch": 1.5735629342781028,
      "grad_norm": 0.7162665128707886,
      "learning_rate": 4.06336046139337e-06,
      "loss": 1.3009,
      "mean_token_accuracy": 0.6811398416757584,
      "num_tokens": 2403103844.0,
      "step": 14324
    },
    {
      "entropy": 1.5985010763009389,
      "epoch": 1.5736727911894757,
      "grad_norm": 0.6248446702957153,
      "learning_rate": 4.062340407876066e-06,
      "loss": 1.1624,
      "mean_token_accuracy": 0.6961935559908549,
      "num_tokens": 2403284801.0,
      "step": 14325
    },
    {
      "entropy": 1.699522962172826,
      "epoch": 1.5737826481008486,
      "grad_norm": 0.7275028228759766,
      "learning_rate": 4.06132057393256e-06,
      "loss": 1.5205,
      "mean_token_accuracy": 0.6402701983849207,
      "num_tokens": 2403451049.0,
      "step": 14326
    },
    {
      "entropy": 1.717777858177821,
      "epoch": 1.5738925050122217,
      "grad_norm": 0.6977814435958862,
      "learning_rate": 4.060300959595129e-06,
      "loss": 1.3162,
      "mean_token_accuracy": 0.6749143203099569,
      "num_tokens": 2403611909.0,
      "step": 14327
    },
    {
      "entropy": 1.7565401196479797,
      "epoch": 1.5740023619235946,
      "grad_norm": 0.7143315076828003,
      "learning_rate": 4.059281564896049e-06,
      "loss": 1.4808,
      "mean_token_accuracy": 0.6375414083401362,
      "num_tokens": 2403777557.0,
      "step": 14328
    },
    {
      "entropy": 1.7590028643608093,
      "epoch": 1.5741122188349674,
      "grad_norm": 0.7009501457214355,
      "learning_rate": 4.058262389867579e-06,
      "loss": 1.4635,
      "mean_token_accuracy": 0.6421099056800207,
      "num_tokens": 2403952220.0,
      "step": 14329
    },
    {
      "entropy": 1.7278287311395009,
      "epoch": 1.5742220757463405,
      "grad_norm": 0.6733378767967224,
      "learning_rate": 4.0572434345419746e-06,
      "loss": 1.5208,
      "mean_token_accuracy": 0.6346190224091212,
      "num_tokens": 2404211887.0,
      "step": 14330
    },
    {
      "entropy": 1.7005733052889507,
      "epoch": 1.5743319326577132,
      "grad_norm": 0.6368502974510193,
      "learning_rate": 4.056224698951489e-06,
      "loss": 1.2437,
      "mean_token_accuracy": 0.6910210798184077,
      "num_tokens": 2404370898.0,
      "step": 14331
    },
    {
      "entropy": 1.7627998689810436,
      "epoch": 1.5744417895690863,
      "grad_norm": 0.6787126660346985,
      "learning_rate": 4.055206183128359e-06,
      "loss": 1.4583,
      "mean_token_accuracy": 0.645544116695722,
      "num_tokens": 2404538240.0,
      "step": 14332
    },
    {
      "entropy": 1.729688048362732,
      "epoch": 1.5745516464804592,
      "grad_norm": 0.7091361284255981,
      "learning_rate": 4.054187887104829e-06,
      "loss": 1.4387,
      "mean_token_accuracy": 0.6646422247091929,
      "num_tokens": 2404674194.0,
      "step": 14333
    },
    {
      "entropy": 1.753710041443507,
      "epoch": 1.574661503391832,
      "grad_norm": 0.9322096705436707,
      "learning_rate": 4.053169810913121e-06,
      "loss": 1.5747,
      "mean_token_accuracy": 0.6433406124512354,
      "num_tokens": 2404827461.0,
      "step": 14334
    },
    {
      "entropy": 1.7040641208489735,
      "epoch": 1.5747713603032052,
      "grad_norm": 0.6148183941841125,
      "learning_rate": 4.0521519545854555e-06,
      "loss": 1.4987,
      "mean_token_accuracy": 0.6388400246699651,
      "num_tokens": 2405061087.0,
      "step": 14335
    },
    {
      "entropy": 1.7134417394797008,
      "epoch": 1.5748812172145779,
      "grad_norm": 0.779222846031189,
      "learning_rate": 4.051134318154049e-06,
      "loss": 1.5683,
      "mean_token_accuracy": 0.6611418028672537,
      "num_tokens": 2405251828.0,
      "step": 14336
    },
    {
      "entropy": 1.7143574953079224,
      "epoch": 1.574991074125951,
      "grad_norm": 0.6745566129684448,
      "learning_rate": 4.050116901651116e-06,
      "loss": 1.4113,
      "mean_token_accuracy": 0.6613113085428873,
      "num_tokens": 2405407958.0,
      "step": 14337
    },
    {
      "entropy": 1.7491061985492706,
      "epoch": 1.5751009310373238,
      "grad_norm": 0.8248865604400635,
      "learning_rate": 4.049099705108849e-06,
      "loss": 1.2324,
      "mean_token_accuracy": 0.6748235374689102,
      "num_tokens": 2405559259.0,
      "step": 14338
    },
    {
      "entropy": 1.752279927333196,
      "epoch": 1.5752107879486967,
      "grad_norm": 0.6685039401054382,
      "learning_rate": 4.048082728559441e-06,
      "loss": 1.4519,
      "mean_token_accuracy": 0.6412715241312981,
      "num_tokens": 2405734315.0,
      "step": 14339
    },
    {
      "entropy": 1.680857280890147,
      "epoch": 1.5753206448600698,
      "grad_norm": 0.8184103965759277,
      "learning_rate": 4.047065972035085e-06,
      "loss": 1.3274,
      "mean_token_accuracy": 0.6744781285524368,
      "num_tokens": 2405872010.0,
      "step": 14340
    },
    {
      "entropy": 1.691278914610545,
      "epoch": 1.5754305017714427,
      "grad_norm": 0.6790178418159485,
      "learning_rate": 4.046049435567959e-06,
      "loss": 1.3451,
      "mean_token_accuracy": 0.6628639151652654,
      "num_tokens": 2406022115.0,
      "step": 14341
    },
    {
      "entropy": 1.6819725433985393,
      "epoch": 1.5755403586828156,
      "grad_norm": 0.6255328059196472,
      "learning_rate": 4.0450331191902315e-06,
      "loss": 1.2874,
      "mean_token_accuracy": 0.6705329616864523,
      "num_tokens": 2406169222.0,
      "step": 14342
    },
    {
      "entropy": 1.6964583198229473,
      "epoch": 1.5756502155941887,
      "grad_norm": 0.7723869681358337,
      "learning_rate": 4.044017022934074e-06,
      "loss": 1.336,
      "mean_token_accuracy": 0.6657444735368093,
      "num_tokens": 2406304501.0,
      "step": 14343
    },
    {
      "entropy": 1.6860394378503163,
      "epoch": 1.5757600725055614,
      "grad_norm": 0.6104413270950317,
      "learning_rate": 4.043001146831642e-06,
      "loss": 1.4501,
      "mean_token_accuracy": 0.6295960744222006,
      "num_tokens": 2406502733.0,
      "step": 14344
    },
    {
      "entropy": 1.718522051970164,
      "epoch": 1.5758699294169345,
      "grad_norm": 0.7444132566452026,
      "learning_rate": 4.0419854909150905e-06,
      "loss": 1.4821,
      "mean_token_accuracy": 0.6521776219209036,
      "num_tokens": 2406665496.0,
      "step": 14345
    },
    {
      "entropy": 1.7012490928173065,
      "epoch": 1.5759797863283074,
      "grad_norm": 0.6309324502944946,
      "learning_rate": 4.040970055216562e-06,
      "loss": 1.3502,
      "mean_token_accuracy": 0.6527341256539027,
      "num_tokens": 2406863488.0,
      "step": 14346
    },
    {
      "entropy": 1.6834677159786224,
      "epoch": 1.5760896432396803,
      "grad_norm": 0.6865068078041077,
      "learning_rate": 4.039954839768194e-06,
      "loss": 1.4619,
      "mean_token_accuracy": 0.6443218390146891,
      "num_tokens": 2407018418.0,
      "step": 14347
    },
    {
      "entropy": 1.6774198611577351,
      "epoch": 1.5761995001510534,
      "grad_norm": 0.6005121469497681,
      "learning_rate": 4.038939844602119e-06,
      "loss": 1.3968,
      "mean_token_accuracy": 0.6480477452278137,
      "num_tokens": 2407171807.0,
      "step": 14348
    },
    {
      "entropy": 1.6578874389330547,
      "epoch": 1.576309357062426,
      "grad_norm": 0.6394762992858887,
      "learning_rate": 4.0379250697504645e-06,
      "loss": 1.2588,
      "mean_token_accuracy": 0.6768279870351156,
      "num_tokens": 2407288051.0,
      "step": 14349
    },
    {
      "entropy": 1.6758925318717957,
      "epoch": 1.5764192139737991,
      "grad_norm": 0.6489967107772827,
      "learning_rate": 4.036910515245343e-06,
      "loss": 1.3984,
      "mean_token_accuracy": 0.6536735345919927,
      "num_tokens": 2407473963.0,
      "step": 14350
    },
    {
      "entropy": 1.7418983777364094,
      "epoch": 1.576529070885172,
      "grad_norm": 0.6643052697181702,
      "learning_rate": 4.0358961811188635e-06,
      "loss": 1.5226,
      "mean_token_accuracy": 0.6297204593817393,
      "num_tokens": 2407657529.0,
      "step": 14351
    },
    {
      "entropy": 1.6687126159667969,
      "epoch": 1.576638927796545,
      "grad_norm": 0.6805570721626282,
      "learning_rate": 4.034882067403135e-06,
      "loss": 1.4111,
      "mean_token_accuracy": 0.6512214044729868,
      "num_tokens": 2407830944.0,
      "step": 14352
    },
    {
      "entropy": 1.6523280044396718,
      "epoch": 1.576748784707918,
      "grad_norm": 0.6789618134498596,
      "learning_rate": 4.0338681741302495e-06,
      "loss": 1.4588,
      "mean_token_accuracy": 0.6637892872095108,
      "num_tokens": 2407974966.0,
      "step": 14353
    },
    {
      "entropy": 1.6389523049195607,
      "epoch": 1.576858641619291,
      "grad_norm": 0.6752464771270752,
      "learning_rate": 4.032854501332297e-06,
      "loss": 1.408,
      "mean_token_accuracy": 0.6546342919270197,
      "num_tokens": 2408137262.0,
      "step": 14354
    },
    {
      "entropy": 1.7064806123574574,
      "epoch": 1.5769684985306638,
      "grad_norm": 0.5836341381072998,
      "learning_rate": 4.031841049041361e-06,
      "loss": 1.3355,
      "mean_token_accuracy": 0.6571672906478246,
      "num_tokens": 2408339160.0,
      "step": 14355
    },
    {
      "entropy": 1.7815323770046234,
      "epoch": 1.577078355442037,
      "grad_norm": 0.7685762643814087,
      "learning_rate": 4.030827817289513e-06,
      "loss": 1.372,
      "mean_token_accuracy": 0.6627372950315475,
      "num_tokens": 2408471295.0,
      "step": 14356
    },
    {
      "entropy": 1.7619872987270355,
      "epoch": 1.5771882123534096,
      "grad_norm": 0.7153518795967102,
      "learning_rate": 4.029814806108827e-06,
      "loss": 1.4392,
      "mean_token_accuracy": 0.636270801226298,
      "num_tokens": 2408634566.0,
      "step": 14357
    },
    {
      "entropy": 1.6729972461859386,
      "epoch": 1.5772980692647827,
      "grad_norm": 0.6680687069892883,
      "learning_rate": 4.028802015531362e-06,
      "loss": 1.3128,
      "mean_token_accuracy": 0.6736362675825754,
      "num_tokens": 2408765313.0,
      "step": 14358
    },
    {
      "entropy": 1.7162837485472362,
      "epoch": 1.5774079261761556,
      "grad_norm": 0.7068792581558228,
      "learning_rate": 4.027789445589169e-06,
      "loss": 1.3913,
      "mean_token_accuracy": 0.6578982969125112,
      "num_tokens": 2408929681.0,
      "step": 14359
    },
    {
      "entropy": 1.6619195342063904,
      "epoch": 1.5775177830875284,
      "grad_norm": 0.6548637747764587,
      "learning_rate": 4.026777096314298e-06,
      "loss": 1.3688,
      "mean_token_accuracy": 0.6490531514088312,
      "num_tokens": 2409119354.0,
      "step": 14360
    },
    {
      "entropy": 1.6902973055839539,
      "epoch": 1.5776276399989015,
      "grad_norm": 0.7334201335906982,
      "learning_rate": 4.0257649677387924e-06,
      "loss": 1.6172,
      "mean_token_accuracy": 0.6320002973079681,
      "num_tokens": 2409327791.0,
      "step": 14361
    },
    {
      "entropy": 1.7276590665181477,
      "epoch": 1.5777374969102742,
      "grad_norm": 0.8310177326202393,
      "learning_rate": 4.024753059894683e-06,
      "loss": 1.5126,
      "mean_token_accuracy": 0.6533468067646027,
      "num_tokens": 2409464553.0,
      "step": 14362
    },
    {
      "entropy": 1.68667929371198,
      "epoch": 1.5778473538216473,
      "grad_norm": 0.5872757434844971,
      "learning_rate": 4.023741372813994e-06,
      "loss": 1.4306,
      "mean_token_accuracy": 0.6479167540868124,
      "num_tokens": 2409673452.0,
      "step": 14363
    },
    {
      "entropy": 1.6317294637362163,
      "epoch": 1.5779572107330202,
      "grad_norm": 0.705324113368988,
      "learning_rate": 4.02272990652875e-06,
      "loss": 1.4657,
      "mean_token_accuracy": 0.669963558514913,
      "num_tokens": 2409848784.0,
      "step": 14364
    },
    {
      "entropy": 1.6726927657922108,
      "epoch": 1.578067067644393,
      "grad_norm": 0.6846646070480347,
      "learning_rate": 4.021718661070959e-06,
      "loss": 1.3991,
      "mean_token_accuracy": 0.657963847120603,
      "num_tokens": 2410027810.0,
      "step": 14365
    },
    {
      "entropy": 1.6807039578755696,
      "epoch": 1.5781769245557662,
      "grad_norm": 0.634922981262207,
      "learning_rate": 4.020707636472626e-06,
      "loss": 1.411,
      "mean_token_accuracy": 0.6643590877453486,
      "num_tokens": 2410191106.0,
      "step": 14366
    },
    {
      "entropy": 1.690766880909602,
      "epoch": 1.578286781467139,
      "grad_norm": 0.6886934638023376,
      "learning_rate": 4.019696832765755e-06,
      "loss": 1.3997,
      "mean_token_accuracy": 0.6652351021766663,
      "num_tokens": 2410352396.0,
      "step": 14367
    },
    {
      "entropy": 1.696602702140808,
      "epoch": 1.578396638378512,
      "grad_norm": 0.7700260877609253,
      "learning_rate": 4.01868624998233e-06,
      "loss": 1.3986,
      "mean_token_accuracy": 0.654128318031629,
      "num_tokens": 2410524627.0,
      "step": 14368
    },
    {
      "entropy": 1.6783056855201721,
      "epoch": 1.578506495289885,
      "grad_norm": 0.7106050252914429,
      "learning_rate": 4.017675888154341e-06,
      "loss": 1.4447,
      "mean_token_accuracy": 0.6530628601710001,
      "num_tokens": 2410671042.0,
      "step": 14369
    },
    {
      "entropy": 1.6856454213460286,
      "epoch": 1.5786163522012577,
      "grad_norm": 0.5910614132881165,
      "learning_rate": 4.016665747313765e-06,
      "loss": 1.4043,
      "mean_token_accuracy": 0.6535949011643728,
      "num_tokens": 2410840404.0,
      "step": 14370
    },
    {
      "entropy": 1.681627740462621,
      "epoch": 1.5787262091126308,
      "grad_norm": 0.5946781635284424,
      "learning_rate": 4.0156558274925695e-06,
      "loss": 1.3597,
      "mean_token_accuracy": 0.6630496780077616,
      "num_tokens": 2410999756.0,
      "step": 14371
    },
    {
      "entropy": 1.6094493865966797,
      "epoch": 1.5788360660240037,
      "grad_norm": 0.8007654547691345,
      "learning_rate": 4.014646128722719e-06,
      "loss": 1.2379,
      "mean_token_accuracy": 0.6704281121492386,
      "num_tokens": 2411138576.0,
      "step": 14372
    },
    {
      "entropy": 1.7133605281511943,
      "epoch": 1.5789459229353766,
      "grad_norm": 0.6362724900245667,
      "learning_rate": 4.0136366510361735e-06,
      "loss": 1.4868,
      "mean_token_accuracy": 0.6381375938653946,
      "num_tokens": 2411382890.0,
      "step": 14373
    },
    {
      "entropy": 1.8057750562826793,
      "epoch": 1.5790557798467497,
      "grad_norm": 0.7414250373840332,
      "learning_rate": 4.01262739446488e-06,
      "loss": 1.3424,
      "mean_token_accuracy": 0.6564290225505829,
      "num_tokens": 2411520175.0,
      "step": 14374
    },
    {
      "entropy": 1.688672701517741,
      "epoch": 1.5791656367581224,
      "grad_norm": 0.5574719905853271,
      "learning_rate": 4.011618359040778e-06,
      "loss": 1.3622,
      "mean_token_accuracy": 0.6569213171799978,
      "num_tokens": 2411699169.0,
      "step": 14375
    },
    {
      "entropy": 1.753764549891154,
      "epoch": 1.5792754936694955,
      "grad_norm": 0.6876077651977539,
      "learning_rate": 4.010609544795808e-06,
      "loss": 1.472,
      "mean_token_accuracy": 0.6483410596847534,
      "num_tokens": 2411855045.0,
      "step": 14376
    },
    {
      "entropy": 1.6760170062383015,
      "epoch": 1.5793853505808684,
      "grad_norm": 0.670947790145874,
      "learning_rate": 4.009600951761896e-06,
      "loss": 1.2907,
      "mean_token_accuracy": 0.6729481816291809,
      "num_tokens": 2412065147.0,
      "step": 14377
    },
    {
      "entropy": 1.756626029809316,
      "epoch": 1.5794952074922413,
      "grad_norm": 0.7405815124511719,
      "learning_rate": 4.0085925799709635e-06,
      "loss": 1.4296,
      "mean_token_accuracy": 0.6655129392941793,
      "num_tokens": 2412191329.0,
      "step": 14378
    },
    {
      "entropy": 1.735265185435613,
      "epoch": 1.5796050644036144,
      "grad_norm": 0.7957320213317871,
      "learning_rate": 4.007584429454927e-06,
      "loss": 1.2667,
      "mean_token_accuracy": 0.6745762477318445,
      "num_tokens": 2412318330.0,
      "step": 14379
    },
    {
      "entropy": 1.7310957809289296,
      "epoch": 1.5797149213149873,
      "grad_norm": 0.639903724193573,
      "learning_rate": 4.006576500245689e-06,
      "loss": 1.452,
      "mean_token_accuracy": 0.6442805677652359,
      "num_tokens": 2412496380.0,
      "step": 14380
    },
    {
      "entropy": 1.7322147190570831,
      "epoch": 1.5798247782263601,
      "grad_norm": 0.6460077166557312,
      "learning_rate": 4.005568792375157e-06,
      "loss": 1.4793,
      "mean_token_accuracy": 0.6409311791261038,
      "num_tokens": 2412670508.0,
      "step": 14381
    },
    {
      "entropy": 1.6922193666299183,
      "epoch": 1.5799346351377332,
      "grad_norm": 0.6333412528038025,
      "learning_rate": 4.004561305875221e-06,
      "loss": 1.2359,
      "mean_token_accuracy": 0.6793088068564733,
      "num_tokens": 2412810294.0,
      "step": 14382
    },
    {
      "entropy": 1.7221355736255646,
      "epoch": 1.580044492049106,
      "grad_norm": 0.6996757388114929,
      "learning_rate": 4.003554040777765e-06,
      "loss": 1.5011,
      "mean_token_accuracy": 0.6347163567940394,
      "num_tokens": 2413041747.0,
      "step": 14383
    },
    {
      "entropy": 1.6786732574303944,
      "epoch": 1.580154348960479,
      "grad_norm": 0.6720352172851562,
      "learning_rate": 4.0025469971146725e-06,
      "loss": 1.4039,
      "mean_token_accuracy": 0.6694711993137995,
      "num_tokens": 2413203259.0,
      "step": 14384
    },
    {
      "entropy": 1.7239131430784862,
      "epoch": 1.580264205871852,
      "grad_norm": 0.6879767775535583,
      "learning_rate": 4.001540174917813e-06,
      "loss": 1.4192,
      "mean_token_accuracy": 0.6383152256409327,
      "num_tokens": 2413404931.0,
      "step": 14385
    },
    {
      "entropy": 1.679287075996399,
      "epoch": 1.5803740627832248,
      "grad_norm": 0.8257265686988831,
      "learning_rate": 4.0005335742190555e-06,
      "loss": 1.2133,
      "mean_token_accuracy": 0.6854179451862971,
      "num_tokens": 2413542889.0,
      "step": 14386
    },
    {
      "entropy": 1.6591391563415527,
      "epoch": 1.580483919694598,
      "grad_norm": 0.8294792175292969,
      "learning_rate": 3.999527195050255e-06,
      "loss": 1.2861,
      "mean_token_accuracy": 0.6734772324562073,
      "num_tokens": 2413685078.0,
      "step": 14387
    },
    {
      "entropy": 1.7173769970734913,
      "epoch": 1.5805937766059706,
      "grad_norm": 0.6364870667457581,
      "learning_rate": 3.998521037443264e-06,
      "loss": 1.4887,
      "mean_token_accuracy": 0.643697996934255,
      "num_tokens": 2413867535.0,
      "step": 14388
    },
    {
      "entropy": 1.7607737878958385,
      "epoch": 1.5807036335173437,
      "grad_norm": 0.6072537899017334,
      "learning_rate": 3.997515101429928e-06,
      "loss": 1.5469,
      "mean_token_accuracy": 0.6417495807011923,
      "num_tokens": 2414078328.0,
      "step": 14389
    },
    {
      "entropy": 1.7044040362040203,
      "epoch": 1.5808134904287166,
      "grad_norm": 0.6410809755325317,
      "learning_rate": 3.996509387042085e-06,
      "loss": 1.5127,
      "mean_token_accuracy": 0.6362091799577078,
      "num_tokens": 2414267611.0,
      "step": 14390
    },
    {
      "entropy": 1.6906994581222534,
      "epoch": 1.5809233473400894,
      "grad_norm": 0.6977923512458801,
      "learning_rate": 3.995503894311561e-06,
      "loss": 1.4303,
      "mean_token_accuracy": 0.6597084701061249,
      "num_tokens": 2414429725.0,
      "step": 14391
    },
    {
      "entropy": 1.7433028519153595,
      "epoch": 1.5810332042514625,
      "grad_norm": 0.7054868936538696,
      "learning_rate": 3.994498623270182e-06,
      "loss": 1.4431,
      "mean_token_accuracy": 0.6574334055185318,
      "num_tokens": 2414610681.0,
      "step": 14392
    },
    {
      "entropy": 1.739876647790273,
      "epoch": 1.5811430611628354,
      "grad_norm": 0.8737093806266785,
      "learning_rate": 3.993493573949768e-06,
      "loss": 1.2597,
      "mean_token_accuracy": 0.6745233436425527,
      "num_tokens": 2414709082.0,
      "step": 14393
    },
    {
      "entropy": 1.7829668621222179,
      "epoch": 1.5812529180742083,
      "grad_norm": 0.8045809864997864,
      "learning_rate": 3.992488746382125e-06,
      "loss": 1.431,
      "mean_token_accuracy": 0.6510123064120611,
      "num_tokens": 2414904822.0,
      "step": 14394
    },
    {
      "entropy": 1.7516865233580272,
      "epoch": 1.5813627749855814,
      "grad_norm": 0.8814604878425598,
      "learning_rate": 3.991484140599053e-06,
      "loss": 1.3402,
      "mean_token_accuracy": 0.6588575591643652,
      "num_tokens": 2415024541.0,
      "step": 14395
    },
    {
      "entropy": 1.7599789202213287,
      "epoch": 1.581472631896954,
      "grad_norm": 0.6524580121040344,
      "learning_rate": 3.990479756632352e-06,
      "loss": 1.458,
      "mean_token_accuracy": 0.6501910090446472,
      "num_tokens": 2415189620.0,
      "step": 14396
    },
    {
      "entropy": 1.7022678454717,
      "epoch": 1.5815824888083272,
      "grad_norm": 0.7698002457618713,
      "learning_rate": 3.989475594513808e-06,
      "loss": 1.3612,
      "mean_token_accuracy": 0.6615101943413416,
      "num_tokens": 2415364902.0,
      "step": 14397
    },
    {
      "entropy": 1.7096090018749237,
      "epoch": 1.5816923457197,
      "grad_norm": 0.8302357792854309,
      "learning_rate": 3.988471654275201e-06,
      "loss": 1.2287,
      "mean_token_accuracy": 0.6795289516448975,
      "num_tokens": 2415465709.0,
      "step": 14398
    },
    {
      "entropy": 1.727865646282832,
      "epoch": 1.581802202631073,
      "grad_norm": 0.7796132564544678,
      "learning_rate": 3.987467935948307e-06,
      "loss": 1.4827,
      "mean_token_accuracy": 0.6607057054837545,
      "num_tokens": 2415621621.0,
      "step": 14399
    },
    {
      "entropy": 1.7068704466025035,
      "epoch": 1.581912059542446,
      "grad_norm": 0.7254052758216858,
      "learning_rate": 3.986464439564893e-06,
      "loss": 1.5308,
      "mean_token_accuracy": 0.6460797290007273,
      "num_tokens": 2415798172.0,
      "step": 14400
    },
    {
      "entropy": 1.7472402950127919,
      "epoch": 1.582021916453819,
      "grad_norm": 1.3230574131011963,
      "learning_rate": 3.9854611651567196e-06,
      "loss": 1.4057,
      "mean_token_accuracy": 0.6481355031331381,
      "num_tokens": 2415960359.0,
      "step": 14401
    },
    {
      "entropy": 1.7266095876693726,
      "epoch": 1.5821317733651918,
      "grad_norm": 0.7041482329368591,
      "learning_rate": 3.98445811275554e-06,
      "loss": 1.3587,
      "mean_token_accuracy": 0.6671364406744639,
      "num_tokens": 2416113815.0,
      "step": 14402
    },
    {
      "entropy": 1.7281249165534973,
      "epoch": 1.5822416302765647,
      "grad_norm": 0.6447805166244507,
      "learning_rate": 3.983455282393099e-06,
      "loss": 1.412,
      "mean_token_accuracy": 0.6491978416840235,
      "num_tokens": 2416313418.0,
      "step": 14403
    },
    {
      "entropy": 1.744963804880778,
      "epoch": 1.5823514871879376,
      "grad_norm": 0.6686639189720154,
      "learning_rate": 3.9824526741011345e-06,
      "loss": 1.4133,
      "mean_token_accuracy": 0.6531851341327032,
      "num_tokens": 2416494715.0,
      "step": 14404
    },
    {
      "entropy": 1.734292556842168,
      "epoch": 1.5824613440993107,
      "grad_norm": 0.8086754679679871,
      "learning_rate": 3.981450287911385e-06,
      "loss": 1.3749,
      "mean_token_accuracy": 0.6653833836317062,
      "num_tokens": 2416629130.0,
      "step": 14405
    },
    {
      "entropy": 1.7502967417240143,
      "epoch": 1.5825712010106836,
      "grad_norm": 0.8233333826065063,
      "learning_rate": 3.9804481238555696e-06,
      "loss": 1.4493,
      "mean_token_accuracy": 0.649358481168747,
      "num_tokens": 2416784379.0,
      "step": 14406
    },
    {
      "entropy": 1.6617790857950847,
      "epoch": 1.5826810579220565,
      "grad_norm": 0.544765055179596,
      "learning_rate": 3.979446181965406e-06,
      "loss": 1.4374,
      "mean_token_accuracy": 0.6548088242610296,
      "num_tokens": 2416981866.0,
      "step": 14407
    },
    {
      "entropy": 1.6831092139085133,
      "epoch": 1.5827909148334296,
      "grad_norm": 0.8361105918884277,
      "learning_rate": 3.97844446227261e-06,
      "loss": 1.621,
      "mean_token_accuracy": 0.6430748477578163,
      "num_tokens": 2417131866.0,
      "step": 14408
    },
    {
      "entropy": 1.7041123708089192,
      "epoch": 1.5829007717448023,
      "grad_norm": 0.8004279732704163,
      "learning_rate": 3.977442964808883e-06,
      "loss": 1.4952,
      "mean_token_accuracy": 0.6577915449937185,
      "num_tokens": 2417297788.0,
      "step": 14409
    },
    {
      "entropy": 1.6733851035435994,
      "epoch": 1.5830106286561754,
      "grad_norm": 0.6946509480476379,
      "learning_rate": 3.976441689605919e-06,
      "loss": 1.3204,
      "mean_token_accuracy": 0.667379895846049,
      "num_tokens": 2417418708.0,
      "step": 14410
    },
    {
      "entropy": 1.7224521934986115,
      "epoch": 1.5831204855675483,
      "grad_norm": 0.6349174380302429,
      "learning_rate": 3.975440636695412e-06,
      "loss": 1.3984,
      "mean_token_accuracy": 0.6536268393198649,
      "num_tokens": 2417584213.0,
      "step": 14411
    },
    {
      "entropy": 1.6723372340202332,
      "epoch": 1.5832303424789211,
      "grad_norm": 0.7625806331634521,
      "learning_rate": 3.974439806109043e-06,
      "loss": 1.2409,
      "mean_token_accuracy": 0.6775754888852438,
      "num_tokens": 2417759522.0,
      "step": 14412
    },
    {
      "entropy": 1.642015775044759,
      "epoch": 1.5833401993902942,
      "grad_norm": 0.7911476492881775,
      "learning_rate": 3.973439197878489e-06,
      "loss": 1.2949,
      "mean_token_accuracy": 0.6780034005641937,
      "num_tokens": 2417912492.0,
      "step": 14413
    },
    {
      "entropy": 1.7025137146313984,
      "epoch": 1.5834500563016671,
      "grad_norm": 0.7081897854804993,
      "learning_rate": 3.972438812035419e-06,
      "loss": 1.5179,
      "mean_token_accuracy": 0.6537428398927053,
      "num_tokens": 2418109884.0,
      "step": 14414
    },
    {
      "entropy": 1.768744687239329,
      "epoch": 1.58355991321304,
      "grad_norm": 0.804851233959198,
      "learning_rate": 3.971438648611492e-06,
      "loss": 1.482,
      "mean_token_accuracy": 0.6415604799985886,
      "num_tokens": 2418302598.0,
      "step": 14415
    },
    {
      "entropy": 1.700428346792857,
      "epoch": 1.583669770124413,
      "grad_norm": 0.6298617720603943,
      "learning_rate": 3.970438707638364e-06,
      "loss": 1.4271,
      "mean_token_accuracy": 0.6591332703828812,
      "num_tokens": 2418483413.0,
      "step": 14416
    },
    {
      "entropy": 1.7190834681193035,
      "epoch": 1.5837796270357858,
      "grad_norm": 0.7330955266952515,
      "learning_rate": 3.969438989147685e-06,
      "loss": 1.5435,
      "mean_token_accuracy": 0.642086406548818,
      "num_tokens": 2418645090.0,
      "step": 14417
    },
    {
      "entropy": 1.701053947210312,
      "epoch": 1.583889483947159,
      "grad_norm": 0.648068904876709,
      "learning_rate": 3.9684394931710956e-06,
      "loss": 1.282,
      "mean_token_accuracy": 0.6661601016918818,
      "num_tokens": 2418771132.0,
      "step": 14418
    },
    {
      "entropy": 1.7536637683709462,
      "epoch": 1.5839993408585318,
      "grad_norm": 0.7328144907951355,
      "learning_rate": 3.967440219740224e-06,
      "loss": 1.4416,
      "mean_token_accuracy": 0.6516183565060297,
      "num_tokens": 2418935915.0,
      "step": 14419
    },
    {
      "entropy": 1.7374096810817719,
      "epoch": 1.5841091977699047,
      "grad_norm": 0.6931876540184021,
      "learning_rate": 3.966441168886704e-06,
      "loss": 1.3514,
      "mean_token_accuracy": 0.6611058761676153,
      "num_tokens": 2419100654.0,
      "step": 14420
    },
    {
      "entropy": 1.7090267737706502,
      "epoch": 1.5842190546812778,
      "grad_norm": 0.7308075428009033,
      "learning_rate": 3.96544234064215e-06,
      "loss": 1.2949,
      "mean_token_accuracy": 0.6706414471069971,
      "num_tokens": 2419225860.0,
      "step": 14421
    },
    {
      "entropy": 1.779475748538971,
      "epoch": 1.5843289115926504,
      "grad_norm": 0.6749278903007507,
      "learning_rate": 3.9644437350381745e-06,
      "loss": 1.4604,
      "mean_token_accuracy": 0.6398962736129761,
      "num_tokens": 2419420436.0,
      "step": 14422
    },
    {
      "entropy": 1.6845888098080952,
      "epoch": 1.5844387685040235,
      "grad_norm": 0.6891003251075745,
      "learning_rate": 3.9634453521063876e-06,
      "loss": 1.3074,
      "mean_token_accuracy": 0.6675096352895101,
      "num_tokens": 2419590074.0,
      "step": 14423
    },
    {
      "entropy": 1.6917446851730347,
      "epoch": 1.5845486254153964,
      "grad_norm": 0.7120577096939087,
      "learning_rate": 3.962447191878381e-06,
      "loss": 1.4101,
      "mean_token_accuracy": 0.6531930317481359,
      "num_tokens": 2419762614.0,
      "step": 14424
    },
    {
      "entropy": 1.6405010223388672,
      "epoch": 1.5846584823267693,
      "grad_norm": 0.6640504002571106,
      "learning_rate": 3.961449254385753e-06,
      "loss": 1.3397,
      "mean_token_accuracy": 0.67174232006073,
      "num_tokens": 2419921978.0,
      "step": 14425
    },
    {
      "entropy": 1.6967049439748128,
      "epoch": 1.5847683392381424,
      "grad_norm": 0.6310282349586487,
      "learning_rate": 3.960451539660084e-06,
      "loss": 1.3417,
      "mean_token_accuracy": 0.6760230660438538,
      "num_tokens": 2420092987.0,
      "step": 14426
    },
    {
      "entropy": 1.7303445041179657,
      "epoch": 1.5848781961495153,
      "grad_norm": 0.6532360911369324,
      "learning_rate": 3.959454047732949e-06,
      "loss": 1.3444,
      "mean_token_accuracy": 0.6584073007106781,
      "num_tokens": 2420258161.0,
      "step": 14427
    },
    {
      "entropy": 1.673458496729533,
      "epoch": 1.5849880530608882,
      "grad_norm": 0.6821812391281128,
      "learning_rate": 3.958456778635922e-06,
      "loss": 1.2654,
      "mean_token_accuracy": 0.6753448198239008,
      "num_tokens": 2420433591.0,
      "step": 14428
    },
    {
      "entropy": 1.679155856370926,
      "epoch": 1.585097909972261,
      "grad_norm": 0.5954638123512268,
      "learning_rate": 3.957459732400566e-06,
      "loss": 1.3344,
      "mean_token_accuracy": 0.6624444822470347,
      "num_tokens": 2420624387.0,
      "step": 14429
    },
    {
      "entropy": 1.627536416053772,
      "epoch": 1.585207766883634,
      "grad_norm": 0.729608952999115,
      "learning_rate": 3.956462909058436e-06,
      "loss": 1.3367,
      "mean_token_accuracy": 0.6631862074136734,
      "num_tokens": 2420779608.0,
      "step": 14430
    },
    {
      "entropy": 1.7547686696052551,
      "epoch": 1.585317623795007,
      "grad_norm": 0.7445028424263,
      "learning_rate": 3.95546630864108e-06,
      "loss": 1.3996,
      "mean_token_accuracy": 0.6553547183672587,
      "num_tokens": 2420925812.0,
      "step": 14431
    },
    {
      "entropy": 1.7932293613751729,
      "epoch": 1.58542748070638,
      "grad_norm": 0.7431174516677856,
      "learning_rate": 3.954469931180042e-06,
      "loss": 1.3638,
      "mean_token_accuracy": 0.6611845990022024,
      "num_tokens": 2421059861.0,
      "step": 14432
    },
    {
      "entropy": 1.6480081578095753,
      "epoch": 1.5855373376177528,
      "grad_norm": 0.6314308643341064,
      "learning_rate": 3.953473776706857e-06,
      "loss": 1.3646,
      "mean_token_accuracy": 0.6595342606306076,
      "num_tokens": 2421221397.0,
      "step": 14433
    },
    {
      "entropy": 1.6911343236764271,
      "epoch": 1.585647194529126,
      "grad_norm": 0.653496265411377,
      "learning_rate": 3.9524778452530476e-06,
      "loss": 1.429,
      "mean_token_accuracy": 0.6722802569468816,
      "num_tokens": 2421386795.0,
      "step": 14434
    },
    {
      "entropy": 1.6934001346429188,
      "epoch": 1.5857570514404986,
      "grad_norm": 0.6944672465324402,
      "learning_rate": 3.951482136850143e-06,
      "loss": 1.35,
      "mean_token_accuracy": 0.6598734756310781,
      "num_tokens": 2421530857.0,
      "step": 14435
    },
    {
      "entropy": 1.7472728689511616,
      "epoch": 1.5858669083518717,
      "grad_norm": 0.6578483581542969,
      "learning_rate": 3.950486651529649e-06,
      "loss": 1.3643,
      "mean_token_accuracy": 0.658632829785347,
      "num_tokens": 2421743676.0,
      "step": 14436
    },
    {
      "entropy": 1.7039150198300679,
      "epoch": 1.5859767652632446,
      "grad_norm": 0.7169721722602844,
      "learning_rate": 3.949491389323079e-06,
      "loss": 1.3317,
      "mean_token_accuracy": 0.671579380830129,
      "num_tokens": 2421913835.0,
      "step": 14437
    },
    {
      "entropy": 1.7325179874897003,
      "epoch": 1.5860866221746175,
      "grad_norm": 0.7134926319122314,
      "learning_rate": 3.948496350261929e-06,
      "loss": 1.5328,
      "mean_token_accuracy": 0.6371408551931381,
      "num_tokens": 2422078510.0,
      "step": 14438
    },
    {
      "entropy": 1.6378303567568462,
      "epoch": 1.5861964790859906,
      "grad_norm": 0.63148432970047,
      "learning_rate": 3.94750153437769e-06,
      "loss": 1.4693,
      "mean_token_accuracy": 0.6584180593490601,
      "num_tokens": 2422262293.0,
      "step": 14439
    },
    {
      "entropy": 1.7055408656597137,
      "epoch": 1.5863063359973635,
      "grad_norm": 0.6454849243164062,
      "learning_rate": 3.94650694170185e-06,
      "loss": 1.4238,
      "mean_token_accuracy": 0.6490067690610886,
      "num_tokens": 2422423182.0,
      "step": 14440
    },
    {
      "entropy": 1.6568194329738617,
      "epoch": 1.5864161929087364,
      "grad_norm": 0.61830735206604,
      "learning_rate": 3.945512572265888e-06,
      "loss": 1.4239,
      "mean_token_accuracy": 0.6476400097211202,
      "num_tokens": 2422619592.0,
      "step": 14441
    },
    {
      "entropy": 1.652705987294515,
      "epoch": 1.5865260498201095,
      "grad_norm": 0.6976563930511475,
      "learning_rate": 3.944518426101275e-06,
      "loss": 1.3246,
      "mean_token_accuracy": 0.6634400536616644,
      "num_tokens": 2422744514.0,
      "step": 14442
    },
    {
      "entropy": 1.7328997552394867,
      "epoch": 1.5866359067314821,
      "grad_norm": 0.699158251285553,
      "learning_rate": 3.943524503239474e-06,
      "loss": 1.4902,
      "mean_token_accuracy": 0.6478810012340546,
      "num_tokens": 2422929691.0,
      "step": 14443
    },
    {
      "entropy": 1.6880051692326863,
      "epoch": 1.5867457636428552,
      "grad_norm": 0.6858848333358765,
      "learning_rate": 3.942530803711941e-06,
      "loss": 1.2967,
      "mean_token_accuracy": 0.6767656803131104,
      "num_tokens": 2423066587.0,
      "step": 14444
    },
    {
      "entropy": 1.6842141250769298,
      "epoch": 1.5868556205542281,
      "grad_norm": 0.6382424831390381,
      "learning_rate": 3.941537327550131e-06,
      "loss": 1.3361,
      "mean_token_accuracy": 0.6656038562456766,
      "num_tokens": 2423196266.0,
      "step": 14445
    },
    {
      "entropy": 1.6592636009057362,
      "epoch": 1.586965477465601,
      "grad_norm": 0.6557448506355286,
      "learning_rate": 3.940544074785483e-06,
      "loss": 1.3152,
      "mean_token_accuracy": 0.6723695049683253,
      "num_tokens": 2423356556.0,
      "step": 14446
    },
    {
      "entropy": 1.7335790693759918,
      "epoch": 1.5870753343769741,
      "grad_norm": 0.7295007109642029,
      "learning_rate": 3.939551045449432e-06,
      "loss": 1.5265,
      "mean_token_accuracy": 0.6430895005663236,
      "num_tokens": 2423517951.0,
      "step": 14447
    },
    {
      "entropy": 1.7022380630175273,
      "epoch": 1.5871851912883468,
      "grad_norm": 0.6990877389907837,
      "learning_rate": 3.938558239573408e-06,
      "loss": 1.4924,
      "mean_token_accuracy": 0.6644400457541147,
      "num_tokens": 2423670051.0,
      "step": 14448
    },
    {
      "entropy": 1.7559547921021779,
      "epoch": 1.58729504819972,
      "grad_norm": 0.6705808639526367,
      "learning_rate": 3.937565657188838e-06,
      "loss": 1.5399,
      "mean_token_accuracy": 0.6576424241065979,
      "num_tokens": 2423823200.0,
      "step": 14449
    },
    {
      "entropy": 1.6872046788533528,
      "epoch": 1.5874049051110928,
      "grad_norm": 0.7224948406219482,
      "learning_rate": 3.93657329832713e-06,
      "loss": 1.261,
      "mean_token_accuracy": 0.6700985580682755,
      "num_tokens": 2423942075.0,
      "step": 14450
    },
    {
      "entropy": 1.707588940858841,
      "epoch": 1.5875147620224657,
      "grad_norm": 0.7525602579116821,
      "learning_rate": 3.935581163019694e-06,
      "loss": 1.4265,
      "mean_token_accuracy": 0.6589339872201284,
      "num_tokens": 2424120103.0,
      "step": 14451
    },
    {
      "entropy": 1.7470983068148296,
      "epoch": 1.5876246189338388,
      "grad_norm": 0.8434122800827026,
      "learning_rate": 3.9345892512979325e-06,
      "loss": 1.4399,
      "mean_token_accuracy": 0.6524594177802404,
      "num_tokens": 2424267471.0,
      "step": 14452
    },
    {
      "entropy": 1.7276219228903453,
      "epoch": 1.5877344758452117,
      "grad_norm": 0.6105454564094543,
      "learning_rate": 3.933597563193234e-06,
      "loss": 1.2936,
      "mean_token_accuracy": 0.6729495972394943,
      "num_tokens": 2424428446.0,
      "step": 14453
    },
    {
      "entropy": 1.6018980145454407,
      "epoch": 1.5878443327565845,
      "grad_norm": 0.6616988182067871,
      "learning_rate": 3.932606098736992e-06,
      "loss": 1.3709,
      "mean_token_accuracy": 0.6708630422751108,
      "num_tokens": 2424558299.0,
      "step": 14454
    },
    {
      "entropy": 1.6875403026739757,
      "epoch": 1.5879541896679576,
      "grad_norm": 0.7595418691635132,
      "learning_rate": 3.931614857960582e-06,
      "loss": 1.5471,
      "mean_token_accuracy": 0.6460252776741982,
      "num_tokens": 2424730586.0,
      "step": 14455
    },
    {
      "entropy": 1.7008586128552754,
      "epoch": 1.5880640465793303,
      "grad_norm": 0.7267166972160339,
      "learning_rate": 3.930623840895374e-06,
      "loss": 1.2598,
      "mean_token_accuracy": 0.6835194180409113,
      "num_tokens": 2424863946.0,
      "step": 14456
    },
    {
      "entropy": 1.7498765190442402,
      "epoch": 1.5881739034907034,
      "grad_norm": 0.7018238306045532,
      "learning_rate": 3.92963304757274e-06,
      "loss": 1.3719,
      "mean_token_accuracy": 0.6424062748750051,
      "num_tokens": 2425008200.0,
      "step": 14457
    },
    {
      "entropy": 1.6699590682983398,
      "epoch": 1.5882837604020763,
      "grad_norm": 0.660306453704834,
      "learning_rate": 3.928642478024032e-06,
      "loss": 1.3016,
      "mean_token_accuracy": 0.6737691263357798,
      "num_tokens": 2425187685.0,
      "step": 14458
    },
    {
      "entropy": 1.7022275626659393,
      "epoch": 1.5883936173134492,
      "grad_norm": 0.6317709684371948,
      "learning_rate": 3.927652132280601e-06,
      "loss": 1.3297,
      "mean_token_accuracy": 0.6666052093108495,
      "num_tokens": 2425320325.0,
      "step": 14459
    },
    {
      "entropy": 1.7465975681940715,
      "epoch": 1.5885034742248223,
      "grad_norm": 0.6987557411193848,
      "learning_rate": 3.926662010373794e-06,
      "loss": 1.3083,
      "mean_token_accuracy": 0.6656803041696548,
      "num_tokens": 2425430057.0,
      "step": 14460
    },
    {
      "entropy": 1.7197660605112712,
      "epoch": 1.588613331136195,
      "grad_norm": 0.6313250064849854,
      "learning_rate": 3.925672112334949e-06,
      "loss": 1.3808,
      "mean_token_accuracy": 0.6632373382647833,
      "num_tokens": 2425565518.0,
      "step": 14461
    },
    {
      "entropy": 1.6192362904548645,
      "epoch": 1.588723188047568,
      "grad_norm": 0.6355708241462708,
      "learning_rate": 3.924682438195394e-06,
      "loss": 1.2976,
      "mean_token_accuracy": 0.6806172430515289,
      "num_tokens": 2425722341.0,
      "step": 14462
    },
    {
      "entropy": 1.7012809813022614,
      "epoch": 1.588833044958941,
      "grad_norm": 0.6677663326263428,
      "learning_rate": 3.92369298798645e-06,
      "loss": 1.3461,
      "mean_token_accuracy": 0.6603120565414429,
      "num_tokens": 2425871674.0,
      "step": 14463
    },
    {
      "entropy": 1.6768560310204823,
      "epoch": 1.5889429018703138,
      "grad_norm": 0.6279048919677734,
      "learning_rate": 3.9227037617394345e-06,
      "loss": 1.2773,
      "mean_token_accuracy": 0.6672329306602478,
      "num_tokens": 2426021027.0,
      "step": 14464
    },
    {
      "entropy": 1.687048117319743,
      "epoch": 1.589052758781687,
      "grad_norm": 0.6013140678405762,
      "learning_rate": 3.921714759485657e-06,
      "loss": 1.4521,
      "mean_token_accuracy": 0.6478681514660517,
      "num_tokens": 2426196122.0,
      "step": 14465
    },
    {
      "entropy": 1.6956083178520203,
      "epoch": 1.5891626156930598,
      "grad_norm": 0.6516452431678772,
      "learning_rate": 3.920725981256416e-06,
      "loss": 1.4494,
      "mean_token_accuracy": 0.6545127183198929,
      "num_tokens": 2426380157.0,
      "step": 14466
    },
    {
      "entropy": 1.6591267784436543,
      "epoch": 1.5892724726044327,
      "grad_norm": 0.7242151498794556,
      "learning_rate": 3.9197374270830095e-06,
      "loss": 1.3716,
      "mean_token_accuracy": 0.671110580364863,
      "num_tokens": 2426507459.0,
      "step": 14467
    },
    {
      "entropy": 1.6566206415494282,
      "epoch": 1.5893823295158058,
      "grad_norm": 0.6785814166069031,
      "learning_rate": 3.918749096996721e-06,
      "loss": 1.4111,
      "mean_token_accuracy": 0.6570883542299271,
      "num_tokens": 2426673369.0,
      "step": 14468
    },
    {
      "entropy": 1.7064830362796783,
      "epoch": 1.5894921864271785,
      "grad_norm": 0.5841078758239746,
      "learning_rate": 3.917760991028835e-06,
      "loss": 1.5365,
      "mean_token_accuracy": 0.6401430120070776,
      "num_tokens": 2426884502.0,
      "step": 14469
    },
    {
      "entropy": 1.7302399973074596,
      "epoch": 1.5896020433385516,
      "grad_norm": 0.670065701007843,
      "learning_rate": 3.9167731092106225e-06,
      "loss": 1.2846,
      "mean_token_accuracy": 0.66989433268706,
      "num_tokens": 2427038641.0,
      "step": 14470
    },
    {
      "entropy": 1.693581352631251,
      "epoch": 1.5897119002499245,
      "grad_norm": 0.6922983527183533,
      "learning_rate": 3.915785451573346e-06,
      "loss": 1.3616,
      "mean_token_accuracy": 0.6663850297530493,
      "num_tokens": 2427197712.0,
      "step": 14471
    },
    {
      "entropy": 1.7170843879381816,
      "epoch": 1.5898217571612974,
      "grad_norm": 0.665672779083252,
      "learning_rate": 3.9147980181482685e-06,
      "loss": 1.5425,
      "mean_token_accuracy": 0.6393137524525324,
      "num_tokens": 2427387540.0,
      "step": 14472
    },
    {
      "entropy": 1.7163531581560771,
      "epoch": 1.5899316140726705,
      "grad_norm": 0.719980776309967,
      "learning_rate": 3.913810808966642e-06,
      "loss": 1.3993,
      "mean_token_accuracy": 0.6594651788473129,
      "num_tokens": 2427546679.0,
      "step": 14473
    },
    {
      "entropy": 1.739640901486079,
      "epoch": 1.5900414709840431,
      "grad_norm": 0.7251821756362915,
      "learning_rate": 3.9128238240597125e-06,
      "loss": 1.5654,
      "mean_token_accuracy": 0.6393600652615229,
      "num_tokens": 2427761624.0,
      "step": 14474
    },
    {
      "entropy": 1.6863900522391002,
      "epoch": 1.5901513278954162,
      "grad_norm": 0.5635016560554504,
      "learning_rate": 3.911837063458712e-06,
      "loss": 1.3514,
      "mean_token_accuracy": 0.663020983338356,
      "num_tokens": 2427936133.0,
      "step": 14475
    },
    {
      "entropy": 1.7012007733186085,
      "epoch": 1.5902611848067891,
      "grad_norm": 0.617427408695221,
      "learning_rate": 3.910850527194878e-06,
      "loss": 1.3294,
      "mean_token_accuracy": 0.6652300308148066,
      "num_tokens": 2428129442.0,
      "step": 14476
    },
    {
      "entropy": 1.6678180694580078,
      "epoch": 1.590371041718162,
      "grad_norm": 0.5885007381439209,
      "learning_rate": 3.9098642152994295e-06,
      "loss": 1.2837,
      "mean_token_accuracy": 0.6684055576721827,
      "num_tokens": 2428271086.0,
      "step": 14477
    },
    {
      "entropy": 1.7171485026677449,
      "epoch": 1.5904808986295351,
      "grad_norm": 0.9225579500198364,
      "learning_rate": 3.90887812780358e-06,
      "loss": 1.3262,
      "mean_token_accuracy": 0.6671409706274668,
      "num_tokens": 2428414176.0,
      "step": 14478
    },
    {
      "entropy": 1.645038495461146,
      "epoch": 1.590590755540908,
      "grad_norm": 0.6282086372375488,
      "learning_rate": 3.907892264738546e-06,
      "loss": 1.3399,
      "mean_token_accuracy": 0.6648639589548111,
      "num_tokens": 2428564196.0,
      "step": 14479
    },
    {
      "entropy": 1.69185275832812,
      "epoch": 1.590700612452281,
      "grad_norm": 0.6884506344795227,
      "learning_rate": 3.9069066261355235e-06,
      "loss": 1.4349,
      "mean_token_accuracy": 0.6530876805384954,
      "num_tokens": 2428744290.0,
      "step": 14480
    },
    {
      "entropy": 1.6777120033899944,
      "epoch": 1.590810469363654,
      "grad_norm": 0.6747894883155823,
      "learning_rate": 3.905921212025712e-06,
      "loss": 1.2716,
      "mean_token_accuracy": 0.6761378745237986,
      "num_tokens": 2428886772.0,
      "step": 14481
    },
    {
      "entropy": 1.7333306272824605,
      "epoch": 1.5909203262750267,
      "grad_norm": 0.7000220417976379,
      "learning_rate": 3.904936022440299e-06,
      "loss": 1.4266,
      "mean_token_accuracy": 0.6612260987361273,
      "num_tokens": 2429022815.0,
      "step": 14482
    },
    {
      "entropy": 1.7049691180388133,
      "epoch": 1.5910301831863998,
      "grad_norm": 0.678167462348938,
      "learning_rate": 3.90395105741046e-06,
      "loss": 1.5999,
      "mean_token_accuracy": 0.6353818227847418,
      "num_tokens": 2429194580.0,
      "step": 14483
    },
    {
      "entropy": 1.7223326464494069,
      "epoch": 1.5911400400977727,
      "grad_norm": 0.6117254495620728,
      "learning_rate": 3.9029663169673726e-06,
      "loss": 1.4239,
      "mean_token_accuracy": 0.6493904888629913,
      "num_tokens": 2429410711.0,
      "step": 14484
    },
    {
      "entropy": 1.721522440512975,
      "epoch": 1.5912498970091455,
      "grad_norm": 1.1732066869735718,
      "learning_rate": 3.901981801142206e-06,
      "loss": 1.3452,
      "mean_token_accuracy": 0.6608117173115412,
      "num_tokens": 2429595212.0,
      "step": 14485
    },
    {
      "entropy": 1.7386885285377502,
      "epoch": 1.5913597539205186,
      "grad_norm": 0.7604197263717651,
      "learning_rate": 3.900997509966116e-06,
      "loss": 1.2881,
      "mean_token_accuracy": 0.680141399304072,
      "num_tokens": 2429725832.0,
      "step": 14486
    },
    {
      "entropy": 1.673358937104543,
      "epoch": 1.5914696108318913,
      "grad_norm": 0.676415741443634,
      "learning_rate": 3.9000134434702546e-06,
      "loss": 1.3912,
      "mean_token_accuracy": 0.6618489970763525,
      "num_tokens": 2429905266.0,
      "step": 14487
    },
    {
      "entropy": 1.7429005404313405,
      "epoch": 1.5915794677432644,
      "grad_norm": 0.6558493971824646,
      "learning_rate": 3.899029601685771e-06,
      "loss": 1.4027,
      "mean_token_accuracy": 0.658114567399025,
      "num_tokens": 2430082783.0,
      "step": 14488
    },
    {
      "entropy": 1.7437707682450612,
      "epoch": 1.5916893246546373,
      "grad_norm": 0.7400485277175903,
      "learning_rate": 3.8980459846438e-06,
      "loss": 1.3969,
      "mean_token_accuracy": 0.6684872756401697,
      "num_tokens": 2430232038.0,
      "step": 14489
    },
    {
      "entropy": 1.6967511971791585,
      "epoch": 1.5917991815660102,
      "grad_norm": 0.9593654870986938,
      "learning_rate": 3.89706259237547e-06,
      "loss": 1.4267,
      "mean_token_accuracy": 0.6613242427508036,
      "num_tokens": 2430407393.0,
      "step": 14490
    },
    {
      "entropy": 1.726237694422404,
      "epoch": 1.5919090384773833,
      "grad_norm": 0.6871761083602905,
      "learning_rate": 3.896079424911913e-06,
      "loss": 1.3982,
      "mean_token_accuracy": 0.6530379752318064,
      "num_tokens": 2430597598.0,
      "step": 14491
    },
    {
      "entropy": 1.660180926322937,
      "epoch": 1.5920188953887562,
      "grad_norm": 0.6090943813323975,
      "learning_rate": 3.895096482284238e-06,
      "loss": 1.3659,
      "mean_token_accuracy": 0.6511796166499456,
      "num_tokens": 2430787465.0,
      "step": 14492
    },
    {
      "entropy": 1.7284020980199177,
      "epoch": 1.592128752300129,
      "grad_norm": 0.7778229713439941,
      "learning_rate": 3.89411376452356e-06,
      "loss": 1.4237,
      "mean_token_accuracy": 0.6680044829845428,
      "num_tokens": 2430917537.0,
      "step": 14493
    },
    {
      "entropy": 1.6784189939498901,
      "epoch": 1.5922386092115022,
      "grad_norm": 0.5987834334373474,
      "learning_rate": 3.8931312716609784e-06,
      "loss": 1.494,
      "mean_token_accuracy": 0.627329871058464,
      "num_tokens": 2431184294.0,
      "step": 14494
    },
    {
      "entropy": 1.7303737103939056,
      "epoch": 1.5923484661228748,
      "grad_norm": 0.7138601541519165,
      "learning_rate": 3.892149003727589e-06,
      "loss": 1.5162,
      "mean_token_accuracy": 0.6275907506545385,
      "num_tokens": 2431349362.0,
      "step": 14495
    },
    {
      "entropy": 1.6458158493041992,
      "epoch": 1.592458323034248,
      "grad_norm": 0.6402990818023682,
      "learning_rate": 3.891166960754479e-06,
      "loss": 1.2598,
      "mean_token_accuracy": 0.6761557509501775,
      "num_tokens": 2431473143.0,
      "step": 14496
    },
    {
      "entropy": 1.6565284033616383,
      "epoch": 1.5925681799456208,
      "grad_norm": 0.631554126739502,
      "learning_rate": 3.890185142772735e-06,
      "loss": 1.4001,
      "mean_token_accuracy": 0.6604942381381989,
      "num_tokens": 2431643673.0,
      "step": 14497
    },
    {
      "entropy": 1.709353893995285,
      "epoch": 1.5926780368569937,
      "grad_norm": 0.6308357119560242,
      "learning_rate": 3.889203549813426e-06,
      "loss": 1.4271,
      "mean_token_accuracy": 0.6546412259340286,
      "num_tokens": 2431809228.0,
      "step": 14498
    },
    {
      "entropy": 1.7170674403508503,
      "epoch": 1.5927878937683668,
      "grad_norm": 0.6483573913574219,
      "learning_rate": 3.88822218190762e-06,
      "loss": 1.3596,
      "mean_token_accuracy": 0.6566579739252726,
      "num_tokens": 2431991019.0,
      "step": 14499
    },
    {
      "entropy": 1.7452252904574077,
      "epoch": 1.5928977506797395,
      "grad_norm": 0.6205641627311707,
      "learning_rate": 3.887241039086378e-06,
      "loss": 1.458,
      "mean_token_accuracy": 0.655206615726153,
      "num_tokens": 2432162864.0,
      "step": 14500
    },
    {
      "entropy": 1.738767405351003,
      "epoch": 1.5930076075911126,
      "grad_norm": 0.7384020686149597,
      "learning_rate": 3.886260121380752e-06,
      "loss": 1.4563,
      "mean_token_accuracy": 0.6525509854157766,
      "num_tokens": 2432321317.0,
      "step": 14501
    },
    {
      "entropy": 1.7347382108370464,
      "epoch": 1.5931174645024855,
      "grad_norm": 0.6322787404060364,
      "learning_rate": 3.88527942882179e-06,
      "loss": 1.3526,
      "mean_token_accuracy": 0.6609780540068945,
      "num_tokens": 2432460919.0,
      "step": 14502
    },
    {
      "entropy": 1.6986276010672252,
      "epoch": 1.5932273214138584,
      "grad_norm": 0.7408791780471802,
      "learning_rate": 3.884298961440523e-06,
      "loss": 1.3952,
      "mean_token_accuracy": 0.6573623418807983,
      "num_tokens": 2432607846.0,
      "step": 14503
    },
    {
      "entropy": 1.69478377699852,
      "epoch": 1.5933371783252315,
      "grad_norm": 0.6527783274650574,
      "learning_rate": 3.883318719267989e-06,
      "loss": 1.3336,
      "mean_token_accuracy": 0.6538981248935064,
      "num_tokens": 2432812759.0,
      "step": 14504
    },
    {
      "entropy": 1.6673340400060017,
      "epoch": 1.5934470352366044,
      "grad_norm": 0.7707885503768921,
      "learning_rate": 3.8823387023352125e-06,
      "loss": 1.4294,
      "mean_token_accuracy": 0.645869846145312,
      "num_tokens": 2432981544.0,
      "step": 14505
    },
    {
      "entropy": 1.634259045124054,
      "epoch": 1.5935568921479772,
      "grad_norm": 0.7244494557380676,
      "learning_rate": 3.881358910673208e-06,
      "loss": 1.3827,
      "mean_token_accuracy": 0.6569319466749827,
      "num_tokens": 2433143702.0,
      "step": 14506
    },
    {
      "entropy": 1.6752298176288605,
      "epoch": 1.5936667490593504,
      "grad_norm": 0.6288512349128723,
      "learning_rate": 3.880379344312985e-06,
      "loss": 1.305,
      "mean_token_accuracy": 0.6659407715002695,
      "num_tokens": 2433308563.0,
      "step": 14507
    },
    {
      "entropy": 1.6835540930430095,
      "epoch": 1.593776605970723,
      "grad_norm": 0.7133122682571411,
      "learning_rate": 3.879400003285551e-06,
      "loss": 1.4305,
      "mean_token_accuracy": 0.663516491651535,
      "num_tokens": 2433474529.0,
      "step": 14508
    },
    {
      "entropy": 1.713885635137558,
      "epoch": 1.5938864628820961,
      "grad_norm": 0.6772231459617615,
      "learning_rate": 3.878420887621894e-06,
      "loss": 1.2612,
      "mean_token_accuracy": 0.6778315901756287,
      "num_tokens": 2433580636.0,
      "step": 14509
    },
    {
      "entropy": 1.64861661195755,
      "epoch": 1.593996319793469,
      "grad_norm": 0.6854017972946167,
      "learning_rate": 3.8774419973530096e-06,
      "loss": 1.2963,
      "mean_token_accuracy": 0.6728779971599579,
      "num_tokens": 2433711203.0,
      "step": 14510
    },
    {
      "entropy": 1.6567076245943706,
      "epoch": 1.594106176704842,
      "grad_norm": 0.6105472445487976,
      "learning_rate": 3.876463332509878e-06,
      "loss": 1.3891,
      "mean_token_accuracy": 0.6490083237489065,
      "num_tokens": 2433910114.0,
      "step": 14511
    },
    {
      "entropy": 1.728460282087326,
      "epoch": 1.594216033616215,
      "grad_norm": 0.6174923777580261,
      "learning_rate": 3.8754848931234675e-06,
      "loss": 1.3485,
      "mean_token_accuracy": 0.6621581812699636,
      "num_tokens": 2434064870.0,
      "step": 14512
    },
    {
      "entropy": 1.686330407857895,
      "epoch": 1.5943258905275877,
      "grad_norm": 0.7254580855369568,
      "learning_rate": 3.8745066792247535e-06,
      "loss": 1.4355,
      "mean_token_accuracy": 0.6480583598216375,
      "num_tokens": 2434250206.0,
      "step": 14513
    },
    {
      "entropy": 1.712296078602473,
      "epoch": 1.5944357474389608,
      "grad_norm": 0.604725182056427,
      "learning_rate": 3.873528690844691e-06,
      "loss": 1.6318,
      "mean_token_accuracy": 0.6211173211534818,
      "num_tokens": 2434550589.0,
      "step": 14514
    },
    {
      "entropy": 1.736443022886912,
      "epoch": 1.5945456043503337,
      "grad_norm": 0.7887392640113831,
      "learning_rate": 3.872550928014233e-06,
      "loss": 1.4507,
      "mean_token_accuracy": 0.6484967370827993,
      "num_tokens": 2434689712.0,
      "step": 14515
    },
    {
      "entropy": 1.6901069581508636,
      "epoch": 1.5946554612617065,
      "grad_norm": 0.6353496313095093,
      "learning_rate": 3.871573390764326e-06,
      "loss": 1.3398,
      "mean_token_accuracy": 0.664913609623909,
      "num_tokens": 2434821889.0,
      "step": 14516
    },
    {
      "entropy": 1.737305094798406,
      "epoch": 1.5947653181730796,
      "grad_norm": 0.7598763704299927,
      "learning_rate": 3.870596079125911e-06,
      "loss": 1.6029,
      "mean_token_accuracy": 0.6363438367843628,
      "num_tokens": 2434981702.0,
      "step": 14517
    },
    {
      "entropy": 1.713841090599696,
      "epoch": 1.5948751750844525,
      "grad_norm": 0.7490180134773254,
      "learning_rate": 3.869618993129919e-06,
      "loss": 1.4271,
      "mean_token_accuracy": 0.6571142375469208,
      "num_tokens": 2435130128.0,
      "step": 14518
    },
    {
      "entropy": 1.7111783623695374,
      "epoch": 1.5949850319958254,
      "grad_norm": 0.6395829916000366,
      "learning_rate": 3.868642132807268e-06,
      "loss": 1.5478,
      "mean_token_accuracy": 0.6382935494184494,
      "num_tokens": 2435341990.0,
      "step": 14519
    },
    {
      "entropy": 1.7345607578754425,
      "epoch": 1.5950948889071985,
      "grad_norm": 0.6980369687080383,
      "learning_rate": 3.8676654981888835e-06,
      "loss": 1.453,
      "mean_token_accuracy": 0.6387426902850469,
      "num_tokens": 2435519614.0,
      "step": 14520
    },
    {
      "entropy": 1.657178282737732,
      "epoch": 1.5952047458185712,
      "grad_norm": 0.694017231464386,
      "learning_rate": 3.866689089305671e-06,
      "loss": 1.4342,
      "mean_token_accuracy": 0.6631875882546107,
      "num_tokens": 2435709231.0,
      "step": 14521
    },
    {
      "entropy": 1.6879088878631592,
      "epoch": 1.5953146027299443,
      "grad_norm": 0.7356616854667664,
      "learning_rate": 3.865712906188535e-06,
      "loss": 1.3698,
      "mean_token_accuracy": 0.6680235962073008,
      "num_tokens": 2435913341.0,
      "step": 14522
    },
    {
      "entropy": 1.6702347894509633,
      "epoch": 1.5954244596413172,
      "grad_norm": 0.6752198338508606,
      "learning_rate": 3.8647369488683725e-06,
      "loss": 1.3957,
      "mean_token_accuracy": 0.6607193052768707,
      "num_tokens": 2436123537.0,
      "step": 14523
    },
    {
      "entropy": 1.7805339296658833,
      "epoch": 1.59553431655269,
      "grad_norm": 0.6627401113510132,
      "learning_rate": 3.863761217376066e-06,
      "loss": 1.4888,
      "mean_token_accuracy": 0.6396598418553671,
      "num_tokens": 2436306893.0,
      "step": 14524
    },
    {
      "entropy": 1.6623384753863018,
      "epoch": 1.5956441734640632,
      "grad_norm": 0.702000617980957,
      "learning_rate": 3.862785711742505e-06,
      "loss": 1.4121,
      "mean_token_accuracy": 0.669417624672254,
      "num_tokens": 2436502954.0,
      "step": 14525
    },
    {
      "entropy": 1.6859069367249806,
      "epoch": 1.5957540303754358,
      "grad_norm": 0.6549301743507385,
      "learning_rate": 3.861810431998561e-06,
      "loss": 1.3679,
      "mean_token_accuracy": 0.6617111215988795,
      "num_tokens": 2436663539.0,
      "step": 14526
    },
    {
      "entropy": 1.7175857424736023,
      "epoch": 1.595863887286809,
      "grad_norm": 0.6823814511299133,
      "learning_rate": 3.860835378175095e-06,
      "loss": 1.3735,
      "mean_token_accuracy": 0.6544593870639801,
      "num_tokens": 2436807795.0,
      "step": 14527
    },
    {
      "entropy": 1.638688455025355,
      "epoch": 1.5959737441981818,
      "grad_norm": 0.7116491794586182,
      "learning_rate": 3.859860550302975e-06,
      "loss": 1.4848,
      "mean_token_accuracy": 0.6531452437241873,
      "num_tokens": 2436952648.0,
      "step": 14528
    },
    {
      "entropy": 1.8078931868076324,
      "epoch": 1.5960836011095547,
      "grad_norm": 0.7018418312072754,
      "learning_rate": 3.858885948413053e-06,
      "loss": 1.4072,
      "mean_token_accuracy": 0.6488349239031473,
      "num_tokens": 2437119533.0,
      "step": 14529
    },
    {
      "entropy": 1.682287057240804,
      "epoch": 1.5961934580209278,
      "grad_norm": 0.6741816401481628,
      "learning_rate": 3.857911572536171e-06,
      "loss": 1.4283,
      "mean_token_accuracy": 0.6353452255328497,
      "num_tokens": 2437396152.0,
      "step": 14530
    },
    {
      "entropy": 1.7795856694380443,
      "epoch": 1.5963033149323007,
      "grad_norm": 0.6997506022453308,
      "learning_rate": 3.8569374227031685e-06,
      "loss": 1.5904,
      "mean_token_accuracy": 0.6392437120278677,
      "num_tokens": 2437559139.0,
      "step": 14531
    },
    {
      "entropy": 1.6715736190478008,
      "epoch": 1.5964131718436736,
      "grad_norm": 0.7329205870628357,
      "learning_rate": 3.855963498944881e-06,
      "loss": 1.4854,
      "mean_token_accuracy": 0.6508821298678716,
      "num_tokens": 2437753550.0,
      "step": 14532
    },
    {
      "entropy": 1.7069322069485982,
      "epoch": 1.5965230287550467,
      "grad_norm": 0.6997405290603638,
      "learning_rate": 3.854989801292126e-06,
      "loss": 1.2177,
      "mean_token_accuracy": 0.6853279570738474,
      "num_tokens": 2437861866.0,
      "step": 14533
    },
    {
      "entropy": 1.7327150007088978,
      "epoch": 1.5966328856664194,
      "grad_norm": 0.8832059502601624,
      "learning_rate": 3.854016329775727e-06,
      "loss": 1.4684,
      "mean_token_accuracy": 0.6543268064657847,
      "num_tokens": 2438062320.0,
      "step": 14534
    },
    {
      "entropy": 1.7514649629592896,
      "epoch": 1.5967427425777925,
      "grad_norm": 0.5511615872383118,
      "learning_rate": 3.853043084426491e-06,
      "loss": 1.404,
      "mean_token_accuracy": 0.6429890592892965,
      "num_tokens": 2438275800.0,
      "step": 14535
    },
    {
      "entropy": 1.7066907584667206,
      "epoch": 1.5968525994891654,
      "grad_norm": 0.8445066213607788,
      "learning_rate": 3.852070065275219e-06,
      "loss": 1.1934,
      "mean_token_accuracy": 0.6857452293237051,
      "num_tokens": 2438398233.0,
      "step": 14536
    },
    {
      "entropy": 1.7238865693410237,
      "epoch": 1.5969624564005382,
      "grad_norm": 0.8096691966056824,
      "learning_rate": 3.85109727235271e-06,
      "loss": 1.3924,
      "mean_token_accuracy": 0.6637987395127615,
      "num_tokens": 2438542858.0,
      "step": 14537
    },
    {
      "entropy": 1.6195646623770397,
      "epoch": 1.5970723133119114,
      "grad_norm": 0.6838819980621338,
      "learning_rate": 3.8501247056897516e-06,
      "loss": 1.4494,
      "mean_token_accuracy": 0.6555087268352509,
      "num_tokens": 2438704318.0,
      "step": 14538
    },
    {
      "entropy": 1.7541901965936024,
      "epoch": 1.597182170223284,
      "grad_norm": 0.7576407790184021,
      "learning_rate": 3.849152365317122e-06,
      "loss": 1.4994,
      "mean_token_accuracy": 0.6444768408934275,
      "num_tokens": 2438875912.0,
      "step": 14539
    },
    {
      "entropy": 1.7162339687347412,
      "epoch": 1.5972920271346571,
      "grad_norm": 0.7209724187850952,
      "learning_rate": 3.848180251265598e-06,
      "loss": 1.509,
      "mean_token_accuracy": 0.6356743176778158,
      "num_tokens": 2439050609.0,
      "step": 14540
    },
    {
      "entropy": 1.69766765832901,
      "epoch": 1.59740188404603,
      "grad_norm": 0.7323725819587708,
      "learning_rate": 3.847208363565948e-06,
      "loss": 1.2303,
      "mean_token_accuracy": 0.681826040148735,
      "num_tokens": 2439160195.0,
      "step": 14541
    },
    {
      "entropy": 1.7064706285794575,
      "epoch": 1.597511740957403,
      "grad_norm": 0.7907741665840149,
      "learning_rate": 3.84623670224893e-06,
      "loss": 1.2365,
      "mean_token_accuracy": 0.673534115155538,
      "num_tokens": 2439296809.0,
      "step": 14542
    },
    {
      "entropy": 1.7028611103693645,
      "epoch": 1.597621597868776,
      "grad_norm": 0.6134085059165955,
      "learning_rate": 3.845265267345295e-06,
      "loss": 1.3897,
      "mean_token_accuracy": 0.6668266952037811,
      "num_tokens": 2439444265.0,
      "step": 14543
    },
    {
      "entropy": 1.7380881508191426,
      "epoch": 1.5977314547801489,
      "grad_norm": 0.668287456035614,
      "learning_rate": 3.844294058885793e-06,
      "loss": 1.3247,
      "mean_token_accuracy": 0.6577390929063162,
      "num_tokens": 2439575203.0,
      "step": 14544
    },
    {
      "entropy": 1.7180090347925823,
      "epoch": 1.5978413116915218,
      "grad_norm": 0.6699938774108887,
      "learning_rate": 3.843323076901159e-06,
      "loss": 1.3547,
      "mean_token_accuracy": 0.6593746840953827,
      "num_tokens": 2439717026.0,
      "step": 14545
    },
    {
      "entropy": 1.7316296100616455,
      "epoch": 1.5979511686028949,
      "grad_norm": 0.7291305661201477,
      "learning_rate": 3.842352321422122e-06,
      "loss": 1.5341,
      "mean_token_accuracy": 0.6648634423812231,
      "num_tokens": 2439859920.0,
      "step": 14546
    },
    {
      "entropy": 1.7074800829092662,
      "epoch": 1.5980610255142675,
      "grad_norm": 0.7385088205337524,
      "learning_rate": 3.841381792479412e-06,
      "loss": 1.4818,
      "mean_token_accuracy": 0.641268327832222,
      "num_tokens": 2440079130.0,
      "step": 14547
    },
    {
      "entropy": 1.7116615772247314,
      "epoch": 1.5981708824256406,
      "grad_norm": 0.6778597831726074,
      "learning_rate": 3.840411490103739e-06,
      "loss": 1.4609,
      "mean_token_accuracy": 0.6559257407983144,
      "num_tokens": 2440223981.0,
      "step": 14548
    },
    {
      "entropy": 1.7189983030160267,
      "epoch": 1.5982807393370135,
      "grad_norm": 0.5723182559013367,
      "learning_rate": 3.83944141432582e-06,
      "loss": 1.437,
      "mean_token_accuracy": 0.6461120347181956,
      "num_tokens": 2440395440.0,
      "step": 14549
    },
    {
      "entropy": 1.7937857309977214,
      "epoch": 1.5983905962483864,
      "grad_norm": 1.1871225833892822,
      "learning_rate": 3.838471565176353e-06,
      "loss": 1.5759,
      "mean_token_accuracy": 0.6486638983090719,
      "num_tokens": 2440517170.0,
      "step": 14550
    },
    {
      "entropy": 1.674616406361262,
      "epoch": 1.5985004531597595,
      "grad_norm": 0.5636810064315796,
      "learning_rate": 3.837501942686031e-06,
      "loss": 1.2935,
      "mean_token_accuracy": 0.6660540401935577,
      "num_tokens": 2440713057.0,
      "step": 14551
    },
    {
      "entropy": 1.5875491201877594,
      "epoch": 1.5986103100711322,
      "grad_norm": 0.7079348564147949,
      "learning_rate": 3.836532546885546e-06,
      "loss": 1.3004,
      "mean_token_accuracy": 0.6757344851891199,
      "num_tokens": 2440867258.0,
      "step": 14552
    },
    {
      "entropy": 1.7332369486490886,
      "epoch": 1.5987201669825053,
      "grad_norm": 0.6799494624137878,
      "learning_rate": 3.83556337780558e-06,
      "loss": 1.4675,
      "mean_token_accuracy": 0.6664691468079885,
      "num_tokens": 2441018581.0,
      "step": 14553
    },
    {
      "entropy": 1.7250041862328847,
      "epoch": 1.5988300238938782,
      "grad_norm": 0.6802073121070862,
      "learning_rate": 3.834594435476805e-06,
      "loss": 1.4498,
      "mean_token_accuracy": 0.6497951696316401,
      "num_tokens": 2441215526.0,
      "step": 14554
    },
    {
      "entropy": 1.6998497645060222,
      "epoch": 1.598939880805251,
      "grad_norm": 0.8127340078353882,
      "learning_rate": 3.8336257199298845e-06,
      "loss": 1.4345,
      "mean_token_accuracy": 0.6507293184598287,
      "num_tokens": 2441379883.0,
      "step": 14555
    },
    {
      "entropy": 1.7047206560770671,
      "epoch": 1.5990497377166242,
      "grad_norm": 0.6116032004356384,
      "learning_rate": 3.832657231195483e-06,
      "loss": 1.4392,
      "mean_token_accuracy": 0.6522220075130463,
      "num_tokens": 2441556694.0,
      "step": 14556
    },
    {
      "entropy": 1.6925352116425831,
      "epoch": 1.599159594627997,
      "grad_norm": 0.6775454878807068,
      "learning_rate": 3.83168896930425e-06,
      "loss": 1.3527,
      "mean_token_accuracy": 0.6680527776479721,
      "num_tokens": 2441706254.0,
      "step": 14557
    },
    {
      "entropy": 1.695090264081955,
      "epoch": 1.59926945153937,
      "grad_norm": 0.633358359336853,
      "learning_rate": 3.8307209342868294e-06,
      "loss": 1.3081,
      "mean_token_accuracy": 0.664101724823316,
      "num_tokens": 2441841173.0,
      "step": 14558
    },
    {
      "entropy": 1.70580060283343,
      "epoch": 1.599379308450743,
      "grad_norm": 0.7494609951972961,
      "learning_rate": 3.8297531261738626e-06,
      "loss": 1.37,
      "mean_token_accuracy": 0.6554321199655533,
      "num_tokens": 2441999550.0,
      "step": 14559
    },
    {
      "entropy": 1.682591011126836,
      "epoch": 1.5994891653621157,
      "grad_norm": 0.6495206952095032,
      "learning_rate": 3.828785544995977e-06,
      "loss": 1.4213,
      "mean_token_accuracy": 0.6555017977952957,
      "num_tokens": 2442176523.0,
      "step": 14560
    },
    {
      "entropy": 1.7068423926830292,
      "epoch": 1.5995990222734888,
      "grad_norm": 0.7015541195869446,
      "learning_rate": 3.827818190783799e-06,
      "loss": 1.3814,
      "mean_token_accuracy": 0.6704583317041397,
      "num_tokens": 2442314778.0,
      "step": 14561
    },
    {
      "entropy": 1.6887734134991963,
      "epoch": 1.5997088791848617,
      "grad_norm": 0.5791016817092896,
      "learning_rate": 3.826851063567943e-06,
      "loss": 1.4871,
      "mean_token_accuracy": 0.6437655538320541,
      "num_tokens": 2442514913.0,
      "step": 14562
    },
    {
      "entropy": 1.7405428489049275,
      "epoch": 1.5998187360962346,
      "grad_norm": 0.7147680521011353,
      "learning_rate": 3.825884163379017e-06,
      "loss": 1.3649,
      "mean_token_accuracy": 0.6673022856314977,
      "num_tokens": 2442648604.0,
      "step": 14563
    },
    {
      "entropy": 1.7529491583506267,
      "epoch": 1.5999285930076077,
      "grad_norm": 0.5654240250587463,
      "learning_rate": 3.824917490247625e-06,
      "loss": 1.4984,
      "mean_token_accuracy": 0.6382785141468048,
      "num_tokens": 2442869846.0,
      "step": 14564
    },
    {
      "entropy": 1.6878890097141266,
      "epoch": 1.6000384499189804,
      "grad_norm": 0.7083843350410461,
      "learning_rate": 3.823951044204361e-06,
      "loss": 1.3488,
      "mean_token_accuracy": 0.6723784406979879,
      "num_tokens": 2443030206.0,
      "step": 14565
    },
    {
      "entropy": 1.7418665091196697,
      "epoch": 1.6001483068303535,
      "grad_norm": 0.6479423642158508,
      "learning_rate": 3.822984825279814e-06,
      "loss": 1.3768,
      "mean_token_accuracy": 0.6521689047416052,
      "num_tokens": 2443196472.0,
      "step": 14566
    },
    {
      "entropy": 1.7459342181682587,
      "epoch": 1.6002581637417264,
      "grad_norm": 0.758888304233551,
      "learning_rate": 3.822018833504564e-06,
      "loss": 1.2715,
      "mean_token_accuracy": 0.6687377045551935,
      "num_tokens": 2443326770.0,
      "step": 14567
    },
    {
      "entropy": 1.6872256497542064,
      "epoch": 1.6003680206530992,
      "grad_norm": 0.5410403609275818,
      "learning_rate": 3.821053068909182e-06,
      "loss": 1.4807,
      "mean_token_accuracy": 0.6485924671093622,
      "num_tokens": 2443565031.0,
      "step": 14568
    },
    {
      "entropy": 1.6879334946473439,
      "epoch": 1.6004778775644724,
      "grad_norm": 0.68756103515625,
      "learning_rate": 3.820087531524236e-06,
      "loss": 1.3248,
      "mean_token_accuracy": 0.6751703520615896,
      "num_tokens": 2443702467.0,
      "step": 14569
    },
    {
      "entropy": 1.7088148792584736,
      "epoch": 1.6005877344758452,
      "grad_norm": 0.6238970756530762,
      "learning_rate": 3.819122221380284e-06,
      "loss": 1.3777,
      "mean_token_accuracy": 0.6487255543470383,
      "num_tokens": 2443858226.0,
      "step": 14570
    },
    {
      "entropy": 1.7447780867417653,
      "epoch": 1.6006975913872181,
      "grad_norm": 0.7313827872276306,
      "learning_rate": 3.818157138507878e-06,
      "loss": 1.4983,
      "mean_token_accuracy": 0.6436322331428528,
      "num_tokens": 2444051433.0,
      "step": 14571
    },
    {
      "entropy": 1.6420711676279705,
      "epoch": 1.6008074482985912,
      "grad_norm": 0.7198586463928223,
      "learning_rate": 3.817192282937561e-06,
      "loss": 1.4051,
      "mean_token_accuracy": 0.6673461546500524,
      "num_tokens": 2444215820.0,
      "step": 14572
    },
    {
      "entropy": 1.7294553816318512,
      "epoch": 1.600917305209964,
      "grad_norm": 0.7166528105735779,
      "learning_rate": 3.816227654699873e-06,
      "loss": 1.5608,
      "mean_token_accuracy": 0.6288095712661743,
      "num_tokens": 2444425376.0,
      "step": 14573
    },
    {
      "entropy": 1.750697026650111,
      "epoch": 1.601027162121337,
      "grad_norm": 0.6765901446342468,
      "learning_rate": 3.815263253825344e-06,
      "loss": 1.3493,
      "mean_token_accuracy": 0.6524553100268046,
      "num_tokens": 2444541889.0,
      "step": 14574
    },
    {
      "entropy": 1.749423881371816,
      "epoch": 1.6011370190327099,
      "grad_norm": 0.7044322490692139,
      "learning_rate": 3.8142990803444935e-06,
      "loss": 1.4577,
      "mean_token_accuracy": 0.6440982123215994,
      "num_tokens": 2444719105.0,
      "step": 14575
    },
    {
      "entropy": 1.7084167798360188,
      "epoch": 1.6012468759440828,
      "grad_norm": 0.7361584305763245,
      "learning_rate": 3.8133351342878393e-06,
      "loss": 1.5912,
      "mean_token_accuracy": 0.6365940769513448,
      "num_tokens": 2444993446.0,
      "step": 14576
    },
    {
      "entropy": 1.7147212425867717,
      "epoch": 1.6013567328554559,
      "grad_norm": 0.6779691576957703,
      "learning_rate": 3.8123714156858886e-06,
      "loss": 1.2403,
      "mean_token_accuracy": 0.6808453897635142,
      "num_tokens": 2445124199.0,
      "step": 14577
    },
    {
      "entropy": 1.671504944562912,
      "epoch": 1.6014665897668285,
      "grad_norm": 0.6467366814613342,
      "learning_rate": 3.8114079245691473e-06,
      "loss": 1.3685,
      "mean_token_accuracy": 0.6617433130741119,
      "num_tokens": 2445279228.0,
      "step": 14578
    },
    {
      "entropy": 1.7411832610766094,
      "epoch": 1.6015764466782016,
      "grad_norm": 0.6643005609512329,
      "learning_rate": 3.810444660968104e-06,
      "loss": 1.4469,
      "mean_token_accuracy": 0.6542666604121526,
      "num_tokens": 2445408287.0,
      "step": 14579
    },
    {
      "entropy": 1.605327715476354,
      "epoch": 1.6016863035895745,
      "grad_norm": 0.6111404299736023,
      "learning_rate": 3.809481624913246e-06,
      "loss": 1.3451,
      "mean_token_accuracy": 0.6663858542839686,
      "num_tokens": 2445582266.0,
      "step": 14580
    },
    {
      "entropy": 1.7256748775641124,
      "epoch": 1.6017961605009474,
      "grad_norm": 0.6152947545051575,
      "learning_rate": 3.8085188164350574e-06,
      "loss": 1.3795,
      "mean_token_accuracy": 0.651614765326182,
      "num_tokens": 2445723827.0,
      "step": 14581
    },
    {
      "entropy": 1.7151028116544087,
      "epoch": 1.6019060174123205,
      "grad_norm": 0.6862490773200989,
      "learning_rate": 3.8075562355640066e-06,
      "loss": 1.3588,
      "mean_token_accuracy": 0.6671392222245535,
      "num_tokens": 2445884515.0,
      "step": 14582
    },
    {
      "entropy": 1.7010668416817982,
      "epoch": 1.6020158743236934,
      "grad_norm": 0.6362306475639343,
      "learning_rate": 3.806593882330558e-06,
      "loss": 1.5877,
      "mean_token_accuracy": 0.6236594518025717,
      "num_tokens": 2446102916.0,
      "step": 14583
    },
    {
      "entropy": 1.7054578860600789,
      "epoch": 1.6021257312350663,
      "grad_norm": 0.686418890953064,
      "learning_rate": 3.8056317567651723e-06,
      "loss": 1.4425,
      "mean_token_accuracy": 0.6407395700613657,
      "num_tokens": 2446306735.0,
      "step": 14584
    },
    {
      "entropy": 1.720127671957016,
      "epoch": 1.6022355881464394,
      "grad_norm": 0.706402599811554,
      "learning_rate": 3.804669858898301e-06,
      "loss": 1.4191,
      "mean_token_accuracy": 0.6532514144976934,
      "num_tokens": 2446492829.0,
      "step": 14585
    },
    {
      "entropy": 1.673651397228241,
      "epoch": 1.602345445057812,
      "grad_norm": 0.6456170678138733,
      "learning_rate": 3.803708188760387e-06,
      "loss": 1.3936,
      "mean_token_accuracy": 0.6565722078084946,
      "num_tokens": 2446673307.0,
      "step": 14586
    },
    {
      "entropy": 1.7640669147173564,
      "epoch": 1.6024553019691852,
      "grad_norm": 0.7029922604560852,
      "learning_rate": 3.8027467463818636e-06,
      "loss": 1.4321,
      "mean_token_accuracy": 0.6552887161572775,
      "num_tokens": 2446854256.0,
      "step": 14587
    },
    {
      "entropy": 1.7160078982512157,
      "epoch": 1.602565158880558,
      "grad_norm": 0.6183205842971802,
      "learning_rate": 3.801785531793164e-06,
      "loss": 1.5031,
      "mean_token_accuracy": 0.6445142378409704,
      "num_tokens": 2447091822.0,
      "step": 14588
    },
    {
      "entropy": 1.7458133002122243,
      "epoch": 1.602675015791931,
      "grad_norm": 0.6344084739685059,
      "learning_rate": 3.8008245450247085e-06,
      "loss": 1.4217,
      "mean_token_accuracy": 0.6480998347202936,
      "num_tokens": 2447275539.0,
      "step": 14589
    },
    {
      "entropy": 1.7621017297108967,
      "epoch": 1.602784872703304,
      "grad_norm": 0.6531854867935181,
      "learning_rate": 3.799863786106912e-06,
      "loss": 1.4966,
      "mean_token_accuracy": 0.6346394668022791,
      "num_tokens": 2447496350.0,
      "step": 14590
    },
    {
      "entropy": 1.6988888482252757,
      "epoch": 1.602894729614677,
      "grad_norm": 0.6750460267066956,
      "learning_rate": 3.798903255070184e-06,
      "loss": 1.4873,
      "mean_token_accuracy": 0.6548330287138621,
      "num_tokens": 2447678997.0,
      "step": 14591
    },
    {
      "entropy": 1.6446965634822845,
      "epoch": 1.6030045865260498,
      "grad_norm": 0.7351519465446472,
      "learning_rate": 3.79794295194492e-06,
      "loss": 1.3521,
      "mean_token_accuracy": 0.6712757696708044,
      "num_tokens": 2447824026.0,
      "step": 14592
    },
    {
      "entropy": 1.701996664206187,
      "epoch": 1.6031144434374227,
      "grad_norm": 0.6086641550064087,
      "learning_rate": 3.796982876761518e-06,
      "loss": 1.3741,
      "mean_token_accuracy": 0.6470549603303274,
      "num_tokens": 2448040359.0,
      "step": 14593
    },
    {
      "entropy": 1.7051210800806682,
      "epoch": 1.6032243003487956,
      "grad_norm": 0.6576172113418579,
      "learning_rate": 3.7960230295503636e-06,
      "loss": 1.4443,
      "mean_token_accuracy": 0.6446033616860708,
      "num_tokens": 2448249961.0,
      "step": 14594
    },
    {
      "entropy": 1.6408964693546295,
      "epoch": 1.6033341572601687,
      "grad_norm": 0.6409726738929749,
      "learning_rate": 3.7950634103418307e-06,
      "loss": 1.3604,
      "mean_token_accuracy": 0.6675408234198889,
      "num_tokens": 2448420205.0,
      "step": 14595
    },
    {
      "entropy": 1.7251879175504048,
      "epoch": 1.6034440141715416,
      "grad_norm": 0.5918386578559875,
      "learning_rate": 3.7941040191662943e-06,
      "loss": 1.5234,
      "mean_token_accuracy": 0.6395444025595983,
      "num_tokens": 2448625696.0,
      "step": 14596
    },
    {
      "entropy": 1.6319251755873363,
      "epoch": 1.6035538710829145,
      "grad_norm": 0.9376781582832336,
      "learning_rate": 3.793144856054122e-06,
      "loss": 1.3813,
      "mean_token_accuracy": 0.6574216683705648,
      "num_tokens": 2448787918.0,
      "step": 14597
    },
    {
      "entropy": 1.6945286591847737,
      "epoch": 1.6036637279942876,
      "grad_norm": 0.7240238785743713,
      "learning_rate": 3.7921859210356664e-06,
      "loss": 1.4856,
      "mean_token_accuracy": 0.6500385651985804,
      "num_tokens": 2448973971.0,
      "step": 14598
    },
    {
      "entropy": 1.6881266335646312,
      "epoch": 1.6037735849056602,
      "grad_norm": 0.6214616298675537,
      "learning_rate": 3.7912272141412767e-06,
      "loss": 1.3828,
      "mean_token_accuracy": 0.6629806409279505,
      "num_tokens": 2449114059.0,
      "step": 14599
    },
    {
      "entropy": 1.6800266206264496,
      "epoch": 1.6038834418170334,
      "grad_norm": 0.8281370401382446,
      "learning_rate": 3.7902687354012998e-06,
      "loss": 1.4063,
      "mean_token_accuracy": 0.6595364113648733,
      "num_tokens": 2449278084.0,
      "step": 14600
    },
    {
      "entropy": 1.739363302787145,
      "epoch": 1.6039932987284062,
      "grad_norm": 0.6671850085258484,
      "learning_rate": 3.789310484846065e-06,
      "loss": 1.4597,
      "mean_token_accuracy": 0.6446760495503744,
      "num_tokens": 2449536151.0,
      "step": 14601
    },
    {
      "entropy": 1.6971477965513866,
      "epoch": 1.6041031556397791,
      "grad_norm": 0.7448716163635254,
      "learning_rate": 3.7883524625059075e-06,
      "loss": 1.2988,
      "mean_token_accuracy": 0.6720754504203796,
      "num_tokens": 2449693777.0,
      "step": 14602
    },
    {
      "entropy": 1.7345844606558483,
      "epoch": 1.6042130125511522,
      "grad_norm": 0.7584978342056274,
      "learning_rate": 3.7873946684111452e-06,
      "loss": 1.2274,
      "mean_token_accuracy": 0.6714150657256445,
      "num_tokens": 2449794928.0,
      "step": 14603
    },
    {
      "entropy": 1.7422133386135101,
      "epoch": 1.6043228694625251,
      "grad_norm": 0.7101638317108154,
      "learning_rate": 3.78643710259209e-06,
      "loss": 1.3554,
      "mean_token_accuracy": 0.6665351639191309,
      "num_tokens": 2449911300.0,
      "step": 14604
    },
    {
      "entropy": 1.7503991921742756,
      "epoch": 1.604432726373898,
      "grad_norm": 0.716066837310791,
      "learning_rate": 3.78547976507905e-06,
      "loss": 1.2696,
      "mean_token_accuracy": 0.6812546650568644,
      "num_tokens": 2450077891.0,
      "step": 14605
    },
    {
      "entropy": 1.7393498420715332,
      "epoch": 1.6045425832852709,
      "grad_norm": 0.7485668659210205,
      "learning_rate": 3.7845226559023256e-06,
      "loss": 1.3663,
      "mean_token_accuracy": 0.6589196572701136,
      "num_tokens": 2450221382.0,
      "step": 14606
    },
    {
      "entropy": 1.73830442627271,
      "epoch": 1.6046524401966438,
      "grad_norm": 0.6657488346099854,
      "learning_rate": 3.783565775092206e-06,
      "loss": 1.4914,
      "mean_token_accuracy": 0.6288889646530151,
      "num_tokens": 2450418829.0,
      "step": 14607
    },
    {
      "entropy": 1.659916838010152,
      "epoch": 1.6047622971080169,
      "grad_norm": 0.7344122529029846,
      "learning_rate": 3.7826091226789772e-06,
      "loss": 1.4672,
      "mean_token_accuracy": 0.6499627828598022,
      "num_tokens": 2450595410.0,
      "step": 14608
    },
    {
      "entropy": 1.7361893852551777,
      "epoch": 1.6048721540193898,
      "grad_norm": 0.7069867253303528,
      "learning_rate": 3.7816526986929203e-06,
      "loss": 1.3449,
      "mean_token_accuracy": 0.657584935426712,
      "num_tokens": 2450744883.0,
      "step": 14609
    },
    {
      "entropy": 1.7976744870344799,
      "epoch": 1.6049820109307626,
      "grad_norm": 0.6963937878608704,
      "learning_rate": 3.780696503164303e-06,
      "loss": 1.5181,
      "mean_token_accuracy": 0.6381178746620814,
      "num_tokens": 2450900651.0,
      "step": 14610
    },
    {
      "entropy": 1.6914178828398387,
      "epoch": 1.6050918678421358,
      "grad_norm": 0.6201428771018982,
      "learning_rate": 3.7797405361233853e-06,
      "loss": 1.5151,
      "mean_token_accuracy": 0.6491784354050955,
      "num_tokens": 2451111106.0,
      "step": 14611
    },
    {
      "entropy": 1.6507742206255596,
      "epoch": 1.6052017247535084,
      "grad_norm": 0.737235963344574,
      "learning_rate": 3.7787847976004277e-06,
      "loss": 1.2467,
      "mean_token_accuracy": 0.6868196477492651,
      "num_tokens": 2451234221.0,
      "step": 14612
    },
    {
      "entropy": 1.661937306324641,
      "epoch": 1.6053115816648815,
      "grad_norm": 0.6396856904029846,
      "learning_rate": 3.7778292876256762e-06,
      "loss": 1.4216,
      "mean_token_accuracy": 0.6528457701206207,
      "num_tokens": 2451452229.0,
      "step": 14613
    },
    {
      "entropy": 1.6698509057362874,
      "epoch": 1.6054214385762544,
      "grad_norm": 0.7439182996749878,
      "learning_rate": 3.776874006229376e-06,
      "loss": 1.3751,
      "mean_token_accuracy": 0.6656199296315511,
      "num_tokens": 2451611210.0,
      "step": 14614
    },
    {
      "entropy": 1.7334049840768178,
      "epoch": 1.6055312954876273,
      "grad_norm": 0.7342074513435364,
      "learning_rate": 3.7759189534417575e-06,
      "loss": 1.3407,
      "mean_token_accuracy": 0.6541020025809606,
      "num_tokens": 2451748585.0,
      "step": 14615
    },
    {
      "entropy": 1.6244231363137562,
      "epoch": 1.6056411523990004,
      "grad_norm": 0.6952174305915833,
      "learning_rate": 3.774964129293046e-06,
      "loss": 1.3148,
      "mean_token_accuracy": 0.6725502957900366,
      "num_tokens": 2451912029.0,
      "step": 14616
    },
    {
      "entropy": 1.6656245787938435,
      "epoch": 1.6057510093103733,
      "grad_norm": 0.6574463248252869,
      "learning_rate": 3.7740095338134684e-06,
      "loss": 1.3002,
      "mean_token_accuracy": 0.67449023326238,
      "num_tokens": 2452048004.0,
      "step": 14617
    },
    {
      "entropy": 1.643865704536438,
      "epoch": 1.6058608662217462,
      "grad_norm": 0.814515233039856,
      "learning_rate": 3.7730551670332317e-06,
      "loss": 1.4194,
      "mean_token_accuracy": 0.6575757165749868,
      "num_tokens": 2452173933.0,
      "step": 14618
    },
    {
      "entropy": 1.7123675048351288,
      "epoch": 1.605970723133119,
      "grad_norm": 0.6425331830978394,
      "learning_rate": 3.7721010289825398e-06,
      "loss": 1.3976,
      "mean_token_accuracy": 0.6674291491508484,
      "num_tokens": 2452314391.0,
      "step": 14619
    },
    {
      "entropy": 1.688428372144699,
      "epoch": 1.606080580044492,
      "grad_norm": 0.6733593344688416,
      "learning_rate": 3.771147119691595e-06,
      "loss": 1.3977,
      "mean_token_accuracy": 0.6623414903879166,
      "num_tokens": 2452466205.0,
      "step": 14620
    },
    {
      "entropy": 1.7384653389453888,
      "epoch": 1.606190436955865,
      "grad_norm": 0.7183213829994202,
      "learning_rate": 3.7701934391905883e-06,
      "loss": 1.5537,
      "mean_token_accuracy": 0.6303740590810776,
      "num_tokens": 2452659090.0,
      "step": 14621
    },
    {
      "entropy": 1.698512186606725,
      "epoch": 1.606300293867238,
      "grad_norm": 0.6138864755630493,
      "learning_rate": 3.769239987509701e-06,
      "loss": 1.4726,
      "mean_token_accuracy": 0.6334889431794485,
      "num_tokens": 2452852526.0,
      "step": 14622
    },
    {
      "entropy": 1.7259888648986816,
      "epoch": 1.6064101507786108,
      "grad_norm": 0.6284215450286865,
      "learning_rate": 3.768286764679109e-06,
      "loss": 1.3779,
      "mean_token_accuracy": 0.652561808625857,
      "num_tokens": 2453015973.0,
      "step": 14623
    },
    {
      "entropy": 1.7250304917494457,
      "epoch": 1.606520007689984,
      "grad_norm": 0.6159952282905579,
      "learning_rate": 3.767333770728981e-06,
      "loss": 1.3785,
      "mean_token_accuracy": 0.6558371136585871,
      "num_tokens": 2453166510.0,
      "step": 14624
    },
    {
      "entropy": 1.7731029192606609,
      "epoch": 1.6066298646013566,
      "grad_norm": 0.7708766460418701,
      "learning_rate": 3.766381005689481e-06,
      "loss": 1.5243,
      "mean_token_accuracy": 0.63959468404452,
      "num_tokens": 2453377002.0,
      "step": 14625
    },
    {
      "entropy": 1.7134467959403992,
      "epoch": 1.6067397215127297,
      "grad_norm": 0.6083643436431885,
      "learning_rate": 3.7654284695907638e-06,
      "loss": 1.3713,
      "mean_token_accuracy": 0.666517436504364,
      "num_tokens": 2453534002.0,
      "step": 14626
    },
    {
      "entropy": 1.695216139157613,
      "epoch": 1.6068495784241026,
      "grad_norm": 0.8802637457847595,
      "learning_rate": 3.7644761624629745e-06,
      "loss": 1.2867,
      "mean_token_accuracy": 0.6799248705307642,
      "num_tokens": 2453662704.0,
      "step": 14627
    },
    {
      "entropy": 1.7392724752426147,
      "epoch": 1.6069594353354755,
      "grad_norm": 0.8451277613639832,
      "learning_rate": 3.763524084336252e-06,
      "loss": 1.4013,
      "mean_token_accuracy": 0.6632727136214575,
      "num_tokens": 2453811717.0,
      "step": 14628
    },
    {
      "entropy": 1.727136602004369,
      "epoch": 1.6070692922468486,
      "grad_norm": 0.7121945023536682,
      "learning_rate": 3.7625722352407348e-06,
      "loss": 1.3258,
      "mean_token_accuracy": 0.6634857207536697,
      "num_tokens": 2453989012.0,
      "step": 14629
    },
    {
      "entropy": 1.629335989554723,
      "epoch": 1.6071791491582215,
      "grad_norm": 1.1426151990890503,
      "learning_rate": 3.761620615206544e-06,
      "loss": 1.4052,
      "mean_token_accuracy": 0.660635307431221,
      "num_tokens": 2454190517.0,
      "step": 14630
    },
    {
      "entropy": 1.6815782884756725,
      "epoch": 1.6072890060695944,
      "grad_norm": 0.7410414814949036,
      "learning_rate": 3.760669224263798e-06,
      "loss": 1.387,
      "mean_token_accuracy": 0.6496629069248835,
      "num_tokens": 2454362336.0,
      "step": 14631
    },
    {
      "entropy": 1.7174339493115742,
      "epoch": 1.6073988629809672,
      "grad_norm": 0.7126834988594055,
      "learning_rate": 3.7597180624426106e-06,
      "loss": 1.4129,
      "mean_token_accuracy": 0.6453147878249487,
      "num_tokens": 2454534467.0,
      "step": 14632
    },
    {
      "entropy": 1.7280255556106567,
      "epoch": 1.6075087198923401,
      "grad_norm": 0.9190917015075684,
      "learning_rate": 3.7587671297730815e-06,
      "loss": 1.4702,
      "mean_token_accuracy": 0.6770395090182623,
      "num_tokens": 2454693122.0,
      "step": 14633
    },
    {
      "entropy": 1.656565527121226,
      "epoch": 1.6076185768037132,
      "grad_norm": 0.7317885160446167,
      "learning_rate": 3.7578164262853132e-06,
      "loss": 1.5353,
      "mean_token_accuracy": 0.6430183400710424,
      "num_tokens": 2454923455.0,
      "step": 14634
    },
    {
      "entropy": 1.6855885187784831,
      "epoch": 1.6077284337150861,
      "grad_norm": 0.7330460548400879,
      "learning_rate": 3.7568659520093908e-06,
      "loss": 1.487,
      "mean_token_accuracy": 0.6602890988190969,
      "num_tokens": 2455134200.0,
      "step": 14635
    },
    {
      "entropy": 1.6330851515134175,
      "epoch": 1.607838290626459,
      "grad_norm": 0.7137647867202759,
      "learning_rate": 3.7559157069753944e-06,
      "loss": 1.4943,
      "mean_token_accuracy": 0.6433676034212112,
      "num_tokens": 2455322690.0,
      "step": 14636
    },
    {
      "entropy": 1.7134460806846619,
      "epoch": 1.607948147537832,
      "grad_norm": 0.740168571472168,
      "learning_rate": 3.7549656912134047e-06,
      "loss": 1.2794,
      "mean_token_accuracy": 0.6720482061306635,
      "num_tokens": 2455461450.0,
      "step": 14637
    },
    {
      "entropy": 1.7948347826798756,
      "epoch": 1.6080580044492048,
      "grad_norm": 0.7866724729537964,
      "learning_rate": 3.754015904753486e-06,
      "loss": 1.5648,
      "mean_token_accuracy": 0.6387749413649241,
      "num_tokens": 2455632231.0,
      "step": 14638
    },
    {
      "entropy": 1.7541786233584087,
      "epoch": 1.6081678613605779,
      "grad_norm": 0.679871678352356,
      "learning_rate": 3.7530663476256966e-06,
      "loss": 1.3942,
      "mean_token_accuracy": 0.6533337185780207,
      "num_tokens": 2455793295.0,
      "step": 14639
    },
    {
      "entropy": 1.7643111447493236,
      "epoch": 1.6082777182719508,
      "grad_norm": 1.0173559188842773,
      "learning_rate": 3.752117019860091e-06,
      "loss": 1.4631,
      "mean_token_accuracy": 0.6418692767620087,
      "num_tokens": 2456022775.0,
      "step": 14640
    },
    {
      "entropy": 1.7089822093645732,
      "epoch": 1.6083875751833236,
      "grad_norm": 0.7529508471488953,
      "learning_rate": 3.7511679214867193e-06,
      "loss": 1.4893,
      "mean_token_accuracy": 0.6491026779015859,
      "num_tokens": 2456210046.0,
      "step": 14641
    },
    {
      "entropy": 1.7521416048208873,
      "epoch": 1.6084974320946968,
      "grad_norm": 0.7861169576644897,
      "learning_rate": 3.750219052535616e-06,
      "loss": 1.4302,
      "mean_token_accuracy": 0.6570564558108648,
      "num_tokens": 2456370939.0,
      "step": 14642
    },
    {
      "entropy": 1.7036944031715393,
      "epoch": 1.6086072890060696,
      "grad_norm": 0.6966022253036499,
      "learning_rate": 3.7492704130368103e-06,
      "loss": 1.5472,
      "mean_token_accuracy": 0.658886194229126,
      "num_tokens": 2456574331.0,
      "step": 14643
    },
    {
      "entropy": 1.6719833314418793,
      "epoch": 1.6087171459174425,
      "grad_norm": 0.6288134455680847,
      "learning_rate": 3.7483220030203305e-06,
      "loss": 1.4149,
      "mean_token_accuracy": 0.6646634787321091,
      "num_tokens": 2456763691.0,
      "step": 14644
    },
    {
      "entropy": 1.659516602754593,
      "epoch": 1.6088270028288156,
      "grad_norm": 0.7653041481971741,
      "learning_rate": 3.747373822516189e-06,
      "loss": 1.2218,
      "mean_token_accuracy": 0.6792045831680298,
      "num_tokens": 2456919385.0,
      "step": 14645
    },
    {
      "entropy": 1.7163499097029369,
      "epoch": 1.6089368597401883,
      "grad_norm": 0.8180403709411621,
      "learning_rate": 3.7464258715544023e-06,
      "loss": 1.579,
      "mean_token_accuracy": 0.6337461198369662,
      "num_tokens": 2457093423.0,
      "step": 14646
    },
    {
      "entropy": 1.6461522082487743,
      "epoch": 1.6090467166515614,
      "grad_norm": 0.6194190979003906,
      "learning_rate": 3.7454781501649674e-06,
      "loss": 1.3822,
      "mean_token_accuracy": 0.6567869633436203,
      "num_tokens": 2457285536.0,
      "step": 14647
    },
    {
      "entropy": 1.752669632434845,
      "epoch": 1.6091565735629343,
      "grad_norm": 0.6721103191375732,
      "learning_rate": 3.744530658377876e-06,
      "loss": 1.4253,
      "mean_token_accuracy": 0.6482215970754623,
      "num_tokens": 2457409826.0,
      "step": 14648
    },
    {
      "entropy": 1.7362704177697499,
      "epoch": 1.6092664304743072,
      "grad_norm": 0.6712827682495117,
      "learning_rate": 3.743583396223125e-06,
      "loss": 1.57,
      "mean_token_accuracy": 0.6405636916557947,
      "num_tokens": 2457605817.0,
      "step": 14649
    },
    {
      "entropy": 1.6012630959351857,
      "epoch": 1.6093762873856803,
      "grad_norm": 0.6160146594047546,
      "learning_rate": 3.7426363637306886e-06,
      "loss": 1.2842,
      "mean_token_accuracy": 0.6701871405045191,
      "num_tokens": 2457774714.0,
      "step": 14650
    },
    {
      "entropy": 1.6824021935462952,
      "epoch": 1.609486144297053,
      "grad_norm": 0.5910770297050476,
      "learning_rate": 3.741689560930538e-06,
      "loss": 1.401,
      "mean_token_accuracy": 0.6555624802907308,
      "num_tokens": 2457985015.0,
      "step": 14651
    },
    {
      "entropy": 1.6749296089013417,
      "epoch": 1.609596001208426,
      "grad_norm": 0.696537435054779,
      "learning_rate": 3.740742987852642e-06,
      "loss": 1.3365,
      "mean_token_accuracy": 0.6835020283857981,
      "num_tokens": 2458114521.0,
      "step": 14652
    },
    {
      "entropy": 1.7262722849845886,
      "epoch": 1.609705858119799,
      "grad_norm": 0.6201340556144714,
      "learning_rate": 3.7397966445269628e-06,
      "loss": 1.4564,
      "mean_token_accuracy": 0.6472860972086588,
      "num_tokens": 2458323341.0,
      "step": 14653
    },
    {
      "entropy": 1.7126949429512024,
      "epoch": 1.6098157150311718,
      "grad_norm": 0.6349091529846191,
      "learning_rate": 3.738850530983448e-06,
      "loss": 1.4529,
      "mean_token_accuracy": 0.6366288512945175,
      "num_tokens": 2458517592.0,
      "step": 14654
    },
    {
      "entropy": 1.7143605947494507,
      "epoch": 1.609925571942545,
      "grad_norm": 0.7637413144111633,
      "learning_rate": 3.737904647252039e-06,
      "loss": 1.2987,
      "mean_token_accuracy": 0.6668682942787806,
      "num_tokens": 2458644660.0,
      "step": 14655
    },
    {
      "entropy": 1.6725689272085826,
      "epoch": 1.6100354288539178,
      "grad_norm": 0.754520058631897,
      "learning_rate": 3.736958993362678e-06,
      "loss": 1.2872,
      "mean_token_accuracy": 0.6723710298538208,
      "num_tokens": 2458794632.0,
      "step": 14656
    },
    {
      "entropy": 1.7350502808888753,
      "epoch": 1.6101452857652907,
      "grad_norm": 0.801001250743866,
      "learning_rate": 3.73601356934529e-06,
      "loss": 1.3272,
      "mean_token_accuracy": 0.657276377081871,
      "num_tokens": 2458944318.0,
      "step": 14657
    },
    {
      "entropy": 1.724273145198822,
      "epoch": 1.6102551426766638,
      "grad_norm": 0.788803219795227,
      "learning_rate": 3.735068375229801e-06,
      "loss": 1.3117,
      "mean_token_accuracy": 0.6685859362284342,
      "num_tokens": 2459069936.0,
      "step": 14658
    },
    {
      "entropy": 1.643745203812917,
      "epoch": 1.6103649995880365,
      "grad_norm": 0.7852417826652527,
      "learning_rate": 3.7341234110461246e-06,
      "loss": 1.3608,
      "mean_token_accuracy": 0.6609650353590647,
      "num_tokens": 2459214227.0,
      "step": 14659
    },
    {
      "entropy": 1.726538171370824,
      "epoch": 1.6104748564994096,
      "grad_norm": 0.6105849146842957,
      "learning_rate": 3.7331786768241663e-06,
      "loss": 1.4536,
      "mean_token_accuracy": 0.6502714107433955,
      "num_tokens": 2459388462.0,
      "step": 14660
    },
    {
      "entropy": 1.7064904570579529,
      "epoch": 1.6105847134107825,
      "grad_norm": 0.6803503632545471,
      "learning_rate": 3.7322341725938314e-06,
      "loss": 1.396,
      "mean_token_accuracy": 0.658082311352094,
      "num_tokens": 2459570588.0,
      "step": 14661
    },
    {
      "entropy": 1.7269649803638458,
      "epoch": 1.6106945703221554,
      "grad_norm": 0.6450273394584656,
      "learning_rate": 3.7312898983850084e-06,
      "loss": 1.6308,
      "mean_token_accuracy": 0.628805602590243,
      "num_tokens": 2459740581.0,
      "step": 14662
    },
    {
      "entropy": 1.7392071982224782,
      "epoch": 1.6108044272335285,
      "grad_norm": 0.6870610117912292,
      "learning_rate": 3.7303458542275827e-06,
      "loss": 1.4163,
      "mean_token_accuracy": 0.6702167640129725,
      "num_tokens": 2459875754.0,
      "step": 14663
    },
    {
      "entropy": 1.7333300908406575,
      "epoch": 1.6109142841449011,
      "grad_norm": 0.8031678199768066,
      "learning_rate": 3.7294020401514364e-06,
      "loss": 1.3774,
      "mean_token_accuracy": 0.6614676515261332,
      "num_tokens": 2460032544.0,
      "step": 14664
    },
    {
      "entropy": 1.7381873826185863,
      "epoch": 1.6110241410562742,
      "grad_norm": 0.733604907989502,
      "learning_rate": 3.72845845618644e-06,
      "loss": 1.3342,
      "mean_token_accuracy": 0.6601580232381821,
      "num_tokens": 2460176158.0,
      "step": 14665
    },
    {
      "entropy": 1.741199215253194,
      "epoch": 1.6111339979676471,
      "grad_norm": 0.7065275311470032,
      "learning_rate": 3.727515102362457e-06,
      "loss": 1.4099,
      "mean_token_accuracy": 0.6452137182156245,
      "num_tokens": 2460289880.0,
      "step": 14666
    },
    {
      "entropy": 1.6943379541238148,
      "epoch": 1.61124385487902,
      "grad_norm": 0.6393603682518005,
      "learning_rate": 3.7265719787093425e-06,
      "loss": 1.3706,
      "mean_token_accuracy": 0.6622431923945745,
      "num_tokens": 2460455949.0,
      "step": 14667
    },
    {
      "entropy": 1.7258077561855316,
      "epoch": 1.611353711790393,
      "grad_norm": 0.7554365396499634,
      "learning_rate": 3.7256290852569486e-06,
      "loss": 1.3566,
      "mean_token_accuracy": 0.6608146925767263,
      "num_tokens": 2460609656.0,
      "step": 14668
    },
    {
      "entropy": 1.689467837413152,
      "epoch": 1.611463568701766,
      "grad_norm": 0.6613262295722961,
      "learning_rate": 3.724686422035115e-06,
      "loss": 1.5024,
      "mean_token_accuracy": 0.6482188751300176,
      "num_tokens": 2460844330.0,
      "step": 14669
    },
    {
      "entropy": 1.6908029715220134,
      "epoch": 1.6115734256131389,
      "grad_norm": 0.6851189136505127,
      "learning_rate": 3.7237439890736794e-06,
      "loss": 1.3898,
      "mean_token_accuracy": 0.6735121210416158,
      "num_tokens": 2461005246.0,
      "step": 14670
    },
    {
      "entropy": 1.6708916127681732,
      "epoch": 1.611683282524512,
      "grad_norm": 0.5962818264961243,
      "learning_rate": 3.7228017864024678e-06,
      "loss": 1.3767,
      "mean_token_accuracy": 0.6496349523464838,
      "num_tokens": 2461164991.0,
      "step": 14671
    },
    {
      "entropy": 1.7484399875005086,
      "epoch": 1.6117931394358846,
      "grad_norm": 0.670310378074646,
      "learning_rate": 3.7218598140512984e-06,
      "loss": 1.3154,
      "mean_token_accuracy": 0.6742733071247736,
      "num_tokens": 2461315273.0,
      "step": 14672
    },
    {
      "entropy": 1.7393219470977783,
      "epoch": 1.6119029963472578,
      "grad_norm": 0.6643054485321045,
      "learning_rate": 3.7209180720499895e-06,
      "loss": 1.3544,
      "mean_token_accuracy": 0.6552670349677404,
      "num_tokens": 2461488510.0,
      "step": 14673
    },
    {
      "entropy": 1.8004189630349476,
      "epoch": 1.6120128532586306,
      "grad_norm": 0.79213947057724,
      "learning_rate": 3.719976560428342e-06,
      "loss": 1.3652,
      "mean_token_accuracy": 0.6540059546629587,
      "num_tokens": 2461587275.0,
      "step": 14674
    },
    {
      "entropy": 1.7245031495889027,
      "epoch": 1.6121227101700035,
      "grad_norm": 0.6856813430786133,
      "learning_rate": 3.7190352792161544e-06,
      "loss": 1.454,
      "mean_token_accuracy": 0.6419583807388941,
      "num_tokens": 2461884625.0,
      "step": 14675
    },
    {
      "entropy": 1.7429804404576619,
      "epoch": 1.6122325670813766,
      "grad_norm": 0.9906445145606995,
      "learning_rate": 3.7180942284432187e-06,
      "loss": 1.4102,
      "mean_token_accuracy": 0.6640532414118449,
      "num_tokens": 2462069882.0,
      "step": 14676
    },
    {
      "entropy": 1.7205411791801453,
      "epoch": 1.6123424239927493,
      "grad_norm": 0.7368789911270142,
      "learning_rate": 3.7171534081393222e-06,
      "loss": 1.2647,
      "mean_token_accuracy": 0.6686208844184875,
      "num_tokens": 2462226030.0,
      "step": 14677
    },
    {
      "entropy": 1.6727672219276428,
      "epoch": 1.6124522809041224,
      "grad_norm": 0.6884908676147461,
      "learning_rate": 3.716212818334238e-06,
      "loss": 1.5422,
      "mean_token_accuracy": 0.66104227801164,
      "num_tokens": 2462413094.0,
      "step": 14678
    },
    {
      "entropy": 1.6247599720954895,
      "epoch": 1.6125621378154953,
      "grad_norm": 0.590446949005127,
      "learning_rate": 3.715272459057735e-06,
      "loss": 1.4282,
      "mean_token_accuracy": 0.644096295038859,
      "num_tokens": 2462641811.0,
      "step": 14679
    },
    {
      "entropy": 1.6443546215693157,
      "epoch": 1.6126719947268682,
      "grad_norm": 0.7115086317062378,
      "learning_rate": 3.714332330339577e-06,
      "loss": 1.5669,
      "mean_token_accuracy": 0.6451859523852667,
      "num_tokens": 2462806338.0,
      "step": 14680
    },
    {
      "entropy": 1.7336850663026173,
      "epoch": 1.6127818516382413,
      "grad_norm": 0.7021939158439636,
      "learning_rate": 3.7133924322095174e-06,
      "loss": 1.4519,
      "mean_token_accuracy": 0.6492075125376383,
      "num_tokens": 2462930880.0,
      "step": 14681
    },
    {
      "entropy": 1.6663711071014404,
      "epoch": 1.6128917085496142,
      "grad_norm": 0.7189558148384094,
      "learning_rate": 3.712452764697306e-06,
      "loss": 1.2616,
      "mean_token_accuracy": 0.667123039563497,
      "num_tokens": 2463057469.0,
      "step": 14682
    },
    {
      "entropy": 1.7106225689252217,
      "epoch": 1.613001565460987,
      "grad_norm": 0.6529760956764221,
      "learning_rate": 3.7115133278326776e-06,
      "loss": 1.4855,
      "mean_token_accuracy": 0.6439164827267329,
      "num_tokens": 2463193771.0,
      "step": 14683
    },
    {
      "entropy": 1.7312338948249817,
      "epoch": 1.6131114223723602,
      "grad_norm": 0.6860626339912415,
      "learning_rate": 3.7105741216453677e-06,
      "loss": 1.3038,
      "mean_token_accuracy": 0.6747928162415823,
      "num_tokens": 2463375144.0,
      "step": 14684
    },
    {
      "entropy": 1.6784348785877228,
      "epoch": 1.6132212792837328,
      "grad_norm": 0.636982798576355,
      "learning_rate": 3.7096351461651048e-06,
      "loss": 1.3763,
      "mean_token_accuracy": 0.647995188832283,
      "num_tokens": 2463568102.0,
      "step": 14685
    },
    {
      "entropy": 1.6646142303943634,
      "epoch": 1.613331136195106,
      "grad_norm": 0.7830153703689575,
      "learning_rate": 3.7086964014216044e-06,
      "loss": 1.2812,
      "mean_token_accuracy": 0.6732824593782425,
      "num_tokens": 2463698353.0,
      "step": 14686
    },
    {
      "entropy": 1.727742314338684,
      "epoch": 1.6134409931064788,
      "grad_norm": 0.6397407650947571,
      "learning_rate": 3.7077578874445747e-06,
      "loss": 1.6028,
      "mean_token_accuracy": 0.6402206718921661,
      "num_tokens": 2463895915.0,
      "step": 14687
    },
    {
      "entropy": 1.708655208349228,
      "epoch": 1.6135508500178517,
      "grad_norm": 0.7308383584022522,
      "learning_rate": 3.7068196042637243e-06,
      "loss": 1.3993,
      "mean_token_accuracy": 0.6531407485405604,
      "num_tokens": 2464095797.0,
      "step": 14688
    },
    {
      "entropy": 1.704372376203537,
      "epoch": 1.6136607069292248,
      "grad_norm": 0.6979178786277771,
      "learning_rate": 3.7058815519087444e-06,
      "loss": 1.2332,
      "mean_token_accuracy": 0.6791991045077642,
      "num_tokens": 2464232587.0,
      "step": 14689
    },
    {
      "entropy": 1.6719367702802022,
      "epoch": 1.6137705638405975,
      "grad_norm": 0.8596528172492981,
      "learning_rate": 3.7049437304093294e-06,
      "loss": 1.3867,
      "mean_token_accuracy": 0.6568711996078491,
      "num_tokens": 2464385186.0,
      "step": 14690
    },
    {
      "entropy": 1.6047246555487316,
      "epoch": 1.6138804207519706,
      "grad_norm": 0.6490098834037781,
      "learning_rate": 3.7040061397951576e-06,
      "loss": 1.3677,
      "mean_token_accuracy": 0.660823663075765,
      "num_tokens": 2464553229.0,
      "step": 14691
    },
    {
      "entropy": 1.7173048158486683,
      "epoch": 1.6139902776633435,
      "grad_norm": 0.7776662111282349,
      "learning_rate": 3.703068780095902e-06,
      "loss": 1.2761,
      "mean_token_accuracy": 0.6762077808380127,
      "num_tokens": 2464701504.0,
      "step": 14692
    },
    {
      "entropy": 1.7215432325998943,
      "epoch": 1.6141001345747163,
      "grad_norm": 0.9005657434463501,
      "learning_rate": 3.702131651341231e-06,
      "loss": 1.3798,
      "mean_token_accuracy": 0.6737534006436666,
      "num_tokens": 2464866324.0,
      "step": 14693
    },
    {
      "entropy": 1.7409155865510304,
      "epoch": 1.6142099914860895,
      "grad_norm": 0.7071303129196167,
      "learning_rate": 3.7011947535608105e-06,
      "loss": 1.5843,
      "mean_token_accuracy": 0.647487630446752,
      "num_tokens": 2465076973.0,
      "step": 14694
    },
    {
      "entropy": 1.7262167433897655,
      "epoch": 1.6143198483974623,
      "grad_norm": 0.7587045431137085,
      "learning_rate": 3.7002580867842815e-06,
      "loss": 1.2918,
      "mean_token_accuracy": 0.6742985248565674,
      "num_tokens": 2465200868.0,
      "step": 14695
    },
    {
      "entropy": 1.6662676731745403,
      "epoch": 1.6144297053088352,
      "grad_norm": 0.6712886095046997,
      "learning_rate": 3.6993216510412943e-06,
      "loss": 1.375,
      "mean_token_accuracy": 0.6569582025210062,
      "num_tokens": 2465388988.0,
      "step": 14696
    },
    {
      "entropy": 1.730035165945689,
      "epoch": 1.6145395622202083,
      "grad_norm": 0.7809839844703674,
      "learning_rate": 3.698385446361491e-06,
      "loss": 1.2638,
      "mean_token_accuracy": 0.6717608024676641,
      "num_tokens": 2465527801.0,
      "step": 14697
    },
    {
      "entropy": 1.7651971677939098,
      "epoch": 1.614649419131581,
      "grad_norm": 0.6956320405006409,
      "learning_rate": 3.6974494727744963e-06,
      "loss": 1.2942,
      "mean_token_accuracy": 0.6690488557020823,
      "num_tokens": 2465636303.0,
      "step": 14698
    },
    {
      "entropy": 1.6958413124084473,
      "epoch": 1.614759276042954,
      "grad_norm": 0.6723313331604004,
      "learning_rate": 3.6965137303099337e-06,
      "loss": 1.4207,
      "mean_token_accuracy": 0.6619421541690826,
      "num_tokens": 2465851994.0,
      "step": 14699
    },
    {
      "entropy": 1.6834101875623066,
      "epoch": 1.614869132954327,
      "grad_norm": 0.7277176380157471,
      "learning_rate": 3.695578218997423e-06,
      "loss": 1.2127,
      "mean_token_accuracy": 0.6854077279567719,
      "num_tokens": 2465977857.0,
      "step": 14700
    },
    {
      "entropy": 1.709593951702118,
      "epoch": 1.6149789898656999,
      "grad_norm": 0.6318420171737671,
      "learning_rate": 3.694642938866567e-06,
      "loss": 1.4732,
      "mean_token_accuracy": 0.6425252010424932,
      "num_tokens": 2466148882.0,
      "step": 14701
    },
    {
      "entropy": 1.7026881178220112,
      "epoch": 1.615088846777073,
      "grad_norm": 0.5743200778961182,
      "learning_rate": 3.6937078899469735e-06,
      "loss": 1.4259,
      "mean_token_accuracy": 0.6450713922580084,
      "num_tokens": 2466367763.0,
      "step": 14702
    },
    {
      "entropy": 1.7224018573760986,
      "epoch": 1.6151987036884456,
      "grad_norm": 0.7370775938034058,
      "learning_rate": 3.692773072268233e-06,
      "loss": 1.5327,
      "mean_token_accuracy": 0.6518655767043432,
      "num_tokens": 2466513299.0,
      "step": 14703
    },
    {
      "entropy": 1.6792699694633484,
      "epoch": 1.6153085605998188,
      "grad_norm": 0.7573254108428955,
      "learning_rate": 3.69183848585993e-06,
      "loss": 1.3101,
      "mean_token_accuracy": 0.6656599442164103,
      "num_tokens": 2466674052.0,
      "step": 14704
    },
    {
      "entropy": 1.7601742148399353,
      "epoch": 1.6154184175111916,
      "grad_norm": 0.6558720469474792,
      "learning_rate": 3.690904130751647e-06,
      "loss": 1.3575,
      "mean_token_accuracy": 0.6632993370294571,
      "num_tokens": 2466835324.0,
      "step": 14705
    },
    {
      "entropy": 1.670517235994339,
      "epoch": 1.6155282744225645,
      "grad_norm": 0.7299153208732605,
      "learning_rate": 3.689970006972955e-06,
      "loss": 1.3617,
      "mean_token_accuracy": 0.6664615025122961,
      "num_tokens": 2466978382.0,
      "step": 14706
    },
    {
      "entropy": 1.7113747795422871,
      "epoch": 1.6156381313339376,
      "grad_norm": 0.6921692490577698,
      "learning_rate": 3.689036114553416e-06,
      "loss": 1.4798,
      "mean_token_accuracy": 0.6365568687518438,
      "num_tokens": 2467205232.0,
      "step": 14707
    },
    {
      "entropy": 1.6883227229118347,
      "epoch": 1.6157479882453105,
      "grad_norm": 0.648524820804596,
      "learning_rate": 3.6881024535225895e-06,
      "loss": 1.5209,
      "mean_token_accuracy": 0.6537104596694311,
      "num_tokens": 2467377154.0,
      "step": 14708
    },
    {
      "entropy": 1.6793282429377239,
      "epoch": 1.6158578451566834,
      "grad_norm": 0.6334054470062256,
      "learning_rate": 3.687169023910029e-06,
      "loss": 1.3909,
      "mean_token_accuracy": 0.6522092173496882,
      "num_tokens": 2467532555.0,
      "step": 14709
    },
    {
      "entropy": 1.6903114418188732,
      "epoch": 1.6159677020680565,
      "grad_norm": 0.7473300695419312,
      "learning_rate": 3.6862358257452715e-06,
      "loss": 1.2707,
      "mean_token_accuracy": 0.6770381530125936,
      "num_tokens": 2467642784.0,
      "step": 14710
    },
    {
      "entropy": 1.6912944614887238,
      "epoch": 1.6160775589794292,
      "grad_norm": 0.6412237286567688,
      "learning_rate": 3.685302859057853e-06,
      "loss": 1.4237,
      "mean_token_accuracy": 0.648856391509374,
      "num_tokens": 2467791714.0,
      "step": 14711
    },
    {
      "entropy": 1.7014042536417644,
      "epoch": 1.6161874158908023,
      "grad_norm": 0.9805091619491577,
      "learning_rate": 3.6843701238773067e-06,
      "loss": 1.3664,
      "mean_token_accuracy": 0.6512833336989085,
      "num_tokens": 2467936735.0,
      "step": 14712
    },
    {
      "entropy": 1.7085695664087932,
      "epoch": 1.6162972728021752,
      "grad_norm": 0.6498310565948486,
      "learning_rate": 3.6834376202331457e-06,
      "loss": 1.4279,
      "mean_token_accuracy": 0.6503070195515951,
      "num_tokens": 2468137097.0,
      "step": 14713
    },
    {
      "entropy": 1.754157284895579,
      "epoch": 1.616407129713548,
      "grad_norm": 0.6614096164703369,
      "learning_rate": 3.68250534815489e-06,
      "loss": 1.4499,
      "mean_token_accuracy": 0.6387760390837988,
      "num_tokens": 2468335831.0,
      "step": 14714
    },
    {
      "entropy": 1.748912364244461,
      "epoch": 1.6165169866249212,
      "grad_norm": 0.6944563388824463,
      "learning_rate": 3.6815733076720417e-06,
      "loss": 1.4188,
      "mean_token_accuracy": 0.6436112423737844,
      "num_tokens": 2468487713.0,
      "step": 14715
    },
    {
      "entropy": 1.6973415712515514,
      "epoch": 1.6166268435362938,
      "grad_norm": 0.7646819949150085,
      "learning_rate": 3.6806414988140994e-06,
      "loss": 1.4375,
      "mean_token_accuracy": 0.6578048566977183,
      "num_tokens": 2468669987.0,
      "step": 14716
    },
    {
      "entropy": 1.732655018568039,
      "epoch": 1.616736700447667,
      "grad_norm": 0.8368391990661621,
      "learning_rate": 3.6797099216105574e-06,
      "loss": 1.343,
      "mean_token_accuracy": 0.666421135266622,
      "num_tokens": 2468838710.0,
      "step": 14717
    },
    {
      "entropy": 1.7877886792023976,
      "epoch": 1.6168465573590398,
      "grad_norm": 0.7718168497085571,
      "learning_rate": 3.6787785760908977e-06,
      "loss": 1.4756,
      "mean_token_accuracy": 0.6524422268072764,
      "num_tokens": 2468982036.0,
      "step": 14718
    },
    {
      "entropy": 1.6961112916469574,
      "epoch": 1.6169564142704127,
      "grad_norm": 0.6764015555381775,
      "learning_rate": 3.6778474622845944e-06,
      "loss": 1.3609,
      "mean_token_accuracy": 0.6668888131777445,
      "num_tokens": 2469168789.0,
      "step": 14719
    },
    {
      "entropy": 1.6913793583710988,
      "epoch": 1.6170662711817858,
      "grad_norm": 0.6833027005195618,
      "learning_rate": 3.6769165802211204e-06,
      "loss": 1.5313,
      "mean_token_accuracy": 0.630229189991951,
      "num_tokens": 2469398606.0,
      "step": 14720
    },
    {
      "entropy": 1.6282474398612976,
      "epoch": 1.6171761280931587,
      "grad_norm": 0.7693440318107605,
      "learning_rate": 3.675985929929938e-06,
      "loss": 1.4429,
      "mean_token_accuracy": 0.6655650039513906,
      "num_tokens": 2469592922.0,
      "step": 14721
    },
    {
      "entropy": 1.711096356312434,
      "epoch": 1.6172859850045316,
      "grad_norm": 0.8111943006515503,
      "learning_rate": 3.6750555114405006e-06,
      "loss": 1.5209,
      "mean_token_accuracy": 0.6461358418067297,
      "num_tokens": 2469796479.0,
      "step": 14722
    },
    {
      "entropy": 1.6384065548578899,
      "epoch": 1.6173958419159047,
      "grad_norm": 0.8203321099281311,
      "learning_rate": 3.674125324782254e-06,
      "loss": 1.4875,
      "mean_token_accuracy": 0.6577804535627365,
      "num_tokens": 2469953785.0,
      "step": 14723
    },
    {
      "entropy": 1.7690180937449138,
      "epoch": 1.6175056988272773,
      "grad_norm": 0.6374251842498779,
      "learning_rate": 3.6731953699846414e-06,
      "loss": 1.3627,
      "mean_token_accuracy": 0.6556740949551264,
      "num_tokens": 2470124089.0,
      "step": 14724
    },
    {
      "entropy": 1.7309903005758922,
      "epoch": 1.6176155557386505,
      "grad_norm": 0.7207738757133484,
      "learning_rate": 3.6722656470770923e-06,
      "loss": 1.4916,
      "mean_token_accuracy": 0.6519534190495809,
      "num_tokens": 2470255712.0,
      "step": 14725
    },
    {
      "entropy": 1.7002464632193248,
      "epoch": 1.6177254126500233,
      "grad_norm": 0.7734901905059814,
      "learning_rate": 3.6713361560890348e-06,
      "loss": 1.5482,
      "mean_token_accuracy": 0.6576615820328394,
      "num_tokens": 2470420871.0,
      "step": 14726
    },
    {
      "entropy": 1.6754888991514842,
      "epoch": 1.6178352695613962,
      "grad_norm": 0.8016461133956909,
      "learning_rate": 3.6704068970498864e-06,
      "loss": 1.2781,
      "mean_token_accuracy": 0.6687599966923395,
      "num_tokens": 2470573999.0,
      "step": 14727
    },
    {
      "entropy": 1.7265417277812958,
      "epoch": 1.6179451264727693,
      "grad_norm": 0.8027196526527405,
      "learning_rate": 3.6694778699890544e-06,
      "loss": 1.2972,
      "mean_token_accuracy": 0.672625203927358,
      "num_tokens": 2470696124.0,
      "step": 14728
    },
    {
      "entropy": 1.678039421637853,
      "epoch": 1.618054983384142,
      "grad_norm": 0.9656848311424255,
      "learning_rate": 3.6685490749359465e-06,
      "loss": 1.4742,
      "mean_token_accuracy": 0.6456383168697357,
      "num_tokens": 2470903763.0,
      "step": 14729
    },
    {
      "entropy": 1.6626673638820648,
      "epoch": 1.618164840295515,
      "grad_norm": 0.6540632247924805,
      "learning_rate": 3.6676205119199576e-06,
      "loss": 1.3202,
      "mean_token_accuracy": 0.6622842649618784,
      "num_tokens": 2471090045.0,
      "step": 14730
    },
    {
      "entropy": 1.6490332384904225,
      "epoch": 1.618274697206888,
      "grad_norm": 0.8260558843612671,
      "learning_rate": 3.6666921809704736e-06,
      "loss": 1.161,
      "mean_token_accuracy": 0.6894190460443497,
      "num_tokens": 2471227403.0,
      "step": 14731
    },
    {
      "entropy": 1.6390781899293263,
      "epoch": 1.6183845541182609,
      "grad_norm": 0.5702754259109497,
      "learning_rate": 3.665764082116876e-06,
      "loss": 1.4722,
      "mean_token_accuracy": 0.649658222993215,
      "num_tokens": 2471437545.0,
      "step": 14732
    },
    {
      "entropy": 1.629872699578603,
      "epoch": 1.618494411029634,
      "grad_norm": 0.6536400318145752,
      "learning_rate": 3.6648362153885436e-06,
      "loss": 1.3237,
      "mean_token_accuracy": 0.659297987818718,
      "num_tokens": 2471629535.0,
      "step": 14733
    },
    {
      "entropy": 1.7587083180745442,
      "epoch": 1.6186042679410069,
      "grad_norm": 0.6709061861038208,
      "learning_rate": 3.6639085808148393e-06,
      "loss": 1.3405,
      "mean_token_accuracy": 0.6536008963982264,
      "num_tokens": 2471737875.0,
      "step": 14734
    },
    {
      "entropy": 1.6815871397654216,
      "epoch": 1.6187141248523798,
      "grad_norm": 0.7016004920005798,
      "learning_rate": 3.66298117842512e-06,
      "loss": 1.3005,
      "mean_token_accuracy": 0.6671187877655029,
      "num_tokens": 2471871399.0,
      "step": 14735
    },
    {
      "entropy": 1.6025499800841014,
      "epoch": 1.6188239817637529,
      "grad_norm": 0.7438717484474182,
      "learning_rate": 3.662054008248743e-06,
      "loss": 1.3128,
      "mean_token_accuracy": 0.6726290682951609,
      "num_tokens": 2472023286.0,
      "step": 14736
    },
    {
      "entropy": 1.6263412833213806,
      "epoch": 1.6189338386751255,
      "grad_norm": 0.7102988362312317,
      "learning_rate": 3.661127070315048e-06,
      "loss": 1.4156,
      "mean_token_accuracy": 0.6527203271786371,
      "num_tokens": 2472222430.0,
      "step": 14737
    },
    {
      "entropy": 1.703275889158249,
      "epoch": 1.6190436955864986,
      "grad_norm": 0.714640736579895,
      "learning_rate": 3.660200364653377e-06,
      "loss": 1.3723,
      "mean_token_accuracy": 0.6539589911699295,
      "num_tokens": 2472389845.0,
      "step": 14738
    },
    {
      "entropy": 1.6962252755959828,
      "epoch": 1.6191535524978715,
      "grad_norm": 0.6212570071220398,
      "learning_rate": 3.6592738912930557e-06,
      "loss": 1.4415,
      "mean_token_accuracy": 0.644294947385788,
      "num_tokens": 2472558761.0,
      "step": 14739
    },
    {
      "entropy": 1.7015782197316487,
      "epoch": 1.6192634094092444,
      "grad_norm": 0.7756522297859192,
      "learning_rate": 3.6583476502634074e-06,
      "loss": 1.3007,
      "mean_token_accuracy": 0.670628140370051,
      "num_tokens": 2472732516.0,
      "step": 14740
    },
    {
      "entropy": 1.5966882010300953,
      "epoch": 1.6193732663206175,
      "grad_norm": 0.7755955457687378,
      "learning_rate": 3.657421641593748e-06,
      "loss": 1.2803,
      "mean_token_accuracy": 0.6795324633518854,
      "num_tokens": 2472883412.0,
      "step": 14741
    },
    {
      "entropy": 1.7600494424502056,
      "epoch": 1.6194831232319902,
      "grad_norm": 0.7740442752838135,
      "learning_rate": 3.6564958653133863e-06,
      "loss": 1.4893,
      "mean_token_accuracy": 0.6595326215028763,
      "num_tokens": 2473018952.0,
      "step": 14742
    },
    {
      "entropy": 1.7393341660499573,
      "epoch": 1.6195929801433633,
      "grad_norm": 0.6907954812049866,
      "learning_rate": 3.6555703214516193e-06,
      "loss": 1.5718,
      "mean_token_accuracy": 0.6427063147226969,
      "num_tokens": 2473202617.0,
      "step": 14743
    },
    {
      "entropy": 1.6578579048315685,
      "epoch": 1.6197028370547362,
      "grad_norm": 0.6247424483299255,
      "learning_rate": 3.654645010037744e-06,
      "loss": 1.5738,
      "mean_token_accuracy": 0.6394970516363779,
      "num_tokens": 2473402435.0,
      "step": 14744
    },
    {
      "entropy": 1.6981489062309265,
      "epoch": 1.619812693966109,
      "grad_norm": 0.5729104280471802,
      "learning_rate": 3.653719931101042e-06,
      "loss": 1.3324,
      "mean_token_accuracy": 0.6592134733994802,
      "num_tokens": 2473562428.0,
      "step": 14745
    },
    {
      "entropy": 1.647686739762624,
      "epoch": 1.6199225508774822,
      "grad_norm": 0.6854268312454224,
      "learning_rate": 3.652795084670795e-06,
      "loss": 1.3264,
      "mean_token_accuracy": 0.6706267396608988,
      "num_tokens": 2473690175.0,
      "step": 14746
    },
    {
      "entropy": 1.7167788644631703,
      "epoch": 1.620032407788855,
      "grad_norm": 0.5726441144943237,
      "learning_rate": 3.6518704707762747e-06,
      "loss": 1.4047,
      "mean_token_accuracy": 0.6441677361726761,
      "num_tokens": 2473897473.0,
      "step": 14747
    },
    {
      "entropy": 1.6790929238001506,
      "epoch": 1.620142264700228,
      "grad_norm": 0.7980174422264099,
      "learning_rate": 3.65094608944674e-06,
      "loss": 1.286,
      "mean_token_accuracy": 0.6767543057600657,
      "num_tokens": 2474027480.0,
      "step": 14748
    },
    {
      "entropy": 1.7248100241025288,
      "epoch": 1.620252121611601,
      "grad_norm": 0.664738655090332,
      "learning_rate": 3.650021940711449e-06,
      "loss": 1.447,
      "mean_token_accuracy": 0.6460002660751343,
      "num_tokens": 2474233223.0,
      "step": 14749
    },
    {
      "entropy": 1.679869105418523,
      "epoch": 1.6203619785229737,
      "grad_norm": 0.5752595663070679,
      "learning_rate": 3.6490980245996578e-06,
      "loss": 1.4,
      "mean_token_accuracy": 0.6550338019927343,
      "num_tokens": 2474391564.0,
      "step": 14750
    },
    {
      "entropy": 1.6999848584334056,
      "epoch": 1.6204718354343468,
      "grad_norm": 0.8822055459022522,
      "learning_rate": 3.6481743411405957e-06,
      "loss": 1.4801,
      "mean_token_accuracy": 0.6662048846483231,
      "num_tokens": 2474520827.0,
      "step": 14751
    },
    {
      "entropy": 1.6986857652664185,
      "epoch": 1.6205816923457197,
      "grad_norm": 0.5632603168487549,
      "learning_rate": 3.6472508903635035e-06,
      "loss": 1.4075,
      "mean_token_accuracy": 0.6511333485444387,
      "num_tokens": 2474718631.0,
      "step": 14752
    },
    {
      "entropy": 1.690843830506007,
      "epoch": 1.6206915492570926,
      "grad_norm": 0.6789196729660034,
      "learning_rate": 3.6463276722976094e-06,
      "loss": 1.421,
      "mean_token_accuracy": 0.6547816569606463,
      "num_tokens": 2474877824.0,
      "step": 14753
    },
    {
      "entropy": 1.7533318003018696,
      "epoch": 1.6208014061684657,
      "grad_norm": 0.6676966547966003,
      "learning_rate": 3.6454046869721314e-06,
      "loss": 1.311,
      "mean_token_accuracy": 0.6615221301714579,
      "num_tokens": 2475020061.0,
      "step": 14754
    },
    {
      "entropy": 1.7552814086278279,
      "epoch": 1.6209112630798383,
      "grad_norm": 0.6395809054374695,
      "learning_rate": 3.6444819344162785e-06,
      "loss": 1.3817,
      "mean_token_accuracy": 0.6580479294061661,
      "num_tokens": 2475208467.0,
      "step": 14755
    },
    {
      "entropy": 1.692303051551183,
      "epoch": 1.6210211199912115,
      "grad_norm": 0.6294587254524231,
      "learning_rate": 3.6435594146592602e-06,
      "loss": 1.427,
      "mean_token_accuracy": 0.6477192491292953,
      "num_tokens": 2475440566.0,
      "step": 14756
    },
    {
      "entropy": 1.799072911341985,
      "epoch": 1.6211309769025843,
      "grad_norm": 0.8360262513160706,
      "learning_rate": 3.6426371277302696e-06,
      "loss": 1.5254,
      "mean_token_accuracy": 0.6458015888929367,
      "num_tokens": 2475559755.0,
      "step": 14757
    },
    {
      "entropy": 1.6935710906982422,
      "epoch": 1.6212408338139572,
      "grad_norm": 0.6417449116706848,
      "learning_rate": 3.6417150736585005e-06,
      "loss": 1.2667,
      "mean_token_accuracy": 0.6743132919073105,
      "num_tokens": 2475671516.0,
      "step": 14758
    },
    {
      "entropy": 1.7454969485600789,
      "epoch": 1.6213506907253303,
      "grad_norm": 0.7443606853485107,
      "learning_rate": 3.6407932524731327e-06,
      "loss": 1.2905,
      "mean_token_accuracy": 0.6683808912833532,
      "num_tokens": 2475789097.0,
      "step": 14759
    },
    {
      "entropy": 1.683669090270996,
      "epoch": 1.6214605476367032,
      "grad_norm": 0.6186245083808899,
      "learning_rate": 3.6398716642033415e-06,
      "loss": 1.3217,
      "mean_token_accuracy": 0.6645027448733648,
      "num_tokens": 2475957658.0,
      "step": 14760
    },
    {
      "entropy": 1.7226401766141255,
      "epoch": 1.621570404548076,
      "grad_norm": 0.7316539883613586,
      "learning_rate": 3.638950308878295e-06,
      "loss": 1.3299,
      "mean_token_accuracy": 0.6640412161747614,
      "num_tokens": 2476076424.0,
      "step": 14761
    },
    {
      "entropy": 1.7300419211387634,
      "epoch": 1.6216802614594492,
      "grad_norm": 0.7443107962608337,
      "learning_rate": 3.638029186527159e-06,
      "loss": 1.4486,
      "mean_token_accuracy": 0.6463419745365778,
      "num_tokens": 2476257373.0,
      "step": 14762
    },
    {
      "entropy": 1.653321127096812,
      "epoch": 1.6217901183708219,
      "grad_norm": 0.6316555142402649,
      "learning_rate": 3.6371082971790774e-06,
      "loss": 1.5808,
      "mean_token_accuracy": 0.6333072433869044,
      "num_tokens": 2476519674.0,
      "step": 14763
    },
    {
      "entropy": 1.7144930958747864,
      "epoch": 1.621899975282195,
      "grad_norm": 0.6967435479164124,
      "learning_rate": 3.636187640863199e-06,
      "loss": 1.3244,
      "mean_token_accuracy": 0.6650471885999044,
      "num_tokens": 2476646778.0,
      "step": 14764
    },
    {
      "entropy": 1.6741214394569397,
      "epoch": 1.6220098321935679,
      "grad_norm": 0.7144061923027039,
      "learning_rate": 3.635267217608668e-06,
      "loss": 1.4367,
      "mean_token_accuracy": 0.6536417255798975,
      "num_tokens": 2476791495.0,
      "step": 14765
    },
    {
      "entropy": 1.7125622133413951,
      "epoch": 1.6221196891049408,
      "grad_norm": 0.8451400399208069,
      "learning_rate": 3.634347027444609e-06,
      "loss": 1.5601,
      "mean_token_accuracy": 0.6516855011383692,
      "num_tokens": 2476981517.0,
      "step": 14766
    },
    {
      "entropy": 1.679990828037262,
      "epoch": 1.6222295460163139,
      "grad_norm": 0.8648212552070618,
      "learning_rate": 3.6334270704001464e-06,
      "loss": 1.3945,
      "mean_token_accuracy": 0.6758679350217184,
      "num_tokens": 2477118327.0,
      "step": 14767
    },
    {
      "entropy": 1.6886627574761708,
      "epoch": 1.6223394029276865,
      "grad_norm": 0.5979213714599609,
      "learning_rate": 3.6325073465043998e-06,
      "loss": 1.451,
      "mean_token_accuracy": 0.6546831776698431,
      "num_tokens": 2477323299.0,
      "step": 14768
    },
    {
      "entropy": 1.7278961042563121,
      "epoch": 1.6224492598390596,
      "grad_norm": 0.7632152438163757,
      "learning_rate": 3.6315878557864732e-06,
      "loss": 1.3506,
      "mean_token_accuracy": 0.6647726694742838,
      "num_tokens": 2477455404.0,
      "step": 14769
    },
    {
      "entropy": 1.661962906519572,
      "epoch": 1.6225591167504325,
      "grad_norm": 0.5683802962303162,
      "learning_rate": 3.6306685982754725e-06,
      "loss": 1.4222,
      "mean_token_accuracy": 0.6534817218780518,
      "num_tokens": 2477637665.0,
      "step": 14770
    },
    {
      "entropy": 1.7604417105515797,
      "epoch": 1.6226689736618054,
      "grad_norm": 0.6922222971916199,
      "learning_rate": 3.629749574000491e-06,
      "loss": 1.3952,
      "mean_token_accuracy": 0.6722667813301086,
      "num_tokens": 2477792042.0,
      "step": 14771
    },
    {
      "entropy": 1.7918286224206288,
      "epoch": 1.6227788305731785,
      "grad_norm": 0.7370676398277283,
      "learning_rate": 3.628830782990611e-06,
      "loss": 1.4686,
      "mean_token_accuracy": 0.6477069209019343,
      "num_tokens": 2477953240.0,
      "step": 14772
    },
    {
      "entropy": 1.6899705628554027,
      "epoch": 1.6228886874845514,
      "grad_norm": 0.7105181813240051,
      "learning_rate": 3.627912225274916e-06,
      "loss": 1.4461,
      "mean_token_accuracy": 0.656821588675181,
      "num_tokens": 2478178028.0,
      "step": 14773
    },
    {
      "entropy": 1.6704809963703156,
      "epoch": 1.6229985443959243,
      "grad_norm": 0.6295377016067505,
      "learning_rate": 3.6269939008824818e-06,
      "loss": 1.3896,
      "mean_token_accuracy": 0.6608775307734808,
      "num_tokens": 2478369209.0,
      "step": 14774
    },
    {
      "entropy": 1.7202841540177662,
      "epoch": 1.6231084013072974,
      "grad_norm": 0.6942985653877258,
      "learning_rate": 3.6260758098423634e-06,
      "loss": 1.3808,
      "mean_token_accuracy": 0.664001539349556,
      "num_tokens": 2478504947.0,
      "step": 14775
    },
    {
      "entropy": 1.678806871175766,
      "epoch": 1.62321825821867,
      "grad_norm": 0.6336562037467957,
      "learning_rate": 3.6251579521836223e-06,
      "loss": 1.3756,
      "mean_token_accuracy": 0.6675303081671397,
      "num_tokens": 2478694950.0,
      "step": 14776
    },
    {
      "entropy": 1.764718770980835,
      "epoch": 1.6233281151300432,
      "grad_norm": 0.6643718481063843,
      "learning_rate": 3.624240327935312e-06,
      "loss": 1.5157,
      "mean_token_accuracy": 0.6346383889516195,
      "num_tokens": 2478927778.0,
      "step": 14777
    },
    {
      "entropy": 1.6955519517262776,
      "epoch": 1.623437972041416,
      "grad_norm": 0.678653359413147,
      "learning_rate": 3.6233229371264715e-06,
      "loss": 1.3345,
      "mean_token_accuracy": 0.6630487193663915,
      "num_tokens": 2479106950.0,
      "step": 14778
    },
    {
      "entropy": 1.7352122167746227,
      "epoch": 1.623547828952789,
      "grad_norm": 0.7108410000801086,
      "learning_rate": 3.6224057797861335e-06,
      "loss": 1.4498,
      "mean_token_accuracy": 0.6533684730529785,
      "num_tokens": 2479280565.0,
      "step": 14779
    },
    {
      "entropy": 1.765261471271515,
      "epoch": 1.623657685864162,
      "grad_norm": 0.8185455799102783,
      "learning_rate": 3.6214888559433303e-06,
      "loss": 1.6564,
      "mean_token_accuracy": 0.6357477903366089,
      "num_tokens": 2479455073.0,
      "step": 14780
    },
    {
      "entropy": 1.7805627187093098,
      "epoch": 1.6237675427755347,
      "grad_norm": 0.7521522641181946,
      "learning_rate": 3.6205721656270787e-06,
      "loss": 1.3739,
      "mean_token_accuracy": 0.6541548172632853,
      "num_tokens": 2479612490.0,
      "step": 14781
    },
    {
      "entropy": 1.7144214709599812,
      "epoch": 1.6238773996869078,
      "grad_norm": 0.7456989288330078,
      "learning_rate": 3.6196557088663933e-06,
      "loss": 1.5344,
      "mean_token_accuracy": 0.6387195686499277,
      "num_tokens": 2479774711.0,
      "step": 14782
    },
    {
      "entropy": 1.6867867310841878,
      "epoch": 1.6239872565982807,
      "grad_norm": 0.6226841807365417,
      "learning_rate": 3.6187394856902808e-06,
      "loss": 1.3739,
      "mean_token_accuracy": 0.6644567201534907,
      "num_tokens": 2479941427.0,
      "step": 14783
    },
    {
      "entropy": 1.721395303805669,
      "epoch": 1.6240971135096536,
      "grad_norm": 0.6708065271377563,
      "learning_rate": 3.617823496127734e-06,
      "loss": 1.3871,
      "mean_token_accuracy": 0.6624792019526163,
      "num_tokens": 2480131568.0,
      "step": 14784
    },
    {
      "entropy": 1.7298158307870228,
      "epoch": 1.6242069704210267,
      "grad_norm": 0.6362797021865845,
      "learning_rate": 3.6169077402077502e-06,
      "loss": 1.5095,
      "mean_token_accuracy": 0.6370205332835516,
      "num_tokens": 2480402026.0,
      "step": 14785
    },
    {
      "entropy": 1.7130170961221058,
      "epoch": 1.6243168273323996,
      "grad_norm": 0.6537313461303711,
      "learning_rate": 3.6159922179593087e-06,
      "loss": 1.5106,
      "mean_token_accuracy": 0.6379600862661997,
      "num_tokens": 2480597966.0,
      "step": 14786
    },
    {
      "entropy": 1.7668890555699666,
      "epoch": 1.6244266842437725,
      "grad_norm": 0.7130351066589355,
      "learning_rate": 3.615076929411384e-06,
      "loss": 1.4481,
      "mean_token_accuracy": 0.6494297136863073,
      "num_tokens": 2480795687.0,
      "step": 14787
    },
    {
      "entropy": 1.7258010109265645,
      "epoch": 1.6245365411551456,
      "grad_norm": 0.747342050075531,
      "learning_rate": 3.6141618745929472e-06,
      "loss": 1.5332,
      "mean_token_accuracy": 0.631104106704394,
      "num_tokens": 2481012853.0,
      "step": 14788
    },
    {
      "entropy": 1.6782464186350505,
      "epoch": 1.6246463980665182,
      "grad_norm": 0.6709155440330505,
      "learning_rate": 3.613247053532961e-06,
      "loss": 1.2226,
      "mean_token_accuracy": 0.690729891260465,
      "num_tokens": 2481149441.0,
      "step": 14789
    },
    {
      "entropy": 1.695702721675237,
      "epoch": 1.6247562549778913,
      "grad_norm": 0.614595353603363,
      "learning_rate": 3.6123324662603775e-06,
      "loss": 1.4185,
      "mean_token_accuracy": 0.6465272555748621,
      "num_tokens": 2481355357.0,
      "step": 14790
    },
    {
      "entropy": 1.6653617123762767,
      "epoch": 1.6248661118892642,
      "grad_norm": 0.6412925124168396,
      "learning_rate": 3.6114181128041404e-06,
      "loss": 1.2842,
      "mean_token_accuracy": 0.6678632348775864,
      "num_tokens": 2481495478.0,
      "step": 14791
    },
    {
      "entropy": 1.7512604494889576,
      "epoch": 1.624975968800637,
      "grad_norm": 0.7046493887901306,
      "learning_rate": 3.6105039931931917e-06,
      "loss": 1.5298,
      "mean_token_accuracy": 0.6425130367279053,
      "num_tokens": 2481665561.0,
      "step": 14792
    },
    {
      "entropy": 1.7655756374200184,
      "epoch": 1.6250858257120102,
      "grad_norm": 0.6847085356712341,
      "learning_rate": 3.6095901074564605e-06,
      "loss": 1.5536,
      "mean_token_accuracy": 0.6508872310320536,
      "num_tokens": 2481826917.0,
      "step": 14793
    },
    {
      "entropy": 1.6053343216578166,
      "epoch": 1.625195682623383,
      "grad_norm": 0.7845448851585388,
      "learning_rate": 3.608676455622874e-06,
      "loss": 1.4418,
      "mean_token_accuracy": 0.6726017246643702,
      "num_tokens": 2481975809.0,
      "step": 14794
    },
    {
      "entropy": 1.7125616768995922,
      "epoch": 1.625305539534756,
      "grad_norm": 0.6936936378479004,
      "learning_rate": 3.607763037721348e-06,
      "loss": 1.5531,
      "mean_token_accuracy": 0.6478741864363352,
      "num_tokens": 2482194797.0,
      "step": 14795
    },
    {
      "entropy": 1.736180692911148,
      "epoch": 1.6254153964461289,
      "grad_norm": 0.6816456317901611,
      "learning_rate": 3.6068498537807884e-06,
      "loss": 1.339,
      "mean_token_accuracy": 0.6603361467520396,
      "num_tokens": 2482331620.0,
      "step": 14796
    },
    {
      "entropy": 1.7087311546007793,
      "epoch": 1.6255252533575018,
      "grad_norm": 0.8054825067520142,
      "learning_rate": 3.6059369038301005e-06,
      "loss": 1.4759,
      "mean_token_accuracy": 0.6657463312149048,
      "num_tokens": 2482466267.0,
      "step": 14797
    },
    {
      "entropy": 1.6767024497191112,
      "epoch": 1.6256351102688749,
      "grad_norm": 0.723479688167572,
      "learning_rate": 3.605024187898178e-06,
      "loss": 1.1712,
      "mean_token_accuracy": 0.6891407519578934,
      "num_tokens": 2482611295.0,
      "step": 14798
    },
    {
      "entropy": 1.6842226882775624,
      "epoch": 1.6257449671802477,
      "grad_norm": 0.5745367407798767,
      "learning_rate": 3.604111706013906e-06,
      "loss": 1.3578,
      "mean_token_accuracy": 0.6609561542669932,
      "num_tokens": 2482777747.0,
      "step": 14799
    },
    {
      "entropy": 1.719879557689031,
      "epoch": 1.6258548240916206,
      "grad_norm": 0.7957612872123718,
      "learning_rate": 3.6031994582061657e-06,
      "loss": 1.3992,
      "mean_token_accuracy": 0.6573441376288732,
      "num_tokens": 2482902723.0,
      "step": 14800
    },
    {
      "entropy": 1.7037660876909893,
      "epoch": 1.6259646810029937,
      "grad_norm": 0.5532712340354919,
      "learning_rate": 3.6022874445038326e-06,
      "loss": 1.4247,
      "mean_token_accuracy": 0.6606289645036062,
      "num_tokens": 2483116670.0,
      "step": 14801
    },
    {
      "entropy": 1.7359294990698497,
      "epoch": 1.6260745379143664,
      "grad_norm": 0.6897640228271484,
      "learning_rate": 3.6013756649357675e-06,
      "loss": 1.3636,
      "mean_token_accuracy": 0.6593460738658905,
      "num_tokens": 2483265825.0,
      "step": 14802
    },
    {
      "entropy": 1.7429955800374348,
      "epoch": 1.6261843948257395,
      "grad_norm": 0.7224751710891724,
      "learning_rate": 3.6004641195308284e-06,
      "loss": 1.4376,
      "mean_token_accuracy": 0.6494200577338537,
      "num_tokens": 2483418684.0,
      "step": 14803
    },
    {
      "entropy": 1.7316950261592865,
      "epoch": 1.6262942517371124,
      "grad_norm": 0.8159376382827759,
      "learning_rate": 3.5995528083178632e-06,
      "loss": 1.5238,
      "mean_token_accuracy": 0.6503862986962,
      "num_tokens": 2483577085.0,
      "step": 14804
    },
    {
      "entropy": 1.687993158896764,
      "epoch": 1.6264041086484853,
      "grad_norm": 0.7989717721939087,
      "learning_rate": 3.5986417313257176e-06,
      "loss": 1.3912,
      "mean_token_accuracy": 0.659797266125679,
      "num_tokens": 2483734490.0,
      "step": 14805
    },
    {
      "entropy": 1.6549718777338664,
      "epoch": 1.6265139655598584,
      "grad_norm": 0.579478919506073,
      "learning_rate": 3.5977308885832297e-06,
      "loss": 1.4292,
      "mean_token_accuracy": 0.6463843236366907,
      "num_tokens": 2483947255.0,
      "step": 14806
    },
    {
      "entropy": 1.6915274957815807,
      "epoch": 1.6266238224712313,
      "grad_norm": 0.7029345035552979,
      "learning_rate": 3.596820280119221e-06,
      "loss": 1.5627,
      "mean_token_accuracy": 0.6520664145549139,
      "num_tokens": 2484087439.0,
      "step": 14807
    },
    {
      "entropy": 1.6860439380009968,
      "epoch": 1.6267336793826042,
      "grad_norm": 0.6037241816520691,
      "learning_rate": 3.5959099059625136e-06,
      "loss": 1.3567,
      "mean_token_accuracy": 0.6552727371454239,
      "num_tokens": 2484248258.0,
      "step": 14808
    },
    {
      "entropy": 1.6769340336322784,
      "epoch": 1.626843536293977,
      "grad_norm": 0.6906334757804871,
      "learning_rate": 3.594999766141922e-06,
      "loss": 1.4036,
      "mean_token_accuracy": 0.6545880983273188,
      "num_tokens": 2484416040.0,
      "step": 14809
    },
    {
      "entropy": 1.7643942634264629,
      "epoch": 1.62695339320535,
      "grad_norm": 0.7934665083885193,
      "learning_rate": 3.594089860686253e-06,
      "loss": 1.4969,
      "mean_token_accuracy": 0.6431198517481486,
      "num_tokens": 2484557942.0,
      "step": 14810
    },
    {
      "entropy": 1.679926613966624,
      "epoch": 1.627063250116723,
      "grad_norm": 0.5863533020019531,
      "learning_rate": 3.593180189624299e-06,
      "loss": 1.4085,
      "mean_token_accuracy": 0.6471660186847051,
      "num_tokens": 2484819829.0,
      "step": 14811
    },
    {
      "entropy": 1.7257270713647206,
      "epoch": 1.627173107028096,
      "grad_norm": 0.6526218056678772,
      "learning_rate": 3.5922707529848576e-06,
      "loss": 1.4658,
      "mean_token_accuracy": 0.6473792394002279,
      "num_tokens": 2485029927.0,
      "step": 14812
    },
    {
      "entropy": 1.7281257609526317,
      "epoch": 1.6272829639394688,
      "grad_norm": 0.7226946353912354,
      "learning_rate": 3.5913615507967057e-06,
      "loss": 1.2854,
      "mean_token_accuracy": 0.6790865163008372,
      "num_tokens": 2485168825.0,
      "step": 14813
    },
    {
      "entropy": 1.6933965583642323,
      "epoch": 1.627392820850842,
      "grad_norm": 0.6387641429901123,
      "learning_rate": 3.590452583088626e-06,
      "loss": 1.4405,
      "mean_token_accuracy": 0.6517203003168106,
      "num_tokens": 2485352424.0,
      "step": 14814
    },
    {
      "entropy": 1.745787501335144,
      "epoch": 1.6275026777622146,
      "grad_norm": 0.655708909034729,
      "learning_rate": 3.5895438498893827e-06,
      "loss": 1.4132,
      "mean_token_accuracy": 0.643621101975441,
      "num_tokens": 2485521153.0,
      "step": 14815
    },
    {
      "entropy": 1.7322950462500255,
      "epoch": 1.6276125346735877,
      "grad_norm": 0.7635506391525269,
      "learning_rate": 3.588635351227735e-06,
      "loss": 1.4825,
      "mean_token_accuracy": 0.6420500675837199,
      "num_tokens": 2485727288.0,
      "step": 14816
    },
    {
      "entropy": 1.663044144709905,
      "epoch": 1.6277223915849606,
      "grad_norm": 0.6754635572433472,
      "learning_rate": 3.5877270871324383e-06,
      "loss": 1.5849,
      "mean_token_accuracy": 0.6396665796637535,
      "num_tokens": 2485909269.0,
      "step": 14817
    },
    {
      "entropy": 1.661100705464681,
      "epoch": 1.6278322484963335,
      "grad_norm": 0.5776710510253906,
      "learning_rate": 3.586819057632245e-06,
      "loss": 1.3384,
      "mean_token_accuracy": 0.66503178079923,
      "num_tokens": 2486085108.0,
      "step": 14818
    },
    {
      "entropy": 1.7141460180282593,
      "epoch": 1.6279421054077066,
      "grad_norm": 0.6838655471801758,
      "learning_rate": 3.5859112627558823e-06,
      "loss": 1.3575,
      "mean_token_accuracy": 0.662881389260292,
      "num_tokens": 2486228224.0,
      "step": 14819
    },
    {
      "entropy": 1.698822170495987,
      "epoch": 1.6280519623190794,
      "grad_norm": 0.8585372567176819,
      "learning_rate": 3.585003702532087e-06,
      "loss": 1.3737,
      "mean_token_accuracy": 0.6647797971963882,
      "num_tokens": 2486380485.0,
      "step": 14820
    },
    {
      "entropy": 1.7368709444999695,
      "epoch": 1.6281618192304523,
      "grad_norm": 0.7684159874916077,
      "learning_rate": 3.5840963769895866e-06,
      "loss": 1.2543,
      "mean_token_accuracy": 0.6787616461515427,
      "num_tokens": 2486507958.0,
      "step": 14821
    },
    {
      "entropy": 1.6780678729216258,
      "epoch": 1.6282716761418252,
      "grad_norm": 0.6047248840332031,
      "learning_rate": 3.583189286157094e-06,
      "loss": 1.3225,
      "mean_token_accuracy": 0.6666500320037206,
      "num_tokens": 2486689124.0,
      "step": 14822
    },
    {
      "entropy": 1.723960777123769,
      "epoch": 1.628381533053198,
      "grad_norm": 0.6120347380638123,
      "learning_rate": 3.5822824300633153e-06,
      "loss": 1.3838,
      "mean_token_accuracy": 0.6574974805116653,
      "num_tokens": 2486823706.0,
      "step": 14823
    },
    {
      "entropy": 1.731412132581075,
      "epoch": 1.6284913899645712,
      "grad_norm": 0.5602653622627258,
      "learning_rate": 3.5813758087369577e-06,
      "loss": 1.3932,
      "mean_token_accuracy": 0.645255446434021,
      "num_tokens": 2487003576.0,
      "step": 14824
    },
    {
      "entropy": 1.738511284192403,
      "epoch": 1.628601246875944,
      "grad_norm": 0.7291231751441956,
      "learning_rate": 3.5804694222067117e-06,
      "loss": 1.3607,
      "mean_token_accuracy": 0.6644929597775141,
      "num_tokens": 2487179613.0,
      "step": 14825
    },
    {
      "entropy": 1.7071664134661357,
      "epoch": 1.628711103787317,
      "grad_norm": 0.596044659614563,
      "learning_rate": 3.579563270501266e-06,
      "loss": 1.4555,
      "mean_token_accuracy": 0.6338590929905573,
      "num_tokens": 2487378214.0,
      "step": 14826
    },
    {
      "entropy": 1.7025366922219594,
      "epoch": 1.62882096069869,
      "grad_norm": 0.862602710723877,
      "learning_rate": 3.5786573536493002e-06,
      "loss": 1.4171,
      "mean_token_accuracy": 0.6637825717528661,
      "num_tokens": 2487541639.0,
      "step": 14827
    },
    {
      "entropy": 1.7075651188691456,
      "epoch": 1.6289308176100628,
      "grad_norm": 0.731027364730835,
      "learning_rate": 3.5777516716794814e-06,
      "loss": 1.4465,
      "mean_token_accuracy": 0.6556923538446426,
      "num_tokens": 2487713071.0,
      "step": 14828
    },
    {
      "entropy": 1.6427714824676514,
      "epoch": 1.6290406745214359,
      "grad_norm": 0.5780958533287048,
      "learning_rate": 3.5768462246204793e-06,
      "loss": 1.3354,
      "mean_token_accuracy": 0.6602772623300552,
      "num_tokens": 2487904465.0,
      "step": 14829
    },
    {
      "entropy": 1.7856932580471039,
      "epoch": 1.6291505314328087,
      "grad_norm": 0.6738545894622803,
      "learning_rate": 3.575941012500952e-06,
      "loss": 1.4451,
      "mean_token_accuracy": 0.6467948655287424,
      "num_tokens": 2488101377.0,
      "step": 14830
    },
    {
      "entropy": 1.6973777413368225,
      "epoch": 1.6292603883441816,
      "grad_norm": 0.646508514881134,
      "learning_rate": 3.575036035349543e-06,
      "loss": 1.4545,
      "mean_token_accuracy": 0.6591275582710902,
      "num_tokens": 2488282493.0,
      "step": 14831
    },
    {
      "entropy": 1.6603109538555145,
      "epoch": 1.6293702452555547,
      "grad_norm": 0.6032806038856506,
      "learning_rate": 3.5741312931948973e-06,
      "loss": 1.4004,
      "mean_token_accuracy": 0.6521612008412679,
      "num_tokens": 2488501507.0,
      "step": 14832
    },
    {
      "entropy": 1.6811530391375225,
      "epoch": 1.6294801021669276,
      "grad_norm": 0.5795667767524719,
      "learning_rate": 3.573226786065652e-06,
      "loss": 1.426,
      "mean_token_accuracy": 0.6499424229065577,
      "num_tokens": 2488732884.0,
      "step": 14833
    },
    {
      "entropy": 1.758106917142868,
      "epoch": 1.6295899590783005,
      "grad_norm": 0.6564192771911621,
      "learning_rate": 3.5723225139904326e-06,
      "loss": 1.5641,
      "mean_token_accuracy": 0.6320732136567434,
      "num_tokens": 2488941510.0,
      "step": 14834
    },
    {
      "entropy": 1.6827127536137898,
      "epoch": 1.6296998159896734,
      "grad_norm": 0.8532228469848633,
      "learning_rate": 3.5714184769978564e-06,
      "loss": 1.4796,
      "mean_token_accuracy": 0.653532346089681,
      "num_tokens": 2489149280.0,
      "step": 14835
    },
    {
      "entropy": 1.6751657327016194,
      "epoch": 1.6298096729010463,
      "grad_norm": 0.6216030120849609,
      "learning_rate": 3.570514675116541e-06,
      "loss": 1.5362,
      "mean_token_accuracy": 0.6317654103040695,
      "num_tokens": 2489351067.0,
      "step": 14836
    },
    {
      "entropy": 1.7361950079600017,
      "epoch": 1.6299195298124194,
      "grad_norm": 0.670462965965271,
      "learning_rate": 3.569611108375085e-06,
      "loss": 1.3815,
      "mean_token_accuracy": 0.6552157799402872,
      "num_tokens": 2489508353.0,
      "step": 14837
    },
    {
      "entropy": 1.6183799505233765,
      "epoch": 1.6300293867237923,
      "grad_norm": 0.7788172960281372,
      "learning_rate": 3.568707776802093e-06,
      "loss": 1.2651,
      "mean_token_accuracy": 0.6860854128996531,
      "num_tokens": 2489659360.0,
      "step": 14838
    },
    {
      "entropy": 1.6797572473684947,
      "epoch": 1.6301392436351652,
      "grad_norm": 0.6599597930908203,
      "learning_rate": 3.567804680426149e-06,
      "loss": 1.6206,
      "mean_token_accuracy": 0.6344324350357056,
      "num_tokens": 2489862270.0,
      "step": 14839
    },
    {
      "entropy": 1.7235714693864186,
      "epoch": 1.6302491005465383,
      "grad_norm": 0.6941717267036438,
      "learning_rate": 3.5669018192758376e-06,
      "loss": 1.4494,
      "mean_token_accuracy": 0.644492988785108,
      "num_tokens": 2490076035.0,
      "step": 14840
    },
    {
      "entropy": 1.7475056151549022,
      "epoch": 1.630358957457911,
      "grad_norm": 0.8079373836517334,
      "learning_rate": 3.5659991933797335e-06,
      "loss": 1.2693,
      "mean_token_accuracy": 0.6746415694554647,
      "num_tokens": 2490202356.0,
      "step": 14841
    },
    {
      "entropy": 1.7727145949999492,
      "epoch": 1.630468814369284,
      "grad_norm": 0.8447114825248718,
      "learning_rate": 3.565096802766409e-06,
      "loss": 1.4037,
      "mean_token_accuracy": 0.6543415536483129,
      "num_tokens": 2490342399.0,
      "step": 14842
    },
    {
      "entropy": 1.6871120929718018,
      "epoch": 1.630578671280657,
      "grad_norm": 0.7047051191329956,
      "learning_rate": 3.564194647464416e-06,
      "loss": 1.335,
      "mean_token_accuracy": 0.6622759302457174,
      "num_tokens": 2490474991.0,
      "step": 14843
    },
    {
      "entropy": 1.7004227538903554,
      "epoch": 1.6306885281920298,
      "grad_norm": 0.7728781700134277,
      "learning_rate": 3.563292727502312e-06,
      "loss": 1.2688,
      "mean_token_accuracy": 0.679591124256452,
      "num_tokens": 2490595258.0,
      "step": 14844
    },
    {
      "entropy": 1.7138066987196605,
      "epoch": 1.630798385103403,
      "grad_norm": 0.6996949315071106,
      "learning_rate": 3.562391042908645e-06,
      "loss": 1.3455,
      "mean_token_accuracy": 0.6582550307114919,
      "num_tokens": 2490731251.0,
      "step": 14845
    },
    {
      "entropy": 1.667192538579305,
      "epoch": 1.6309082420147758,
      "grad_norm": 0.5813220143318176,
      "learning_rate": 3.5614895937119485e-06,
      "loss": 1.4651,
      "mean_token_accuracy": 0.6454577694336573,
      "num_tokens": 2490944539.0,
      "step": 14846
    },
    {
      "entropy": 1.624341497818629,
      "epoch": 1.6310180989261487,
      "grad_norm": 0.7384394407272339,
      "learning_rate": 3.5605883799407535e-06,
      "loss": 1.1494,
      "mean_token_accuracy": 0.6913396020730337,
      "num_tokens": 2491095006.0,
      "step": 14847
    },
    {
      "entropy": 1.6980106929938,
      "epoch": 1.6311279558375218,
      "grad_norm": 0.5377804040908813,
      "learning_rate": 3.559687401623586e-06,
      "loss": 1.3711,
      "mean_token_accuracy": 0.6495694518089294,
      "num_tokens": 2491351384.0,
      "step": 14848
    },
    {
      "entropy": 1.779253711303075,
      "epoch": 1.6312378127488945,
      "grad_norm": 0.7473645806312561,
      "learning_rate": 3.5587866587889576e-06,
      "loss": 1.3689,
      "mean_token_accuracy": 0.6602377941211065,
      "num_tokens": 2491513439.0,
      "step": 14849
    },
    {
      "entropy": 1.6981875896453857,
      "epoch": 1.6313476696602676,
      "grad_norm": 0.8267091512680054,
      "learning_rate": 3.5578861514653808e-06,
      "loss": 1.2869,
      "mean_token_accuracy": 0.6729562679926554,
      "num_tokens": 2491659420.0,
      "step": 14850
    },
    {
      "entropy": 1.738324244817098,
      "epoch": 1.6314575265716404,
      "grad_norm": 0.6099868416786194,
      "learning_rate": 3.5569858796813526e-06,
      "loss": 1.5184,
      "mean_token_accuracy": 0.6377961039543152,
      "num_tokens": 2491859689.0,
      "step": 14851
    },
    {
      "entropy": 1.6928378343582153,
      "epoch": 1.6315673834830133,
      "grad_norm": 0.8429316878318787,
      "learning_rate": 3.556085843465367e-06,
      "loss": 1.4247,
      "mean_token_accuracy": 0.6417907128731409,
      "num_tokens": 2492026241.0,
      "step": 14852
    },
    {
      "entropy": 1.7215720117092133,
      "epoch": 1.6316772403943864,
      "grad_norm": 0.5659279227256775,
      "learning_rate": 3.5551860428459083e-06,
      "loss": 1.3285,
      "mean_token_accuracy": 0.664972111582756,
      "num_tokens": 2492199044.0,
      "step": 14853
    },
    {
      "entropy": 1.67046320438385,
      "epoch": 1.631787097305759,
      "grad_norm": 0.669076681137085,
      "learning_rate": 3.554286477851461e-06,
      "loss": 1.3329,
      "mean_token_accuracy": 0.6556582550207773,
      "num_tokens": 2492357468.0,
      "step": 14854
    },
    {
      "entropy": 1.6809894442558289,
      "epoch": 1.6318969542171322,
      "grad_norm": 1.6321697235107422,
      "learning_rate": 3.5533871485104887e-06,
      "loss": 1.1329,
      "mean_token_accuracy": 0.6873187224070231,
      "num_tokens": 2492564644.0,
      "step": 14855
    },
    {
      "entropy": 1.7081284324328105,
      "epoch": 1.632006811128505,
      "grad_norm": 0.6694812774658203,
      "learning_rate": 3.5524880548514574e-06,
      "loss": 1.3172,
      "mean_token_accuracy": 0.6649055629968643,
      "num_tokens": 2492727367.0,
      "step": 14856
    },
    {
      "entropy": 1.7426902850468953,
      "epoch": 1.632116668039878,
      "grad_norm": 0.9611921310424805,
      "learning_rate": 3.551589196902824e-06,
      "loss": 1.5354,
      "mean_token_accuracy": 0.6367527097463608,
      "num_tokens": 2492905137.0,
      "step": 14857
    },
    {
      "entropy": 1.7176842490832012,
      "epoch": 1.632226524951251,
      "grad_norm": 0.7354887127876282,
      "learning_rate": 3.5506905746930365e-06,
      "loss": 1.3753,
      "mean_token_accuracy": 0.6750811090071996,
      "num_tokens": 2493042841.0,
      "step": 14858
    },
    {
      "entropy": 1.7373330096403758,
      "epoch": 1.632336381862624,
      "grad_norm": 0.6578879356384277,
      "learning_rate": 3.5497921882505345e-06,
      "loss": 1.4284,
      "mean_token_accuracy": 0.6463020741939545,
      "num_tokens": 2493188295.0,
      "step": 14859
    },
    {
      "entropy": 1.7101022799809773,
      "epoch": 1.6324462387739969,
      "grad_norm": 0.7568862438201904,
      "learning_rate": 3.548894037603754e-06,
      "loss": 1.3947,
      "mean_token_accuracy": 0.6567882696787516,
      "num_tokens": 2493300490.0,
      "step": 14860
    },
    {
      "entropy": 1.6923839151859283,
      "epoch": 1.63255609568537,
      "grad_norm": 0.7015122175216675,
      "learning_rate": 3.5479961227811176e-06,
      "loss": 1.2996,
      "mean_token_accuracy": 0.6799081216255823,
      "num_tokens": 2493421728.0,
      "step": 14861
    },
    {
      "entropy": 1.6776911318302155,
      "epoch": 1.6326659525967426,
      "grad_norm": 0.7158594727516174,
      "learning_rate": 3.547098443811048e-06,
      "loss": 1.4477,
      "mean_token_accuracy": 0.6565545201301575,
      "num_tokens": 2493557145.0,
      "step": 14862
    },
    {
      "entropy": 1.6888268689314525,
      "epoch": 1.6327758095081157,
      "grad_norm": 0.6423219442367554,
      "learning_rate": 3.546201000721955e-06,
      "loss": 1.3946,
      "mean_token_accuracy": 0.6625121484200159,
      "num_tokens": 2493720563.0,
      "step": 14863
    },
    {
      "entropy": 1.7296898762385051,
      "epoch": 1.6328856664194886,
      "grad_norm": 0.6093067526817322,
      "learning_rate": 3.5453037935422386e-06,
      "loss": 1.2773,
      "mean_token_accuracy": 0.6675838033358256,
      "num_tokens": 2493874867.0,
      "step": 14864
    },
    {
      "entropy": 1.720589945713679,
      "epoch": 1.6329955233308615,
      "grad_norm": 0.6853680610656738,
      "learning_rate": 3.544406822300301e-06,
      "loss": 1.4858,
      "mean_token_accuracy": 0.6388275722662607,
      "num_tokens": 2494059360.0,
      "step": 14865
    },
    {
      "entropy": 1.7451708912849426,
      "epoch": 1.6331053802422346,
      "grad_norm": 0.6423693895339966,
      "learning_rate": 3.543510087024527e-06,
      "loss": 1.3918,
      "mean_token_accuracy": 0.6528707345326742,
      "num_tokens": 2494217568.0,
      "step": 14866
    },
    {
      "entropy": 1.7308546602725983,
      "epoch": 1.6332152371536073,
      "grad_norm": 0.711121678352356,
      "learning_rate": 3.5426135877432964e-06,
      "loss": 1.3704,
      "mean_token_accuracy": 0.6558242936929067,
      "num_tokens": 2494360987.0,
      "step": 14867
    },
    {
      "entropy": 1.7218280136585236,
      "epoch": 1.6333250940649804,
      "grad_norm": 0.6833885908126831,
      "learning_rate": 3.541717324484989e-06,
      "loss": 1.3251,
      "mean_token_accuracy": 0.6657578895489374,
      "num_tokens": 2494512404.0,
      "step": 14868
    },
    {
      "entropy": 1.6832963228225708,
      "epoch": 1.6334349509763533,
      "grad_norm": 0.680909276008606,
      "learning_rate": 3.5408212972779637e-06,
      "loss": 1.5483,
      "mean_token_accuracy": 0.6394904057184855,
      "num_tokens": 2494693858.0,
      "step": 14869
    },
    {
      "entropy": 1.7123718361059825,
      "epoch": 1.6335448078877262,
      "grad_norm": 0.6566091179847717,
      "learning_rate": 3.5399255061505865e-06,
      "loss": 1.543,
      "mean_token_accuracy": 0.6367166439692179,
      "num_tokens": 2494928751.0,
      "step": 14870
    },
    {
      "entropy": 1.7312154173851013,
      "epoch": 1.6336546647990993,
      "grad_norm": 0.6933454871177673,
      "learning_rate": 3.5390299511312052e-06,
      "loss": 1.3882,
      "mean_token_accuracy": 0.6590891778469086,
      "num_tokens": 2495100100.0,
      "step": 14871
    },
    {
      "entropy": 1.6795762479305267,
      "epoch": 1.6337645217104722,
      "grad_norm": 0.6371995806694031,
      "learning_rate": 3.5381346322481615e-06,
      "loss": 1.4628,
      "mean_token_accuracy": 0.6527168452739716,
      "num_tokens": 2495293299.0,
      "step": 14872
    },
    {
      "entropy": 1.7581091423829396,
      "epoch": 1.633874378621845,
      "grad_norm": 0.7635604739189148,
      "learning_rate": 3.537239549529794e-06,
      "loss": 1.3626,
      "mean_token_accuracy": 0.6564153929551443,
      "num_tokens": 2495404583.0,
      "step": 14873
    },
    {
      "entropy": 1.6930834452311199,
      "epoch": 1.6339842355332181,
      "grad_norm": 0.668928861618042,
      "learning_rate": 3.536344703004437e-06,
      "loss": 1.4902,
      "mean_token_accuracy": 0.6442474573850632,
      "num_tokens": 2495642014.0,
      "step": 14874
    },
    {
      "entropy": 1.7224301397800446,
      "epoch": 1.6340940924445908,
      "grad_norm": 0.6915125846862793,
      "learning_rate": 3.535450092700402e-06,
      "loss": 1.5863,
      "mean_token_accuracy": 0.6436110337575277,
      "num_tokens": 2495828498.0,
      "step": 14875
    },
    {
      "entropy": 1.675351361433665,
      "epoch": 1.634203949355964,
      "grad_norm": 0.6921147704124451,
      "learning_rate": 3.5345557186460084e-06,
      "loss": 1.3715,
      "mean_token_accuracy": 0.6487573534250259,
      "num_tokens": 2495990677.0,
      "step": 14876
    },
    {
      "entropy": 1.6654540499051411,
      "epoch": 1.6343138062673368,
      "grad_norm": 0.6828057169914246,
      "learning_rate": 3.533661580869564e-06,
      "loss": 1.3833,
      "mean_token_accuracy": 0.6538653870423635,
      "num_tokens": 2496196017.0,
      "step": 14877
    },
    {
      "entropy": 1.654507319132487,
      "epoch": 1.6344236631787097,
      "grad_norm": 0.620732307434082,
      "learning_rate": 3.532767679399366e-06,
      "loss": 1.3135,
      "mean_token_accuracy": 0.671380952000618,
      "num_tokens": 2496363867.0,
      "step": 14878
    },
    {
      "entropy": 1.6607101559638977,
      "epoch": 1.6345335200900828,
      "grad_norm": 0.7271916270256042,
      "learning_rate": 3.5318740142637055e-06,
      "loss": 1.2748,
      "mean_token_accuracy": 0.6694884747266769,
      "num_tokens": 2496485499.0,
      "step": 14879
    },
    {
      "entropy": 1.680219570795695,
      "epoch": 1.6346433770014555,
      "grad_norm": 0.6058405041694641,
      "learning_rate": 3.530980585490868e-06,
      "loss": 1.2907,
      "mean_token_accuracy": 0.6739451040824255,
      "num_tokens": 2496627375.0,
      "step": 14880
    },
    {
      "entropy": 1.7118292550245922,
      "epoch": 1.6347532339128286,
      "grad_norm": 0.7250180244445801,
      "learning_rate": 3.5300873931091273e-06,
      "loss": 1.3839,
      "mean_token_accuracy": 0.6615385562181473,
      "num_tokens": 2496789160.0,
      "step": 14881
    },
    {
      "entropy": 1.6516647239526112,
      "epoch": 1.6348630908242014,
      "grad_norm": 0.6745825409889221,
      "learning_rate": 3.529194437146758e-06,
      "loss": 1.3025,
      "mean_token_accuracy": 0.6585622032483419,
      "num_tokens": 2496933961.0,
      "step": 14882
    },
    {
      "entropy": 1.7175203661123912,
      "epoch": 1.6349729477355743,
      "grad_norm": 0.7522205114364624,
      "learning_rate": 3.5283017176320165e-06,
      "loss": 1.4299,
      "mean_token_accuracy": 0.6582658936580023,
      "num_tokens": 2497087188.0,
      "step": 14883
    },
    {
      "entropy": 1.7287144362926483,
      "epoch": 1.6350828046469474,
      "grad_norm": 0.7147111892700195,
      "learning_rate": 3.5274092345931566e-06,
      "loss": 1.4834,
      "mean_token_accuracy": 0.6414237320423126,
      "num_tokens": 2497221997.0,
      "step": 14884
    },
    {
      "entropy": 1.7016437649726868,
      "epoch": 1.6351926615583203,
      "grad_norm": 0.6433010101318359,
      "learning_rate": 3.526516988058429e-06,
      "loss": 1.5277,
      "mean_token_accuracy": 0.6294675916433334,
      "num_tokens": 2497440321.0,
      "step": 14885
    },
    {
      "entropy": 1.667111227909724,
      "epoch": 1.6353025184696932,
      "grad_norm": 0.6358702778816223,
      "learning_rate": 3.525624978056075e-06,
      "loss": 1.3189,
      "mean_token_accuracy": 0.6666462322076162,
      "num_tokens": 2497632696.0,
      "step": 14886
    },
    {
      "entropy": 1.7168804009755452,
      "epoch": 1.6354123753810663,
      "grad_norm": 0.8079360723495483,
      "learning_rate": 3.5247332046143162e-06,
      "loss": 1.4001,
      "mean_token_accuracy": 0.6580467720826467,
      "num_tokens": 2497763143.0,
      "step": 14887
    },
    {
      "entropy": 1.7009617785612743,
      "epoch": 1.635522232292439,
      "grad_norm": 0.6826213598251343,
      "learning_rate": 3.523841667761384e-06,
      "loss": 1.4124,
      "mean_token_accuracy": 0.6428949236869812,
      "num_tokens": 2497924766.0,
      "step": 14888
    },
    {
      "entropy": 1.6994600693384807,
      "epoch": 1.635632089203812,
      "grad_norm": 0.7632419466972351,
      "learning_rate": 3.522950367525497e-06,
      "loss": 1.3133,
      "mean_token_accuracy": 0.6738540679216385,
      "num_tokens": 2498058132.0,
      "step": 14889
    },
    {
      "entropy": 1.7564916412035625,
      "epoch": 1.635741946115185,
      "grad_norm": 0.6684771776199341,
      "learning_rate": 3.522059303934862e-06,
      "loss": 1.4357,
      "mean_token_accuracy": 0.6621495882670084,
      "num_tokens": 2498215496.0,
      "step": 14890
    },
    {
      "entropy": 1.7205718557039897,
      "epoch": 1.6358518030265579,
      "grad_norm": 0.7321786880493164,
      "learning_rate": 3.5211684770176777e-06,
      "loss": 1.4398,
      "mean_token_accuracy": 0.6541054844856262,
      "num_tokens": 2498439505.0,
      "step": 14891
    },
    {
      "entropy": 1.67322771747907,
      "epoch": 1.635961659937931,
      "grad_norm": 0.7148532867431641,
      "learning_rate": 3.5202778868021423e-06,
      "loss": 1.3382,
      "mean_token_accuracy": 0.667180672287941,
      "num_tokens": 2498635826.0,
      "step": 14892
    },
    {
      "entropy": 1.7368038892745972,
      "epoch": 1.6360715168493036,
      "grad_norm": 0.780015230178833,
      "learning_rate": 3.5193875333164398e-06,
      "loss": 1.4777,
      "mean_token_accuracy": 0.6418419082959493,
      "num_tokens": 2498823186.0,
      "step": 14893
    },
    {
      "entropy": 1.6647245784600575,
      "epoch": 1.6361813737606767,
      "grad_norm": 0.6493139863014221,
      "learning_rate": 3.518497416588753e-06,
      "loss": 1.4324,
      "mean_token_accuracy": 0.6691676676273346,
      "num_tokens": 2499000974.0,
      "step": 14894
    },
    {
      "entropy": 1.7569353878498077,
      "epoch": 1.6362912306720496,
      "grad_norm": 0.6052994728088379,
      "learning_rate": 3.517607536647253e-06,
      "loss": 1.4793,
      "mean_token_accuracy": 0.6535971015691757,
      "num_tokens": 2499187968.0,
      "step": 14895
    },
    {
      "entropy": 1.6488630374272664,
      "epoch": 1.6364010875834225,
      "grad_norm": 0.6986522078514099,
      "learning_rate": 3.5167178935200996e-06,
      "loss": 1.389,
      "mean_token_accuracy": 0.6525800079107285,
      "num_tokens": 2499352714.0,
      "step": 14896
    },
    {
      "entropy": 1.7244251767794292,
      "epoch": 1.6365109444947956,
      "grad_norm": 0.720429003238678,
      "learning_rate": 3.515828487235453e-06,
      "loss": 1.5057,
      "mean_token_accuracy": 0.661791185537974,
      "num_tokens": 2499494824.0,
      "step": 14897
    },
    {
      "entropy": 1.6545683940251668,
      "epoch": 1.6366208014061685,
      "grad_norm": 0.7149010300636292,
      "learning_rate": 3.5149393178214663e-06,
      "loss": 1.3648,
      "mean_token_accuracy": 0.6682617863019308,
      "num_tokens": 2499651766.0,
      "step": 14898
    },
    {
      "entropy": 1.7152326206366222,
      "epoch": 1.6367306583175414,
      "grad_norm": 0.6399795413017273,
      "learning_rate": 3.5140503853062734e-06,
      "loss": 1.3521,
      "mean_token_accuracy": 0.6598746081193289,
      "num_tokens": 2499796383.0,
      "step": 14899
    },
    {
      "entropy": 1.7084354956944783,
      "epoch": 1.6368405152289145,
      "grad_norm": 0.693622887134552,
      "learning_rate": 3.5131616897180132e-06,
      "loss": 1.5177,
      "mean_token_accuracy": 0.641907716790835,
      "num_tokens": 2499967826.0,
      "step": 14900
    },
    {
      "entropy": 1.763914128144582,
      "epoch": 1.6369503721402872,
      "grad_norm": 0.7751642465591431,
      "learning_rate": 3.5122732310848124e-06,
      "loss": 1.3232,
      "mean_token_accuracy": 0.658448706070582,
      "num_tokens": 2500085030.0,
      "step": 14901
    },
    {
      "entropy": 1.6992384692033131,
      "epoch": 1.6370602290516603,
      "grad_norm": 0.6677964925765991,
      "learning_rate": 3.5113850094347906e-06,
      "loss": 1.4129,
      "mean_token_accuracy": 0.6515720884005228,
      "num_tokens": 2500323347.0,
      "step": 14902
    },
    {
      "entropy": 1.65836563706398,
      "epoch": 1.6371700859630332,
      "grad_norm": 0.6140561103820801,
      "learning_rate": 3.5104970247960567e-06,
      "loss": 1.3939,
      "mean_token_accuracy": 0.6596829444169998,
      "num_tokens": 2500533957.0,
      "step": 14903
    },
    {
      "entropy": 1.764195293188095,
      "epoch": 1.637279942874406,
      "grad_norm": 0.7463130354881287,
      "learning_rate": 3.50960927719672e-06,
      "loss": 1.5801,
      "mean_token_accuracy": 0.636942724386851,
      "num_tokens": 2500723855.0,
      "step": 14904
    },
    {
      "entropy": 1.6985965470472972,
      "epoch": 1.6373897997857791,
      "grad_norm": 0.6363186240196228,
      "learning_rate": 3.508721766664872e-06,
      "loss": 1.3983,
      "mean_token_accuracy": 0.6462677617867788,
      "num_tokens": 2500898305.0,
      "step": 14905
    },
    {
      "entropy": 1.7432740926742554,
      "epoch": 1.6374996566971518,
      "grad_norm": 0.6543776988983154,
      "learning_rate": 3.5078344932286055e-06,
      "loss": 1.3426,
      "mean_token_accuracy": 0.6671454260746638,
      "num_tokens": 2501057739.0,
      "step": 14906
    },
    {
      "entropy": 1.640707751115163,
      "epoch": 1.637609513608525,
      "grad_norm": 0.6563522219657898,
      "learning_rate": 3.506947456916002e-06,
      "loss": 1.477,
      "mean_token_accuracy": 0.6595013240973154,
      "num_tokens": 2501271194.0,
      "step": 14907
    },
    {
      "entropy": 1.7347827851772308,
      "epoch": 1.6377193705198978,
      "grad_norm": 0.5993261337280273,
      "learning_rate": 3.5060606577551325e-06,
      "loss": 1.4884,
      "mean_token_accuracy": 0.6420771131912867,
      "num_tokens": 2501480540.0,
      "step": 14908
    },
    {
      "entropy": 1.7362710138161976,
      "epoch": 1.6378292274312707,
      "grad_norm": 0.6462193727493286,
      "learning_rate": 3.5051740957740666e-06,
      "loss": 1.5208,
      "mean_token_accuracy": 0.6494198342164358,
      "num_tokens": 2501713196.0,
      "step": 14909
    },
    {
      "entropy": 1.7323419352372487,
      "epoch": 1.6379390843426438,
      "grad_norm": 0.6800756454467773,
      "learning_rate": 3.504287771000868e-06,
      "loss": 1.3642,
      "mean_token_accuracy": 0.6693668713172277,
      "num_tokens": 2501875419.0,
      "step": 14910
    },
    {
      "entropy": 1.7118912140528362,
      "epoch": 1.6380489412540167,
      "grad_norm": 0.6431507468223572,
      "learning_rate": 3.5034016834635787e-06,
      "loss": 1.3699,
      "mean_token_accuracy": 0.6649849017461141,
      "num_tokens": 2502026670.0,
      "step": 14911
    },
    {
      "entropy": 1.6773951450983684,
      "epoch": 1.6381587981653896,
      "grad_norm": 0.6200417876243591,
      "learning_rate": 3.5025158331902488e-06,
      "loss": 1.3204,
      "mean_token_accuracy": 0.6617454985777537,
      "num_tokens": 2502200495.0,
      "step": 14912
    },
    {
      "entropy": 1.6460547248522441,
      "epoch": 1.6382686550767627,
      "grad_norm": 0.7539404630661011,
      "learning_rate": 3.501630220208916e-06,
      "loss": 1.2843,
      "mean_token_accuracy": 0.6683847606182098,
      "num_tokens": 2502345107.0,
      "step": 14913
    },
    {
      "entropy": 1.7317273020744324,
      "epoch": 1.6383785119881353,
      "grad_norm": 0.7395991086959839,
      "learning_rate": 3.500744844547608e-06,
      "loss": 1.2899,
      "mean_token_accuracy": 0.6693265736103058,
      "num_tokens": 2502503992.0,
      "step": 14914
    },
    {
      "entropy": 1.6876648664474487,
      "epoch": 1.6384883688995084,
      "grad_norm": 0.778742790222168,
      "learning_rate": 3.4998597062343443e-06,
      "loss": 1.2905,
      "mean_token_accuracy": 0.6624922255674998,
      "num_tokens": 2502666223.0,
      "step": 14915
    },
    {
      "entropy": 1.6516147553920746,
      "epoch": 1.6385982258108813,
      "grad_norm": 0.722156822681427,
      "learning_rate": 3.498974805297144e-06,
      "loss": 1.3988,
      "mean_token_accuracy": 0.657736748456955,
      "num_tokens": 2502847645.0,
      "step": 14916
    },
    {
      "entropy": 1.7666858335336049,
      "epoch": 1.6387080827222542,
      "grad_norm": 0.773971438407898,
      "learning_rate": 3.4980901417640078e-06,
      "loss": 1.4984,
      "mean_token_accuracy": 0.6684010674556097,
      "num_tokens": 2502969638.0,
      "step": 14917
    },
    {
      "entropy": 1.7049271663029988,
      "epoch": 1.6388179396336273,
      "grad_norm": 0.7004063725471497,
      "learning_rate": 3.4972057156629407e-06,
      "loss": 1.5013,
      "mean_token_accuracy": 0.6599620431661606,
      "num_tokens": 2503096630.0,
      "step": 14918
    },
    {
      "entropy": 1.7267379264036815,
      "epoch": 1.638927796545,
      "grad_norm": 0.7648240327835083,
      "learning_rate": 3.4963215270219332e-06,
      "loss": 1.4041,
      "mean_token_accuracy": 0.6580546349287033,
      "num_tokens": 2503215160.0,
      "step": 14919
    },
    {
      "entropy": 1.7685744762420654,
      "epoch": 1.639037653456373,
      "grad_norm": 0.6759129762649536,
      "learning_rate": 3.495437575868964e-06,
      "loss": 1.2746,
      "mean_token_accuracy": 0.6785066773494085,
      "num_tokens": 2503327731.0,
      "step": 14920
    },
    {
      "entropy": 1.6827283104260762,
      "epoch": 1.639147510367746,
      "grad_norm": 0.7047680020332336,
      "learning_rate": 3.4945538622320147e-06,
      "loss": 1.3335,
      "mean_token_accuracy": 0.6698191513617834,
      "num_tokens": 2503496301.0,
      "step": 14921
    },
    {
      "entropy": 1.6511322756608326,
      "epoch": 1.6392573672791189,
      "grad_norm": 0.6691418290138245,
      "learning_rate": 3.4936703861390587e-06,
      "loss": 1.2096,
      "mean_token_accuracy": 0.6906089385350546,
      "num_tokens": 2503618169.0,
      "step": 14922
    },
    {
      "entropy": 1.6849328478177388,
      "epoch": 1.639367224190492,
      "grad_norm": 0.5966286659240723,
      "learning_rate": 3.4927871476180477e-06,
      "loss": 1.3157,
      "mean_token_accuracy": 0.6642686674992243,
      "num_tokens": 2503762147.0,
      "step": 14923
    },
    {
      "entropy": 1.695220708847046,
      "epoch": 1.6394770811018649,
      "grad_norm": 0.5794353485107422,
      "learning_rate": 3.4919041466969417e-06,
      "loss": 1.4488,
      "mean_token_accuracy": 0.6457569946845373,
      "num_tokens": 2503993523.0,
      "step": 14924
    },
    {
      "entropy": 1.7141393721103668,
      "epoch": 1.6395869380132377,
      "grad_norm": 0.6625608801841736,
      "learning_rate": 3.4910213834036848e-06,
      "loss": 1.3348,
      "mean_token_accuracy": 0.6721012790997823,
      "num_tokens": 2504177429.0,
      "step": 14925
    },
    {
      "entropy": 1.6831740339597066,
      "epoch": 1.6396967949246108,
      "grad_norm": 0.6153568029403687,
      "learning_rate": 3.4901388577662197e-06,
      "loss": 1.3432,
      "mean_token_accuracy": 0.6737964401642481,
      "num_tokens": 2504376626.0,
      "step": 14926
    },
    {
      "entropy": 1.6954569518566132,
      "epoch": 1.6398066518359835,
      "grad_norm": 0.6646896600723267,
      "learning_rate": 3.489256569812477e-06,
      "loss": 1.2977,
      "mean_token_accuracy": 0.6855068306128184,
      "num_tokens": 2504515974.0,
      "step": 14927
    },
    {
      "entropy": 1.6713591814041138,
      "epoch": 1.6399165087473566,
      "grad_norm": 0.7084295153617859,
      "learning_rate": 3.4883745195703754e-06,
      "loss": 1.3215,
      "mean_token_accuracy": 0.672945981224378,
      "num_tokens": 2504673537.0,
      "step": 14928
    },
    {
      "entropy": 1.7667873203754425,
      "epoch": 1.6400263656587295,
      "grad_norm": 0.7727949619293213,
      "learning_rate": 3.487492707067836e-06,
      "loss": 1.5748,
      "mean_token_accuracy": 0.6411859591801962,
      "num_tokens": 2504883359.0,
      "step": 14929
    },
    {
      "entropy": 1.6953539848327637,
      "epoch": 1.6401362225701024,
      "grad_norm": 0.6839701533317566,
      "learning_rate": 3.486611132332772e-06,
      "loss": 1.3055,
      "mean_token_accuracy": 0.6642041752735773,
      "num_tokens": 2505002882.0,
      "step": 14930
    },
    {
      "entropy": 1.7143741349379222,
      "epoch": 1.6402460794814755,
      "grad_norm": 0.6058863997459412,
      "learning_rate": 3.485729795393075e-06,
      "loss": 1.4816,
      "mean_token_accuracy": 0.6417601952950159,
      "num_tokens": 2505217245.0,
      "step": 14931
    },
    {
      "entropy": 1.7433338264624278,
      "epoch": 1.6403559363928482,
      "grad_norm": 0.6095753312110901,
      "learning_rate": 3.484848696276645e-06,
      "loss": 1.4746,
      "mean_token_accuracy": 0.6288290123144785,
      "num_tokens": 2505482140.0,
      "step": 14932
    },
    {
      "entropy": 1.715920130411784,
      "epoch": 1.6404657933042213,
      "grad_norm": 0.7610313296318054,
      "learning_rate": 3.4839678350113688e-06,
      "loss": 1.3884,
      "mean_token_accuracy": 0.6634253362814585,
      "num_tokens": 2505640431.0,
      "step": 14933
    },
    {
      "entropy": 1.6781785488128662,
      "epoch": 1.6405756502155942,
      "grad_norm": 0.8470014333724976,
      "learning_rate": 3.4830872116251235e-06,
      "loss": 1.5552,
      "mean_token_accuracy": 0.6412830402453741,
      "num_tokens": 2505826234.0,
      "step": 14934
    },
    {
      "entropy": 1.7671978374322255,
      "epoch": 1.640685507126967,
      "grad_norm": 0.8706827163696289,
      "learning_rate": 3.4822068261457785e-06,
      "loss": 1.504,
      "mean_token_accuracy": 0.6506080453594526,
      "num_tokens": 2505955616.0,
      "step": 14935
    },
    {
      "entropy": 1.7093442579110463,
      "epoch": 1.6407953640383401,
      "grad_norm": 0.6982713341712952,
      "learning_rate": 3.4813266786012024e-06,
      "loss": 1.2674,
      "mean_token_accuracy": 0.6796736617883047,
      "num_tokens": 2506098680.0,
      "step": 14936
    },
    {
      "entropy": 1.676591416200002,
      "epoch": 1.640905220949713,
      "grad_norm": 0.641269326210022,
      "learning_rate": 3.480446769019248e-06,
      "loss": 1.3135,
      "mean_token_accuracy": 0.674098422129949,
      "num_tokens": 2506228004.0,
      "step": 14937
    },
    {
      "entropy": 1.7529121339321136,
      "epoch": 1.641015077861086,
      "grad_norm": 0.7853704690933228,
      "learning_rate": 3.4795670974277657e-06,
      "loss": 1.5918,
      "mean_token_accuracy": 0.6261871109406153,
      "num_tokens": 2506412039.0,
      "step": 14938
    },
    {
      "entropy": 1.7120693922042847,
      "epoch": 1.641124934772459,
      "grad_norm": 0.6365554332733154,
      "learning_rate": 3.478687663854596e-06,
      "loss": 1.4076,
      "mean_token_accuracy": 0.6571402897437414,
      "num_tokens": 2506587078.0,
      "step": 14939
    },
    {
      "entropy": 1.7732374270757039,
      "epoch": 1.6412347916838317,
      "grad_norm": 0.7040333151817322,
      "learning_rate": 3.4778084683275703e-06,
      "loss": 1.4869,
      "mean_token_accuracy": 0.6406953384478887,
      "num_tokens": 2506742349.0,
      "step": 14940
    },
    {
      "entropy": 1.7779802978038788,
      "epoch": 1.6413446485952048,
      "grad_norm": 0.8952456712722778,
      "learning_rate": 3.4769295108745177e-06,
      "loss": 1.5624,
      "mean_token_accuracy": 0.6528476029634476,
      "num_tokens": 2506869120.0,
      "step": 14941
    },
    {
      "entropy": 1.7203821142514546,
      "epoch": 1.6414545055065777,
      "grad_norm": 0.6606357097625732,
      "learning_rate": 3.47605079152326e-06,
      "loss": 1.2624,
      "mean_token_accuracy": 0.670018677910169,
      "num_tokens": 2506989406.0,
      "step": 14942
    },
    {
      "entropy": 1.708219975233078,
      "epoch": 1.6415643624179506,
      "grad_norm": 0.7178025841712952,
      "learning_rate": 3.4751723103016e-06,
      "loss": 1.3562,
      "mean_token_accuracy": 0.6561354100704193,
      "num_tokens": 2507122848.0,
      "step": 14943
    },
    {
      "entropy": 1.7271239757537842,
      "epoch": 1.6416742193293237,
      "grad_norm": 0.7366745471954346,
      "learning_rate": 3.4742940672373464e-06,
      "loss": 1.3486,
      "mean_token_accuracy": 0.6560288916031519,
      "num_tokens": 2507321375.0,
      "step": 14944
    },
    {
      "entropy": 1.7078354159990947,
      "epoch": 1.6417840762406963,
      "grad_norm": 0.6426877975463867,
      "learning_rate": 3.473416062358296e-06,
      "loss": 1.3707,
      "mean_token_accuracy": 0.665172666311264,
      "num_tokens": 2507486772.0,
      "step": 14945
    },
    {
      "entropy": 1.7115601897239685,
      "epoch": 1.6418939331520694,
      "grad_norm": 0.7070155143737793,
      "learning_rate": 3.472538295692235e-06,
      "loss": 1.3945,
      "mean_token_accuracy": 0.6624555140733719,
      "num_tokens": 2507685516.0,
      "step": 14946
    },
    {
      "entropy": 1.7395752469698589,
      "epoch": 1.6420037900634423,
      "grad_norm": 0.8616496920585632,
      "learning_rate": 3.4716607672669435e-06,
      "loss": 1.4793,
      "mean_token_accuracy": 0.6566527982552847,
      "num_tokens": 2507832761.0,
      "step": 14947
    },
    {
      "entropy": 1.670799434185028,
      "epoch": 1.6421136469748152,
      "grad_norm": 0.7337598204612732,
      "learning_rate": 3.4707834771101985e-06,
      "loss": 1.4037,
      "mean_token_accuracy": 0.6581169764200846,
      "num_tokens": 2508037225.0,
      "step": 14948
    },
    {
      "entropy": 1.654303212960561,
      "epoch": 1.6422235038861883,
      "grad_norm": 0.8170070052146912,
      "learning_rate": 3.4699064252497616e-06,
      "loss": 1.4118,
      "mean_token_accuracy": 0.6585876593987147,
      "num_tokens": 2508185283.0,
      "step": 14949
    },
    {
      "entropy": 1.6956948439280193,
      "epoch": 1.6423333607975612,
      "grad_norm": 0.6304458975791931,
      "learning_rate": 3.469029611713395e-06,
      "loss": 1.349,
      "mean_token_accuracy": 0.6663823227087656,
      "num_tokens": 2508349025.0,
      "step": 14950
    },
    {
      "entropy": 1.6847296555836995,
      "epoch": 1.642443217708934,
      "grad_norm": 0.7351884245872498,
      "learning_rate": 3.4681530365288484e-06,
      "loss": 1.3056,
      "mean_token_accuracy": 0.674777110417684,
      "num_tokens": 2508469488.0,
      "step": 14951
    },
    {
      "entropy": 1.7506476143995922,
      "epoch": 1.6425530746203072,
      "grad_norm": 0.7597024440765381,
      "learning_rate": 3.4672766997238618e-06,
      "loss": 1.4348,
      "mean_token_accuracy": 0.6497123142083486,
      "num_tokens": 2508616481.0,
      "step": 14952
    },
    {
      "entropy": 1.715817630290985,
      "epoch": 1.6426629315316799,
      "grad_norm": 0.6161386370658875,
      "learning_rate": 3.4664006013261733e-06,
      "loss": 1.4003,
      "mean_token_accuracy": 0.6562450776497523,
      "num_tokens": 2508774763.0,
      "step": 14953
    },
    {
      "entropy": 1.7526540557543437,
      "epoch": 1.642772788443053,
      "grad_norm": 0.7678797841072083,
      "learning_rate": 3.465524741363515e-06,
      "loss": 1.4103,
      "mean_token_accuracy": 0.6473128894964854,
      "num_tokens": 2508964757.0,
      "step": 14954
    },
    {
      "entropy": 1.6675111552079518,
      "epoch": 1.6428826453544259,
      "grad_norm": 0.6056217551231384,
      "learning_rate": 3.464649119863599e-06,
      "loss": 1.3892,
      "mean_token_accuracy": 0.6614933907985687,
      "num_tokens": 2509142762.0,
      "step": 14955
    },
    {
      "entropy": 1.7322762807210286,
      "epoch": 1.6429925022657987,
      "grad_norm": 0.711068868637085,
      "learning_rate": 3.4637737368541436e-06,
      "loss": 1.4018,
      "mean_token_accuracy": 0.6589230199654897,
      "num_tokens": 2509286834.0,
      "step": 14956
    },
    {
      "entropy": 1.6484521726767223,
      "epoch": 1.6431023591771718,
      "grad_norm": 0.6235215663909912,
      "learning_rate": 3.462898592362855e-06,
      "loss": 1.494,
      "mean_token_accuracy": 0.6627842883268992,
      "num_tokens": 2509473391.0,
      "step": 14957
    },
    {
      "entropy": 1.7106922964255016,
      "epoch": 1.6432122160885445,
      "grad_norm": 0.6999409794807434,
      "learning_rate": 3.4620236864174308e-06,
      "loss": 1.3157,
      "mean_token_accuracy": 0.6589783877134323,
      "num_tokens": 2509587763.0,
      "step": 14958
    },
    {
      "entropy": 1.67958868543307,
      "epoch": 1.6433220729999176,
      "grad_norm": 0.6608509421348572,
      "learning_rate": 3.4611490190455566e-06,
      "loss": 1.2957,
      "mean_token_accuracy": 0.6818757752577463,
      "num_tokens": 2509728836.0,
      "step": 14959
    },
    {
      "entropy": 1.6971628268559773,
      "epoch": 1.6434319299112905,
      "grad_norm": 0.7482900023460388,
      "learning_rate": 3.460274590274922e-06,
      "loss": 1.3908,
      "mean_token_accuracy": 0.6718897273143133,
      "num_tokens": 2509872917.0,
      "step": 14960
    },
    {
      "entropy": 1.650085061788559,
      "epoch": 1.6435417868226634,
      "grad_norm": 0.7086712718009949,
      "learning_rate": 3.4594004001331964e-06,
      "loss": 1.3207,
      "mean_token_accuracy": 0.6673696339130402,
      "num_tokens": 2510005891.0,
      "step": 14961
    },
    {
      "entropy": 1.7292489111423492,
      "epoch": 1.6436516437340365,
      "grad_norm": 0.7552675008773804,
      "learning_rate": 3.458526448648053e-06,
      "loss": 1.3219,
      "mean_token_accuracy": 0.6736279179652532,
      "num_tokens": 2510168802.0,
      "step": 14962
    },
    {
      "entropy": 1.6483072837193806,
      "epoch": 1.6437615006454094,
      "grad_norm": 0.74481600522995,
      "learning_rate": 3.457652735847148e-06,
      "loss": 1.3123,
      "mean_token_accuracy": 0.6694979121287664,
      "num_tokens": 2510308210.0,
      "step": 14963
    },
    {
      "entropy": 1.6588951746622722,
      "epoch": 1.6438713575567823,
      "grad_norm": 0.6103244423866272,
      "learning_rate": 3.456779261758134e-06,
      "loss": 1.3824,
      "mean_token_accuracy": 0.6662068615357081,
      "num_tokens": 2510492255.0,
      "step": 14964
    },
    {
      "entropy": 1.732719083627065,
      "epoch": 1.6439812144681554,
      "grad_norm": 0.7661134004592896,
      "learning_rate": 3.455906026408658e-06,
      "loss": 1.518,
      "mean_token_accuracy": 0.6458713908990225,
      "num_tokens": 2510699730.0,
      "step": 14965
    },
    {
      "entropy": 1.680096020301183,
      "epoch": 1.644091071379528,
      "grad_norm": 0.6338300704956055,
      "learning_rate": 3.45503302982636e-06,
      "loss": 1.4193,
      "mean_token_accuracy": 0.6609679808219274,
      "num_tokens": 2510884193.0,
      "step": 14966
    },
    {
      "entropy": 1.7061445514361064,
      "epoch": 1.6442009282909011,
      "grad_norm": 0.7027104496955872,
      "learning_rate": 3.4541602720388633e-06,
      "loss": 1.3129,
      "mean_token_accuracy": 0.6661281039317449,
      "num_tokens": 2511064612.0,
      "step": 14967
    },
    {
      "entropy": 1.7287393510341644,
      "epoch": 1.644310785202274,
      "grad_norm": 0.6110780239105225,
      "learning_rate": 3.453287753073793e-06,
      "loss": 1.3438,
      "mean_token_accuracy": 0.673071970542272,
      "num_tokens": 2511225799.0,
      "step": 14968
    },
    {
      "entropy": 1.7669932544231415,
      "epoch": 1.644420642113647,
      "grad_norm": 0.7104088068008423,
      "learning_rate": 3.452415472958767e-06,
      "loss": 1.5157,
      "mean_token_accuracy": 0.6437924156586329,
      "num_tokens": 2511418847.0,
      "step": 14969
    },
    {
      "entropy": 1.720796098311742,
      "epoch": 1.64453049902502,
      "grad_norm": 0.6525430679321289,
      "learning_rate": 3.4515434317213904e-06,
      "loss": 1.2248,
      "mean_token_accuracy": 0.6795699944098791,
      "num_tokens": 2511526638.0,
      "step": 14970
    },
    {
      "entropy": 1.7100069324175518,
      "epoch": 1.6446403559363927,
      "grad_norm": 0.7813405990600586,
      "learning_rate": 3.4506716293892614e-06,
      "loss": 1.2652,
      "mean_token_accuracy": 0.6727269490559896,
      "num_tokens": 2511659416.0,
      "step": 14971
    },
    {
      "entropy": 1.7985884646574657,
      "epoch": 1.6447502128477658,
      "grad_norm": 0.8207912445068359,
      "learning_rate": 3.4498000659899745e-06,
      "loss": 1.4898,
      "mean_token_accuracy": 0.6614548414945602,
      "num_tokens": 2511868418.0,
      "step": 14972
    },
    {
      "entropy": 1.6758454938729603,
      "epoch": 1.6448600697591387,
      "grad_norm": 0.6920216679573059,
      "learning_rate": 3.4489287415511107e-06,
      "loss": 1.2647,
      "mean_token_accuracy": 0.676102747519811,
      "num_tokens": 2511999213.0,
      "step": 14973
    },
    {
      "entropy": 1.7158870200316112,
      "epoch": 1.6449699266705116,
      "grad_norm": 2.2388501167297363,
      "learning_rate": 3.4480576561002533e-06,
      "loss": 1.3928,
      "mean_token_accuracy": 0.6611330558856329,
      "num_tokens": 2512146843.0,
      "step": 14974
    },
    {
      "entropy": 1.7090627551078796,
      "epoch": 1.6450797835818847,
      "grad_norm": 0.8154202699661255,
      "learning_rate": 3.4471868096649676e-06,
      "loss": 1.3153,
      "mean_token_accuracy": 0.6673569430907568,
      "num_tokens": 2512297770.0,
      "step": 14975
    },
    {
      "entropy": 1.6612287263075511,
      "epoch": 1.6451896404932576,
      "grad_norm": 0.7027810215950012,
      "learning_rate": 3.4463162022728137e-06,
      "loss": 1.3933,
      "mean_token_accuracy": 0.6641417344411215,
      "num_tokens": 2512435108.0,
      "step": 14976
    },
    {
      "entropy": 1.6808200577894847,
      "epoch": 1.6452994974046304,
      "grad_norm": 0.7793719172477722,
      "learning_rate": 3.4454458339513487e-06,
      "loss": 1.2633,
      "mean_token_accuracy": 0.6780805687109629,
      "num_tokens": 2512623707.0,
      "step": 14977
    },
    {
      "entropy": 1.7211743195851643,
      "epoch": 1.6454093543160035,
      "grad_norm": 1.0265836715698242,
      "learning_rate": 3.4445757047281226e-06,
      "loss": 1.3302,
      "mean_token_accuracy": 0.6751032521327337,
      "num_tokens": 2512792244.0,
      "step": 14978
    },
    {
      "entropy": 1.7436003684997559,
      "epoch": 1.6455192112273762,
      "grad_norm": 0.688589870929718,
      "learning_rate": 3.443705814630666e-06,
      "loss": 1.3625,
      "mean_token_accuracy": 0.6572001427412033,
      "num_tokens": 2512925361.0,
      "step": 14979
    },
    {
      "entropy": 1.7435889144738514,
      "epoch": 1.6456290681387493,
      "grad_norm": 3.754509210586548,
      "learning_rate": 3.4428361636865167e-06,
      "loss": 1.1535,
      "mean_token_accuracy": 0.6706924239794413,
      "num_tokens": 2513119666.0,
      "step": 14980
    },
    {
      "entropy": 1.7060795525709789,
      "epoch": 1.6457389250501222,
      "grad_norm": 0.5898798108100891,
      "learning_rate": 3.441966751923199e-06,
      "loss": 1.489,
      "mean_token_accuracy": 0.6470472464958826,
      "num_tokens": 2513302051.0,
      "step": 14981
    },
    {
      "entropy": 1.7448813021183014,
      "epoch": 1.645848781961495,
      "grad_norm": 0.7016264796257019,
      "learning_rate": 3.441097579368228e-06,
      "loss": 1.4278,
      "mean_token_accuracy": 0.6593179255723953,
      "num_tokens": 2513439223.0,
      "step": 14982
    },
    {
      "entropy": 1.7329972485701244,
      "epoch": 1.6459586388728682,
      "grad_norm": 0.72443687915802,
      "learning_rate": 3.440228646049112e-06,
      "loss": 1.4211,
      "mean_token_accuracy": 0.6588300516208013,
      "num_tokens": 2513578549.0,
      "step": 14983
    },
    {
      "entropy": 1.7184851070245106,
      "epoch": 1.646068495784241,
      "grad_norm": 0.7031991481781006,
      "learning_rate": 3.439359951993351e-06,
      "loss": 1.4099,
      "mean_token_accuracy": 0.6423845837513605,
      "num_tokens": 2513802978.0,
      "step": 14984
    },
    {
      "entropy": 1.7713424662748973,
      "epoch": 1.646178352695614,
      "grad_norm": 0.7661514282226562,
      "learning_rate": 3.438491497228441e-06,
      "loss": 1.3603,
      "mean_token_accuracy": 0.6532770196596781,
      "num_tokens": 2513909884.0,
      "step": 14985
    },
    {
      "entropy": 1.708994189898173,
      "epoch": 1.6462882096069869,
      "grad_norm": 0.7131803035736084,
      "learning_rate": 3.4376232817818724e-06,
      "loss": 1.4916,
      "mean_token_accuracy": 0.6488902270793915,
      "num_tokens": 2514101465.0,
      "step": 14986
    },
    {
      "entropy": 1.7118847767512004,
      "epoch": 1.6463980665183597,
      "grad_norm": 0.5871043801307678,
      "learning_rate": 3.4367553056811143e-06,
      "loss": 1.3621,
      "mean_token_accuracy": 0.6566170553366343,
      "num_tokens": 2514282837.0,
      "step": 14987
    },
    {
      "entropy": 1.6855728328227997,
      "epoch": 1.6465079234297328,
      "grad_norm": 0.6960379481315613,
      "learning_rate": 3.4358875689536424e-06,
      "loss": 1.2995,
      "mean_token_accuracy": 0.6776407758394877,
      "num_tokens": 2514466067.0,
      "step": 14988
    },
    {
      "entropy": 1.7425021131833394,
      "epoch": 1.6466177803411057,
      "grad_norm": 0.6158261299133301,
      "learning_rate": 3.435020071626923e-06,
      "loss": 1.5397,
      "mean_token_accuracy": 0.6305239746967951,
      "num_tokens": 2514682417.0,
      "step": 14989
    },
    {
      "entropy": 1.7520319521427155,
      "epoch": 1.6467276372524786,
      "grad_norm": 0.8240329623222351,
      "learning_rate": 3.4341528137284097e-06,
      "loss": 1.3623,
      "mean_token_accuracy": 0.6614614178737005,
      "num_tokens": 2514865345.0,
      "step": 14990
    },
    {
      "entropy": 1.660654256741206,
      "epoch": 1.6468374941638517,
      "grad_norm": 0.7162386775016785,
      "learning_rate": 3.433285795285548e-06,
      "loss": 1.2122,
      "mean_token_accuracy": 0.6758624712626139,
      "num_tokens": 2514996123.0,
      "step": 14991
    },
    {
      "entropy": 1.7671376864115398,
      "epoch": 1.6469473510752244,
      "grad_norm": 0.73747718334198,
      "learning_rate": 3.432419016325784e-06,
      "loss": 1.5858,
      "mean_token_accuracy": 0.6482378343741099,
      "num_tokens": 2515213008.0,
      "step": 14992
    },
    {
      "entropy": 1.7469678024450939,
      "epoch": 1.6470572079865975,
      "grad_norm": 0.7026829719543457,
      "learning_rate": 3.431552476876545e-06,
      "loss": 1.5166,
      "mean_token_accuracy": 0.6324778149525324,
      "num_tokens": 2515397718.0,
      "step": 14993
    },
    {
      "entropy": 1.6981361210346222,
      "epoch": 1.6471670648979704,
      "grad_norm": 0.6470394134521484,
      "learning_rate": 3.4306861769652634e-06,
      "loss": 1.4181,
      "mean_token_accuracy": 0.6427850276231766,
      "num_tokens": 2515598794.0,
      "step": 14994
    },
    {
      "entropy": 1.6396251320838928,
      "epoch": 1.6472769218093433,
      "grad_norm": 0.6603129506111145,
      "learning_rate": 3.4298201166193512e-06,
      "loss": 1.2424,
      "mean_token_accuracy": 0.6694211512804031,
      "num_tokens": 2515725829.0,
      "step": 14995
    },
    {
      "entropy": 1.6787129143873851,
      "epoch": 1.6473867787207164,
      "grad_norm": 0.7073856592178345,
      "learning_rate": 3.4289542958662212e-06,
      "loss": 1.3735,
      "mean_token_accuracy": 0.6567325393358866,
      "num_tokens": 2515892679.0,
      "step": 14996
    },
    {
      "entropy": 1.6887877583503723,
      "epoch": 1.6474966356320893,
      "grad_norm": 0.7140524983406067,
      "learning_rate": 3.428088714733274e-06,
      "loss": 1.3827,
      "mean_token_accuracy": 0.6687111059824625,
      "num_tokens": 2516054075.0,
      "step": 14997
    },
    {
      "entropy": 1.6639872093995411,
      "epoch": 1.6476064925434621,
      "grad_norm": 0.6772821545600891,
      "learning_rate": 3.4272233732479134e-06,
      "loss": 1.344,
      "mean_token_accuracy": 0.6666690111160278,
      "num_tokens": 2516209836.0,
      "step": 14998
    },
    {
      "entropy": 1.6863376994927723,
      "epoch": 1.647716349454835,
      "grad_norm": 0.6367020606994629,
      "learning_rate": 3.4263582714375152e-06,
      "loss": 1.3958,
      "mean_token_accuracy": 0.6636939545472463,
      "num_tokens": 2516398662.0,
      "step": 14999
    },
    {
      "entropy": 1.622712602217992,
      "epoch": 1.647826206366208,
      "grad_norm": 0.7956864237785339,
      "learning_rate": 3.4254934093294655e-06,
      "loss": 1.4934,
      "mean_token_accuracy": 0.6606844613949457,
      "num_tokens": 2516590676.0,
      "step": 15000
    },
    {
      "entropy": 1.7188996473948162,
      "epoch": 1.647936063277581,
      "grad_norm": 0.6622449159622192,
      "learning_rate": 3.4246287869511373e-06,
      "loss": 1.4132,
      "mean_token_accuracy": 0.652355432510376,
      "num_tokens": 2516765487.0,
      "step": 15001
    },
    {
      "entropy": 1.6729025741418202,
      "epoch": 1.648045920188954,
      "grad_norm": 0.7184236645698547,
      "learning_rate": 3.423764404329895e-06,
      "loss": 1.4057,
      "mean_token_accuracy": 0.6480544259150823,
      "num_tokens": 2516931514.0,
      "step": 15002
    },
    {
      "entropy": 1.721810112396876,
      "epoch": 1.6481557771003268,
      "grad_norm": 0.6725652813911438,
      "learning_rate": 3.422900261493094e-06,
      "loss": 1.4415,
      "mean_token_accuracy": 0.6622193058331808,
      "num_tokens": 2517100166.0,
      "step": 15003
    },
    {
      "entropy": 1.7754334608713787,
      "epoch": 1.6482656340117,
      "grad_norm": 0.7001306414604187,
      "learning_rate": 3.4220363584680873e-06,
      "loss": 1.4849,
      "mean_token_accuracy": 0.6442708969116211,
      "num_tokens": 2517323102.0,
      "step": 15004
    },
    {
      "entropy": 1.761822521686554,
      "epoch": 1.6483754909230726,
      "grad_norm": 0.6547316908836365,
      "learning_rate": 3.421172695282213e-06,
      "loss": 1.5457,
      "mean_token_accuracy": 0.6352403461933136,
      "num_tokens": 2517531301.0,
      "step": 15005
    },
    {
      "entropy": 1.711624006430308,
      "epoch": 1.6484853478344457,
      "grad_norm": 0.6645762324333191,
      "learning_rate": 3.4203092719628096e-06,
      "loss": 1.2913,
      "mean_token_accuracy": 0.6747534225384394,
      "num_tokens": 2517647850.0,
      "step": 15006
    },
    {
      "entropy": 1.6479672491550446,
      "epoch": 1.6485952047458186,
      "grad_norm": 0.7587347626686096,
      "learning_rate": 3.4194460885372016e-06,
      "loss": 1.2875,
      "mean_token_accuracy": 0.665214791893959,
      "num_tokens": 2517772787.0,
      "step": 15007
    },
    {
      "entropy": 1.6956773499647777,
      "epoch": 1.6487050616571914,
      "grad_norm": 0.7115501165390015,
      "learning_rate": 3.4185831450327077e-06,
      "loss": 1.3814,
      "mean_token_accuracy": 0.6578154365221659,
      "num_tokens": 2517915878.0,
      "step": 15008
    },
    {
      "entropy": 1.6962638994057972,
      "epoch": 1.6488149185685645,
      "grad_norm": 0.6763247847557068,
      "learning_rate": 3.4177204414766405e-06,
      "loss": 1.3814,
      "mean_token_accuracy": 0.6662989805142084,
      "num_tokens": 2518072919.0,
      "step": 15009
    },
    {
      "entropy": 1.6879964172840118,
      "epoch": 1.6489247754799374,
      "grad_norm": 0.5787865519523621,
      "learning_rate": 3.4168579778963097e-06,
      "loss": 1.4668,
      "mean_token_accuracy": 0.6475926488637924,
      "num_tokens": 2518230729.0,
      "step": 15010
    },
    {
      "entropy": 1.7373622755209606,
      "epoch": 1.6490346323913103,
      "grad_norm": 0.7441072463989258,
      "learning_rate": 3.4159957543190015e-06,
      "loss": 1.3008,
      "mean_token_accuracy": 0.658590778708458,
      "num_tokens": 2518364564.0,
      "step": 15011
    },
    {
      "entropy": 1.644492268562317,
      "epoch": 1.6491444893026832,
      "grad_norm": 0.6323592662811279,
      "learning_rate": 3.4151337707720113e-06,
      "loss": 1.3825,
      "mean_token_accuracy": 0.6613515466451645,
      "num_tokens": 2518576546.0,
      "step": 15012
    },
    {
      "entropy": 1.7661062677701314,
      "epoch": 1.649254346214056,
      "grad_norm": 0.7031536102294922,
      "learning_rate": 3.414272027282621e-06,
      "loss": 1.3482,
      "mean_token_accuracy": 0.6614481111367544,
      "num_tokens": 2518741668.0,
      "step": 15013
    },
    {
      "entropy": 1.725075602531433,
      "epoch": 1.6493642031254292,
      "grad_norm": 0.6364622712135315,
      "learning_rate": 3.4134105238781033e-06,
      "loss": 1.5204,
      "mean_token_accuracy": 0.6369550327459971,
      "num_tokens": 2518948581.0,
      "step": 15014
    },
    {
      "entropy": 1.716450273990631,
      "epoch": 1.649474060036802,
      "grad_norm": 0.897272527217865,
      "learning_rate": 3.4125492605857215e-06,
      "loss": 1.389,
      "mean_token_accuracy": 0.6591392507155737,
      "num_tokens": 2519111501.0,
      "step": 15015
    },
    {
      "entropy": 1.7680715421835582,
      "epoch": 1.649583916948175,
      "grad_norm": 0.6573340892791748,
      "learning_rate": 3.411688237432739e-06,
      "loss": 1.3537,
      "mean_token_accuracy": 0.6606834232807159,
      "num_tokens": 2519237910.0,
      "step": 15016
    },
    {
      "entropy": 1.744692752758662,
      "epoch": 1.649693773859548,
      "grad_norm": 0.6951401233673096,
      "learning_rate": 3.4108274544464015e-06,
      "loss": 1.5013,
      "mean_token_accuracy": 0.6513955841461817,
      "num_tokens": 2519403504.0,
      "step": 15017
    },
    {
      "entropy": 1.705136001110077,
      "epoch": 1.6498036307709207,
      "grad_norm": 0.6180141568183899,
      "learning_rate": 3.409966911653958e-06,
      "loss": 1.3271,
      "mean_token_accuracy": 0.6569055368502935,
      "num_tokens": 2519558250.0,
      "step": 15018
    },
    {
      "entropy": 1.733963628609975,
      "epoch": 1.6499134876822938,
      "grad_norm": 0.8402661085128784,
      "learning_rate": 3.4091066090826415e-06,
      "loss": 1.2062,
      "mean_token_accuracy": 0.6875236531098684,
      "num_tokens": 2519675800.0,
      "step": 15019
    },
    {
      "entropy": 1.7446452577908833,
      "epoch": 1.6500233445936667,
      "grad_norm": 0.6582059860229492,
      "learning_rate": 3.4082465467596783e-06,
      "loss": 1.5078,
      "mean_token_accuracy": 0.6486608684062958,
      "num_tokens": 2519833913.0,
      "step": 15020
    },
    {
      "entropy": 1.6334237158298492,
      "epoch": 1.6501332015050396,
      "grad_norm": 0.7269055247306824,
      "learning_rate": 3.4073867247122906e-06,
      "loss": 1.2758,
      "mean_token_accuracy": 0.6774081140756607,
      "num_tokens": 2519999588.0,
      "step": 15021
    },
    {
      "entropy": 1.709044208129247,
      "epoch": 1.6502430584164127,
      "grad_norm": 0.6881639957427979,
      "learning_rate": 3.4065271429676965e-06,
      "loss": 1.6085,
      "mean_token_accuracy": 0.6218457967042923,
      "num_tokens": 2520245755.0,
      "step": 15022
    },
    {
      "entropy": 1.6926098664601643,
      "epoch": 1.6503529153277856,
      "grad_norm": 0.6597875356674194,
      "learning_rate": 3.405667801553092e-06,
      "loss": 1.3715,
      "mean_token_accuracy": 0.6609023263057073,
      "num_tokens": 2520443165.0,
      "step": 15023
    },
    {
      "entropy": 1.7041344543298085,
      "epoch": 1.6504627722391585,
      "grad_norm": 0.6892362236976624,
      "learning_rate": 3.4048087004956797e-06,
      "loss": 1.2991,
      "mean_token_accuracy": 0.6705830295880636,
      "num_tokens": 2520581997.0,
      "step": 15024
    },
    {
      "entropy": 1.6341348787148793,
      "epoch": 1.6505726291505314,
      "grad_norm": 0.7210821509361267,
      "learning_rate": 3.403949839822652e-06,
      "loss": 1.3469,
      "mean_token_accuracy": 0.6602633595466614,
      "num_tokens": 2520821919.0,
      "step": 15025
    },
    {
      "entropy": 1.6658415794372559,
      "epoch": 1.6506824860619043,
      "grad_norm": 0.7110158205032349,
      "learning_rate": 3.403091219561188e-06,
      "loss": 1.327,
      "mean_token_accuracy": 0.6694478690624237,
      "num_tokens": 2520982309.0,
      "step": 15026
    },
    {
      "entropy": 1.7470557987689972,
      "epoch": 1.6507923429732774,
      "grad_norm": 0.6562235355377197,
      "learning_rate": 3.4022328397384624e-06,
      "loss": 1.1178,
      "mean_token_accuracy": 0.6828839977582296,
      "num_tokens": 2521145714.0,
      "step": 15027
    },
    {
      "entropy": 1.7470394472281139,
      "epoch": 1.6509021998846503,
      "grad_norm": 0.6661121845245361,
      "learning_rate": 3.4013747003816454e-06,
      "loss": 1.3084,
      "mean_token_accuracy": 0.662788599729538,
      "num_tokens": 2521295381.0,
      "step": 15028
    },
    {
      "entropy": 1.7361040512720745,
      "epoch": 1.6510120567960231,
      "grad_norm": 0.9415419697761536,
      "learning_rate": 3.4005168015178935e-06,
      "loss": 1.4151,
      "mean_token_accuracy": 0.648168628414472,
      "num_tokens": 2521442369.0,
      "step": 15029
    },
    {
      "entropy": 1.7062184512615204,
      "epoch": 1.6511219137073962,
      "grad_norm": 0.6462988257408142,
      "learning_rate": 3.399659143174362e-06,
      "loss": 1.3354,
      "mean_token_accuracy": 0.6528641134500504,
      "num_tokens": 2521654103.0,
      "step": 15030
    },
    {
      "entropy": 1.6909612814585369,
      "epoch": 1.651231770618769,
      "grad_norm": 0.7832234501838684,
      "learning_rate": 3.3988017253781936e-06,
      "loss": 1.2744,
      "mean_token_accuracy": 0.6736619373162588,
      "num_tokens": 2521818430.0,
      "step": 15031
    },
    {
      "entropy": 1.7374659776687622,
      "epoch": 1.651341627530142,
      "grad_norm": 0.6640949249267578,
      "learning_rate": 3.3979445481565244e-06,
      "loss": 1.4493,
      "mean_token_accuracy": 0.6429694543282191,
      "num_tokens": 2521991665.0,
      "step": 15032
    },
    {
      "entropy": 1.781148185332616,
      "epoch": 1.651451484441515,
      "grad_norm": 0.732386589050293,
      "learning_rate": 3.397087611536485e-06,
      "loss": 1.5056,
      "mean_token_accuracy": 0.6434811403354009,
      "num_tokens": 2522181259.0,
      "step": 15033
    },
    {
      "entropy": 1.7025253772735596,
      "epoch": 1.6515613413528878,
      "grad_norm": 0.7074692845344543,
      "learning_rate": 3.3962309155451993e-06,
      "loss": 1.3074,
      "mean_token_accuracy": 0.681415448586146,
      "num_tokens": 2522343910.0,
      "step": 15034
    },
    {
      "entropy": 1.6830189228057861,
      "epoch": 1.651671198264261,
      "grad_norm": 0.7864646911621094,
      "learning_rate": 3.395374460209776e-06,
      "loss": 1.5032,
      "mean_token_accuracy": 0.6472100963195165,
      "num_tokens": 2522528624.0,
      "step": 15035
    },
    {
      "entropy": 1.6839284698168437,
      "epoch": 1.6517810551756338,
      "grad_norm": 0.7211703062057495,
      "learning_rate": 3.3945182455573234e-06,
      "loss": 1.3273,
      "mean_token_accuracy": 0.6669267763694128,
      "num_tokens": 2522664262.0,
      "step": 15036
    },
    {
      "entropy": 1.6885885000228882,
      "epoch": 1.6518909120870067,
      "grad_norm": 0.5619406700134277,
      "learning_rate": 3.3936622716149432e-06,
      "loss": 1.3137,
      "mean_token_accuracy": 0.6660237014293671,
      "num_tokens": 2522855978.0,
      "step": 15037
    },
    {
      "entropy": 1.695332556962967,
      "epoch": 1.6520007689983798,
      "grad_norm": 0.7055963277816772,
      "learning_rate": 3.3928065384097252e-06,
      "loss": 1.3109,
      "mean_token_accuracy": 0.6599967380364736,
      "num_tokens": 2523011118.0,
      "step": 15038
    },
    {
      "entropy": 1.74105371038119,
      "epoch": 1.6521106259097524,
      "grad_norm": 0.8354093432426453,
      "learning_rate": 3.3919510459687495e-06,
      "loss": 1.4608,
      "mean_token_accuracy": 0.6649217158555984,
      "num_tokens": 2523151102.0,
      "step": 15039
    },
    {
      "entropy": 1.69448517759641,
      "epoch": 1.6522204828211255,
      "grad_norm": 1.118112325668335,
      "learning_rate": 3.3910957943190974e-06,
      "loss": 1.142,
      "mean_token_accuracy": 0.6787567436695099,
      "num_tokens": 2523391240.0,
      "step": 15040
    },
    {
      "entropy": 1.6811459958553314,
      "epoch": 1.6523303397324984,
      "grad_norm": 0.5884284377098083,
      "learning_rate": 3.390240783487833e-06,
      "loss": 1.4136,
      "mean_token_accuracy": 0.6765343199173609,
      "num_tokens": 2523565283.0,
      "step": 15041
    },
    {
      "entropy": 1.7217009564240773,
      "epoch": 1.6524401966438713,
      "grad_norm": 0.7727037072181702,
      "learning_rate": 3.3893860135020213e-06,
      "loss": 1.2789,
      "mean_token_accuracy": 0.6699222077926,
      "num_tokens": 2523681428.0,
      "step": 15042
    },
    {
      "entropy": 1.693113128344218,
      "epoch": 1.6525500535552444,
      "grad_norm": 0.6383533477783203,
      "learning_rate": 3.388531484388711e-06,
      "loss": 1.3722,
      "mean_token_accuracy": 0.6580367684364319,
      "num_tokens": 2523890610.0,
      "step": 15043
    },
    {
      "entropy": 1.7015477518240611,
      "epoch": 1.652659910466617,
      "grad_norm": 0.8015193343162537,
      "learning_rate": 3.38767719617495e-06,
      "loss": 1.401,
      "mean_token_accuracy": 0.6783540596564611,
      "num_tokens": 2524009740.0,
      "step": 15044
    },
    {
      "entropy": 1.7582744856675465,
      "epoch": 1.6527697673779902,
      "grad_norm": 0.9063988327980042,
      "learning_rate": 3.3868231488877757e-06,
      "loss": 1.3525,
      "mean_token_accuracy": 0.6595317522684733,
      "num_tokens": 2524141825.0,
      "step": 15045
    },
    {
      "entropy": 1.732056309779485,
      "epoch": 1.652879624289363,
      "grad_norm": 0.7740351557731628,
      "learning_rate": 3.3859693425542186e-06,
      "loss": 1.4082,
      "mean_token_accuracy": 0.6550064533948898,
      "num_tokens": 2524302789.0,
      "step": 15046
    },
    {
      "entropy": 1.6483930746714275,
      "epoch": 1.652989481200736,
      "grad_norm": 0.608165979385376,
      "learning_rate": 3.385115777201298e-06,
      "loss": 1.3458,
      "mean_token_accuracy": 0.6636339922746023,
      "num_tokens": 2524444935.0,
      "step": 15047
    },
    {
      "entropy": 1.7196594377358754,
      "epoch": 1.653099338112109,
      "grad_norm": 0.572071373462677,
      "learning_rate": 3.3842624528560353e-06,
      "loss": 1.5982,
      "mean_token_accuracy": 0.6327051321665446,
      "num_tokens": 2524643745.0,
      "step": 15048
    },
    {
      "entropy": 1.6865974863370259,
      "epoch": 1.653209195023482,
      "grad_norm": 0.5919678211212158,
      "learning_rate": 3.3834093695454313e-06,
      "loss": 1.3454,
      "mean_token_accuracy": 0.6547940770785013,
      "num_tokens": 2524802624.0,
      "step": 15049
    },
    {
      "entropy": 1.6919112801551819,
      "epoch": 1.6533190519348548,
      "grad_norm": 0.6698882579803467,
      "learning_rate": 3.38255652729649e-06,
      "loss": 1.3982,
      "mean_token_accuracy": 0.6629907687505087,
      "num_tokens": 2524980761.0,
      "step": 15050
    },
    {
      "entropy": 1.6763626833756764,
      "epoch": 1.653428908846228,
      "grad_norm": 0.6936999559402466,
      "learning_rate": 3.381703926136204e-06,
      "loss": 1.314,
      "mean_token_accuracy": 0.6573221186796824,
      "num_tokens": 2525126619.0,
      "step": 15051
    },
    {
      "entropy": 1.766062339146932,
      "epoch": 1.6535387657576006,
      "grad_norm": 0.8053560256958008,
      "learning_rate": 3.380851566091552e-06,
      "loss": 1.3774,
      "mean_token_accuracy": 0.6592030425866445,
      "num_tokens": 2525244165.0,
      "step": 15052
    },
    {
      "entropy": 1.7038917541503906,
      "epoch": 1.6536486226689737,
      "grad_norm": 0.6169702410697937,
      "learning_rate": 3.379999447189516e-06,
      "loss": 1.3704,
      "mean_token_accuracy": 0.6640800684690475,
      "num_tokens": 2525404922.0,
      "step": 15053
    },
    {
      "entropy": 1.6612831552823384,
      "epoch": 1.6537584795803466,
      "grad_norm": 0.63535076379776,
      "learning_rate": 3.379147569457067e-06,
      "loss": 1.5327,
      "mean_token_accuracy": 0.6397574096918106,
      "num_tokens": 2525625009.0,
      "step": 15054
    },
    {
      "entropy": 1.7347392141819,
      "epoch": 1.6538683364917195,
      "grad_norm": 0.6799290776252747,
      "learning_rate": 3.3782959329211597e-06,
      "loss": 1.3879,
      "mean_token_accuracy": 0.6492925484975179,
      "num_tokens": 2525797102.0,
      "step": 15055
    },
    {
      "entropy": 1.750627835591634,
      "epoch": 1.6539781934030926,
      "grad_norm": 0.6583788394927979,
      "learning_rate": 3.3774445376087517e-06,
      "loss": 1.6107,
      "mean_token_accuracy": 0.6384320706129074,
      "num_tokens": 2526036673.0,
      "step": 15056
    },
    {
      "entropy": 1.7362577716509502,
      "epoch": 1.6540880503144653,
      "grad_norm": 0.751219630241394,
      "learning_rate": 3.3765933835467918e-06,
      "loss": 1.3345,
      "mean_token_accuracy": 0.6589648723602295,
      "num_tokens": 2526248957.0,
      "step": 15057
    },
    {
      "entropy": 1.7241934339205425,
      "epoch": 1.6541979072258384,
      "grad_norm": 0.7931070923805237,
      "learning_rate": 3.3757424707622156e-06,
      "loss": 1.502,
      "mean_token_accuracy": 0.6433264712492625,
      "num_tokens": 2526468669.0,
      "step": 15058
    },
    {
      "entropy": 1.652980665365855,
      "epoch": 1.6543077641372113,
      "grad_norm": 0.7637212872505188,
      "learning_rate": 3.374891799281952e-06,
      "loss": 1.3658,
      "mean_token_accuracy": 0.6645220816135406,
      "num_tokens": 2526655073.0,
      "step": 15059
    },
    {
      "entropy": 1.7018746038277943,
      "epoch": 1.6544176210485841,
      "grad_norm": 0.673249363899231,
      "learning_rate": 3.3740413691329294e-06,
      "loss": 1.3373,
      "mean_token_accuracy": 0.6641093840201696,
      "num_tokens": 2526829589.0,
      "step": 15060
    },
    {
      "entropy": 1.6794364154338837,
      "epoch": 1.6545274779599572,
      "grad_norm": 0.7552919387817383,
      "learning_rate": 3.3731911803420598e-06,
      "loss": 1.4182,
      "mean_token_accuracy": 0.6503365089495977,
      "num_tokens": 2526986226.0,
      "step": 15061
    },
    {
      "entropy": 1.7320887843767803,
      "epoch": 1.6546373348713301,
      "grad_norm": 0.664562463760376,
      "learning_rate": 3.3723412329362543e-06,
      "loss": 1.3605,
      "mean_token_accuracy": 0.6568738867839178,
      "num_tokens": 2527153507.0,
      "step": 15062
    },
    {
      "entropy": 1.7606121798356373,
      "epoch": 1.654747191782703,
      "grad_norm": 1.1021904945373535,
      "learning_rate": 3.3714915269424108e-06,
      "loss": 1.6345,
      "mean_token_accuracy": 0.6460135305921236,
      "num_tokens": 2527341854.0,
      "step": 15063
    },
    {
      "entropy": 1.6257544159889221,
      "epoch": 1.6548570486940761,
      "grad_norm": 0.5650546550750732,
      "learning_rate": 3.3706420623874213e-06,
      "loss": 1.3168,
      "mean_token_accuracy": 0.6696870078643163,
      "num_tokens": 2527504304.0,
      "step": 15064
    },
    {
      "entropy": 1.7246950368086498,
      "epoch": 1.6549669056054488,
      "grad_norm": 0.7503829598426819,
      "learning_rate": 3.3697928392981737e-06,
      "loss": 1.3115,
      "mean_token_accuracy": 0.6665904074907303,
      "num_tokens": 2527623793.0,
      "step": 15065
    },
    {
      "entropy": 1.7343401908874512,
      "epoch": 1.655076762516822,
      "grad_norm": 0.6358250379562378,
      "learning_rate": 3.3689438577015476e-06,
      "loss": 1.3758,
      "mean_token_accuracy": 0.6481455117464066,
      "num_tokens": 2527756953.0,
      "step": 15066
    },
    {
      "entropy": 1.7057737906773884,
      "epoch": 1.6551866194281948,
      "grad_norm": 0.5834030508995056,
      "learning_rate": 3.3680951176244064e-06,
      "loss": 1.5161,
      "mean_token_accuracy": 0.6389025648434957,
      "num_tokens": 2528005318.0,
      "step": 15067
    },
    {
      "entropy": 1.6946783165136974,
      "epoch": 1.6552964763395677,
      "grad_norm": 0.7368245124816895,
      "learning_rate": 3.367246619093615e-06,
      "loss": 1.502,
      "mean_token_accuracy": 0.6575753738482794,
      "num_tokens": 2528171311.0,
      "step": 15068
    },
    {
      "entropy": 1.732050359249115,
      "epoch": 1.6554063332509408,
      "grad_norm": 0.6881213188171387,
      "learning_rate": 3.366398362136031e-06,
      "loss": 1.3458,
      "mean_token_accuracy": 0.6613701532284418,
      "num_tokens": 2528352242.0,
      "step": 15069
    },
    {
      "entropy": 1.7644882798194885,
      "epoch": 1.6555161901623134,
      "grad_norm": 0.6945415735244751,
      "learning_rate": 3.3655503467784996e-06,
      "loss": 1.3223,
      "mean_token_accuracy": 0.6620460500319799,
      "num_tokens": 2528508423.0,
      "step": 15070
    },
    {
      "entropy": 1.6908580263455708,
      "epoch": 1.6556260470736865,
      "grad_norm": 0.704821765422821,
      "learning_rate": 3.3647025730478566e-06,
      "loss": 1.459,
      "mean_token_accuracy": 0.6593573639790217,
      "num_tokens": 2528690165.0,
      "step": 15071
    },
    {
      "entropy": 1.6922107140223186,
      "epoch": 1.6557359039850594,
      "grad_norm": 0.6756055355072021,
      "learning_rate": 3.363855040970939e-06,
      "loss": 1.5345,
      "mean_token_accuracy": 0.6271846890449524,
      "num_tokens": 2528963549.0,
      "step": 15072
    },
    {
      "entropy": 1.712009459733963,
      "epoch": 1.6558457608964323,
      "grad_norm": 0.6728986501693726,
      "learning_rate": 3.3630077505745664e-06,
      "loss": 1.3403,
      "mean_token_accuracy": 0.6565148731072744,
      "num_tokens": 2529077053.0,
      "step": 15073
    },
    {
      "entropy": 1.6842322250207264,
      "epoch": 1.6559556178078054,
      "grad_norm": 0.6321828365325928,
      "learning_rate": 3.362160701885559e-06,
      "loss": 1.3954,
      "mean_token_accuracy": 0.6590474247932434,
      "num_tokens": 2529232793.0,
      "step": 15074
    },
    {
      "entropy": 1.7570477823416393,
      "epoch": 1.6560654747191783,
      "grad_norm": 0.6922457814216614,
      "learning_rate": 3.3613138949307246e-06,
      "loss": 1.485,
      "mean_token_accuracy": 0.663332611322403,
      "num_tokens": 2529415470.0,
      "step": 15075
    },
    {
      "entropy": 1.7421770294507344,
      "epoch": 1.6561753316305512,
      "grad_norm": 0.825492262840271,
      "learning_rate": 3.3604673297368605e-06,
      "loss": 1.296,
      "mean_token_accuracy": 0.6683741807937622,
      "num_tokens": 2529558572.0,
      "step": 15076
    },
    {
      "entropy": 1.6646507183710735,
      "epoch": 1.6562851885419243,
      "grad_norm": 0.6699401140213013,
      "learning_rate": 3.3596210063307623e-06,
      "loss": 1.3958,
      "mean_token_accuracy": 0.6553126474221548,
      "num_tokens": 2529704252.0,
      "step": 15077
    },
    {
      "entropy": 1.7033556004365284,
      "epoch": 1.656395045453297,
      "grad_norm": 0.6611201763153076,
      "learning_rate": 3.3587749247392213e-06,
      "loss": 1.3577,
      "mean_token_accuracy": 0.6602742572625478,
      "num_tokens": 2529840132.0,
      "step": 15078
    },
    {
      "entropy": 1.6565563877423604,
      "epoch": 1.65650490236467,
      "grad_norm": 0.6807793974876404,
      "learning_rate": 3.3579290849890076e-06,
      "loss": 1.4446,
      "mean_token_accuracy": 0.6356561382611593,
      "num_tokens": 2530055346.0,
      "step": 15079
    },
    {
      "entropy": 1.6784409979979198,
      "epoch": 1.656614759276043,
      "grad_norm": 0.7249003648757935,
      "learning_rate": 3.3570834871068934e-06,
      "loss": 1.263,
      "mean_token_accuracy": 0.6803757299979528,
      "num_tokens": 2530190673.0,
      "step": 15080
    },
    {
      "entropy": 1.6624310910701752,
      "epoch": 1.6567246161874158,
      "grad_norm": 0.5706498622894287,
      "learning_rate": 3.356238131119645e-06,
      "loss": 1.4071,
      "mean_token_accuracy": 0.6508588592211405,
      "num_tokens": 2530411293.0,
      "step": 15081
    },
    {
      "entropy": 1.7260961433251698,
      "epoch": 1.656834473098789,
      "grad_norm": 0.7238296866416931,
      "learning_rate": 3.3553930170540166e-06,
      "loss": 1.4912,
      "mean_token_accuracy": 0.6538258691628774,
      "num_tokens": 2530586549.0,
      "step": 15082
    },
    {
      "entropy": 1.7342715958754222,
      "epoch": 1.6569443300101616,
      "grad_norm": 0.6654472351074219,
      "learning_rate": 3.354548144936751e-06,
      "loss": 1.4534,
      "mean_token_accuracy": 0.6400155772765478,
      "num_tokens": 2530753690.0,
      "step": 15083
    },
    {
      "entropy": 1.7684525350729625,
      "epoch": 1.6570541869215347,
      "grad_norm": 1.3236089944839478,
      "learning_rate": 3.353703514794594e-06,
      "loss": 1.35,
      "mean_token_accuracy": 0.669903039932251,
      "num_tokens": 2530865045.0,
      "step": 15084
    },
    {
      "entropy": 1.6798753043015797,
      "epoch": 1.6571640438329076,
      "grad_norm": 0.6657638549804688,
      "learning_rate": 3.3528591266542735e-06,
      "loss": 1.3229,
      "mean_token_accuracy": 0.6585825930039088,
      "num_tokens": 2531001639.0,
      "step": 15085
    },
    {
      "entropy": 1.7244026064872742,
      "epoch": 1.6572739007442805,
      "grad_norm": 0.6760687828063965,
      "learning_rate": 3.3520149805425174e-06,
      "loss": 1.3559,
      "mean_token_accuracy": 0.6678232202927271,
      "num_tokens": 2531132537.0,
      "step": 15086
    },
    {
      "entropy": 1.6744465331236522,
      "epoch": 1.6573837576556536,
      "grad_norm": 0.6795402765274048,
      "learning_rate": 3.3511710764860405e-06,
      "loss": 1.3079,
      "mean_token_accuracy": 0.6721722632646561,
      "num_tokens": 2531305857.0,
      "step": 15087
    },
    {
      "entropy": 1.7191696266333263,
      "epoch": 1.6574936145670265,
      "grad_norm": 0.7159080505371094,
      "learning_rate": 3.3503274145115516e-06,
      "loss": 1.3132,
      "mean_token_accuracy": 0.6738952944676081,
      "num_tokens": 2531423758.0,
      "step": 15088
    },
    {
      "entropy": 1.6929751634597778,
      "epoch": 1.6576034714783994,
      "grad_norm": 0.6210808157920837,
      "learning_rate": 3.3494839946457525e-06,
      "loss": 1.3419,
      "mean_token_accuracy": 0.6703117787837982,
      "num_tokens": 2531575439.0,
      "step": 15089
    },
    {
      "entropy": 1.656501869360606,
      "epoch": 1.6577133283897725,
      "grad_norm": 0.7103717923164368,
      "learning_rate": 3.3486408169153413e-06,
      "loss": 1.3132,
      "mean_token_accuracy": 0.6686868766943613,
      "num_tokens": 2531724263.0,
      "step": 15090
    },
    {
      "entropy": 1.6718024512132008,
      "epoch": 1.6578231853011451,
      "grad_norm": 0.6390276551246643,
      "learning_rate": 3.3477978813469957e-06,
      "loss": 1.4407,
      "mean_token_accuracy": 0.6513689408699671,
      "num_tokens": 2531902650.0,
      "step": 15091
    },
    {
      "entropy": 1.6487050652503967,
      "epoch": 1.6579330422125182,
      "grad_norm": 0.6771929860115051,
      "learning_rate": 3.3469551879674e-06,
      "loss": 1.3452,
      "mean_token_accuracy": 0.6610651115576426,
      "num_tokens": 2532059077.0,
      "step": 15092
    },
    {
      "entropy": 1.6755038897196453,
      "epoch": 1.6580428991238911,
      "grad_norm": 0.697956919670105,
      "learning_rate": 3.3461127368032266e-06,
      "loss": 1.4732,
      "mean_token_accuracy": 0.6597596059242884,
      "num_tokens": 2532248252.0,
      "step": 15093
    },
    {
      "entropy": 1.6560774842898052,
      "epoch": 1.658152756035264,
      "grad_norm": 0.7152982354164124,
      "learning_rate": 3.3452705278811352e-06,
      "loss": 1.4238,
      "mean_token_accuracy": 0.6569562057654063,
      "num_tokens": 2532425762.0,
      "step": 15094
    },
    {
      "entropy": 1.7077242334683735,
      "epoch": 1.6582626129466371,
      "grad_norm": 0.5992992520332336,
      "learning_rate": 3.3444285612277806e-06,
      "loss": 1.3899,
      "mean_token_accuracy": 0.6513581027587255,
      "num_tokens": 2532616814.0,
      "step": 15095
    },
    {
      "entropy": 1.7806836167971294,
      "epoch": 1.6583724698580098,
      "grad_norm": 0.6730424761772156,
      "learning_rate": 3.343586836869815e-06,
      "loss": 1.4785,
      "mean_token_accuracy": 0.6473760406176249,
      "num_tokens": 2532754041.0,
      "step": 15096
    },
    {
      "entropy": 1.694075107574463,
      "epoch": 1.658482326769383,
      "grad_norm": 0.7324855327606201,
      "learning_rate": 3.3427453548338724e-06,
      "loss": 1.5491,
      "mean_token_accuracy": 0.6529227097829183,
      "num_tokens": 2532969301.0,
      "step": 15097
    },
    {
      "entropy": 1.712545742591222,
      "epoch": 1.6585921836807558,
      "grad_norm": 0.6637945175170898,
      "learning_rate": 3.341904115146592e-06,
      "loss": 1.3429,
      "mean_token_accuracy": 0.6546710977951685,
      "num_tokens": 2533146356.0,
      "step": 15098
    },
    {
      "entropy": 1.7674176394939423,
      "epoch": 1.6587020405921287,
      "grad_norm": 0.7276931405067444,
      "learning_rate": 3.3410631178345956e-06,
      "loss": 1.4362,
      "mean_token_accuracy": 0.6518150369326273,
      "num_tokens": 2533290788.0,
      "step": 15099
    },
    {
      "entropy": 1.7356145282586415,
      "epoch": 1.6588118975035018,
      "grad_norm": 0.6265212893486023,
      "learning_rate": 3.3402223629244977e-06,
      "loss": 1.3753,
      "mean_token_accuracy": 0.6475427796443304,
      "num_tokens": 2533436985.0,
      "step": 15100
    },
    {
      "entropy": 1.663461983203888,
      "epoch": 1.6589217544148747,
      "grad_norm": 0.724477231502533,
      "learning_rate": 3.339381850442911e-06,
      "loss": 1.2809,
      "mean_token_accuracy": 0.667538528641065,
      "num_tokens": 2533568360.0,
      "step": 15101
    },
    {
      "entropy": 1.705003599325816,
      "epoch": 1.6590316113262475,
      "grad_norm": 0.620273768901825,
      "learning_rate": 3.33854158041644e-06,
      "loss": 1.4139,
      "mean_token_accuracy": 0.6586426943540573,
      "num_tokens": 2533751596.0,
      "step": 15102
    },
    {
      "entropy": 1.6570688684781392,
      "epoch": 1.6591414682376207,
      "grad_norm": 0.6880425810813904,
      "learning_rate": 3.3377015528716722e-06,
      "loss": 1.3196,
      "mean_token_accuracy": 0.6651638994614283,
      "num_tokens": 2533914399.0,
      "step": 15103
    },
    {
      "entropy": 1.7261102298895519,
      "epoch": 1.6592513251489933,
      "grad_norm": 0.9097874164581299,
      "learning_rate": 3.3368617678352e-06,
      "loss": 1.373,
      "mean_token_accuracy": 0.6556687106688818,
      "num_tokens": 2534127252.0,
      "step": 15104
    },
    {
      "entropy": 1.741780122121175,
      "epoch": 1.6593611820603664,
      "grad_norm": 0.701435923576355,
      "learning_rate": 3.3360222253335963e-06,
      "loss": 1.3993,
      "mean_token_accuracy": 0.6510543972253799,
      "num_tokens": 2534282275.0,
      "step": 15105
    },
    {
      "entropy": 1.707371195157369,
      "epoch": 1.6594710389717393,
      "grad_norm": 0.7605389356613159,
      "learning_rate": 3.335182925393439e-06,
      "loss": 1.5429,
      "mean_token_accuracy": 0.6444597393274307,
      "num_tokens": 2534425544.0,
      "step": 15106
    },
    {
      "entropy": 1.6632187863190968,
      "epoch": 1.6595808958831122,
      "grad_norm": 0.6267088651657104,
      "learning_rate": 3.334343868041288e-06,
      "loss": 1.3156,
      "mean_token_accuracy": 0.6677224983771642,
      "num_tokens": 2534595314.0,
      "step": 15107
    },
    {
      "entropy": 1.7033604681491852,
      "epoch": 1.6596907527944853,
      "grad_norm": 0.6936233639717102,
      "learning_rate": 3.3335050533036973e-06,
      "loss": 1.3935,
      "mean_token_accuracy": 0.6590020259221395,
      "num_tokens": 2534749411.0,
      "step": 15108
    },
    {
      "entropy": 1.6776057581106822,
      "epoch": 1.659800609705858,
      "grad_norm": 0.6327299475669861,
      "learning_rate": 3.332666481207217e-06,
      "loss": 1.3723,
      "mean_token_accuracy": 0.6604341218868891,
      "num_tokens": 2534924233.0,
      "step": 15109
    },
    {
      "entropy": 1.7498537997404735,
      "epoch": 1.659910466617231,
      "grad_norm": 0.7666849493980408,
      "learning_rate": 3.33182815177839e-06,
      "loss": 1.2836,
      "mean_token_accuracy": 0.6681917756795883,
      "num_tokens": 2535064163.0,
      "step": 15110
    },
    {
      "entropy": 1.6705930332342784,
      "epoch": 1.660020323528604,
      "grad_norm": 0.9941990971565247,
      "learning_rate": 3.3309900650437453e-06,
      "loss": 1.332,
      "mean_token_accuracy": 0.6723613291978836,
      "num_tokens": 2535185568.0,
      "step": 15111
    },
    {
      "entropy": 1.6964355210463207,
      "epoch": 1.6601301804399768,
      "grad_norm": 0.5545011758804321,
      "learning_rate": 3.330152221029809e-06,
      "loss": 1.5134,
      "mean_token_accuracy": 0.630453368028005,
      "num_tokens": 2535418640.0,
      "step": 15112
    },
    {
      "entropy": 1.7623733182748158,
      "epoch": 1.66024003735135,
      "grad_norm": 0.7459884285926819,
      "learning_rate": 3.3293146197631e-06,
      "loss": 1.5485,
      "mean_token_accuracy": 0.6495217035214106,
      "num_tokens": 2535565378.0,
      "step": 15113
    },
    {
      "entropy": 1.7098113199075062,
      "epoch": 1.6603498942627228,
      "grad_norm": 0.6535688042640686,
      "learning_rate": 3.3284772612701264e-06,
      "loss": 1.3106,
      "mean_token_accuracy": 0.6760827650626501,
      "num_tokens": 2535695343.0,
      "step": 15114
    },
    {
      "entropy": 1.6740643779436748,
      "epoch": 1.6604597511740957,
      "grad_norm": 0.7787010073661804,
      "learning_rate": 3.327640145577389e-06,
      "loss": 1.276,
      "mean_token_accuracy": 0.6757322053114573,
      "num_tokens": 2535832356.0,
      "step": 15115
    },
    {
      "entropy": 1.7608892818291981,
      "epoch": 1.6605696080854688,
      "grad_norm": 0.6061299443244934,
      "learning_rate": 3.3268032727113854e-06,
      "loss": 1.4559,
      "mean_token_accuracy": 0.6371789226929346,
      "num_tokens": 2536059624.0,
      "step": 15116
    },
    {
      "entropy": 1.6933262546857197,
      "epoch": 1.6606794649968415,
      "grad_norm": 0.6764704585075378,
      "learning_rate": 3.3259666426985992e-06,
      "loss": 1.3633,
      "mean_token_accuracy": 0.6675354987382889,
      "num_tokens": 2536235498.0,
      "step": 15117
    },
    {
      "entropy": 1.721170296271642,
      "epoch": 1.6607893219082146,
      "grad_norm": 0.7042806148529053,
      "learning_rate": 3.3251302555655125e-06,
      "loss": 1.4992,
      "mean_token_accuracy": 0.6421754111846288,
      "num_tokens": 2536422548.0,
      "step": 15118
    },
    {
      "entropy": 1.7569746871789296,
      "epoch": 1.6608991788195875,
      "grad_norm": 0.8258860111236572,
      "learning_rate": 3.3242941113385955e-06,
      "loss": 1.3906,
      "mean_token_accuracy": 0.6512050032615662,
      "num_tokens": 2536588540.0,
      "step": 15119
    },
    {
      "entropy": 1.6643067598342896,
      "epoch": 1.6610090357309604,
      "grad_norm": 0.6636916399002075,
      "learning_rate": 3.323458210044308e-06,
      "loss": 1.3003,
      "mean_token_accuracy": 0.6672434459129969,
      "num_tokens": 2536722836.0,
      "step": 15120
    },
    {
      "entropy": 1.6818746825059254,
      "epoch": 1.6611188926423335,
      "grad_norm": 0.8212363123893738,
      "learning_rate": 3.3226225517091092e-06,
      "loss": 1.3068,
      "mean_token_accuracy": 0.6724486698706945,
      "num_tokens": 2536847383.0,
      "step": 15121
    },
    {
      "entropy": 1.6717171669006348,
      "epoch": 1.6612287495537061,
      "grad_norm": 0.6446511745452881,
      "learning_rate": 3.32178713635945e-06,
      "loss": 1.4976,
      "mean_token_accuracy": 0.6454497029383978,
      "num_tokens": 2537070978.0,
      "step": 15122
    },
    {
      "entropy": 1.7301104565461476,
      "epoch": 1.6613386064650792,
      "grad_norm": 0.6526685953140259,
      "learning_rate": 3.3209519640217673e-06,
      "loss": 1.4171,
      "mean_token_accuracy": 0.6540913035472234,
      "num_tokens": 2537248801.0,
      "step": 15123
    },
    {
      "entropy": 1.7408444384733837,
      "epoch": 1.6614484633764521,
      "grad_norm": 0.726782500743866,
      "learning_rate": 3.320117034722493e-06,
      "loss": 1.2939,
      "mean_token_accuracy": 0.6629084100325903,
      "num_tokens": 2537391472.0,
      "step": 15124
    },
    {
      "entropy": 1.704400509595871,
      "epoch": 1.661558320287825,
      "grad_norm": 0.928636372089386,
      "learning_rate": 3.3192823484880554e-06,
      "loss": 1.2594,
      "mean_token_accuracy": 0.6687459697326025,
      "num_tokens": 2537535837.0,
      "step": 15125
    },
    {
      "entropy": 1.6730639934539795,
      "epoch": 1.6616681771991981,
      "grad_norm": 0.5636922121047974,
      "learning_rate": 3.3184479053448715e-06,
      "loss": 1.349,
      "mean_token_accuracy": 0.6587913980086645,
      "num_tokens": 2537730701.0,
      "step": 15126
    },
    {
      "entropy": 1.7522354920705159,
      "epoch": 1.661778034110571,
      "grad_norm": 0.686957597732544,
      "learning_rate": 3.317613705319347e-06,
      "loss": 1.5405,
      "mean_token_accuracy": 0.6359638373057047,
      "num_tokens": 2537914771.0,
      "step": 15127
    },
    {
      "entropy": 1.6851915816466014,
      "epoch": 1.661887891021944,
      "grad_norm": 0.7741264700889587,
      "learning_rate": 3.3167797484378885e-06,
      "loss": 1.3679,
      "mean_token_accuracy": 0.6594855835040411,
      "num_tokens": 2538075327.0,
      "step": 15128
    },
    {
      "entropy": 1.7024510304133098,
      "epoch": 1.661997747933317,
      "grad_norm": 0.734610915184021,
      "learning_rate": 3.3159460347268883e-06,
      "loss": 1.4623,
      "mean_token_accuracy": 0.6586558967828751,
      "num_tokens": 2538238125.0,
      "step": 15129
    },
    {
      "entropy": 1.6769766708215077,
      "epoch": 1.6621076048446897,
      "grad_norm": 0.63493812084198,
      "learning_rate": 3.3151125642127345e-06,
      "loss": 1.3767,
      "mean_token_accuracy": 0.6689134786526362,
      "num_tokens": 2538419817.0,
      "step": 15130
    },
    {
      "entropy": 1.6704062322775524,
      "epoch": 1.6622174617560628,
      "grad_norm": 0.6507300734519958,
      "learning_rate": 3.3142793369218062e-06,
      "loss": 1.2955,
      "mean_token_accuracy": 0.6776465276877085,
      "num_tokens": 2538580537.0,
      "step": 15131
    },
    {
      "entropy": 1.6934023002783458,
      "epoch": 1.6623273186674357,
      "grad_norm": 0.6520810723304749,
      "learning_rate": 3.3134463528804708e-06,
      "loss": 1.3876,
      "mean_token_accuracy": 0.6512720038493475,
      "num_tokens": 2538783784.0,
      "step": 15132
    },
    {
      "entropy": 1.6996967792510986,
      "epoch": 1.6624371755788085,
      "grad_norm": 0.6800544261932373,
      "learning_rate": 3.312613612115094e-06,
      "loss": 1.5371,
      "mean_token_accuracy": 0.6272955139478048,
      "num_tokens": 2538987568.0,
      "step": 15133
    },
    {
      "entropy": 1.6887696584065754,
      "epoch": 1.6625470324901817,
      "grad_norm": 0.672918975353241,
      "learning_rate": 3.311781114652037e-06,
      "loss": 1.4571,
      "mean_token_accuracy": 0.6463527331749598,
      "num_tokens": 2539126976.0,
      "step": 15134
    },
    {
      "entropy": 1.6642581224441528,
      "epoch": 1.6626568894015543,
      "grad_norm": 0.7320646643638611,
      "learning_rate": 3.3109488605176398e-06,
      "loss": 1.3934,
      "mean_token_accuracy": 0.6711856325467428,
      "num_tokens": 2539263021.0,
      "step": 15135
    },
    {
      "entropy": 1.7170037130514781,
      "epoch": 1.6627667463129274,
      "grad_norm": 0.7974650263786316,
      "learning_rate": 3.3101168497382463e-06,
      "loss": 1.411,
      "mean_token_accuracy": 0.6470285852750143,
      "num_tokens": 2539450814.0,
      "step": 15136
    },
    {
      "entropy": 1.6689094603061676,
      "epoch": 1.6628766032243003,
      "grad_norm": 0.6423022150993347,
      "learning_rate": 3.309285082340191e-06,
      "loss": 1.3791,
      "mean_token_accuracy": 0.649917870759964,
      "num_tokens": 2539611432.0,
      "step": 15137
    },
    {
      "entropy": 1.733245462179184,
      "epoch": 1.6629864601356732,
      "grad_norm": 0.6242569088935852,
      "learning_rate": 3.308453558349798e-06,
      "loss": 1.5296,
      "mean_token_accuracy": 0.6238453984260559,
      "num_tokens": 2539837249.0,
      "step": 15138
    },
    {
      "entropy": 1.635475645462672,
      "epoch": 1.6630963170470463,
      "grad_norm": 0.7449822425842285,
      "learning_rate": 3.307622277793382e-06,
      "loss": 1.381,
      "mean_token_accuracy": 0.6656597952047983,
      "num_tokens": 2540008011.0,
      "step": 15139
    },
    {
      "entropy": 1.7413840492566426,
      "epoch": 1.6632061739584192,
      "grad_norm": 0.7251917719841003,
      "learning_rate": 3.3067912406972553e-06,
      "loss": 1.4038,
      "mean_token_accuracy": 0.6577907751003901,
      "num_tokens": 2540197866.0,
      "step": 15140
    },
    {
      "entropy": 1.6912154257297516,
      "epoch": 1.663316030869792,
      "grad_norm": 0.6151164174079895,
      "learning_rate": 3.305960447087718e-06,
      "loss": 1.5038,
      "mean_token_accuracy": 0.6435969273249308,
      "num_tokens": 2540388308.0,
      "step": 15141
    },
    {
      "entropy": 1.6632501184940338,
      "epoch": 1.6634258877811652,
      "grad_norm": 0.786320686340332,
      "learning_rate": 3.3051298969910683e-06,
      "loss": 1.2916,
      "mean_token_accuracy": 0.6799655159314474,
      "num_tokens": 2540553028.0,
      "step": 15142
    },
    {
      "entropy": 1.6826303203900654,
      "epoch": 1.6635357446925378,
      "grad_norm": 0.7635297179222107,
      "learning_rate": 3.3042995904335884e-06,
      "loss": 1.31,
      "mean_token_accuracy": 0.6798640837272009,
      "num_tokens": 2540699747.0,
      "step": 15143
    },
    {
      "entropy": 1.7032555242379506,
      "epoch": 1.663645601603911,
      "grad_norm": 0.7347438931465149,
      "learning_rate": 3.3034695274415586e-06,
      "loss": 1.3382,
      "mean_token_accuracy": 0.6689636707305908,
      "num_tokens": 2540856169.0,
      "step": 15144
    },
    {
      "entropy": 1.7159066100915272,
      "epoch": 1.6637554585152838,
      "grad_norm": 0.728591799736023,
      "learning_rate": 3.3026397080412475e-06,
      "loss": 1.2757,
      "mean_token_accuracy": 0.6693220684925715,
      "num_tokens": 2540986299.0,
      "step": 15145
    },
    {
      "entropy": 1.7285268604755402,
      "epoch": 1.6638653154266567,
      "grad_norm": 0.7702023386955261,
      "learning_rate": 3.3018101322589276e-06,
      "loss": 1.282,
      "mean_token_accuracy": 0.6752820163965225,
      "num_tokens": 2541134966.0,
      "step": 15146
    },
    {
      "entropy": 1.7311889429887135,
      "epoch": 1.6639751723380298,
      "grad_norm": 0.8523202538490295,
      "learning_rate": 3.3009808001208433e-06,
      "loss": 1.4396,
      "mean_token_accuracy": 0.6446023831764857,
      "num_tokens": 2541288982.0,
      "step": 15147
    },
    {
      "entropy": 1.743065595626831,
      "epoch": 1.6640850292494025,
      "grad_norm": 0.7855637073516846,
      "learning_rate": 3.3001517116532467e-06,
      "loss": 1.4077,
      "mean_token_accuracy": 0.665867954492569,
      "num_tokens": 2541427699.0,
      "step": 15148
    },
    {
      "entropy": 1.701552430788676,
      "epoch": 1.6641948861607756,
      "grad_norm": 0.6906160712242126,
      "learning_rate": 3.299322866882382e-06,
      "loss": 1.3014,
      "mean_token_accuracy": 0.6663641184568405,
      "num_tokens": 2541559947.0,
      "step": 15149
    },
    {
      "entropy": 1.696532428264618,
      "epoch": 1.6643047430721485,
      "grad_norm": 0.8275318741798401,
      "learning_rate": 3.2984942658344775e-06,
      "loss": 1.4308,
      "mean_token_accuracy": 0.6603184888760248,
      "num_tokens": 2541719607.0,
      "step": 15150
    },
    {
      "entropy": 1.7219399809837341,
      "epoch": 1.6644145999835214,
      "grad_norm": 0.7034138441085815,
      "learning_rate": 3.297665908535757e-06,
      "loss": 1.43,
      "mean_token_accuracy": 0.6470849066972733,
      "num_tokens": 2541892403.0,
      "step": 15151
    },
    {
      "entropy": 1.638861060142517,
      "epoch": 1.6645244568948945,
      "grad_norm": 0.8403314352035522,
      "learning_rate": 3.2968377950124424e-06,
      "loss": 1.3045,
      "mean_token_accuracy": 0.66932080189387,
      "num_tokens": 2542029755.0,
      "step": 15152
    },
    {
      "entropy": 1.675868570804596,
      "epoch": 1.6646343138062674,
      "grad_norm": 0.9272775650024414,
      "learning_rate": 3.2960099252907383e-06,
      "loss": 1.4506,
      "mean_token_accuracy": 0.6282220433155695,
      "num_tokens": 2542277314.0,
      "step": 15153
    },
    {
      "entropy": 1.6995552678902943,
      "epoch": 1.6647441707176402,
      "grad_norm": 0.6546932458877563,
      "learning_rate": 3.2951822993968507e-06,
      "loss": 1.4917,
      "mean_token_accuracy": 0.6413043240706126,
      "num_tokens": 2542450597.0,
      "step": 15154
    },
    {
      "entropy": 1.6610127687454224,
      "epoch": 1.6648540276290134,
      "grad_norm": 0.7705767154693604,
      "learning_rate": 3.294354917356971e-06,
      "loss": 1.3614,
      "mean_token_accuracy": 0.6677778412898382,
      "num_tokens": 2542605563.0,
      "step": 15155
    },
    {
      "entropy": 1.6522420446077983,
      "epoch": 1.664963884540386,
      "grad_norm": 0.9083729982376099,
      "learning_rate": 3.2935277791972845e-06,
      "loss": 1.3583,
      "mean_token_accuracy": 0.6643216063578924,
      "num_tokens": 2542750030.0,
      "step": 15156
    },
    {
      "entropy": 1.6629354059696198,
      "epoch": 1.6650737414517591,
      "grad_norm": 0.7083542346954346,
      "learning_rate": 3.2927008849439713e-06,
      "loss": 1.5038,
      "mean_token_accuracy": 0.6516106476386389,
      "num_tokens": 2542920378.0,
      "step": 15157
    },
    {
      "entropy": 1.6975993414719899,
      "epoch": 1.665183598363132,
      "grad_norm": 0.6380283832550049,
      "learning_rate": 3.291874234623206e-06,
      "loss": 1.3954,
      "mean_token_accuracy": 0.6629827618598938,
      "num_tokens": 2543100162.0,
      "step": 15158
    },
    {
      "entropy": 1.6631451447804768,
      "epoch": 1.665293455274505,
      "grad_norm": 0.6705272793769836,
      "learning_rate": 3.2910478282611434e-06,
      "loss": 1.4026,
      "mean_token_accuracy": 0.6492062012354533,
      "num_tokens": 2543321718.0,
      "step": 15159
    },
    {
      "entropy": 1.662650595108668,
      "epoch": 1.665403312185878,
      "grad_norm": 0.6082910299301147,
      "learning_rate": 3.2902216658839437e-06,
      "loss": 1.3955,
      "mean_token_accuracy": 0.6513722836971283,
      "num_tokens": 2543502527.0,
      "step": 15160
    },
    {
      "entropy": 1.7114491661389668,
      "epoch": 1.6655131690972507,
      "grad_norm": 0.6370794177055359,
      "learning_rate": 3.2893957475177562e-06,
      "loss": 1.4805,
      "mean_token_accuracy": 0.6547950555880865,
      "num_tokens": 2543686162.0,
      "step": 15161
    },
    {
      "entropy": 1.7338766554991405,
      "epoch": 1.6656230260086238,
      "grad_norm": 0.6354936957359314,
      "learning_rate": 3.2885700731887184e-06,
      "loss": 1.4639,
      "mean_token_accuracy": 0.6365046302477518,
      "num_tokens": 2543866432.0,
      "step": 15162
    },
    {
      "entropy": 1.7078477044900258,
      "epoch": 1.6657328829199967,
      "grad_norm": 0.8597061038017273,
      "learning_rate": 3.287744642922961e-06,
      "loss": 1.2784,
      "mean_token_accuracy": 0.6691752125819524,
      "num_tokens": 2544031768.0,
      "step": 15163
    },
    {
      "entropy": 1.725355605284373,
      "epoch": 1.6658427398313695,
      "grad_norm": 0.8394426107406616,
      "learning_rate": 3.2869194567466126e-06,
      "loss": 1.4591,
      "mean_token_accuracy": 0.6521119624376297,
      "num_tokens": 2544304098.0,
      "step": 15164
    },
    {
      "entropy": 1.711538831392924,
      "epoch": 1.6659525967427427,
      "grad_norm": 0.6709228754043579,
      "learning_rate": 3.286094514685786e-06,
      "loss": 1.5216,
      "mean_token_accuracy": 0.648155947526296,
      "num_tokens": 2544482608.0,
      "step": 15165
    },
    {
      "entropy": 1.7310082018375397,
      "epoch": 1.6660624536541155,
      "grad_norm": 0.7595032453536987,
      "learning_rate": 3.285269816766593e-06,
      "loss": 1.3219,
      "mean_token_accuracy": 0.6648527532815933,
      "num_tokens": 2544614022.0,
      "step": 15166
    },
    {
      "entropy": 1.6925914386908214,
      "epoch": 1.6661723105654884,
      "grad_norm": 0.6604565382003784,
      "learning_rate": 3.284445363015135e-06,
      "loss": 1.4728,
      "mean_token_accuracy": 0.6658626943826675,
      "num_tokens": 2544783172.0,
      "step": 15167
    },
    {
      "entropy": 1.6832049489021301,
      "epoch": 1.6662821674768615,
      "grad_norm": 0.7163446545600891,
      "learning_rate": 3.2836211534575017e-06,
      "loss": 1.5589,
      "mean_token_accuracy": 0.6431887249151865,
      "num_tokens": 2544991921.0,
      "step": 15168
    },
    {
      "entropy": 1.710367888212204,
      "epoch": 1.6663920243882342,
      "grad_norm": 0.6329286694526672,
      "learning_rate": 3.282797188119784e-06,
      "loss": 1.3939,
      "mean_token_accuracy": 0.6490947405497233,
      "num_tokens": 2545169008.0,
      "step": 15169
    },
    {
      "entropy": 1.6956720153490703,
      "epoch": 1.6665018812996073,
      "grad_norm": 0.7948725819587708,
      "learning_rate": 3.281973467028059e-06,
      "loss": 1.3948,
      "mean_token_accuracy": 0.6627111285924911,
      "num_tokens": 2545343998.0,
      "step": 15170
    },
    {
      "entropy": 1.6870111227035522,
      "epoch": 1.6666117382109802,
      "grad_norm": 0.7442490458488464,
      "learning_rate": 3.2811499902083926e-06,
      "loss": 1.3838,
      "mean_token_accuracy": 0.6725998371839523,
      "num_tokens": 2545494318.0,
      "step": 15171
    },
    {
      "entropy": 1.707838664452235,
      "epoch": 1.666721595122353,
      "grad_norm": 0.7813781499862671,
      "learning_rate": 3.2803267576868537e-06,
      "loss": 1.4931,
      "mean_token_accuracy": 0.6501006484031677,
      "num_tokens": 2545634917.0,
      "step": 15172
    },
    {
      "entropy": 1.7154215077559154,
      "epoch": 1.6668314520337262,
      "grad_norm": 0.7479304671287537,
      "learning_rate": 3.2795037694894916e-06,
      "loss": 1.2564,
      "mean_token_accuracy": 0.6734669556220373,
      "num_tokens": 2545793905.0,
      "step": 15173
    },
    {
      "entropy": 1.7019230524698894,
      "epoch": 1.6669413089450988,
      "grad_norm": 0.7185121774673462,
      "learning_rate": 3.278681025642359e-06,
      "loss": 1.2722,
      "mean_token_accuracy": 0.689252441128095,
      "num_tokens": 2545972358.0,
      "step": 15174
    },
    {
      "entropy": 1.6919790307680767,
      "epoch": 1.667051165856472,
      "grad_norm": 0.7885094285011292,
      "learning_rate": 3.2778585261714925e-06,
      "loss": 1.6047,
      "mean_token_accuracy": 0.6392913907766342,
      "num_tokens": 2546235675.0,
      "step": 15175
    },
    {
      "entropy": 1.660687933365504,
      "epoch": 1.6671610227678448,
      "grad_norm": 0.7216572761535645,
      "learning_rate": 3.2770362711029226e-06,
      "loss": 1.4412,
      "mean_token_accuracy": 0.6594575295845667,
      "num_tokens": 2546375840.0,
      "step": 15176
    },
    {
      "entropy": 1.6957957843939464,
      "epoch": 1.6672708796792177,
      "grad_norm": 0.788975715637207,
      "learning_rate": 3.2762142604626724e-06,
      "loss": 1.4064,
      "mean_token_accuracy": 0.6570547719796499,
      "num_tokens": 2546509636.0,
      "step": 15177
    },
    {
      "entropy": 1.67244353890419,
      "epoch": 1.6673807365905908,
      "grad_norm": 0.731098473072052,
      "learning_rate": 3.2753924942767647e-06,
      "loss": 1.3241,
      "mean_token_accuracy": 0.6744396587212881,
      "num_tokens": 2546682886.0,
      "step": 15178
    },
    {
      "entropy": 1.6986753741900127,
      "epoch": 1.6674905935019637,
      "grad_norm": 0.8727912902832031,
      "learning_rate": 3.2745709725712027e-06,
      "loss": 1.2156,
      "mean_token_accuracy": 0.6811005771160126,
      "num_tokens": 2546823461.0,
      "step": 15179
    },
    {
      "entropy": 1.697281688451767,
      "epoch": 1.6676004504133366,
      "grad_norm": 0.6751629710197449,
      "learning_rate": 3.273749695371986e-06,
      "loss": 1.3449,
      "mean_token_accuracy": 0.6630785216887792,
      "num_tokens": 2547036887.0,
      "step": 15180
    },
    {
      "entropy": 1.752416580915451,
      "epoch": 1.6677103073247097,
      "grad_norm": 0.6552797555923462,
      "learning_rate": 3.2729286627051126e-06,
      "loss": 1.3898,
      "mean_token_accuracy": 0.6616188089052836,
      "num_tokens": 2547192022.0,
      "step": 15181
    },
    {
      "entropy": 1.7320577601591747,
      "epoch": 1.6678201642360824,
      "grad_norm": 0.7161309719085693,
      "learning_rate": 3.2721078745965653e-06,
      "loss": 1.5004,
      "mean_token_accuracy": 0.6625331242879232,
      "num_tokens": 2547364976.0,
      "step": 15182
    },
    {
      "entropy": 1.7012326021989186,
      "epoch": 1.6679300211474555,
      "grad_norm": 1.3153455257415771,
      "learning_rate": 3.2712873310723186e-06,
      "loss": 1.0569,
      "mean_token_accuracy": 0.6787421902020773,
      "num_tokens": 2547535164.0,
      "step": 15183
    },
    {
      "entropy": 1.6177492539087932,
      "epoch": 1.6680398780588284,
      "grad_norm": 1.2736519575119019,
      "learning_rate": 3.2704670321583474e-06,
      "loss": 1.2213,
      "mean_token_accuracy": 0.6746558050314585,
      "num_tokens": 2547762852.0,
      "step": 15184
    },
    {
      "entropy": 1.7297306557496388,
      "epoch": 1.6681497349702012,
      "grad_norm": 0.8100583553314209,
      "learning_rate": 3.2696469778806102e-06,
      "loss": 1.369,
      "mean_token_accuracy": 0.660000408689181,
      "num_tokens": 2547894035.0,
      "step": 15185
    },
    {
      "entropy": 1.631914883852005,
      "epoch": 1.6682595918815744,
      "grad_norm": 0.7101684212684631,
      "learning_rate": 3.2688271682650652e-06,
      "loss": 1.2938,
      "mean_token_accuracy": 0.6753945598999659,
      "num_tokens": 2548003771.0,
      "step": 15186
    },
    {
      "entropy": 1.6929580171902974,
      "epoch": 1.6683694487929472,
      "grad_norm": 0.6653352379798889,
      "learning_rate": 3.268007603337655e-06,
      "loss": 1.5302,
      "mean_token_accuracy": 0.6348066478967667,
      "num_tokens": 2548213469.0,
      "step": 15187
    },
    {
      "entropy": 1.6800095836321514,
      "epoch": 1.6684793057043201,
      "grad_norm": 0.6623151302337646,
      "learning_rate": 3.2671882831243192e-06,
      "loss": 1.3365,
      "mean_token_accuracy": 0.6838184396425883,
      "num_tokens": 2548375660.0,
      "step": 15188
    },
    {
      "entropy": 1.735003262758255,
      "epoch": 1.668589162615693,
      "grad_norm": 0.5957344770431519,
      "learning_rate": 3.26636920765099e-06,
      "loss": 1.4901,
      "mean_token_accuracy": 0.633953258395195,
      "num_tokens": 2548619091.0,
      "step": 15189
    },
    {
      "entropy": 1.7986479699611664,
      "epoch": 1.668699019527066,
      "grad_norm": 0.8299116492271423,
      "learning_rate": 3.2655503769435914e-06,
      "loss": 1.7051,
      "mean_token_accuracy": 0.6299788852532705,
      "num_tokens": 2548760586.0,
      "step": 15190
    },
    {
      "entropy": 1.7730123003323872,
      "epoch": 1.668808876438439,
      "grad_norm": 0.7321978211402893,
      "learning_rate": 3.2647317910280394e-06,
      "loss": 1.5606,
      "mean_token_accuracy": 0.647643451889356,
      "num_tokens": 2548927359.0,
      "step": 15191
    },
    {
      "entropy": 1.625301976998647,
      "epoch": 1.668918733349812,
      "grad_norm": 0.6785169243812561,
      "learning_rate": 3.2639134499302376e-06,
      "loss": 1.382,
      "mean_token_accuracy": 0.6625783642133077,
      "num_tokens": 2549121709.0,
      "step": 15192
    },
    {
      "entropy": 1.7081403533617656,
      "epoch": 1.6690285902611848,
      "grad_norm": 0.808611273765564,
      "learning_rate": 3.2630953536760912e-06,
      "loss": 1.5018,
      "mean_token_accuracy": 0.657961055636406,
      "num_tokens": 2549298184.0,
      "step": 15193
    },
    {
      "entropy": 1.723660518725713,
      "epoch": 1.6691384471725579,
      "grad_norm": 0.7684034705162048,
      "learning_rate": 3.2622775022914916e-06,
      "loss": 1.5894,
      "mean_token_accuracy": 0.6327784558137258,
      "num_tokens": 2549481832.0,
      "step": 15194
    },
    {
      "entropy": 1.7609472672144573,
      "epoch": 1.6692483040839305,
      "grad_norm": 0.7250325083732605,
      "learning_rate": 3.2614598958023197e-06,
      "loss": 1.4629,
      "mean_token_accuracy": 0.6485139379898707,
      "num_tokens": 2549642631.0,
      "step": 15195
    },
    {
      "entropy": 1.678977221250534,
      "epoch": 1.6693581609953037,
      "grad_norm": 0.6951817870140076,
      "learning_rate": 3.2606425342344563e-06,
      "loss": 1.3847,
      "mean_token_accuracy": 0.6604787260293961,
      "num_tokens": 2549822114.0,
      "step": 15196
    },
    {
      "entropy": 1.6499019463857014,
      "epoch": 1.6694680179066765,
      "grad_norm": 0.7327429056167603,
      "learning_rate": 3.259825417613768e-06,
      "loss": 1.4187,
      "mean_token_accuracy": 0.6621517539024353,
      "num_tokens": 2550005790.0,
      "step": 15197
    },
    {
      "entropy": 1.6978709896405537,
      "epoch": 1.6695778748180494,
      "grad_norm": 0.637737512588501,
      "learning_rate": 3.259008545966119e-06,
      "loss": 1.4359,
      "mean_token_accuracy": 0.6585992376009623,
      "num_tokens": 2550179351.0,
      "step": 15198
    },
    {
      "entropy": 1.7029849688212078,
      "epoch": 1.6696877317294225,
      "grad_norm": 0.6902602314949036,
      "learning_rate": 3.2581919193173617e-06,
      "loss": 1.4087,
      "mean_token_accuracy": 0.6876400311787924,
      "num_tokens": 2550325763.0,
      "step": 15199
    },
    {
      "entropy": 1.7197512686252594,
      "epoch": 1.6697975886407954,
      "grad_norm": 0.7032921314239502,
      "learning_rate": 3.25737553769334e-06,
      "loss": 1.3647,
      "mean_token_accuracy": 0.6540055871009827,
      "num_tokens": 2550453496.0,
      "step": 15200
    },
    {
      "entropy": 1.6929913659890492,
      "epoch": 1.6699074455521683,
      "grad_norm": 0.7520516514778137,
      "learning_rate": 3.2565594011198927e-06,
      "loss": 1.3464,
      "mean_token_accuracy": 0.6615286866823832,
      "num_tokens": 2550611853.0,
      "step": 15201
    },
    {
      "entropy": 1.782798061768214,
      "epoch": 1.6700173024635412,
      "grad_norm": 0.7003825306892395,
      "learning_rate": 3.255743509622854e-06,
      "loss": 1.4342,
      "mean_token_accuracy": 0.6429455975691477,
      "num_tokens": 2550777852.0,
      "step": 15202
    },
    {
      "entropy": 1.7199705839157104,
      "epoch": 1.670127159374914,
      "grad_norm": 0.6969501376152039,
      "learning_rate": 3.2549278632280428e-06,
      "loss": 1.3403,
      "mean_token_accuracy": 0.650229757030805,
      "num_tokens": 2550953345.0,
      "step": 15203
    },
    {
      "entropy": 1.7010493278503418,
      "epoch": 1.6702370162862872,
      "grad_norm": 0.8231012225151062,
      "learning_rate": 3.254112461961273e-06,
      "loss": 1.5104,
      "mean_token_accuracy": 0.6525203734636307,
      "num_tokens": 2551164319.0,
      "step": 15204
    },
    {
      "entropy": 1.7223340173562367,
      "epoch": 1.67034687319766,
      "grad_norm": 0.5782705545425415,
      "learning_rate": 3.2532973058483557e-06,
      "loss": 1.4939,
      "mean_token_accuracy": 0.6309877087672552,
      "num_tokens": 2551397512.0,
      "step": 15205
    },
    {
      "entropy": 1.6429968476295471,
      "epoch": 1.670456730109033,
      "grad_norm": 0.7078797817230225,
      "learning_rate": 3.2524823949150875e-06,
      "loss": 1.2195,
      "mean_token_accuracy": 0.6770479083061218,
      "num_tokens": 2551523040.0,
      "step": 15206
    },
    {
      "entropy": 1.646560360987981,
      "epoch": 1.670566587020406,
      "grad_norm": 0.6111953854560852,
      "learning_rate": 3.2516677291872577e-06,
      "loss": 1.4736,
      "mean_token_accuracy": 0.6481401324272156,
      "num_tokens": 2551756130.0,
      "step": 15207
    },
    {
      "entropy": 1.685501754283905,
      "epoch": 1.6706764439317787,
      "grad_norm": 0.6546112298965454,
      "learning_rate": 3.250853308690657e-06,
      "loss": 1.4007,
      "mean_token_accuracy": 0.6448431412378947,
      "num_tokens": 2551921706.0,
      "step": 15208
    },
    {
      "entropy": 1.6584607859452565,
      "epoch": 1.6707863008431518,
      "grad_norm": 0.6745330095291138,
      "learning_rate": 3.250039133451054e-06,
      "loss": 1.3448,
      "mean_token_accuracy": 0.6620303889115652,
      "num_tokens": 2552094248.0,
      "step": 15209
    },
    {
      "entropy": 1.7307999233404796,
      "epoch": 1.6708961577545247,
      "grad_norm": 0.7921266555786133,
      "learning_rate": 3.249225203494221e-06,
      "loss": 1.3666,
      "mean_token_accuracy": 0.6684642732143402,
      "num_tokens": 2552225219.0,
      "step": 15210
    },
    {
      "entropy": 1.610274225473404,
      "epoch": 1.6710060146658976,
      "grad_norm": 0.6567273736000061,
      "learning_rate": 3.2484115188459197e-06,
      "loss": 1.3422,
      "mean_token_accuracy": 0.6564729809761047,
      "num_tokens": 2552450742.0,
      "step": 15211
    },
    {
      "entropy": 1.6868870158990223,
      "epoch": 1.6711158715772707,
      "grad_norm": 0.665790319442749,
      "learning_rate": 3.2475980795318977e-06,
      "loss": 1.2995,
      "mean_token_accuracy": 0.6727713098128637,
      "num_tokens": 2552570748.0,
      "step": 15212
    },
    {
      "entropy": 1.724908987681071,
      "epoch": 1.6712257284886436,
      "grad_norm": 0.8795796632766724,
      "learning_rate": 3.246784885577903e-06,
      "loss": 1.3513,
      "mean_token_accuracy": 0.6731296479701996,
      "num_tokens": 2552718100.0,
      "step": 15213
    },
    {
      "entropy": 1.6999436517556508,
      "epoch": 1.6713355854000165,
      "grad_norm": 0.6800674200057983,
      "learning_rate": 3.2459719370096783e-06,
      "loss": 1.4395,
      "mean_token_accuracy": 0.6620732347170512,
      "num_tokens": 2552898022.0,
      "step": 15214
    },
    {
      "entropy": 1.709017237027486,
      "epoch": 1.6714454423113894,
      "grad_norm": 0.76900714635849,
      "learning_rate": 3.2451592338529424e-06,
      "loss": 1.3666,
      "mean_token_accuracy": 0.6669487059116364,
      "num_tokens": 2553055703.0,
      "step": 15215
    },
    {
      "entropy": 1.704631100098292,
      "epoch": 1.6715552992227622,
      "grad_norm": 0.6997295618057251,
      "learning_rate": 3.2443467761334236e-06,
      "loss": 1.2892,
      "mean_token_accuracy": 0.6640374610821406,
      "num_tokens": 2553189498.0,
      "step": 15216
    },
    {
      "entropy": 1.7368600467840831,
      "epoch": 1.6716651561341354,
      "grad_norm": 0.6645811200141907,
      "learning_rate": 3.243534563876835e-06,
      "loss": 1.5858,
      "mean_token_accuracy": 0.633993665377299,
      "num_tokens": 2553385158.0,
      "step": 15217
    },
    {
      "entropy": 1.721531867980957,
      "epoch": 1.6717750130455082,
      "grad_norm": 0.6490238904953003,
      "learning_rate": 3.242722597108883e-06,
      "loss": 1.4305,
      "mean_token_accuracy": 0.6537267516056696,
      "num_tokens": 2553552812.0,
      "step": 15218
    },
    {
      "entropy": 1.7109013696511586,
      "epoch": 1.6718848699568811,
      "grad_norm": 0.717147171497345,
      "learning_rate": 3.241910875855263e-06,
      "loss": 1.508,
      "mean_token_accuracy": 0.6526562124490738,
      "num_tokens": 2553756616.0,
      "step": 15219
    },
    {
      "entropy": 1.7662996451059978,
      "epoch": 1.6719947268682542,
      "grad_norm": 0.7439054250717163,
      "learning_rate": 3.2410994001416706e-06,
      "loss": 1.5202,
      "mean_token_accuracy": 0.6419854611158371,
      "num_tokens": 2553904412.0,
      "step": 15220
    },
    {
      "entropy": 1.7582280735174816,
      "epoch": 1.672104583779627,
      "grad_norm": 0.6127282381057739,
      "learning_rate": 3.240288169993784e-06,
      "loss": 1.3346,
      "mean_token_accuracy": 0.6562148282925288,
      "num_tokens": 2554077430.0,
      "step": 15221
    },
    {
      "entropy": 1.7364347378412883,
      "epoch": 1.672214440691,
      "grad_norm": 0.6855073571205139,
      "learning_rate": 3.239477185437281e-06,
      "loss": 1.3535,
      "mean_token_accuracy": 0.6602631757656733,
      "num_tokens": 2554224197.0,
      "step": 15222
    },
    {
      "entropy": 1.7275860210259755,
      "epoch": 1.6723242976023729,
      "grad_norm": 0.643002986907959,
      "learning_rate": 3.238666446497829e-06,
      "loss": 1.4968,
      "mean_token_accuracy": 0.6405756970246633,
      "num_tokens": 2554382135.0,
      "step": 15223
    },
    {
      "entropy": 1.766138106584549,
      "epoch": 1.6724341545137458,
      "grad_norm": 0.7326632738113403,
      "learning_rate": 3.2378559532010858e-06,
      "loss": 1.3671,
      "mean_token_accuracy": 0.666873628894488,
      "num_tokens": 2554520361.0,
      "step": 15224
    },
    {
      "entropy": 1.687092532714208,
      "epoch": 1.6725440114251189,
      "grad_norm": 0.6920173168182373,
      "learning_rate": 3.2370457055727046e-06,
      "loss": 1.4491,
      "mean_token_accuracy": 0.6508265684048334,
      "num_tokens": 2554726838.0,
      "step": 15225
    },
    {
      "entropy": 1.7336925466855366,
      "epoch": 1.6726538683364918,
      "grad_norm": 0.6075726747512817,
      "learning_rate": 3.2362357036383283e-06,
      "loss": 1.4406,
      "mean_token_accuracy": 0.64825872083505,
      "num_tokens": 2554943464.0,
      "step": 15226
    },
    {
      "entropy": 1.7321422894795735,
      "epoch": 1.6727637252478647,
      "grad_norm": 0.658340334892273,
      "learning_rate": 3.235425947423592e-06,
      "loss": 1.3172,
      "mean_token_accuracy": 0.6706226418415705,
      "num_tokens": 2555094800.0,
      "step": 15227
    },
    {
      "entropy": 1.6634202202161152,
      "epoch": 1.6728735821592375,
      "grad_norm": 0.6695008277893066,
      "learning_rate": 3.234616436954128e-06,
      "loss": 1.509,
      "mean_token_accuracy": 0.6520940413077673,
      "num_tokens": 2555259787.0,
      "step": 15228
    },
    {
      "entropy": 1.6890574097633362,
      "epoch": 1.6729834390706104,
      "grad_norm": 0.5829101204872131,
      "learning_rate": 3.233807172255552e-06,
      "loss": 1.3955,
      "mean_token_accuracy": 0.6553893884023031,
      "num_tokens": 2555477181.0,
      "step": 15229
    },
    {
      "entropy": 1.6599874198436737,
      "epoch": 1.6730932959819835,
      "grad_norm": 0.6483899354934692,
      "learning_rate": 3.2329981533534814e-06,
      "loss": 1.4103,
      "mean_token_accuracy": 0.6571273605028788,
      "num_tokens": 2555666070.0,
      "step": 15230
    },
    {
      "entropy": 1.7212112446626027,
      "epoch": 1.6732031528933564,
      "grad_norm": 0.9130486249923706,
      "learning_rate": 3.23218938027352e-06,
      "loss": 1.3511,
      "mean_token_accuracy": 0.6648656080166498,
      "num_tokens": 2555817850.0,
      "step": 15231
    },
    {
      "entropy": 1.703871637582779,
      "epoch": 1.6733130098047293,
      "grad_norm": 0.6791821122169495,
      "learning_rate": 3.2313808530412628e-06,
      "loss": 1.2272,
      "mean_token_accuracy": 0.6739940742651621,
      "num_tokens": 2555973386.0,
      "step": 15232
    },
    {
      "entropy": 1.6598846117655437,
      "epoch": 1.6734228667161024,
      "grad_norm": 0.6614598035812378,
      "learning_rate": 3.2305725716823005e-06,
      "loss": 1.385,
      "mean_token_accuracy": 0.6631904939810435,
      "num_tokens": 2556157643.0,
      "step": 15233
    },
    {
      "entropy": 1.6710762580235798,
      "epoch": 1.673532723627475,
      "grad_norm": 0.6756139993667603,
      "learning_rate": 3.2297645362222175e-06,
      "loss": 1.3222,
      "mean_token_accuracy": 0.6683625727891922,
      "num_tokens": 2556365206.0,
      "step": 15234
    },
    {
      "entropy": 1.6408987541993458,
      "epoch": 1.6736425805388482,
      "grad_norm": 0.5655611753463745,
      "learning_rate": 3.2289567466865858e-06,
      "loss": 1.3738,
      "mean_token_accuracy": 0.6523148367802302,
      "num_tokens": 2556553810.0,
      "step": 15235
    },
    {
      "entropy": 1.6711041033267975,
      "epoch": 1.673752437450221,
      "grad_norm": 0.6098411679267883,
      "learning_rate": 3.228149203100968e-06,
      "loss": 1.3861,
      "mean_token_accuracy": 0.653891901175181,
      "num_tokens": 2556744619.0,
      "step": 15236
    },
    {
      "entropy": 1.6401523053646088,
      "epoch": 1.673862294361594,
      "grad_norm": 0.7218595743179321,
      "learning_rate": 3.2273419054909283e-06,
      "loss": 1.3142,
      "mean_token_accuracy": 0.6689208696285883,
      "num_tokens": 2556943085.0,
      "step": 15237
    },
    {
      "entropy": 1.7597449918588002,
      "epoch": 1.673972151272967,
      "grad_norm": 0.8478575944900513,
      "learning_rate": 3.226534853882015e-06,
      "loss": 1.5462,
      "mean_token_accuracy": 0.6484808673461279,
      "num_tokens": 2557088817.0,
      "step": 15238
    },
    {
      "entropy": 1.6971666316191356,
      "epoch": 1.67408200818434,
      "grad_norm": 0.6962342262268066,
      "learning_rate": 3.225728048299769e-06,
      "loss": 1.4707,
      "mean_token_accuracy": 0.6557254840930303,
      "num_tokens": 2557283065.0,
      "step": 15239
    },
    {
      "entropy": 1.6427591145038605,
      "epoch": 1.6741918650957128,
      "grad_norm": 0.6922114491462708,
      "learning_rate": 3.22492148876973e-06,
      "loss": 1.2838,
      "mean_token_accuracy": 0.680359830458959,
      "num_tokens": 2557411768.0,
      "step": 15240
    },
    {
      "entropy": 1.712716003259023,
      "epoch": 1.674301722007086,
      "grad_norm": 0.6969720125198364,
      "learning_rate": 3.22411517531742e-06,
      "loss": 1.2368,
      "mean_token_accuracy": 0.6725062231222788,
      "num_tokens": 2557545725.0,
      "step": 15241
    },
    {
      "entropy": 1.71072651942571,
      "epoch": 1.6744115789184586,
      "grad_norm": 0.5817194581031799,
      "learning_rate": 3.2233091079683613e-06,
      "loss": 1.3838,
      "mean_token_accuracy": 0.6509876201550165,
      "num_tokens": 2557714503.0,
      "step": 15242
    },
    {
      "entropy": 1.7713170647621155,
      "epoch": 1.6745214358298317,
      "grad_norm": 0.6657090783119202,
      "learning_rate": 3.2225032867480664e-06,
      "loss": 1.3812,
      "mean_token_accuracy": 0.6571053812901179,
      "num_tokens": 2557874292.0,
      "step": 15243
    },
    {
      "entropy": 1.6696379979451497,
      "epoch": 1.6746312927412046,
      "grad_norm": 0.6969082355499268,
      "learning_rate": 3.2216977116820354e-06,
      "loss": 1.2049,
      "mean_token_accuracy": 0.6869342774152756,
      "num_tokens": 2558040611.0,
      "step": 15244
    },
    {
      "entropy": 1.718798081080119,
      "epoch": 1.6747411496525775,
      "grad_norm": 0.7062221765518188,
      "learning_rate": 3.2208923827957668e-06,
      "loss": 1.3801,
      "mean_token_accuracy": 0.6560978144407272,
      "num_tokens": 2558170281.0,
      "step": 15245
    },
    {
      "entropy": 1.709840973218282,
      "epoch": 1.6748510065639506,
      "grad_norm": 0.836525022983551,
      "learning_rate": 3.2200873001147513e-06,
      "loss": 1.6282,
      "mean_token_accuracy": 0.6493220552802086,
      "num_tokens": 2558354120.0,
      "step": 15246
    },
    {
      "entropy": 1.7364205320676167,
      "epoch": 1.6749608634753232,
      "grad_norm": 0.6105183362960815,
      "learning_rate": 3.219282463664467e-06,
      "loss": 1.5489,
      "mean_token_accuracy": 0.6435059358676275,
      "num_tokens": 2558563661.0,
      "step": 15247
    },
    {
      "entropy": 1.7640726168950398,
      "epoch": 1.6750707203866964,
      "grad_norm": 0.736595869064331,
      "learning_rate": 3.2184778734703848e-06,
      "loss": 1.2694,
      "mean_token_accuracy": 0.667763814330101,
      "num_tokens": 2558661391.0,
      "step": 15248
    },
    {
      "entropy": 1.6720350682735443,
      "epoch": 1.6751805772980692,
      "grad_norm": 0.6239567399024963,
      "learning_rate": 3.217673529557973e-06,
      "loss": 1.3413,
      "mean_token_accuracy": 0.6550045510133108,
      "num_tokens": 2558840998.0,
      "step": 15249
    },
    {
      "entropy": 1.6599902311960857,
      "epoch": 1.6752904342094421,
      "grad_norm": 0.6722832918167114,
      "learning_rate": 3.216869431952688e-06,
      "loss": 1.2589,
      "mean_token_accuracy": 0.6672548999389013,
      "num_tokens": 2558963126.0,
      "step": 15250
    },
    {
      "entropy": 1.6761441230773926,
      "epoch": 1.6754002911208152,
      "grad_norm": 0.8985497355461121,
      "learning_rate": 3.2160655806799744e-06,
      "loss": 1.259,
      "mean_token_accuracy": 0.675809289018313,
      "num_tokens": 2559119390.0,
      "step": 15251
    },
    {
      "entropy": 1.717965970436732,
      "epoch": 1.6755101480321881,
      "grad_norm": 0.6145942211151123,
      "learning_rate": 3.2152619757652813e-06,
      "loss": 1.4449,
      "mean_token_accuracy": 0.6425779561201731,
      "num_tokens": 2559316872.0,
      "step": 15252
    },
    {
      "entropy": 1.6946504712104797,
      "epoch": 1.675620004943561,
      "grad_norm": 0.6808292865753174,
      "learning_rate": 3.2144586172340365e-06,
      "loss": 1.3685,
      "mean_token_accuracy": 0.6554179340600967,
      "num_tokens": 2559459695.0,
      "step": 15253
    },
    {
      "entropy": 1.6927851835886638,
      "epoch": 1.675729861854934,
      "grad_norm": 0.7276740074157715,
      "learning_rate": 3.2136555051116704e-06,
      "loss": 1.418,
      "mean_token_accuracy": 0.679698646068573,
      "num_tokens": 2559642979.0,
      "step": 15254
    },
    {
      "entropy": 1.6810623904069264,
      "epoch": 1.6758397187663068,
      "grad_norm": 0.6984881162643433,
      "learning_rate": 3.2128526394235982e-06,
      "loss": 1.2343,
      "mean_token_accuracy": 0.6779455641905466,
      "num_tokens": 2559759977.0,
      "step": 15255
    },
    {
      "entropy": 1.6839697062969208,
      "epoch": 1.6759495756776799,
      "grad_norm": 0.7221273183822632,
      "learning_rate": 3.2120500201952298e-06,
      "loss": 1.339,
      "mean_token_accuracy": 0.6567999372879664,
      "num_tokens": 2559902932.0,
      "step": 15256
    },
    {
      "entropy": 1.6946297883987427,
      "epoch": 1.6760594325890528,
      "grad_norm": 0.778820812702179,
      "learning_rate": 3.2112476474519683e-06,
      "loss": 1.3138,
      "mean_token_accuracy": 0.6709027737379074,
      "num_tokens": 2560025897.0,
      "step": 15257
    },
    {
      "entropy": 1.750508725643158,
      "epoch": 1.6761692895004257,
      "grad_norm": 0.7278999090194702,
      "learning_rate": 3.2104455212192113e-06,
      "loss": 1.3121,
      "mean_token_accuracy": 0.6603905359903971,
      "num_tokens": 2560135481.0,
      "step": 15258
    },
    {
      "entropy": 1.7683274547259014,
      "epoch": 1.6762791464117988,
      "grad_norm": 0.8146536350250244,
      "learning_rate": 3.209643641522343e-06,
      "loss": 1.4074,
      "mean_token_accuracy": 0.6663754433393478,
      "num_tokens": 2560275025.0,
      "step": 15259
    },
    {
      "entropy": 1.74715722600619,
      "epoch": 1.6763890033231714,
      "grad_norm": 0.7501146197319031,
      "learning_rate": 3.208842008386742e-06,
      "loss": 1.4665,
      "mean_token_accuracy": 0.6487719466288885,
      "num_tokens": 2560474451.0,
      "step": 15260
    },
    {
      "entropy": 1.6942894756793976,
      "epoch": 1.6764988602345445,
      "grad_norm": 0.5945084691047668,
      "learning_rate": 3.2080406218377824e-06,
      "loss": 1.3198,
      "mean_token_accuracy": 0.6598286330699921,
      "num_tokens": 2560668942.0,
      "step": 15261
    },
    {
      "entropy": 1.6762113670508068,
      "epoch": 1.6766087171459174,
      "grad_norm": 0.7053788304328918,
      "learning_rate": 3.2072394819008263e-06,
      "loss": 1.2167,
      "mean_token_accuracy": 0.6785010149081548,
      "num_tokens": 2560840956.0,
      "step": 15262
    },
    {
      "entropy": 1.7425096035003662,
      "epoch": 1.6767185740572903,
      "grad_norm": 0.7079997062683105,
      "learning_rate": 3.2064385886012254e-06,
      "loss": 1.4733,
      "mean_token_accuracy": 0.6649157653252283,
      "num_tokens": 2560988485.0,
      "step": 15263
    },
    {
      "entropy": 1.6938765247662861,
      "epoch": 1.6768284309686634,
      "grad_norm": 0.6834542751312256,
      "learning_rate": 3.2056379419643353e-06,
      "loss": 1.4556,
      "mean_token_accuracy": 0.6481647590796152,
      "num_tokens": 2561196564.0,
      "step": 15264
    },
    {
      "entropy": 1.642237663269043,
      "epoch": 1.6769382878800363,
      "grad_norm": 0.6120626330375671,
      "learning_rate": 3.2048375420154887e-06,
      "loss": 1.2315,
      "mean_token_accuracy": 0.6777461071809133,
      "num_tokens": 2561331437.0,
      "step": 15265
    },
    {
      "entropy": 1.7010113994280498,
      "epoch": 1.6770481447914092,
      "grad_norm": 0.7019853591918945,
      "learning_rate": 3.204037388780025e-06,
      "loss": 1.3454,
      "mean_token_accuracy": 0.6715318908294042,
      "num_tokens": 2561528048.0,
      "step": 15266
    },
    {
      "entropy": 1.6710281074047089,
      "epoch": 1.6771580017027823,
      "grad_norm": 0.819465696811676,
      "learning_rate": 3.2032374822832634e-06,
      "loss": 1.3401,
      "mean_token_accuracy": 0.6738651841878891,
      "num_tokens": 2561685491.0,
      "step": 15267
    },
    {
      "entropy": 1.800257682800293,
      "epoch": 1.677267858614155,
      "grad_norm": 0.5872465372085571,
      "learning_rate": 3.2024378225505204e-06,
      "loss": 1.4982,
      "mean_token_accuracy": 0.6357658604780833,
      "num_tokens": 2561911809.0,
      "step": 15268
    },
    {
      "entropy": 1.712759256362915,
      "epoch": 1.677377715525528,
      "grad_norm": 0.7056664824485779,
      "learning_rate": 3.201638409607106e-06,
      "loss": 1.4008,
      "mean_token_accuracy": 0.6417889843384424,
      "num_tokens": 2562124310.0,
      "step": 15269
    },
    {
      "entropy": 1.6932222247123718,
      "epoch": 1.677487572436901,
      "grad_norm": 0.6303336024284363,
      "learning_rate": 3.2008392434783264e-06,
      "loss": 1.4301,
      "mean_token_accuracy": 0.6475923210382462,
      "num_tokens": 2562279988.0,
      "step": 15270
    },
    {
      "entropy": 1.6386590401331584,
      "epoch": 1.6775974293482738,
      "grad_norm": 0.657673716545105,
      "learning_rate": 3.2000403241894686e-06,
      "loss": 1.3441,
      "mean_token_accuracy": 0.6659832795461019,
      "num_tokens": 2562444547.0,
      "step": 15271
    },
    {
      "entropy": 1.6764297584692638,
      "epoch": 1.677707286259647,
      "grad_norm": 0.7012315988540649,
      "learning_rate": 3.1992416517658175e-06,
      "loss": 1.3601,
      "mean_token_accuracy": 0.6649115979671478,
      "num_tokens": 2562607824.0,
      "step": 15272
    },
    {
      "entropy": 1.7825362384319305,
      "epoch": 1.6778171431710196,
      "grad_norm": 0.7959426641464233,
      "learning_rate": 3.198443226232656e-06,
      "loss": 1.3882,
      "mean_token_accuracy": 0.6545184900363287,
      "num_tokens": 2562779514.0,
      "step": 15273
    },
    {
      "entropy": 1.7837129334608715,
      "epoch": 1.6779270000823927,
      "grad_norm": 0.8002263307571411,
      "learning_rate": 3.1976450476152506e-06,
      "loss": 1.4926,
      "mean_token_accuracy": 0.6270763973395029,
      "num_tokens": 2562968133.0,
      "step": 15274
    },
    {
      "entropy": 1.6454266607761383,
      "epoch": 1.6780368569937656,
      "grad_norm": 0.6544117331504822,
      "learning_rate": 3.19684711593886e-06,
      "loss": 1.2687,
      "mean_token_accuracy": 0.6670517573753992,
      "num_tokens": 2563129301.0,
      "step": 15275
    },
    {
      "entropy": 1.7555846671263378,
      "epoch": 1.6781467139051385,
      "grad_norm": 0.6647533774375916,
      "learning_rate": 3.196049431228746e-06,
      "loss": 1.5171,
      "mean_token_accuracy": 0.6388434370358785,
      "num_tokens": 2563328620.0,
      "step": 15276
    },
    {
      "entropy": 1.6958951950073242,
      "epoch": 1.6782565708165116,
      "grad_norm": 0.7346828579902649,
      "learning_rate": 3.195251993510149e-06,
      "loss": 1.286,
      "mean_token_accuracy": 0.6770187467336655,
      "num_tokens": 2563453949.0,
      "step": 15277
    },
    {
      "entropy": 1.7482584714889526,
      "epoch": 1.6783664277278845,
      "grad_norm": 0.7439913153648376,
      "learning_rate": 3.194454802808311e-06,
      "loss": 1.4923,
      "mean_token_accuracy": 0.6445967058340708,
      "num_tokens": 2563620845.0,
      "step": 15278
    },
    {
      "entropy": 1.7300353248914082,
      "epoch": 1.6784762846392574,
      "grad_norm": 0.6056285500526428,
      "learning_rate": 3.193657859148461e-06,
      "loss": 1.5211,
      "mean_token_accuracy": 0.6319058835506439,
      "num_tokens": 2563832970.0,
      "step": 15279
    },
    {
      "entropy": 1.7123978634675343,
      "epoch": 1.6785861415506305,
      "grad_norm": 0.6761077642440796,
      "learning_rate": 3.19286116255582e-06,
      "loss": 1.4335,
      "mean_token_accuracy": 0.6501255333423615,
      "num_tokens": 2563991103.0,
      "step": 15280
    },
    {
      "entropy": 1.7233157257239025,
      "epoch": 1.6786959984620031,
      "grad_norm": 0.6616033911705017,
      "learning_rate": 3.192064713055606e-06,
      "loss": 1.3993,
      "mean_token_accuracy": 0.6481630504131317,
      "num_tokens": 2564169608.0,
      "step": 15281
    },
    {
      "entropy": 1.7163086732228596,
      "epoch": 1.6788058553733762,
      "grad_norm": 0.7168435454368591,
      "learning_rate": 3.191268510673027e-06,
      "loss": 1.3552,
      "mean_token_accuracy": 0.6583843231201172,
      "num_tokens": 2564312562.0,
      "step": 15282
    },
    {
      "entropy": 1.7421314418315887,
      "epoch": 1.6789157122847491,
      "grad_norm": 1.4026530981063843,
      "learning_rate": 3.1904725554332805e-06,
      "loss": 1.2168,
      "mean_token_accuracy": 0.674383873740832,
      "num_tokens": 2564501041.0,
      "step": 15283
    },
    {
      "entropy": 1.7259081999460857,
      "epoch": 1.679025569196122,
      "grad_norm": 0.7258220314979553,
      "learning_rate": 3.189676847361559e-06,
      "loss": 1.3833,
      "mean_token_accuracy": 0.6572358012199402,
      "num_tokens": 2564696992.0,
      "step": 15284
    },
    {
      "entropy": 1.7746508121490479,
      "epoch": 1.679135426107495,
      "grad_norm": 0.7986940145492554,
      "learning_rate": 3.1888813864830435e-06,
      "loss": 1.3888,
      "mean_token_accuracy": 0.6498429874579111,
      "num_tokens": 2564836244.0,
      "step": 15285
    },
    {
      "entropy": 1.699170559644699,
      "epoch": 1.6792452830188678,
      "grad_norm": 0.7032765746116638,
      "learning_rate": 3.1880861728229152e-06,
      "loss": 1.2493,
      "mean_token_accuracy": 0.6778079668680826,
      "num_tokens": 2564971115.0,
      "step": 15286
    },
    {
      "entropy": 1.6739700535933177,
      "epoch": 1.6793551399302409,
      "grad_norm": 0.7897632122039795,
      "learning_rate": 3.1872912064063387e-06,
      "loss": 1.461,
      "mean_token_accuracy": 0.6509335339069366,
      "num_tokens": 2565134895.0,
      "step": 15287
    },
    {
      "entropy": 1.6778443853060405,
      "epoch": 1.6794649968416138,
      "grad_norm": 0.6658824682235718,
      "learning_rate": 3.186496487258474e-06,
      "loss": 1.3738,
      "mean_token_accuracy": 0.6780295670032501,
      "num_tokens": 2565302480.0,
      "step": 15288
    },
    {
      "entropy": 1.7276048461596172,
      "epoch": 1.6795748537529867,
      "grad_norm": 0.6688079237937927,
      "learning_rate": 3.185702015404474e-06,
      "loss": 1.3869,
      "mean_token_accuracy": 0.6666077673435211,
      "num_tokens": 2565448467.0,
      "step": 15289
    },
    {
      "entropy": 1.7064704895019531,
      "epoch": 1.6796847106643598,
      "grad_norm": 0.674453854560852,
      "learning_rate": 3.184907790869486e-06,
      "loss": 1.2915,
      "mean_token_accuracy": 0.6831353803475698,
      "num_tokens": 2565628460.0,
      "step": 15290
    },
    {
      "entropy": 1.7536171277364094,
      "epoch": 1.6797945675757326,
      "grad_norm": 0.7042247653007507,
      "learning_rate": 3.184113813678644e-06,
      "loss": 1.5146,
      "mean_token_accuracy": 0.662187417348226,
      "num_tokens": 2565782360.0,
      "step": 15291
    },
    {
      "entropy": 1.7017661929130554,
      "epoch": 1.6799044244871055,
      "grad_norm": 0.6648768186569214,
      "learning_rate": 3.183320083857076e-06,
      "loss": 1.3611,
      "mean_token_accuracy": 0.6698134889205297,
      "num_tokens": 2565974485.0,
      "step": 15292
    },
    {
      "entropy": 1.6317310432593028,
      "epoch": 1.6800142813984786,
      "grad_norm": 0.6019257307052612,
      "learning_rate": 3.1825266014299085e-06,
      "loss": 1.3964,
      "mean_token_accuracy": 0.6603737771511078,
      "num_tokens": 2566150672.0,
      "step": 15293
    },
    {
      "entropy": 1.6843983232975006,
      "epoch": 1.6801241383098513,
      "grad_norm": 0.751380205154419,
      "learning_rate": 3.1817333664222507e-06,
      "loss": 1.42,
      "mean_token_accuracy": 0.651827389995257,
      "num_tokens": 2566345461.0,
      "step": 15294
    },
    {
      "entropy": 1.7201267182826996,
      "epoch": 1.6802339952212244,
      "grad_norm": 0.7158882021903992,
      "learning_rate": 3.1809403788592066e-06,
      "loss": 1.3936,
      "mean_token_accuracy": 0.6722188790639242,
      "num_tokens": 2566536727.0,
      "step": 15295
    },
    {
      "entropy": 1.7150601148605347,
      "epoch": 1.6803438521325973,
      "grad_norm": 0.6860437989234924,
      "learning_rate": 3.180147638765878e-06,
      "loss": 1.5585,
      "mean_token_accuracy": 0.6306335628032684,
      "num_tokens": 2566726509.0,
      "step": 15296
    },
    {
      "entropy": 1.7363272806008656,
      "epoch": 1.6804537090439702,
      "grad_norm": 0.7342987656593323,
      "learning_rate": 3.179355146167351e-06,
      "loss": 1.1886,
      "mean_token_accuracy": 0.6802386889855067,
      "num_tokens": 2566841914.0,
      "step": 15297
    },
    {
      "entropy": 1.703192909558614,
      "epoch": 1.6805635659553433,
      "grad_norm": 0.6351720690727234,
      "learning_rate": 3.178562901088712e-06,
      "loss": 1.2872,
      "mean_token_accuracy": 0.674397294720014,
      "num_tokens": 2566981790.0,
      "step": 15298
    },
    {
      "entropy": 1.6544977327187855,
      "epoch": 1.680673422866716,
      "grad_norm": 0.7234415411949158,
      "learning_rate": 3.1777709035550318e-06,
      "loss": 1.3261,
      "mean_token_accuracy": 0.6573912451664606,
      "num_tokens": 2567177661.0,
      "step": 15299
    },
    {
      "entropy": 1.6995947659015656,
      "epoch": 1.680783279778089,
      "grad_norm": 0.7154074907302856,
      "learning_rate": 3.1769791535913767e-06,
      "loss": 1.4392,
      "mean_token_accuracy": 0.6578214665253957,
      "num_tokens": 2567339837.0,
      "step": 15300
    },
    {
      "entropy": 1.6951833069324493,
      "epoch": 1.680893136689462,
      "grad_norm": 0.6429846286773682,
      "learning_rate": 3.176187651222806e-06,
      "loss": 1.5831,
      "mean_token_accuracy": 0.6406177133321762,
      "num_tokens": 2567544062.0,
      "step": 15301
    },
    {
      "entropy": 1.7316114902496338,
      "epoch": 1.6810029936008348,
      "grad_norm": 0.7316505312919617,
      "learning_rate": 3.175396396474373e-06,
      "loss": 1.4443,
      "mean_token_accuracy": 0.6586751093467077,
      "num_tokens": 2567720570.0,
      "step": 15302
    },
    {
      "entropy": 1.724622756242752,
      "epoch": 1.681112850512208,
      "grad_norm": 0.6855919361114502,
      "learning_rate": 3.174605389371118e-06,
      "loss": 1.3854,
      "mean_token_accuracy": 0.6606116443872452,
      "num_tokens": 2567892992.0,
      "step": 15303
    },
    {
      "entropy": 1.7502660353978474,
      "epoch": 1.6812227074235808,
      "grad_norm": 0.6851439476013184,
      "learning_rate": 3.1738146299380746e-06,
      "loss": 1.4903,
      "mean_token_accuracy": 0.6492257912953695,
      "num_tokens": 2568070857.0,
      "step": 15304
    },
    {
      "entropy": 1.74208668867747,
      "epoch": 1.6813325643349537,
      "grad_norm": 0.7176704406738281,
      "learning_rate": 3.173024118200273e-06,
      "loss": 1.5042,
      "mean_token_accuracy": 0.6514915178219477,
      "num_tokens": 2568241367.0,
      "step": 15305
    },
    {
      "entropy": 1.765565186738968,
      "epoch": 1.6814424212463268,
      "grad_norm": 0.6486221551895142,
      "learning_rate": 3.1722338541827313e-06,
      "loss": 1.4233,
      "mean_token_accuracy": 0.6390677789847056,
      "num_tokens": 2568434347.0,
      "step": 15306
    },
    {
      "entropy": 1.74800306558609,
      "epoch": 1.6815522781576995,
      "grad_norm": 0.6911203861236572,
      "learning_rate": 3.1714438379104583e-06,
      "loss": 1.5126,
      "mean_token_accuracy": 0.6483513911565145,
      "num_tokens": 2568568047.0,
      "step": 15307
    },
    {
      "entropy": 1.6643619934717815,
      "epoch": 1.6816621350690726,
      "grad_norm": 0.7120999693870544,
      "learning_rate": 3.170654069408463e-06,
      "loss": 1.2547,
      "mean_token_accuracy": 0.6775770286719004,
      "num_tokens": 2568718128.0,
      "step": 15308
    },
    {
      "entropy": 1.7326288719971974,
      "epoch": 1.6817719919804455,
      "grad_norm": 0.789517343044281,
      "learning_rate": 3.169864548701736e-06,
      "loss": 1.4496,
      "mean_token_accuracy": 0.6548430124918619,
      "num_tokens": 2568891251.0,
      "step": 15309
    },
    {
      "entropy": 1.7174657980600994,
      "epoch": 1.6818818488918184,
      "grad_norm": 0.6772891283035278,
      "learning_rate": 3.1690752758152697e-06,
      "loss": 1.4284,
      "mean_token_accuracy": 0.6426176180442175,
      "num_tokens": 2569037403.0,
      "step": 15310
    },
    {
      "entropy": 1.6879849930604298,
      "epoch": 1.6819917058031915,
      "grad_norm": 0.6050668358802795,
      "learning_rate": 3.1682862507740425e-06,
      "loss": 1.4879,
      "mean_token_accuracy": 0.6514971653620402,
      "num_tokens": 2569232119.0,
      "step": 15311
    },
    {
      "entropy": 1.7036270002524059,
      "epoch": 1.6821015627145641,
      "grad_norm": 0.6641897559165955,
      "learning_rate": 3.1674974736030233e-06,
      "loss": 1.3175,
      "mean_token_accuracy": 0.6694677621126175,
      "num_tokens": 2569363697.0,
      "step": 15312
    },
    {
      "entropy": 1.6906124949455261,
      "epoch": 1.6822114196259372,
      "grad_norm": 0.7731119990348816,
      "learning_rate": 3.166708944327181e-06,
      "loss": 1.3484,
      "mean_token_accuracy": 0.667941133181254,
      "num_tokens": 2569490915.0,
      "step": 15313
    },
    {
      "entropy": 1.7285043100516002,
      "epoch": 1.6823212765373101,
      "grad_norm": 0.747154176235199,
      "learning_rate": 3.165920662971472e-06,
      "loss": 1.3582,
      "mean_token_accuracy": 0.6714018086592356,
      "num_tokens": 2569599168.0,
      "step": 15314
    },
    {
      "entropy": 1.7480494777361553,
      "epoch": 1.682431133448683,
      "grad_norm": 0.7452878952026367,
      "learning_rate": 3.1651326295608447e-06,
      "loss": 1.2041,
      "mean_token_accuracy": 0.6810566087563833,
      "num_tokens": 2569700113.0,
      "step": 15315
    },
    {
      "entropy": 1.7515860497951508,
      "epoch": 1.682540990360056,
      "grad_norm": 0.7225151658058167,
      "learning_rate": 3.164344844120237e-06,
      "loss": 1.314,
      "mean_token_accuracy": 0.6686030477285385,
      "num_tokens": 2569822465.0,
      "step": 15316
    },
    {
      "entropy": 1.7134381830692291,
      "epoch": 1.682650847271429,
      "grad_norm": 0.6826877593994141,
      "learning_rate": 3.1635573066745855e-06,
      "loss": 1.4157,
      "mean_token_accuracy": 0.64534163971742,
      "num_tokens": 2570027829.0,
      "step": 15317
    },
    {
      "entropy": 1.705380419890086,
      "epoch": 1.6827607041828019,
      "grad_norm": 0.6510130167007446,
      "learning_rate": 3.1627700172488147e-06,
      "loss": 1.2904,
      "mean_token_accuracy": 0.6670472820599874,
      "num_tokens": 2570147721.0,
      "step": 15318
    },
    {
      "entropy": 1.683544745047887,
      "epoch": 1.682870561094175,
      "grad_norm": 0.5858747363090515,
      "learning_rate": 3.1619829758678388e-06,
      "loss": 1.493,
      "mean_token_accuracy": 0.6476639409859976,
      "num_tokens": 2570342162.0,
      "step": 15319
    },
    {
      "entropy": 1.6911889413992565,
      "epoch": 1.6829804180055477,
      "grad_norm": 0.8070988059043884,
      "learning_rate": 3.1611961825565725e-06,
      "loss": 1.2663,
      "mean_token_accuracy": 0.6720109234253565,
      "num_tokens": 2570525734.0,
      "step": 15320
    },
    {
      "entropy": 1.7007411917050679,
      "epoch": 1.6830902749169208,
      "grad_norm": 0.6247788071632385,
      "learning_rate": 3.160409637339913e-06,
      "loss": 1.417,
      "mean_token_accuracy": 0.6442168205976486,
      "num_tokens": 2570720758.0,
      "step": 15321
    },
    {
      "entropy": 1.7167495091756184,
      "epoch": 1.6832001318282936,
      "grad_norm": 0.5952068567276001,
      "learning_rate": 3.159623340242757e-06,
      "loss": 1.313,
      "mean_token_accuracy": 0.6723757932583491,
      "num_tokens": 2570871146.0,
      "step": 15322
    },
    {
      "entropy": 1.747285137573878,
      "epoch": 1.6833099887396665,
      "grad_norm": 0.7220256328582764,
      "learning_rate": 3.158837291289989e-06,
      "loss": 1.3158,
      "mean_token_accuracy": 0.6664845049381256,
      "num_tokens": 2571002515.0,
      "step": 15323
    },
    {
      "entropy": 1.7323359350363414,
      "epoch": 1.6834198456510396,
      "grad_norm": 0.841284453868866,
      "learning_rate": 3.158051490506486e-06,
      "loss": 1.4707,
      "mean_token_accuracy": 0.660729338725408,
      "num_tokens": 2571162161.0,
      "step": 15324
    },
    {
      "entropy": 1.725009063879649,
      "epoch": 1.6835297025624123,
      "grad_norm": 0.7810693383216858,
      "learning_rate": 3.15726593791712e-06,
      "loss": 1.4043,
      "mean_token_accuracy": 0.6503799458344778,
      "num_tokens": 2571297383.0,
      "step": 15325
    },
    {
      "entropy": 1.7619624336560566,
      "epoch": 1.6836395594737854,
      "grad_norm": 0.7505675554275513,
      "learning_rate": 3.1564806335467544e-06,
      "loss": 1.4133,
      "mean_token_accuracy": 0.6519313355286916,
      "num_tokens": 2571464771.0,
      "step": 15326
    },
    {
      "entropy": 1.7304276923338573,
      "epoch": 1.6837494163851583,
      "grad_norm": 0.6991888880729675,
      "learning_rate": 3.1556955774202436e-06,
      "loss": 1.2079,
      "mean_token_accuracy": 0.6864756196737289,
      "num_tokens": 2571579779.0,
      "step": 15327
    },
    {
      "entropy": 1.6945532461007435,
      "epoch": 1.6838592732965312,
      "grad_norm": 0.7731361985206604,
      "learning_rate": 3.154910769562429e-06,
      "loss": 1.3362,
      "mean_token_accuracy": 0.6732407162586848,
      "num_tokens": 2571731395.0,
      "step": 15328
    },
    {
      "entropy": 1.6676548918088276,
      "epoch": 1.6839691302079043,
      "grad_norm": 0.6803898215293884,
      "learning_rate": 3.1541262099981573e-06,
      "loss": 1.458,
      "mean_token_accuracy": 0.6517745653788248,
      "num_tokens": 2571903109.0,
      "step": 15329
    },
    {
      "entropy": 1.7044414083162944,
      "epoch": 1.6840789871192772,
      "grad_norm": 0.6813333630561829,
      "learning_rate": 3.1533418987522547e-06,
      "loss": 1.4173,
      "mean_token_accuracy": 0.6529068152109782,
      "num_tokens": 2572070768.0,
      "step": 15330
    },
    {
      "entropy": 1.690029243628184,
      "epoch": 1.68418884403065,
      "grad_norm": 0.6491711735725403,
      "learning_rate": 3.1525578358495433e-06,
      "loss": 1.2993,
      "mean_token_accuracy": 0.6696517119805018,
      "num_tokens": 2572198958.0,
      "step": 15331
    },
    {
      "entropy": 1.6722242434819539,
      "epoch": 1.6842987009420232,
      "grad_norm": 0.7356240749359131,
      "learning_rate": 3.151774021314842e-06,
      "loss": 1.319,
      "mean_token_accuracy": 0.6778273731470108,
      "num_tokens": 2572348869.0,
      "step": 15332
    },
    {
      "entropy": 1.7420857747395833,
      "epoch": 1.6844085578533958,
      "grad_norm": 0.7489916086196899,
      "learning_rate": 3.1509904551729554e-06,
      "loss": 1.4856,
      "mean_token_accuracy": 0.6390324880679449,
      "num_tokens": 2572512314.0,
      "step": 15333
    },
    {
      "entropy": 1.751690109570821,
      "epoch": 1.684518414764769,
      "grad_norm": 0.6961585879325867,
      "learning_rate": 3.150207137448686e-06,
      "loss": 1.2745,
      "mean_token_accuracy": 0.6709187477827072,
      "num_tokens": 2572666138.0,
      "step": 15334
    },
    {
      "entropy": 1.6826651493708293,
      "epoch": 1.6846282716761418,
      "grad_norm": 0.6414405703544617,
      "learning_rate": 3.149424068166822e-06,
      "loss": 1.2945,
      "mean_token_accuracy": 0.6786713004112244,
      "num_tokens": 2572843000.0,
      "step": 15335
    },
    {
      "entropy": 1.6688839693864186,
      "epoch": 1.6847381285875147,
      "grad_norm": 0.8924053907394409,
      "learning_rate": 3.1486412473521476e-06,
      "loss": 1.387,
      "mean_token_accuracy": 0.6693562765916189,
      "num_tokens": 2572979120.0,
      "step": 15336
    },
    {
      "entropy": 1.7230990827083588,
      "epoch": 1.6848479854988878,
      "grad_norm": 0.601993978023529,
      "learning_rate": 3.14785867502944e-06,
      "loss": 1.3809,
      "mean_token_accuracy": 0.6529526164134344,
      "num_tokens": 2573168637.0,
      "step": 15337
    },
    {
      "entropy": 1.7520112891991932,
      "epoch": 1.6849578424102605,
      "grad_norm": 0.5566615462303162,
      "learning_rate": 3.147076351223469e-06,
      "loss": 1.4751,
      "mean_token_accuracy": 0.631900375088056,
      "num_tokens": 2573388244.0,
      "step": 15338
    },
    {
      "entropy": 1.731001118818919,
      "epoch": 1.6850676993216336,
      "grad_norm": 0.7146487236022949,
      "learning_rate": 3.1462942759589933e-06,
      "loss": 1.2527,
      "mean_token_accuracy": 0.6749810228745142,
      "num_tokens": 2573519678.0,
      "step": 15339
    },
    {
      "entropy": 1.694351961215337,
      "epoch": 1.6851775562330065,
      "grad_norm": 0.6235674023628235,
      "learning_rate": 3.145512449260762e-06,
      "loss": 1.4673,
      "mean_token_accuracy": 0.6534475237131119,
      "num_tokens": 2573695861.0,
      "step": 15340
    },
    {
      "entropy": 1.7240705291430156,
      "epoch": 1.6852874131443794,
      "grad_norm": 1.222989797592163,
      "learning_rate": 3.144730871153525e-06,
      "loss": 1.5403,
      "mean_token_accuracy": 0.643691211938858,
      "num_tokens": 2573907238.0,
      "step": 15341
    },
    {
      "entropy": 1.7270687023798625,
      "epoch": 1.6853972700557525,
      "grad_norm": 0.6817310452461243,
      "learning_rate": 3.1439495416620157e-06,
      "loss": 1.4433,
      "mean_token_accuracy": 0.662896732489268,
      "num_tokens": 2574080197.0,
      "step": 15342
    },
    {
      "entropy": 1.6700053215026855,
      "epoch": 1.6855071269671253,
      "grad_norm": 0.6429228186607361,
      "learning_rate": 3.1431684608109614e-06,
      "loss": 1.5984,
      "mean_token_accuracy": 0.6422629406054815,
      "num_tokens": 2574260989.0,
      "step": 15343
    },
    {
      "entropy": 1.6401211122671764,
      "epoch": 1.6856169838784982,
      "grad_norm": 0.5946700572967529,
      "learning_rate": 3.1423876286250872e-06,
      "loss": 1.3121,
      "mean_token_accuracy": 0.6619760394096375,
      "num_tokens": 2574505321.0,
      "step": 15344
    },
    {
      "entropy": 1.6671649018923442,
      "epoch": 1.6857268407898713,
      "grad_norm": 0.8995504975318909,
      "learning_rate": 3.1416070451291024e-06,
      "loss": 1.3446,
      "mean_token_accuracy": 0.6812218924363455,
      "num_tokens": 2574649743.0,
      "step": 15345
    },
    {
      "entropy": 1.702040175596873,
      "epoch": 1.685836697701244,
      "grad_norm": 0.7074987292289734,
      "learning_rate": 3.140826710347715e-06,
      "loss": 1.3002,
      "mean_token_accuracy": 0.6756115506092707,
      "num_tokens": 2574848047.0,
      "step": 15346
    },
    {
      "entropy": 1.7741004427274067,
      "epoch": 1.685946554612617,
      "grad_norm": 0.6643980145454407,
      "learning_rate": 3.14004662430562e-06,
      "loss": 1.356,
      "mean_token_accuracy": 0.6614086826642355,
      "num_tokens": 2575008827.0,
      "step": 15347
    },
    {
      "entropy": 1.6915812889734905,
      "epoch": 1.68605641152399,
      "grad_norm": 0.6701132655143738,
      "learning_rate": 3.1392667870275066e-06,
      "loss": 1.4227,
      "mean_token_accuracy": 0.6473148117462794,
      "num_tokens": 2575176906.0,
      "step": 15348
    },
    {
      "entropy": 1.7173262635866802,
      "epoch": 1.6861662684353629,
      "grad_norm": 0.6805701851844788,
      "learning_rate": 3.1384871985380582e-06,
      "loss": 1.4934,
      "mean_token_accuracy": 0.6477487633625666,
      "num_tokens": 2575349117.0,
      "step": 15349
    },
    {
      "entropy": 1.7245887120564778,
      "epoch": 1.686276125346736,
      "grad_norm": 0.6441610455513,
      "learning_rate": 3.137707858861947e-06,
      "loss": 1.2899,
      "mean_token_accuracy": 0.6831858903169632,
      "num_tokens": 2575498227.0,
      "step": 15350
    },
    {
      "entropy": 1.722615083058675,
      "epoch": 1.6863859822581087,
      "grad_norm": 0.6894484758377075,
      "learning_rate": 3.1369287680238403e-06,
      "loss": 1.3521,
      "mean_token_accuracy": 0.6721992939710617,
      "num_tokens": 2575690922.0,
      "step": 15351
    },
    {
      "entropy": 1.7229991952578227,
      "epoch": 1.6864958391694818,
      "grad_norm": 0.6383141279220581,
      "learning_rate": 3.1361499260483948e-06,
      "loss": 1.4355,
      "mean_token_accuracy": 0.6438505450884501,
      "num_tokens": 2575897646.0,
      "step": 15352
    },
    {
      "entropy": 1.7160128851731618,
      "epoch": 1.6866056960808546,
      "grad_norm": 0.7071347236633301,
      "learning_rate": 3.13537133296026e-06,
      "loss": 1.3538,
      "mean_token_accuracy": 0.6632434278726578,
      "num_tokens": 2576026434.0,
      "step": 15353
    },
    {
      "entropy": 1.7085239390532176,
      "epoch": 1.6867155529922275,
      "grad_norm": 0.7150105237960815,
      "learning_rate": 3.1345929887840785e-06,
      "loss": 1.3223,
      "mean_token_accuracy": 0.6567959388097128,
      "num_tokens": 2576136070.0,
      "step": 15354
    },
    {
      "entropy": 1.7165654997030895,
      "epoch": 1.6868254099036006,
      "grad_norm": 0.7486876845359802,
      "learning_rate": 3.1338148935444856e-06,
      "loss": 1.3181,
      "mean_token_accuracy": 0.6667283674081167,
      "num_tokens": 2576242543.0,
      "step": 15355
    },
    {
      "entropy": 1.76658500234286,
      "epoch": 1.6869352668149735,
      "grad_norm": 0.7848101854324341,
      "learning_rate": 3.133037047266105e-06,
      "loss": 1.4248,
      "mean_token_accuracy": 0.6585915784041086,
      "num_tokens": 2576381772.0,
      "step": 15356
    },
    {
      "entropy": 1.7358842889467876,
      "epoch": 1.6870451237263464,
      "grad_norm": 0.6816839575767517,
      "learning_rate": 3.1322594499735566e-06,
      "loss": 1.3862,
      "mean_token_accuracy": 0.6490218391021093,
      "num_tokens": 2576531068.0,
      "step": 15357
    },
    {
      "entropy": 1.6990918318430583,
      "epoch": 1.6871549806377195,
      "grad_norm": 1.0314568281173706,
      "learning_rate": 3.1314821016914535e-06,
      "loss": 1.3518,
      "mean_token_accuracy": 0.6715274453163147,
      "num_tokens": 2576653983.0,
      "step": 15358
    },
    {
      "entropy": 1.6669905682404835,
      "epoch": 1.6872648375490922,
      "grad_norm": 0.590815007686615,
      "learning_rate": 3.1307050024443963e-06,
      "loss": 1.4015,
      "mean_token_accuracy": 0.6566647191842397,
      "num_tokens": 2576831940.0,
      "step": 15359
    },
    {
      "entropy": 1.673220157623291,
      "epoch": 1.6873746944604653,
      "grad_norm": 0.643791913986206,
      "learning_rate": 3.129928152256978e-06,
      "loss": 1.4797,
      "mean_token_accuracy": 0.6434496690829595,
      "num_tokens": 2577049426.0,
      "step": 15360
    },
    {
      "entropy": 1.6904392540454865,
      "epoch": 1.6874845513718382,
      "grad_norm": 0.5934916138648987,
      "learning_rate": 3.129151551153789e-06,
      "loss": 1.5356,
      "mean_token_accuracy": 0.632567952076594,
      "num_tokens": 2577254922.0,
      "step": 15361
    },
    {
      "entropy": 1.664735992749532,
      "epoch": 1.687594408283211,
      "grad_norm": 0.6659498810768127,
      "learning_rate": 3.1283751991594064e-06,
      "loss": 1.3438,
      "mean_token_accuracy": 0.6631951779127121,
      "num_tokens": 2577415164.0,
      "step": 15362
    },
    {
      "entropy": 1.719626933336258,
      "epoch": 1.6877042651945842,
      "grad_norm": 0.6992260813713074,
      "learning_rate": 3.1275990962984e-06,
      "loss": 1.4677,
      "mean_token_accuracy": 0.6572467486063639,
      "num_tokens": 2577570986.0,
      "step": 15363
    },
    {
      "entropy": 1.7156515419483185,
      "epoch": 1.6878141221059568,
      "grad_norm": 0.6852288842201233,
      "learning_rate": 3.1268232425953364e-06,
      "loss": 1.3626,
      "mean_token_accuracy": 0.6607407828172048,
      "num_tokens": 2577754997.0,
      "step": 15364
    },
    {
      "entropy": 1.7793689171473186,
      "epoch": 1.68792397901733,
      "grad_norm": 0.6801753044128418,
      "learning_rate": 3.126047638074768e-06,
      "loss": 1.4492,
      "mean_token_accuracy": 0.639577383796374,
      "num_tokens": 2577919506.0,
      "step": 15365
    },
    {
      "entropy": 1.7608330448468525,
      "epoch": 1.6880338359287028,
      "grad_norm": 0.7202026844024658,
      "learning_rate": 3.1252722827612463e-06,
      "loss": 1.4545,
      "mean_token_accuracy": 0.6331879695256551,
      "num_tokens": 2578100044.0,
      "step": 15366
    },
    {
      "entropy": 1.724254459142685,
      "epoch": 1.6881436928400757,
      "grad_norm": 0.6835639476776123,
      "learning_rate": 3.124497176679308e-06,
      "loss": 1.3549,
      "mean_token_accuracy": 0.6532203555107117,
      "num_tokens": 2578267048.0,
      "step": 15367
    },
    {
      "entropy": 1.6863794922828674,
      "epoch": 1.6882535497514488,
      "grad_norm": 0.7550612092018127,
      "learning_rate": 3.1237223198534823e-06,
      "loss": 1.1698,
      "mean_token_accuracy": 0.6900685677925745,
      "num_tokens": 2578366956.0,
      "step": 15368
    },
    {
      "entropy": 1.7102207442124684,
      "epoch": 1.6883634066628217,
      "grad_norm": 0.7050641179084778,
      "learning_rate": 3.1229477123082968e-06,
      "loss": 1.4534,
      "mean_token_accuracy": 0.6498723477125168,
      "num_tokens": 2578560893.0,
      "step": 15369
    },
    {
      "entropy": 1.6907469928264618,
      "epoch": 1.6884732635741946,
      "grad_norm": 0.5717144012451172,
      "learning_rate": 3.1221733540682692e-06,
      "loss": 1.4725,
      "mean_token_accuracy": 0.647341325879097,
      "num_tokens": 2578836855.0,
      "step": 15370
    },
    {
      "entropy": 1.676329771677653,
      "epoch": 1.6885831204855677,
      "grad_norm": 0.8052626252174377,
      "learning_rate": 3.121399245157904e-06,
      "loss": 1.558,
      "mean_token_accuracy": 0.6526962419350942,
      "num_tokens": 2579026404.0,
      "step": 15371
    },
    {
      "entropy": 1.671715994675954,
      "epoch": 1.6886929773969404,
      "grad_norm": 0.7153114080429077,
      "learning_rate": 3.120625385601701e-06,
      "loss": 1.2896,
      "mean_token_accuracy": 0.6790550202131271,
      "num_tokens": 2579188647.0,
      "step": 15372
    },
    {
      "entropy": 1.701625217994054,
      "epoch": 1.6888028343083135,
      "grad_norm": 0.7289735078811646,
      "learning_rate": 3.1198517754241565e-06,
      "loss": 1.3561,
      "mean_token_accuracy": 0.674707810084025,
      "num_tokens": 2579331926.0,
      "step": 15373
    },
    {
      "entropy": 1.7479176918665569,
      "epoch": 1.6889126912196863,
      "grad_norm": 0.7183084487915039,
      "learning_rate": 3.119078414649753e-06,
      "loss": 1.2997,
      "mean_token_accuracy": 0.6685334344704946,
      "num_tokens": 2579527532.0,
      "step": 15374
    },
    {
      "entropy": 1.7347841362158458,
      "epoch": 1.6890225481310592,
      "grad_norm": 0.7196807265281677,
      "learning_rate": 3.118305303302962e-06,
      "loss": 1.3305,
      "mean_token_accuracy": 0.6832280606031418,
      "num_tokens": 2579691633.0,
      "step": 15375
    },
    {
      "entropy": 1.736104021469752,
      "epoch": 1.6891324050424323,
      "grad_norm": 0.7943740487098694,
      "learning_rate": 3.117532441408261e-06,
      "loss": 1.5753,
      "mean_token_accuracy": 0.6446651866038641,
      "num_tokens": 2579897232.0,
      "step": 15376
    },
    {
      "entropy": 1.793796718120575,
      "epoch": 1.6892422619538052,
      "grad_norm": 0.7013726830482483,
      "learning_rate": 3.116759828990103e-06,
      "loss": 1.2496,
      "mean_token_accuracy": 0.6713108470042547,
      "num_tokens": 2580015103.0,
      "step": 15377
    },
    {
      "entropy": 1.6883254448572795,
      "epoch": 1.689352118865178,
      "grad_norm": 0.7592623829841614,
      "learning_rate": 3.115987466072946e-06,
      "loss": 1.456,
      "mean_token_accuracy": 0.6466412742932638,
      "num_tokens": 2580213602.0,
      "step": 15378
    },
    {
      "entropy": 1.6982381443182628,
      "epoch": 1.689461975776551,
      "grad_norm": 0.7187153697013855,
      "learning_rate": 3.1152153526812343e-06,
      "loss": 1.3754,
      "mean_token_accuracy": 0.6655093431472778,
      "num_tokens": 2580340316.0,
      "step": 15379
    },
    {
      "entropy": 1.719240536292394,
      "epoch": 1.6895718326879239,
      "grad_norm": 0.6955122351646423,
      "learning_rate": 3.1144434888394003e-06,
      "loss": 1.335,
      "mean_token_accuracy": 0.6731832573811213,
      "num_tokens": 2580460689.0,
      "step": 15380
    },
    {
      "entropy": 1.6896177033583324,
      "epoch": 1.689681689599297,
      "grad_norm": 0.689373791217804,
      "learning_rate": 3.113671874571878e-06,
      "loss": 1.38,
      "mean_token_accuracy": 0.658390611410141,
      "num_tokens": 2580613434.0,
      "step": 15381
    },
    {
      "entropy": 1.6444495916366577,
      "epoch": 1.6897915465106699,
      "grad_norm": 0.7218437194824219,
      "learning_rate": 3.112900509903088e-06,
      "loss": 1.1382,
      "mean_token_accuracy": 0.699143057068189,
      "num_tokens": 2580707620.0,
      "step": 15382
    },
    {
      "entropy": 1.7752784192562103,
      "epoch": 1.6899014034220428,
      "grad_norm": 0.7364796996116638,
      "learning_rate": 3.1121293948574438e-06,
      "loss": 1.4396,
      "mean_token_accuracy": 0.6354698687791824,
      "num_tokens": 2580891653.0,
      "step": 15383
    },
    {
      "entropy": 1.6694513857364655,
      "epoch": 1.6900112603334159,
      "grad_norm": 0.764617383480072,
      "learning_rate": 3.111358529459348e-06,
      "loss": 1.2351,
      "mean_token_accuracy": 0.6757246901591619,
      "num_tokens": 2581032836.0,
      "step": 15384
    },
    {
      "entropy": 1.7019239862759907,
      "epoch": 1.6901211172447885,
      "grad_norm": 0.7817053198814392,
      "learning_rate": 3.1105879137332006e-06,
      "loss": 1.4947,
      "mean_token_accuracy": 0.6470496108134588,
      "num_tokens": 2581191748.0,
      "step": 15385
    },
    {
      "entropy": 1.6950092216332753,
      "epoch": 1.6902309741561616,
      "grad_norm": 0.7115320563316345,
      "learning_rate": 3.109817547703392e-06,
      "loss": 1.3195,
      "mean_token_accuracy": 0.665327916542689,
      "num_tokens": 2581334830.0,
      "step": 15386
    },
    {
      "entropy": 1.7190478245417278,
      "epoch": 1.6903408310675345,
      "grad_norm": 0.6659532785415649,
      "learning_rate": 3.1090474313942998e-06,
      "loss": 1.3647,
      "mean_token_accuracy": 0.6521613150835037,
      "num_tokens": 2581483982.0,
      "step": 15387
    },
    {
      "entropy": 1.7014067073663075,
      "epoch": 1.6904506879789074,
      "grad_norm": 0.8550192713737488,
      "learning_rate": 3.108277564830303e-06,
      "loss": 1.5101,
      "mean_token_accuracy": 0.6476392249266306,
      "num_tokens": 2581639613.0,
      "step": 15388
    },
    {
      "entropy": 1.6655798256397247,
      "epoch": 1.6905605448902805,
      "grad_norm": 0.7115856409072876,
      "learning_rate": 3.1075079480357634e-06,
      "loss": 1.4428,
      "mean_token_accuracy": 0.6531449556350708,
      "num_tokens": 2581810059.0,
      "step": 15389
    },
    {
      "entropy": 1.7903032004833221,
      "epoch": 1.6906704018016534,
      "grad_norm": 0.7611822485923767,
      "learning_rate": 3.106738581035042e-06,
      "loss": 1.4924,
      "mean_token_accuracy": 0.635255828499794,
      "num_tokens": 2581989898.0,
      "step": 15390
    },
    {
      "entropy": 1.6987177928288777,
      "epoch": 1.6907802587130263,
      "grad_norm": 0.6165050268173218,
      "learning_rate": 3.1059694638524886e-06,
      "loss": 1.3535,
      "mean_token_accuracy": 0.6634356826543808,
      "num_tokens": 2582145058.0,
      "step": 15391
    },
    {
      "entropy": 1.6762576599915822,
      "epoch": 1.6908901156243992,
      "grad_norm": 0.6371328234672546,
      "learning_rate": 3.105200596512442e-06,
      "loss": 1.4345,
      "mean_token_accuracy": 0.6503476947546005,
      "num_tokens": 2582368067.0,
      "step": 15392
    },
    {
      "entropy": 1.702197919289271,
      "epoch": 1.690999972535772,
      "grad_norm": 0.75450199842453,
      "learning_rate": 3.10443197903924e-06,
      "loss": 1.4777,
      "mean_token_accuracy": 0.6465541025002798,
      "num_tokens": 2582567443.0,
      "step": 15393
    },
    {
      "entropy": 1.6959167917569478,
      "epoch": 1.6911098294471452,
      "grad_norm": 0.7660825252532959,
      "learning_rate": 3.1036636114572088e-06,
      "loss": 1.1762,
      "mean_token_accuracy": 0.6866554866234461,
      "num_tokens": 2582690966.0,
      "step": 15394
    },
    {
      "entropy": 1.7242404520511627,
      "epoch": 1.691219686358518,
      "grad_norm": 0.8516025543212891,
      "learning_rate": 3.1028954937906668e-06,
      "loss": 1.4467,
      "mean_token_accuracy": 0.6590066701173782,
      "num_tokens": 2582850808.0,
      "step": 15395
    },
    {
      "entropy": 1.7131598989168804,
      "epoch": 1.691329543269891,
      "grad_norm": 0.7381974458694458,
      "learning_rate": 3.1021276260639217e-06,
      "loss": 1.4181,
      "mean_token_accuracy": 0.6618935763835907,
      "num_tokens": 2583009712.0,
      "step": 15396
    },
    {
      "entropy": 1.6620845595995586,
      "epoch": 1.691439400181264,
      "grad_norm": 0.6693155169487,
      "learning_rate": 3.10136000830128e-06,
      "loss": 1.5235,
      "mean_token_accuracy": 0.6472597966591517,
      "num_tokens": 2583188095.0,
      "step": 15397
    },
    {
      "entropy": 1.672204573949178,
      "epoch": 1.6915492570926367,
      "grad_norm": 0.936718225479126,
      "learning_rate": 3.1005926405270353e-06,
      "loss": 1.2397,
      "mean_token_accuracy": 0.6774502595265707,
      "num_tokens": 2583334819.0,
      "step": 15398
    },
    {
      "entropy": 1.7408578594525654,
      "epoch": 1.6916591140040098,
      "grad_norm": 0.6551694869995117,
      "learning_rate": 3.099825522765472e-06,
      "loss": 1.3283,
      "mean_token_accuracy": 0.6612852861483892,
      "num_tokens": 2583476321.0,
      "step": 15399
    },
    {
      "entropy": 1.6576103170712788,
      "epoch": 1.6917689709153827,
      "grad_norm": 0.7109887003898621,
      "learning_rate": 3.099058655040873e-06,
      "loss": 1.4108,
      "mean_token_accuracy": 0.6661920497814814,
      "num_tokens": 2583634776.0,
      "step": 15400
    },
    {
      "entropy": 1.795667548974355,
      "epoch": 1.6918788278267556,
      "grad_norm": 0.8126919865608215,
      "learning_rate": 3.098292037377505e-06,
      "loss": 1.4247,
      "mean_token_accuracy": 0.666491856177648,
      "num_tokens": 2583784360.0,
      "step": 15401
    },
    {
      "entropy": 1.6871559222539265,
      "epoch": 1.6919886847381287,
      "grad_norm": 0.6559981107711792,
      "learning_rate": 3.0975256697996358e-06,
      "loss": 1.2416,
      "mean_token_accuracy": 0.6782428324222565,
      "num_tokens": 2583926742.0,
      "step": 15402
    },
    {
      "entropy": 1.7118937869866688,
      "epoch": 1.6920985416495016,
      "grad_norm": 0.7892350554466248,
      "learning_rate": 3.096759552331518e-06,
      "loss": 1.4847,
      "mean_token_accuracy": 0.6499680678049723,
      "num_tokens": 2584097203.0,
      "step": 15403
    },
    {
      "entropy": 1.7176280121008556,
      "epoch": 1.6922083985608745,
      "grad_norm": 0.6054561734199524,
      "learning_rate": 3.0959936849973974e-06,
      "loss": 1.2682,
      "mean_token_accuracy": 0.6729069898525873,
      "num_tokens": 2584226875.0,
      "step": 15404
    },
    {
      "entropy": 1.7033534049987793,
      "epoch": 1.6923182554722473,
      "grad_norm": 0.6824467778205872,
      "learning_rate": 3.095228067821517e-06,
      "loss": 1.376,
      "mean_token_accuracy": 0.6606364697217941,
      "num_tokens": 2584430184.0,
      "step": 15405
    },
    {
      "entropy": 1.6788690189520519,
      "epoch": 1.6924281123836202,
      "grad_norm": 0.6166786551475525,
      "learning_rate": 3.0944627008281034e-06,
      "loss": 1.3412,
      "mean_token_accuracy": 0.6616918991009394,
      "num_tokens": 2584586860.0,
      "step": 15406
    },
    {
      "entropy": 1.6675065159797668,
      "epoch": 1.6925379692949933,
      "grad_norm": 0.6525241732597351,
      "learning_rate": 3.0936975840413863e-06,
      "loss": 1.5037,
      "mean_token_accuracy": 0.6569078887502352,
      "num_tokens": 2584788098.0,
      "step": 15407
    },
    {
      "entropy": 1.719109723965327,
      "epoch": 1.6926478262063662,
      "grad_norm": 0.629504919052124,
      "learning_rate": 3.0929327174855765e-06,
      "loss": 1.4084,
      "mean_token_accuracy": 0.6696446587642034,
      "num_tokens": 2584978784.0,
      "step": 15408
    },
    {
      "entropy": 1.6656635701656342,
      "epoch": 1.692757683117739,
      "grad_norm": 0.5897053480148315,
      "learning_rate": 3.092168101184883e-06,
      "loss": 1.4735,
      "mean_token_accuracy": 0.6469605465730032,
      "num_tokens": 2585167598.0,
      "step": 15409
    },
    {
      "entropy": 1.7369298934936523,
      "epoch": 1.6928675400291122,
      "grad_norm": 0.7727683186531067,
      "learning_rate": 3.091403735163507e-06,
      "loss": 1.4347,
      "mean_token_accuracy": 0.6634906083345413,
      "num_tokens": 2585317585.0,
      "step": 15410
    },
    {
      "entropy": 1.6967070400714874,
      "epoch": 1.6929773969404849,
      "grad_norm": 0.6468930840492249,
      "learning_rate": 3.090639619445638e-06,
      "loss": 1.4222,
      "mean_token_accuracy": 0.6505736857652664,
      "num_tokens": 2585533635.0,
      "step": 15411
    },
    {
      "entropy": 1.6828734079996746,
      "epoch": 1.693087253851858,
      "grad_norm": 0.7482141256332397,
      "learning_rate": 3.08987575405546e-06,
      "loss": 1.2519,
      "mean_token_accuracy": 0.6751055518786112,
      "num_tokens": 2585666750.0,
      "step": 15412
    },
    {
      "entropy": 1.6802496711413066,
      "epoch": 1.6931971107632309,
      "grad_norm": 0.5791299939155579,
      "learning_rate": 3.0891121390171498e-06,
      "loss": 1.4935,
      "mean_token_accuracy": 0.6477037717898687,
      "num_tokens": 2585855103.0,
      "step": 15413
    },
    {
      "entropy": 1.7238198220729828,
      "epoch": 1.6933069676746038,
      "grad_norm": 0.6337864995002747,
      "learning_rate": 3.088348774354878e-06,
      "loss": 1.4572,
      "mean_token_accuracy": 0.6338127752145132,
      "num_tokens": 2586147894.0,
      "step": 15414
    },
    {
      "entropy": 1.7157885332902272,
      "epoch": 1.6934168245859769,
      "grad_norm": 0.647091269493103,
      "learning_rate": 3.0875856600928017e-06,
      "loss": 1.5886,
      "mean_token_accuracy": 0.6402155508597692,
      "num_tokens": 2586359826.0,
      "step": 15415
    },
    {
      "entropy": 1.7303306659062703,
      "epoch": 1.6935266814973498,
      "grad_norm": 0.6226432919502258,
      "learning_rate": 3.0868227962550725e-06,
      "loss": 1.3488,
      "mean_token_accuracy": 0.6693485826253891,
      "num_tokens": 2586542824.0,
      "step": 15416
    },
    {
      "entropy": 1.6407539049784343,
      "epoch": 1.6936365384087226,
      "grad_norm": 0.6539502739906311,
      "learning_rate": 3.0860601828658377e-06,
      "loss": 1.4628,
      "mean_token_accuracy": 0.653552715977033,
      "num_tokens": 2586738889.0,
      "step": 15417
    },
    {
      "entropy": 1.7392374575138092,
      "epoch": 1.6937463953200955,
      "grad_norm": 0.5961517691612244,
      "learning_rate": 3.08529781994923e-06,
      "loss": 1.4295,
      "mean_token_accuracy": 0.654540628194809,
      "num_tokens": 2586899359.0,
      "step": 15418
    },
    {
      "entropy": 1.6805303692817688,
      "epoch": 1.6938562522314684,
      "grad_norm": 0.6699274182319641,
      "learning_rate": 3.0845357075293824e-06,
      "loss": 1.3482,
      "mean_token_accuracy": 0.6532176484664282,
      "num_tokens": 2587053914.0,
      "step": 15419
    },
    {
      "entropy": 1.7027775545914967,
      "epoch": 1.6939661091428415,
      "grad_norm": 0.755435585975647,
      "learning_rate": 3.0837738456304122e-06,
      "loss": 1.3533,
      "mean_token_accuracy": 0.6679652184247971,
      "num_tokens": 2587186667.0,
      "step": 15420
    },
    {
      "entropy": 1.7010966738065083,
      "epoch": 1.6940759660542144,
      "grad_norm": 0.7067722082138062,
      "learning_rate": 3.0830122342764314e-06,
      "loss": 1.3864,
      "mean_token_accuracy": 0.6638060361146927,
      "num_tokens": 2587384376.0,
      "step": 15421
    },
    {
      "entropy": 1.6957202355066936,
      "epoch": 1.6941858229655873,
      "grad_norm": 0.6873775124549866,
      "learning_rate": 3.0822508734915473e-06,
      "loss": 1.2841,
      "mean_token_accuracy": 0.6708781023820242,
      "num_tokens": 2587502711.0,
      "step": 15422
    },
    {
      "entropy": 1.7451180815696716,
      "epoch": 1.6942956798769604,
      "grad_norm": 0.6628127098083496,
      "learning_rate": 3.0814897632998546e-06,
      "loss": 1.5383,
      "mean_token_accuracy": 0.6356658140818278,
      "num_tokens": 2587749796.0,
      "step": 15423
    },
    {
      "entropy": 1.7371935844421387,
      "epoch": 1.694405536788333,
      "grad_norm": 0.7622631788253784,
      "learning_rate": 3.0807289037254417e-06,
      "loss": 1.3687,
      "mean_token_accuracy": 0.663616955280304,
      "num_tokens": 2587884693.0,
      "step": 15424
    },
    {
      "entropy": 1.7322389682133992,
      "epoch": 1.6945153936997062,
      "grad_norm": 0.648070752620697,
      "learning_rate": 3.0799682947923906e-06,
      "loss": 1.3667,
      "mean_token_accuracy": 0.6544249455134074,
      "num_tokens": 2588016729.0,
      "step": 15425
    },
    {
      "entropy": 1.7039423783620198,
      "epoch": 1.694625250611079,
      "grad_norm": 0.6290963888168335,
      "learning_rate": 3.0792079365247755e-06,
      "loss": 1.3423,
      "mean_token_accuracy": 0.6653772393862406,
      "num_tokens": 2588197565.0,
      "step": 15426
    },
    {
      "entropy": 1.687830110390981,
      "epoch": 1.694735107522452,
      "grad_norm": 0.6381257176399231,
      "learning_rate": 3.07844782894666e-06,
      "loss": 1.3763,
      "mean_token_accuracy": 0.6565463542938232,
      "num_tokens": 2588365992.0,
      "step": 15427
    },
    {
      "entropy": 1.6616821885108948,
      "epoch": 1.694844964433825,
      "grad_norm": 0.8576768040657043,
      "learning_rate": 3.0776879720820997e-06,
      "loss": 1.4612,
      "mean_token_accuracy": 0.6518943955500921,
      "num_tokens": 2588519705.0,
      "step": 15428
    },
    {
      "entropy": 1.7395183543364208,
      "epoch": 1.694954821345198,
      "grad_norm": 0.71395343542099,
      "learning_rate": 3.076928365955147e-06,
      "loss": 1.4336,
      "mean_token_accuracy": 0.6496130575736364,
      "num_tokens": 2588695021.0,
      "step": 15429
    },
    {
      "entropy": 1.7011998693148296,
      "epoch": 1.6950646782565708,
      "grad_norm": 0.6785951256752014,
      "learning_rate": 3.0761690105898393e-06,
      "loss": 1.298,
      "mean_token_accuracy": 0.6675257285435995,
      "num_tokens": 2588869513.0,
      "step": 15430
    },
    {
      "entropy": 1.737764298915863,
      "epoch": 1.695174535167944,
      "grad_norm": 0.9960548877716064,
      "learning_rate": 3.0754099060102135e-06,
      "loss": 1.3802,
      "mean_token_accuracy": 0.6851067890723547,
      "num_tokens": 2589015214.0,
      "step": 15431
    },
    {
      "entropy": 1.6571769615014393,
      "epoch": 1.6952843920793166,
      "grad_norm": 0.6647917628288269,
      "learning_rate": 3.074651052240294e-06,
      "loss": 1.3572,
      "mean_token_accuracy": 0.6534274220466614,
      "num_tokens": 2589200929.0,
      "step": 15432
    },
    {
      "entropy": 1.6438042024771373,
      "epoch": 1.6953942489906897,
      "grad_norm": 0.7289125919342041,
      "learning_rate": 3.073892449304095e-06,
      "loss": 1.4241,
      "mean_token_accuracy": 0.659342810511589,
      "num_tokens": 2589353999.0,
      "step": 15433
    },
    {
      "entropy": 1.7090658744176228,
      "epoch": 1.6955041059020626,
      "grad_norm": 0.7296878695487976,
      "learning_rate": 3.0731340972256303e-06,
      "loss": 1.3166,
      "mean_token_accuracy": 0.6685633112986883,
      "num_tokens": 2589524135.0,
      "step": 15434
    },
    {
      "entropy": 1.6926236947377522,
      "epoch": 1.6956139628134355,
      "grad_norm": 0.5468199849128723,
      "learning_rate": 3.0723759960288997e-06,
      "loss": 1.4544,
      "mean_token_accuracy": 0.6467462033033371,
      "num_tokens": 2589746970.0,
      "step": 15435
    },
    {
      "entropy": 1.677124152580897,
      "epoch": 1.6957238197248086,
      "grad_norm": 0.6528844833374023,
      "learning_rate": 3.0716181457378945e-06,
      "loss": 1.412,
      "mean_token_accuracy": 0.6589123407999674,
      "num_tokens": 2589913367.0,
      "step": 15436
    },
    {
      "entropy": 1.735766738653183,
      "epoch": 1.6958336766361812,
      "grad_norm": 0.6354487538337708,
      "learning_rate": 3.070860546376602e-06,
      "loss": 1.4608,
      "mean_token_accuracy": 0.6477210422356924,
      "num_tokens": 2590137460.0,
      "step": 15437
    },
    {
      "entropy": 1.705346167087555,
      "epoch": 1.6959435335475543,
      "grad_norm": 0.7688722610473633,
      "learning_rate": 3.0701031979690033e-06,
      "loss": 1.3772,
      "mean_token_accuracy": 0.658728207151095,
      "num_tokens": 2590326917.0,
      "step": 15438
    },
    {
      "entropy": 1.728643884261449,
      "epoch": 1.6960533904589272,
      "grad_norm": 0.7233805060386658,
      "learning_rate": 3.0693461005390636e-06,
      "loss": 1.4744,
      "mean_token_accuracy": 0.649912640452385,
      "num_tokens": 2590497105.0,
      "step": 15439
    },
    {
      "entropy": 1.7629015843073528,
      "epoch": 1.6961632473703,
      "grad_norm": 0.6526691317558289,
      "learning_rate": 3.0685892541107452e-06,
      "loss": 1.4067,
      "mean_token_accuracy": 0.6612003346284231,
      "num_tokens": 2590642085.0,
      "step": 15440
    },
    {
      "entropy": 1.6741429766019185,
      "epoch": 1.6962731042816732,
      "grad_norm": 0.697309672832489,
      "learning_rate": 3.067832658708004e-06,
      "loss": 1.5036,
      "mean_token_accuracy": 0.656085841357708,
      "num_tokens": 2590814853.0,
      "step": 15441
    },
    {
      "entropy": 1.6753457883993785,
      "epoch": 1.696382961193046,
      "grad_norm": 0.6827280521392822,
      "learning_rate": 3.0670763143547853e-06,
      "loss": 1.4097,
      "mean_token_accuracy": 0.6564631958802541,
      "num_tokens": 2591007239.0,
      "step": 15442
    },
    {
      "entropy": 1.6726371546586354,
      "epoch": 1.696492818104419,
      "grad_norm": 0.7021117806434631,
      "learning_rate": 3.066320221075025e-06,
      "loss": 1.5803,
      "mean_token_accuracy": 0.6457217087348303,
      "num_tokens": 2591224463.0,
      "step": 15443
    },
    {
      "entropy": 1.6059078176816304,
      "epoch": 1.696602675015792,
      "grad_norm": 0.6383489370346069,
      "learning_rate": 3.065564378892657e-06,
      "loss": 1.2984,
      "mean_token_accuracy": 0.6645799279212952,
      "num_tokens": 2591396199.0,
      "step": 15444
    },
    {
      "entropy": 1.6366430819034576,
      "epoch": 1.6967125319271648,
      "grad_norm": 0.5697821378707886,
      "learning_rate": 3.064808787831598e-06,
      "loss": 1.3218,
      "mean_token_accuracy": 0.6684574782848358,
      "num_tokens": 2591589772.0,
      "step": 15445
    },
    {
      "entropy": 1.7955954174200695,
      "epoch": 1.6968223888385379,
      "grad_norm": 0.6045777201652527,
      "learning_rate": 3.0640534479157686e-06,
      "loss": 1.6147,
      "mean_token_accuracy": 0.6359433382749557,
      "num_tokens": 2591765239.0,
      "step": 15446
    },
    {
      "entropy": 1.7104682524998982,
      "epoch": 1.6969322457499108,
      "grad_norm": 0.6094769239425659,
      "learning_rate": 3.0632983591690695e-06,
      "loss": 1.4571,
      "mean_token_accuracy": 0.645427738626798,
      "num_tokens": 2591963924.0,
      "step": 15447
    },
    {
      "entropy": 1.6970649858315785,
      "epoch": 1.6970421026612836,
      "grad_norm": 0.7453381419181824,
      "learning_rate": 3.062543521615401e-06,
      "loss": 1.3063,
      "mean_token_accuracy": 0.6602601408958435,
      "num_tokens": 2592117840.0,
      "step": 15448
    },
    {
      "entropy": 1.6575465599695842,
      "epoch": 1.6971519595726567,
      "grad_norm": 0.5633898973464966,
      "learning_rate": 3.061788935278653e-06,
      "loss": 1.3509,
      "mean_token_accuracy": 0.650563841064771,
      "num_tokens": 2592299746.0,
      "step": 15449
    },
    {
      "entropy": 1.7399055063724518,
      "epoch": 1.6972618164840294,
      "grad_norm": 0.6714982390403748,
      "learning_rate": 3.0610346001827085e-06,
      "loss": 1.3131,
      "mean_token_accuracy": 0.6603095183769861,
      "num_tokens": 2592412511.0,
      "step": 15450
    },
    {
      "entropy": 1.6033929189046223,
      "epoch": 1.6973716733954025,
      "grad_norm": 0.5816755890846252,
      "learning_rate": 3.060280516351444e-06,
      "loss": 1.32,
      "mean_token_accuracy": 0.6678592562675476,
      "num_tokens": 2592565463.0,
      "step": 15451
    },
    {
      "entropy": 1.7209522624810536,
      "epoch": 1.6974815303067754,
      "grad_norm": 0.6687294840812683,
      "learning_rate": 3.0595266838087195e-06,
      "loss": 1.5754,
      "mean_token_accuracy": 0.6195499996344248,
      "num_tokens": 2592769048.0,
      "step": 15452
    },
    {
      "entropy": 1.695073793331782,
      "epoch": 1.6975913872181483,
      "grad_norm": 0.7344485521316528,
      "learning_rate": 3.0587731025784006e-06,
      "loss": 1.3381,
      "mean_token_accuracy": 0.6686349560817083,
      "num_tokens": 2592917112.0,
      "step": 15453
    },
    {
      "entropy": 1.748264600833257,
      "epoch": 1.6977012441295214,
      "grad_norm": 0.7268601655960083,
      "learning_rate": 3.058019772684333e-06,
      "loss": 1.3523,
      "mean_token_accuracy": 0.660114531715711,
      "num_tokens": 2593065546.0,
      "step": 15454
    },
    {
      "entropy": 1.7753359874089558,
      "epoch": 1.6978111010408943,
      "grad_norm": 0.6813443303108215,
      "learning_rate": 3.0572666941503602e-06,
      "loss": 1.3395,
      "mean_token_accuracy": 0.6615369518597921,
      "num_tokens": 2593207742.0,
      "step": 15455
    },
    {
      "entropy": 1.686709036429723,
      "epoch": 1.6979209579522672,
      "grad_norm": 0.7412280440330505,
      "learning_rate": 3.0565138670003192e-06,
      "loss": 1.1122,
      "mean_token_accuracy": 0.6998019615809122,
      "num_tokens": 2593328448.0,
      "step": 15456
    },
    {
      "entropy": 1.7757901052633922,
      "epoch": 1.6980308148636403,
      "grad_norm": 0.8149046897888184,
      "learning_rate": 3.0557612912580332e-06,
      "loss": 1.6069,
      "mean_token_accuracy": 0.6343324283758799,
      "num_tokens": 2593476516.0,
      "step": 15457
    },
    {
      "entropy": 1.6797574857870738,
      "epoch": 1.698140671775013,
      "grad_norm": 0.6735820770263672,
      "learning_rate": 3.055008966947323e-06,
      "loss": 1.4156,
      "mean_token_accuracy": 0.6628180791934332,
      "num_tokens": 2593628490.0,
      "step": 15458
    },
    {
      "entropy": 1.729365775982539,
      "epoch": 1.698250528686386,
      "grad_norm": 0.7286481857299805,
      "learning_rate": 3.0542568940920007e-06,
      "loss": 1.3168,
      "mean_token_accuracy": 0.6649684309959412,
      "num_tokens": 2593751547.0,
      "step": 15459
    },
    {
      "entropy": 1.7199760377407074,
      "epoch": 1.698360385597759,
      "grad_norm": 0.8374939560890198,
      "learning_rate": 3.053505072715865e-06,
      "loss": 1.4923,
      "mean_token_accuracy": 0.6528761138518652,
      "num_tokens": 2593899249.0,
      "step": 15460
    },
    {
      "entropy": 1.7205273906389873,
      "epoch": 1.6984702425091318,
      "grad_norm": 0.7138111591339111,
      "learning_rate": 3.0527535028427126e-06,
      "loss": 1.4606,
      "mean_token_accuracy": 0.644857699672381,
      "num_tokens": 2594036578.0,
      "step": 15461
    },
    {
      "entropy": 1.7191713253657024,
      "epoch": 1.698580099420505,
      "grad_norm": 0.6800480484962463,
      "learning_rate": 3.0520021844963326e-06,
      "loss": 1.4163,
      "mean_token_accuracy": 0.6557717521985372,
      "num_tokens": 2594203729.0,
      "step": 15462
    },
    {
      "entropy": 1.6896109481652577,
      "epoch": 1.6986899563318776,
      "grad_norm": 0.7030267715454102,
      "learning_rate": 3.051251117700502e-06,
      "loss": 1.2521,
      "mean_token_accuracy": 0.6746014902989069,
      "num_tokens": 2594347487.0,
      "step": 15463
    },
    {
      "entropy": 1.7087683777014415,
      "epoch": 1.6987998132432507,
      "grad_norm": 0.6061800122261047,
      "learning_rate": 3.05050030247899e-06,
      "loss": 1.3607,
      "mean_token_accuracy": 0.653743584950765,
      "num_tokens": 2594543405.0,
      "step": 15464
    },
    {
      "entropy": 1.7524566849072774,
      "epoch": 1.6989096701546236,
      "grad_norm": 0.6522343754768372,
      "learning_rate": 3.049749738855563e-06,
      "loss": 1.4177,
      "mean_token_accuracy": 0.6434753388166428,
      "num_tokens": 2594716593.0,
      "step": 15465
    },
    {
      "entropy": 1.6446398794651031,
      "epoch": 1.6990195270659965,
      "grad_norm": 0.6932255625724792,
      "learning_rate": 3.0489994268539746e-06,
      "loss": 1.3285,
      "mean_token_accuracy": 0.6653372198343277,
      "num_tokens": 2594867263.0,
      "step": 15466
    },
    {
      "entropy": 1.7672787706057231,
      "epoch": 1.6991293839773696,
      "grad_norm": 0.8536300659179688,
      "learning_rate": 3.048249366497971e-06,
      "loss": 1.435,
      "mean_token_accuracy": 0.645067016283671,
      "num_tokens": 2595026533.0,
      "step": 15467
    },
    {
      "entropy": 1.7172228395938873,
      "epoch": 1.6992392408887425,
      "grad_norm": 0.5975283980369568,
      "learning_rate": 3.0474995578112907e-06,
      "loss": 1.4422,
      "mean_token_accuracy": 0.6420785139004389,
      "num_tokens": 2595192916.0,
      "step": 15468
    },
    {
      "entropy": 1.7480799158414204,
      "epoch": 1.6993490978001153,
      "grad_norm": 0.6868378520011902,
      "learning_rate": 3.0467500008176656e-06,
      "loss": 1.3149,
      "mean_token_accuracy": 0.6674151619275411,
      "num_tokens": 2595340344.0,
      "step": 15469
    },
    {
      "entropy": 1.7092045744260151,
      "epoch": 1.6994589547114884,
      "grad_norm": 0.6722932457923889,
      "learning_rate": 3.0460006955408206e-06,
      "loss": 1.5016,
      "mean_token_accuracy": 0.638856107989947,
      "num_tokens": 2595532316.0,
      "step": 15470
    },
    {
      "entropy": 1.698676884174347,
      "epoch": 1.699568811622861,
      "grad_norm": 0.739374041557312,
      "learning_rate": 3.0452516420044685e-06,
      "loss": 1.4562,
      "mean_token_accuracy": 0.6575873990853628,
      "num_tokens": 2595705984.0,
      "step": 15471
    },
    {
      "entropy": 1.7235010464986165,
      "epoch": 1.6996786685342342,
      "grad_norm": 0.6385025382041931,
      "learning_rate": 3.044502840232318e-06,
      "loss": 1.4149,
      "mean_token_accuracy": 0.6463307837645212,
      "num_tokens": 2595905802.0,
      "step": 15472
    },
    {
      "entropy": 1.6757484376430511,
      "epoch": 1.699788525445607,
      "grad_norm": 0.6640949845314026,
      "learning_rate": 3.043754290248069e-06,
      "loss": 1.4525,
      "mean_token_accuracy": 0.6534897486368815,
      "num_tokens": 2596076575.0,
      "step": 15473
    },
    {
      "entropy": 1.6671640475591023,
      "epoch": 1.69989838235698,
      "grad_norm": 0.6480453014373779,
      "learning_rate": 3.0430059920754084e-06,
      "loss": 1.3501,
      "mean_token_accuracy": 0.6624239881833395,
      "num_tokens": 2596216668.0,
      "step": 15474
    },
    {
      "entropy": 1.6163178483645122,
      "epoch": 1.700008239268353,
      "grad_norm": 0.6514328718185425,
      "learning_rate": 3.042257945738025e-06,
      "loss": 1.4128,
      "mean_token_accuracy": 0.6655259480079015,
      "num_tokens": 2596389965.0,
      "step": 15475
    },
    {
      "entropy": 1.69280410806338,
      "epoch": 1.7001180961797258,
      "grad_norm": 0.8175613284111023,
      "learning_rate": 3.041510151259592e-06,
      "loss": 1.2518,
      "mean_token_accuracy": 0.6777097036441168,
      "num_tokens": 2596514410.0,
      "step": 15476
    },
    {
      "entropy": 1.8059017360210419,
      "epoch": 1.7002279530910989,
      "grad_norm": 0.7695567607879639,
      "learning_rate": 3.0407626086637753e-06,
      "loss": 1.5005,
      "mean_token_accuracy": 0.6499375601609548,
      "num_tokens": 2596651139.0,
      "step": 15477
    },
    {
      "entropy": 1.6848878860473633,
      "epoch": 1.7003378100024718,
      "grad_norm": 0.7237509489059448,
      "learning_rate": 3.0400153179742366e-06,
      "loss": 1.3545,
      "mean_token_accuracy": 0.6637776046991348,
      "num_tokens": 2596813442.0,
      "step": 15478
    },
    {
      "entropy": 1.6869426270325978,
      "epoch": 1.7004476669138446,
      "grad_norm": 0.7502117156982422,
      "learning_rate": 3.039268279214626e-06,
      "loss": 1.4079,
      "mean_token_accuracy": 0.6469310919443766,
      "num_tokens": 2596981179.0,
      "step": 15479
    },
    {
      "entropy": 1.7178981204827626,
      "epoch": 1.7005575238252177,
      "grad_norm": 0.6466111540794373,
      "learning_rate": 3.038521492408586e-06,
      "loss": 1.5021,
      "mean_token_accuracy": 0.6554898222287496,
      "num_tokens": 2597147861.0,
      "step": 15480
    },
    {
      "entropy": 1.710584968328476,
      "epoch": 1.7006673807365906,
      "grad_norm": 0.720398485660553,
      "learning_rate": 3.037774957579752e-06,
      "loss": 1.5024,
      "mean_token_accuracy": 0.635799452662468,
      "num_tokens": 2597371591.0,
      "step": 15481
    },
    {
      "entropy": 1.6549212435881298,
      "epoch": 1.7007772376479635,
      "grad_norm": 0.6625518798828125,
      "learning_rate": 3.0370286747517565e-06,
      "loss": 1.3681,
      "mean_token_accuracy": 0.6604462365309397,
      "num_tokens": 2597518168.0,
      "step": 15482
    },
    {
      "entropy": 1.6826780637105305,
      "epoch": 1.7008870945593366,
      "grad_norm": 0.762800395488739,
      "learning_rate": 3.036282643948214e-06,
      "loss": 1.282,
      "mean_token_accuracy": 0.6670280794302622,
      "num_tokens": 2597659060.0,
      "step": 15483
    },
    {
      "entropy": 1.7338972091674805,
      "epoch": 1.7009969514707093,
      "grad_norm": 0.7537745833396912,
      "learning_rate": 3.0355368651927354e-06,
      "loss": 1.4775,
      "mean_token_accuracy": 0.6528653750816981,
      "num_tokens": 2597822951.0,
      "step": 15484
    },
    {
      "entropy": 1.7104704082012177,
      "epoch": 1.7011068083820824,
      "grad_norm": 0.6628887057304382,
      "learning_rate": 3.034791338508929e-06,
      "loss": 1.4674,
      "mean_token_accuracy": 0.6388405313094457,
      "num_tokens": 2597981401.0,
      "step": 15485
    },
    {
      "entropy": 1.6909295320510864,
      "epoch": 1.7012166652934553,
      "grad_norm": 0.8931862711906433,
      "learning_rate": 3.034046063920385e-06,
      "loss": 1.2176,
      "mean_token_accuracy": 0.6916706810394923,
      "num_tokens": 2598102875.0,
      "step": 15486
    },
    {
      "entropy": 1.7621839741865795,
      "epoch": 1.7013265222048282,
      "grad_norm": 0.719618022441864,
      "learning_rate": 3.033301041450695e-06,
      "loss": 1.3934,
      "mean_token_accuracy": 0.6588169485330582,
      "num_tokens": 2598256543.0,
      "step": 15487
    },
    {
      "entropy": 1.7612866361935933,
      "epoch": 1.7014363791162013,
      "grad_norm": 0.6616114377975464,
      "learning_rate": 3.0325562711234367e-06,
      "loss": 1.5589,
      "mean_token_accuracy": 0.6347967982292175,
      "num_tokens": 2598469802.0,
      "step": 15488
    },
    {
      "entropy": 1.6207097272078197,
      "epoch": 1.701546236027574,
      "grad_norm": 0.595119059085846,
      "learning_rate": 3.0318117529621813e-06,
      "loss": 1.2714,
      "mean_token_accuracy": 0.6714903662602106,
      "num_tokens": 2598639989.0,
      "step": 15489
    },
    {
      "entropy": 1.7276874681313832,
      "epoch": 1.701656092938947,
      "grad_norm": 0.6539283990859985,
      "learning_rate": 3.031067486990495e-06,
      "loss": 1.5024,
      "mean_token_accuracy": 0.6353075504302979,
      "num_tokens": 2598835997.0,
      "step": 15490
    },
    {
      "entropy": 1.7242399354775746,
      "epoch": 1.70176594985032,
      "grad_norm": 0.7293862104415894,
      "learning_rate": 3.0303234732319324e-06,
      "loss": 1.4393,
      "mean_token_accuracy": 0.6572525550921758,
      "num_tokens": 2598956041.0,
      "step": 15491
    },
    {
      "entropy": 1.696977545817693,
      "epoch": 1.7018758067616928,
      "grad_norm": 0.6066075563430786,
      "learning_rate": 3.029579711710038e-06,
      "loss": 1.3658,
      "mean_token_accuracy": 0.666529655456543,
      "num_tokens": 2599160795.0,
      "step": 15492
    },
    {
      "entropy": 1.6414269904295604,
      "epoch": 1.701985663673066,
      "grad_norm": 0.7428905367851257,
      "learning_rate": 3.028836202448355e-06,
      "loss": 1.0967,
      "mean_token_accuracy": 0.6895180543263754,
      "num_tokens": 2599345751.0,
      "step": 15493
    },
    {
      "entropy": 1.7395719190438588,
      "epoch": 1.7020955205844388,
      "grad_norm": 0.8325342535972595,
      "learning_rate": 3.0280929454704154e-06,
      "loss": 1.2534,
      "mean_token_accuracy": 0.6692363371451696,
      "num_tokens": 2599447366.0,
      "step": 15494
    },
    {
      "entropy": 1.7216653128465016,
      "epoch": 1.7022053774958117,
      "grad_norm": 0.9464581608772278,
      "learning_rate": 3.0273499407997424e-06,
      "loss": 1.5236,
      "mean_token_accuracy": 0.6325125495592753,
      "num_tokens": 2599645835.0,
      "step": 15495
    },
    {
      "entropy": 1.643006682395935,
      "epoch": 1.7023152344071848,
      "grad_norm": 0.6483979225158691,
      "learning_rate": 3.0266071884598485e-06,
      "loss": 1.2448,
      "mean_token_accuracy": 0.6851489593585333,
      "num_tokens": 2599820998.0,
      "step": 15496
    },
    {
      "entropy": 1.7206957936286926,
      "epoch": 1.7024250913185575,
      "grad_norm": 0.8952434062957764,
      "learning_rate": 3.025864688474247e-06,
      "loss": 1.3475,
      "mean_token_accuracy": 0.6655914137760798,
      "num_tokens": 2600007097.0,
      "step": 15497
    },
    {
      "entropy": 1.666352113087972,
      "epoch": 1.7025349482299306,
      "grad_norm": 0.7107973694801331,
      "learning_rate": 3.0251224408664327e-06,
      "loss": 1.4151,
      "mean_token_accuracy": 0.6601972033580145,
      "num_tokens": 2600256180.0,
      "step": 15498
    },
    {
      "entropy": 1.6548288067181904,
      "epoch": 1.7026448051413035,
      "grad_norm": 0.6338147521018982,
      "learning_rate": 3.024380445659901e-06,
      "loss": 1.358,
      "mean_token_accuracy": 0.6660072356462479,
      "num_tokens": 2600424528.0,
      "step": 15499
    },
    {
      "entropy": 1.7549506922562916,
      "epoch": 1.7027546620526763,
      "grad_norm": 0.6739881038665771,
      "learning_rate": 3.023638702878135e-06,
      "loss": 1.5014,
      "mean_token_accuracy": 0.651511957248052,
      "num_tokens": 2600600015.0,
      "step": 15500
    },
    {
      "entropy": 1.6789835790793102,
      "epoch": 1.7028645189640494,
      "grad_norm": 0.7053590416908264,
      "learning_rate": 3.022897212544608e-06,
      "loss": 1.4764,
      "mean_token_accuracy": 0.6552553325891495,
      "num_tokens": 2600761099.0,
      "step": 15501
    },
    {
      "entropy": 1.746220628420512,
      "epoch": 1.702974375875422,
      "grad_norm": 0.6821596026420593,
      "learning_rate": 3.0221559746827905e-06,
      "loss": 1.2714,
      "mean_token_accuracy": 0.6693116724491119,
      "num_tokens": 2600880919.0,
      "step": 15502
    },
    {
      "entropy": 1.6446532607078552,
      "epoch": 1.7030842327867952,
      "grad_norm": 0.7012965083122253,
      "learning_rate": 3.021414989316143e-06,
      "loss": 1.5149,
      "mean_token_accuracy": 0.6544087131818136,
      "num_tokens": 2601075802.0,
      "step": 15503
    },
    {
      "entropy": 1.6924720704555511,
      "epoch": 1.703194089698168,
      "grad_norm": 0.7682718634605408,
      "learning_rate": 3.0206742564681123e-06,
      "loss": 1.4444,
      "mean_token_accuracy": 0.6571909934282303,
      "num_tokens": 2601229320.0,
      "step": 15504
    },
    {
      "entropy": 1.759785145521164,
      "epoch": 1.703303946609541,
      "grad_norm": 0.7660031914710999,
      "learning_rate": 3.0199337761621465e-06,
      "loss": 1.502,
      "mean_token_accuracy": 0.6575988878806432,
      "num_tokens": 2601411092.0,
      "step": 15505
    },
    {
      "entropy": 1.6723263065020244,
      "epoch": 1.703413803520914,
      "grad_norm": 0.6515182256698608,
      "learning_rate": 3.019193548421683e-06,
      "loss": 1.3288,
      "mean_token_accuracy": 0.6691017051537832,
      "num_tokens": 2601564465.0,
      "step": 15506
    },
    {
      "entropy": 1.7310113807519276,
      "epoch": 1.703523660432287,
      "grad_norm": 0.6577731370925903,
      "learning_rate": 3.0184535732701464e-06,
      "loss": 1.3704,
      "mean_token_accuracy": 0.6577199498812357,
      "num_tokens": 2601736489.0,
      "step": 15507
    },
    {
      "entropy": 1.6878896454970043,
      "epoch": 1.7036335173436599,
      "grad_norm": 0.8926342129707336,
      "learning_rate": 3.0177138507309572e-06,
      "loss": 1.2761,
      "mean_token_accuracy": 0.6754782150189081,
      "num_tokens": 2601847021.0,
      "step": 15508
    },
    {
      "entropy": 1.669161597887675,
      "epoch": 1.703743374255033,
      "grad_norm": 0.7536756992340088,
      "learning_rate": 3.0169743808275286e-06,
      "loss": 1.5964,
      "mean_token_accuracy": 0.6591108938058218,
      "num_tokens": 2602004441.0,
      "step": 15509
    },
    {
      "entropy": 1.7129058440526326,
      "epoch": 1.7038532311664056,
      "grad_norm": 0.6124458909034729,
      "learning_rate": 3.016235163583262e-06,
      "loss": 1.3916,
      "mean_token_accuracy": 0.6562560399373373,
      "num_tokens": 2602159772.0,
      "step": 15510
    },
    {
      "entropy": 1.724676748116811,
      "epoch": 1.7039630880777787,
      "grad_norm": 0.598620593547821,
      "learning_rate": 3.0154961990215575e-06,
      "loss": 1.4405,
      "mean_token_accuracy": 0.6402031729618708,
      "num_tokens": 2602341730.0,
      "step": 15511
    },
    {
      "entropy": 1.70653834939003,
      "epoch": 1.7040729449891516,
      "grad_norm": 0.6428411602973938,
      "learning_rate": 3.0147574871658e-06,
      "loss": 1.381,
      "mean_token_accuracy": 0.6533275147279104,
      "num_tokens": 2602508258.0,
      "step": 15512
    },
    {
      "entropy": 1.739314079284668,
      "epoch": 1.7041828019005245,
      "grad_norm": 0.6420696973800659,
      "learning_rate": 3.0140190280393666e-06,
      "loss": 1.4793,
      "mean_token_accuracy": 0.640799934665362,
      "num_tokens": 2602689022.0,
      "step": 15513
    },
    {
      "entropy": 1.6944958964983623,
      "epoch": 1.7042926588118976,
      "grad_norm": 0.5888864398002625,
      "learning_rate": 3.013280821665636e-06,
      "loss": 1.5175,
      "mean_token_accuracy": 0.6373367408911387,
      "num_tokens": 2602903410.0,
      "step": 15514
    },
    {
      "entropy": 1.7060741186141968,
      "epoch": 1.7044025157232703,
      "grad_norm": 0.6964573264122009,
      "learning_rate": 3.012542868067968e-06,
      "loss": 1.4072,
      "mean_token_accuracy": 0.6693576574325562,
      "num_tokens": 2603052533.0,
      "step": 15515
    },
    {
      "entropy": 1.716521163781484,
      "epoch": 1.7045123726346434,
      "grad_norm": 0.6152582764625549,
      "learning_rate": 3.0118051672697164e-06,
      "loss": 1.3661,
      "mean_token_accuracy": 0.6634813745816549,
      "num_tokens": 2603221790.0,
      "step": 15516
    },
    {
      "entropy": 1.748351812362671,
      "epoch": 1.7046222295460163,
      "grad_norm": 0.6902201771736145,
      "learning_rate": 3.011067719294233e-06,
      "loss": 1.3842,
      "mean_token_accuracy": 0.6483493248621622,
      "num_tokens": 2603365662.0,
      "step": 15517
    },
    {
      "entropy": 1.676300545533498,
      "epoch": 1.7047320864573892,
      "grad_norm": 0.7123953104019165,
      "learning_rate": 3.010330524164857e-06,
      "loss": 1.4256,
      "mean_token_accuracy": 0.6634288628896078,
      "num_tokens": 2603506810.0,
      "step": 15518
    },
    {
      "entropy": 1.7149119873841603,
      "epoch": 1.7048419433687623,
      "grad_norm": 0.6167012453079224,
      "learning_rate": 3.0095935819049203e-06,
      "loss": 1.3524,
      "mean_token_accuracy": 0.6638331562280655,
      "num_tokens": 2603657268.0,
      "step": 15519
    },
    {
      "entropy": 1.7451521356900532,
      "epoch": 1.7049518002801352,
      "grad_norm": 0.6651485562324524,
      "learning_rate": 3.0088568925377444e-06,
      "loss": 1.3648,
      "mean_token_accuracy": 0.6588761260112127,
      "num_tokens": 2603778482.0,
      "step": 15520
    },
    {
      "entropy": 1.7001748283704121,
      "epoch": 1.705061657191508,
      "grad_norm": 0.6478435397148132,
      "learning_rate": 3.0081204560866482e-06,
      "loss": 1.3306,
      "mean_token_accuracy": 0.6700827330350876,
      "num_tokens": 2603933217.0,
      "step": 15521
    },
    {
      "entropy": 1.6979700823624928,
      "epoch": 1.7051715141028811,
      "grad_norm": 0.5511773824691772,
      "learning_rate": 3.007384272574939e-06,
      "loss": 1.3932,
      "mean_token_accuracy": 0.663392369945844,
      "num_tokens": 2604155419.0,
      "step": 15522
    },
    {
      "entropy": 1.7112592458724976,
      "epoch": 1.7052813710142538,
      "grad_norm": 0.8108544945716858,
      "learning_rate": 3.0066483420259145e-06,
      "loss": 1.4776,
      "mean_token_accuracy": 0.6554440756638845,
      "num_tokens": 2604343465.0,
      "step": 15523
    },
    {
      "entropy": 1.7090557316939037,
      "epoch": 1.705391227925627,
      "grad_norm": 0.650626540184021,
      "learning_rate": 3.005912664462869e-06,
      "loss": 1.2697,
      "mean_token_accuracy": 0.6703123350938162,
      "num_tokens": 2604482670.0,
      "step": 15524
    },
    {
      "entropy": 1.7024895350138347,
      "epoch": 1.7055010848369998,
      "grad_norm": 0.6583566665649414,
      "learning_rate": 3.0051772399090838e-06,
      "loss": 1.4045,
      "mean_token_accuracy": 0.6468039005994797,
      "num_tokens": 2604665042.0,
      "step": 15525
    },
    {
      "entropy": 1.709368646144867,
      "epoch": 1.7056109417483727,
      "grad_norm": 0.6365029215812683,
      "learning_rate": 3.0044420683878387e-06,
      "loss": 1.5439,
      "mean_token_accuracy": 0.6336111923058828,
      "num_tokens": 2604893566.0,
      "step": 15526
    },
    {
      "entropy": 1.731093277533849,
      "epoch": 1.7057207986597458,
      "grad_norm": 0.6655638813972473,
      "learning_rate": 3.003707149922398e-06,
      "loss": 1.3796,
      "mean_token_accuracy": 0.6612533827622732,
      "num_tokens": 2605048388.0,
      "step": 15527
    },
    {
      "entropy": 1.6967615683873494,
      "epoch": 1.7058306555711185,
      "grad_norm": 0.8625466823577881,
      "learning_rate": 3.002972484536022e-06,
      "loss": 1.4847,
      "mean_token_accuracy": 0.6741051077842712,
      "num_tokens": 2605202061.0,
      "step": 15528
    },
    {
      "entropy": 1.6434633831183116,
      "epoch": 1.7059405124824916,
      "grad_norm": 0.6478009223937988,
      "learning_rate": 3.002238072251965e-06,
      "loss": 1.4601,
      "mean_token_accuracy": 0.6438992669185003,
      "num_tokens": 2605404372.0,
      "step": 15529
    },
    {
      "entropy": 1.7079529066880543,
      "epoch": 1.7060503693938645,
      "grad_norm": 0.7610868811607361,
      "learning_rate": 3.001503913093468e-06,
      "loss": 1.3129,
      "mean_token_accuracy": 0.6602237820625305,
      "num_tokens": 2605566223.0,
      "step": 15530
    },
    {
      "entropy": 1.7487321893374126,
      "epoch": 1.7061602263052373,
      "grad_norm": 0.6044963002204895,
      "learning_rate": 3.0007700070837697e-06,
      "loss": 1.3794,
      "mean_token_accuracy": 0.6575321207443873,
      "num_tokens": 2605735404.0,
      "step": 15531
    },
    {
      "entropy": 1.6425415972868602,
      "epoch": 1.7062700832166104,
      "grad_norm": 0.6396393775939941,
      "learning_rate": 3.0000363542460953e-06,
      "loss": 1.4136,
      "mean_token_accuracy": 0.6657944619655609,
      "num_tokens": 2605976420.0,
      "step": 15532
    },
    {
      "entropy": 1.7656619250774384,
      "epoch": 1.7063799401279833,
      "grad_norm": 0.7868967652320862,
      "learning_rate": 2.999302954603664e-06,
      "loss": 1.5443,
      "mean_token_accuracy": 0.6374485790729523,
      "num_tokens": 2606105556.0,
      "step": 15533
    },
    {
      "entropy": 1.7477157612641652,
      "epoch": 1.7064897970393562,
      "grad_norm": 0.7586115002632141,
      "learning_rate": 2.9985698081796897e-06,
      "loss": 1.4364,
      "mean_token_accuracy": 0.6489766389131546,
      "num_tokens": 2606253316.0,
      "step": 15534
    },
    {
      "entropy": 1.7553973694642384,
      "epoch": 1.7065996539507293,
      "grad_norm": 0.7467787861824036,
      "learning_rate": 2.9978369149973773e-06,
      "loss": 1.334,
      "mean_token_accuracy": 0.6667229930559794,
      "num_tokens": 2606371755.0,
      "step": 15535
    },
    {
      "entropy": 1.7056459089120228,
      "epoch": 1.706709510862102,
      "grad_norm": 0.6380571126937866,
      "learning_rate": 2.997104275079918e-06,
      "loss": 1.4379,
      "mean_token_accuracy": 0.6464936286211014,
      "num_tokens": 2606548341.0,
      "step": 15536
    },
    {
      "entropy": 1.7088016072909038,
      "epoch": 1.706819367773475,
      "grad_norm": 0.8023338913917542,
      "learning_rate": 2.996371888450502e-06,
      "loss": 1.421,
      "mean_token_accuracy": 0.6561804662148157,
      "num_tokens": 2606692621.0,
      "step": 15537
    },
    {
      "entropy": 1.7052049537499745,
      "epoch": 1.706929224684848,
      "grad_norm": 0.6686699390411377,
      "learning_rate": 2.9956397551323113e-06,
      "loss": 1.4714,
      "mean_token_accuracy": 0.6560079008340836,
      "num_tokens": 2606846788.0,
      "step": 15538
    },
    {
      "entropy": 1.7651503086090088,
      "epoch": 1.7070390815962209,
      "grad_norm": 0.6589861512184143,
      "learning_rate": 2.9949078751485156e-06,
      "loss": 1.5128,
      "mean_token_accuracy": 0.640378495057424,
      "num_tokens": 2607021409.0,
      "step": 15539
    },
    {
      "entropy": 1.69097700715065,
      "epoch": 1.707148938507594,
      "grad_norm": 0.5823447704315186,
      "learning_rate": 2.9941762485222766e-06,
      "loss": 1.3412,
      "mean_token_accuracy": 0.662921796242396,
      "num_tokens": 2607189347.0,
      "step": 15540
    },
    {
      "entropy": 1.7773426473140717,
      "epoch": 1.7072587954189666,
      "grad_norm": 0.6733897924423218,
      "learning_rate": 2.993444875276753e-06,
      "loss": 1.4578,
      "mean_token_accuracy": 0.642360677321752,
      "num_tokens": 2607339073.0,
      "step": 15541
    },
    {
      "entropy": 1.7012966771920521,
      "epoch": 1.7073686523303397,
      "grad_norm": 0.6776845455169678,
      "learning_rate": 2.99271375543509e-06,
      "loss": 1.3251,
      "mean_token_accuracy": 0.6664983431498209,
      "num_tokens": 2607490579.0,
      "step": 15542
    },
    {
      "entropy": 1.7195370694001515,
      "epoch": 1.7074785092417126,
      "grad_norm": 0.6434686779975891,
      "learning_rate": 2.99198288902043e-06,
      "loss": 1.3383,
      "mean_token_accuracy": 0.6653375178575516,
      "num_tokens": 2607646549.0,
      "step": 15543
    },
    {
      "entropy": 1.7077328364054363,
      "epoch": 1.7075883661530855,
      "grad_norm": 0.6161625385284424,
      "learning_rate": 2.991252276055903e-06,
      "loss": 1.3273,
      "mean_token_accuracy": 0.6651216745376587,
      "num_tokens": 2607792694.0,
      "step": 15544
    },
    {
      "entropy": 1.6930580735206604,
      "epoch": 1.7076982230644586,
      "grad_norm": 0.8237130045890808,
      "learning_rate": 2.9905219165646316e-06,
      "loss": 1.2765,
      "mean_token_accuracy": 0.6694959203402201,
      "num_tokens": 2607974833.0,
      "step": 15545
    },
    {
      "entropy": 1.7149873475233715,
      "epoch": 1.7078080799758315,
      "grad_norm": 0.7254765629768372,
      "learning_rate": 2.989791810569734e-06,
      "loss": 1.453,
      "mean_token_accuracy": 0.6517289926608404,
      "num_tokens": 2608130283.0,
      "step": 15546
    },
    {
      "entropy": 1.6859596868356068,
      "epoch": 1.7079179368872044,
      "grad_norm": 0.731508195400238,
      "learning_rate": 2.989061958094316e-06,
      "loss": 1.4882,
      "mean_token_accuracy": 0.6498477756977081,
      "num_tokens": 2608311879.0,
      "step": 15547
    },
    {
      "entropy": 1.7175701260566711,
      "epoch": 1.7080277937985775,
      "grad_norm": 0.7343022227287292,
      "learning_rate": 2.9883323591614746e-06,
      "loss": 1.5166,
      "mean_token_accuracy": 0.6450098951657613,
      "num_tokens": 2608528935.0,
      "step": 15548
    },
    {
      "entropy": 1.6760614514350891,
      "epoch": 1.7081376507099502,
      "grad_norm": 0.7836624383926392,
      "learning_rate": 2.9876030137943045e-06,
      "loss": 1.2276,
      "mean_token_accuracy": 0.6732871532440186,
      "num_tokens": 2608638073.0,
      "step": 15549
    },
    {
      "entropy": 1.733736475308736,
      "epoch": 1.7082475076213233,
      "grad_norm": 0.6803503036499023,
      "learning_rate": 2.986873922015891e-06,
      "loss": 1.3603,
      "mean_token_accuracy": 0.6762413680553436,
      "num_tokens": 2608784234.0,
      "step": 15550
    },
    {
      "entropy": 1.7393794854482014,
      "epoch": 1.7083573645326962,
      "grad_norm": 0.824210524559021,
      "learning_rate": 2.9861450838493054e-06,
      "loss": 1.3731,
      "mean_token_accuracy": 0.6584658722082773,
      "num_tokens": 2608916469.0,
      "step": 15551
    },
    {
      "entropy": 1.6854054033756256,
      "epoch": 1.708467221444069,
      "grad_norm": 0.728629469871521,
      "learning_rate": 2.985416499317616e-06,
      "loss": 1.2944,
      "mean_token_accuracy": 0.6629828413327535,
      "num_tokens": 2609072203.0,
      "step": 15552
    },
    {
      "entropy": 1.6955331861972809,
      "epoch": 1.7085770783554421,
      "grad_norm": 0.6643010377883911,
      "learning_rate": 2.9846881684438853e-06,
      "loss": 1.3922,
      "mean_token_accuracy": 0.65622046093146,
      "num_tokens": 2609271094.0,
      "step": 15553
    },
    {
      "entropy": 1.6978692213694255,
      "epoch": 1.7086869352668148,
      "grad_norm": 0.7663952708244324,
      "learning_rate": 2.983960091251159e-06,
      "loss": 1.3997,
      "mean_token_accuracy": 0.6570919106403986,
      "num_tokens": 2609403906.0,
      "step": 15554
    },
    {
      "entropy": 1.7347622215747833,
      "epoch": 1.708796792178188,
      "grad_norm": 0.6088001728057861,
      "learning_rate": 2.9832322677624875e-06,
      "loss": 1.5643,
      "mean_token_accuracy": 0.6266407817602158,
      "num_tokens": 2609617624.0,
      "step": 15555
    },
    {
      "entropy": 1.7591754694779713,
      "epoch": 1.7089066490895608,
      "grad_norm": 0.6738680601119995,
      "learning_rate": 2.9825046980009005e-06,
      "loss": 1.5579,
      "mean_token_accuracy": 0.6592029680808386,
      "num_tokens": 2609781843.0,
      "step": 15556
    },
    {
      "entropy": 1.7426554759343464,
      "epoch": 1.7090165060009337,
      "grad_norm": 0.7468079924583435,
      "learning_rate": 2.981777381989426e-06,
      "loss": 1.4327,
      "mean_token_accuracy": 0.6514635235071182,
      "num_tokens": 2609965574.0,
      "step": 15557
    },
    {
      "entropy": 1.7027061482270558,
      "epoch": 1.7091263629123068,
      "grad_norm": 0.6666781306266785,
      "learning_rate": 2.9810503197510866e-06,
      "loss": 1.4226,
      "mean_token_accuracy": 0.6546925703684489,
      "num_tokens": 2610133359.0,
      "step": 15558
    },
    {
      "entropy": 1.7047854562600453,
      "epoch": 1.7092362198236797,
      "grad_norm": 0.7272503972053528,
      "learning_rate": 2.9803235113088904e-06,
      "loss": 1.3809,
      "mean_token_accuracy": 0.6511211693286896,
      "num_tokens": 2610271326.0,
      "step": 15559
    },
    {
      "entropy": 1.664241353670756,
      "epoch": 1.7093460767350526,
      "grad_norm": 0.7079517245292664,
      "learning_rate": 2.9795969566858394e-06,
      "loss": 1.4665,
      "mean_token_accuracy": 0.6483618170022964,
      "num_tokens": 2610493434.0,
      "step": 15560
    },
    {
      "entropy": 1.7043645282586415,
      "epoch": 1.7094559336464257,
      "grad_norm": 0.7159388661384583,
      "learning_rate": 2.9788706559049305e-06,
      "loss": 1.1727,
      "mean_token_accuracy": 0.683139776190122,
      "num_tokens": 2610632343.0,
      "step": 15561
    },
    {
      "entropy": 1.7370853920777638,
      "epoch": 1.7095657905577983,
      "grad_norm": 0.5975568890571594,
      "learning_rate": 2.978144608989154e-06,
      "loss": 1.285,
      "mean_token_accuracy": 0.6826331615447998,
      "num_tokens": 2610789458.0,
      "step": 15562
    },
    {
      "entropy": 1.7373074094454448,
      "epoch": 1.7096756474691714,
      "grad_norm": 0.6020911931991577,
      "learning_rate": 2.9774188159614847e-06,
      "loss": 1.4642,
      "mean_token_accuracy": 0.6399503002564112,
      "num_tokens": 2610971836.0,
      "step": 15563
    },
    {
      "entropy": 1.7091583808263142,
      "epoch": 1.7097855043805443,
      "grad_norm": 0.8372467160224915,
      "learning_rate": 2.9766932768448937e-06,
      "loss": 1.404,
      "mean_token_accuracy": 0.6612410992383957,
      "num_tokens": 2611119136.0,
      "step": 15564
    },
    {
      "entropy": 1.7217505673567455,
      "epoch": 1.7098953612919172,
      "grad_norm": 0.8266700506210327,
      "learning_rate": 2.9759679916623463e-06,
      "loss": 1.2311,
      "mean_token_accuracy": 0.6795663088560104,
      "num_tokens": 2611227488.0,
      "step": 15565
    },
    {
      "entropy": 1.6986558934052784,
      "epoch": 1.7100052182032903,
      "grad_norm": 0.6963996887207031,
      "learning_rate": 2.9752429604367945e-06,
      "loss": 1.5835,
      "mean_token_accuracy": 0.6428253799676895,
      "num_tokens": 2611427414.0,
      "step": 15566
    },
    {
      "entropy": 1.6627737681070964,
      "epoch": 1.710115075114663,
      "grad_norm": 0.621704638004303,
      "learning_rate": 2.9745181831911894e-06,
      "loss": 1.4027,
      "mean_token_accuracy": 0.6542961647113165,
      "num_tokens": 2611589095.0,
      "step": 15567
    },
    {
      "entropy": 1.6755984326203663,
      "epoch": 1.710224932026036,
      "grad_norm": 0.7194933295249939,
      "learning_rate": 2.973793659948466e-06,
      "loss": 1.5311,
      "mean_token_accuracy": 0.6462205847104391,
      "num_tokens": 2611798545.0,
      "step": 15568
    },
    {
      "entropy": 1.7322870294253032,
      "epoch": 1.710334788937409,
      "grad_norm": 0.6190232038497925,
      "learning_rate": 2.9730693907315566e-06,
      "loss": 1.6186,
      "mean_token_accuracy": 0.6203610102335612,
      "num_tokens": 2612029911.0,
      "step": 15569
    },
    {
      "entropy": 1.7027688721815746,
      "epoch": 1.7104446458487819,
      "grad_norm": 0.6538522839546204,
      "learning_rate": 2.9723453755633848e-06,
      "loss": 1.4993,
      "mean_token_accuracy": 0.6435906638701757,
      "num_tokens": 2612189497.0,
      "step": 15570
    },
    {
      "entropy": 1.7072203656037648,
      "epoch": 1.710554502760155,
      "grad_norm": 0.6151244044303894,
      "learning_rate": 2.9716216144668654e-06,
      "loss": 1.4434,
      "mean_token_accuracy": 0.6375455409288406,
      "num_tokens": 2612351230.0,
      "step": 15571
    },
    {
      "entropy": 1.6858009199301403,
      "epoch": 1.7106643596715279,
      "grad_norm": 0.634488582611084,
      "learning_rate": 2.9708981074649e-06,
      "loss": 1.3779,
      "mean_token_accuracy": 0.6542573670546213,
      "num_tokens": 2612501804.0,
      "step": 15572
    },
    {
      "entropy": 1.6959696511427562,
      "epoch": 1.7107742165829007,
      "grad_norm": 0.7555203437805176,
      "learning_rate": 2.9701748545803938e-06,
      "loss": 1.5933,
      "mean_token_accuracy": 0.6376071472962698,
      "num_tokens": 2612709277.0,
      "step": 15573
    },
    {
      "entropy": 1.6876679261525471,
      "epoch": 1.7108840734942738,
      "grad_norm": 0.8136647939682007,
      "learning_rate": 2.9694518558362363e-06,
      "loss": 1.505,
      "mean_token_accuracy": 0.6470917736490568,
      "num_tokens": 2612885448.0,
      "step": 15574
    },
    {
      "entropy": 1.7294893463452656,
      "epoch": 1.7109939304056465,
      "grad_norm": 0.6215494275093079,
      "learning_rate": 2.968729111255309e-06,
      "loss": 1.4703,
      "mean_token_accuracy": 0.6409442375103632,
      "num_tokens": 2613096534.0,
      "step": 15575
    },
    {
      "entropy": 1.7100212673346202,
      "epoch": 1.7111037873170196,
      "grad_norm": 0.7254142761230469,
      "learning_rate": 2.968006620860485e-06,
      "loss": 1.4299,
      "mean_token_accuracy": 0.6658960854013761,
      "num_tokens": 2613248348.0,
      "step": 15576
    },
    {
      "entropy": 1.7584032714366913,
      "epoch": 1.7112136442283925,
      "grad_norm": 0.7717592120170593,
      "learning_rate": 2.9672843846746326e-06,
      "loss": 1.4585,
      "mean_token_accuracy": 0.6663567970196406,
      "num_tokens": 2613406761.0,
      "step": 15577
    },
    {
      "entropy": 1.719919741153717,
      "epoch": 1.7113235011397654,
      "grad_norm": 0.6627902388572693,
      "learning_rate": 2.966562402720609e-06,
      "loss": 1.4896,
      "mean_token_accuracy": 0.6469202389319738,
      "num_tokens": 2613583879.0,
      "step": 15578
    },
    {
      "entropy": 1.6661270360151927,
      "epoch": 1.7114333580511385,
      "grad_norm": 0.7028049230575562,
      "learning_rate": 2.9658406750212664e-06,
      "loss": 1.4709,
      "mean_token_accuracy": 0.6556438406308492,
      "num_tokens": 2613730637.0,
      "step": 15579
    },
    {
      "entropy": 1.7086673080921173,
      "epoch": 1.7115432149625114,
      "grad_norm": 0.648152232170105,
      "learning_rate": 2.965119201599447e-06,
      "loss": 1.3956,
      "mean_token_accuracy": 0.6587710777918497,
      "num_tokens": 2613881692.0,
      "step": 15580
    },
    {
      "entropy": 1.664686808983485,
      "epoch": 1.7116530718738843,
      "grad_norm": 0.63326096534729,
      "learning_rate": 2.964397982477983e-06,
      "loss": 1.2859,
      "mean_token_accuracy": 0.6708424985408783,
      "num_tokens": 2614039965.0,
      "step": 15581
    },
    {
      "entropy": 1.705962876478831,
      "epoch": 1.7117629287852572,
      "grad_norm": 0.6361053586006165,
      "learning_rate": 2.963677017679702e-06,
      "loss": 1.3926,
      "mean_token_accuracy": 0.6527653137842814,
      "num_tokens": 2614228171.0,
      "step": 15582
    },
    {
      "entropy": 1.6903795500596364,
      "epoch": 1.71187278569663,
      "grad_norm": 0.8894221186637878,
      "learning_rate": 2.962956307227423e-06,
      "loss": 1.2964,
      "mean_token_accuracy": 0.661086842417717,
      "num_tokens": 2614404823.0,
      "step": 15583
    },
    {
      "entropy": 1.7170774539311726,
      "epoch": 1.7119826426080031,
      "grad_norm": 0.5786034464836121,
      "learning_rate": 2.962235851143955e-06,
      "loss": 1.4699,
      "mean_token_accuracy": 0.6363462110360464,
      "num_tokens": 2614608986.0,
      "step": 15584
    },
    {
      "entropy": 1.700467934211095,
      "epoch": 1.712092499519376,
      "grad_norm": 0.7319923639297485,
      "learning_rate": 2.9615156494520973e-06,
      "loss": 1.507,
      "mean_token_accuracy": 0.6545891861120859,
      "num_tokens": 2614767392.0,
      "step": 15585
    },
    {
      "entropy": 1.6899384955565135,
      "epoch": 1.712202356430749,
      "grad_norm": 0.800560474395752,
      "learning_rate": 2.9607957021746514e-06,
      "loss": 1.2687,
      "mean_token_accuracy": 0.6748671482006708,
      "num_tokens": 2614895120.0,
      "step": 15586
    },
    {
      "entropy": 1.6918248236179352,
      "epoch": 1.712312213342122,
      "grad_norm": 0.7248471975326538,
      "learning_rate": 2.9600760093343984e-06,
      "loss": 1.3761,
      "mean_token_accuracy": 0.6653676678737005,
      "num_tokens": 2615067944.0,
      "step": 15587
    },
    {
      "entropy": 1.684990406036377,
      "epoch": 1.7124220702534947,
      "grad_norm": 0.6657690405845642,
      "learning_rate": 2.959356570954116e-06,
      "loss": 1.3267,
      "mean_token_accuracy": 0.6671634962161382,
      "num_tokens": 2615221322.0,
      "step": 15588
    },
    {
      "entropy": 1.726973295211792,
      "epoch": 1.7125319271648678,
      "grad_norm": 0.6965436935424805,
      "learning_rate": 2.9586373870565743e-06,
      "loss": 1.2313,
      "mean_token_accuracy": 0.6775472164154053,
      "num_tokens": 2615371929.0,
      "step": 15589
    },
    {
      "entropy": 1.7516135772069295,
      "epoch": 1.7126417840762407,
      "grad_norm": 0.6991093754768372,
      "learning_rate": 2.9579184576645346e-06,
      "loss": 1.3075,
      "mean_token_accuracy": 0.6707476228475571,
      "num_tokens": 2615543141.0,
      "step": 15590
    },
    {
      "entropy": 1.7394656638304393,
      "epoch": 1.7127516409876136,
      "grad_norm": 0.6370988488197327,
      "learning_rate": 2.9571997828007567e-06,
      "loss": 1.5721,
      "mean_token_accuracy": 0.6540063172578812,
      "num_tokens": 2615728924.0,
      "step": 15591
    },
    {
      "entropy": 1.6763994693756104,
      "epoch": 1.7128614978989867,
      "grad_norm": 0.6898596882820129,
      "learning_rate": 2.956481362487977e-06,
      "loss": 1.3456,
      "mean_token_accuracy": 0.6678059051434199,
      "num_tokens": 2615892674.0,
      "step": 15592
    },
    {
      "entropy": 1.7547740538914998,
      "epoch": 1.7129713548103596,
      "grad_norm": 0.7486645579338074,
      "learning_rate": 2.9557631967489377e-06,
      "loss": 1.3792,
      "mean_token_accuracy": 0.6506419479846954,
      "num_tokens": 2616041776.0,
      "step": 15593
    },
    {
      "entropy": 1.6951400637626648,
      "epoch": 1.7130812117217324,
      "grad_norm": 0.6499601602554321,
      "learning_rate": 2.9550452856063705e-06,
      "loss": 1.4844,
      "mean_token_accuracy": 0.6406375219424566,
      "num_tokens": 2616214747.0,
      "step": 15594
    },
    {
      "entropy": 1.7358328998088837,
      "epoch": 1.7131910686331053,
      "grad_norm": 0.7066434621810913,
      "learning_rate": 2.954327629082995e-06,
      "loss": 1.425,
      "mean_token_accuracy": 0.6705079823732376,
      "num_tokens": 2616327828.0,
      "step": 15595
    },
    {
      "entropy": 1.727910081545512,
      "epoch": 1.7133009255444782,
      "grad_norm": 0.6480644941329956,
      "learning_rate": 2.953610227201522e-06,
      "loss": 1.5293,
      "mean_token_accuracy": 0.6270461082458496,
      "num_tokens": 2616497708.0,
      "step": 15596
    },
    {
      "entropy": 1.6446092625459034,
      "epoch": 1.7134107824558513,
      "grad_norm": 0.9010108709335327,
      "learning_rate": 2.9528930799846624e-06,
      "loss": 1.3272,
      "mean_token_accuracy": 0.6766605178515116,
      "num_tokens": 2616622349.0,
      "step": 15597
    },
    {
      "entropy": 1.6904981931050618,
      "epoch": 1.7135206393672242,
      "grad_norm": 0.6076183915138245,
      "learning_rate": 2.9521761874551074e-06,
      "loss": 1.4624,
      "mean_token_accuracy": 0.6577340712149938,
      "num_tokens": 2616786261.0,
      "step": 15598
    },
    {
      "entropy": 1.6667085389296215,
      "epoch": 1.713630496278597,
      "grad_norm": 0.7304791808128357,
      "learning_rate": 2.951459549635553e-06,
      "loss": 1.2399,
      "mean_token_accuracy": 0.684608002503713,
      "num_tokens": 2616919152.0,
      "step": 15599
    },
    {
      "entropy": 1.7170383930206299,
      "epoch": 1.7137403531899702,
      "grad_norm": 0.758103609085083,
      "learning_rate": 2.9507431665486762e-06,
      "loss": 1.3148,
      "mean_token_accuracy": 0.6641736576954523,
      "num_tokens": 2617016602.0,
      "step": 15600
    },
    {
      "entropy": 1.7205977539221446,
      "epoch": 1.7138502101013429,
      "grad_norm": 0.7272992730140686,
      "learning_rate": 2.95002703821715e-06,
      "loss": 1.4594,
      "mean_token_accuracy": 0.6407827585935593,
      "num_tokens": 2617200134.0,
      "step": 15601
    },
    {
      "entropy": 1.7511567175388336,
      "epoch": 1.713960067012716,
      "grad_norm": 0.6522664427757263,
      "learning_rate": 2.949311164663642e-06,
      "loss": 1.4678,
      "mean_token_accuracy": 0.6563850492238998,
      "num_tokens": 2617347308.0,
      "step": 15602
    },
    {
      "entropy": 1.7190465529759724,
      "epoch": 1.7140699239240889,
      "grad_norm": 0.7146872878074646,
      "learning_rate": 2.948595545910807e-06,
      "loss": 1.5173,
      "mean_token_accuracy": 0.6501129815975825,
      "num_tokens": 2617520468.0,
      "step": 15603
    },
    {
      "entropy": 1.7591931919256847,
      "epoch": 1.7141797808354617,
      "grad_norm": 0.7043587565422058,
      "learning_rate": 2.947880181981295e-06,
      "loss": 1.4204,
      "mean_token_accuracy": 0.6521059771378835,
      "num_tokens": 2617656762.0,
      "step": 15604
    },
    {
      "entropy": 1.713607559601466,
      "epoch": 1.7142896377468348,
      "grad_norm": 0.7444068193435669,
      "learning_rate": 2.947165072897745e-06,
      "loss": 1.4725,
      "mean_token_accuracy": 0.6571368873119354,
      "num_tokens": 2617811535.0,
      "step": 15605
    },
    {
      "entropy": 1.7211280067761738,
      "epoch": 1.7143994946582077,
      "grad_norm": 0.6797099709510803,
      "learning_rate": 2.946450218682796e-06,
      "loss": 1.4251,
      "mean_token_accuracy": 0.6561200817426046,
      "num_tokens": 2617969068.0,
      "step": 15606
    },
    {
      "entropy": 1.7104970415433247,
      "epoch": 1.7145093515695806,
      "grad_norm": 0.7477222084999084,
      "learning_rate": 2.945735619359066e-06,
      "loss": 1.4978,
      "mean_token_accuracy": 0.6518939783175787,
      "num_tokens": 2618122469.0,
      "step": 15607
    },
    {
      "entropy": 1.7389554679393768,
      "epoch": 1.7146192084809535,
      "grad_norm": 0.7334529757499695,
      "learning_rate": 2.9450212749491737e-06,
      "loss": 1.3035,
      "mean_token_accuracy": 0.6685802390178045,
      "num_tokens": 2618295553.0,
      "step": 15608
    },
    {
      "entropy": 1.6965291400750477,
      "epoch": 1.7147290653923264,
      "grad_norm": 0.725472092628479,
      "learning_rate": 2.9443071854757297e-06,
      "loss": 1.3944,
      "mean_token_accuracy": 0.6754897187153498,
      "num_tokens": 2618487620.0,
      "step": 15609
    },
    {
      "entropy": 1.7117928862571716,
      "epoch": 1.7148389223036995,
      "grad_norm": 1.0294393301010132,
      "learning_rate": 2.9435933509613323e-06,
      "loss": 1.2737,
      "mean_token_accuracy": 0.6840305080016454,
      "num_tokens": 2618628386.0,
      "step": 15610
    },
    {
      "entropy": 1.7260564068953197,
      "epoch": 1.7149487792150724,
      "grad_norm": 0.6792541742324829,
      "learning_rate": 2.942879771428577e-06,
      "loss": 1.3423,
      "mean_token_accuracy": 0.6633341958125433,
      "num_tokens": 2618816606.0,
      "step": 15611
    },
    {
      "entropy": 1.6906549831231434,
      "epoch": 1.7150586361264453,
      "grad_norm": 0.7536963224411011,
      "learning_rate": 2.9421664469000454e-06,
      "loss": 1.3189,
      "mean_token_accuracy": 0.6605163216590881,
      "num_tokens": 2618969345.0,
      "step": 15612
    },
    {
      "entropy": 1.705591360727946,
      "epoch": 1.7151684930378184,
      "grad_norm": 0.7592849731445312,
      "learning_rate": 2.941453377398313e-06,
      "loss": 1.3855,
      "mean_token_accuracy": 0.6538231472174326,
      "num_tokens": 2619169192.0,
      "step": 15613
    },
    {
      "entropy": 1.7342075407505035,
      "epoch": 1.715278349949191,
      "grad_norm": 0.7230466604232788,
      "learning_rate": 2.9407405629459525e-06,
      "loss": 1.2666,
      "mean_token_accuracy": 0.6689763913551966,
      "num_tokens": 2619273955.0,
      "step": 15614
    },
    {
      "entropy": 1.6978387037913005,
      "epoch": 1.7153882068605641,
      "grad_norm": 0.7770639657974243,
      "learning_rate": 2.940028003565521e-06,
      "loss": 1.3855,
      "mean_token_accuracy": 0.6582835217316946,
      "num_tokens": 2619478319.0,
      "step": 15615
    },
    {
      "entropy": 1.6785812576611836,
      "epoch": 1.715498063771937,
      "grad_norm": 0.6288565993309021,
      "learning_rate": 2.939315699279569e-06,
      "loss": 1.3499,
      "mean_token_accuracy": 0.6569116910298666,
      "num_tokens": 2619593713.0,
      "step": 15616
    },
    {
      "entropy": 1.7079376081625621,
      "epoch": 1.71560792068331,
      "grad_norm": 0.6645893454551697,
      "learning_rate": 2.938603650110644e-06,
      "loss": 1.3913,
      "mean_token_accuracy": 0.6528747181097666,
      "num_tokens": 2619768328.0,
      "step": 15617
    },
    {
      "entropy": 1.6401109794775646,
      "epoch": 1.715717777594683,
      "grad_norm": 0.5823392868041992,
      "learning_rate": 2.9378918560812825e-06,
      "loss": 1.386,
      "mean_token_accuracy": 0.6663381606340408,
      "num_tokens": 2619922330.0,
      "step": 15618
    },
    {
      "entropy": 1.6434422830740611,
      "epoch": 1.715827634506056,
      "grad_norm": 0.8188596963882446,
      "learning_rate": 2.93718031721401e-06,
      "loss": 1.2486,
      "mean_token_accuracy": 0.6767540127038956,
      "num_tokens": 2620087889.0,
      "step": 15619
    },
    {
      "entropy": 1.706367423137029,
      "epoch": 1.7159374914174288,
      "grad_norm": 0.766272246837616,
      "learning_rate": 2.9364690335313463e-06,
      "loss": 1.4292,
      "mean_token_accuracy": 0.6471919765075048,
      "num_tokens": 2620250444.0,
      "step": 15620
    },
    {
      "entropy": 1.6769792238871257,
      "epoch": 1.7160473483288017,
      "grad_norm": 0.6159754991531372,
      "learning_rate": 2.935758005055806e-06,
      "loss": 1.4807,
      "mean_token_accuracy": 0.638146718343099,
      "num_tokens": 2620434298.0,
      "step": 15621
    },
    {
      "entropy": 1.6449984113375347,
      "epoch": 1.7161572052401746,
      "grad_norm": 0.7580591440200806,
      "learning_rate": 2.9350472318098886e-06,
      "loss": 1.2516,
      "mean_token_accuracy": 0.672856385509173,
      "num_tokens": 2620564546.0,
      "step": 15622
    },
    {
      "entropy": 1.6625539064407349,
      "epoch": 1.7162670621515477,
      "grad_norm": 0.713958203792572,
      "learning_rate": 2.9343367138160943e-06,
      "loss": 1.3285,
      "mean_token_accuracy": 0.6687121589978536,
      "num_tokens": 2620712844.0,
      "step": 15623
    },
    {
      "entropy": 1.6688397228717804,
      "epoch": 1.7163769190629206,
      "grad_norm": 0.6362452507019043,
      "learning_rate": 2.9336264510969083e-06,
      "loss": 1.4256,
      "mean_token_accuracy": 0.6454948534568151,
      "num_tokens": 2620910175.0,
      "step": 15624
    },
    {
      "entropy": 1.734671155611674,
      "epoch": 1.7164867759742934,
      "grad_norm": 0.6450325846672058,
      "learning_rate": 2.9329164436748086e-06,
      "loss": 1.4168,
      "mean_token_accuracy": 0.6560704112052917,
      "num_tokens": 2621043013.0,
      "step": 15625
    },
    {
      "entropy": 1.7354978024959564,
      "epoch": 1.7165966328856666,
      "grad_norm": 0.7361391186714172,
      "learning_rate": 2.9322066915722706e-06,
      "loss": 1.4561,
      "mean_token_accuracy": 0.6466700434684753,
      "num_tokens": 2621186220.0,
      "step": 15626
    },
    {
      "entropy": 1.6472897231578827,
      "epoch": 1.7167064897970392,
      "grad_norm": 0.7093019485473633,
      "learning_rate": 2.931497194811755e-06,
      "loss": 1.2352,
      "mean_token_accuracy": 0.6806353082259496,
      "num_tokens": 2621304502.0,
      "step": 15627
    },
    {
      "entropy": 1.6753909885883331,
      "epoch": 1.7168163467084123,
      "grad_norm": 0.7245997786521912,
      "learning_rate": 2.930787953415716e-06,
      "loss": 1.4154,
      "mean_token_accuracy": 0.6562784959872564,
      "num_tokens": 2621490780.0,
      "step": 15628
    },
    {
      "entropy": 1.6912651062011719,
      "epoch": 1.7169262036197852,
      "grad_norm": 0.752405047416687,
      "learning_rate": 2.9300789674066014e-06,
      "loss": 1.4143,
      "mean_token_accuracy": 0.6599976718425751,
      "num_tokens": 2621649870.0,
      "step": 15629
    },
    {
      "entropy": 1.6908113261063893,
      "epoch": 1.717036060531158,
      "grad_norm": 0.6509510278701782,
      "learning_rate": 2.929370236806854e-06,
      "loss": 1.3438,
      "mean_token_accuracy": 0.663862998286883,
      "num_tokens": 2621790608.0,
      "step": 15630
    },
    {
      "entropy": 1.6996460954348247,
      "epoch": 1.7171459174425312,
      "grad_norm": 0.6494753956794739,
      "learning_rate": 2.9286617616389005e-06,
      "loss": 1.3424,
      "mean_token_accuracy": 0.6629728774229685,
      "num_tokens": 2621924824.0,
      "step": 15631
    },
    {
      "entropy": 1.6819026172161102,
      "epoch": 1.717255774353904,
      "grad_norm": 0.8028758764266968,
      "learning_rate": 2.9279535419251646e-06,
      "loss": 1.5812,
      "mean_token_accuracy": 0.636813203493754,
      "num_tokens": 2622102501.0,
      "step": 15632
    },
    {
      "entropy": 1.7385485967000325,
      "epoch": 1.717365631265277,
      "grad_norm": 0.7110795378684998,
      "learning_rate": 2.9272455776880632e-06,
      "loss": 1.3385,
      "mean_token_accuracy": 0.6732540826002756,
      "num_tokens": 2622244211.0,
      "step": 15633
    },
    {
      "entropy": 1.6775075495243073,
      "epoch": 1.71747548817665,
      "grad_norm": 0.6379189491271973,
      "learning_rate": 2.9265378689499995e-06,
      "loss": 1.5725,
      "mean_token_accuracy": 0.6385338008403778,
      "num_tokens": 2622442665.0,
      "step": 15634
    },
    {
      "entropy": 1.654201736052831,
      "epoch": 1.7175853450880227,
      "grad_norm": 0.5896367430686951,
      "learning_rate": 2.9258304157333763e-06,
      "loss": 1.3321,
      "mean_token_accuracy": 0.6641835123300552,
      "num_tokens": 2622625441.0,
      "step": 15635
    },
    {
      "entropy": 1.7210518419742584,
      "epoch": 1.7176952019993958,
      "grad_norm": 0.657882809638977,
      "learning_rate": 2.9251232180605822e-06,
      "loss": 1.4463,
      "mean_token_accuracy": 0.6423710286617279,
      "num_tokens": 2622849920.0,
      "step": 15636
    },
    {
      "entropy": 1.6777076125144958,
      "epoch": 1.7178050589107687,
      "grad_norm": 0.6649149060249329,
      "learning_rate": 2.9244162759539977e-06,
      "loss": 1.4115,
      "mean_token_accuracy": 0.6619361639022827,
      "num_tokens": 2623045328.0,
      "step": 15637
    },
    {
      "entropy": 1.7354417145252228,
      "epoch": 1.7179149158221416,
      "grad_norm": 0.6765681505203247,
      "learning_rate": 2.923709589436001e-06,
      "loss": 1.3755,
      "mean_token_accuracy": 0.664703369140625,
      "num_tokens": 2623167633.0,
      "step": 15638
    },
    {
      "entropy": 1.7414036691188812,
      "epoch": 1.7180247727335147,
      "grad_norm": 0.7814067006111145,
      "learning_rate": 2.9230031585289564e-06,
      "loss": 1.4758,
      "mean_token_accuracy": 0.6637212236722311,
      "num_tokens": 2623339230.0,
      "step": 15639
    },
    {
      "entropy": 1.7026597261428833,
      "epoch": 1.7181346296448874,
      "grad_norm": 0.7521904110908508,
      "learning_rate": 2.9222969832552205e-06,
      "loss": 1.6311,
      "mean_token_accuracy": 0.6423285851875941,
      "num_tokens": 2623520275.0,
      "step": 15640
    },
    {
      "entropy": 1.7413414518038433,
      "epoch": 1.7182444865562605,
      "grad_norm": 0.6938111186027527,
      "learning_rate": 2.9215910636371454e-06,
      "loss": 1.4661,
      "mean_token_accuracy": 0.6471091061830521,
      "num_tokens": 2623733621.0,
      "step": 15641
    },
    {
      "entropy": 1.7483003437519073,
      "epoch": 1.7183543434676334,
      "grad_norm": 0.617083728313446,
      "learning_rate": 2.920885399697074e-06,
      "loss": 1.3296,
      "mean_token_accuracy": 0.6537606020768484,
      "num_tokens": 2623881830.0,
      "step": 15642
    },
    {
      "entropy": 1.65190593401591,
      "epoch": 1.7184642003790063,
      "grad_norm": 0.6645247936248779,
      "learning_rate": 2.9201799914573397e-06,
      "loss": 1.3003,
      "mean_token_accuracy": 0.6721631934245428,
      "num_tokens": 2624073705.0,
      "step": 15643
    },
    {
      "entropy": 1.7330858608086903,
      "epoch": 1.7185740572903794,
      "grad_norm": 0.6733470559120178,
      "learning_rate": 2.919474838940266e-06,
      "loss": 1.446,
      "mean_token_accuracy": 0.6582320332527161,
      "num_tokens": 2624229129.0,
      "step": 15644
    },
    {
      "entropy": 1.857384592294693,
      "epoch": 1.7186839142017523,
      "grad_norm": 0.659773588180542,
      "learning_rate": 2.918769942168175e-06,
      "loss": 1.4821,
      "mean_token_accuracy": 0.6398710956176122,
      "num_tokens": 2624382591.0,
      "step": 15645
    },
    {
      "entropy": 1.7804729243119557,
      "epoch": 1.7187937711131251,
      "grad_norm": 0.7186923027038574,
      "learning_rate": 2.9180653011633718e-06,
      "loss": 1.4907,
      "mean_token_accuracy": 0.6509936352570852,
      "num_tokens": 2624575510.0,
      "step": 15646
    },
    {
      "entropy": 1.740348070859909,
      "epoch": 1.7189036280244983,
      "grad_norm": 0.7147418856620789,
      "learning_rate": 2.9173609159481623e-06,
      "loss": 1.3815,
      "mean_token_accuracy": 0.6621488879124323,
      "num_tokens": 2624712724.0,
      "step": 15647
    },
    {
      "entropy": 1.6902793844540913,
      "epoch": 1.719013484935871,
      "grad_norm": 0.7417254447937012,
      "learning_rate": 2.9166567865448354e-06,
      "loss": 1.4179,
      "mean_token_accuracy": 0.6671228508154551,
      "num_tokens": 2624891490.0,
      "step": 15648
    },
    {
      "entropy": 1.7188851237297058,
      "epoch": 1.719123341847244,
      "grad_norm": 0.7302298545837402,
      "learning_rate": 2.9159529129756786e-06,
      "loss": 1.3433,
      "mean_token_accuracy": 0.6725572695334753,
      "num_tokens": 2625061436.0,
      "step": 15649
    },
    {
      "entropy": 1.7102177143096924,
      "epoch": 1.719233198758617,
      "grad_norm": 0.7004075050354004,
      "learning_rate": 2.9152492952629705e-06,
      "loss": 1.348,
      "mean_token_accuracy": 0.6611120849847794,
      "num_tokens": 2625204652.0,
      "step": 15650
    },
    {
      "entropy": 1.7715183695157368,
      "epoch": 1.7193430556699898,
      "grad_norm": 0.6727532148361206,
      "learning_rate": 2.9145459334289793e-06,
      "loss": 1.3649,
      "mean_token_accuracy": 0.655080164472262,
      "num_tokens": 2625372329.0,
      "step": 15651
    },
    {
      "entropy": 1.705493172009786,
      "epoch": 1.719452912581363,
      "grad_norm": 0.632786750793457,
      "learning_rate": 2.913842827495964e-06,
      "loss": 1.5373,
      "mean_token_accuracy": 0.6413880536953608,
      "num_tokens": 2625606863.0,
      "step": 15652
    },
    {
      "entropy": 1.6163564026355743,
      "epoch": 1.7195627694927356,
      "grad_norm": 0.6396132111549377,
      "learning_rate": 2.9131399774861823e-06,
      "loss": 1.3683,
      "mean_token_accuracy": 0.6635381281375885,
      "num_tokens": 2625790091.0,
      "step": 15653
    },
    {
      "entropy": 1.7325818141301472,
      "epoch": 1.7196726264041087,
      "grad_norm": 0.6826179623603821,
      "learning_rate": 2.9124373834218733e-06,
      "loss": 1.4846,
      "mean_token_accuracy": 0.637732004125913,
      "num_tokens": 2625965636.0,
      "step": 15654
    },
    {
      "entropy": 1.727001855770747,
      "epoch": 1.7197824833154816,
      "grad_norm": 0.7186253070831299,
      "learning_rate": 2.9117350453252797e-06,
      "loss": 1.3532,
      "mean_token_accuracy": 0.6762463947137197,
      "num_tokens": 2626105857.0,
      "step": 15655
    },
    {
      "entropy": 1.673914760351181,
      "epoch": 1.7198923402268544,
      "grad_norm": 0.7053311467170715,
      "learning_rate": 2.9110329632186264e-06,
      "loss": 1.4876,
      "mean_token_accuracy": 0.6486860315004984,
      "num_tokens": 2626261625.0,
      "step": 15656
    },
    {
      "entropy": 1.701512336730957,
      "epoch": 1.7200021971382276,
      "grad_norm": 0.5304204821586609,
      "learning_rate": 2.9103311371241328e-06,
      "loss": 1.4538,
      "mean_token_accuracy": 0.6435932020346323,
      "num_tokens": 2626484562.0,
      "step": 15657
    },
    {
      "entropy": 1.7574267089366913,
      "epoch": 1.7201120540496004,
      "grad_norm": 0.6676803231239319,
      "learning_rate": 2.909629567064014e-06,
      "loss": 1.3626,
      "mean_token_accuracy": 0.6545713643232981,
      "num_tokens": 2626646846.0,
      "step": 15658
    },
    {
      "entropy": 1.7169890503088634,
      "epoch": 1.7202219109609733,
      "grad_norm": 0.6293471455574036,
      "learning_rate": 2.908928253060478e-06,
      "loss": 1.4239,
      "mean_token_accuracy": 0.6564174294471741,
      "num_tokens": 2626829982.0,
      "step": 15659
    },
    {
      "entropy": 1.6367035309473674,
      "epoch": 1.7203317678723464,
      "grad_norm": 0.6502057909965515,
      "learning_rate": 2.908227195135712e-06,
      "loss": 1.4779,
      "mean_token_accuracy": 0.6452774107456207,
      "num_tokens": 2627025170.0,
      "step": 15660
    },
    {
      "entropy": 1.6846541166305542,
      "epoch": 1.720441624783719,
      "grad_norm": 0.842652440071106,
      "learning_rate": 2.907526393311909e-06,
      "loss": 1.4808,
      "mean_token_accuracy": 0.6536863893270493,
      "num_tokens": 2627194478.0,
      "step": 15661
    },
    {
      "entropy": 1.697983334461848,
      "epoch": 1.7205514816950922,
      "grad_norm": 0.6564600467681885,
      "learning_rate": 2.906825847611252e-06,
      "loss": 1.4753,
      "mean_token_accuracy": 0.6554812788963318,
      "num_tokens": 2627373566.0,
      "step": 15662
    },
    {
      "entropy": 1.7039678891499836,
      "epoch": 1.720661338606465,
      "grad_norm": 0.7069868445396423,
      "learning_rate": 2.90612555805591e-06,
      "loss": 1.3481,
      "mean_token_accuracy": 0.6676451563835144,
      "num_tokens": 2627564580.0,
      "step": 15663
    },
    {
      "entropy": 1.6884814302126567,
      "epoch": 1.720771195517838,
      "grad_norm": 0.6857156157493591,
      "learning_rate": 2.905425524668044e-06,
      "loss": 1.3325,
      "mean_token_accuracy": 0.6730131804943085,
      "num_tokens": 2627688092.0,
      "step": 15664
    },
    {
      "entropy": 1.7210382620493572,
      "epoch": 1.720881052429211,
      "grad_norm": 0.6751901507377625,
      "learning_rate": 2.9047257474698155e-06,
      "loss": 1.4386,
      "mean_token_accuracy": 0.6408843944470087,
      "num_tokens": 2627853159.0,
      "step": 15665
    },
    {
      "entropy": 1.6964699625968933,
      "epoch": 1.7209909093405837,
      "grad_norm": 0.7327737212181091,
      "learning_rate": 2.9040262264833662e-06,
      "loss": 1.3029,
      "mean_token_accuracy": 0.6690873155991236,
      "num_tokens": 2627964728.0,
      "step": 15666
    },
    {
      "entropy": 1.7300258974234264,
      "epoch": 1.7211007662519568,
      "grad_norm": 0.7446189522743225,
      "learning_rate": 2.9033269617308417e-06,
      "loss": 1.4907,
      "mean_token_accuracy": 0.628525917728742,
      "num_tokens": 2628197249.0,
      "step": 15667
    },
    {
      "entropy": 1.73529119292895,
      "epoch": 1.7212106231633297,
      "grad_norm": 0.618928074836731,
      "learning_rate": 2.9026279532343702e-06,
      "loss": 1.3959,
      "mean_token_accuracy": 0.6569162358840307,
      "num_tokens": 2628372683.0,
      "step": 15668
    },
    {
      "entropy": 1.7280128796895344,
      "epoch": 1.7213204800747026,
      "grad_norm": 0.6142230033874512,
      "learning_rate": 2.9019292010160738e-06,
      "loss": 1.2844,
      "mean_token_accuracy": 0.6628156552712122,
      "num_tokens": 2628508232.0,
      "step": 15669
    },
    {
      "entropy": 1.7332999805609386,
      "epoch": 1.7214303369860757,
      "grad_norm": 0.6877867579460144,
      "learning_rate": 2.901230705098068e-06,
      "loss": 1.3278,
      "mean_token_accuracy": 0.6685926765203476,
      "num_tokens": 2628666542.0,
      "step": 15670
    },
    {
      "entropy": 1.650905857483546,
      "epoch": 1.7215401938974486,
      "grad_norm": 0.7264050841331482,
      "learning_rate": 2.9005324655024645e-06,
      "loss": 1.1828,
      "mean_token_accuracy": 0.6877222855885824,
      "num_tokens": 2628793638.0,
      "step": 15671
    },
    {
      "entropy": 1.7235294878482819,
      "epoch": 1.7216500508088215,
      "grad_norm": 0.8157387375831604,
      "learning_rate": 2.8998344822513563e-06,
      "loss": 1.3123,
      "mean_token_accuracy": 0.6598003009955088,
      "num_tokens": 2628914826.0,
      "step": 15672
    },
    {
      "entropy": 1.7341767648855846,
      "epoch": 1.7217599077201946,
      "grad_norm": 0.645763635635376,
      "learning_rate": 2.8991367553668364e-06,
      "loss": 1.4893,
      "mean_token_accuracy": 0.6368632217248281,
      "num_tokens": 2629125796.0,
      "step": 15673
    },
    {
      "entropy": 1.7225966950257618,
      "epoch": 1.7218697646315673,
      "grad_norm": 0.6662589311599731,
      "learning_rate": 2.89843928487099e-06,
      "loss": 1.365,
      "mean_token_accuracy": 0.6565856287876765,
      "num_tokens": 2629318301.0,
      "step": 15674
    },
    {
      "entropy": 1.7104746202627819,
      "epoch": 1.7219796215429404,
      "grad_norm": 0.6441190242767334,
      "learning_rate": 2.8977420707858896e-06,
      "loss": 1.5115,
      "mean_token_accuracy": 0.6391011476516724,
      "num_tokens": 2629516989.0,
      "step": 15675
    },
    {
      "entropy": 1.580856482187907,
      "epoch": 1.7220894784543133,
      "grad_norm": 0.5921868681907654,
      "learning_rate": 2.8970451131335987e-06,
      "loss": 1.2911,
      "mean_token_accuracy": 0.6746866156657537,
      "num_tokens": 2629683168.0,
      "step": 15676
    },
    {
      "entropy": 1.6643680731455486,
      "epoch": 1.7221993353656861,
      "grad_norm": 0.5791040062904358,
      "learning_rate": 2.8963484119361807e-06,
      "loss": 1.36,
      "mean_token_accuracy": 0.6568904668092728,
      "num_tokens": 2629835992.0,
      "step": 15677
    },
    {
      "entropy": 1.7079329987366993,
      "epoch": 1.7223091922770593,
      "grad_norm": 0.6563646793365479,
      "learning_rate": 2.895651967215683e-06,
      "loss": 1.4994,
      "mean_token_accuracy": 0.6590022444725037,
      "num_tokens": 2630030474.0,
      "step": 15678
    },
    {
      "entropy": 1.6830817659695942,
      "epoch": 1.722419049188432,
      "grad_norm": 0.653887152671814,
      "learning_rate": 2.8949557789941496e-06,
      "loss": 1.4428,
      "mean_token_accuracy": 0.6400194962819418,
      "num_tokens": 2630253676.0,
      "step": 15679
    },
    {
      "entropy": 1.6895558039347331,
      "epoch": 1.722528906099805,
      "grad_norm": 0.6651843190193176,
      "learning_rate": 2.894259847293614e-06,
      "loss": 1.4028,
      "mean_token_accuracy": 0.6565206199884415,
      "num_tokens": 2630450982.0,
      "step": 15680
    },
    {
      "entropy": 1.671963373819987,
      "epoch": 1.722638763011178,
      "grad_norm": 0.667715847492218,
      "learning_rate": 2.8935641721360997e-06,
      "loss": 1.408,
      "mean_token_accuracy": 0.6582218011220297,
      "num_tokens": 2630606203.0,
      "step": 15681
    },
    {
      "entropy": 1.7464380860328674,
      "epoch": 1.7227486199225508,
      "grad_norm": 0.7251789569854736,
      "learning_rate": 2.892868753543628e-06,
      "loss": 1.4277,
      "mean_token_accuracy": 0.6359966893990835,
      "num_tokens": 2630771994.0,
      "step": 15682
    },
    {
      "entropy": 1.7634708881378174,
      "epoch": 1.722858476833924,
      "grad_norm": 0.84815913438797,
      "learning_rate": 2.8921735915382077e-06,
      "loss": 1.5548,
      "mean_token_accuracy": 0.6365585227807363,
      "num_tokens": 2630956170.0,
      "step": 15683
    },
    {
      "entropy": 1.7360106408596039,
      "epoch": 1.7229683337452968,
      "grad_norm": 0.76357102394104,
      "learning_rate": 2.891478686141838e-06,
      "loss": 1.3809,
      "mean_token_accuracy": 0.6442870199680328,
      "num_tokens": 2631129034.0,
      "step": 15684
    },
    {
      "entropy": 1.7115418414274852,
      "epoch": 1.7230781906566697,
      "grad_norm": 1.291322112083435,
      "learning_rate": 2.890784037376514e-06,
      "loss": 1.1999,
      "mean_token_accuracy": 0.6683139950037003,
      "num_tokens": 2631354553.0,
      "step": 15685
    },
    {
      "entropy": 1.7102199296156566,
      "epoch": 1.7231880475680428,
      "grad_norm": 0.6701323390007019,
      "learning_rate": 2.8900896452642236e-06,
      "loss": 1.2201,
      "mean_token_accuracy": 0.6836532801389694,
      "num_tokens": 2631473586.0,
      "step": 15686
    },
    {
      "entropy": 1.658743570248286,
      "epoch": 1.7232979044794154,
      "grad_norm": 0.7017245292663574,
      "learning_rate": 2.8893955098269404e-06,
      "loss": 1.1978,
      "mean_token_accuracy": 0.6843846688667933,
      "num_tokens": 2631581852.0,
      "step": 15687
    },
    {
      "entropy": 1.636157254378001,
      "epoch": 1.7234077613907886,
      "grad_norm": 0.6195902824401855,
      "learning_rate": 2.888701631086633e-06,
      "loss": 1.4816,
      "mean_token_accuracy": 0.6684853285551071,
      "num_tokens": 2631732814.0,
      "step": 15688
    },
    {
      "entropy": 1.7463614245255787,
      "epoch": 1.7235176183021614,
      "grad_norm": 0.6704382300376892,
      "learning_rate": 2.888008009065266e-06,
      "loss": 1.3736,
      "mean_token_accuracy": 0.6524703949689865,
      "num_tokens": 2631917876.0,
      "step": 15689
    },
    {
      "entropy": 1.7010905543963115,
      "epoch": 1.7236274752135343,
      "grad_norm": 0.5545864701271057,
      "learning_rate": 2.8873146437847876e-06,
      "loss": 1.4765,
      "mean_token_accuracy": 0.638947606086731,
      "num_tokens": 2632151477.0,
      "step": 15690
    },
    {
      "entropy": 1.7439953585465748,
      "epoch": 1.7237373321249074,
      "grad_norm": 0.8762944340705872,
      "learning_rate": 2.8866215352671477e-06,
      "loss": 1.3559,
      "mean_token_accuracy": 0.6531753689050674,
      "num_tokens": 2632332013.0,
      "step": 15691
    },
    {
      "entropy": 1.716113030910492,
      "epoch": 1.72384718903628,
      "grad_norm": 0.6564568281173706,
      "learning_rate": 2.8859286835342793e-06,
      "loss": 1.4302,
      "mean_token_accuracy": 0.6436122357845306,
      "num_tokens": 2632523258.0,
      "step": 15692
    },
    {
      "entropy": 1.7107328176498413,
      "epoch": 1.7239570459476532,
      "grad_norm": 0.6151549220085144,
      "learning_rate": 2.885236088608111e-06,
      "loss": 1.3062,
      "mean_token_accuracy": 0.673832893371582,
      "num_tokens": 2632670998.0,
      "step": 15693
    },
    {
      "entropy": 1.6899991532166798,
      "epoch": 1.724066902859026,
      "grad_norm": 0.6508071422576904,
      "learning_rate": 2.8845437505105662e-06,
      "loss": 1.3572,
      "mean_token_accuracy": 0.6597887774308523,
      "num_tokens": 2632825597.0,
      "step": 15694
    },
    {
      "entropy": 1.7111450632413228,
      "epoch": 1.724176759770399,
      "grad_norm": 0.6507290005683899,
      "learning_rate": 2.883851669263554e-06,
      "loss": 1.4109,
      "mean_token_accuracy": 0.6530921260515848,
      "num_tokens": 2633013026.0,
      "step": 15695
    },
    {
      "entropy": 1.7176082531611125,
      "epoch": 1.724286616681772,
      "grad_norm": 0.7525252103805542,
      "learning_rate": 2.883159844888977e-06,
      "loss": 1.3411,
      "mean_token_accuracy": 0.6653605997562408,
      "num_tokens": 2633157545.0,
      "step": 15696
    },
    {
      "entropy": 1.6218600273132324,
      "epoch": 1.724396473593145,
      "grad_norm": 0.6842386722564697,
      "learning_rate": 2.8824682774087336e-06,
      "loss": 1.2215,
      "mean_token_accuracy": 0.6854247947533926,
      "num_tokens": 2633332852.0,
      "step": 15697
    },
    {
      "entropy": 1.7413849532604218,
      "epoch": 1.7245063305045178,
      "grad_norm": 0.7053453326225281,
      "learning_rate": 2.881776966844714e-06,
      "loss": 1.3955,
      "mean_token_accuracy": 0.6568620105584463,
      "num_tokens": 2633497069.0,
      "step": 15698
    },
    {
      "entropy": 1.7630057732264202,
      "epoch": 1.724616187415891,
      "grad_norm": 0.7357109785079956,
      "learning_rate": 2.881085913218794e-06,
      "loss": 1.3177,
      "mean_token_accuracy": 0.663982942700386,
      "num_tokens": 2633664211.0,
      "step": 15699
    },
    {
      "entropy": 1.7018859187761943,
      "epoch": 1.7247260443272636,
      "grad_norm": 0.7314789295196533,
      "learning_rate": 2.880395116552845e-06,
      "loss": 1.3952,
      "mean_token_accuracy": 0.6586244255304337,
      "num_tokens": 2633847816.0,
      "step": 15700
    },
    {
      "entropy": 1.6985140244166057,
      "epoch": 1.7248359012386367,
      "grad_norm": 0.6651721596717834,
      "learning_rate": 2.879704576868734e-06,
      "loss": 1.3008,
      "mean_token_accuracy": 0.672162319223086,
      "num_tokens": 2634007895.0,
      "step": 15701
    },
    {
      "entropy": 1.6979452073574066,
      "epoch": 1.7249457581500096,
      "grad_norm": 0.6808459758758545,
      "learning_rate": 2.8790142941883114e-06,
      "loss": 1.4499,
      "mean_token_accuracy": 0.6408154418071111,
      "num_tokens": 2634259125.0,
      "step": 15702
    },
    {
      "entropy": 1.647172898054123,
      "epoch": 1.7250556150613825,
      "grad_norm": 0.6427389979362488,
      "learning_rate": 2.87832426853343e-06,
      "loss": 1.396,
      "mean_token_accuracy": 0.6532814701398214,
      "num_tokens": 2634408832.0,
      "step": 15703
    },
    {
      "entropy": 1.701138327519099,
      "epoch": 1.7251654719727556,
      "grad_norm": 0.7189123034477234,
      "learning_rate": 2.8776344999259253e-06,
      "loss": 1.5086,
      "mean_token_accuracy": 0.637222687403361,
      "num_tokens": 2634574740.0,
      "step": 15704
    },
    {
      "entropy": 1.7070972124735515,
      "epoch": 1.7252753288841283,
      "grad_norm": 0.6271539926528931,
      "learning_rate": 2.876944988387626e-06,
      "loss": 1.3537,
      "mean_token_accuracy": 0.6601554602384567,
      "num_tokens": 2634731896.0,
      "step": 15705
    },
    {
      "entropy": 1.653431475162506,
      "epoch": 1.7253851857955014,
      "grad_norm": 0.8477639555931091,
      "learning_rate": 2.87625573394036e-06,
      "loss": 1.3336,
      "mean_token_accuracy": 0.6693581690390905,
      "num_tokens": 2634853832.0,
      "step": 15706
    },
    {
      "entropy": 1.729806274175644,
      "epoch": 1.7254950427068743,
      "grad_norm": 0.6469348073005676,
      "learning_rate": 2.8755667366059403e-06,
      "loss": 1.5134,
      "mean_token_accuracy": 0.650507057706515,
      "num_tokens": 2635036350.0,
      "step": 15707
    },
    {
      "entropy": 1.692490776379903,
      "epoch": 1.7256048996182471,
      "grad_norm": 0.6189622282981873,
      "learning_rate": 2.8748779964061697e-06,
      "loss": 1.3822,
      "mean_token_accuracy": 0.6697244842847189,
      "num_tokens": 2635210409.0,
      "step": 15708
    },
    {
      "entropy": 1.7030345400174458,
      "epoch": 1.7257147565296203,
      "grad_norm": 0.6761047840118408,
      "learning_rate": 2.8741895133628506e-06,
      "loss": 1.2378,
      "mean_token_accuracy": 0.6791710207859675,
      "num_tokens": 2635326490.0,
      "step": 15709
    },
    {
      "entropy": 1.7439703047275543,
      "epoch": 1.7258246134409931,
      "grad_norm": 0.80422043800354,
      "learning_rate": 2.873501287497771e-06,
      "loss": 1.399,
      "mean_token_accuracy": 0.6671061217784882,
      "num_tokens": 2635455970.0,
      "step": 15710
    },
    {
      "entropy": 1.7496139506498973,
      "epoch": 1.725934470352366,
      "grad_norm": 0.6345416903495789,
      "learning_rate": 2.8728133188327144e-06,
      "loss": 1.4652,
      "mean_token_accuracy": 0.6486029028892517,
      "num_tokens": 2635665581.0,
      "step": 15711
    },
    {
      "entropy": 1.6556781927744548,
      "epoch": 1.7260443272637391,
      "grad_norm": 0.6797258257865906,
      "learning_rate": 2.8721256073894554e-06,
      "loss": 1.3187,
      "mean_token_accuracy": 0.6713179250558218,
      "num_tokens": 2635846577.0,
      "step": 15712
    },
    {
      "entropy": 1.7008158266544342,
      "epoch": 1.7261541841751118,
      "grad_norm": 0.8460964560508728,
      "learning_rate": 2.8714381531897552e-06,
      "loss": 1.4194,
      "mean_token_accuracy": 0.662114754319191,
      "num_tokens": 2636002590.0,
      "step": 15713
    },
    {
      "entropy": 1.6474326451619465,
      "epoch": 1.726264041086485,
      "grad_norm": 0.6482619047164917,
      "learning_rate": 2.8707509562553754e-06,
      "loss": 1.4091,
      "mean_token_accuracy": 0.6451590359210968,
      "num_tokens": 2636207089.0,
      "step": 15714
    },
    {
      "entropy": 1.7873999178409576,
      "epoch": 1.7263738979978578,
      "grad_norm": 0.7166942358016968,
      "learning_rate": 2.8700640166080678e-06,
      "loss": 1.4096,
      "mean_token_accuracy": 0.6470801830291748,
      "num_tokens": 2636356920.0,
      "step": 15715
    },
    {
      "entropy": 1.7664975921312969,
      "epoch": 1.7264837549092307,
      "grad_norm": 0.8807752728462219,
      "learning_rate": 2.869377334269568e-06,
      "loss": 1.3901,
      "mean_token_accuracy": 0.6581128338972727,
      "num_tokens": 2636495774.0,
      "step": 15716
    },
    {
      "entropy": 1.716484268506368,
      "epoch": 1.7265936118206038,
      "grad_norm": 0.6690646409988403,
      "learning_rate": 2.868690909261611e-06,
      "loss": 1.2976,
      "mean_token_accuracy": 0.672653466463089,
      "num_tokens": 2636615668.0,
      "step": 15717
    },
    {
      "entropy": 1.7186988592147827,
      "epoch": 1.7267034687319764,
      "grad_norm": 0.6803736090660095,
      "learning_rate": 2.8680047416059255e-06,
      "loss": 1.464,
      "mean_token_accuracy": 0.6469851434230804,
      "num_tokens": 2636766089.0,
      "step": 15718
    },
    {
      "entropy": 1.7901420791943867,
      "epoch": 1.7268133256433496,
      "grad_norm": 0.9188567399978638,
      "learning_rate": 2.867318831324225e-06,
      "loss": 1.7136,
      "mean_token_accuracy": 0.6263786852359772,
      "num_tokens": 2636910508.0,
      "step": 15719
    },
    {
      "entropy": 1.710059146086375,
      "epoch": 1.7269231825547224,
      "grad_norm": 0.7188782095909119,
      "learning_rate": 2.8666331784382164e-06,
      "loss": 1.4827,
      "mean_token_accuracy": 0.6406730314095815,
      "num_tokens": 2637071721.0,
      "step": 15720
    },
    {
      "entropy": 1.6877124905586243,
      "epoch": 1.7270330394660953,
      "grad_norm": 0.6510874629020691,
      "learning_rate": 2.865947782969605e-06,
      "loss": 1.3875,
      "mean_token_accuracy": 0.6546644171079,
      "num_tokens": 2637242150.0,
      "step": 15721
    },
    {
      "entropy": 1.7223760485649109,
      "epoch": 1.7271428963774684,
      "grad_norm": 0.713353157043457,
      "learning_rate": 2.8652626449400794e-06,
      "loss": 1.4072,
      "mean_token_accuracy": 0.6563191761573156,
      "num_tokens": 2637397453.0,
      "step": 15722
    },
    {
      "entropy": 1.687508871157964,
      "epoch": 1.7272527532888413,
      "grad_norm": 0.6655722856521606,
      "learning_rate": 2.864577764371327e-06,
      "loss": 1.5558,
      "mean_token_accuracy": 0.6428915162881216,
      "num_tokens": 2637576207.0,
      "step": 15723
    },
    {
      "entropy": 1.7700623273849487,
      "epoch": 1.7273626102002142,
      "grad_norm": 0.8303236365318298,
      "learning_rate": 2.8638931412850226e-06,
      "loss": 1.4077,
      "mean_token_accuracy": 0.6632307171821594,
      "num_tokens": 2637726614.0,
      "step": 15724
    },
    {
      "entropy": 1.7799305220444996,
      "epoch": 1.7274724671115873,
      "grad_norm": 0.8366572856903076,
      "learning_rate": 2.8632087757028317e-06,
      "loss": 1.5173,
      "mean_token_accuracy": 0.6468792210022608,
      "num_tokens": 2637888327.0,
      "step": 15725
    },
    {
      "entropy": 1.6914372245470684,
      "epoch": 1.72758232402296,
      "grad_norm": 0.5621321201324463,
      "learning_rate": 2.862524667646417e-06,
      "loss": 1.5679,
      "mean_token_accuracy": 0.6358216305573782,
      "num_tokens": 2638134217.0,
      "step": 15726
    },
    {
      "entropy": 1.700711299975713,
      "epoch": 1.727692180934333,
      "grad_norm": 0.7504645586013794,
      "learning_rate": 2.861840817137433e-06,
      "loss": 1.4857,
      "mean_token_accuracy": 0.6607631792624792,
      "num_tokens": 2638295434.0,
      "step": 15727
    },
    {
      "entropy": 1.7090523938337963,
      "epoch": 1.727802037845706,
      "grad_norm": 0.7692071795463562,
      "learning_rate": 2.8611572241975167e-06,
      "loss": 1.3441,
      "mean_token_accuracy": 0.6551339974006017,
      "num_tokens": 2638424528.0,
      "step": 15728
    },
    {
      "entropy": 1.7331831753253937,
      "epoch": 1.7279118947570788,
      "grad_norm": 0.5608404874801636,
      "learning_rate": 2.8604738888483074e-06,
      "loss": 1.4806,
      "mean_token_accuracy": 0.6301528811454773,
      "num_tokens": 2638711868.0,
      "step": 15729
    },
    {
      "entropy": 1.6656751334667206,
      "epoch": 1.728021751668452,
      "grad_norm": 0.6592541933059692,
      "learning_rate": 2.8597908111114326e-06,
      "loss": 1.402,
      "mean_token_accuracy": 0.6527828822533289,
      "num_tokens": 2638931324.0,
      "step": 15730
    },
    {
      "entropy": 1.6092142363389332,
      "epoch": 1.7281316085798246,
      "grad_norm": 0.6773507595062256,
      "learning_rate": 2.8591079910085107e-06,
      "loss": 1.2708,
      "mean_token_accuracy": 0.678041805823644,
      "num_tokens": 2639120616.0,
      "step": 15731
    },
    {
      "entropy": 1.6422138214111328,
      "epoch": 1.7282414654911977,
      "grad_norm": 0.594689130783081,
      "learning_rate": 2.8584254285611512e-06,
      "loss": 1.3481,
      "mean_token_accuracy": 0.6701185554265976,
      "num_tokens": 2639262161.0,
      "step": 15732
    },
    {
      "entropy": 1.7203916311264038,
      "epoch": 1.7283513224025706,
      "grad_norm": 0.7151592969894409,
      "learning_rate": 2.8577431237909602e-06,
      "loss": 1.349,
      "mean_token_accuracy": 0.6614575286706289,
      "num_tokens": 2639424805.0,
      "step": 15733
    },
    {
      "entropy": 1.806416392326355,
      "epoch": 1.7284611793139435,
      "grad_norm": 0.6949290037155151,
      "learning_rate": 2.8570610767195274e-06,
      "loss": 1.4947,
      "mean_token_accuracy": 0.6405768990516663,
      "num_tokens": 2639580707.0,
      "step": 15734
    },
    {
      "entropy": 1.6962719062964122,
      "epoch": 1.7285710362253166,
      "grad_norm": 0.6608180999755859,
      "learning_rate": 2.8563792873684456e-06,
      "loss": 1.2491,
      "mean_token_accuracy": 0.6842715740203857,
      "num_tokens": 2639699425.0,
      "step": 15735
    },
    {
      "entropy": 1.6750577787558238,
      "epoch": 1.7286808931366895,
      "grad_norm": 0.7081702947616577,
      "learning_rate": 2.8556977557592884e-06,
      "loss": 1.3426,
      "mean_token_accuracy": 0.6623915582895279,
      "num_tokens": 2639841659.0,
      "step": 15736
    },
    {
      "entropy": 1.6969606379667919,
      "epoch": 1.7287907500480624,
      "grad_norm": 0.620355486869812,
      "learning_rate": 2.855016481913626e-06,
      "loss": 1.5321,
      "mean_token_accuracy": 0.6244812359412512,
      "num_tokens": 2640063434.0,
      "step": 15737
    },
    {
      "entropy": 1.646816263596217,
      "epoch": 1.7289006069594355,
      "grad_norm": 0.5661360025405884,
      "learning_rate": 2.854335465853022e-06,
      "loss": 1.5014,
      "mean_token_accuracy": 0.6421874364217123,
      "num_tokens": 2640282850.0,
      "step": 15738
    },
    {
      "entropy": 1.7638940612475078,
      "epoch": 1.7290104638708081,
      "grad_norm": 0.7863647937774658,
      "learning_rate": 2.8536547075990327e-06,
      "loss": 1.4823,
      "mean_token_accuracy": 0.6424362609783808,
      "num_tokens": 2640444765.0,
      "step": 15739
    },
    {
      "entropy": 1.7247726917266846,
      "epoch": 1.7291203207821813,
      "grad_norm": 0.7812128067016602,
      "learning_rate": 2.8529742071731985e-06,
      "loss": 1.4218,
      "mean_token_accuracy": 0.6599978854258856,
      "num_tokens": 2640610371.0,
      "step": 15740
    },
    {
      "entropy": 1.7008132835229237,
      "epoch": 1.7292301776935541,
      "grad_norm": 0.6622722744941711,
      "learning_rate": 2.8522939645970595e-06,
      "loss": 1.3794,
      "mean_token_accuracy": 0.6508124470710754,
      "num_tokens": 2640802543.0,
      "step": 15741
    },
    {
      "entropy": 1.6437017023563385,
      "epoch": 1.729340034604927,
      "grad_norm": 0.7969115972518921,
      "learning_rate": 2.851613979892146e-06,
      "loss": 1.3394,
      "mean_token_accuracy": 0.6736712157726288,
      "num_tokens": 2640968961.0,
      "step": 15742
    },
    {
      "entropy": 1.6500834325949352,
      "epoch": 1.7294498915163001,
      "grad_norm": 0.7005840539932251,
      "learning_rate": 2.8509342530799787e-06,
      "loss": 1.3966,
      "mean_token_accuracy": 0.6679046203692754,
      "num_tokens": 2641142162.0,
      "step": 15743
    },
    {
      "entropy": 1.7105072836081188,
      "epoch": 1.7295597484276728,
      "grad_norm": 0.6108032464981079,
      "learning_rate": 2.8502547841820684e-06,
      "loss": 1.5941,
      "mean_token_accuracy": 0.6181052277485529,
      "num_tokens": 2641405364.0,
      "step": 15744
    },
    {
      "entropy": 1.777452568213145,
      "epoch": 1.729669605339046,
      "grad_norm": 0.6558803915977478,
      "learning_rate": 2.8495755732199232e-06,
      "loss": 1.6254,
      "mean_token_accuracy": 0.6251836170752844,
      "num_tokens": 2641627804.0,
      "step": 15745
    },
    {
      "entropy": 1.735464612642924,
      "epoch": 1.7297794622504188,
      "grad_norm": 0.7284940481185913,
      "learning_rate": 2.848896620215037e-06,
      "loss": 1.4115,
      "mean_token_accuracy": 0.6465435773134232,
      "num_tokens": 2641763821.0,
      "step": 15746
    },
    {
      "entropy": 1.6562157074610393,
      "epoch": 1.7298893191617917,
      "grad_norm": 0.6121866703033447,
      "learning_rate": 2.848217925188902e-06,
      "loss": 1.3641,
      "mean_token_accuracy": 0.6681751608848572,
      "num_tokens": 2641955876.0,
      "step": 15747
    },
    {
      "entropy": 1.6489443282286327,
      "epoch": 1.7299991760731648,
      "grad_norm": 0.7306373119354248,
      "learning_rate": 2.8475394881629966e-06,
      "loss": 1.2843,
      "mean_token_accuracy": 0.6912119189898173,
      "num_tokens": 2642077818.0,
      "step": 15748
    },
    {
      "entropy": 1.6806483666102092,
      "epoch": 1.7301090329845377,
      "grad_norm": 0.8181135058403015,
      "learning_rate": 2.8468613091587902e-06,
      "loss": 1.4591,
      "mean_token_accuracy": 0.6678927342096964,
      "num_tokens": 2642228543.0,
      "step": 15749
    },
    {
      "entropy": 1.7011501491069794,
      "epoch": 1.7302188898959106,
      "grad_norm": 0.5812907218933105,
      "learning_rate": 2.84618338819775e-06,
      "loss": 1.4,
      "mean_token_accuracy": 0.6601615299781164,
      "num_tokens": 2642381141.0,
      "step": 15750
    },
    {
      "entropy": 1.6654735505580902,
      "epoch": 1.7303287468072837,
      "grad_norm": 0.6332482099533081,
      "learning_rate": 2.8455057253013354e-06,
      "loss": 1.4628,
      "mean_token_accuracy": 0.6520533412694931,
      "num_tokens": 2642558612.0,
      "step": 15751
    },
    {
      "entropy": 1.6841372152169545,
      "epoch": 1.7304386037186563,
      "grad_norm": 0.6896584033966064,
      "learning_rate": 2.8448283204909844e-06,
      "loss": 1.4898,
      "mean_token_accuracy": 0.6429760406414667,
      "num_tokens": 2642767553.0,
      "step": 15752
    },
    {
      "entropy": 1.6826592286427815,
      "epoch": 1.7305484606300294,
      "grad_norm": 0.6982526779174805,
      "learning_rate": 2.8441511737881443e-06,
      "loss": 1.2862,
      "mean_token_accuracy": 0.6770686457554499,
      "num_tokens": 2642910286.0,
      "step": 15753
    },
    {
      "entropy": 1.6773277123769124,
      "epoch": 1.7306583175414023,
      "grad_norm": 0.5871797800064087,
      "learning_rate": 2.843474285214246e-06,
      "loss": 1.5036,
      "mean_token_accuracy": 0.6401631236076355,
      "num_tokens": 2643130615.0,
      "step": 15754
    },
    {
      "entropy": 1.6971320907274883,
      "epoch": 1.7307681744527752,
      "grad_norm": 0.6325240135192871,
      "learning_rate": 2.8427976547907106e-06,
      "loss": 1.4979,
      "mean_token_accuracy": 0.6486349354187647,
      "num_tokens": 2643295952.0,
      "step": 15755
    },
    {
      "entropy": 1.6904420753320057,
      "epoch": 1.7308780313641483,
      "grad_norm": 0.8593859672546387,
      "learning_rate": 2.8421212825389516e-06,
      "loss": 1.3975,
      "mean_token_accuracy": 0.6446862071752548,
      "num_tokens": 2643482901.0,
      "step": 15756
    },
    {
      "entropy": 1.7852684557437897,
      "epoch": 1.730987888275521,
      "grad_norm": 0.6767821907997131,
      "learning_rate": 2.841445168480381e-06,
      "loss": 1.5704,
      "mean_token_accuracy": 0.6423915525277456,
      "num_tokens": 2643676176.0,
      "step": 15757
    },
    {
      "entropy": 1.7145917117595673,
      "epoch": 1.731097745186894,
      "grad_norm": 0.6300607323646545,
      "learning_rate": 2.8407693126363916e-06,
      "loss": 1.3585,
      "mean_token_accuracy": 0.6577344536781311,
      "num_tokens": 2643885388.0,
      "step": 15758
    },
    {
      "entropy": 1.727539946635564,
      "epoch": 1.731207602098267,
      "grad_norm": 0.7048355937004089,
      "learning_rate": 2.8400937150283793e-06,
      "loss": 1.5526,
      "mean_token_accuracy": 0.6489974558353424,
      "num_tokens": 2644056977.0,
      "step": 15759
    },
    {
      "entropy": 1.7069771488507588,
      "epoch": 1.7313174590096398,
      "grad_norm": 0.5949591398239136,
      "learning_rate": 2.8394183756777235e-06,
      "loss": 1.4094,
      "mean_token_accuracy": 0.6460785369078318,
      "num_tokens": 2644273336.0,
      "step": 15760
    },
    {
      "entropy": 1.7462304333845775,
      "epoch": 1.731427315921013,
      "grad_norm": 0.7763286232948303,
      "learning_rate": 2.838743294605797e-06,
      "loss": 1.4839,
      "mean_token_accuracy": 0.6531115273634592,
      "num_tokens": 2644460738.0,
      "step": 15761
    },
    {
      "entropy": 1.6935663322607677,
      "epoch": 1.7315371728323858,
      "grad_norm": 0.68621426820755,
      "learning_rate": 2.8380684718339696e-06,
      "loss": 1.4743,
      "mean_token_accuracy": 0.6545071303844452,
      "num_tokens": 2644623609.0,
      "step": 15762
    },
    {
      "entropy": 1.6895051697889965,
      "epoch": 1.7316470297437587,
      "grad_norm": 0.7107670903205872,
      "learning_rate": 2.8373939073835977e-06,
      "loss": 1.4164,
      "mean_token_accuracy": 0.665955513715744,
      "num_tokens": 2644765811.0,
      "step": 15763
    },
    {
      "entropy": 1.7151564260323842,
      "epoch": 1.7317568866551318,
      "grad_norm": 0.6578272581100464,
      "learning_rate": 2.8367196012760283e-06,
      "loss": 1.4266,
      "mean_token_accuracy": 0.6549387921889623,
      "num_tokens": 2644908445.0,
      "step": 15764
    },
    {
      "entropy": 1.702756404876709,
      "epoch": 1.7318667435665045,
      "grad_norm": 0.7014343738555908,
      "learning_rate": 2.836045553532605e-06,
      "loss": 1.2898,
      "mean_token_accuracy": 0.66953477760156,
      "num_tokens": 2645016657.0,
      "step": 15765
    },
    {
      "entropy": 1.6990113755067189,
      "epoch": 1.7319766004778776,
      "grad_norm": 0.6619819402694702,
      "learning_rate": 2.8353717641746625e-06,
      "loss": 1.3552,
      "mean_token_accuracy": 0.6663278589646021,
      "num_tokens": 2645151759.0,
      "step": 15766
    },
    {
      "entropy": 1.6938722531000774,
      "epoch": 1.7320864573892505,
      "grad_norm": 0.729397714138031,
      "learning_rate": 2.834698233223525e-06,
      "loss": 1.3684,
      "mean_token_accuracy": 0.6664966940879822,
      "num_tokens": 2645321883.0,
      "step": 15767
    },
    {
      "entropy": 1.6677038371562958,
      "epoch": 1.7321963143006234,
      "grad_norm": 0.6559589505195618,
      "learning_rate": 2.8340249607005087e-06,
      "loss": 1.4055,
      "mean_token_accuracy": 0.6565075367689133,
      "num_tokens": 2645474895.0,
      "step": 15768
    },
    {
      "entropy": 1.688380589087804,
      "epoch": 1.7323061712119965,
      "grad_norm": 0.6308188438415527,
      "learning_rate": 2.8333519466269223e-06,
      "loss": 1.3668,
      "mean_token_accuracy": 0.6556487778822581,
      "num_tokens": 2645681696.0,
      "step": 15769
    },
    {
      "entropy": 1.6896365185578663,
      "epoch": 1.7324160281233691,
      "grad_norm": 0.7085091471672058,
      "learning_rate": 2.832679191024066e-06,
      "loss": 1.3655,
      "mean_token_accuracy": 0.6658649444580078,
      "num_tokens": 2645863103.0,
      "step": 15770
    },
    {
      "entropy": 1.6898165345191956,
      "epoch": 1.7325258850347423,
      "grad_norm": 0.6663379669189453,
      "learning_rate": 2.8320066939132364e-06,
      "loss": 1.3565,
      "mean_token_accuracy": 0.6607397049665451,
      "num_tokens": 2646008101.0,
      "step": 15771
    },
    {
      "entropy": 1.759082555770874,
      "epoch": 1.7326357419461151,
      "grad_norm": 0.7728214859962463,
      "learning_rate": 2.83133445531571e-06,
      "loss": 1.4906,
      "mean_token_accuracy": 0.6619271288315455,
      "num_tokens": 2646196373.0,
      "step": 15772
    },
    {
      "entropy": 1.705134669939677,
      "epoch": 1.732745598857488,
      "grad_norm": 0.7739623785018921,
      "learning_rate": 2.8306624752527684e-06,
      "loss": 1.324,
      "mean_token_accuracy": 0.6735307027896246,
      "num_tokens": 2646379370.0,
      "step": 15773
    },
    {
      "entropy": 1.6545397241910298,
      "epoch": 1.7328554557688611,
      "grad_norm": 0.7858942151069641,
      "learning_rate": 2.82999075374568e-06,
      "loss": 1.4899,
      "mean_token_accuracy": 0.6507531503836314,
      "num_tokens": 2646557248.0,
      "step": 15774
    },
    {
      "entropy": 1.7393496334552765,
      "epoch": 1.732965312680234,
      "grad_norm": 0.8852123022079468,
      "learning_rate": 2.8293192908157025e-06,
      "loss": 1.5377,
      "mean_token_accuracy": 0.6492738674084345,
      "num_tokens": 2646718540.0,
      "step": 15775
    },
    {
      "entropy": 1.738167365392049,
      "epoch": 1.733075169591607,
      "grad_norm": 0.7457848191261292,
      "learning_rate": 2.828648086484086e-06,
      "loss": 1.4497,
      "mean_token_accuracy": 0.6467219044764837,
      "num_tokens": 2646866109.0,
      "step": 15776
    },
    {
      "entropy": 1.6820921699206035,
      "epoch": 1.73318502650298,
      "grad_norm": 0.6062507033348083,
      "learning_rate": 2.827977140772077e-06,
      "loss": 1.3582,
      "mean_token_accuracy": 0.6673463334639868,
      "num_tokens": 2647037691.0,
      "step": 15777
    },
    {
      "entropy": 1.700913409392039,
      "epoch": 1.7332948834143527,
      "grad_norm": 0.5943799614906311,
      "learning_rate": 2.827306453700907e-06,
      "loss": 1.4493,
      "mean_token_accuracy": 0.6339322676261266,
      "num_tokens": 2647261416.0,
      "step": 15778
    },
    {
      "entropy": 1.7037220895290375,
      "epoch": 1.7334047403257258,
      "grad_norm": 0.7893034219741821,
      "learning_rate": 2.826636025291808e-06,
      "loss": 1.4788,
      "mean_token_accuracy": 0.631934697429339,
      "num_tokens": 2647428426.0,
      "step": 15779
    },
    {
      "entropy": 1.662857900063197,
      "epoch": 1.7335145972370987,
      "grad_norm": 0.705226719379425,
      "learning_rate": 2.8259658555659947e-06,
      "loss": 1.3723,
      "mean_token_accuracy": 0.6748548299074173,
      "num_tokens": 2647576867.0,
      "step": 15780
    },
    {
      "entropy": 1.6877172191937764,
      "epoch": 1.7336244541484715,
      "grad_norm": 0.642670750617981,
      "learning_rate": 2.825295944544677e-06,
      "loss": 1.4399,
      "mean_token_accuracy": 0.6476767361164093,
      "num_tokens": 2647788737.0,
      "step": 15781
    },
    {
      "entropy": 1.6754780113697052,
      "epoch": 1.7337343110598447,
      "grad_norm": 0.8167265057563782,
      "learning_rate": 2.8246262922490596e-06,
      "loss": 1.4949,
      "mean_token_accuracy": 0.6553296744823456,
      "num_tokens": 2647943883.0,
      "step": 15782
    },
    {
      "entropy": 1.7225460310777028,
      "epoch": 1.7338441679712175,
      "grad_norm": 0.6751701831817627,
      "learning_rate": 2.8239568987003384e-06,
      "loss": 1.4517,
      "mean_token_accuracy": 0.6534865995248159,
      "num_tokens": 2648137335.0,
      "step": 15783
    },
    {
      "entropy": 1.690890371799469,
      "epoch": 1.7339540248825904,
      "grad_norm": 0.7012602686882019,
      "learning_rate": 2.8232877639196956e-06,
      "loss": 1.3007,
      "mean_token_accuracy": 0.6690143694480261,
      "num_tokens": 2648251721.0,
      "step": 15784
    },
    {
      "entropy": 1.7479467689990997,
      "epoch": 1.7340638817939633,
      "grad_norm": 0.7268240451812744,
      "learning_rate": 2.822618887928309e-06,
      "loss": 1.4206,
      "mean_token_accuracy": 0.6618320842583975,
      "num_tokens": 2648409793.0,
      "step": 15785
    },
    {
      "entropy": 1.722074290116628,
      "epoch": 1.7341737387053362,
      "grad_norm": 1.3608239889144897,
      "learning_rate": 2.8219502707473525e-06,
      "loss": 1.5261,
      "mean_token_accuracy": 0.6445515751838684,
      "num_tokens": 2648531384.0,
      "step": 15786
    },
    {
      "entropy": 1.6843404074509938,
      "epoch": 1.7342835956167093,
      "grad_norm": 0.6605405211448669,
      "learning_rate": 2.821281912397984e-06,
      "loss": 1.3001,
      "mean_token_accuracy": 0.6718050042788187,
      "num_tokens": 2648640336.0,
      "step": 15787
    },
    {
      "entropy": 1.662507524092992,
      "epoch": 1.7343934525280822,
      "grad_norm": 0.6708582043647766,
      "learning_rate": 2.820613812901356e-06,
      "loss": 1.3266,
      "mean_token_accuracy": 0.6668059825897217,
      "num_tokens": 2648772568.0,
      "step": 15788
    },
    {
      "entropy": 1.6774542232354481,
      "epoch": 1.734503309439455,
      "grad_norm": 0.6292397975921631,
      "learning_rate": 2.819945972278618e-06,
      "loss": 1.5471,
      "mean_token_accuracy": 0.6366194983323415,
      "num_tokens": 2649041455.0,
      "step": 15789
    },
    {
      "entropy": 1.7329609791437786,
      "epoch": 1.7346131663508282,
      "grad_norm": 0.7120325565338135,
      "learning_rate": 2.819278390550901e-06,
      "loss": 1.4066,
      "mean_token_accuracy": 0.6510707437992096,
      "num_tokens": 2649272586.0,
      "step": 15790
    },
    {
      "entropy": 1.6792218287785847,
      "epoch": 1.7347230232622008,
      "grad_norm": 0.6149081587791443,
      "learning_rate": 2.8186110677393387e-06,
      "loss": 1.3502,
      "mean_token_accuracy": 0.6708264698584875,
      "num_tokens": 2649437345.0,
      "step": 15791
    },
    {
      "entropy": 1.7267203132311504,
      "epoch": 1.734832880173574,
      "grad_norm": 0.6599135994911194,
      "learning_rate": 2.8179440038650496e-06,
      "loss": 1.3767,
      "mean_token_accuracy": 0.6644027580817541,
      "num_tokens": 2649620738.0,
      "step": 15792
    },
    {
      "entropy": 1.7191211581230164,
      "epoch": 1.7349427370849468,
      "grad_norm": 0.7179271578788757,
      "learning_rate": 2.817277198949144e-06,
      "loss": 1.4368,
      "mean_token_accuracy": 0.6469183464845022,
      "num_tokens": 2649837132.0,
      "step": 15793
    },
    {
      "entropy": 1.746620883544286,
      "epoch": 1.7350525939963197,
      "grad_norm": 0.643526017665863,
      "learning_rate": 2.8166106530127274e-06,
      "loss": 1.613,
      "mean_token_accuracy": 0.6203589936097463,
      "num_tokens": 2650073284.0,
      "step": 15794
    },
    {
      "entropy": 1.714139034350713,
      "epoch": 1.7351624509076928,
      "grad_norm": 0.6725690960884094,
      "learning_rate": 2.8159443660769002e-06,
      "loss": 1.381,
      "mean_token_accuracy": 0.6693058560291926,
      "num_tokens": 2650216304.0,
      "step": 15795
    },
    {
      "entropy": 1.7154027422269185,
      "epoch": 1.7352723078190657,
      "grad_norm": 0.6718941330909729,
      "learning_rate": 2.815278338162742e-06,
      "loss": 1.3734,
      "mean_token_accuracy": 0.6560245205958685,
      "num_tokens": 2650389116.0,
      "step": 15796
    },
    {
      "entropy": 1.6776060263315837,
      "epoch": 1.7353821647304386,
      "grad_norm": 0.6263152360916138,
      "learning_rate": 2.8146125692913373e-06,
      "loss": 1.3378,
      "mean_token_accuracy": 0.6764421413342158,
      "num_tokens": 2650553193.0,
      "step": 15797
    },
    {
      "entropy": 1.7232110400994618,
      "epoch": 1.7354920216418115,
      "grad_norm": 0.5665870904922485,
      "learning_rate": 2.8139470594837566e-06,
      "loss": 1.3868,
      "mean_token_accuracy": 0.6588666985432307,
      "num_tokens": 2650715674.0,
      "step": 15798
    },
    {
      "entropy": 1.6804384191830952,
      "epoch": 1.7356018785531844,
      "grad_norm": 0.5942453742027283,
      "learning_rate": 2.8132818087610637e-06,
      "loss": 1.3806,
      "mean_token_accuracy": 0.6652588794628779,
      "num_tokens": 2650863032.0,
      "step": 15799
    },
    {
      "entropy": 1.7259988685448964,
      "epoch": 1.7357117354645575,
      "grad_norm": 0.6818102598190308,
      "learning_rate": 2.81261681714431e-06,
      "loss": 1.3696,
      "mean_token_accuracy": 0.6753989507754644,
      "num_tokens": 2650997983.0,
      "step": 15800
    },
    {
      "entropy": 1.7083225051561992,
      "epoch": 1.7358215923759304,
      "grad_norm": 0.6384536623954773,
      "learning_rate": 2.811952084654548e-06,
      "loss": 1.4066,
      "mean_token_accuracy": 0.6457608987887701,
      "num_tokens": 2651168003.0,
      "step": 15801
    },
    {
      "entropy": 1.6841741700967152,
      "epoch": 1.7359314492873033,
      "grad_norm": 0.7538333535194397,
      "learning_rate": 2.8112876113128094e-06,
      "loss": 1.2787,
      "mean_token_accuracy": 0.665538469950358,
      "num_tokens": 2651282390.0,
      "step": 15802
    },
    {
      "entropy": 1.6514563858509064,
      "epoch": 1.7360413061986764,
      "grad_norm": 0.604898989200592,
      "learning_rate": 2.8106233971401305e-06,
      "loss": 1.384,
      "mean_token_accuracy": 0.6566628019014994,
      "num_tokens": 2651468047.0,
      "step": 15803
    },
    {
      "entropy": 1.6742986639340718,
      "epoch": 1.736151163110049,
      "grad_norm": 0.7198217511177063,
      "learning_rate": 2.8099594421575306e-06,
      "loss": 1.3387,
      "mean_token_accuracy": 0.6742167373498281,
      "num_tokens": 2651638952.0,
      "step": 15804
    },
    {
      "entropy": 1.6387183368206024,
      "epoch": 1.7362610200214221,
      "grad_norm": 0.5498782396316528,
      "learning_rate": 2.8092957463860225e-06,
      "loss": 1.4036,
      "mean_token_accuracy": 0.6512420624494553,
      "num_tokens": 2651855946.0,
      "step": 15805
    },
    {
      "entropy": 1.713132123152415,
      "epoch": 1.736370876932795,
      "grad_norm": 0.6297646164894104,
      "learning_rate": 2.8086323098466127e-06,
      "loss": 1.2696,
      "mean_token_accuracy": 0.6640227288007736,
      "num_tokens": 2652083899.0,
      "step": 15806
    },
    {
      "entropy": 1.7311813334623973,
      "epoch": 1.736480733844168,
      "grad_norm": 0.7326252460479736,
      "learning_rate": 2.8079691325603037e-06,
      "loss": 1.4061,
      "mean_token_accuracy": 0.6535738656918207,
      "num_tokens": 2652252305.0,
      "step": 15807
    },
    {
      "entropy": 1.7351558605829875,
      "epoch": 1.736590590755541,
      "grad_norm": 0.809312105178833,
      "learning_rate": 2.8073062145480766e-06,
      "loss": 1.6552,
      "mean_token_accuracy": 0.6350140472253164,
      "num_tokens": 2652441076.0,
      "step": 15808
    },
    {
      "entropy": 1.7146221995353699,
      "epoch": 1.736700447666914,
      "grad_norm": 0.6093737483024597,
      "learning_rate": 2.806643555830915e-06,
      "loss": 1.3532,
      "mean_token_accuracy": 0.6540501813093821,
      "num_tokens": 2652599894.0,
      "step": 15809
    },
    {
      "entropy": 1.699708640575409,
      "epoch": 1.7368103045782868,
      "grad_norm": 0.6803867816925049,
      "learning_rate": 2.8059811564297957e-06,
      "loss": 1.3324,
      "mean_token_accuracy": 0.6549798647562662,
      "num_tokens": 2652768541.0,
      "step": 15810
    },
    {
      "entropy": 1.7326335211594899,
      "epoch": 1.7369201614896597,
      "grad_norm": 0.7687568664550781,
      "learning_rate": 2.80531901636568e-06,
      "loss": 1.2987,
      "mean_token_accuracy": 0.6661215225855509,
      "num_tokens": 2652899364.0,
      "step": 15811
    },
    {
      "entropy": 1.7323335111141205,
      "epoch": 1.7370300184010325,
      "grad_norm": 0.7186509370803833,
      "learning_rate": 2.804657135659522e-06,
      "loss": 1.5174,
      "mean_token_accuracy": 0.6523576378822327,
      "num_tokens": 2653039239.0,
      "step": 15812
    },
    {
      "entropy": 1.6271824638048809,
      "epoch": 1.7371398753124057,
      "grad_norm": 0.7200955152511597,
      "learning_rate": 2.803995514332277e-06,
      "loss": 1.2861,
      "mean_token_accuracy": 0.6787689824899038,
      "num_tokens": 2653192220.0,
      "step": 15813
    },
    {
      "entropy": 1.6728685200214386,
      "epoch": 1.7372497322237785,
      "grad_norm": 0.6453947424888611,
      "learning_rate": 2.8033341524048764e-06,
      "loss": 1.443,
      "mean_token_accuracy": 0.6549021850029627,
      "num_tokens": 2653384321.0,
      "step": 15814
    },
    {
      "entropy": 1.7225570380687714,
      "epoch": 1.7373595891351514,
      "grad_norm": 0.8567750453948975,
      "learning_rate": 2.802673049898259e-06,
      "loss": 1.4889,
      "mean_token_accuracy": 0.6441005816062292,
      "num_tokens": 2653559173.0,
      "step": 15815
    },
    {
      "entropy": 1.7080976366996765,
      "epoch": 1.7374694460465245,
      "grad_norm": 0.6325947046279907,
      "learning_rate": 2.8020122068333466e-06,
      "loss": 1.4394,
      "mean_token_accuracy": 0.6394100387891134,
      "num_tokens": 2653758046.0,
      "step": 15816
    },
    {
      "entropy": 1.7126984298229218,
      "epoch": 1.7375793029578972,
      "grad_norm": 0.7144211530685425,
      "learning_rate": 2.801351623231051e-06,
      "loss": 1.4652,
      "mean_token_accuracy": 0.6530701269706091,
      "num_tokens": 2653930419.0,
      "step": 15817
    },
    {
      "entropy": 1.7186160882314045,
      "epoch": 1.7376891598692703,
      "grad_norm": 0.589459240436554,
      "learning_rate": 2.8006912991122827e-06,
      "loss": 1.356,
      "mean_token_accuracy": 0.6640836447477341,
      "num_tokens": 2654147898.0,
      "step": 15818
    },
    {
      "entropy": 1.675024002790451,
      "epoch": 1.7377990167806432,
      "grad_norm": 0.6387170553207397,
      "learning_rate": 2.8000312344979434e-06,
      "loss": 1.5746,
      "mean_token_accuracy": 0.646162673830986,
      "num_tokens": 2654364535.0,
      "step": 15819
    },
    {
      "entropy": 1.6666264633337657,
      "epoch": 1.737908873692016,
      "grad_norm": 0.7120461463928223,
      "learning_rate": 2.7993714294089173e-06,
      "loss": 1.2804,
      "mean_token_accuracy": 0.6800036976734797,
      "num_tokens": 2654482190.0,
      "step": 15820
    },
    {
      "entropy": 1.7276875178019206,
      "epoch": 1.7380187306033892,
      "grad_norm": 0.818804144859314,
      "learning_rate": 2.7987118838660903e-06,
      "loss": 1.2782,
      "mean_token_accuracy": 0.6826535513003668,
      "num_tokens": 2654642615.0,
      "step": 15821
    },
    {
      "entropy": 1.7416711151599884,
      "epoch": 1.738128587514762,
      "grad_norm": 0.6067622900009155,
      "learning_rate": 2.7980525978903378e-06,
      "loss": 1.6374,
      "mean_token_accuracy": 0.6284281214078268,
      "num_tokens": 2654834393.0,
      "step": 15822
    },
    {
      "entropy": 1.6803725957870483,
      "epoch": 1.738238444426135,
      "grad_norm": 0.5896869897842407,
      "learning_rate": 2.797393571502524e-06,
      "loss": 1.455,
      "mean_token_accuracy": 0.6401728590329488,
      "num_tokens": 2655091358.0,
      "step": 15823
    },
    {
      "entropy": 1.6684520145257313,
      "epoch": 1.738348301337508,
      "grad_norm": 0.6544545292854309,
      "learning_rate": 2.796734804723507e-06,
      "loss": 1.2353,
      "mean_token_accuracy": 0.6802895118792852,
      "num_tokens": 2655219666.0,
      "step": 15824
    },
    {
      "entropy": 1.7058659692605336,
      "epoch": 1.7384581582488807,
      "grad_norm": 0.6241233348846436,
      "learning_rate": 2.796076297574138e-06,
      "loss": 1.367,
      "mean_token_accuracy": 0.6578785528739294,
      "num_tokens": 2655395368.0,
      "step": 15825
    },
    {
      "entropy": 1.77889946103096,
      "epoch": 1.7385680151602538,
      "grad_norm": 0.6710366010665894,
      "learning_rate": 2.795418050075257e-06,
      "loss": 1.2793,
      "mean_token_accuracy": 0.6623863478501638,
      "num_tokens": 2655516501.0,
      "step": 15826
    },
    {
      "entropy": 1.703927884499232,
      "epoch": 1.7386778720716267,
      "grad_norm": 0.6267694234848022,
      "learning_rate": 2.7947600622476988e-06,
      "loss": 1.1627,
      "mean_token_accuracy": 0.6800014326969782,
      "num_tokens": 2655677633.0,
      "step": 15827
    },
    {
      "entropy": 1.7275777161121368,
      "epoch": 1.7387877289829996,
      "grad_norm": 0.6682912111282349,
      "learning_rate": 2.794102334112285e-06,
      "loss": 1.3755,
      "mean_token_accuracy": 0.6576682031154633,
      "num_tokens": 2655842114.0,
      "step": 15828
    },
    {
      "entropy": 1.6405729452768962,
      "epoch": 1.7388975858943727,
      "grad_norm": 0.7250331044197083,
      "learning_rate": 2.7934448656898357e-06,
      "loss": 1.3655,
      "mean_token_accuracy": 0.6576348741849264,
      "num_tokens": 2656065244.0,
      "step": 15829
    },
    {
      "entropy": 1.694657524426778,
      "epoch": 1.7390074428057454,
      "grad_norm": 0.7095337510108948,
      "learning_rate": 2.7927876570011594e-06,
      "loss": 1.3874,
      "mean_token_accuracy": 0.670227994521459,
      "num_tokens": 2656181627.0,
      "step": 15830
    },
    {
      "entropy": 1.61565363407135,
      "epoch": 1.7391172997171185,
      "grad_norm": 3.940749406814575,
      "learning_rate": 2.7921307080670553e-06,
      "loss": 1.269,
      "mean_token_accuracy": 0.6815206309159597,
      "num_tokens": 2656368268.0,
      "step": 15831
    },
    {
      "entropy": 1.7019450465838115,
      "epoch": 1.7392271566284914,
      "grad_norm": 0.9675191640853882,
      "learning_rate": 2.791474018908314e-06,
      "loss": 1.5986,
      "mean_token_accuracy": 0.6489445567131042,
      "num_tokens": 2656518851.0,
      "step": 15832
    },
    {
      "entropy": 1.6337886949380238,
      "epoch": 1.7393370135398643,
      "grad_norm": 0.5778870582580566,
      "learning_rate": 2.7908175895457224e-06,
      "loss": 1.3799,
      "mean_token_accuracy": 0.6472407778104147,
      "num_tokens": 2656710252.0,
      "step": 15833
    },
    {
      "entropy": 1.7616515358289082,
      "epoch": 1.7394468704512374,
      "grad_norm": 0.6655634641647339,
      "learning_rate": 2.7901614200000536e-06,
      "loss": 1.531,
      "mean_token_accuracy": 0.6265707910060883,
      "num_tokens": 2656985584.0,
      "step": 15834
    },
    {
      "entropy": 1.6581469575564067,
      "epoch": 1.7395567273626102,
      "grad_norm": 0.6637037992477417,
      "learning_rate": 2.789505510292078e-06,
      "loss": 1.2826,
      "mean_token_accuracy": 0.6793718685706457,
      "num_tokens": 2657128235.0,
      "step": 15835
    },
    {
      "entropy": 1.6418430705865223,
      "epoch": 1.7396665842739831,
      "grad_norm": 0.6092338562011719,
      "learning_rate": 2.788849860442554e-06,
      "loss": 1.2874,
      "mean_token_accuracy": 0.6675700594981512,
      "num_tokens": 2657267098.0,
      "step": 15836
    },
    {
      "entropy": 1.710461030403773,
      "epoch": 1.7397764411853562,
      "grad_norm": 0.619476854801178,
      "learning_rate": 2.7881944704722297e-06,
      "loss": 1.4077,
      "mean_token_accuracy": 0.6550353765487671,
      "num_tokens": 2657447186.0,
      "step": 15837
    },
    {
      "entropy": 1.75293172399203,
      "epoch": 1.739886298096729,
      "grad_norm": 0.7521857619285583,
      "learning_rate": 2.7875393404018498e-06,
      "loss": 1.5018,
      "mean_token_accuracy": 0.63949865847826,
      "num_tokens": 2657625193.0,
      "step": 15838
    },
    {
      "entropy": 1.7228674193223317,
      "epoch": 1.739996155008102,
      "grad_norm": 0.6770578622817993,
      "learning_rate": 2.786884470252153e-06,
      "loss": 1.5646,
      "mean_token_accuracy": 0.6267157097657522,
      "num_tokens": 2657814471.0,
      "step": 15839
    },
    {
      "entropy": 1.6907674670219421,
      "epoch": 1.740106011919475,
      "grad_norm": 0.5758486986160278,
      "learning_rate": 2.7862298600438577e-06,
      "loss": 1.3123,
      "mean_token_accuracy": 0.6664116332928339,
      "num_tokens": 2657971780.0,
      "step": 15840
    },
    {
      "entropy": 1.6239832937717438,
      "epoch": 1.7402158688308478,
      "grad_norm": 0.6411721110343933,
      "learning_rate": 2.7855755097976874e-06,
      "loss": 1.4493,
      "mean_token_accuracy": 0.6541901677846909,
      "num_tokens": 2658181782.0,
      "step": 15841
    },
    {
      "entropy": 1.7198786338170369,
      "epoch": 1.7403257257422209,
      "grad_norm": 0.695188045501709,
      "learning_rate": 2.784921419534351e-06,
      "loss": 1.654,
      "mean_token_accuracy": 0.6311604132254919,
      "num_tokens": 2658402574.0,
      "step": 15842
    },
    {
      "entropy": 1.6882243553797405,
      "epoch": 1.7404355826535935,
      "grad_norm": 0.6721879839897156,
      "learning_rate": 2.7842675892745503e-06,
      "loss": 1.2438,
      "mean_token_accuracy": 0.671802838643392,
      "num_tokens": 2658526785.0,
      "step": 15843
    },
    {
      "entropy": 1.742331971724828,
      "epoch": 1.7405454395649667,
      "grad_norm": 0.6647438406944275,
      "learning_rate": 2.7836140190389767e-06,
      "loss": 1.2945,
      "mean_token_accuracy": 0.6804736703634262,
      "num_tokens": 2658650417.0,
      "step": 15844
    },
    {
      "entropy": 1.6729466617107391,
      "epoch": 1.7406552964763395,
      "grad_norm": 0.6848008036613464,
      "learning_rate": 2.7829607088483192e-06,
      "loss": 1.3458,
      "mean_token_accuracy": 0.67551389336586,
      "num_tokens": 2658819700.0,
      "step": 15845
    },
    {
      "entropy": 1.6987472077210743,
      "epoch": 1.7407651533877124,
      "grad_norm": 0.7082852125167847,
      "learning_rate": 2.78230765872325e-06,
      "loss": 1.4251,
      "mean_token_accuracy": 0.6490759005149206,
      "num_tokens": 2659000912.0,
      "step": 15846
    },
    {
      "entropy": 1.7281360030174255,
      "epoch": 1.7408750102990855,
      "grad_norm": 0.5942803025245667,
      "learning_rate": 2.781654868684443e-06,
      "loss": 1.4627,
      "mean_token_accuracy": 0.6435799946387609,
      "num_tokens": 2659232723.0,
      "step": 15847
    },
    {
      "entropy": 1.6801528135935466,
      "epoch": 1.7409848672104584,
      "grad_norm": 0.6154281497001648,
      "learning_rate": 2.7810023387525553e-06,
      "loss": 1.3461,
      "mean_token_accuracy": 0.6573351869980494,
      "num_tokens": 2659406577.0,
      "step": 15848
    },
    {
      "entropy": 1.7473509311676025,
      "epoch": 1.7410947241218313,
      "grad_norm": 0.6029602289199829,
      "learning_rate": 2.780350068948239e-06,
      "loss": 1.5064,
      "mean_token_accuracy": 0.6355864902337393,
      "num_tokens": 2659628818.0,
      "step": 15849
    },
    {
      "entropy": 1.7131327490011852,
      "epoch": 1.7412045810332044,
      "grad_norm": 0.7908769845962524,
      "learning_rate": 2.7796980592921392e-06,
      "loss": 1.3336,
      "mean_token_accuracy": 0.6735485146443049,
      "num_tokens": 2659779586.0,
      "step": 15850
    },
    {
      "entropy": 1.7140113910039265,
      "epoch": 1.741314437944577,
      "grad_norm": 0.7202388644218445,
      "learning_rate": 2.779046309804895e-06,
      "loss": 1.5897,
      "mean_token_accuracy": 0.6321464478969574,
      "num_tokens": 2659934329.0,
      "step": 15851
    },
    {
      "entropy": 1.6853972772757213,
      "epoch": 1.7414242948559502,
      "grad_norm": 0.7633290886878967,
      "learning_rate": 2.7783948205071265e-06,
      "loss": 1.39,
      "mean_token_accuracy": 0.649382695555687,
      "num_tokens": 2660091123.0,
      "step": 15852
    },
    {
      "entropy": 1.6331301033496857,
      "epoch": 1.741534151767323,
      "grad_norm": 0.7545872926712036,
      "learning_rate": 2.7777435914194574e-06,
      "loss": 1.3173,
      "mean_token_accuracy": 0.6768523355325063,
      "num_tokens": 2660240337.0,
      "step": 15853
    },
    {
      "entropy": 1.7424573004245758,
      "epoch": 1.741644008678696,
      "grad_norm": 0.7436056137084961,
      "learning_rate": 2.7770926225625016e-06,
      "loss": 1.4274,
      "mean_token_accuracy": 0.6455424477656683,
      "num_tokens": 2660404045.0,
      "step": 15854
    },
    {
      "entropy": 1.7621293663978577,
      "epoch": 1.741753865590069,
      "grad_norm": 0.8202974200248718,
      "learning_rate": 2.7764419139568572e-06,
      "loss": 1.4083,
      "mean_token_accuracy": 0.6570224414269129,
      "num_tokens": 2660549219.0,
      "step": 15855
    },
    {
      "entropy": 1.7344311475753784,
      "epoch": 1.7418637225014417,
      "grad_norm": 0.9669505953788757,
      "learning_rate": 2.77579146562312e-06,
      "loss": 1.5783,
      "mean_token_accuracy": 0.643063947558403,
      "num_tokens": 2660719518.0,
      "step": 15856
    },
    {
      "entropy": 1.7664933999379475,
      "epoch": 1.7419735794128148,
      "grad_norm": 0.7337760925292969,
      "learning_rate": 2.7751412775818774e-06,
      "loss": 1.3591,
      "mean_token_accuracy": 0.6609189411004385,
      "num_tokens": 2660852111.0,
      "step": 15857
    },
    {
      "entropy": 1.7087633113066356,
      "epoch": 1.7420834363241877,
      "grad_norm": 0.6853848099708557,
      "learning_rate": 2.7744913498537073e-06,
      "loss": 1.3429,
      "mean_token_accuracy": 0.6679713129997253,
      "num_tokens": 2661027069.0,
      "step": 15858
    },
    {
      "entropy": 1.7308754622936249,
      "epoch": 1.7421932932355606,
      "grad_norm": 0.6821447610855103,
      "learning_rate": 2.77384168245918e-06,
      "loss": 1.2652,
      "mean_token_accuracy": 0.6845847517251968,
      "num_tokens": 2661181830.0,
      "step": 15859
    },
    {
      "entropy": 1.6414716045061748,
      "epoch": 1.7423031501469337,
      "grad_norm": 1.1366279125213623,
      "learning_rate": 2.7731922754188574e-06,
      "loss": 1.192,
      "mean_token_accuracy": 0.6885305742422739,
      "num_tokens": 2661407962.0,
      "step": 15860
    },
    {
      "entropy": 1.7026232481002808,
      "epoch": 1.7424130070583066,
      "grad_norm": 0.7026152014732361,
      "learning_rate": 2.77254312875329e-06,
      "loss": 1.3201,
      "mean_token_accuracy": 0.6643240998188654,
      "num_tokens": 2661539074.0,
      "step": 15861
    },
    {
      "entropy": 1.6785250306129456,
      "epoch": 1.7425228639696795,
      "grad_norm": 0.7026225924491882,
      "learning_rate": 2.7718942424830254e-06,
      "loss": 1.3103,
      "mean_token_accuracy": 0.6704440861940384,
      "num_tokens": 2661712726.0,
      "step": 15862
    },
    {
      "entropy": 1.731045385201772,
      "epoch": 1.7426327208810526,
      "grad_norm": 0.7580122947692871,
      "learning_rate": 2.771245616628603e-06,
      "loss": 1.2901,
      "mean_token_accuracy": 0.6796207278966904,
      "num_tokens": 2661827026.0,
      "step": 15863
    },
    {
      "entropy": 1.724742700656255,
      "epoch": 1.7427425777924253,
      "grad_norm": 0.8208819031715393,
      "learning_rate": 2.7705972512105454e-06,
      "loss": 1.35,
      "mean_token_accuracy": 0.6589020987351736,
      "num_tokens": 2661955123.0,
      "step": 15864
    },
    {
      "entropy": 1.7283775707085927,
      "epoch": 1.7428524347037984,
      "grad_norm": 0.8843021392822266,
      "learning_rate": 2.769949146249378e-06,
      "loss": 1.3974,
      "mean_token_accuracy": 0.6639308879772822,
      "num_tokens": 2662121725.0,
      "step": 15865
    },
    {
      "entropy": 1.7786122262477875,
      "epoch": 1.7429622916151712,
      "grad_norm": 0.762104332447052,
      "learning_rate": 2.769301301765612e-06,
      "loss": 1.3663,
      "mean_token_accuracy": 0.6581309884786606,
      "num_tokens": 2662248768.0,
      "step": 15866
    },
    {
      "entropy": 1.7138410607973735,
      "epoch": 1.7430721485265441,
      "grad_norm": 0.6937832236289978,
      "learning_rate": 2.7686537177797523e-06,
      "loss": 1.3812,
      "mean_token_accuracy": 0.655176599820455,
      "num_tokens": 2662403894.0,
      "step": 15867
    },
    {
      "entropy": 1.761600911617279,
      "epoch": 1.7431820054379172,
      "grad_norm": 0.6983460783958435,
      "learning_rate": 2.76800639431229e-06,
      "loss": 1.5221,
      "mean_token_accuracy": 0.6477015241980553,
      "num_tokens": 2662548926.0,
      "step": 15868
    },
    {
      "entropy": 1.7244667708873749,
      "epoch": 1.74329186234929,
      "grad_norm": 0.9077073335647583,
      "learning_rate": 2.767359331383718e-06,
      "loss": 1.7027,
      "mean_token_accuracy": 0.6437298407157263,
      "num_tokens": 2662710873.0,
      "step": 15869
    },
    {
      "entropy": 1.724602371454239,
      "epoch": 1.743401719260663,
      "grad_norm": 0.7138944268226624,
      "learning_rate": 2.766712529014512e-06,
      "loss": 1.5175,
      "mean_token_accuracy": 0.6394424885511398,
      "num_tokens": 2662849006.0,
      "step": 15870
    },
    {
      "entropy": 1.7281849185625713,
      "epoch": 1.743511576172036,
      "grad_norm": 0.6491277813911438,
      "learning_rate": 2.7660659872251465e-06,
      "loss": 1.4241,
      "mean_token_accuracy": 0.6524779796600342,
      "num_tokens": 2663030042.0,
      "step": 15871
    },
    {
      "entropy": 1.7124824225902557,
      "epoch": 1.7436214330834088,
      "grad_norm": 1.1152174472808838,
      "learning_rate": 2.7654197060360814e-06,
      "loss": 1.3749,
      "mean_token_accuracy": 0.6579590986172358,
      "num_tokens": 2663167002.0,
      "step": 15872
    },
    {
      "entropy": 1.7078356345494587,
      "epoch": 1.7437312899947819,
      "grad_norm": 0.7276211380958557,
      "learning_rate": 2.7647736854677713e-06,
      "loss": 1.3144,
      "mean_token_accuracy": 0.6709758639335632,
      "num_tokens": 2663323208.0,
      "step": 15873
    },
    {
      "entropy": 1.692564715941747,
      "epoch": 1.7438411469061548,
      "grad_norm": 0.8237895369529724,
      "learning_rate": 2.7641279255406627e-06,
      "loss": 1.2983,
      "mean_token_accuracy": 0.6772258182366689,
      "num_tokens": 2663464049.0,
      "step": 15874
    },
    {
      "entropy": 1.6918930908044179,
      "epoch": 1.7439510038175277,
      "grad_norm": 0.6199659705162048,
      "learning_rate": 2.763482426275198e-06,
      "loss": 1.5252,
      "mean_token_accuracy": 0.6460767934719721,
      "num_tokens": 2663626836.0,
      "step": 15875
    },
    {
      "entropy": 1.6668222049872081,
      "epoch": 1.7440608607289008,
      "grad_norm": 0.6627802848815918,
      "learning_rate": 2.762837187691799e-06,
      "loss": 1.442,
      "mean_token_accuracy": 0.6594364990790685,
      "num_tokens": 2663781920.0,
      "step": 15876
    },
    {
      "entropy": 1.7106184164683025,
      "epoch": 1.7441707176402734,
      "grad_norm": 0.6994909048080444,
      "learning_rate": 2.762192209810891e-06,
      "loss": 1.4027,
      "mean_token_accuracy": 0.6450665394465128,
      "num_tokens": 2663934972.0,
      "step": 15877
    },
    {
      "entropy": 1.664261003335317,
      "epoch": 1.7442805745516465,
      "grad_norm": 0.7002906203269958,
      "learning_rate": 2.7615474926528897e-06,
      "loss": 1.4519,
      "mean_token_accuracy": 0.6614581495523453,
      "num_tokens": 2664127135.0,
      "step": 15878
    },
    {
      "entropy": 1.7660688559214275,
      "epoch": 1.7443904314630194,
      "grad_norm": 0.6302309036254883,
      "learning_rate": 2.7609030362381985e-06,
      "loss": 1.3609,
      "mean_token_accuracy": 0.6554263929526011,
      "num_tokens": 2664317047.0,
      "step": 15879
    },
    {
      "entropy": 1.723916381597519,
      "epoch": 1.7445002883743923,
      "grad_norm": 0.6405919194221497,
      "learning_rate": 2.76025884058721e-06,
      "loss": 1.4031,
      "mean_token_accuracy": 0.656665583451589,
      "num_tokens": 2664491829.0,
      "step": 15880
    },
    {
      "entropy": 1.698687841494878,
      "epoch": 1.7446101452857654,
      "grad_norm": 0.6089337468147278,
      "learning_rate": 2.7596149057203198e-06,
      "loss": 1.2856,
      "mean_token_accuracy": 0.6691889415184656,
      "num_tokens": 2664635435.0,
      "step": 15881
    },
    {
      "entropy": 1.7116204798221588,
      "epoch": 1.744720002197138,
      "grad_norm": 0.698288083076477,
      "learning_rate": 2.758971231657902e-06,
      "loss": 1.3977,
      "mean_token_accuracy": 0.6574417501688004,
      "num_tokens": 2664771325.0,
      "step": 15882
    },
    {
      "entropy": 1.7519585887591045,
      "epoch": 1.7448298591085112,
      "grad_norm": 0.6853853464126587,
      "learning_rate": 2.758327818420333e-06,
      "loss": 1.5416,
      "mean_token_accuracy": 0.643589456876119,
      "num_tokens": 2665007886.0,
      "step": 15883
    },
    {
      "entropy": 1.688419868548711,
      "epoch": 1.744939716019884,
      "grad_norm": 0.6974164247512817,
      "learning_rate": 2.757684666027975e-06,
      "loss": 1.5013,
      "mean_token_accuracy": 0.6468348503112793,
      "num_tokens": 2665173280.0,
      "step": 15884
    },
    {
      "entropy": 1.7338370283444722,
      "epoch": 1.745049572931257,
      "grad_norm": 0.8303990960121155,
      "learning_rate": 2.757041774501182e-06,
      "loss": 1.3642,
      "mean_token_accuracy": 0.6649026970068613,
      "num_tokens": 2665324438.0,
      "step": 15885
    },
    {
      "entropy": 1.6935912072658539,
      "epoch": 1.74515942984263,
      "grad_norm": 0.7695938944816589,
      "learning_rate": 2.7563991438603017e-06,
      "loss": 1.4399,
      "mean_token_accuracy": 0.644097218910853,
      "num_tokens": 2665475264.0,
      "step": 15886
    },
    {
      "entropy": 1.6517487665017445,
      "epoch": 1.745269286754003,
      "grad_norm": 0.6604319214820862,
      "learning_rate": 2.755756774125678e-06,
      "loss": 1.2338,
      "mean_token_accuracy": 0.6787222623825073,
      "num_tokens": 2665614784.0,
      "step": 15887
    },
    {
      "entropy": 1.7014476756254833,
      "epoch": 1.7453791436653758,
      "grad_norm": 0.7577602863311768,
      "learning_rate": 2.755114665317634e-06,
      "loss": 1.2983,
      "mean_token_accuracy": 0.667173316081365,
      "num_tokens": 2665727625.0,
      "step": 15888
    },
    {
      "entropy": 1.6906098127365112,
      "epoch": 1.745489000576749,
      "grad_norm": 0.639340341091156,
      "learning_rate": 2.754472817456496e-06,
      "loss": 1.4082,
      "mean_token_accuracy": 0.6597124834855398,
      "num_tokens": 2665930344.0,
      "step": 15889
    },
    {
      "entropy": 1.6897248029708862,
      "epoch": 1.7455988574881216,
      "grad_norm": 0.665076732635498,
      "learning_rate": 2.7538312305625775e-06,
      "loss": 1.3761,
      "mean_token_accuracy": 0.6529867599407831,
      "num_tokens": 2666079301.0,
      "step": 15890
    },
    {
      "entropy": 1.7365977764129639,
      "epoch": 1.7457087143994947,
      "grad_norm": 0.7009277939796448,
      "learning_rate": 2.7531899046561862e-06,
      "loss": 1.3898,
      "mean_token_accuracy": 0.6456332057714462,
      "num_tokens": 2666266419.0,
      "step": 15891
    },
    {
      "entropy": 1.7120999991893768,
      "epoch": 1.7458185713108676,
      "grad_norm": 0.6818946003913879,
      "learning_rate": 2.7525488397576173e-06,
      "loss": 1.379,
      "mean_token_accuracy": 0.6504452576239904,
      "num_tokens": 2666457767.0,
      "step": 15892
    },
    {
      "entropy": 1.7892510890960693,
      "epoch": 1.7459284282222405,
      "grad_norm": 0.8706643581390381,
      "learning_rate": 2.751908035887161e-06,
      "loss": 1.6292,
      "mean_token_accuracy": 0.6330756644407908,
      "num_tokens": 2666652930.0,
      "step": 15893
    },
    {
      "entropy": 1.697370360294978,
      "epoch": 1.7460382851336136,
      "grad_norm": 0.7226040363311768,
      "learning_rate": 2.7512674930650974e-06,
      "loss": 1.4393,
      "mean_token_accuracy": 0.6513659656047821,
      "num_tokens": 2666817818.0,
      "step": 15894
    },
    {
      "entropy": 1.7232015530268352,
      "epoch": 1.7461481420449863,
      "grad_norm": 0.6826181411743164,
      "learning_rate": 2.7506272113117044e-06,
      "loss": 1.5085,
      "mean_token_accuracy": 0.638033077120781,
      "num_tokens": 2667047183.0,
      "step": 15895
    },
    {
      "entropy": 1.7857304712136586,
      "epoch": 1.7462579989563594,
      "grad_norm": 0.7245029807090759,
      "learning_rate": 2.74998719064724e-06,
      "loss": 1.3768,
      "mean_token_accuracy": 0.6544994562864304,
      "num_tokens": 2667225814.0,
      "step": 15896
    },
    {
      "entropy": 1.6997434000174205,
      "epoch": 1.7463678558677322,
      "grad_norm": 0.5723074078559875,
      "learning_rate": 2.749347431091963e-06,
      "loss": 1.4982,
      "mean_token_accuracy": 0.6429259975751241,
      "num_tokens": 2667426464.0,
      "step": 15897
    },
    {
      "entropy": 1.696702629327774,
      "epoch": 1.7464777127791051,
      "grad_norm": 0.7994809150695801,
      "learning_rate": 2.748707932666124e-06,
      "loss": 1.4103,
      "mean_token_accuracy": 0.6626110722621282,
      "num_tokens": 2667592380.0,
      "step": 15898
    },
    {
      "entropy": 1.7208527425924938,
      "epoch": 1.7465875696904782,
      "grad_norm": 0.7930123209953308,
      "learning_rate": 2.748068695389961e-06,
      "loss": 1.2325,
      "mean_token_accuracy": 0.6823674192031225,
      "num_tokens": 2667677926.0,
      "step": 15899
    },
    {
      "entropy": 1.7191575070222218,
      "epoch": 1.7466974266018511,
      "grad_norm": 0.896288275718689,
      "learning_rate": 2.7474297192837036e-06,
      "loss": 1.5166,
      "mean_token_accuracy": 0.6732039203246435,
      "num_tokens": 2667810576.0,
      "step": 15900
    },
    {
      "entropy": 1.6295614341894786,
      "epoch": 1.746807283513224,
      "grad_norm": 0.7545291185379028,
      "learning_rate": 2.7467910043675777e-06,
      "loss": 1.3663,
      "mean_token_accuracy": 0.6583205610513687,
      "num_tokens": 2667990884.0,
      "step": 15901
    },
    {
      "entropy": 1.7029616435368855,
      "epoch": 1.7469171404245971,
      "grad_norm": 0.6451340913772583,
      "learning_rate": 2.746152550661797e-06,
      "loss": 1.4962,
      "mean_token_accuracy": 0.637171596288681,
      "num_tokens": 2668221796.0,
      "step": 15902
    },
    {
      "entropy": 1.7344611088434856,
      "epoch": 1.7470269973359698,
      "grad_norm": 0.7526887655258179,
      "learning_rate": 2.74551435818657e-06,
      "loss": 1.2977,
      "mean_token_accuracy": 0.6728590279817581,
      "num_tokens": 2668370216.0,
      "step": 15903
    },
    {
      "entropy": 1.7479794124762218,
      "epoch": 1.7471368542473429,
      "grad_norm": 0.6179333925247192,
      "learning_rate": 2.7448764269620935e-06,
      "loss": 1.3405,
      "mean_token_accuracy": 0.6603627453247706,
      "num_tokens": 2668497399.0,
      "step": 15904
    },
    {
      "entropy": 1.749539703130722,
      "epoch": 1.7472467111587158,
      "grad_norm": 0.7413578629493713,
      "learning_rate": 2.744238757008557e-06,
      "loss": 1.4768,
      "mean_token_accuracy": 0.6490618834892908,
      "num_tokens": 2668630277.0,
      "step": 15905
    },
    {
      "entropy": 1.6794603963692982,
      "epoch": 1.7473565680700887,
      "grad_norm": 0.6921920776367188,
      "learning_rate": 2.7436013483461444e-06,
      "loss": 1.2721,
      "mean_token_accuracy": 0.6702764679988226,
      "num_tokens": 2668781076.0,
      "step": 15906
    },
    {
      "entropy": 1.697002778450648,
      "epoch": 1.7474664249814618,
      "grad_norm": 0.6494120955467224,
      "learning_rate": 2.742964200995031e-06,
      "loss": 1.4141,
      "mean_token_accuracy": 0.6404003153244654,
      "num_tokens": 2668988627.0,
      "step": 15907
    },
    {
      "entropy": 1.6904459396998088,
      "epoch": 1.7475762818928344,
      "grad_norm": 1.0672904253005981,
      "learning_rate": 2.7423273149753772e-06,
      "loss": 1.3819,
      "mean_token_accuracy": 0.6539155195156733,
      "num_tokens": 2669160412.0,
      "step": 15908
    },
    {
      "entropy": 1.7080066402753193,
      "epoch": 1.7476861388042075,
      "grad_norm": 0.6226124167442322,
      "learning_rate": 2.7416906903073428e-06,
      "loss": 1.4143,
      "mean_token_accuracy": 0.6591801842053732,
      "num_tokens": 2669354488.0,
      "step": 15909
    },
    {
      "entropy": 1.7091161111990611,
      "epoch": 1.7477959957155804,
      "grad_norm": 0.7031316757202148,
      "learning_rate": 2.7410543270110783e-06,
      "loss": 1.4967,
      "mean_token_accuracy": 0.6567925910154978,
      "num_tokens": 2669527028.0,
      "step": 15910
    },
    {
      "entropy": 1.66484734416008,
      "epoch": 1.7479058526269533,
      "grad_norm": 0.5733075737953186,
      "learning_rate": 2.7404182251067223e-06,
      "loss": 1.3354,
      "mean_token_accuracy": 0.6688386301199595,
      "num_tokens": 2669743539.0,
      "step": 15911
    },
    {
      "entropy": 1.682132512331009,
      "epoch": 1.7480157095383264,
      "grad_norm": 0.7437959313392639,
      "learning_rate": 2.739782384614407e-06,
      "loss": 1.4501,
      "mean_token_accuracy": 0.6545865833759308,
      "num_tokens": 2669897155.0,
      "step": 15912
    },
    {
      "entropy": 1.715892086426417,
      "epoch": 1.7481255664496993,
      "grad_norm": 0.6199830174446106,
      "learning_rate": 2.7391468055542573e-06,
      "loss": 1.3871,
      "mean_token_accuracy": 0.6614372233549753,
      "num_tokens": 2670031369.0,
      "step": 15913
    },
    {
      "entropy": 1.7419675091902416,
      "epoch": 1.7482354233610722,
      "grad_norm": 0.6958132386207581,
      "learning_rate": 2.7385114879463886e-06,
      "loss": 1.466,
      "mean_token_accuracy": 0.6350632160902023,
      "num_tokens": 2670226720.0,
      "step": 15914
    },
    {
      "entropy": 1.7340802152951558,
      "epoch": 1.7483452802724453,
      "grad_norm": 0.6458380818367004,
      "learning_rate": 2.73787643181091e-06,
      "loss": 1.3632,
      "mean_token_accuracy": 0.651315172513326,
      "num_tokens": 2670367360.0,
      "step": 15915
    },
    {
      "entropy": 1.7228031158447266,
      "epoch": 1.748455137183818,
      "grad_norm": 0.8244587779045105,
      "learning_rate": 2.7372416371679196e-06,
      "loss": 1.3318,
      "mean_token_accuracy": 0.6637958685557047,
      "num_tokens": 2670503435.0,
      "step": 15916
    },
    {
      "entropy": 1.730597714583079,
      "epoch": 1.748564994095191,
      "grad_norm": 0.6726572513580322,
      "learning_rate": 2.7366071040375055e-06,
      "loss": 1.4834,
      "mean_token_accuracy": 0.6449510852495829,
      "num_tokens": 2670754908.0,
      "step": 15917
    },
    {
      "entropy": 1.697900931040446,
      "epoch": 1.748674851006564,
      "grad_norm": 0.6586857438087463,
      "learning_rate": 2.7359728324397527e-06,
      "loss": 1.3441,
      "mean_token_accuracy": 0.6652401685714722,
      "num_tokens": 2670943327.0,
      "step": 15918
    },
    {
      "entropy": 1.742193837960561,
      "epoch": 1.7487847079179368,
      "grad_norm": 0.7539701461791992,
      "learning_rate": 2.73533882239474e-06,
      "loss": 1.4356,
      "mean_token_accuracy": 0.6551166623830795,
      "num_tokens": 2671090212.0,
      "step": 15919
    },
    {
      "entropy": 1.7344173789024353,
      "epoch": 1.74889456482931,
      "grad_norm": 0.6886321902275085,
      "learning_rate": 2.7347050739225255e-06,
      "loss": 1.4913,
      "mean_token_accuracy": 0.6443561265865961,
      "num_tokens": 2671261264.0,
      "step": 15920
    },
    {
      "entropy": 1.654103030761083,
      "epoch": 1.7490044217406826,
      "grad_norm": 0.6048797965049744,
      "learning_rate": 2.734071587043172e-06,
      "loss": 1.3701,
      "mean_token_accuracy": 0.6593893716732661,
      "num_tokens": 2671423561.0,
      "step": 15921
    },
    {
      "entropy": 1.673624058564504,
      "epoch": 1.7491142786520557,
      "grad_norm": 0.6645485758781433,
      "learning_rate": 2.733438361776729e-06,
      "loss": 1.4122,
      "mean_token_accuracy": 0.6572486211856207,
      "num_tokens": 2671579500.0,
      "step": 15922
    },
    {
      "entropy": 1.7188350359598796,
      "epoch": 1.7492241355634286,
      "grad_norm": 0.7232167720794678,
      "learning_rate": 2.7328053981432373e-06,
      "loss": 1.3182,
      "mean_token_accuracy": 0.6738363355398178,
      "num_tokens": 2671713076.0,
      "step": 15923
    },
    {
      "entropy": 1.6765947341918945,
      "epoch": 1.7493339924748015,
      "grad_norm": 0.7521688342094421,
      "learning_rate": 2.7321726961627272e-06,
      "loss": 1.3101,
      "mean_token_accuracy": 0.6763416528701782,
      "num_tokens": 2671916077.0,
      "step": 15924
    },
    {
      "entropy": 1.6944889426231384,
      "epoch": 1.7494438493861746,
      "grad_norm": 0.6953690648078918,
      "learning_rate": 2.731540255855228e-06,
      "loss": 1.3638,
      "mean_token_accuracy": 0.6754336108764013,
      "num_tokens": 2672113899.0,
      "step": 15925
    },
    {
      "entropy": 1.6916892528533936,
      "epoch": 1.7495537062975475,
      "grad_norm": 0.6988839507102966,
      "learning_rate": 2.7309080772407513e-06,
      "loss": 1.3953,
      "mean_token_accuracy": 0.6575096398591995,
      "num_tokens": 2672290280.0,
      "step": 15926
    },
    {
      "entropy": 1.7188960711161296,
      "epoch": 1.7496635632089204,
      "grad_norm": 0.7189807295799255,
      "learning_rate": 2.7302761603393102e-06,
      "loss": 1.475,
      "mean_token_accuracy": 0.645105391740799,
      "num_tokens": 2672469646.0,
      "step": 15927
    },
    {
      "entropy": 1.6774901350339253,
      "epoch": 1.7497734201202935,
      "grad_norm": 0.761957585811615,
      "learning_rate": 2.7296445051709012e-06,
      "loss": 1.3203,
      "mean_token_accuracy": 0.6618892600138983,
      "num_tokens": 2672626896.0,
      "step": 15928
    },
    {
      "entropy": 1.6909812192122142,
      "epoch": 1.7498832770316661,
      "grad_norm": 0.5992552638053894,
      "learning_rate": 2.7290131117555164e-06,
      "loss": 1.3377,
      "mean_token_accuracy": 0.6602785636981329,
      "num_tokens": 2672830089.0,
      "step": 15929
    },
    {
      "entropy": 1.7229216794172924,
      "epoch": 1.7499931339430392,
      "grad_norm": 0.6808377504348755,
      "learning_rate": 2.7283819801131393e-06,
      "loss": 1.3918,
      "mean_token_accuracy": 0.6523537784814835,
      "num_tokens": 2673004119.0,
      "step": 15930
    },
    {
      "entropy": 1.8220161596934001,
      "epoch": 1.7501029908544121,
      "grad_norm": 0.7409783601760864,
      "learning_rate": 2.727751110263749e-06,
      "loss": 1.3421,
      "mean_token_accuracy": 0.6639614452918371,
      "num_tokens": 2673106484.0,
      "step": 15931
    },
    {
      "entropy": 1.6994484464327495,
      "epoch": 1.750212847765785,
      "grad_norm": 0.6716399192810059,
      "learning_rate": 2.7271205022273044e-06,
      "loss": 1.4798,
      "mean_token_accuracy": 0.6541763444741567,
      "num_tokens": 2673266017.0,
      "step": 15932
    },
    {
      "entropy": 1.7303711573282878,
      "epoch": 1.7503227046771581,
      "grad_norm": 0.7343233823776245,
      "learning_rate": 2.7264901560237685e-06,
      "loss": 1.4671,
      "mean_token_accuracy": 0.6574054459730784,
      "num_tokens": 2673426360.0,
      "step": 15933
    },
    {
      "entropy": 1.6783941288789113,
      "epoch": 1.7504325615885308,
      "grad_norm": 0.6652559638023376,
      "learning_rate": 2.725860071673093e-06,
      "loss": 1.2442,
      "mean_token_accuracy": 0.6868862261374792,
      "num_tokens": 2673564234.0,
      "step": 15934
    },
    {
      "entropy": 1.7397794624169667,
      "epoch": 1.7505424184999039,
      "grad_norm": 0.7660438418388367,
      "learning_rate": 2.7252302491952166e-06,
      "loss": 1.5224,
      "mean_token_accuracy": 0.6459332555532455,
      "num_tokens": 2673745150.0,
      "step": 15935
    },
    {
      "entropy": 1.6459727088610332,
      "epoch": 1.7506522754112768,
      "grad_norm": 1.2467116117477417,
      "learning_rate": 2.724600688610073e-06,
      "loss": 1.157,
      "mean_token_accuracy": 0.6878319978713989,
      "num_tokens": 2673974532.0,
      "step": 15936
    },
    {
      "entropy": 1.6995637615521748,
      "epoch": 1.7507621323226497,
      "grad_norm": 0.6141746640205383,
      "learning_rate": 2.723971389937591e-06,
      "loss": 1.4254,
      "mean_token_accuracy": 0.6578077226877213,
      "num_tokens": 2674144964.0,
      "step": 15937
    },
    {
      "entropy": 1.785159985224406,
      "epoch": 1.7508719892340228,
      "grad_norm": 0.7061741352081299,
      "learning_rate": 2.7233423531976827e-06,
      "loss": 1.3695,
      "mean_token_accuracy": 0.6479012419780096,
      "num_tokens": 2674288702.0,
      "step": 15938
    },
    {
      "entropy": 1.7027852634588878,
      "epoch": 1.7509818461453956,
      "grad_norm": 0.7895951271057129,
      "learning_rate": 2.7227135784102622e-06,
      "loss": 1.4436,
      "mean_token_accuracy": 0.6551746229330698,
      "num_tokens": 2674455082.0,
      "step": 15939
    },
    {
      "entropy": 1.7255665163199108,
      "epoch": 1.7510917030567685,
      "grad_norm": 0.6441416144371033,
      "learning_rate": 2.722085065595226e-06,
      "loss": 1.6238,
      "mean_token_accuracy": 0.6162713964780172,
      "num_tokens": 2674717678.0,
      "step": 15940
    },
    {
      "entropy": 1.6721422374248505,
      "epoch": 1.7512015599681416,
      "grad_norm": 0.6975085735321045,
      "learning_rate": 2.7214568147724656e-06,
      "loss": 1.3447,
      "mean_token_accuracy": 0.6642735848824183,
      "num_tokens": 2674888510.0,
      "step": 15941
    },
    {
      "entropy": 1.70290403564771,
      "epoch": 1.7513114168795143,
      "grad_norm": 0.7391501665115356,
      "learning_rate": 2.7208288259618674e-06,
      "loss": 1.2404,
      "mean_token_accuracy": 0.66946313281854,
      "num_tokens": 2675027189.0,
      "step": 15942
    },
    {
      "entropy": 1.662659337123235,
      "epoch": 1.7514212737908874,
      "grad_norm": 0.7047905921936035,
      "learning_rate": 2.720201099183309e-06,
      "loss": 1.4786,
      "mean_token_accuracy": 0.6650376369555792,
      "num_tokens": 2675168738.0,
      "step": 15943
    },
    {
      "entropy": 1.767273743947347,
      "epoch": 1.7515311307022603,
      "grad_norm": 0.7692185640335083,
      "learning_rate": 2.719573634456652e-06,
      "loss": 1.2778,
      "mean_token_accuracy": 0.6670770943164825,
      "num_tokens": 2675281899.0,
      "step": 15944
    },
    {
      "entropy": 1.7268462379773457,
      "epoch": 1.7516409876136332,
      "grad_norm": 0.6072038412094116,
      "learning_rate": 2.7189464318017572e-06,
      "loss": 1.5135,
      "mean_token_accuracy": 0.6426151494185129,
      "num_tokens": 2675495851.0,
      "step": 15945
    },
    {
      "entropy": 1.7973586320877075,
      "epoch": 1.7517508445250063,
      "grad_norm": 0.7870144248008728,
      "learning_rate": 2.718319491238479e-06,
      "loss": 1.4825,
      "mean_token_accuracy": 0.6487486610809962,
      "num_tokens": 2675698102.0,
      "step": 15946
    },
    {
      "entropy": 1.6900157729784648,
      "epoch": 1.751860701436379,
      "grad_norm": 0.6972094178199768,
      "learning_rate": 2.7176928127866565e-06,
      "loss": 1.4772,
      "mean_token_accuracy": 0.6373498241106669,
      "num_tokens": 2675859370.0,
      "step": 15947
    },
    {
      "entropy": 1.7243396242459614,
      "epoch": 1.751970558347752,
      "grad_norm": 0.7015838623046875,
      "learning_rate": 2.7170663964661246e-06,
      "loss": 1.5138,
      "mean_token_accuracy": 0.6468863636255264,
      "num_tokens": 2676047567.0,
      "step": 15948
    },
    {
      "entropy": 1.714859535296758,
      "epoch": 1.752080415259125,
      "grad_norm": 0.6738941669464111,
      "learning_rate": 2.716440242296707e-06,
      "loss": 1.3198,
      "mean_token_accuracy": 0.6629375318686167,
      "num_tokens": 2676207126.0,
      "step": 15949
    },
    {
      "entropy": 1.64927805463473,
      "epoch": 1.7521902721704978,
      "grad_norm": 0.6364519000053406,
      "learning_rate": 2.715814350298223e-06,
      "loss": 1.2985,
      "mean_token_accuracy": 0.6785600632429123,
      "num_tokens": 2676349632.0,
      "step": 15950
    },
    {
      "entropy": 1.7328944404919941,
      "epoch": 1.752300129081871,
      "grad_norm": 0.7407512068748474,
      "learning_rate": 2.715188720490486e-06,
      "loss": 1.3626,
      "mean_token_accuracy": 0.6627685775359472,
      "num_tokens": 2676480646.0,
      "step": 15951
    },
    {
      "entropy": 1.6649740636348724,
      "epoch": 1.7524099859932438,
      "grad_norm": 0.6273338794708252,
      "learning_rate": 2.7145633528932884e-06,
      "loss": 1.2986,
      "mean_token_accuracy": 0.6614208469788233,
      "num_tokens": 2676625775.0,
      "step": 15952
    },
    {
      "entropy": 1.7441307703653972,
      "epoch": 1.7525198429046167,
      "grad_norm": 0.6636318564414978,
      "learning_rate": 2.713938247526428e-06,
      "loss": 1.3612,
      "mean_token_accuracy": 0.659666990240415,
      "num_tokens": 2676765131.0,
      "step": 15953
    },
    {
      "entropy": 1.691186914841334,
      "epoch": 1.7526296998159898,
      "grad_norm": 0.6902927160263062,
      "learning_rate": 2.7133134044096894e-06,
      "loss": 1.2746,
      "mean_token_accuracy": 0.6825152337551117,
      "num_tokens": 2676943845.0,
      "step": 15954
    },
    {
      "entropy": 1.6996070841948192,
      "epoch": 1.7527395567273625,
      "grad_norm": 0.6229896545410156,
      "learning_rate": 2.7126888235628484e-06,
      "loss": 1.4192,
      "mean_token_accuracy": 0.6589094599088033,
      "num_tokens": 2677124904.0,
      "step": 15955
    },
    {
      "entropy": 1.7306743164857228,
      "epoch": 1.7528494136387356,
      "grad_norm": 0.8987564444541931,
      "learning_rate": 2.7120645050056693e-06,
      "loss": 1.646,
      "mean_token_accuracy": 0.6419266114632288,
      "num_tokens": 2677305092.0,
      "step": 15956
    },
    {
      "entropy": 1.703240692615509,
      "epoch": 1.7529592705501085,
      "grad_norm": 0.6768248081207275,
      "learning_rate": 2.711440448757916e-06,
      "loss": 1.3706,
      "mean_token_accuracy": 0.6598798781633377,
      "num_tokens": 2677451996.0,
      "step": 15957
    },
    {
      "entropy": 1.68047430117925,
      "epoch": 1.7530691274614814,
      "grad_norm": 0.7604206204414368,
      "learning_rate": 2.7108166548393355e-06,
      "loss": 1.3357,
      "mean_token_accuracy": 0.6692562450965246,
      "num_tokens": 2677595564.0,
      "step": 15958
    },
    {
      "entropy": 1.6513379216194153,
      "epoch": 1.7531789843728545,
      "grad_norm": 0.7215495705604553,
      "learning_rate": 2.710193123269674e-06,
      "loss": 1.4028,
      "mean_token_accuracy": 0.668435071905454,
      "num_tokens": 2677747003.0,
      "step": 15959
    },
    {
      "entropy": 1.7083741823832195,
      "epoch": 1.7532888412842271,
      "grad_norm": 0.792725145816803,
      "learning_rate": 2.7095698540686656e-06,
      "loss": 1.4943,
      "mean_token_accuracy": 0.6499527543783188,
      "num_tokens": 2677977238.0,
      "step": 15960
    },
    {
      "entropy": 1.6812816560268402,
      "epoch": 1.7533986981956002,
      "grad_norm": 0.7482911944389343,
      "learning_rate": 2.7089468472560337e-06,
      "loss": 1.4457,
      "mean_token_accuracy": 0.6625443349281946,
      "num_tokens": 2678174371.0,
      "step": 15961
    },
    {
      "entropy": 1.7282609542210896,
      "epoch": 1.7535085551069731,
      "grad_norm": 0.6054615378379822,
      "learning_rate": 2.708324102851498e-06,
      "loss": 1.4013,
      "mean_token_accuracy": 0.6478755126396815,
      "num_tokens": 2678327959.0,
      "step": 15962
    },
    {
      "entropy": 1.6690288086732228,
      "epoch": 1.753618412018346,
      "grad_norm": 0.6034241318702698,
      "learning_rate": 2.707701620874771e-06,
      "loss": 1.447,
      "mean_token_accuracy": 0.6598279525836309,
      "num_tokens": 2678507673.0,
      "step": 15963
    },
    {
      "entropy": 1.7199995517730713,
      "epoch": 1.7537282689297191,
      "grad_norm": 0.5845739841461182,
      "learning_rate": 2.707079401345548e-06,
      "loss": 1.4097,
      "mean_token_accuracy": 0.6425377229849497,
      "num_tokens": 2678686394.0,
      "step": 15964
    },
    {
      "entropy": 1.7174680133660634,
      "epoch": 1.753838125841092,
      "grad_norm": 0.7504869103431702,
      "learning_rate": 2.7064574442835244e-06,
      "loss": 1.2004,
      "mean_token_accuracy": 0.6825359563032786,
      "num_tokens": 2678832333.0,
      "step": 15965
    },
    {
      "entropy": 1.7301206588745117,
      "epoch": 1.7539479827524649,
      "grad_norm": 0.7699616551399231,
      "learning_rate": 2.705835749708389e-06,
      "loss": 1.3751,
      "mean_token_accuracy": 0.6503161787986755,
      "num_tokens": 2678975215.0,
      "step": 15966
    },
    {
      "entropy": 1.6766011317571003,
      "epoch": 1.754057839663838,
      "grad_norm": 0.6368605494499207,
      "learning_rate": 2.705214317639813e-06,
      "loss": 1.3711,
      "mean_token_accuracy": 0.6545276641845703,
      "num_tokens": 2679134834.0,
      "step": 15967
    },
    {
      "entropy": 1.6891018450260162,
      "epoch": 1.7541676965752107,
      "grad_norm": 0.6660163402557373,
      "learning_rate": 2.7045931480974647e-06,
      "loss": 1.481,
      "mean_token_accuracy": 0.6436668932437897,
      "num_tokens": 2679370650.0,
      "step": 15968
    },
    {
      "entropy": 1.6860856016476948,
      "epoch": 1.7542775534865838,
      "grad_norm": 0.6828413009643555,
      "learning_rate": 2.7039722411010077e-06,
      "loss": 1.3477,
      "mean_token_accuracy": 0.6638344178597132,
      "num_tokens": 2679515052.0,
      "step": 15969
    },
    {
      "entropy": 1.707839588324229,
      "epoch": 1.7543874103979566,
      "grad_norm": 0.5549116134643555,
      "learning_rate": 2.703351596670089e-06,
      "loss": 1.3906,
      "mean_token_accuracy": 0.6582557906707128,
      "num_tokens": 2679697943.0,
      "step": 15970
    },
    {
      "entropy": 1.6483833988507588,
      "epoch": 1.7544972673093295,
      "grad_norm": 0.6756875514984131,
      "learning_rate": 2.7027312148243552e-06,
      "loss": 1.2794,
      "mean_token_accuracy": 0.6740471869707108,
      "num_tokens": 2679854587.0,
      "step": 15971
    },
    {
      "entropy": 1.7412736018498738,
      "epoch": 1.7546071242207026,
      "grad_norm": 0.6762500405311584,
      "learning_rate": 2.7021110955834397e-06,
      "loss": 1.3442,
      "mean_token_accuracy": 0.6655664046605428,
      "num_tokens": 2679989455.0,
      "step": 15972
    },
    {
      "entropy": 1.7418133318424225,
      "epoch": 1.7547169811320755,
      "grad_norm": 0.702103316783905,
      "learning_rate": 2.701491238966968e-06,
      "loss": 1.4733,
      "mean_token_accuracy": 0.6563413143157959,
      "num_tokens": 2680144527.0,
      "step": 15973
    },
    {
      "entropy": 1.7465166052182515,
      "epoch": 1.7548268380434484,
      "grad_norm": 0.659724771976471,
      "learning_rate": 2.700871644994558e-06,
      "loss": 1.6231,
      "mean_token_accuracy": 0.6223872403303782,
      "num_tokens": 2680367260.0,
      "step": 15974
    },
    {
      "entropy": 1.7185083429018657,
      "epoch": 1.7549366949548213,
      "grad_norm": 0.6778896450996399,
      "learning_rate": 2.7002523136858243e-06,
      "loss": 1.297,
      "mean_token_accuracy": 0.659514586130778,
      "num_tokens": 2680520101.0,
      "step": 15975
    },
    {
      "entropy": 1.6928850710391998,
      "epoch": 1.7550465518661942,
      "grad_norm": 0.6215304136276245,
      "learning_rate": 2.699633245060362e-06,
      "loss": 1.3566,
      "mean_token_accuracy": 0.6550732006629308,
      "num_tokens": 2680714804.0,
      "step": 15976
    },
    {
      "entropy": 1.636595219373703,
      "epoch": 1.7551564087775673,
      "grad_norm": 0.640494704246521,
      "learning_rate": 2.6990144391377672e-06,
      "loss": 1.4246,
      "mean_token_accuracy": 0.6581357816855112,
      "num_tokens": 2680900096.0,
      "step": 15977
    },
    {
      "entropy": 1.6510383188724518,
      "epoch": 1.7552662656889402,
      "grad_norm": 0.5748199820518494,
      "learning_rate": 2.698395895937627e-06,
      "loss": 1.3701,
      "mean_token_accuracy": 0.6559861749410629,
      "num_tokens": 2681112878.0,
      "step": 15978
    },
    {
      "entropy": 1.7111006379127502,
      "epoch": 1.755376122600313,
      "grad_norm": 0.6022339463233948,
      "learning_rate": 2.6977776154795143e-06,
      "loss": 1.43,
      "mean_token_accuracy": 0.6573653519153595,
      "num_tokens": 2681330192.0,
      "step": 15979
    },
    {
      "entropy": 1.7234566509723663,
      "epoch": 1.7554859795116862,
      "grad_norm": 0.7855963706970215,
      "learning_rate": 2.6971595977829986e-06,
      "loss": 1.4615,
      "mean_token_accuracy": 0.6453143805265427,
      "num_tokens": 2681475961.0,
      "step": 15980
    },
    {
      "entropy": 1.7315457065900166,
      "epoch": 1.7555958364230588,
      "grad_norm": 0.6155387759208679,
      "learning_rate": 2.6965418428676416e-06,
      "loss": 1.5345,
      "mean_token_accuracy": 0.6340660750865936,
      "num_tokens": 2681718898.0,
      "step": 15981
    },
    {
      "entropy": 1.6927696069081624,
      "epoch": 1.755705693334432,
      "grad_norm": 0.6210948824882507,
      "learning_rate": 2.695924350752992e-06,
      "loss": 1.4177,
      "mean_token_accuracy": 0.6520951439936956,
      "num_tokens": 2681871307.0,
      "step": 15982
    },
    {
      "entropy": 1.703049937884013,
      "epoch": 1.7558155502458048,
      "grad_norm": 0.6101760268211365,
      "learning_rate": 2.695307121458597e-06,
      "loss": 1.5486,
      "mean_token_accuracy": 0.6360116451978683,
      "num_tokens": 2682062747.0,
      "step": 15983
    },
    {
      "entropy": 1.7253990471363068,
      "epoch": 1.7559254071571777,
      "grad_norm": 0.8363544940948486,
      "learning_rate": 2.694690155003989e-06,
      "loss": 1.5341,
      "mean_token_accuracy": 0.6490476578474045,
      "num_tokens": 2682217967.0,
      "step": 15984
    },
    {
      "entropy": 1.7305609087149303,
      "epoch": 1.7560352640685508,
      "grad_norm": 0.6613196730613708,
      "learning_rate": 2.694073451408693e-06,
      "loss": 1.4157,
      "mean_token_accuracy": 0.6571665753920873,
      "num_tokens": 2682358141.0,
      "step": 15985
    },
    {
      "entropy": 1.683866063753764,
      "epoch": 1.7561451209799237,
      "grad_norm": 0.6239186525344849,
      "learning_rate": 2.69345701069223e-06,
      "loss": 1.412,
      "mean_token_accuracy": 0.6451130757729212,
      "num_tokens": 2682550962.0,
      "step": 15986
    },
    {
      "entropy": 1.7141178448994954,
      "epoch": 1.7562549778912966,
      "grad_norm": 0.6861118674278259,
      "learning_rate": 2.6928408328741128e-06,
      "loss": 1.5234,
      "mean_token_accuracy": 0.6307132889827093,
      "num_tokens": 2682768682.0,
      "step": 15987
    },
    {
      "entropy": 1.6778662502765656,
      "epoch": 1.7563648348026695,
      "grad_norm": 0.7148086428642273,
      "learning_rate": 2.692224917973837e-06,
      "loss": 1.279,
      "mean_token_accuracy": 0.6807506283124288,
      "num_tokens": 2682890200.0,
      "step": 15988
    },
    {
      "entropy": 1.680614044268926,
      "epoch": 1.7564746917140424,
      "grad_norm": 0.7254914045333862,
      "learning_rate": 2.6916092660108985e-06,
      "loss": 1.524,
      "mean_token_accuracy": 0.6463294724623362,
      "num_tokens": 2683094770.0,
      "step": 15989
    },
    {
      "entropy": 1.6979198157787323,
      "epoch": 1.7565845486254155,
      "grad_norm": 0.6991070508956909,
      "learning_rate": 2.690993877004785e-06,
      "loss": 1.5171,
      "mean_token_accuracy": 0.6333752622207006,
      "num_tokens": 2683283703.0,
      "step": 15990
    },
    {
      "entropy": 1.728099246819814,
      "epoch": 1.7566944055367884,
      "grad_norm": 0.6582128405570984,
      "learning_rate": 2.69037875097497e-06,
      "loss": 1.2978,
      "mean_token_accuracy": 0.6661944588025411,
      "num_tokens": 2683408690.0,
      "step": 15991
    },
    {
      "entropy": 1.6826795637607574,
      "epoch": 1.7568042624481612,
      "grad_norm": 0.7262701392173767,
      "learning_rate": 2.6897638879409228e-06,
      "loss": 1.4638,
      "mean_token_accuracy": 0.6540475736061732,
      "num_tokens": 2683550680.0,
      "step": 15992
    },
    {
      "entropy": 1.6950383583704631,
      "epoch": 1.7569141193595343,
      "grad_norm": 0.7318074703216553,
      "learning_rate": 2.689149287922105e-06,
      "loss": 1.5337,
      "mean_token_accuracy": 0.6470025032758713,
      "num_tokens": 2683732547.0,
      "step": 15993
    },
    {
      "entropy": 1.6813922425111134,
      "epoch": 1.757023976270907,
      "grad_norm": 0.6637877225875854,
      "learning_rate": 2.6885349509379667e-06,
      "loss": 1.4379,
      "mean_token_accuracy": 0.6517617652813593,
      "num_tokens": 2683904804.0,
      "step": 15994
    },
    {
      "entropy": 1.6451501250267029,
      "epoch": 1.7571338331822801,
      "grad_norm": 0.5915562510490417,
      "learning_rate": 2.687920877007952e-06,
      "loss": 1.3513,
      "mean_token_accuracy": 0.6604169209798177,
      "num_tokens": 2684077734.0,
      "step": 15995
    },
    {
      "entropy": 1.7052603960037231,
      "epoch": 1.757243690093653,
      "grad_norm": 0.6788076162338257,
      "learning_rate": 2.6873070661514966e-06,
      "loss": 1.3391,
      "mean_token_accuracy": 0.6597078988949457,
      "num_tokens": 2684211351.0,
      "step": 15996
    },
    {
      "entropy": 1.8529831767082214,
      "epoch": 1.7573535470050259,
      "grad_norm": 0.8095588088035583,
      "learning_rate": 2.6866935183880246e-06,
      "loss": 1.372,
      "mean_token_accuracy": 0.6530237297217051,
      "num_tokens": 2684339090.0,
      "step": 15997
    },
    {
      "entropy": 1.6758296092351277,
      "epoch": 1.757463403916399,
      "grad_norm": 0.8423399329185486,
      "learning_rate": 2.6860802337369574e-06,
      "loss": 1.2942,
      "mean_token_accuracy": 0.6831070631742477,
      "num_tokens": 2684480747.0,
      "step": 15998
    },
    {
      "entropy": 1.7313259641329448,
      "epoch": 1.7575732608277719,
      "grad_norm": 0.6407238841056824,
      "learning_rate": 2.685467212217708e-06,
      "loss": 1.3715,
      "mean_token_accuracy": 0.6576495319604874,
      "num_tokens": 2684654860.0,
      "step": 15999
    },
    {
      "entropy": 1.68729371825854,
      "epoch": 1.7576831177391448,
      "grad_norm": 0.6778021454811096,
      "learning_rate": 2.6848544538496708e-06,
      "loss": 1.3707,
      "mean_token_accuracy": 0.6608982980251312,
      "num_tokens": 2684843261.0,
      "step": 16000
    },
    {
      "entropy": 1.71370596686999,
      "epoch": 1.7577929746505176,
      "grad_norm": 0.6387611031532288,
      "learning_rate": 2.6842419586522438e-06,
      "loss": 1.4439,
      "mean_token_accuracy": 0.6582885235548019,
      "num_tokens": 2684991799.0,
      "step": 16001
    },
    {
      "entropy": 1.7273413042227428,
      "epoch": 1.7579028315618905,
      "grad_norm": 0.6538326144218445,
      "learning_rate": 2.6836297266448132e-06,
      "loss": 1.4684,
      "mean_token_accuracy": 0.6439621796210607,
      "num_tokens": 2685157892.0,
      "step": 16002
    },
    {
      "entropy": 1.6686415771643321,
      "epoch": 1.7580126884732636,
      "grad_norm": 0.7002345323562622,
      "learning_rate": 2.6830177578467538e-06,
      "loss": 1.2251,
      "mean_token_accuracy": 0.6772776246070862,
      "num_tokens": 2685281540.0,
      "step": 16003
    },
    {
      "entropy": 1.7180415491263072,
      "epoch": 1.7581225453846365,
      "grad_norm": 0.6955657601356506,
      "learning_rate": 2.6824060522774324e-06,
      "loss": 1.3035,
      "mean_token_accuracy": 0.6689807226260504,
      "num_tokens": 2685410847.0,
      "step": 16004
    },
    {
      "entropy": 1.7041480839252472,
      "epoch": 1.7582324022960094,
      "grad_norm": 0.7212827205657959,
      "learning_rate": 2.6817946099562144e-06,
      "loss": 1.4209,
      "mean_token_accuracy": 0.6546263992786407,
      "num_tokens": 2685550734.0,
      "step": 16005
    },
    {
      "entropy": 1.7181178629398346,
      "epoch": 1.7583422592073825,
      "grad_norm": 0.927869439125061,
      "learning_rate": 2.6811834309024464e-06,
      "loss": 1.5715,
      "mean_token_accuracy": 0.6469027449687322,
      "num_tokens": 2685780924.0,
      "step": 16006
    },
    {
      "entropy": 1.6185656785964966,
      "epoch": 1.7584521161187552,
      "grad_norm": 0.8028410077095032,
      "learning_rate": 2.6805725151354767e-06,
      "loss": 1.3453,
      "mean_token_accuracy": 0.6656514505545298,
      "num_tokens": 2685995927.0,
      "step": 16007
    },
    {
      "entropy": 1.7140028874079387,
      "epoch": 1.7585619730301283,
      "grad_norm": 0.5886359214782715,
      "learning_rate": 2.6799618626746373e-06,
      "loss": 1.3963,
      "mean_token_accuracy": 0.6488246818383535,
      "num_tokens": 2686183571.0,
      "step": 16008
    },
    {
      "entropy": 1.7340856492519379,
      "epoch": 1.7586718299415012,
      "grad_norm": 0.7170657515525818,
      "learning_rate": 2.679351473539254e-06,
      "loss": 1.3313,
      "mean_token_accuracy": 0.6784360110759735,
      "num_tokens": 2686339779.0,
      "step": 16009
    },
    {
      "entropy": 1.7010501722494762,
      "epoch": 1.758781686852874,
      "grad_norm": 0.708954930305481,
      "learning_rate": 2.678741347748649e-06,
      "loss": 1.3835,
      "mean_token_accuracy": 0.6587957243124644,
      "num_tokens": 2686483449.0,
      "step": 16010
    },
    {
      "entropy": 1.7321734031041462,
      "epoch": 1.7588915437642472,
      "grad_norm": 0.850824773311615,
      "learning_rate": 2.6781314853221317e-06,
      "loss": 1.2767,
      "mean_token_accuracy": 0.6718885898590088,
      "num_tokens": 2686619532.0,
      "step": 16011
    },
    {
      "entropy": 1.7261533737182617,
      "epoch": 1.75900140067562,
      "grad_norm": 0.6615371704101562,
      "learning_rate": 2.677521886279e-06,
      "loss": 1.3841,
      "mean_token_accuracy": 0.657954066991806,
      "num_tokens": 2686772792.0,
      "step": 16012
    },
    {
      "entropy": 1.6760503153006236,
      "epoch": 1.759111257586993,
      "grad_norm": 0.6881850957870483,
      "learning_rate": 2.676912550638553e-06,
      "loss": 1.317,
      "mean_token_accuracy": 0.6734907428423563,
      "num_tokens": 2686959332.0,
      "step": 16013
    },
    {
      "entropy": 1.7255980670452118,
      "epoch": 1.7592211144983658,
      "grad_norm": 0.8105875849723816,
      "learning_rate": 2.6763034784200714e-06,
      "loss": 1.3294,
      "mean_token_accuracy": 0.6656341602404913,
      "num_tokens": 2687089986.0,
      "step": 16014
    },
    {
      "entropy": 1.7051123281319935,
      "epoch": 1.7593309714097387,
      "grad_norm": 0.7158269882202148,
      "learning_rate": 2.675694669642835e-06,
      "loss": 1.3558,
      "mean_token_accuracy": 0.6500856876373291,
      "num_tokens": 2687263913.0,
      "step": 16015
    },
    {
      "entropy": 1.632367382446925,
      "epoch": 1.7594408283211118,
      "grad_norm": 0.6158329844474792,
      "learning_rate": 2.6750861243261116e-06,
      "loss": 1.4107,
      "mean_token_accuracy": 0.6531671682993571,
      "num_tokens": 2687432094.0,
      "step": 16016
    },
    {
      "entropy": 1.64411657055219,
      "epoch": 1.7595506852324847,
      "grad_norm": 0.7069551348686218,
      "learning_rate": 2.6744778424891593e-06,
      "loss": 1.2452,
      "mean_token_accuracy": 0.681958943605423,
      "num_tokens": 2687545345.0,
      "step": 16017
    },
    {
      "entropy": 1.7302074233690898,
      "epoch": 1.7596605421438576,
      "grad_norm": 0.922947108745575,
      "learning_rate": 2.673869824151233e-06,
      "loss": 1.411,
      "mean_token_accuracy": 0.6597683926423391,
      "num_tokens": 2687702086.0,
      "step": 16018
    },
    {
      "entropy": 1.6862739821275075,
      "epoch": 1.7597703990552307,
      "grad_norm": 0.611757218837738,
      "learning_rate": 2.6732620693315747e-06,
      "loss": 1.3634,
      "mean_token_accuracy": 0.6643515825271606,
      "num_tokens": 2687873391.0,
      "step": 16019
    },
    {
      "entropy": 1.6990788380304973,
      "epoch": 1.7598802559666034,
      "grad_norm": 0.6882119178771973,
      "learning_rate": 2.672654578049421e-06,
      "loss": 1.6048,
      "mean_token_accuracy": 0.6338710337877274,
      "num_tokens": 2688115401.0,
      "step": 16020
    },
    {
      "entropy": 1.762443095445633,
      "epoch": 1.7599901128779765,
      "grad_norm": 0.6838318109512329,
      "learning_rate": 2.6720473503239965e-06,
      "loss": 1.4519,
      "mean_token_accuracy": 0.6481083780527115,
      "num_tokens": 2688307828.0,
      "step": 16021
    },
    {
      "entropy": 1.6223317682743073,
      "epoch": 1.7600999697893494,
      "grad_norm": 0.7780981063842773,
      "learning_rate": 2.67144038617452e-06,
      "loss": 1.2702,
      "mean_token_accuracy": 0.6707681715488434,
      "num_tokens": 2688478830.0,
      "step": 16022
    },
    {
      "entropy": 1.7924179633458455,
      "epoch": 1.7602098267007222,
      "grad_norm": 0.693706214427948,
      "learning_rate": 2.670833685620204e-06,
      "loss": 1.4936,
      "mean_token_accuracy": 0.6311075091362,
      "num_tokens": 2688628557.0,
      "step": 16023
    },
    {
      "entropy": 1.7252692580223083,
      "epoch": 1.7603196836120953,
      "grad_norm": 0.8025743365287781,
      "learning_rate": 2.6702272486802467e-06,
      "loss": 1.6267,
      "mean_token_accuracy": 0.6387341618537903,
      "num_tokens": 2688872676.0,
      "step": 16024
    },
    {
      "entropy": 1.6703723271687825,
      "epoch": 1.7604295405234682,
      "grad_norm": 0.7961321473121643,
      "learning_rate": 2.669621075373845e-06,
      "loss": 1.344,
      "mean_token_accuracy": 0.6630989263455073,
      "num_tokens": 2689041194.0,
      "step": 16025
    },
    {
      "entropy": 1.72029647231102,
      "epoch": 1.7605393974348411,
      "grad_norm": 0.6698374152183533,
      "learning_rate": 2.6690151657201813e-06,
      "loss": 1.3747,
      "mean_token_accuracy": 0.6576948761940002,
      "num_tokens": 2689249040.0,
      "step": 16026
    },
    {
      "entropy": 1.7233352561791737,
      "epoch": 1.7606492543462142,
      "grad_norm": 0.7270263433456421,
      "learning_rate": 2.668409519738434e-06,
      "loss": 1.5737,
      "mean_token_accuracy": 0.6292213350534439,
      "num_tokens": 2689469853.0,
      "step": 16027
    },
    {
      "entropy": 1.716443419456482,
      "epoch": 1.7607591112575869,
      "grad_norm": 0.7445971965789795,
      "learning_rate": 2.667804137447772e-06,
      "loss": 1.3767,
      "mean_token_accuracy": 0.6535246272881826,
      "num_tokens": 2689621005.0,
      "step": 16028
    },
    {
      "entropy": 1.7172259191672008,
      "epoch": 1.76086896816896,
      "grad_norm": 0.6567142009735107,
      "learning_rate": 2.6671990188673534e-06,
      "loss": 1.4442,
      "mean_token_accuracy": 0.6565740207831064,
      "num_tokens": 2689811122.0,
      "step": 16029
    },
    {
      "entropy": 1.7025707860787709,
      "epoch": 1.7609788250803329,
      "grad_norm": 0.6175838112831116,
      "learning_rate": 2.666594164016331e-06,
      "loss": 1.4574,
      "mean_token_accuracy": 0.6463165481885275,
      "num_tokens": 2689987343.0,
      "step": 16030
    },
    {
      "entropy": 1.7212122082710266,
      "epoch": 1.7610886819917058,
      "grad_norm": 0.7046975493431091,
      "learning_rate": 2.6659895729138506e-06,
      "loss": 1.4979,
      "mean_token_accuracy": 0.6492815067370733,
      "num_tokens": 2690161731.0,
      "step": 16031
    },
    {
      "entropy": 1.7542727986971538,
      "epoch": 1.7611985389030789,
      "grad_norm": 0.8798859119415283,
      "learning_rate": 2.665385245579042e-06,
      "loss": 1.427,
      "mean_token_accuracy": 0.666147435704867,
      "num_tokens": 2690346545.0,
      "step": 16032
    },
    {
      "entropy": 1.7387540936470032,
      "epoch": 1.7613083958144515,
      "grad_norm": 0.7441887855529785,
      "learning_rate": 2.6647811820310345e-06,
      "loss": 1.3141,
      "mean_token_accuracy": 0.6612844069798788,
      "num_tokens": 2690447761.0,
      "step": 16033
    },
    {
      "entropy": 1.6950391431649525,
      "epoch": 1.7614182527258246,
      "grad_norm": 0.5990413427352905,
      "learning_rate": 2.664177382288948e-06,
      "loss": 1.4014,
      "mean_token_accuracy": 0.6514792641003927,
      "num_tokens": 2690622453.0,
      "step": 16034
    },
    {
      "entropy": 1.6765986780325572,
      "epoch": 1.7615281096371975,
      "grad_norm": 0.7618458271026611,
      "learning_rate": 2.6635738463718907e-06,
      "loss": 1.2839,
      "mean_token_accuracy": 0.6652130633592606,
      "num_tokens": 2690754415.0,
      "step": 16035
    },
    {
      "entropy": 1.6814166605472565,
      "epoch": 1.7616379665485704,
      "grad_norm": 0.745574951171875,
      "learning_rate": 2.662970574298964e-06,
      "loss": 1.2076,
      "mean_token_accuracy": 0.6819567829370499,
      "num_tokens": 2690921404.0,
      "step": 16036
    },
    {
      "entropy": 1.702602465947469,
      "epoch": 1.7617478234599435,
      "grad_norm": 0.6456969380378723,
      "learning_rate": 2.6623675660892646e-06,
      "loss": 1.3397,
      "mean_token_accuracy": 0.6715992788473765,
      "num_tokens": 2691076141.0,
      "step": 16037
    },
    {
      "entropy": 1.697231650352478,
      "epoch": 1.7618576803713164,
      "grad_norm": 0.6837537884712219,
      "learning_rate": 2.661764821761871e-06,
      "loss": 1.3611,
      "mean_token_accuracy": 0.662015880147616,
      "num_tokens": 2691223815.0,
      "step": 16038
    },
    {
      "entropy": 1.759251356124878,
      "epoch": 1.7619675372826893,
      "grad_norm": 0.714501142501831,
      "learning_rate": 2.6611623413358656e-06,
      "loss": 1.4554,
      "mean_token_accuracy": 0.6524814665317535,
      "num_tokens": 2691356249.0,
      "step": 16039
    },
    {
      "entropy": 1.7324928243954976,
      "epoch": 1.7620773941940624,
      "grad_norm": 0.6178767681121826,
      "learning_rate": 2.6605601248303152e-06,
      "loss": 1.3647,
      "mean_token_accuracy": 0.6701581329107285,
      "num_tokens": 2691553264.0,
      "step": 16040
    },
    {
      "entropy": 1.6730826298395793,
      "epoch": 1.762187251105435,
      "grad_norm": 0.7592617869377136,
      "learning_rate": 2.6599581722642762e-06,
      "loss": 1.3098,
      "mean_token_accuracy": 0.6677819540103277,
      "num_tokens": 2691739385.0,
      "step": 16041
    },
    {
      "entropy": 1.6866790254910786,
      "epoch": 1.7622971080168082,
      "grad_norm": 0.6936041712760925,
      "learning_rate": 2.6593564836568047e-06,
      "loss": 1.3359,
      "mean_token_accuracy": 0.6542757352193197,
      "num_tokens": 2691857897.0,
      "step": 16042
    },
    {
      "entropy": 1.6914058128992717,
      "epoch": 1.762406964928181,
      "grad_norm": 0.5658572316169739,
      "learning_rate": 2.658755059026944e-06,
      "loss": 1.384,
      "mean_token_accuracy": 0.644287516673406,
      "num_tokens": 2692062336.0,
      "step": 16043
    },
    {
      "entropy": 1.7410341103871663,
      "epoch": 1.762516821839554,
      "grad_norm": 0.6581618785858154,
      "learning_rate": 2.6581538983937243e-06,
      "loss": 1.3614,
      "mean_token_accuracy": 0.6670055588086446,
      "num_tokens": 2692198745.0,
      "step": 16044
    },
    {
      "entropy": 1.6533363958199818,
      "epoch": 1.762626678750927,
      "grad_norm": 0.6615976095199585,
      "learning_rate": 2.657553001776175e-06,
      "loss": 1.394,
      "mean_token_accuracy": 0.6650797625382742,
      "num_tokens": 2692378904.0,
      "step": 16045
    },
    {
      "entropy": 1.6993359824021657,
      "epoch": 1.7627365356622997,
      "grad_norm": 0.6522985100746155,
      "learning_rate": 2.6569523691933154e-06,
      "loss": 1.4219,
      "mean_token_accuracy": 0.6460706889629364,
      "num_tokens": 2692560029.0,
      "step": 16046
    },
    {
      "entropy": 1.7435101469357808,
      "epoch": 1.7628463925736728,
      "grad_norm": 0.678107500076294,
      "learning_rate": 2.656352000664153e-06,
      "loss": 1.4076,
      "mean_token_accuracy": 0.6516735653082529,
      "num_tokens": 2692749415.0,
      "step": 16047
    },
    {
      "entropy": 1.7272218664487202,
      "epoch": 1.7629562494850457,
      "grad_norm": 0.6166483759880066,
      "learning_rate": 2.6557518962076896e-06,
      "loss": 1.3556,
      "mean_token_accuracy": 0.6620925267537435,
      "num_tokens": 2692890906.0,
      "step": 16048
    },
    {
      "entropy": 1.7328097025553386,
      "epoch": 1.7630661063964186,
      "grad_norm": 1.0833711624145508,
      "learning_rate": 2.65515205584292e-06,
      "loss": 1.4331,
      "mean_token_accuracy": 0.6583366692066193,
      "num_tokens": 2693060492.0,
      "step": 16049
    },
    {
      "entropy": 1.6878051559130351,
      "epoch": 1.7631759633077917,
      "grad_norm": 0.694952666759491,
      "learning_rate": 2.654552479588826e-06,
      "loss": 1.3545,
      "mean_token_accuracy": 0.6597214490175247,
      "num_tokens": 2693240071.0,
      "step": 16050
    },
    {
      "entropy": 1.7286501228809357,
      "epoch": 1.7632858202191646,
      "grad_norm": 0.7728515267372131,
      "learning_rate": 2.653953167464387e-06,
      "loss": 1.3724,
      "mean_token_accuracy": 0.6499157945315043,
      "num_tokens": 2693361966.0,
      "step": 16051
    },
    {
      "entropy": 1.713899165391922,
      "epoch": 1.7633956771305375,
      "grad_norm": 0.7397400736808777,
      "learning_rate": 2.653354119488568e-06,
      "loss": 1.5974,
      "mean_token_accuracy": 0.6266492505868276,
      "num_tokens": 2693532391.0,
      "step": 16052
    },
    {
      "entropy": 1.7083103656768799,
      "epoch": 1.7635055340419106,
      "grad_norm": 0.7127790451049805,
      "learning_rate": 2.65275533568033e-06,
      "loss": 1.3755,
      "mean_token_accuracy": 0.665579229593277,
      "num_tokens": 2693713801.0,
      "step": 16053
    },
    {
      "entropy": 1.6606411933898926,
      "epoch": 1.7636153909532832,
      "grad_norm": 0.6641468405723572,
      "learning_rate": 2.6521568160586247e-06,
      "loss": 1.3632,
      "mean_token_accuracy": 0.6683401316404343,
      "num_tokens": 2693884118.0,
      "step": 16054
    },
    {
      "entropy": 1.714243769645691,
      "epoch": 1.7637252478646563,
      "grad_norm": 0.7927217483520508,
      "learning_rate": 2.651558560642397e-06,
      "loss": 1.5081,
      "mean_token_accuracy": 0.6555715998013815,
      "num_tokens": 2694061884.0,
      "step": 16055
    },
    {
      "entropy": 1.6633921265602112,
      "epoch": 1.7638351047760292,
      "grad_norm": 0.7348926663398743,
      "learning_rate": 2.650960569450576e-06,
      "loss": 1.4212,
      "mean_token_accuracy": 0.6668934176365534,
      "num_tokens": 2694230992.0,
      "step": 16056
    },
    {
      "entropy": 1.5766185522079468,
      "epoch": 1.7639449616874021,
      "grad_norm": 0.6212765574455261,
      "learning_rate": 2.65036284250209e-06,
      "loss": 1.5426,
      "mean_token_accuracy": 0.6506764938433965,
      "num_tokens": 2694462977.0,
      "step": 16057
    },
    {
      "entropy": 1.6853082577387493,
      "epoch": 1.7640548185987752,
      "grad_norm": 0.6269177794456482,
      "learning_rate": 2.64976537981586e-06,
      "loss": 1.4271,
      "mean_token_accuracy": 0.6474867115418116,
      "num_tokens": 2694663179.0,
      "step": 16058
    },
    {
      "entropy": 1.714323361714681,
      "epoch": 1.7641646755101479,
      "grad_norm": 0.6898490190505981,
      "learning_rate": 2.6491681814107933e-06,
      "loss": 1.2853,
      "mean_token_accuracy": 0.6686572035153707,
      "num_tokens": 2694814522.0,
      "step": 16059
    },
    {
      "entropy": 1.7176215052604675,
      "epoch": 1.764274532421521,
      "grad_norm": 0.6587092280387878,
      "learning_rate": 2.6485712473057886e-06,
      "loss": 1.3003,
      "mean_token_accuracy": 0.6659404089053472,
      "num_tokens": 2694951281.0,
      "step": 16060
    },
    {
      "entropy": 1.6764805714289348,
      "epoch": 1.7643843893328939,
      "grad_norm": 0.6627944707870483,
      "learning_rate": 2.647974577519742e-06,
      "loss": 1.3495,
      "mean_token_accuracy": 0.6571897814671198,
      "num_tokens": 2695107412.0,
      "step": 16061
    },
    {
      "entropy": 1.6623700261116028,
      "epoch": 1.7644942462442668,
      "grad_norm": 0.7114543318748474,
      "learning_rate": 2.647378172071535e-06,
      "loss": 1.3969,
      "mean_token_accuracy": 0.651480957865715,
      "num_tokens": 2695289663.0,
      "step": 16062
    },
    {
      "entropy": 1.7313786645730336,
      "epoch": 1.7646041031556399,
      "grad_norm": 0.6407042741775513,
      "learning_rate": 2.6467820309800472e-06,
      "loss": 1.4069,
      "mean_token_accuracy": 0.6487823029359182,
      "num_tokens": 2695500927.0,
      "step": 16063
    },
    {
      "entropy": 1.728273371855418,
      "epoch": 1.7647139600670128,
      "grad_norm": 0.677616536617279,
      "learning_rate": 2.646186154264143e-06,
      "loss": 1.2814,
      "mean_token_accuracy": 0.6799236685037613,
      "num_tokens": 2695643975.0,
      "step": 16064
    },
    {
      "entropy": 1.7222307622432709,
      "epoch": 1.7648238169783856,
      "grad_norm": 0.6702946424484253,
      "learning_rate": 2.645590541942683e-06,
      "loss": 1.4948,
      "mean_token_accuracy": 0.6496520837148031,
      "num_tokens": 2695802990.0,
      "step": 16065
    },
    {
      "entropy": 1.7068528135617573,
      "epoch": 1.7649336738897587,
      "grad_norm": 0.8094030022621155,
      "learning_rate": 2.6449951940345164e-06,
      "loss": 1.6127,
      "mean_token_accuracy": 0.6310140788555145,
      "num_tokens": 2696010181.0,
      "step": 16066
    },
    {
      "entropy": 1.6725980242093403,
      "epoch": 1.7650435308011314,
      "grad_norm": 0.8047062158584595,
      "learning_rate": 2.6444001105584897e-06,
      "loss": 1.3926,
      "mean_token_accuracy": 0.6618801603714625,
      "num_tokens": 2696173600.0,
      "step": 16067
    },
    {
      "entropy": 1.6676512161890666,
      "epoch": 1.7651533877125045,
      "grad_norm": 0.6256596446037292,
      "learning_rate": 2.643805291533433e-06,
      "loss": 1.311,
      "mean_token_accuracy": 0.6845296223958334,
      "num_tokens": 2696321443.0,
      "step": 16068
    },
    {
      "entropy": 1.7186016937096913,
      "epoch": 1.7652632446238774,
      "grad_norm": 0.6340106725692749,
      "learning_rate": 2.643210736978173e-06,
      "loss": 1.3346,
      "mean_token_accuracy": 0.6681850502888361,
      "num_tokens": 2696498399.0,
      "step": 16069
    },
    {
      "entropy": 1.684872140487035,
      "epoch": 1.7653731015352503,
      "grad_norm": 0.7013046145439148,
      "learning_rate": 2.6426164469115274e-06,
      "loss": 1.4155,
      "mean_token_accuracy": 0.6384324083725611,
      "num_tokens": 2696669061.0,
      "step": 16070
    },
    {
      "entropy": 1.6660610735416412,
      "epoch": 1.7654829584466234,
      "grad_norm": 0.7147235870361328,
      "learning_rate": 2.6420224213523066e-06,
      "loss": 1.2383,
      "mean_token_accuracy": 0.6764589746793112,
      "num_tokens": 2696830878.0,
      "step": 16071
    },
    {
      "entropy": 1.6860030889511108,
      "epoch": 1.765592815357996,
      "grad_norm": 0.6619150042533875,
      "learning_rate": 2.6414286603193094e-06,
      "loss": 1.5488,
      "mean_token_accuracy": 0.640265941619873,
      "num_tokens": 2697002297.0,
      "step": 16072
    },
    {
      "entropy": 1.7264870901902516,
      "epoch": 1.7657026722693692,
      "grad_norm": 0.7539317011833191,
      "learning_rate": 2.6408351638313272e-06,
      "loss": 1.3083,
      "mean_token_accuracy": 0.6663891822099686,
      "num_tokens": 2697134172.0,
      "step": 16073
    },
    {
      "entropy": 1.7615606784820557,
      "epoch": 1.765812529180742,
      "grad_norm": 0.6778137683868408,
      "learning_rate": 2.6402419319071463e-06,
      "loss": 1.5129,
      "mean_token_accuracy": 0.6431242475907007,
      "num_tokens": 2697306424.0,
      "step": 16074
    },
    {
      "entropy": 1.6955093443393707,
      "epoch": 1.765922386092115,
      "grad_norm": 0.7733752131462097,
      "learning_rate": 2.639648964565542e-06,
      "loss": 1.3358,
      "mean_token_accuracy": 0.6611419717470804,
      "num_tokens": 2697441605.0,
      "step": 16075
    },
    {
      "entropy": 1.6361872255802155,
      "epoch": 1.766032243003488,
      "grad_norm": 0.6613511443138123,
      "learning_rate": 2.6390562618252806e-06,
      "loss": 1.1672,
      "mean_token_accuracy": 0.6900085906187693,
      "num_tokens": 2697553650.0,
      "step": 16076
    },
    {
      "entropy": 1.71124001344045,
      "epoch": 1.766142099914861,
      "grad_norm": 0.7892715334892273,
      "learning_rate": 2.6384638237051198e-06,
      "loss": 1.3934,
      "mean_token_accuracy": 0.6527740309635798,
      "num_tokens": 2697688469.0,
      "step": 16077
    },
    {
      "entropy": 1.6695888042449951,
      "epoch": 1.7662519568262338,
      "grad_norm": 0.6769923567771912,
      "learning_rate": 2.637871650223812e-06,
      "loss": 1.3749,
      "mean_token_accuracy": 0.6554907162984213,
      "num_tokens": 2697888006.0,
      "step": 16078
    },
    {
      "entropy": 1.6960602402687073,
      "epoch": 1.766361813737607,
      "grad_norm": 0.6325769424438477,
      "learning_rate": 2.6372797414000996e-06,
      "loss": 1.483,
      "mean_token_accuracy": 0.6564978261788686,
      "num_tokens": 2698060704.0,
      "step": 16079
    },
    {
      "entropy": 1.715209275484085,
      "epoch": 1.7664716706489796,
      "grad_norm": 0.6917846202850342,
      "learning_rate": 2.636688097252713e-06,
      "loss": 1.2256,
      "mean_token_accuracy": 0.6857384641965231,
      "num_tokens": 2698175996.0,
      "step": 16080
    },
    {
      "entropy": 1.6636294424533844,
      "epoch": 1.7665815275603527,
      "grad_norm": 0.6673606634140015,
      "learning_rate": 2.636096717800381e-06,
      "loss": 1.486,
      "mean_token_accuracy": 0.6630779206752777,
      "num_tokens": 2698337011.0,
      "step": 16081
    },
    {
      "entropy": 1.6239332656065624,
      "epoch": 1.7666913844717256,
      "grad_norm": 0.8185363411903381,
      "learning_rate": 2.6355056030618166e-06,
      "loss": 1.2305,
      "mean_token_accuracy": 0.6870084901650747,
      "num_tokens": 2698479373.0,
      "step": 16082
    },
    {
      "entropy": 1.7032920519510906,
      "epoch": 1.7668012413830985,
      "grad_norm": 0.6755743622779846,
      "learning_rate": 2.6349147530557327e-06,
      "loss": 1.4925,
      "mean_token_accuracy": 0.6550940821568171,
      "num_tokens": 2698614324.0,
      "step": 16083
    },
    {
      "entropy": 1.6856786410013835,
      "epoch": 1.7669110982944716,
      "grad_norm": 0.7225176095962524,
      "learning_rate": 2.6343241678008286e-06,
      "loss": 1.2452,
      "mean_token_accuracy": 0.6743053098519644,
      "num_tokens": 2698770765.0,
      "step": 16084
    },
    {
      "entropy": 1.716284801562627,
      "epoch": 1.7670209552058442,
      "grad_norm": 0.6630404591560364,
      "learning_rate": 2.6337338473157925e-06,
      "loss": 1.4324,
      "mean_token_accuracy": 0.648807222644488,
      "num_tokens": 2698934174.0,
      "step": 16085
    },
    {
      "entropy": 1.705119530359904,
      "epoch": 1.7671308121172173,
      "grad_norm": 0.681877613067627,
      "learning_rate": 2.633143791619311e-06,
      "loss": 1.2931,
      "mean_token_accuracy": 0.6711487770080566,
      "num_tokens": 2699088905.0,
      "step": 16086
    },
    {
      "entropy": 1.6811328033606212,
      "epoch": 1.7672406690285902,
      "grad_norm": 0.6792789697647095,
      "learning_rate": 2.6325540007300585e-06,
      "loss": 1.4651,
      "mean_token_accuracy": 0.6474873671929041,
      "num_tokens": 2699230587.0,
      "step": 16087
    },
    {
      "entropy": 1.6984275380770366,
      "epoch": 1.7673505259399631,
      "grad_norm": 0.7023369669914246,
      "learning_rate": 2.631964474666702e-06,
      "loss": 1.412,
      "mean_token_accuracy": 0.6622547606627146,
      "num_tokens": 2699415668.0,
      "step": 16088
    },
    {
      "entropy": 1.7122309307257335,
      "epoch": 1.7674603828513362,
      "grad_norm": 0.614011287689209,
      "learning_rate": 2.631375213447898e-06,
      "loss": 1.328,
      "mean_token_accuracy": 0.6657908707857132,
      "num_tokens": 2699572735.0,
      "step": 16089
    },
    {
      "entropy": 1.6805100739002228,
      "epoch": 1.767570239762709,
      "grad_norm": 0.7636834979057312,
      "learning_rate": 2.6307862170922992e-06,
      "loss": 1.3451,
      "mean_token_accuracy": 0.6637326081593832,
      "num_tokens": 2699790891.0,
      "step": 16090
    },
    {
      "entropy": 1.7203999757766724,
      "epoch": 1.767680096674082,
      "grad_norm": 0.8896521329879761,
      "learning_rate": 2.630197485618544e-06,
      "loss": 1.6256,
      "mean_token_accuracy": 0.6291612386703491,
      "num_tokens": 2699997296.0,
      "step": 16091
    },
    {
      "entropy": 1.715426633755366,
      "epoch": 1.767789953585455,
      "grad_norm": 0.6982161402702332,
      "learning_rate": 2.629609019045267e-06,
      "loss": 1.6772,
      "mean_token_accuracy": 0.6193340122699738,
      "num_tokens": 2700178860.0,
      "step": 16092
    },
    {
      "entropy": 1.696618139743805,
      "epoch": 1.7678998104968278,
      "grad_norm": 0.6929605603218079,
      "learning_rate": 2.6290208173910935e-06,
      "loss": 1.3606,
      "mean_token_accuracy": 0.6675488402446111,
      "num_tokens": 2700334161.0,
      "step": 16093
    },
    {
      "entropy": 1.7300164600213368,
      "epoch": 1.7680096674082009,
      "grad_norm": 0.6754699945449829,
      "learning_rate": 2.628432880674637e-06,
      "loss": 1.4199,
      "mean_token_accuracy": 0.6655618896087011,
      "num_tokens": 2700482064.0,
      "step": 16094
    },
    {
      "entropy": 1.7005921800931294,
      "epoch": 1.7681195243195738,
      "grad_norm": 0.7460622191429138,
      "learning_rate": 2.6278452089145107e-06,
      "loss": 1.3045,
      "mean_token_accuracy": 0.6671140988667806,
      "num_tokens": 2700620075.0,
      "step": 16095
    },
    {
      "entropy": 1.6499681274096172,
      "epoch": 1.7682293812309466,
      "grad_norm": 0.6865026354789734,
      "learning_rate": 2.627257802129309e-06,
      "loss": 1.3658,
      "mean_token_accuracy": 0.6599505941073099,
      "num_tokens": 2700819470.0,
      "step": 16096
    },
    {
      "entropy": 1.6812036136786144,
      "epoch": 1.7683392381423197,
      "grad_norm": 0.6698898673057556,
      "learning_rate": 2.6266706603376244e-06,
      "loss": 1.4634,
      "mean_token_accuracy": 0.6481799880663554,
      "num_tokens": 2701000116.0,
      "step": 16097
    },
    {
      "entropy": 1.742706725994746,
      "epoch": 1.7684490950536924,
      "grad_norm": 0.7475796937942505,
      "learning_rate": 2.62608378355804e-06,
      "loss": 1.4385,
      "mean_token_accuracy": 0.6343745936950048,
      "num_tokens": 2701199955.0,
      "step": 16098
    },
    {
      "entropy": 1.7251374125480652,
      "epoch": 1.7685589519650655,
      "grad_norm": 0.6364467144012451,
      "learning_rate": 2.6254971718091326e-06,
      "loss": 1.2861,
      "mean_token_accuracy": 0.6751857052246729,
      "num_tokens": 2701376853.0,
      "step": 16099
    },
    {
      "entropy": 1.7397385934988658,
      "epoch": 1.7686688088764384,
      "grad_norm": 0.6278882026672363,
      "learning_rate": 2.624910825109466e-06,
      "loss": 1.4487,
      "mean_token_accuracy": 0.6475135733683904,
      "num_tokens": 2701541159.0,
      "step": 16100
    },
    {
      "entropy": 1.5949292679627736,
      "epoch": 1.7687786657878113,
      "grad_norm": 0.5723445415496826,
      "learning_rate": 2.6243247434775967e-06,
      "loss": 1.3228,
      "mean_token_accuracy": 0.6649216016133627,
      "num_tokens": 2701731184.0,
      "step": 16101
    },
    {
      "entropy": 1.6799314518769581,
      "epoch": 1.7688885226991844,
      "grad_norm": 0.6339821219444275,
      "learning_rate": 2.623738926932075e-06,
      "loss": 1.255,
      "mean_token_accuracy": 0.6732438405354818,
      "num_tokens": 2701853054.0,
      "step": 16102
    },
    {
      "entropy": 1.7200807829697926,
      "epoch": 1.7689983796105573,
      "grad_norm": 0.8305505514144897,
      "learning_rate": 2.6231533754914435e-06,
      "loss": 1.3544,
      "mean_token_accuracy": 0.6595542430877686,
      "num_tokens": 2701983290.0,
      "step": 16103
    },
    {
      "entropy": 1.6731150647004445,
      "epoch": 1.7691082365219302,
      "grad_norm": 0.7634748220443726,
      "learning_rate": 2.6225680891742307e-06,
      "loss": 1.5671,
      "mean_token_accuracy": 0.642717699209849,
      "num_tokens": 2702184992.0,
      "step": 16104
    },
    {
      "entropy": 1.7635932167371113,
      "epoch": 1.7692180934333033,
      "grad_norm": 0.6697694659233093,
      "learning_rate": 2.6219830679989645e-06,
      "loss": 1.4884,
      "mean_token_accuracy": 0.6513105779886246,
      "num_tokens": 2702325974.0,
      "step": 16105
    },
    {
      "entropy": 1.7982784907023113,
      "epoch": 1.769327950344676,
      "grad_norm": 0.8669276237487793,
      "learning_rate": 2.6213983119841573e-06,
      "loss": 1.5692,
      "mean_token_accuracy": 0.6412549217542013,
      "num_tokens": 2702471856.0,
      "step": 16106
    },
    {
      "entropy": 1.7105421125888824,
      "epoch": 1.769437807256049,
      "grad_norm": 0.6940631866455078,
      "learning_rate": 2.6208138211483193e-06,
      "loss": 1.4021,
      "mean_token_accuracy": 0.6522999107837677,
      "num_tokens": 2702631817.0,
      "step": 16107
    },
    {
      "entropy": 1.667997380097707,
      "epoch": 1.769547664167422,
      "grad_norm": 0.6804345846176147,
      "learning_rate": 2.6202295955099484e-06,
      "loss": 1.3276,
      "mean_token_accuracy": 0.6740523924430212,
      "num_tokens": 2702779392.0,
      "step": 16108
    },
    {
      "entropy": 1.764988124370575,
      "epoch": 1.7696575210787948,
      "grad_norm": 0.5990316271781921,
      "learning_rate": 2.6196456350875336e-06,
      "loss": 1.5235,
      "mean_token_accuracy": 0.6251028428475062,
      "num_tokens": 2703003157.0,
      "step": 16109
    },
    {
      "entropy": 1.712211827437083,
      "epoch": 1.769767377990168,
      "grad_norm": 0.8300401568412781,
      "learning_rate": 2.619061939899558e-06,
      "loss": 1.2377,
      "mean_token_accuracy": 0.6737738301356634,
      "num_tokens": 2703156071.0,
      "step": 16110
    },
    {
      "entropy": 1.732935518026352,
      "epoch": 1.7698772349015406,
      "grad_norm": 0.7982600331306458,
      "learning_rate": 2.618478509964498e-06,
      "loss": 1.3812,
      "mean_token_accuracy": 0.6614757974942526,
      "num_tokens": 2703317575.0,
      "step": 16111
    },
    {
      "entropy": 1.6523981094360352,
      "epoch": 1.7699870918129137,
      "grad_norm": 0.6973866820335388,
      "learning_rate": 2.6178953453008143e-06,
      "loss": 1.4013,
      "mean_token_accuracy": 0.6528991907835007,
      "num_tokens": 2703469385.0,
      "step": 16112
    },
    {
      "entropy": 1.6980741024017334,
      "epoch": 1.7700969487242866,
      "grad_norm": 0.9420611262321472,
      "learning_rate": 2.6173124459269654e-06,
      "loss": 1.5222,
      "mean_token_accuracy": 0.6804485072692236,
      "num_tokens": 2703634520.0,
      "step": 16113
    },
    {
      "entropy": 1.67299422621727,
      "epoch": 1.7702068056356595,
      "grad_norm": 0.6318880319595337,
      "learning_rate": 2.616729811861402e-06,
      "loss": 1.3287,
      "mean_token_accuracy": 0.6642769277095795,
      "num_tokens": 2703787272.0,
      "step": 16114
    },
    {
      "entropy": 1.7164417207241058,
      "epoch": 1.7703166625470326,
      "grad_norm": 0.788582444190979,
      "learning_rate": 2.6161474431225624e-06,
      "loss": 1.3569,
      "mean_token_accuracy": 0.669378658135732,
      "num_tokens": 2703907662.0,
      "step": 16115
    },
    {
      "entropy": 1.7314981818199158,
      "epoch": 1.7704265194584055,
      "grad_norm": 0.6980270743370056,
      "learning_rate": 2.6155653397288762e-06,
      "loss": 1.3667,
      "mean_token_accuracy": 0.6507422377665838,
      "num_tokens": 2704058988.0,
      "step": 16116
    },
    {
      "entropy": 1.7171373665332794,
      "epoch": 1.7705363763697783,
      "grad_norm": 0.7046215534210205,
      "learning_rate": 2.61498350169877e-06,
      "loss": 1.3032,
      "mean_token_accuracy": 0.6671566814184189,
      "num_tokens": 2704223794.0,
      "step": 16117
    },
    {
      "entropy": 1.6645724177360535,
      "epoch": 1.7706462332811514,
      "grad_norm": 0.8890359997749329,
      "learning_rate": 2.6144019290506577e-06,
      "loss": 1.2717,
      "mean_token_accuracy": 0.6672799090544382,
      "num_tokens": 2704401039.0,
      "step": 16118
    },
    {
      "entropy": 1.7233166893323262,
      "epoch": 1.7707560901925241,
      "grad_norm": 0.5646775364875793,
      "learning_rate": 2.613820621802947e-06,
      "loss": 1.4646,
      "mean_token_accuracy": 0.6415334989627203,
      "num_tokens": 2704591999.0,
      "step": 16119
    },
    {
      "entropy": 1.6967370808124542,
      "epoch": 1.7708659471038972,
      "grad_norm": 0.9199461340904236,
      "learning_rate": 2.613239579974034e-06,
      "loss": 1.3411,
      "mean_token_accuracy": 0.6616208553314209,
      "num_tokens": 2704736795.0,
      "step": 16120
    },
    {
      "entropy": 1.6985019147396088,
      "epoch": 1.77097580401527,
      "grad_norm": 0.7342497110366821,
      "learning_rate": 2.6126588035823074e-06,
      "loss": 1.4852,
      "mean_token_accuracy": 0.663700466354688,
      "num_tokens": 2704877585.0,
      "step": 16121
    },
    {
      "entropy": 1.686661461989085,
      "epoch": 1.771085660926643,
      "grad_norm": 0.6621032357215881,
      "learning_rate": 2.6120782926461514e-06,
      "loss": 1.2625,
      "mean_token_accuracy": 0.6748026907444,
      "num_tokens": 2705010312.0,
      "step": 16122
    },
    {
      "entropy": 1.6965848008791606,
      "epoch": 1.771195517838016,
      "grad_norm": 0.7610173225402832,
      "learning_rate": 2.6114980471839384e-06,
      "loss": 1.3852,
      "mean_token_accuracy": 0.6536916842063268,
      "num_tokens": 2705237228.0,
      "step": 16123
    },
    {
      "entropy": 1.687073806921641,
      "epoch": 1.7713053747493888,
      "grad_norm": 0.7324576377868652,
      "learning_rate": 2.6109180672140315e-06,
      "loss": 1.3022,
      "mean_token_accuracy": 0.6851969212293625,
      "num_tokens": 2705407389.0,
      "step": 16124
    },
    {
      "entropy": 1.705436368783315,
      "epoch": 1.7714152316607619,
      "grad_norm": 0.6689654588699341,
      "learning_rate": 2.6103383527547864e-06,
      "loss": 1.2624,
      "mean_token_accuracy": 0.675425186753273,
      "num_tokens": 2705543178.0,
      "step": 16125
    },
    {
      "entropy": 1.6826893587907155,
      "epoch": 1.7715250885721348,
      "grad_norm": 0.6657409071922302,
      "learning_rate": 2.6097589038245545e-06,
      "loss": 1.3492,
      "mean_token_accuracy": 0.655790776014328,
      "num_tokens": 2705697833.0,
      "step": 16126
    },
    {
      "entropy": 1.7663909792900085,
      "epoch": 1.7716349454835076,
      "grad_norm": 0.7559472322463989,
      "learning_rate": 2.609179720441672e-06,
      "loss": 1.533,
      "mean_token_accuracy": 0.6423116599520048,
      "num_tokens": 2705889425.0,
      "step": 16127
    },
    {
      "entropy": 1.6723959843317668,
      "epoch": 1.7717448023948807,
      "grad_norm": 0.6863106489181519,
      "learning_rate": 2.6086008026244704e-06,
      "loss": 1.32,
      "mean_token_accuracy": 0.675317257642746,
      "num_tokens": 2706068340.0,
      "step": 16128
    },
    {
      "entropy": 1.735195557276408,
      "epoch": 1.7718546593062536,
      "grad_norm": 0.8114670515060425,
      "learning_rate": 2.6080221503912707e-06,
      "loss": 1.5294,
      "mean_token_accuracy": 0.6455264935890833,
      "num_tokens": 2706229929.0,
      "step": 16129
    },
    {
      "entropy": 1.7443922758102417,
      "epoch": 1.7719645162176265,
      "grad_norm": 0.7101374864578247,
      "learning_rate": 2.6074437637603885e-06,
      "loss": 1.2177,
      "mean_token_accuracy": 0.6852958450714747,
      "num_tokens": 2706361616.0,
      "step": 16130
    },
    {
      "entropy": 1.6811170478661854,
      "epoch": 1.7720743731289996,
      "grad_norm": 0.7076679468154907,
      "learning_rate": 2.6068656427501303e-06,
      "loss": 1.4677,
      "mean_token_accuracy": 0.6564472218354543,
      "num_tokens": 2706535078.0,
      "step": 16131
    },
    {
      "entropy": 1.746174544095993,
      "epoch": 1.7721842300403723,
      "grad_norm": 0.7166526913642883,
      "learning_rate": 2.6062877873787933e-06,
      "loss": 1.5574,
      "mean_token_accuracy": 0.6369020914038023,
      "num_tokens": 2706692845.0,
      "step": 16132
    },
    {
      "entropy": 1.7436832785606384,
      "epoch": 1.7722940869517454,
      "grad_norm": 0.920242428779602,
      "learning_rate": 2.6057101976646633e-06,
      "loss": 1.586,
      "mean_token_accuracy": 0.6347026800115904,
      "num_tokens": 2706888652.0,
      "step": 16133
    },
    {
      "entropy": 1.7304763694604237,
      "epoch": 1.7724039438631183,
      "grad_norm": 0.6323895454406738,
      "learning_rate": 2.605132873626025e-06,
      "loss": 1.5587,
      "mean_token_accuracy": 0.6354440351327261,
      "num_tokens": 2707071567.0,
      "step": 16134
    },
    {
      "entropy": 1.6805862685044606,
      "epoch": 1.7725138007744912,
      "grad_norm": 0.6497008204460144,
      "learning_rate": 2.604555815281148e-06,
      "loss": 1.2406,
      "mean_token_accuracy": 0.6805828412373861,
      "num_tokens": 2707219245.0,
      "step": 16135
    },
    {
      "entropy": 1.7129256625970204,
      "epoch": 1.7726236576858643,
      "grad_norm": 0.6977981925010681,
      "learning_rate": 2.6039790226482956e-06,
      "loss": 1.514,
      "mean_token_accuracy": 0.6338231811920801,
      "num_tokens": 2707400096.0,
      "step": 16136
    },
    {
      "entropy": 1.641619215408961,
      "epoch": 1.772733514597237,
      "grad_norm": 0.6210656762123108,
      "learning_rate": 2.603402495745724e-06,
      "loss": 1.3067,
      "mean_token_accuracy": 0.6655979255835215,
      "num_tokens": 2707577271.0,
      "step": 16137
    },
    {
      "entropy": 1.7035197516282399,
      "epoch": 1.77284337150861,
      "grad_norm": 0.7586587071418762,
      "learning_rate": 2.6028262345916796e-06,
      "loss": 1.2978,
      "mean_token_accuracy": 0.6796625256538391,
      "num_tokens": 2707744658.0,
      "step": 16138
    },
    {
      "entropy": 1.752359499533971,
      "epoch": 1.772953228419983,
      "grad_norm": 0.6705688834190369,
      "learning_rate": 2.6022502392044023e-06,
      "loss": 1.5081,
      "mean_token_accuracy": 0.6395560602347056,
      "num_tokens": 2707934539.0,
      "step": 16139
    },
    {
      "entropy": 1.7236380577087402,
      "epoch": 1.7730630853313558,
      "grad_norm": 0.709601104259491,
      "learning_rate": 2.60167450960212e-06,
      "loss": 1.5704,
      "mean_token_accuracy": 0.6389553348223368,
      "num_tokens": 2708079185.0,
      "step": 16140
    },
    {
      "entropy": 1.7358200351397197,
      "epoch": 1.773172942242729,
      "grad_norm": 0.7101724743843079,
      "learning_rate": 2.6010990458030548e-06,
      "loss": 1.3491,
      "mean_token_accuracy": 0.6665903975566229,
      "num_tokens": 2708191566.0,
      "step": 16141
    },
    {
      "entropy": 1.7284641365210216,
      "epoch": 1.7732827991541018,
      "grad_norm": 0.6471381187438965,
      "learning_rate": 2.600523847825419e-06,
      "loss": 1.5326,
      "mean_token_accuracy": 0.6393000731865565,
      "num_tokens": 2708369199.0,
      "step": 16142
    },
    {
      "entropy": 1.719407816727956,
      "epoch": 1.7733926560654747,
      "grad_norm": 0.7297753095626831,
      "learning_rate": 2.5999489156874214e-06,
      "loss": 1.292,
      "mean_token_accuracy": 0.6675407042105993,
      "num_tokens": 2708487034.0,
      "step": 16143
    },
    {
      "entropy": 1.705468972524007,
      "epoch": 1.7735025129768478,
      "grad_norm": 0.6920966506004333,
      "learning_rate": 2.5993742494072544e-06,
      "loss": 1.4197,
      "mean_token_accuracy": 0.6390438576539358,
      "num_tokens": 2708660319.0,
      "step": 16144
    },
    {
      "entropy": 1.7181805968284607,
      "epoch": 1.7736123698882205,
      "grad_norm": 0.6733984351158142,
      "learning_rate": 2.5987998490031054e-06,
      "loss": 1.4356,
      "mean_token_accuracy": 0.6629656205574671,
      "num_tokens": 2708828951.0,
      "step": 16145
    },
    {
      "entropy": 1.7383651733398438,
      "epoch": 1.7737222267995936,
      "grad_norm": 0.7001859545707703,
      "learning_rate": 2.5982257144931573e-06,
      "loss": 1.4767,
      "mean_token_accuracy": 0.651274119814237,
      "num_tokens": 2708963681.0,
      "step": 16146
    },
    {
      "entropy": 1.68324081103007,
      "epoch": 1.7738320837109665,
      "grad_norm": 0.772042453289032,
      "learning_rate": 2.597651845895579e-06,
      "loss": 1.4884,
      "mean_token_accuracy": 0.6505793780088425,
      "num_tokens": 2709118225.0,
      "step": 16147
    },
    {
      "entropy": 1.7421075602372487,
      "epoch": 1.7739419406223393,
      "grad_norm": 0.7277549505233765,
      "learning_rate": 2.597078243228533e-06,
      "loss": 1.3914,
      "mean_token_accuracy": 0.6713375896215439,
      "num_tokens": 2709278861.0,
      "step": 16148
    },
    {
      "entropy": 1.6302008628845215,
      "epoch": 1.7740517975337124,
      "grad_norm": 0.6995809674263,
      "learning_rate": 2.5965049065101746e-06,
      "loss": 1.247,
      "mean_token_accuracy": 0.686556855837504,
      "num_tokens": 2709442407.0,
      "step": 16149
    },
    {
      "entropy": 1.6407863795757294,
      "epoch": 1.7741616544450851,
      "grad_norm": 0.7002416849136353,
      "learning_rate": 2.595931835758649e-06,
      "loss": 1.3002,
      "mean_token_accuracy": 0.6775663743416468,
      "num_tokens": 2709603952.0,
      "step": 16150
    },
    {
      "entropy": 1.6509563426176708,
      "epoch": 1.7742715113564582,
      "grad_norm": 0.6484111547470093,
      "learning_rate": 2.595359030992094e-06,
      "loss": 1.2547,
      "mean_token_accuracy": 0.6776574452718099,
      "num_tokens": 2709787365.0,
      "step": 16151
    },
    {
      "entropy": 1.7624330123265584,
      "epoch": 1.774381368267831,
      "grad_norm": 0.753284215927124,
      "learning_rate": 2.5947864922286386e-06,
      "loss": 1.4298,
      "mean_token_accuracy": 0.6394060303767523,
      "num_tokens": 2709952090.0,
      "step": 16152
    },
    {
      "entropy": 1.689292460680008,
      "epoch": 1.774491225179204,
      "grad_norm": 0.7348275780677795,
      "learning_rate": 2.5942142194864024e-06,
      "loss": 1.3677,
      "mean_token_accuracy": 0.6548637946446737,
      "num_tokens": 2710159115.0,
      "step": 16153
    },
    {
      "entropy": 1.7220345834891002,
      "epoch": 1.774601082090577,
      "grad_norm": 0.6995728611946106,
      "learning_rate": 2.5936422127834985e-06,
      "loss": 1.2697,
      "mean_token_accuracy": 0.6734829644362131,
      "num_tokens": 2710276327.0,
      "step": 16154
    },
    {
      "entropy": 1.7671296894550323,
      "epoch": 1.77471093900195,
      "grad_norm": 0.7245908379554749,
      "learning_rate": 2.593070472138031e-06,
      "loss": 1.4621,
      "mean_token_accuracy": 0.6349116514126459,
      "num_tokens": 2710506591.0,
      "step": 16155
    },
    {
      "entropy": 1.709269384543101,
      "epoch": 1.7748207959133229,
      "grad_norm": 0.6322346329689026,
      "learning_rate": 2.5924989975680963e-06,
      "loss": 1.3325,
      "mean_token_accuracy": 0.6667979657649994,
      "num_tokens": 2710662997.0,
      "step": 16156
    },
    {
      "entropy": 1.723963479200999,
      "epoch": 1.774930652824696,
      "grad_norm": 0.7471461892127991,
      "learning_rate": 2.5919277890917777e-06,
      "loss": 1.2944,
      "mean_token_accuracy": 0.6734066704909006,
      "num_tokens": 2710795173.0,
      "step": 16157
    },
    {
      "entropy": 1.7161237994829814,
      "epoch": 1.7750405097360686,
      "grad_norm": 0.6630175709724426,
      "learning_rate": 2.5913568467271564e-06,
      "loss": 1.5,
      "mean_token_accuracy": 0.633497933546702,
      "num_tokens": 2710956314.0,
      "step": 16158
    },
    {
      "entropy": 1.7181127270062764,
      "epoch": 1.7751503666474417,
      "grad_norm": 0.6697092652320862,
      "learning_rate": 2.590786170492304e-06,
      "loss": 1.4132,
      "mean_token_accuracy": 0.6475900014241537,
      "num_tokens": 2711129596.0,
      "step": 16159
    },
    {
      "entropy": 1.6878857612609863,
      "epoch": 1.7752602235588146,
      "grad_norm": 0.6678206324577332,
      "learning_rate": 2.590215760405277e-06,
      "loss": 1.3574,
      "mean_token_accuracy": 0.6573008944590887,
      "num_tokens": 2711318223.0,
      "step": 16160
    },
    {
      "entropy": 1.7164893845717113,
      "epoch": 1.7753700804701875,
      "grad_norm": 0.6961454749107361,
      "learning_rate": 2.589645616484133e-06,
      "loss": 1.4638,
      "mean_token_accuracy": 0.6609781930843989,
      "num_tokens": 2711458038.0,
      "step": 16161
    },
    {
      "entropy": 1.6448584695657094,
      "epoch": 1.7754799373815606,
      "grad_norm": 0.6715121269226074,
      "learning_rate": 2.589075738746914e-06,
      "loss": 1.4383,
      "mean_token_accuracy": 0.6469363421201706,
      "num_tokens": 2711618842.0,
      "step": 16162
    },
    {
      "entropy": 1.6738781730333965,
      "epoch": 1.7755897942929333,
      "grad_norm": 0.7207627892494202,
      "learning_rate": 2.5885061272116597e-06,
      "loss": 1.3785,
      "mean_token_accuracy": 0.6592583358287811,
      "num_tokens": 2711743448.0,
      "step": 16163
    },
    {
      "entropy": 1.764163116614024,
      "epoch": 1.7756996512043064,
      "grad_norm": 0.6622251868247986,
      "learning_rate": 2.5879367818963965e-06,
      "loss": 1.354,
      "mean_token_accuracy": 0.6568918774525324,
      "num_tokens": 2711879685.0,
      "step": 16164
    },
    {
      "entropy": 1.6938027838865917,
      "epoch": 1.7758095081156793,
      "grad_norm": 0.6962149143218994,
      "learning_rate": 2.5873677028191418e-06,
      "loss": 1.2467,
      "mean_token_accuracy": 0.6714517027139664,
      "num_tokens": 2712009648.0,
      "step": 16165
    },
    {
      "entropy": 1.706722229719162,
      "epoch": 1.7759193650270522,
      "grad_norm": 0.5590953230857849,
      "learning_rate": 2.5867988899979086e-06,
      "loss": 1.4431,
      "mean_token_accuracy": 0.6479671547810236,
      "num_tokens": 2712190182.0,
      "step": 16166
    },
    {
      "entropy": 1.7148079474767048,
      "epoch": 1.7760292219384253,
      "grad_norm": 0.6328277587890625,
      "learning_rate": 2.5862303434507e-06,
      "loss": 1.4287,
      "mean_token_accuracy": 0.6558680633703867,
      "num_tokens": 2712438765.0,
      "step": 16167
    },
    {
      "entropy": 1.7054628531138103,
      "epoch": 1.7761390788497982,
      "grad_norm": 0.6650689244270325,
      "learning_rate": 2.5856620631955102e-06,
      "loss": 1.3792,
      "mean_token_accuracy": 0.6593814243872961,
      "num_tokens": 2712569597.0,
      "step": 16168
    },
    {
      "entropy": 1.7111007869243622,
      "epoch": 1.776248935761171,
      "grad_norm": 0.6413836479187012,
      "learning_rate": 2.5850940492503236e-06,
      "loss": 1.3747,
      "mean_token_accuracy": 0.6556829412778219,
      "num_tokens": 2712700190.0,
      "step": 16169
    },
    {
      "entropy": 1.7287939886252086,
      "epoch": 1.7763587926725442,
      "grad_norm": 0.6228131055831909,
      "learning_rate": 2.584526301633119e-06,
      "loss": 1.4028,
      "mean_token_accuracy": 0.6681485623121262,
      "num_tokens": 2712890812.0,
      "step": 16170
    },
    {
      "entropy": 1.6465917030970256,
      "epoch": 1.7764686495839168,
      "grad_norm": 0.7483593225479126,
      "learning_rate": 2.583958820361866e-06,
      "loss": 1.3934,
      "mean_token_accuracy": 0.6619542588790258,
      "num_tokens": 2713032571.0,
      "step": 16171
    },
    {
      "entropy": 1.6852433780829112,
      "epoch": 1.77657850649529,
      "grad_norm": 0.6569193601608276,
      "learning_rate": 2.5833916054545217e-06,
      "loss": 1.2729,
      "mean_token_accuracy": 0.6696591476599375,
      "num_tokens": 2713172975.0,
      "step": 16172
    },
    {
      "entropy": 1.7001554270585377,
      "epoch": 1.7766883634066628,
      "grad_norm": 0.7120020389556885,
      "learning_rate": 2.582824656929042e-06,
      "loss": 1.43,
      "mean_token_accuracy": 0.6575095355510712,
      "num_tokens": 2713345608.0,
      "step": 16173
    },
    {
      "entropy": 1.667518824338913,
      "epoch": 1.7767982203180357,
      "grad_norm": 0.7396501898765564,
      "learning_rate": 2.5822579748033676e-06,
      "loss": 1.3359,
      "mean_token_accuracy": 0.6745062321424484,
      "num_tokens": 2713516606.0,
      "step": 16174
    },
    {
      "entropy": 1.6942040920257568,
      "epoch": 1.7769080772294088,
      "grad_norm": 0.8534673452377319,
      "learning_rate": 2.5816915590954367e-06,
      "loss": 1.2135,
      "mean_token_accuracy": 0.6788101047277451,
      "num_tokens": 2713681222.0,
      "step": 16175
    },
    {
      "entropy": 1.7359768450260162,
      "epoch": 1.7770179341407817,
      "grad_norm": 0.6801086664199829,
      "learning_rate": 2.581125409823175e-06,
      "loss": 1.4861,
      "mean_token_accuracy": 0.6353782365719477,
      "num_tokens": 2713917752.0,
      "step": 16176
    },
    {
      "entropy": 1.6656650304794312,
      "epoch": 1.7771277910521546,
      "grad_norm": 0.6138239502906799,
      "learning_rate": 2.580559527004499e-06,
      "loss": 1.2827,
      "mean_token_accuracy": 0.6767630279064178,
      "num_tokens": 2714055978.0,
      "step": 16177
    },
    {
      "entropy": 1.7242048780123393,
      "epoch": 1.7772376479635275,
      "grad_norm": 0.7279729247093201,
      "learning_rate": 2.579993910657319e-06,
      "loss": 1.33,
      "mean_token_accuracy": 0.6593465854724249,
      "num_tokens": 2714173544.0,
      "step": 16178
    },
    {
      "entropy": 1.7006490429242451,
      "epoch": 1.7773475048749003,
      "grad_norm": 0.7351089119911194,
      "learning_rate": 2.5794285607995407e-06,
      "loss": 1.4855,
      "mean_token_accuracy": 0.6623196552197138,
      "num_tokens": 2714346691.0,
      "step": 16179
    },
    {
      "entropy": 1.7114817400773366,
      "epoch": 1.7774573617862734,
      "grad_norm": 0.7498958110809326,
      "learning_rate": 2.5788634774490524e-06,
      "loss": 1.588,
      "mean_token_accuracy": 0.6416305353244146,
      "num_tokens": 2714550240.0,
      "step": 16180
    },
    {
      "entropy": 1.7464225788911183,
      "epoch": 1.7775672186976463,
      "grad_norm": 0.7129120826721191,
      "learning_rate": 2.57829866062374e-06,
      "loss": 1.5597,
      "mean_token_accuracy": 0.626517136891683,
      "num_tokens": 2714761712.0,
      "step": 16181
    },
    {
      "entropy": 1.7081879675388336,
      "epoch": 1.7776770756090192,
      "grad_norm": 0.6990813612937927,
      "learning_rate": 2.5777341103414807e-06,
      "loss": 1.3879,
      "mean_token_accuracy": 0.6567564556996027,
      "num_tokens": 2714898735.0,
      "step": 16182
    },
    {
      "entropy": 1.7253175874551137,
      "epoch": 1.7777869325203923,
      "grad_norm": 0.7992512583732605,
      "learning_rate": 2.577169826620142e-06,
      "loss": 1.3492,
      "mean_token_accuracy": 0.6692212472359339,
      "num_tokens": 2715058698.0,
      "step": 16183
    },
    {
      "entropy": 1.7420212825139363,
      "epoch": 1.777896789431765,
      "grad_norm": 0.6389954090118408,
      "learning_rate": 2.576605809477582e-06,
      "loss": 1.4296,
      "mean_token_accuracy": 0.6562297642230988,
      "num_tokens": 2715237761.0,
      "step": 16184
    },
    {
      "entropy": 1.7322679460048676,
      "epoch": 1.778006646343138,
      "grad_norm": 0.6425938010215759,
      "learning_rate": 2.576042058931653e-06,
      "loss": 1.2624,
      "mean_token_accuracy": 0.6835384468237559,
      "num_tokens": 2715439975.0,
      "step": 16185
    },
    {
      "entropy": 1.7014261583487194,
      "epoch": 1.778116503254511,
      "grad_norm": 0.6009911894798279,
      "learning_rate": 2.5754785750001966e-06,
      "loss": 1.3455,
      "mean_token_accuracy": 0.6725515276193619,
      "num_tokens": 2715575981.0,
      "step": 16186
    },
    {
      "entropy": 1.7201250692208607,
      "epoch": 1.7782263601658839,
      "grad_norm": 0.7367297410964966,
      "learning_rate": 2.574915357701048e-06,
      "loss": 1.3928,
      "mean_token_accuracy": 0.660605326294899,
      "num_tokens": 2715726384.0,
      "step": 16187
    },
    {
      "entropy": 1.6956477065881093,
      "epoch": 1.778336217077257,
      "grad_norm": 0.6419438719749451,
      "learning_rate": 2.574352407052031e-06,
      "loss": 1.3171,
      "mean_token_accuracy": 0.6647944003343582,
      "num_tokens": 2715836741.0,
      "step": 16188
    },
    {
      "entropy": 1.6989044447739918,
      "epoch": 1.7784460739886299,
      "grad_norm": 0.9841082692146301,
      "learning_rate": 2.5737897230709622e-06,
      "loss": 1.4961,
      "mean_token_accuracy": 0.6657343481977781,
      "num_tokens": 2716004267.0,
      "step": 16189
    },
    {
      "entropy": 1.7684976359208424,
      "epoch": 1.7785559309000027,
      "grad_norm": 0.8549887537956238,
      "learning_rate": 2.5732273057756552e-06,
      "loss": 1.446,
      "mean_token_accuracy": 0.6611962815125784,
      "num_tokens": 2716181603.0,
      "step": 16190
    },
    {
      "entropy": 1.7020417054494221,
      "epoch": 1.7786657878113756,
      "grad_norm": 0.5607102513313293,
      "learning_rate": 2.572665155183905e-06,
      "loss": 1.4124,
      "mean_token_accuracy": 0.6579537143309911,
      "num_tokens": 2716361068.0,
      "step": 16191
    },
    {
      "entropy": 1.6742089788119,
      "epoch": 1.7787756447227485,
      "grad_norm": 0.7444910407066345,
      "learning_rate": 2.5721032713135043e-06,
      "loss": 1.3866,
      "mean_token_accuracy": 0.6673271010319392,
      "num_tokens": 2716526072.0,
      "step": 16192
    },
    {
      "entropy": 1.759224534034729,
      "epoch": 1.7788855016341216,
      "grad_norm": 0.6558489799499512,
      "learning_rate": 2.5715416541822387e-06,
      "loss": 1.384,
      "mean_token_accuracy": 0.6560174822807312,
      "num_tokens": 2716699065.0,
      "step": 16193
    },
    {
      "entropy": 1.7571994364261627,
      "epoch": 1.7789953585454945,
      "grad_norm": 0.6524195075035095,
      "learning_rate": 2.570980303807881e-06,
      "loss": 1.3668,
      "mean_token_accuracy": 0.6584974030653635,
      "num_tokens": 2716857465.0,
      "step": 16194
    },
    {
      "entropy": 1.8164484004179637,
      "epoch": 1.7791052154568674,
      "grad_norm": 0.7619872689247131,
      "learning_rate": 2.570419220208199e-06,
      "loss": 1.3642,
      "mean_token_accuracy": 0.654331718881925,
      "num_tokens": 2716995467.0,
      "step": 16195
    },
    {
      "entropy": 1.7526369988918304,
      "epoch": 1.7792150723682405,
      "grad_norm": 0.6816757321357727,
      "learning_rate": 2.5698584034009504e-06,
      "loss": 1.3161,
      "mean_token_accuracy": 0.6580136120319366,
      "num_tokens": 2717136339.0,
      "step": 16196
    },
    {
      "entropy": 1.7177092730998993,
      "epoch": 1.7793249292796132,
      "grad_norm": 0.6499624848365784,
      "learning_rate": 2.5692978534038834e-06,
      "loss": 1.3675,
      "mean_token_accuracy": 0.6472986241181692,
      "num_tokens": 2717281863.0,
      "step": 16197
    },
    {
      "entropy": 1.7083185315132141,
      "epoch": 1.7794347861909863,
      "grad_norm": 0.6570821404457092,
      "learning_rate": 2.56873757023474e-06,
      "loss": 1.3565,
      "mean_token_accuracy": 0.6527627358833948,
      "num_tokens": 2717444596.0,
      "step": 16198
    },
    {
      "entropy": 1.7401759326457977,
      "epoch": 1.7795446431023592,
      "grad_norm": 0.7995166182518005,
      "learning_rate": 2.5681775539112554e-06,
      "loss": 1.4527,
      "mean_token_accuracy": 0.6470424781243006,
      "num_tokens": 2717671539.0,
      "step": 16199
    },
    {
      "entropy": 1.721009184916814,
      "epoch": 1.779654500013732,
      "grad_norm": 0.7379947900772095,
      "learning_rate": 2.5676178044511513e-06,
      "loss": 1.5224,
      "mean_token_accuracy": 0.6547667557994524,
      "num_tokens": 2717840082.0,
      "step": 16200
    },
    {
      "entropy": 1.7124258081118267,
      "epoch": 1.7797643569251052,
      "grad_norm": 0.5799604058265686,
      "learning_rate": 2.5670583218721422e-06,
      "loss": 1.4312,
      "mean_token_accuracy": 0.6489716867605845,
      "num_tokens": 2718026773.0,
      "step": 16201
    },
    {
      "entropy": 1.690716157356898,
      "epoch": 1.779874213836478,
      "grad_norm": 0.6450859904289246,
      "learning_rate": 2.566499106191939e-06,
      "loss": 1.5138,
      "mean_token_accuracy": 0.6407775630553564,
      "num_tokens": 2718200554.0,
      "step": 16202
    },
    {
      "entropy": 1.6798825959364574,
      "epoch": 1.779984070747851,
      "grad_norm": 0.68744957447052,
      "learning_rate": 2.5659401574282393e-06,
      "loss": 1.4299,
      "mean_token_accuracy": 0.6480642408132553,
      "num_tokens": 2718385213.0,
      "step": 16203
    },
    {
      "entropy": 1.7331880331039429,
      "epoch": 1.7800939276592238,
      "grad_norm": 0.6031718850135803,
      "learning_rate": 2.5653814755987314e-06,
      "loss": 1.5247,
      "mean_token_accuracy": 0.631999467809995,
      "num_tokens": 2718620759.0,
      "step": 16204
    },
    {
      "entropy": 1.6975124776363373,
      "epoch": 1.7802037845705967,
      "grad_norm": 0.6780478954315186,
      "learning_rate": 2.5648230607211e-06,
      "loss": 1.2644,
      "mean_token_accuracy": 0.6704892267783483,
      "num_tokens": 2718766277.0,
      "step": 16205
    },
    {
      "entropy": 1.678945968548457,
      "epoch": 1.7803136414819698,
      "grad_norm": 0.6999272704124451,
      "learning_rate": 2.564264912813017e-06,
      "loss": 1.359,
      "mean_token_accuracy": 0.6699830194314321,
      "num_tokens": 2718934488.0,
      "step": 16206
    },
    {
      "entropy": 1.7268775800863903,
      "epoch": 1.7804234983933427,
      "grad_norm": 0.7014032602310181,
      "learning_rate": 2.5637070318921488e-06,
      "loss": 1.3642,
      "mean_token_accuracy": 0.6547218362490336,
      "num_tokens": 2719076843.0,
      "step": 16207
    },
    {
      "entropy": 1.718455046415329,
      "epoch": 1.7805333553047156,
      "grad_norm": 0.6352714896202087,
      "learning_rate": 2.563149417976152e-06,
      "loss": 1.4188,
      "mean_token_accuracy": 0.6555627485116323,
      "num_tokens": 2719232421.0,
      "step": 16208
    },
    {
      "entropy": 1.7530864675839741,
      "epoch": 1.7806432122160887,
      "grad_norm": 0.6508417725563049,
      "learning_rate": 2.562592071082674e-06,
      "loss": 1.5481,
      "mean_token_accuracy": 0.6468537002801895,
      "num_tokens": 2719404790.0,
      "step": 16209
    },
    {
      "entropy": 1.6875406205654144,
      "epoch": 1.7807530691274613,
      "grad_norm": 0.7828112244606018,
      "learning_rate": 2.5620349912293543e-06,
      "loss": 1.4161,
      "mean_token_accuracy": 0.6764611254135767,
      "num_tokens": 2719529889.0,
      "step": 16210
    },
    {
      "entropy": 1.6766289969285328,
      "epoch": 1.7808629260388344,
      "grad_norm": 0.8107297420501709,
      "learning_rate": 2.5614781784338255e-06,
      "loss": 1.3208,
      "mean_token_accuracy": 0.6553743382294973,
      "num_tokens": 2719700245.0,
      "step": 16211
    },
    {
      "entropy": 1.672994703054428,
      "epoch": 1.7809727829502073,
      "grad_norm": 0.7123458981513977,
      "learning_rate": 2.560921632713711e-06,
      "loss": 1.3213,
      "mean_token_accuracy": 0.6707338194052378,
      "num_tokens": 2719870654.0,
      "step": 16212
    },
    {
      "entropy": 1.6604451934496562,
      "epoch": 1.7810826398615802,
      "grad_norm": 0.7824660539627075,
      "learning_rate": 2.5603653540866226e-06,
      "loss": 1.5431,
      "mean_token_accuracy": 0.6393003712097803,
      "num_tokens": 2720059793.0,
      "step": 16213
    },
    {
      "entropy": 1.69284787774086,
      "epoch": 1.7811924967729533,
      "grad_norm": 0.6443684101104736,
      "learning_rate": 2.559809342570168e-06,
      "loss": 1.2632,
      "mean_token_accuracy": 0.6757178753614426,
      "num_tokens": 2720222052.0,
      "step": 16214
    },
    {
      "entropy": 1.727107326189677,
      "epoch": 1.7813023536843262,
      "grad_norm": 0.6985810995101929,
      "learning_rate": 2.5592535981819455e-06,
      "loss": 1.4631,
      "mean_token_accuracy": 0.6416812141736349,
      "num_tokens": 2720394912.0,
      "step": 16215
    },
    {
      "entropy": 1.7403022348880768,
      "epoch": 1.781412210595699,
      "grad_norm": 0.6760064959526062,
      "learning_rate": 2.5586981209395414e-06,
      "loss": 1.4851,
      "mean_token_accuracy": 0.6429832726716995,
      "num_tokens": 2720559240.0,
      "step": 16216
    },
    {
      "entropy": 1.732146809498469,
      "epoch": 1.7815220675070722,
      "grad_norm": 0.6863375902175903,
      "learning_rate": 2.5581429108605394e-06,
      "loss": 1.4375,
      "mean_token_accuracy": 0.6447567095359167,
      "num_tokens": 2720745800.0,
      "step": 16217
    },
    {
      "entropy": 1.6957339843114216,
      "epoch": 1.7816319244184449,
      "grad_norm": 0.6518421769142151,
      "learning_rate": 2.557587967962509e-06,
      "loss": 1.361,
      "mean_token_accuracy": 0.6534071415662766,
      "num_tokens": 2720895109.0,
      "step": 16218
    },
    {
      "entropy": 1.7050747672716777,
      "epoch": 1.781741781329818,
      "grad_norm": 0.6569792032241821,
      "learning_rate": 2.5570332922630163e-06,
      "loss": 1.2822,
      "mean_token_accuracy": 0.6715095390876135,
      "num_tokens": 2721024272.0,
      "step": 16219
    },
    {
      "entropy": 1.679296483596166,
      "epoch": 1.7818516382411909,
      "grad_norm": 0.7886082530021667,
      "learning_rate": 2.5564788837796156e-06,
      "loss": 1.4813,
      "mean_token_accuracy": 0.6585791359345118,
      "num_tokens": 2721227239.0,
      "step": 16220
    },
    {
      "entropy": 1.73756409684817,
      "epoch": 1.7819614951525637,
      "grad_norm": 0.7555798888206482,
      "learning_rate": 2.5559247425298523e-06,
      "loss": 1.3367,
      "mean_token_accuracy": 0.6579089959462484,
      "num_tokens": 2721379504.0,
      "step": 16221
    },
    {
      "entropy": 1.7351977328459423,
      "epoch": 1.7820713520639369,
      "grad_norm": 0.6866292953491211,
      "learning_rate": 2.5553708685312658e-06,
      "loss": 1.3398,
      "mean_token_accuracy": 0.6643187751372656,
      "num_tokens": 2721521980.0,
      "step": 16222
    },
    {
      "entropy": 1.670342117547989,
      "epoch": 1.7821812089753095,
      "grad_norm": 0.5937049984931946,
      "learning_rate": 2.554817261801387e-06,
      "loss": 1.3746,
      "mean_token_accuracy": 0.6563832610845566,
      "num_tokens": 2721676655.0,
      "step": 16223
    },
    {
      "entropy": 1.674795150756836,
      "epoch": 1.7822910658866826,
      "grad_norm": 0.6507994532585144,
      "learning_rate": 2.554263922357737e-06,
      "loss": 1.4518,
      "mean_token_accuracy": 0.6518680403629938,
      "num_tokens": 2721878324.0,
      "step": 16224
    },
    {
      "entropy": 1.7025028467178345,
      "epoch": 1.7824009227980555,
      "grad_norm": 0.7818902134895325,
      "learning_rate": 2.553710850217826e-06,
      "loss": 1.5391,
      "mean_token_accuracy": 0.636594370007515,
      "num_tokens": 2722086360.0,
      "step": 16225
    },
    {
      "entropy": 1.7275918225447338,
      "epoch": 1.7825107797094284,
      "grad_norm": 0.6679732203483582,
      "learning_rate": 2.5531580453991627e-06,
      "loss": 1.3366,
      "mean_token_accuracy": 0.6550202568372091,
      "num_tokens": 2722217001.0,
      "step": 16226
    },
    {
      "entropy": 1.694819023211797,
      "epoch": 1.7826206366208015,
      "grad_norm": 0.7464036345481873,
      "learning_rate": 2.5526055079192413e-06,
      "loss": 1.5109,
      "mean_token_accuracy": 0.6589773992697397,
      "num_tokens": 2722371256.0,
      "step": 16227
    },
    {
      "entropy": 1.681807627280553,
      "epoch": 1.7827304935321744,
      "grad_norm": 0.6635357737541199,
      "learning_rate": 2.5520532377955467e-06,
      "loss": 1.3098,
      "mean_token_accuracy": 0.6588182846705118,
      "num_tokens": 2722509673.0,
      "step": 16228
    },
    {
      "entropy": 1.680689126253128,
      "epoch": 1.7828403504435473,
      "grad_norm": 0.6713885068893433,
      "learning_rate": 2.551501235045562e-06,
      "loss": 1.3095,
      "mean_token_accuracy": 0.6868884414434433,
      "num_tokens": 2722686390.0,
      "step": 16229
    },
    {
      "entropy": 1.712468832731247,
      "epoch": 1.7829502073549204,
      "grad_norm": 0.7904059886932373,
      "learning_rate": 2.5509494996867558e-06,
      "loss": 1.5056,
      "mean_token_accuracy": 0.6609023263057073,
      "num_tokens": 2722817375.0,
      "step": 16230
    },
    {
      "entropy": 1.7211446662743886,
      "epoch": 1.783060064266293,
      "grad_norm": 0.6894172430038452,
      "learning_rate": 2.5503980317365908e-06,
      "loss": 1.3432,
      "mean_token_accuracy": 0.6689777423938116,
      "num_tokens": 2722981904.0,
      "step": 16231
    },
    {
      "entropy": 1.6683667202790577,
      "epoch": 1.7831699211776662,
      "grad_norm": 0.8465138673782349,
      "learning_rate": 2.549846831212521e-06,
      "loss": 1.3657,
      "mean_token_accuracy": 0.6582571069399515,
      "num_tokens": 2723174066.0,
      "step": 16232
    },
    {
      "entropy": 1.726008802652359,
      "epoch": 1.783279778089039,
      "grad_norm": 0.7869644165039062,
      "learning_rate": 2.5492958981319902e-06,
      "loss": 1.2813,
      "mean_token_accuracy": 0.6665952205657959,
      "num_tokens": 2723281291.0,
      "step": 16233
    },
    {
      "entropy": 1.7815176844596863,
      "epoch": 1.783389635000412,
      "grad_norm": 0.656838059425354,
      "learning_rate": 2.5487452325124363e-06,
      "loss": 1.4156,
      "mean_token_accuracy": 0.6533069312572479,
      "num_tokens": 2723471325.0,
      "step": 16234
    },
    {
      "entropy": 1.7248845597108204,
      "epoch": 1.783499491911785,
      "grad_norm": 0.9060506820678711,
      "learning_rate": 2.5481948343712885e-06,
      "loss": 1.4979,
      "mean_token_accuracy": 0.6565845509370168,
      "num_tokens": 2723632795.0,
      "step": 16235
    },
    {
      "entropy": 1.730120857556661,
      "epoch": 1.7836093488231577,
      "grad_norm": 0.7274516820907593,
      "learning_rate": 2.5476447037259666e-06,
      "loss": 1.3954,
      "mean_token_accuracy": 0.6534441063801447,
      "num_tokens": 2723764226.0,
      "step": 16236
    },
    {
      "entropy": 1.6996258199214935,
      "epoch": 1.7837192057345308,
      "grad_norm": 0.7300492525100708,
      "learning_rate": 2.547094840593879e-06,
      "loss": 1.3445,
      "mean_token_accuracy": 0.6685766031344732,
      "num_tokens": 2723901277.0,
      "step": 16237
    },
    {
      "entropy": 1.7311415870984395,
      "epoch": 1.7838290626459037,
      "grad_norm": 0.8246431946754456,
      "learning_rate": 2.546545244992432e-06,
      "loss": 1.2342,
      "mean_token_accuracy": 0.6768847008546194,
      "num_tokens": 2724036004.0,
      "step": 16238
    },
    {
      "entropy": 1.6984553039073944,
      "epoch": 1.7839389195572766,
      "grad_norm": 0.6190625429153442,
      "learning_rate": 2.5459959169390185e-06,
      "loss": 1.5376,
      "mean_token_accuracy": 0.6259044905503591,
      "num_tokens": 2724340416.0,
      "step": 16239
    },
    {
      "entropy": 1.7265506088733673,
      "epoch": 1.7840487764686497,
      "grad_norm": 0.6775219440460205,
      "learning_rate": 2.5454468564510242e-06,
      "loss": 1.4671,
      "mean_token_accuracy": 0.6378841251134872,
      "num_tokens": 2724522692.0,
      "step": 16240
    },
    {
      "entropy": 1.7654529015223186,
      "epoch": 1.7841586333800226,
      "grad_norm": 0.655631959438324,
      "learning_rate": 2.5448980635458287e-06,
      "loss": 1.416,
      "mean_token_accuracy": 0.6465630332628886,
      "num_tokens": 2724738322.0,
      "step": 16241
    },
    {
      "entropy": 1.6371107796827953,
      "epoch": 1.7842684902913954,
      "grad_norm": 0.6871931552886963,
      "learning_rate": 2.5443495382407973e-06,
      "loss": 1.4574,
      "mean_token_accuracy": 0.647613137960434,
      "num_tokens": 2724894550.0,
      "step": 16242
    },
    {
      "entropy": 1.6568027933438618,
      "epoch": 1.7843783472027686,
      "grad_norm": 0.6367573142051697,
      "learning_rate": 2.543801280553295e-06,
      "loss": 1.4055,
      "mean_token_accuracy": 0.653554563721021,
      "num_tokens": 2725067815.0,
      "step": 16243
    },
    {
      "entropy": 1.753188967704773,
      "epoch": 1.7844882041141412,
      "grad_norm": 0.705480694770813,
      "learning_rate": 2.5432532905006715e-06,
      "loss": 1.5104,
      "mean_token_accuracy": 0.631978377699852,
      "num_tokens": 2725269398.0,
      "step": 16244
    },
    {
      "entropy": 1.6898446877797444,
      "epoch": 1.7845980610255143,
      "grad_norm": 0.7416958212852478,
      "learning_rate": 2.542705568100268e-06,
      "loss": 1.3553,
      "mean_token_accuracy": 0.6741011242071787,
      "num_tokens": 2725414400.0,
      "step": 16245
    },
    {
      "entropy": 1.7214942475159962,
      "epoch": 1.7847079179368872,
      "grad_norm": 0.7140223979949951,
      "learning_rate": 2.542158113369424e-06,
      "loss": 1.3623,
      "mean_token_accuracy": 0.6528001030286154,
      "num_tokens": 2725550421.0,
      "step": 16246
    },
    {
      "entropy": 1.6600320835908253,
      "epoch": 1.78481777484826,
      "grad_norm": 0.8466951251029968,
      "learning_rate": 2.5416109263254656e-06,
      "loss": 1.3405,
      "mean_token_accuracy": 0.658960203329722,
      "num_tokens": 2725749641.0,
      "step": 16247
    },
    {
      "entropy": 1.7030630608399708,
      "epoch": 1.7849276317596332,
      "grad_norm": 0.8019019365310669,
      "learning_rate": 2.541064006985709e-06,
      "loss": 1.5304,
      "mean_token_accuracy": 0.6433060467243195,
      "num_tokens": 2725922079.0,
      "step": 16248
    },
    {
      "entropy": 1.7040532032648723,
      "epoch": 1.7850374886710059,
      "grad_norm": 0.7823516726493835,
      "learning_rate": 2.5405173553674662e-06,
      "loss": 1.2843,
      "mean_token_accuracy": 0.6735737522443136,
      "num_tokens": 2726058883.0,
      "step": 16249
    },
    {
      "entropy": 1.7228721876939137,
      "epoch": 1.785147345582379,
      "grad_norm": 0.7137507200241089,
      "learning_rate": 2.539970971488034e-06,
      "loss": 1.3681,
      "mean_token_accuracy": 0.6637583325306574,
      "num_tokens": 2726214542.0,
      "step": 16250
    },
    {
      "entropy": 1.6770942211151123,
      "epoch": 1.7852572024937519,
      "grad_norm": 0.6972078680992126,
      "learning_rate": 2.539424855364711e-06,
      "loss": 1.326,
      "mean_token_accuracy": 0.6649446338415146,
      "num_tokens": 2726375099.0,
      "step": 16251
    },
    {
      "entropy": 1.7118816177050273,
      "epoch": 1.7853670594051247,
      "grad_norm": 0.7081136107444763,
      "learning_rate": 2.5388790070147796e-06,
      "loss": 1.3891,
      "mean_token_accuracy": 0.6423606922229131,
      "num_tokens": 2726521694.0,
      "step": 16252
    },
    {
      "entropy": 1.6510530412197113,
      "epoch": 1.7854769163164979,
      "grad_norm": 0.7234501242637634,
      "learning_rate": 2.538333426455512e-06,
      "loss": 1.4314,
      "mean_token_accuracy": 0.6571709563334783,
      "num_tokens": 2726696075.0,
      "step": 16253
    },
    {
      "entropy": 1.7041932344436646,
      "epoch": 1.7855867732278707,
      "grad_norm": 0.7055428624153137,
      "learning_rate": 2.53778811370418e-06,
      "loss": 1.454,
      "mean_token_accuracy": 0.6542116304238638,
      "num_tokens": 2726861735.0,
      "step": 16254
    },
    {
      "entropy": 1.6798604428768158,
      "epoch": 1.7856966301392436,
      "grad_norm": 0.6403173208236694,
      "learning_rate": 2.5372430687780413e-06,
      "loss": 1.4092,
      "mean_token_accuracy": 0.6626434773206711,
      "num_tokens": 2727050120.0,
      "step": 16255
    },
    {
      "entropy": 1.658277968565623,
      "epoch": 1.7858064870506167,
      "grad_norm": 0.7245867848396301,
      "learning_rate": 2.536698291694346e-06,
      "loss": 1.456,
      "mean_token_accuracy": 0.6435498197873434,
      "num_tokens": 2727250402.0,
      "step": 16256
    },
    {
      "entropy": 1.7269805371761322,
      "epoch": 1.7859163439619894,
      "grad_norm": 0.7680160999298096,
      "learning_rate": 2.536153782470335e-06,
      "loss": 1.5174,
      "mean_token_accuracy": 0.6507440209388733,
      "num_tokens": 2727435782.0,
      "step": 16257
    },
    {
      "entropy": 1.6973803043365479,
      "epoch": 1.7860262008733625,
      "grad_norm": 0.6898791790008545,
      "learning_rate": 2.5356095411232455e-06,
      "loss": 1.3865,
      "mean_token_accuracy": 0.6631582975387573,
      "num_tokens": 2727603708.0,
      "step": 16258
    },
    {
      "entropy": 1.764186054468155,
      "epoch": 1.7861360577847354,
      "grad_norm": 0.8053025007247925,
      "learning_rate": 2.5350655676702985e-06,
      "loss": 1.4573,
      "mean_token_accuracy": 0.6421335885922114,
      "num_tokens": 2727784144.0,
      "step": 16259
    },
    {
      "entropy": 1.7275482614835103,
      "epoch": 1.7862459146961083,
      "grad_norm": 0.6696358323097229,
      "learning_rate": 2.534521862128711e-06,
      "loss": 1.2937,
      "mean_token_accuracy": 0.6718499114116033,
      "num_tokens": 2727904805.0,
      "step": 16260
    },
    {
      "entropy": 1.7152071297168732,
      "epoch": 1.7863557716074814,
      "grad_norm": 0.8419023156166077,
      "learning_rate": 2.5339784245156934e-06,
      "loss": 1.3275,
      "mean_token_accuracy": 0.664416715502739,
      "num_tokens": 2728057786.0,
      "step": 16261
    },
    {
      "entropy": 1.7445741693178813,
      "epoch": 1.786465628518854,
      "grad_norm": 0.6461774110794067,
      "learning_rate": 2.533435254848442e-06,
      "loss": 1.3029,
      "mean_token_accuracy": 0.6617392847935358,
      "num_tokens": 2728206231.0,
      "step": 16262
    },
    {
      "entropy": 1.7072357336680095,
      "epoch": 1.7865754854302272,
      "grad_norm": 0.7268346548080444,
      "learning_rate": 2.5328923531441506e-06,
      "loss": 1.4484,
      "mean_token_accuracy": 0.6492378860712051,
      "num_tokens": 2728381345.0,
      "step": 16263
    },
    {
      "entropy": 1.6935893793900807,
      "epoch": 1.7866853423416,
      "grad_norm": 0.6541410088539124,
      "learning_rate": 2.5323497194200025e-06,
      "loss": 1.3363,
      "mean_token_accuracy": 0.6590806543827057,
      "num_tokens": 2728559317.0,
      "step": 16264
    },
    {
      "entropy": 1.727291206518809,
      "epoch": 1.786795199252973,
      "grad_norm": 0.7337368726730347,
      "learning_rate": 2.5318073536931677e-06,
      "loss": 1.5537,
      "mean_token_accuracy": 0.6399403661489487,
      "num_tokens": 2728774789.0,
      "step": 16265
    },
    {
      "entropy": 1.6569550434748332,
      "epoch": 1.786905056164346,
      "grad_norm": 0.8272339701652527,
      "learning_rate": 2.5312652559808143e-06,
      "loss": 1.4112,
      "mean_token_accuracy": 0.646061177055041,
      "num_tokens": 2728980119.0,
      "step": 16266
    },
    {
      "entropy": 1.7381823460261028,
      "epoch": 1.787014913075719,
      "grad_norm": 0.7224423885345459,
      "learning_rate": 2.5307234263001006e-06,
      "loss": 1.2268,
      "mean_token_accuracy": 0.6785031110048294,
      "num_tokens": 2729121787.0,
      "step": 16267
    },
    {
      "entropy": 1.6357511182626088,
      "epoch": 1.7871247699870918,
      "grad_norm": 0.6711469888687134,
      "learning_rate": 2.530181864668174e-06,
      "loss": 1.4506,
      "mean_token_accuracy": 0.6360716919104258,
      "num_tokens": 2729314285.0,
      "step": 16268
    },
    {
      "entropy": 1.66348002354304,
      "epoch": 1.787234626898465,
      "grad_norm": 0.5813800692558289,
      "learning_rate": 2.5296405711021744e-06,
      "loss": 1.4608,
      "mean_token_accuracy": 0.6357814073562622,
      "num_tokens": 2729556544.0,
      "step": 16269
    },
    {
      "entropy": 1.6779274741808574,
      "epoch": 1.7873444838098376,
      "grad_norm": 0.7128428816795349,
      "learning_rate": 2.529099545619234e-06,
      "loss": 1.4014,
      "mean_token_accuracy": 0.6523097256819407,
      "num_tokens": 2729746524.0,
      "step": 16270
    },
    {
      "entropy": 1.6374227901299794,
      "epoch": 1.7874543407212107,
      "grad_norm": 0.6598563194274902,
      "learning_rate": 2.5285587882364766e-06,
      "loss": 1.3394,
      "mean_token_accuracy": 0.662226935227712,
      "num_tokens": 2729917624.0,
      "step": 16271
    },
    {
      "entropy": 1.6421111126740773,
      "epoch": 1.7875641976325836,
      "grad_norm": 0.6324965953826904,
      "learning_rate": 2.5280182989710143e-06,
      "loss": 1.4136,
      "mean_token_accuracy": 0.656077653169632,
      "num_tokens": 2730146475.0,
      "step": 16272
    },
    {
      "entropy": 1.6922315955162048,
      "epoch": 1.7876740545439564,
      "grad_norm": 0.5751784443855286,
      "learning_rate": 2.5274780778399576e-06,
      "loss": 1.4533,
      "mean_token_accuracy": 0.6490372568368912,
      "num_tokens": 2730347616.0,
      "step": 16273
    },
    {
      "entropy": 1.699767659107844,
      "epoch": 1.7877839114553296,
      "grad_norm": 0.6968252062797546,
      "learning_rate": 2.526938124860401e-06,
      "loss": 1.4884,
      "mean_token_accuracy": 0.6427743136882782,
      "num_tokens": 2730587146.0,
      "step": 16274
    },
    {
      "entropy": 1.72932164867719,
      "epoch": 1.7878937683667022,
      "grad_norm": 0.700259804725647,
      "learning_rate": 2.5263984400494353e-06,
      "loss": 1.1976,
      "mean_token_accuracy": 0.6866904695828756,
      "num_tokens": 2730734334.0,
      "step": 16275
    },
    {
      "entropy": 1.7005844314893086,
      "epoch": 1.7880036252780753,
      "grad_norm": 0.6235203742980957,
      "learning_rate": 2.52585902342414e-06,
      "loss": 1.3332,
      "mean_token_accuracy": 0.6622271637121836,
      "num_tokens": 2730889099.0,
      "step": 16276
    },
    {
      "entropy": 1.7240139146645863,
      "epoch": 1.7881134821894482,
      "grad_norm": 0.7013264894485474,
      "learning_rate": 2.525319875001587e-06,
      "loss": 1.3928,
      "mean_token_accuracy": 0.6499841312567393,
      "num_tokens": 2731097821.0,
      "step": 16277
    },
    {
      "entropy": 1.730222374200821,
      "epoch": 1.788223339100821,
      "grad_norm": 0.6136840581893921,
      "learning_rate": 2.5247809947988413e-06,
      "loss": 1.4699,
      "mean_token_accuracy": 0.6457250515619913,
      "num_tokens": 2731308470.0,
      "step": 16278
    },
    {
      "entropy": 1.7151026626427968,
      "epoch": 1.7883331960121942,
      "grad_norm": 0.6567912101745605,
      "learning_rate": 2.524242382832959e-06,
      "loss": 1.3497,
      "mean_token_accuracy": 0.6674692332744598,
      "num_tokens": 2731473920.0,
      "step": 16279
    },
    {
      "entropy": 1.7287200788656871,
      "epoch": 1.788443052923567,
      "grad_norm": 0.8798257112503052,
      "learning_rate": 2.5237040391209877e-06,
      "loss": 1.4002,
      "mean_token_accuracy": 0.6503605445226034,
      "num_tokens": 2731618031.0,
      "step": 16280
    },
    {
      "entropy": 1.7416976193586986,
      "epoch": 1.78855290983494,
      "grad_norm": 0.7769317030906677,
      "learning_rate": 2.523165963679961e-06,
      "loss": 1.6973,
      "mean_token_accuracy": 0.6211136281490326,
      "num_tokens": 2731779387.0,
      "step": 16281
    },
    {
      "entropy": 1.7118895947933197,
      "epoch": 1.788662766746313,
      "grad_norm": 0.6092858910560608,
      "learning_rate": 2.522628156526914e-06,
      "loss": 1.4178,
      "mean_token_accuracy": 0.6442497919003168,
      "num_tokens": 2731984238.0,
      "step": 16282
    },
    {
      "entropy": 1.712389588356018,
      "epoch": 1.7887726236576857,
      "grad_norm": 0.8901104927062988,
      "learning_rate": 2.5220906176788657e-06,
      "loss": 1.3029,
      "mean_token_accuracy": 0.6697202920913696,
      "num_tokens": 2732213159.0,
      "step": 16283
    },
    {
      "entropy": 1.6833104491233826,
      "epoch": 1.7888824805690589,
      "grad_norm": 0.6661498546600342,
      "learning_rate": 2.5215533471528276e-06,
      "loss": 1.2588,
      "mean_token_accuracy": 0.6872056176265081,
      "num_tokens": 2732337606.0,
      "step": 16284
    },
    {
      "entropy": 1.722004105647405,
      "epoch": 1.7889923374804317,
      "grad_norm": 0.6921575665473938,
      "learning_rate": 2.521016344965807e-06,
      "loss": 1.5717,
      "mean_token_accuracy": 0.6401575257380804,
      "num_tokens": 2732528822.0,
      "step": 16285
    },
    {
      "entropy": 1.6872912446657817,
      "epoch": 1.7891021943918046,
      "grad_norm": 0.6085355281829834,
      "learning_rate": 2.520479611134797e-06,
      "loss": 1.3896,
      "mean_token_accuracy": 0.6487388958533605,
      "num_tokens": 2732708924.0,
      "step": 16286
    },
    {
      "entropy": 1.7655263344446819,
      "epoch": 1.7892120513031777,
      "grad_norm": 0.7121375799179077,
      "learning_rate": 2.5199431456767877e-06,
      "loss": 1.3726,
      "mean_token_accuracy": 0.6477866073449453,
      "num_tokens": 2732847700.0,
      "step": 16287
    },
    {
      "entropy": 1.7201635142167409,
      "epoch": 1.7893219082145504,
      "grad_norm": 0.6995194554328918,
      "learning_rate": 2.5194069486087564e-06,
      "loss": 1.3661,
      "mean_token_accuracy": 0.6587748775879542,
      "num_tokens": 2732996658.0,
      "step": 16288
    },
    {
      "entropy": 1.7433823545773823,
      "epoch": 1.7894317651259235,
      "grad_norm": 0.6454122066497803,
      "learning_rate": 2.5188710199476725e-06,
      "loss": 1.497,
      "mean_token_accuracy": 0.6462214092413584,
      "num_tokens": 2733190258.0,
      "step": 16289
    },
    {
      "entropy": 1.7409153878688812,
      "epoch": 1.7895416220372964,
      "grad_norm": 0.7849988341331482,
      "learning_rate": 2.5183353597104994e-06,
      "loss": 1.433,
      "mean_token_accuracy": 0.6468554139137268,
      "num_tokens": 2733359931.0,
      "step": 16290
    },
    {
      "entropy": 1.6835778454939525,
      "epoch": 1.7896514789486693,
      "grad_norm": 0.6935192346572876,
      "learning_rate": 2.517799967914191e-06,
      "loss": 1.5234,
      "mean_token_accuracy": 0.6396876275539398,
      "num_tokens": 2733583935.0,
      "step": 16291
    },
    {
      "entropy": 1.6984424690405528,
      "epoch": 1.7897613358600424,
      "grad_norm": 0.6901172995567322,
      "learning_rate": 2.5172648445756927e-06,
      "loss": 1.2957,
      "mean_token_accuracy": 0.6744356652100881,
      "num_tokens": 2733713104.0,
      "step": 16292
    },
    {
      "entropy": 1.6622243821620941,
      "epoch": 1.7898711927714153,
      "grad_norm": 0.6113606095314026,
      "learning_rate": 2.516729989711937e-06,
      "loss": 1.2825,
      "mean_token_accuracy": 0.6713751504818598,
      "num_tokens": 2733886622.0,
      "step": 16293
    },
    {
      "entropy": 1.68569149573644,
      "epoch": 1.7899810496827882,
      "grad_norm": 0.6700574159622192,
      "learning_rate": 2.516195403339856e-06,
      "loss": 1.4043,
      "mean_token_accuracy": 0.6612590849399567,
      "num_tokens": 2734036231.0,
      "step": 16294
    },
    {
      "entropy": 1.7632472316424053,
      "epoch": 1.7900909065941613,
      "grad_norm": 0.8103067278862,
      "learning_rate": 2.515661085476368e-06,
      "loss": 1.4073,
      "mean_token_accuracy": 0.6506477644046148,
      "num_tokens": 2734170169.0,
      "step": 16295
    },
    {
      "entropy": 1.6857722500960033,
      "epoch": 1.790200763505534,
      "grad_norm": 0.6791203618049622,
      "learning_rate": 2.5151270361383816e-06,
      "loss": 1.4516,
      "mean_token_accuracy": 0.6414875040451685,
      "num_tokens": 2734366953.0,
      "step": 16296
    },
    {
      "entropy": 1.6843474805355072,
      "epoch": 1.790310620416907,
      "grad_norm": 0.733788013458252,
      "learning_rate": 2.5145932553428038e-06,
      "loss": 1.4301,
      "mean_token_accuracy": 0.653965026140213,
      "num_tokens": 2734526424.0,
      "step": 16297
    },
    {
      "entropy": 1.6595512131849925,
      "epoch": 1.79042047732828,
      "grad_norm": 0.7882452607154846,
      "learning_rate": 2.5140597431065233e-06,
      "loss": 1.4809,
      "mean_token_accuracy": 0.651551162203153,
      "num_tokens": 2734683617.0,
      "step": 16298
    },
    {
      "entropy": 1.6853315234184265,
      "epoch": 1.7905303342396528,
      "grad_norm": 0.6644918322563171,
      "learning_rate": 2.5135264994464294e-06,
      "loss": 1.3111,
      "mean_token_accuracy": 0.6654441605011622,
      "num_tokens": 2734825857.0,
      "step": 16299
    },
    {
      "entropy": 1.6577715078989665,
      "epoch": 1.790640191151026,
      "grad_norm": 0.5730201601982117,
      "learning_rate": 2.512993524379398e-06,
      "loss": 1.3078,
      "mean_token_accuracy": 0.6807037740945816,
      "num_tokens": 2734961414.0,
      "step": 16300
    },
    {
      "entropy": 1.7456890443960826,
      "epoch": 1.7907500480623986,
      "grad_norm": 0.8542404770851135,
      "learning_rate": 2.5124608179222958e-06,
      "loss": 1.44,
      "mean_token_accuracy": 0.6580932984749476,
      "num_tokens": 2735127869.0,
      "step": 16301
    },
    {
      "entropy": 1.6978826026121776,
      "epoch": 1.7908599049737717,
      "grad_norm": 0.6640202403068542,
      "learning_rate": 2.5119283800919853e-06,
      "loss": 1.4269,
      "mean_token_accuracy": 0.655546839038531,
      "num_tokens": 2735315439.0,
      "step": 16302
    },
    {
      "entropy": 1.7440852721532185,
      "epoch": 1.7909697618851446,
      "grad_norm": 0.7849541902542114,
      "learning_rate": 2.5113962109053162e-06,
      "loss": 1.2534,
      "mean_token_accuracy": 0.6781354149182638,
      "num_tokens": 2735430005.0,
      "step": 16303
    },
    {
      "entropy": 1.7063166797161102,
      "epoch": 1.7910796187965174,
      "grad_norm": 1.1036492586135864,
      "learning_rate": 2.5108643103791335e-06,
      "loss": 1.3421,
      "mean_token_accuracy": 0.6793977270523707,
      "num_tokens": 2735552067.0,
      "step": 16304
    },
    {
      "entropy": 1.6659158567587535,
      "epoch": 1.7911894757078906,
      "grad_norm": 0.6122180819511414,
      "learning_rate": 2.5103326785302677e-06,
      "loss": 1.3725,
      "mean_token_accuracy": 0.6636357257763544,
      "num_tokens": 2735731985.0,
      "step": 16305
    },
    {
      "entropy": 1.6837575336297352,
      "epoch": 1.7912993326192634,
      "grad_norm": 0.5877187848091125,
      "learning_rate": 2.5098013153755485e-06,
      "loss": 1.486,
      "mean_token_accuracy": 0.6384171495834986,
      "num_tokens": 2735901634.0,
      "step": 16306
    },
    {
      "entropy": 1.6770992676417034,
      "epoch": 1.7914091895306363,
      "grad_norm": 0.7175406217575073,
      "learning_rate": 2.509270220931792e-06,
      "loss": 1.2945,
      "mean_token_accuracy": 0.6702460249265035,
      "num_tokens": 2736073169.0,
      "step": 16307
    },
    {
      "entropy": 1.7309307356675465,
      "epoch": 1.7915190464420094,
      "grad_norm": 0.7163530588150024,
      "learning_rate": 2.5087393952158063e-06,
      "loss": 1.3491,
      "mean_token_accuracy": 0.6687060197194418,
      "num_tokens": 2736199549.0,
      "step": 16308
    },
    {
      "entropy": 1.7686155239741008,
      "epoch": 1.791628903353382,
      "grad_norm": 0.7394537925720215,
      "learning_rate": 2.5082088382443936e-06,
      "loss": 1.4027,
      "mean_token_accuracy": 0.6433225274085999,
      "num_tokens": 2736375818.0,
      "step": 16309
    },
    {
      "entropy": 1.6461839079856873,
      "epoch": 1.7917387602647552,
      "grad_norm": 0.6997315287590027,
      "learning_rate": 2.5076785500343426e-06,
      "loss": 1.3915,
      "mean_token_accuracy": 0.6605212738116583,
      "num_tokens": 2736580721.0,
      "step": 16310
    },
    {
      "entropy": 1.7693572044372559,
      "epoch": 1.791848617176128,
      "grad_norm": 0.7545243501663208,
      "learning_rate": 2.5071485306024405e-06,
      "loss": 1.5297,
      "mean_token_accuracy": 0.6341488460699717,
      "num_tokens": 2736747341.0,
      "step": 16311
    },
    {
      "entropy": 1.6597660581270854,
      "epoch": 1.791958474087501,
      "grad_norm": 0.6617560386657715,
      "learning_rate": 2.5066187799654608e-06,
      "loss": 1.2636,
      "mean_token_accuracy": 0.6663326869408289,
      "num_tokens": 2736877606.0,
      "step": 16312
    },
    {
      "entropy": 1.5883537034193675,
      "epoch": 1.792068330998874,
      "grad_norm": 0.6924055218696594,
      "learning_rate": 2.506089298140168e-06,
      "loss": 1.4102,
      "mean_token_accuracy": 0.6675305167833964,
      "num_tokens": 2737039683.0,
      "step": 16313
    },
    {
      "entropy": 1.7212806940078735,
      "epoch": 1.7921781879102467,
      "grad_norm": 0.7379174828529358,
      "learning_rate": 2.5055600851433228e-06,
      "loss": 1.4748,
      "mean_token_accuracy": 0.6568605154752731,
      "num_tokens": 2737179397.0,
      "step": 16314
    },
    {
      "entropy": 1.7149664461612701,
      "epoch": 1.7922880448216199,
      "grad_norm": 0.6748194694519043,
      "learning_rate": 2.5050311409916715e-06,
      "loss": 1.3384,
      "mean_token_accuracy": 0.6551110148429871,
      "num_tokens": 2737319398.0,
      "step": 16315
    },
    {
      "entropy": 1.7069288392861683,
      "epoch": 1.7923979017329927,
      "grad_norm": 0.6862152814865112,
      "learning_rate": 2.5045024657019585e-06,
      "loss": 1.3491,
      "mean_token_accuracy": 0.6714658091465632,
      "num_tokens": 2737454204.0,
      "step": 16316
    },
    {
      "entropy": 1.7472139199574788,
      "epoch": 1.7925077586443656,
      "grad_norm": 0.7499648928642273,
      "learning_rate": 2.503974059290914e-06,
      "loss": 1.5385,
      "mean_token_accuracy": 0.6405575921138128,
      "num_tokens": 2737595817.0,
      "step": 16317
    },
    {
      "entropy": 1.6611140767733257,
      "epoch": 1.7926176155557387,
      "grad_norm": 0.9254728555679321,
      "learning_rate": 2.503445921775261e-06,
      "loss": 1.4631,
      "mean_token_accuracy": 0.6541319787502289,
      "num_tokens": 2737734944.0,
      "step": 16318
    },
    {
      "entropy": 1.7104494671026866,
      "epoch": 1.7927274724671116,
      "grad_norm": 0.6272209882736206,
      "learning_rate": 2.5029180531717172e-06,
      "loss": 1.36,
      "mean_token_accuracy": 0.6594759970903397,
      "num_tokens": 2737888914.0,
      "step": 16319
    },
    {
      "entropy": 1.6646449665228527,
      "epoch": 1.7928373293784845,
      "grad_norm": 0.7363027930259705,
      "learning_rate": 2.5023904534969885e-06,
      "loss": 1.4083,
      "mean_token_accuracy": 0.6451329837242762,
      "num_tokens": 2738084677.0,
      "step": 16320
    },
    {
      "entropy": 1.693971465031306,
      "epoch": 1.7929471862898576,
      "grad_norm": 0.8376074433326721,
      "learning_rate": 2.50186312276777e-06,
      "loss": 1.4147,
      "mean_token_accuracy": 0.6637802918752035,
      "num_tokens": 2738224943.0,
      "step": 16321
    },
    {
      "entropy": 1.6223762234052022,
      "epoch": 1.7930570432012303,
      "grad_norm": 0.7268716096878052,
      "learning_rate": 2.5013360610007555e-06,
      "loss": 1.3308,
      "mean_token_accuracy": 0.6813297122716904,
      "num_tokens": 2738430126.0,
      "step": 16322
    },
    {
      "entropy": 1.7354827622572582,
      "epoch": 1.7931669001126034,
      "grad_norm": 0.7839182615280151,
      "learning_rate": 2.500809268212626e-06,
      "loss": 1.3441,
      "mean_token_accuracy": 0.6678336064020792,
      "num_tokens": 2738574057.0,
      "step": 16323
    },
    {
      "entropy": 1.7117115159829457,
      "epoch": 1.7932767570239763,
      "grad_norm": 0.7276841998100281,
      "learning_rate": 2.5002827444200543e-06,
      "loss": 1.4605,
      "mean_token_accuracy": 0.6557506322860718,
      "num_tokens": 2738725295.0,
      "step": 16324
    },
    {
      "entropy": 1.6508471469084423,
      "epoch": 1.7933866139353491,
      "grad_norm": 0.7069340944290161,
      "learning_rate": 2.4997564896397015e-06,
      "loss": 1.3199,
      "mean_token_accuracy": 0.6781076391537985,
      "num_tokens": 2738874111.0,
      "step": 16325
    },
    {
      "entropy": 1.6659562587738037,
      "epoch": 1.7934964708467223,
      "grad_norm": 0.7840026617050171,
      "learning_rate": 2.4992305038882266e-06,
      "loss": 1.3742,
      "mean_token_accuracy": 0.6697394450505575,
      "num_tokens": 2739010468.0,
      "step": 16326
    },
    {
      "entropy": 1.7727423111597698,
      "epoch": 1.793606327758095,
      "grad_norm": 1.009763240814209,
      "learning_rate": 2.4987047871822756e-06,
      "loss": 1.4287,
      "mean_token_accuracy": 0.6506382723649343,
      "num_tokens": 2739200522.0,
      "step": 16327
    },
    {
      "entropy": 1.6970455447832744,
      "epoch": 1.793716184669468,
      "grad_norm": 0.6676150560379028,
      "learning_rate": 2.498179339538487e-06,
      "loss": 1.4482,
      "mean_token_accuracy": 0.6354714632034302,
      "num_tokens": 2739401660.0,
      "step": 16328
    },
    {
      "entropy": 1.6591151058673859,
      "epoch": 1.793826041580841,
      "grad_norm": 0.8759251832962036,
      "learning_rate": 2.497654160973493e-06,
      "loss": 1.4139,
      "mean_token_accuracy": 0.6550566603740057,
      "num_tokens": 2739573508.0,
      "step": 16329
    },
    {
      "entropy": 1.7104254464308422,
      "epoch": 1.7939358984922138,
      "grad_norm": 0.6900741457939148,
      "learning_rate": 2.4971292515039106e-06,
      "loss": 1.4752,
      "mean_token_accuracy": 0.6559490313132604,
      "num_tokens": 2739757627.0,
      "step": 16330
    },
    {
      "entropy": 1.6923480729262035,
      "epoch": 1.794045755403587,
      "grad_norm": 0.7489110231399536,
      "learning_rate": 2.496604611146358e-06,
      "loss": 1.3643,
      "mean_token_accuracy": 0.6735963573058447,
      "num_tokens": 2739932452.0,
      "step": 16331
    },
    {
      "entropy": 1.6965441604455311,
      "epoch": 1.7941556123149598,
      "grad_norm": 0.7722020149230957,
      "learning_rate": 2.4960802399174376e-06,
      "loss": 1.1919,
      "mean_token_accuracy": 0.6849365482727686,
      "num_tokens": 2740045892.0,
      "step": 16332
    },
    {
      "entropy": 1.7439928154150646,
      "epoch": 1.7942654692263327,
      "grad_norm": 0.6960392594337463,
      "learning_rate": 2.4955561378337446e-06,
      "loss": 1.4115,
      "mean_token_accuracy": 0.6489661236604055,
      "num_tokens": 2740166797.0,
      "step": 16333
    },
    {
      "entropy": 1.6369553208351135,
      "epoch": 1.7943753261377058,
      "grad_norm": 0.5748756527900696,
      "learning_rate": 2.4950323049118684e-06,
      "loss": 1.3669,
      "mean_token_accuracy": 0.6603866517543793,
      "num_tokens": 2740395498.0,
      "step": 16334
    },
    {
      "entropy": 1.6582307914892833,
      "epoch": 1.7944851830490784,
      "grad_norm": 0.8305114507675171,
      "learning_rate": 2.494508741168388e-06,
      "loss": 1.414,
      "mean_token_accuracy": 0.6532878627379736,
      "num_tokens": 2740586934.0,
      "step": 16335
    },
    {
      "entropy": 1.7147388954957326,
      "epoch": 1.7945950399604516,
      "grad_norm": 0.7109110355377197,
      "learning_rate": 2.493985446619872e-06,
      "loss": 1.5826,
      "mean_token_accuracy": 0.6403073569138845,
      "num_tokens": 2740834396.0,
      "step": 16336
    },
    {
      "entropy": 1.6089663604895275,
      "epoch": 1.7947048968718244,
      "grad_norm": 0.6663435101509094,
      "learning_rate": 2.493462421282884e-06,
      "loss": 1.3889,
      "mean_token_accuracy": 0.6556515793005625,
      "num_tokens": 2741006779.0,
      "step": 16337
    },
    {
      "entropy": 1.676442285378774,
      "epoch": 1.7948147537831973,
      "grad_norm": 0.6819809675216675,
      "learning_rate": 2.4929396651739773e-06,
      "loss": 1.3259,
      "mean_token_accuracy": 0.6694385011990865,
      "num_tokens": 2741114771.0,
      "step": 16338
    },
    {
      "entropy": 1.6962731381257374,
      "epoch": 1.7949246106945704,
      "grad_norm": 0.7554741501808167,
      "learning_rate": 2.492417178309697e-06,
      "loss": 1.3638,
      "mean_token_accuracy": 0.659926618138949,
      "num_tokens": 2741261871.0,
      "step": 16339
    },
    {
      "entropy": 1.6720819075902302,
      "epoch": 1.795034467605943,
      "grad_norm": 0.6029784083366394,
      "learning_rate": 2.491894960706579e-06,
      "loss": 1.3433,
      "mean_token_accuracy": 0.665259430805842,
      "num_tokens": 2741445707.0,
      "step": 16340
    },
    {
      "entropy": 1.7332893908023834,
      "epoch": 1.7951443245173162,
      "grad_norm": 0.6843107342720032,
      "learning_rate": 2.4913730123811525e-06,
      "loss": 1.5745,
      "mean_token_accuracy": 0.6281691541274389,
      "num_tokens": 2741632351.0,
      "step": 16341
    },
    {
      "entropy": 1.6098364094893138,
      "epoch": 1.795254181428689,
      "grad_norm": 0.6576522588729858,
      "learning_rate": 2.4908513333499353e-06,
      "loss": 1.1807,
      "mean_token_accuracy": 0.6885288804769516,
      "num_tokens": 2741787954.0,
      "step": 16342
    },
    {
      "entropy": 1.7071658372879028,
      "epoch": 1.795364038340062,
      "grad_norm": 0.6134920716285706,
      "learning_rate": 2.4903299236294394e-06,
      "loss": 1.4462,
      "mean_token_accuracy": 0.6478994737068812,
      "num_tokens": 2741949788.0,
      "step": 16343
    },
    {
      "entropy": 1.7075544893741608,
      "epoch": 1.795473895251435,
      "grad_norm": 0.713398814201355,
      "learning_rate": 2.489808783236168e-06,
      "loss": 1.3601,
      "mean_token_accuracy": 0.6593527148167292,
      "num_tokens": 2742099407.0,
      "step": 16344
    },
    {
      "entropy": 1.6858652830123901,
      "epoch": 1.795583752162808,
      "grad_norm": 0.8232229351997375,
      "learning_rate": 2.4892879121866113e-06,
      "loss": 1.2947,
      "mean_token_accuracy": 0.667354146639506,
      "num_tokens": 2742230304.0,
      "step": 16345
    },
    {
      "entropy": 1.6845860878626506,
      "epoch": 1.7956936090741809,
      "grad_norm": 0.7478837966918945,
      "learning_rate": 2.4887673104972583e-06,
      "loss": 1.2776,
      "mean_token_accuracy": 0.6781817525625229,
      "num_tokens": 2742369127.0,
      "step": 16346
    },
    {
      "entropy": 1.7888353765010834,
      "epoch": 1.795803465985554,
      "grad_norm": 0.6277621984481812,
      "learning_rate": 2.4882469781845847e-06,
      "loss": 1.4691,
      "mean_token_accuracy": 0.6437779317299525,
      "num_tokens": 2742578400.0,
      "step": 16347
    },
    {
      "entropy": 1.755648523569107,
      "epoch": 1.7959133228969266,
      "grad_norm": 0.6520666480064392,
      "learning_rate": 2.4877269152650597e-06,
      "loss": 1.3963,
      "mean_token_accuracy": 0.6472931802272797,
      "num_tokens": 2742753222.0,
      "step": 16348
    },
    {
      "entropy": 1.733013888200124,
      "epoch": 1.7960231798082997,
      "grad_norm": 0.7249704599380493,
      "learning_rate": 2.4872071217551404e-06,
      "loss": 1.4501,
      "mean_token_accuracy": 0.6556122601032257,
      "num_tokens": 2742928454.0,
      "step": 16349
    },
    {
      "entropy": 1.7438992460568745,
      "epoch": 1.7961330367196726,
      "grad_norm": 0.6250995397567749,
      "learning_rate": 2.4866875976712813e-06,
      "loss": 1.4395,
      "mean_token_accuracy": 0.6565362215042114,
      "num_tokens": 2743122316.0,
      "step": 16350
    },
    {
      "entropy": 1.620346486568451,
      "epoch": 1.7962428936310455,
      "grad_norm": 0.673563539981842,
      "learning_rate": 2.4861683430299236e-06,
      "loss": 1.4165,
      "mean_token_accuracy": 0.6502549201250076,
      "num_tokens": 2743314494.0,
      "step": 16351
    },
    {
      "entropy": 1.7250482241312664,
      "epoch": 1.7963527505424186,
      "grad_norm": 0.7625929117202759,
      "learning_rate": 2.4856493578475003e-06,
      "loss": 1.4833,
      "mean_token_accuracy": 0.6498374988635381,
      "num_tokens": 2743438742.0,
      "step": 16352
    },
    {
      "entropy": 1.7725351254145305,
      "epoch": 1.7964626074537913,
      "grad_norm": 0.7012255191802979,
      "learning_rate": 2.485130642140439e-06,
      "loss": 1.3361,
      "mean_token_accuracy": 0.6614055832227071,
      "num_tokens": 2743573991.0,
      "step": 16353
    },
    {
      "entropy": 1.677201271057129,
      "epoch": 1.7965724643651644,
      "grad_norm": 0.7226030230522156,
      "learning_rate": 2.484612195925154e-06,
      "loss": 1.3256,
      "mean_token_accuracy": 0.665013333161672,
      "num_tokens": 2743742342.0,
      "step": 16354
    },
    {
      "entropy": 1.7017574906349182,
      "epoch": 1.7966823212765373,
      "grad_norm": 0.6619887948036194,
      "learning_rate": 2.4840940192180585e-06,
      "loss": 1.4644,
      "mean_token_accuracy": 0.6368465920289358,
      "num_tokens": 2743926810.0,
      "step": 16355
    },
    {
      "entropy": 1.762619137763977,
      "epoch": 1.7967921781879101,
      "grad_norm": 1.3564014434814453,
      "learning_rate": 2.4835761120355495e-06,
      "loss": 1.2873,
      "mean_token_accuracy": 0.669828325510025,
      "num_tokens": 2744051036.0,
      "step": 16356
    },
    {
      "entropy": 1.7027521828810375,
      "epoch": 1.7969020350992833,
      "grad_norm": 0.597287654876709,
      "learning_rate": 2.4830584743940176e-06,
      "loss": 1.4155,
      "mean_token_accuracy": 0.6454381992419561,
      "num_tokens": 2744217006.0,
      "step": 16357
    },
    {
      "entropy": 1.7219856878121693,
      "epoch": 1.7970118920106561,
      "grad_norm": 0.6755548119544983,
      "learning_rate": 2.4825411063098465e-06,
      "loss": 1.5516,
      "mean_token_accuracy": 0.6386887629826864,
      "num_tokens": 2744493689.0,
      "step": 16358
    },
    {
      "entropy": 1.7195583780606587,
      "epoch": 1.797121748922029,
      "grad_norm": 0.7201851010322571,
      "learning_rate": 2.482024007799414e-06,
      "loss": 1.3217,
      "mean_token_accuracy": 0.661146675546964,
      "num_tokens": 2744632436.0,
      "step": 16359
    },
    {
      "entropy": 1.6850773394107819,
      "epoch": 1.7972316058334021,
      "grad_norm": 0.5701948404312134,
      "learning_rate": 2.4815071788790824e-06,
      "loss": 1.3307,
      "mean_token_accuracy": 0.6748195836941401,
      "num_tokens": 2744877316.0,
      "step": 16360
    },
    {
      "entropy": 1.7464614311854045,
      "epoch": 1.7973414627447748,
      "grad_norm": 0.8613492250442505,
      "learning_rate": 2.480990619565209e-06,
      "loss": 1.4267,
      "mean_token_accuracy": 0.6546533902486166,
      "num_tokens": 2745013143.0,
      "step": 16361
    },
    {
      "entropy": 1.738052507241567,
      "epoch": 1.797451319656148,
      "grad_norm": 0.6792759895324707,
      "learning_rate": 2.480474329874146e-06,
      "loss": 1.4118,
      "mean_token_accuracy": 0.657256638010343,
      "num_tokens": 2745174814.0,
      "step": 16362
    },
    {
      "entropy": 1.6887112458546956,
      "epoch": 1.7975611765675208,
      "grad_norm": 0.6691803932189941,
      "learning_rate": 2.4799583098222295e-06,
      "loss": 1.4631,
      "mean_token_accuracy": 0.6501191159089407,
      "num_tokens": 2745325641.0,
      "step": 16363
    },
    {
      "entropy": 1.7012372314929962,
      "epoch": 1.7976710334788937,
      "grad_norm": 0.6485432386398315,
      "learning_rate": 2.479442559425793e-06,
      "loss": 1.2735,
      "mean_token_accuracy": 0.6670918663342794,
      "num_tokens": 2745439047.0,
      "step": 16364
    },
    {
      "entropy": 1.7309893469015758,
      "epoch": 1.7977808903902668,
      "grad_norm": 0.8326260447502136,
      "learning_rate": 2.4789270787011615e-06,
      "loss": 1.3052,
      "mean_token_accuracy": 0.6672724187374115,
      "num_tokens": 2745546360.0,
      "step": 16365
    },
    {
      "entropy": 1.7189862628777821,
      "epoch": 1.7978907473016397,
      "grad_norm": 0.7580441236495972,
      "learning_rate": 2.4784118676646467e-06,
      "loss": 1.3881,
      "mean_token_accuracy": 0.6678448468446732,
      "num_tokens": 2745732348.0,
      "step": 16366
    },
    {
      "entropy": 1.6766027708848317,
      "epoch": 1.7980006042130126,
      "grad_norm": 0.6480311155319214,
      "learning_rate": 2.477896926332558e-06,
      "loss": 1.4681,
      "mean_token_accuracy": 0.6425887246926626,
      "num_tokens": 2745921764.0,
      "step": 16367
    },
    {
      "entropy": 1.6788609822591145,
      "epoch": 1.7981104611243854,
      "grad_norm": 0.6684360504150391,
      "learning_rate": 2.477382254721191e-06,
      "loss": 1.4321,
      "mean_token_accuracy": 0.6493734816710154,
      "num_tokens": 2746126329.0,
      "step": 16368
    },
    {
      "entropy": 1.766765018304189,
      "epoch": 1.7982203180357583,
      "grad_norm": 0.784034788608551,
      "learning_rate": 2.4768678528468345e-06,
      "loss": 1.4098,
      "mean_token_accuracy": 0.6438094178835551,
      "num_tokens": 2746279905.0,
      "step": 16369
    },
    {
      "entropy": 1.696258048216502,
      "epoch": 1.7983301749471314,
      "grad_norm": 0.6454617977142334,
      "learning_rate": 2.476353720725771e-06,
      "loss": 1.3864,
      "mean_token_accuracy": 0.6533452222744623,
      "num_tokens": 2746468173.0,
      "step": 16370
    },
    {
      "entropy": 1.684233695268631,
      "epoch": 1.7984400318585043,
      "grad_norm": 0.8708049654960632,
      "learning_rate": 2.475839858374269e-06,
      "loss": 1.3214,
      "mean_token_accuracy": 0.6717989295721054,
      "num_tokens": 2746606416.0,
      "step": 16371
    },
    {
      "entropy": 1.6811311642328899,
      "epoch": 1.7985498887698772,
      "grad_norm": 0.5873830914497375,
      "learning_rate": 2.475326265808597e-06,
      "loss": 1.3903,
      "mean_token_accuracy": 0.6625532309214274,
      "num_tokens": 2746825476.0,
      "step": 16372
    },
    {
      "entropy": 1.6943085193634033,
      "epoch": 1.7986597456812503,
      "grad_norm": 0.6107808351516724,
      "learning_rate": 2.474812943045007e-06,
      "loss": 1.3958,
      "mean_token_accuracy": 0.6486289997895559,
      "num_tokens": 2747042577.0,
      "step": 16373
    },
    {
      "entropy": 1.6802096863587697,
      "epoch": 1.798769602592623,
      "grad_norm": 0.6949267387390137,
      "learning_rate": 2.474299890099744e-06,
      "loss": 1.3366,
      "mean_token_accuracy": 0.6724252700805664,
      "num_tokens": 2747184615.0,
      "step": 16374
    },
    {
      "entropy": 1.7157519956429799,
      "epoch": 1.798879459503996,
      "grad_norm": 0.7292264103889465,
      "learning_rate": 2.47378710698905e-06,
      "loss": 1.2698,
      "mean_token_accuracy": 0.671657994389534,
      "num_tokens": 2747306579.0,
      "step": 16375
    },
    {
      "entropy": 1.7131900389989216,
      "epoch": 1.798989316415369,
      "grad_norm": 0.750167727470398,
      "learning_rate": 2.4732745937291515e-06,
      "loss": 1.3823,
      "mean_token_accuracy": 0.6537191818157831,
      "num_tokens": 2747456528.0,
      "step": 16376
    },
    {
      "entropy": 1.6936882932980855,
      "epoch": 1.7990991733267419,
      "grad_norm": 0.709400475025177,
      "learning_rate": 2.4727623503362686e-06,
      "loss": 1.3456,
      "mean_token_accuracy": 0.6595764954884847,
      "num_tokens": 2747582462.0,
      "step": 16377
    },
    {
      "entropy": 1.7834466397762299,
      "epoch": 1.799209030238115,
      "grad_norm": 0.7460691928863525,
      "learning_rate": 2.4722503768266144e-06,
      "loss": 1.4517,
      "mean_token_accuracy": 0.6345730274915695,
      "num_tokens": 2747760658.0,
      "step": 16378
    },
    {
      "entropy": 1.6861862341562908,
      "epoch": 1.7993188871494878,
      "grad_norm": 0.6694313287734985,
      "learning_rate": 2.4717386732163953e-06,
      "loss": 1.3049,
      "mean_token_accuracy": 0.66120112935702,
      "num_tokens": 2747884938.0,
      "step": 16379
    },
    {
      "entropy": 1.715090274810791,
      "epoch": 1.7994287440608607,
      "grad_norm": 0.6291208267211914,
      "learning_rate": 2.471227239521804e-06,
      "loss": 1.3891,
      "mean_token_accuracy": 0.6506547033786774,
      "num_tokens": 2748086682.0,
      "step": 16380
    },
    {
      "entropy": 1.6372637848059337,
      "epoch": 1.7995386009722336,
      "grad_norm": 0.6571980714797974,
      "learning_rate": 2.4707160757590253e-06,
      "loss": 1.2591,
      "mean_token_accuracy": 0.6797957370678583,
      "num_tokens": 2748239953.0,
      "step": 16381
    },
    {
      "entropy": 1.7329098383585613,
      "epoch": 1.7996484578836065,
      "grad_norm": 0.67576664686203,
      "learning_rate": 2.470205181944242e-06,
      "loss": 1.6271,
      "mean_token_accuracy": 0.6063709209362665,
      "num_tokens": 2748496615.0,
      "step": 16382
    },
    {
      "entropy": 1.7593752145767212,
      "epoch": 1.7997583147949796,
      "grad_norm": 0.6144885420799255,
      "learning_rate": 2.469694558093618e-06,
      "loss": 1.4584,
      "mean_token_accuracy": 0.6472984254360199,
      "num_tokens": 2748757893.0,
      "step": 16383
    },
    {
      "entropy": 1.760807067155838,
      "epoch": 1.7998681717063525,
      "grad_norm": 109.00904083251953,
      "learning_rate": 2.469184204223321e-06,
      "loss": 1.6694,
      "mean_token_accuracy": 0.6406611104806265,
      "num_tokens": 2748996769.0,
      "step": 16384
    },
    {
      "entropy": 1.6700663566589355,
      "epoch": 1.7999780286177254,
      "grad_norm": 0.6122145652770996,
      "learning_rate": 2.4686741203494976e-06,
      "loss": 1.339,
      "mean_token_accuracy": 0.6703683187564214,
      "num_tokens": 2749191720.0,
      "step": 16385
    },
    {
      "entropy": 1.6805997391541798,
      "epoch": 1.8000878855290985,
      "grad_norm": 0.6632294058799744,
      "learning_rate": 2.468164306488295e-06,
      "loss": 1.3269,
      "mean_token_accuracy": 0.6549940158923467,
      "num_tokens": 2749342736.0,
      "step": 16386
    },
    {
      "entropy": 1.7235978146394093,
      "epoch": 1.8001977424404711,
      "grad_norm": 0.6988422870635986,
      "learning_rate": 2.467654762655847e-06,
      "loss": 1.3662,
      "mean_token_accuracy": 0.6608254263798395,
      "num_tokens": 2749463576.0,
      "step": 16387
    },
    {
      "entropy": 1.73094642162323,
      "epoch": 1.8003075993518443,
      "grad_norm": 0.7575457096099854,
      "learning_rate": 2.467145488868281e-06,
      "loss": 1.4601,
      "mean_token_accuracy": 0.6553111871083578,
      "num_tokens": 2749630135.0,
      "step": 16388
    },
    {
      "entropy": 1.700294444958369,
      "epoch": 1.8004174562632171,
      "grad_norm": 0.6070172190666199,
      "learning_rate": 2.4666364851417153e-06,
      "loss": 1.5017,
      "mean_token_accuracy": 0.6433312793572744,
      "num_tokens": 2749851486.0,
      "step": 16389
    },
    {
      "entropy": 1.7130950689315796,
      "epoch": 1.80052731317459,
      "grad_norm": 0.7260795831680298,
      "learning_rate": 2.4661277514922587e-06,
      "loss": 1.3681,
      "mean_token_accuracy": 0.650189533829689,
      "num_tokens": 2750035261.0,
      "step": 16390
    },
    {
      "entropy": 1.700755516688029,
      "epoch": 1.8006371700859631,
      "grad_norm": 0.7316020131111145,
      "learning_rate": 2.4656192879360145e-06,
      "loss": 1.4561,
      "mean_token_accuracy": 0.6599542399247488,
      "num_tokens": 2750188972.0,
      "step": 16391
    },
    {
      "entropy": 1.6893901228904724,
      "epoch": 1.800747026997336,
      "grad_norm": 0.7152737975120544,
      "learning_rate": 2.465111094489074e-06,
      "loss": 1.2815,
      "mean_token_accuracy": 0.6717756688594818,
      "num_tokens": 2750332850.0,
      "step": 16392
    },
    {
      "entropy": 1.7034862637519836,
      "epoch": 1.800856883908709,
      "grad_norm": 0.6364946365356445,
      "learning_rate": 2.464603171167521e-06,
      "loss": 1.4426,
      "mean_token_accuracy": 0.6520007997751236,
      "num_tokens": 2750560589.0,
      "step": 16393
    },
    {
      "entropy": 1.6827989121278126,
      "epoch": 1.8009667408200818,
      "grad_norm": 0.6871801614761353,
      "learning_rate": 2.4640955179874333e-06,
      "loss": 1.2716,
      "mean_token_accuracy": 0.6799880017836889,
      "num_tokens": 2750726349.0,
      "step": 16394
    },
    {
      "entropy": 1.729516049226125,
      "epoch": 1.8010765977314547,
      "grad_norm": 0.7461774349212646,
      "learning_rate": 2.4635881349648734e-06,
      "loss": 1.4294,
      "mean_token_accuracy": 0.6584520041942596,
      "num_tokens": 2750898613.0,
      "step": 16395
    },
    {
      "entropy": 1.6981934209664662,
      "epoch": 1.8011864546428278,
      "grad_norm": 0.6527087688446045,
      "learning_rate": 2.4630810221159043e-06,
      "loss": 1.3578,
      "mean_token_accuracy": 0.6532334089279175,
      "num_tokens": 2751050794.0,
      "step": 16396
    },
    {
      "entropy": 1.7621082564194996,
      "epoch": 1.8012963115542007,
      "grad_norm": 0.6884635090827942,
      "learning_rate": 2.462574179456574e-06,
      "loss": 1.4785,
      "mean_token_accuracy": 0.6381318867206573,
      "num_tokens": 2751240455.0,
      "step": 16397
    },
    {
      "entropy": 1.6867110133171082,
      "epoch": 1.8014061684655736,
      "grad_norm": 0.5808276534080505,
      "learning_rate": 2.4620676070029223e-06,
      "loss": 1.4725,
      "mean_token_accuracy": 0.651040847102801,
      "num_tokens": 2751419542.0,
      "step": 16398
    },
    {
      "entropy": 1.6382981638113658,
      "epoch": 1.8015160253769467,
      "grad_norm": 0.5899358987808228,
      "learning_rate": 2.4615613047709847e-06,
      "loss": 1.3374,
      "mean_token_accuracy": 0.660874272386233,
      "num_tokens": 2751603980.0,
      "step": 16399
    },
    {
      "entropy": 1.7465067307154338,
      "epoch": 1.8016258822883193,
      "grad_norm": 0.700994610786438,
      "learning_rate": 2.4610552727767843e-06,
      "loss": 1.5425,
      "mean_token_accuracy": 0.6477147589127222,
      "num_tokens": 2751812703.0,
      "step": 16400
    },
    {
      "entropy": 1.6795567174752553,
      "epoch": 1.8017357391996924,
      "grad_norm": 0.6919041872024536,
      "learning_rate": 2.4605495110363366e-06,
      "loss": 1.4238,
      "mean_token_accuracy": 0.6519719262917837,
      "num_tokens": 2751984688.0,
      "step": 16401
    },
    {
      "entropy": 1.8034850259621937,
      "epoch": 1.8018455961110653,
      "grad_norm": 0.8304495215415955,
      "learning_rate": 2.4600440195656476e-06,
      "loss": 1.3008,
      "mean_token_accuracy": 0.6683735996484756,
      "num_tokens": 2752123752.0,
      "step": 16402
    },
    {
      "entropy": 1.7134062051773071,
      "epoch": 1.8019554530224382,
      "grad_norm": 0.668536901473999,
      "learning_rate": 2.459538798380719e-06,
      "loss": 1.3065,
      "mean_token_accuracy": 0.6793159395456314,
      "num_tokens": 2752275099.0,
      "step": 16403
    },
    {
      "entropy": 1.6386187970638275,
      "epoch": 1.8020653099338113,
      "grad_norm": 0.69599449634552,
      "learning_rate": 2.4590338474975397e-06,
      "loss": 1.3571,
      "mean_token_accuracy": 0.6669880499442419,
      "num_tokens": 2752404359.0,
      "step": 16404
    },
    {
      "entropy": 1.7862418989340465,
      "epoch": 1.8021751668451842,
      "grad_norm": 0.7669715881347656,
      "learning_rate": 2.4585291669320877e-06,
      "loss": 1.3221,
      "mean_token_accuracy": 0.6571997304757436,
      "num_tokens": 2752532453.0,
      "step": 16405
    },
    {
      "entropy": 1.6611520648002625,
      "epoch": 1.802285023756557,
      "grad_norm": 0.8591197729110718,
      "learning_rate": 2.458024756700341e-06,
      "loss": 1.2213,
      "mean_token_accuracy": 0.6755464772383372,
      "num_tokens": 2752670377.0,
      "step": 16406
    },
    {
      "entropy": 1.7248308161894481,
      "epoch": 1.80239488066793,
      "grad_norm": 0.7357346415519714,
      "learning_rate": 2.4575206168182605e-06,
      "loss": 1.4571,
      "mean_token_accuracy": 0.6435425728559494,
      "num_tokens": 2752869097.0,
      "step": 16407
    },
    {
      "entropy": 1.7167830963929493,
      "epoch": 1.8025047375793029,
      "grad_norm": 0.690274178981781,
      "learning_rate": 2.457016747301804e-06,
      "loss": 1.3364,
      "mean_token_accuracy": 0.662845383087794,
      "num_tokens": 2753007646.0,
      "step": 16408
    },
    {
      "entropy": 1.8022632400194805,
      "epoch": 1.802614594490676,
      "grad_norm": 0.8202261328697205,
      "learning_rate": 2.4565131481669175e-06,
      "loss": 1.3481,
      "mean_token_accuracy": 0.6701598316431046,
      "num_tokens": 2753123586.0,
      "step": 16409
    },
    {
      "entropy": 1.6932842234770458,
      "epoch": 1.8027244514020488,
      "grad_norm": 0.733900249004364,
      "learning_rate": 2.4560098194295397e-06,
      "loss": 1.4256,
      "mean_token_accuracy": 0.6689083476861318,
      "num_tokens": 2753287054.0,
      "step": 16410
    },
    {
      "entropy": 1.750009814898173,
      "epoch": 1.8028343083134217,
      "grad_norm": 0.7286418676376343,
      "learning_rate": 2.455506761105601e-06,
      "loss": 1.5902,
      "mean_token_accuracy": 0.6424010594685873,
      "num_tokens": 2753491319.0,
      "step": 16411
    },
    {
      "entropy": 1.6446313957373302,
      "epoch": 1.8029441652247948,
      "grad_norm": 0.7561642527580261,
      "learning_rate": 2.455003973211025e-06,
      "loss": 1.4449,
      "mean_token_accuracy": 0.6605862602591515,
      "num_tokens": 2753684199.0,
      "step": 16412
    },
    {
      "entropy": 1.7904584010442097,
      "epoch": 1.8030540221361675,
      "grad_norm": 0.7615606188774109,
      "learning_rate": 2.4545014557617205e-06,
      "loss": 1.4292,
      "mean_token_accuracy": 0.6448209335406622,
      "num_tokens": 2753848636.0,
      "step": 16413
    },
    {
      "entropy": 1.7027158041795094,
      "epoch": 1.8031638790475406,
      "grad_norm": 0.7243815660476685,
      "learning_rate": 2.4539992087735937e-06,
      "loss": 1.2719,
      "mean_token_accuracy": 0.6721286574999491,
      "num_tokens": 2753989493.0,
      "step": 16414
    },
    {
      "entropy": 1.6345816453297932,
      "epoch": 1.8032737359589135,
      "grad_norm": 0.6394364833831787,
      "learning_rate": 2.4534972322625434e-06,
      "loss": 1.3012,
      "mean_token_accuracy": 0.670843780040741,
      "num_tokens": 2754145938.0,
      "step": 16415
    },
    {
      "entropy": 1.710991491874059,
      "epoch": 1.8033835928702864,
      "grad_norm": 0.8464189171791077,
      "learning_rate": 2.4529955262444534e-06,
      "loss": 1.427,
      "mean_token_accuracy": 0.6431051045656204,
      "num_tokens": 2754279254.0,
      "step": 16416
    },
    {
      "entropy": 1.6918781101703644,
      "epoch": 1.8034934497816595,
      "grad_norm": 0.7020459771156311,
      "learning_rate": 2.4524940907352028e-06,
      "loss": 1.3814,
      "mean_token_accuracy": 0.6550219456354777,
      "num_tokens": 2754413658.0,
      "step": 16417
    },
    {
      "entropy": 1.653142919143041,
      "epoch": 1.8036033066930324,
      "grad_norm": 0.6922260522842407,
      "learning_rate": 2.4519929257506644e-06,
      "loss": 1.2536,
      "mean_token_accuracy": 0.681772361199061,
      "num_tokens": 2754595362.0,
      "step": 16418
    },
    {
      "entropy": 1.7180135349432628,
      "epoch": 1.8037131636044053,
      "grad_norm": 0.6518612504005432,
      "learning_rate": 2.4514920313066972e-06,
      "loss": 1.4934,
      "mean_token_accuracy": 0.6491179863611857,
      "num_tokens": 2754770348.0,
      "step": 16419
    },
    {
      "entropy": 1.646272877852122,
      "epoch": 1.8038230205157784,
      "grad_norm": 0.9592717885971069,
      "learning_rate": 2.4509914074191544e-06,
      "loss": 1.2443,
      "mean_token_accuracy": 0.6764777451753616,
      "num_tokens": 2754908323.0,
      "step": 16420
    },
    {
      "entropy": 1.7484492460886638,
      "epoch": 1.803932877427151,
      "grad_norm": 0.6856718063354492,
      "learning_rate": 2.450491054103883e-06,
      "loss": 1.338,
      "mean_token_accuracy": 0.6600681195656458,
      "num_tokens": 2755054083.0,
      "step": 16421
    },
    {
      "entropy": 1.6522502601146698,
      "epoch": 1.8040427343385241,
      "grad_norm": 0.5855985283851624,
      "learning_rate": 2.4499909713767156e-06,
      "loss": 1.3849,
      "mean_token_accuracy": 0.6528994540373484,
      "num_tokens": 2755261170.0,
      "step": 16422
    },
    {
      "entropy": 1.742342193921407,
      "epoch": 1.804152591249897,
      "grad_norm": 0.6841393113136292,
      "learning_rate": 2.4494911592534825e-06,
      "loss": 1.3531,
      "mean_token_accuracy": 0.6608762443065643,
      "num_tokens": 2755430970.0,
      "step": 16423
    },
    {
      "entropy": 1.7070422967274983,
      "epoch": 1.80426244816127,
      "grad_norm": 0.7020707726478577,
      "learning_rate": 2.4489916177500013e-06,
      "loss": 1.402,
      "mean_token_accuracy": 0.6581531713406245,
      "num_tokens": 2755580117.0,
      "step": 16424
    },
    {
      "entropy": 1.6086894969145458,
      "epoch": 1.804372305072643,
      "grad_norm": 0.7450229525566101,
      "learning_rate": 2.4484923468820805e-06,
      "loss": 1.4186,
      "mean_token_accuracy": 0.6774997810522715,
      "num_tokens": 2755722550.0,
      "step": 16425
    },
    {
      "entropy": 1.629365513722102,
      "epoch": 1.8044821619840157,
      "grad_norm": 0.5438582897186279,
      "learning_rate": 2.447993346665523e-06,
      "loss": 1.3446,
      "mean_token_accuracy": 0.6634021550416946,
      "num_tokens": 2755920382.0,
      "step": 16426
    },
    {
      "entropy": 1.6984173556168873,
      "epoch": 1.8045920188953888,
      "grad_norm": 0.6832945346832275,
      "learning_rate": 2.447494617116126e-06,
      "loss": 1.2979,
      "mean_token_accuracy": 0.66312904159228,
      "num_tokens": 2756073656.0,
      "step": 16427
    },
    {
      "entropy": 1.6762990454832714,
      "epoch": 1.8047018758067617,
      "grad_norm": 0.5510643124580383,
      "learning_rate": 2.4469961582496683e-06,
      "loss": 1.3274,
      "mean_token_accuracy": 0.6577611863613129,
      "num_tokens": 2756260540.0,
      "step": 16428
    },
    {
      "entropy": 1.7335613071918488,
      "epoch": 1.8048117327181346,
      "grad_norm": 0.6928039193153381,
      "learning_rate": 2.446497970081928e-06,
      "loss": 1.4443,
      "mean_token_accuracy": 0.6604134688774744,
      "num_tokens": 2756393501.0,
      "step": 16429
    },
    {
      "entropy": 1.7227633396784465,
      "epoch": 1.8049215896295077,
      "grad_norm": 0.6674528121948242,
      "learning_rate": 2.4460000526286727e-06,
      "loss": 1.3792,
      "mean_token_accuracy": 0.6571878095467886,
      "num_tokens": 2756561165.0,
      "step": 16430
    },
    {
      "entropy": 1.6204917430877686,
      "epoch": 1.8050314465408805,
      "grad_norm": 0.6645229458808899,
      "learning_rate": 2.4455024059056627e-06,
      "loss": 1.4276,
      "mean_token_accuracy": 0.6697969138622284,
      "num_tokens": 2756764755.0,
      "step": 16431
    },
    {
      "entropy": 1.7642103830973308,
      "epoch": 1.8051413034522534,
      "grad_norm": 0.6755779385566711,
      "learning_rate": 2.4450050299286452e-06,
      "loss": 1.3912,
      "mean_token_accuracy": 0.6555102616548538,
      "num_tokens": 2756901089.0,
      "step": 16432
    },
    {
      "entropy": 1.7875695725282033,
      "epoch": 1.8052511603636265,
      "grad_norm": 0.6372548341751099,
      "learning_rate": 2.444507924713364e-06,
      "loss": 1.3773,
      "mean_token_accuracy": 0.6585378497838974,
      "num_tokens": 2757036878.0,
      "step": 16433
    },
    {
      "entropy": 1.726793756087621,
      "epoch": 1.8053610172749992,
      "grad_norm": 0.6793131828308105,
      "learning_rate": 2.4440110902755513e-06,
      "loss": 1.3715,
      "mean_token_accuracy": 0.6532783309618632,
      "num_tokens": 2757170150.0,
      "step": 16434
    },
    {
      "entropy": 1.7632285555203755,
      "epoch": 1.8054708741863723,
      "grad_norm": 0.6790938973426819,
      "learning_rate": 2.443514526630933e-06,
      "loss": 1.3588,
      "mean_token_accuracy": 0.6496838182210922,
      "num_tokens": 2757309818.0,
      "step": 16435
    },
    {
      "entropy": 1.6782483259836833,
      "epoch": 1.8055807310977452,
      "grad_norm": 0.6445368528366089,
      "learning_rate": 2.4430182337952247e-06,
      "loss": 1.4392,
      "mean_token_accuracy": 0.6515261183182398,
      "num_tokens": 2757486240.0,
      "step": 16436
    },
    {
      "entropy": 1.6433900197347004,
      "epoch": 1.805690588009118,
      "grad_norm": 0.6568174958229065,
      "learning_rate": 2.4425222117841315e-06,
      "loss": 1.2252,
      "mean_token_accuracy": 0.6834449718395869,
      "num_tokens": 2757602672.0,
      "step": 16437
    },
    {
      "entropy": 1.7270792822043102,
      "epoch": 1.8058004449204912,
      "grad_norm": 0.7385875582695007,
      "learning_rate": 2.4420264606133555e-06,
      "loss": 1.3364,
      "mean_token_accuracy": 0.6688449184099833,
      "num_tokens": 2757751042.0,
      "step": 16438
    },
    {
      "entropy": 1.6770341396331787,
      "epoch": 1.8059103018318639,
      "grad_norm": 0.7027744650840759,
      "learning_rate": 2.4415309802985854e-06,
      "loss": 1.2349,
      "mean_token_accuracy": 0.6747290591398875,
      "num_tokens": 2757876536.0,
      "step": 16439
    },
    {
      "entropy": 1.7311459481716156,
      "epoch": 1.806020158743237,
      "grad_norm": 0.8075997233390808,
      "learning_rate": 2.4410357708555032e-06,
      "loss": 1.2985,
      "mean_token_accuracy": 0.6764100193977356,
      "num_tokens": 2758041919.0,
      "step": 16440
    },
    {
      "entropy": 1.6318459411462147,
      "epoch": 1.8061300156546098,
      "grad_norm": 0.5902323126792908,
      "learning_rate": 2.440540832299783e-06,
      "loss": 1.3022,
      "mean_token_accuracy": 0.6714819123347601,
      "num_tokens": 2758217442.0,
      "step": 16441
    },
    {
      "entropy": 1.7181476652622223,
      "epoch": 1.8062398725659827,
      "grad_norm": 0.8379008769989014,
      "learning_rate": 2.440046164647087e-06,
      "loss": 1.4068,
      "mean_token_accuracy": 0.6589639882246653,
      "num_tokens": 2758376926.0,
      "step": 16442
    },
    {
      "entropy": 1.672847221295039,
      "epoch": 1.8063497294773558,
      "grad_norm": 0.7189886569976807,
      "learning_rate": 2.4395517679130744e-06,
      "loss": 1.3829,
      "mean_token_accuracy": 0.663548931479454,
      "num_tokens": 2758551062.0,
      "step": 16443
    },
    {
      "entropy": 1.7527056137720745,
      "epoch": 1.8064595863887287,
      "grad_norm": 0.8830350041389465,
      "learning_rate": 2.4390576421133897e-06,
      "loss": 1.4128,
      "mean_token_accuracy": 0.6445074528455734,
      "num_tokens": 2758717383.0,
      "step": 16444
    },
    {
      "entropy": 1.6904211342334747,
      "epoch": 1.8065694433001016,
      "grad_norm": 0.7606146931648254,
      "learning_rate": 2.438563787263673e-06,
      "loss": 1.4546,
      "mean_token_accuracy": 0.6546589334805807,
      "num_tokens": 2758926548.0,
      "step": 16445
    },
    {
      "entropy": 1.684679885705312,
      "epoch": 1.8066793002114747,
      "grad_norm": 0.7838829159736633,
      "learning_rate": 2.4380702033795538e-06,
      "loss": 1.487,
      "mean_token_accuracy": 0.6486780146757761,
      "num_tokens": 2759100149.0,
      "step": 16446
    },
    {
      "entropy": 1.677791029214859,
      "epoch": 1.8067891571228474,
      "grad_norm": 0.6367784738540649,
      "learning_rate": 2.4375768904766563e-06,
      "loss": 1.4016,
      "mean_token_accuracy": 0.6575369586547216,
      "num_tokens": 2759261585.0,
      "step": 16447
    },
    {
      "entropy": 1.7279250423113506,
      "epoch": 1.8068990140342205,
      "grad_norm": 0.6288533210754395,
      "learning_rate": 2.4370838485705912e-06,
      "loss": 1.2892,
      "mean_token_accuracy": 0.6716119796037674,
      "num_tokens": 2759451394.0,
      "step": 16448
    },
    {
      "entropy": 1.6070989569028218,
      "epoch": 1.8070088709455934,
      "grad_norm": 0.5549145936965942,
      "learning_rate": 2.4365910776769634e-06,
      "loss": 1.3516,
      "mean_token_accuracy": 0.664691095550855,
      "num_tokens": 2759635049.0,
      "step": 16449
    },
    {
      "entropy": 1.6843027174472809,
      "epoch": 1.8071187278569663,
      "grad_norm": 0.7729708552360535,
      "learning_rate": 2.4360985778113696e-06,
      "loss": 1.2723,
      "mean_token_accuracy": 0.6750624477863312,
      "num_tokens": 2759847889.0,
      "step": 16450
    },
    {
      "entropy": 1.6489692231019337,
      "epoch": 1.8072285847683394,
      "grad_norm": 0.6890325546264648,
      "learning_rate": 2.4356063489893965e-06,
      "loss": 1.237,
      "mean_token_accuracy": 0.6862647583087286,
      "num_tokens": 2759961504.0,
      "step": 16451
    },
    {
      "entropy": 1.7302868167559307,
      "epoch": 1.807338441679712,
      "grad_norm": 0.6730805039405823,
      "learning_rate": 2.4351143912266232e-06,
      "loss": 1.4087,
      "mean_token_accuracy": 0.6450496266285578,
      "num_tokens": 2760109714.0,
      "step": 16452
    },
    {
      "entropy": 1.669048676888148,
      "epoch": 1.8074482985910851,
      "grad_norm": 0.6048988699913025,
      "learning_rate": 2.4346227045386208e-06,
      "loss": 1.4418,
      "mean_token_accuracy": 0.6532367666562399,
      "num_tokens": 2760296549.0,
      "step": 16453
    },
    {
      "entropy": 1.7388107577959697,
      "epoch": 1.807558155502458,
      "grad_norm": 0.6559601426124573,
      "learning_rate": 2.4341312889409495e-06,
      "loss": 1.4325,
      "mean_token_accuracy": 0.6547484199206034,
      "num_tokens": 2760490979.0,
      "step": 16454
    },
    {
      "entropy": 1.6647444764773052,
      "epoch": 1.807668012413831,
      "grad_norm": 0.6734881401062012,
      "learning_rate": 2.433640144449164e-06,
      "loss": 1.2971,
      "mean_token_accuracy": 0.6663618286450704,
      "num_tokens": 2760650612.0,
      "step": 16455
    },
    {
      "entropy": 1.7663162350654602,
      "epoch": 1.807777869325204,
      "grad_norm": 0.7578223943710327,
      "learning_rate": 2.433149271078807e-06,
      "loss": 1.3936,
      "mean_token_accuracy": 0.6566072255373001,
      "num_tokens": 2760761496.0,
      "step": 16456
    },
    {
      "entropy": 1.717143217722575,
      "epoch": 1.807887726236577,
      "grad_norm": 0.7225522994995117,
      "learning_rate": 2.4326586688454147e-06,
      "loss": 1.3449,
      "mean_token_accuracy": 0.6655629724264145,
      "num_tokens": 2760894645.0,
      "step": 16457
    },
    {
      "entropy": 1.6999610662460327,
      "epoch": 1.8079975831479498,
      "grad_norm": 0.6742311716079712,
      "learning_rate": 2.4321683377645146e-06,
      "loss": 1.4921,
      "mean_token_accuracy": 0.6431157986323038,
      "num_tokens": 2761080211.0,
      "step": 16458
    },
    {
      "entropy": 1.771820992231369,
      "epoch": 1.808107440059323,
      "grad_norm": 0.6953256726264954,
      "learning_rate": 2.4316782778516275e-06,
      "loss": 1.3855,
      "mean_token_accuracy": 0.6551636606454849,
      "num_tokens": 2761202587.0,
      "step": 16459
    },
    {
      "entropy": 1.745868742465973,
      "epoch": 1.8082172969706956,
      "grad_norm": 0.6078836917877197,
      "learning_rate": 2.4311884891222613e-06,
      "loss": 1.4532,
      "mean_token_accuracy": 0.6424828767776489,
      "num_tokens": 2761398670.0,
      "step": 16460
    },
    {
      "entropy": 1.6702168186505635,
      "epoch": 1.8083271538820687,
      "grad_norm": 0.6870954632759094,
      "learning_rate": 2.4306989715919173e-06,
      "loss": 1.4224,
      "mean_token_accuracy": 0.6447147478659948,
      "num_tokens": 2761597590.0,
      "step": 16461
    },
    {
      "entropy": 1.6488149464130402,
      "epoch": 1.8084370107934415,
      "grad_norm": 0.610784649848938,
      "learning_rate": 2.4302097252760913e-06,
      "loss": 1.4936,
      "mean_token_accuracy": 0.6545774986346563,
      "num_tokens": 2761794099.0,
      "step": 16462
    },
    {
      "entropy": 1.7186005214850109,
      "epoch": 1.8085468677048144,
      "grad_norm": 0.6306957602500916,
      "learning_rate": 2.429720750190264e-06,
      "loss": 1.3377,
      "mean_token_accuracy": 0.6656250059604645,
      "num_tokens": 2761973157.0,
      "step": 16463
    },
    {
      "entropy": 1.6818233629067738,
      "epoch": 1.8086567246161875,
      "grad_norm": 0.7410263419151306,
      "learning_rate": 2.4292320463499144e-06,
      "loss": 1.3116,
      "mean_token_accuracy": 0.6546371678511301,
      "num_tokens": 2762136640.0,
      "step": 16464
    },
    {
      "entropy": 1.6417667865753174,
      "epoch": 1.8087665815275602,
      "grad_norm": 0.6089370846748352,
      "learning_rate": 2.428743613770508e-06,
      "loss": 1.2356,
      "mean_token_accuracy": 0.6799864719311396,
      "num_tokens": 2762270207.0,
      "step": 16465
    },
    {
      "entropy": 1.746724675099055,
      "epoch": 1.8088764384389333,
      "grad_norm": 0.9241576194763184,
      "learning_rate": 2.4282554524675036e-06,
      "loss": 1.4229,
      "mean_token_accuracy": 0.6547742585341135,
      "num_tokens": 2762409921.0,
      "step": 16466
    },
    {
      "entropy": 1.6926732659339905,
      "epoch": 1.8089862953503062,
      "grad_norm": 0.7210370302200317,
      "learning_rate": 2.4277675624563523e-06,
      "loss": 1.3849,
      "mean_token_accuracy": 0.6654962301254272,
      "num_tokens": 2762570334.0,
      "step": 16467
    },
    {
      "entropy": 1.7325705389181774,
      "epoch": 1.809096152261679,
      "grad_norm": 0.6760542988777161,
      "learning_rate": 2.4272799437524954e-06,
      "loss": 1.4512,
      "mean_token_accuracy": 0.6488116631905237,
      "num_tokens": 2762709776.0,
      "step": 16468
    },
    {
      "entropy": 1.7742801705996196,
      "epoch": 1.8092060091730522,
      "grad_norm": 0.6283159852027893,
      "learning_rate": 2.4267925963713634e-06,
      "loss": 1.3957,
      "mean_token_accuracy": 0.6601527482271194,
      "num_tokens": 2762847503.0,
      "step": 16469
    },
    {
      "entropy": 1.6537544429302216,
      "epoch": 1.809315866084425,
      "grad_norm": 0.6634315252304077,
      "learning_rate": 2.426305520328383e-06,
      "loss": 1.3299,
      "mean_token_accuracy": 0.6634285499652227,
      "num_tokens": 2763000038.0,
      "step": 16470
    },
    {
      "entropy": 1.6798964043458302,
      "epoch": 1.809425722995798,
      "grad_norm": 0.7522450685501099,
      "learning_rate": 2.4258187156389707e-06,
      "loss": 1.4379,
      "mean_token_accuracy": 0.675532266497612,
      "num_tokens": 2763165723.0,
      "step": 16471
    },
    {
      "entropy": 1.6432731648286183,
      "epoch": 1.809535579907171,
      "grad_norm": 0.7260177135467529,
      "learning_rate": 2.4253321823185318e-06,
      "loss": 1.4119,
      "mean_token_accuracy": 0.6538095225890478,
      "num_tokens": 2763340508.0,
      "step": 16472
    },
    {
      "entropy": 1.6526922384897869,
      "epoch": 1.8096454368185437,
      "grad_norm": 0.6410662531852722,
      "learning_rate": 2.4248459203824652e-06,
      "loss": 1.4164,
      "mean_token_accuracy": 0.653022438287735,
      "num_tokens": 2763531382.0,
      "step": 16473
    },
    {
      "entropy": 1.6942103902498882,
      "epoch": 1.8097552937299168,
      "grad_norm": 0.8561227321624756,
      "learning_rate": 2.4243599298461616e-06,
      "loss": 1.4381,
      "mean_token_accuracy": 0.6655525416135788,
      "num_tokens": 2763661803.0,
      "step": 16474
    },
    {
      "entropy": 1.6899367968241374,
      "epoch": 1.8098651506412897,
      "grad_norm": 0.7844464778900146,
      "learning_rate": 2.423874210725001e-06,
      "loss": 1.3592,
      "mean_token_accuracy": 0.6753224035104116,
      "num_tokens": 2763804753.0,
      "step": 16475
    },
    {
      "entropy": 1.6260625620683034,
      "epoch": 1.8099750075526626,
      "grad_norm": 0.5812033414840698,
      "learning_rate": 2.423388763034358e-06,
      "loss": 1.4316,
      "mean_token_accuracy": 0.6537586599588394,
      "num_tokens": 2764008124.0,
      "step": 16476
    },
    {
      "entropy": 1.687359909216563,
      "epoch": 1.8100848644640357,
      "grad_norm": 0.7226285934448242,
      "learning_rate": 2.422903586789597e-06,
      "loss": 1.4195,
      "mean_token_accuracy": 0.6663658916950226,
      "num_tokens": 2764173536.0,
      "step": 16477
    },
    {
      "entropy": 1.7126532693703969,
      "epoch": 1.8101947213754084,
      "grad_norm": 0.6269643306732178,
      "learning_rate": 2.4224186820060708e-06,
      "loss": 1.4023,
      "mean_token_accuracy": 0.6467209408680598,
      "num_tokens": 2764346766.0,
      "step": 16478
    },
    {
      "entropy": 1.7550960679848988,
      "epoch": 1.8103045782867815,
      "grad_norm": 0.7029903531074524,
      "learning_rate": 2.42193404869913e-06,
      "loss": 1.2635,
      "mean_token_accuracy": 0.6703293671210607,
      "num_tokens": 2764462288.0,
      "step": 16479
    },
    {
      "entropy": 1.7869562208652496,
      "epoch": 1.8104144351981544,
      "grad_norm": 0.6959302425384521,
      "learning_rate": 2.421449686884109e-06,
      "loss": 1.549,
      "mean_token_accuracy": 0.6411256889502207,
      "num_tokens": 2764638641.0,
      "step": 16480
    },
    {
      "entropy": 1.7564504742622375,
      "epoch": 1.8105242921095273,
      "grad_norm": 0.6463617086410522,
      "learning_rate": 2.4209655965763406e-06,
      "loss": 1.4976,
      "mean_token_accuracy": 0.6407757749160131,
      "num_tokens": 2764811182.0,
      "step": 16481
    },
    {
      "entropy": 1.73487122853597,
      "epoch": 1.8106341490209004,
      "grad_norm": 0.7762302160263062,
      "learning_rate": 2.4204817777911455e-06,
      "loss": 1.3926,
      "mean_token_accuracy": 0.6518355309963226,
      "num_tokens": 2764952016.0,
      "step": 16482
    },
    {
      "entropy": 1.6598585546016693,
      "epoch": 1.8107440059322732,
      "grad_norm": 0.6841420531272888,
      "learning_rate": 2.4199982305438365e-06,
      "loss": 1.223,
      "mean_token_accuracy": 0.6864841481049856,
      "num_tokens": 2765057348.0,
      "step": 16483
    },
    {
      "entropy": 1.6540294587612152,
      "epoch": 1.8108538628436461,
      "grad_norm": 0.9833670854568481,
      "learning_rate": 2.4195149548497173e-06,
      "loss": 1.3703,
      "mean_token_accuracy": 0.67726102968057,
      "num_tokens": 2765199987.0,
      "step": 16484
    },
    {
      "entropy": 1.7150746981302898,
      "epoch": 1.8109637197550192,
      "grad_norm": 0.5984099507331848,
      "learning_rate": 2.419031950724082e-06,
      "loss": 1.4509,
      "mean_token_accuracy": 0.6461076935132345,
      "num_tokens": 2765417441.0,
      "step": 16485
    },
    {
      "entropy": 1.708159824212392,
      "epoch": 1.811073576666392,
      "grad_norm": 0.6068819165229797,
      "learning_rate": 2.41854921818222e-06,
      "loss": 1.4214,
      "mean_token_accuracy": 0.6494432340065638,
      "num_tokens": 2765635138.0,
      "step": 16486
    },
    {
      "entropy": 1.6690807143847148,
      "epoch": 1.811183433577765,
      "grad_norm": 0.7443904876708984,
      "learning_rate": 2.4180667572394073e-06,
      "loss": 1.2496,
      "mean_token_accuracy": 0.6697708616654078,
      "num_tokens": 2765765146.0,
      "step": 16487
    },
    {
      "entropy": 1.738635003566742,
      "epoch": 1.811293290489138,
      "grad_norm": 0.7414568662643433,
      "learning_rate": 2.4175845679109157e-06,
      "loss": 1.4483,
      "mean_token_accuracy": 0.6477248768011729,
      "num_tokens": 2765914159.0,
      "step": 16488
    },
    {
      "entropy": 1.73112353682518,
      "epoch": 1.8114031474005108,
      "grad_norm": 1.007875680923462,
      "learning_rate": 2.417102650212005e-06,
      "loss": 1.3697,
      "mean_token_accuracy": 0.6697366237640381,
      "num_tokens": 2766056322.0,
      "step": 16489
    },
    {
      "entropy": 1.6718713839848836,
      "epoch": 1.811513004311884,
      "grad_norm": 0.5636931657791138,
      "learning_rate": 2.4166210041579266e-06,
      "loss": 1.477,
      "mean_token_accuracy": 0.6347486774126688,
      "num_tokens": 2766306740.0,
      "step": 16490
    },
    {
      "entropy": 1.6812805632750194,
      "epoch": 1.8116228612232566,
      "grad_norm": 0.6897765398025513,
      "learning_rate": 2.4161396297639277e-06,
      "loss": 1.3959,
      "mean_token_accuracy": 0.6611317793528239,
      "num_tokens": 2766469990.0,
      "step": 16491
    },
    {
      "entropy": 1.7409476439158122,
      "epoch": 1.8117327181346297,
      "grad_norm": 0.9774511456489563,
      "learning_rate": 2.4156585270452413e-06,
      "loss": 1.7468,
      "mean_token_accuracy": 0.643994982043902,
      "num_tokens": 2766603370.0,
      "step": 16492
    },
    {
      "entropy": 1.6942278146743774,
      "epoch": 1.8118425750460025,
      "grad_norm": 0.6507070064544678,
      "learning_rate": 2.415177696017093e-06,
      "loss": 1.3617,
      "mean_token_accuracy": 0.6736532896757126,
      "num_tokens": 2766748463.0,
      "step": 16493
    },
    {
      "entropy": 1.6879957815011342,
      "epoch": 1.8119524319573754,
      "grad_norm": 0.6665419936180115,
      "learning_rate": 2.4146971366947035e-06,
      "loss": 1.3464,
      "mean_token_accuracy": 0.6612015018860499,
      "num_tokens": 2766923463.0,
      "step": 16494
    },
    {
      "entropy": 1.6867989003658295,
      "epoch": 1.8120622888687485,
      "grad_norm": 0.6739834547042847,
      "learning_rate": 2.4142168490932784e-06,
      "loss": 1.2979,
      "mean_token_accuracy": 0.6711998730897903,
      "num_tokens": 2767057148.0,
      "step": 16495
    },
    {
      "entropy": 1.7199506064256032,
      "epoch": 1.8121721457801214,
      "grad_norm": 0.6423784494400024,
      "learning_rate": 2.413736833228024e-06,
      "loss": 1.3756,
      "mean_token_accuracy": 0.6621057589848837,
      "num_tokens": 2767237139.0,
      "step": 16496
    },
    {
      "entropy": 1.6715861360232036,
      "epoch": 1.8122820026914943,
      "grad_norm": 0.6793438792228699,
      "learning_rate": 2.4132570891141296e-06,
      "loss": 1.2994,
      "mean_token_accuracy": 0.6636922707160314,
      "num_tokens": 2767411416.0,
      "step": 16497
    },
    {
      "entropy": 1.70285361011823,
      "epoch": 1.8123918596028674,
      "grad_norm": 0.6627052426338196,
      "learning_rate": 2.412777616766778e-06,
      "loss": 1.5275,
      "mean_token_accuracy": 0.6365848928689957,
      "num_tokens": 2767616868.0,
      "step": 16498
    },
    {
      "entropy": 1.748480220635732,
      "epoch": 1.81250171651424,
      "grad_norm": 0.6843937635421753,
      "learning_rate": 2.4122984162011453e-06,
      "loss": 1.4195,
      "mean_token_accuracy": 0.6697787046432495,
      "num_tokens": 2767808831.0,
      "step": 16499
    },
    {
      "entropy": 1.7178409099578857,
      "epoch": 1.8126115734256132,
      "grad_norm": 0.7172280550003052,
      "learning_rate": 2.4118194874323993e-06,
      "loss": 1.3364,
      "mean_token_accuracy": 0.6643195003271103,
      "num_tokens": 2767935675.0,
      "step": 16500
    },
    {
      "entropy": 1.7438208361466725,
      "epoch": 1.812721430336986,
      "grad_norm": 0.6629429459571838,
      "learning_rate": 2.4113408304756943e-06,
      "loss": 1.3889,
      "mean_token_accuracy": 0.6561461488405863,
      "num_tokens": 2768083615.0,
      "step": 16501
    },
    {
      "entropy": 1.7097637752691905,
      "epoch": 1.812831287248359,
      "grad_norm": 0.627873420715332,
      "learning_rate": 2.4108624453461825e-06,
      "loss": 1.3931,
      "mean_token_accuracy": 0.6541771193345388,
      "num_tokens": 2768263773.0,
      "step": 16502
    },
    {
      "entropy": 1.7309077978134155,
      "epoch": 1.812941144159732,
      "grad_norm": 0.6251326203346252,
      "learning_rate": 2.4103843320590053e-06,
      "loss": 1.548,
      "mean_token_accuracy": 0.6347083449363708,
      "num_tokens": 2768483831.0,
      "step": 16503
    },
    {
      "entropy": 1.645240803559621,
      "epoch": 1.8130510010711047,
      "grad_norm": 0.6707781553268433,
      "learning_rate": 2.409906490629294e-06,
      "loss": 1.4934,
      "mean_token_accuracy": 0.6460568408171335,
      "num_tokens": 2768679029.0,
      "step": 16504
    },
    {
      "entropy": 1.6946294804414113,
      "epoch": 1.8131608579824778,
      "grad_norm": 0.6006249785423279,
      "learning_rate": 2.4094289210721684e-06,
      "loss": 1.3718,
      "mean_token_accuracy": 0.6605852544307709,
      "num_tokens": 2768851311.0,
      "step": 16505
    },
    {
      "entropy": 1.711153248945872,
      "epoch": 1.8132707148938507,
      "grad_norm": 0.7911529541015625,
      "learning_rate": 2.40895162340275e-06,
      "loss": 1.5019,
      "mean_token_accuracy": 0.653807650009791,
      "num_tokens": 2768982496.0,
      "step": 16506
    },
    {
      "entropy": 1.6501058836778004,
      "epoch": 1.8133805718052236,
      "grad_norm": 0.6616920232772827,
      "learning_rate": 2.4084745976361382e-06,
      "loss": 1.3616,
      "mean_token_accuracy": 0.6733062863349915,
      "num_tokens": 2769152918.0,
      "step": 16507
    },
    {
      "entropy": 1.6238398055235546,
      "epoch": 1.8134904287165967,
      "grad_norm": 0.7626936435699463,
      "learning_rate": 2.4079978437874357e-06,
      "loss": 1.2714,
      "mean_token_accuracy": 0.6772501319646835,
      "num_tokens": 2769344820.0,
      "step": 16508
    },
    {
      "entropy": 1.7226660251617432,
      "epoch": 1.8136002856279696,
      "grad_norm": 0.6929018497467041,
      "learning_rate": 2.4075213618717304e-06,
      "loss": 1.4003,
      "mean_token_accuracy": 0.6568613747755686,
      "num_tokens": 2769517942.0,
      "step": 16509
    },
    {
      "entropy": 1.8020154933134716,
      "epoch": 1.8137101425393425,
      "grad_norm": 0.7082515358924866,
      "learning_rate": 2.4070451519041014e-06,
      "loss": 1.3086,
      "mean_token_accuracy": 0.669136126836141,
      "num_tokens": 2769667335.0,
      "step": 16510
    },
    {
      "entropy": 1.7351914743582408,
      "epoch": 1.8138199994507156,
      "grad_norm": 0.8061874508857727,
      "learning_rate": 2.406569213899621e-06,
      "loss": 1.4222,
      "mean_token_accuracy": 0.6561322311560313,
      "num_tokens": 2769819275.0,
      "step": 16511
    },
    {
      "entropy": 1.673819233973821,
      "epoch": 1.8139298563620883,
      "grad_norm": 0.7893275618553162,
      "learning_rate": 2.4060935478733538e-06,
      "loss": 1.2336,
      "mean_token_accuracy": 0.6748340229193369,
      "num_tokens": 2769964391.0,
      "step": 16512
    },
    {
      "entropy": 1.708072344462077,
      "epoch": 1.8140397132734614,
      "grad_norm": 0.7377780079841614,
      "learning_rate": 2.4056181538403515e-06,
      "loss": 1.4061,
      "mean_token_accuracy": 0.6597805072863897,
      "num_tokens": 2770118160.0,
      "step": 16513
    },
    {
      "entropy": 1.714382102092107,
      "epoch": 1.8141495701848342,
      "grad_norm": 0.5593966245651245,
      "learning_rate": 2.4051430318156622e-06,
      "loss": 1.415,
      "mean_token_accuracy": 0.6464897443850836,
      "num_tokens": 2770391818.0,
      "step": 16514
    },
    {
      "entropy": 1.7466392715771992,
      "epoch": 1.8142594270962071,
      "grad_norm": 0.7103216052055359,
      "learning_rate": 2.4046681818143245e-06,
      "loss": 1.3028,
      "mean_token_accuracy": 0.6765001912911733,
      "num_tokens": 2770508407.0,
      "step": 16515
    },
    {
      "entropy": 1.765973150730133,
      "epoch": 1.8143692840075802,
      "grad_norm": 0.7408754229545593,
      "learning_rate": 2.4041936038513647e-06,
      "loss": 1.3235,
      "mean_token_accuracy": 0.6654133200645447,
      "num_tokens": 2770656487.0,
      "step": 16516
    },
    {
      "entropy": 1.6894567012786865,
      "epoch": 1.814479140918953,
      "grad_norm": 0.6805311441421509,
      "learning_rate": 2.4037192979418036e-06,
      "loss": 1.4779,
      "mean_token_accuracy": 0.6684766709804535,
      "num_tokens": 2770806625.0,
      "step": 16517
    },
    {
      "entropy": 1.7023487786451976,
      "epoch": 1.814588997830326,
      "grad_norm": 0.6457291841506958,
      "learning_rate": 2.4032452641006546e-06,
      "loss": 1.4227,
      "mean_token_accuracy": 0.6392653485139211,
      "num_tokens": 2770997593.0,
      "step": 16518
    },
    {
      "entropy": 1.7675903141498566,
      "epoch": 1.814698854741699,
      "grad_norm": 0.7356979250907898,
      "learning_rate": 2.4027715023429173e-06,
      "loss": 1.3966,
      "mean_token_accuracy": 0.6494138091802597,
      "num_tokens": 2771136387.0,
      "step": 16519
    },
    {
      "entropy": 1.6030404170354207,
      "epoch": 1.8148087116530718,
      "grad_norm": 0.5834929347038269,
      "learning_rate": 2.4022980126835897e-06,
      "loss": 1.4752,
      "mean_token_accuracy": 0.6513334512710571,
      "num_tokens": 2771362647.0,
      "step": 16520
    },
    {
      "entropy": 1.722896158695221,
      "epoch": 1.814918568564445,
      "grad_norm": 0.7146098613739014,
      "learning_rate": 2.4018247951376546e-06,
      "loss": 1.595,
      "mean_token_accuracy": 0.6407341261704763,
      "num_tokens": 2771551945.0,
      "step": 16521
    },
    {
      "entropy": 1.7077131768067677,
      "epoch": 1.8150284254758178,
      "grad_norm": 0.6865191459655762,
      "learning_rate": 2.401351849720091e-06,
      "loss": 1.4025,
      "mean_token_accuracy": 0.656955232222875,
      "num_tokens": 2771751606.0,
      "step": 16522
    },
    {
      "entropy": 1.6773952742417653,
      "epoch": 1.8151382823871907,
      "grad_norm": 0.5679813027381897,
      "learning_rate": 2.4008791764458667e-06,
      "loss": 1.4841,
      "mean_token_accuracy": 0.6524718155463537,
      "num_tokens": 2771984622.0,
      "step": 16523
    },
    {
      "entropy": 1.7627310752868652,
      "epoch": 1.8152481392985638,
      "grad_norm": 0.621216893196106,
      "learning_rate": 2.4004067753299414e-06,
      "loss": 1.5703,
      "mean_token_accuracy": 0.6433713287115097,
      "num_tokens": 2772250906.0,
      "step": 16524
    },
    {
      "entropy": 1.6635705729325612,
      "epoch": 1.8153579962099364,
      "grad_norm": 0.661649763584137,
      "learning_rate": 2.399934646387266e-06,
      "loss": 1.3721,
      "mean_token_accuracy": 0.6734176874160767,
      "num_tokens": 2772389665.0,
      "step": 16525
    },
    {
      "entropy": 1.7503486176331837,
      "epoch": 1.8154678531213095,
      "grad_norm": 0.772406816482544,
      "learning_rate": 2.3994627896327832e-06,
      "loss": 1.4636,
      "mean_token_accuracy": 0.6583824306726456,
      "num_tokens": 2772543581.0,
      "step": 16526
    },
    {
      "entropy": 1.6406415303548176,
      "epoch": 1.8155777100326824,
      "grad_norm": 0.716643214225769,
      "learning_rate": 2.39899120508143e-06,
      "loss": 1.3905,
      "mean_token_accuracy": 0.6612937748432159,
      "num_tokens": 2772717311.0,
      "step": 16527
    },
    {
      "entropy": 1.6522994637489319,
      "epoch": 1.8156875669440553,
      "grad_norm": 0.7278351187705994,
      "learning_rate": 2.398519892748128e-06,
      "loss": 1.3473,
      "mean_token_accuracy": 0.6766088207562765,
      "num_tokens": 2772938768.0,
      "step": 16528
    },
    {
      "entropy": 1.779366006453832,
      "epoch": 1.8157974238554284,
      "grad_norm": 0.7547992467880249,
      "learning_rate": 2.398048852647795e-06,
      "loss": 1.2914,
      "mean_token_accuracy": 0.6645817359288534,
      "num_tokens": 2773034087.0,
      "step": 16529
    },
    {
      "entropy": 1.6814574499924977,
      "epoch": 1.815907280766801,
      "grad_norm": 0.7637436389923096,
      "learning_rate": 2.3975780847953413e-06,
      "loss": 1.4152,
      "mean_token_accuracy": 0.6605032732089361,
      "num_tokens": 2773188999.0,
      "step": 16530
    },
    {
      "entropy": 1.690110484759013,
      "epoch": 1.8160171376781742,
      "grad_norm": 0.5965714454650879,
      "learning_rate": 2.3971075892056628e-06,
      "loss": 1.3626,
      "mean_token_accuracy": 0.6655519704023997,
      "num_tokens": 2773368162.0,
      "step": 16531
    },
    {
      "entropy": 1.6539724171161652,
      "epoch": 1.816126994589547,
      "grad_norm": 0.733353853225708,
      "learning_rate": 2.3966373658936536e-06,
      "loss": 1.4261,
      "mean_token_accuracy": 0.6458848516146342,
      "num_tokens": 2773558099.0,
      "step": 16532
    },
    {
      "entropy": 1.716547002394994,
      "epoch": 1.81623685150092,
      "grad_norm": 0.5876471400260925,
      "learning_rate": 2.3961674148741954e-06,
      "loss": 1.4986,
      "mean_token_accuracy": 0.6417978306611379,
      "num_tokens": 2773771033.0,
      "step": 16533
    },
    {
      "entropy": 1.6878297924995422,
      "epoch": 1.816346708412293,
      "grad_norm": 0.6864316463470459,
      "learning_rate": 2.3956977361621607e-06,
      "loss": 1.4623,
      "mean_token_accuracy": 0.6522022038698196,
      "num_tokens": 2773946616.0,
      "step": 16534
    },
    {
      "entropy": 1.714217483997345,
      "epoch": 1.816456565323666,
      "grad_norm": 0.7374356389045715,
      "learning_rate": 2.3952283297724162e-06,
      "loss": 1.4191,
      "mean_token_accuracy": 0.6531722098588943,
      "num_tokens": 2774101537.0,
      "step": 16535
    },
    {
      "entropy": 1.6750989357630413,
      "epoch": 1.8165664222350388,
      "grad_norm": 0.8244749307632446,
      "learning_rate": 2.394759195719818e-06,
      "loss": 1.3881,
      "mean_token_accuracy": 0.6675261706113815,
      "num_tokens": 2774258044.0,
      "step": 16536
    },
    {
      "entropy": 1.6771197319030762,
      "epoch": 1.816676279146412,
      "grad_norm": 0.755206823348999,
      "learning_rate": 2.394290334019213e-06,
      "loss": 1.3127,
      "mean_token_accuracy": 0.6679815848668417,
      "num_tokens": 2774407830.0,
      "step": 16537
    },
    {
      "entropy": 1.6540471911430359,
      "epoch": 1.8167861360577846,
      "grad_norm": 0.6771402359008789,
      "learning_rate": 2.3938217446854393e-06,
      "loss": 1.1949,
      "mean_token_accuracy": 0.6918987234433492,
      "num_tokens": 2774503263.0,
      "step": 16538
    },
    {
      "entropy": 1.7108920514583588,
      "epoch": 1.8168959929691577,
      "grad_norm": 0.7171925902366638,
      "learning_rate": 2.3933534277333327e-06,
      "loss": 1.3017,
      "mean_token_accuracy": 0.6671940038601557,
      "num_tokens": 2774658086.0,
      "step": 16539
    },
    {
      "entropy": 1.7624292373657227,
      "epoch": 1.8170058498805306,
      "grad_norm": 0.753374457359314,
      "learning_rate": 2.392885383177711e-06,
      "loss": 1.4478,
      "mean_token_accuracy": 0.6500358184178671,
      "num_tokens": 2774808233.0,
      "step": 16540
    },
    {
      "entropy": 1.7303147614002228,
      "epoch": 1.8171157067919035,
      "grad_norm": 0.6383606791496277,
      "learning_rate": 2.3924176110333864e-06,
      "loss": 1.353,
      "mean_token_accuracy": 0.6555335720380148,
      "num_tokens": 2775015569.0,
      "step": 16541
    },
    {
      "entropy": 1.7392794887224834,
      "epoch": 1.8172255637032766,
      "grad_norm": 0.7534666061401367,
      "learning_rate": 2.391950111315167e-06,
      "loss": 1.3783,
      "mean_token_accuracy": 0.6698889136314392,
      "num_tokens": 2775181058.0,
      "step": 16542
    },
    {
      "entropy": 1.630462755759557,
      "epoch": 1.8173354206146493,
      "grad_norm": 0.7775093913078308,
      "learning_rate": 2.3914828840378476e-06,
      "loss": 1.196,
      "mean_token_accuracy": 0.6869658430417379,
      "num_tokens": 2775292306.0,
      "step": 16543
    },
    {
      "entropy": 1.7384036084016163,
      "epoch": 1.8174452775260224,
      "grad_norm": 0.788651704788208,
      "learning_rate": 2.3910159292162167e-06,
      "loss": 1.3534,
      "mean_token_accuracy": 0.6725411961476008,
      "num_tokens": 2775447501.0,
      "step": 16544
    },
    {
      "entropy": 1.7322270274162292,
      "epoch": 1.8175551344373952,
      "grad_norm": 0.6624115109443665,
      "learning_rate": 2.3905492468650527e-06,
      "loss": 1.4113,
      "mean_token_accuracy": 0.6496214121580124,
      "num_tokens": 2775618693.0,
      "step": 16545
    },
    {
      "entropy": 1.750143031279246,
      "epoch": 1.8176649913487681,
      "grad_norm": 0.6496718525886536,
      "learning_rate": 2.3900828369991234e-06,
      "loss": 1.466,
      "mean_token_accuracy": 0.6551011850436529,
      "num_tokens": 2775786820.0,
      "step": 16546
    },
    {
      "entropy": 1.6444389820098877,
      "epoch": 1.8177748482601412,
      "grad_norm": 0.7461166977882385,
      "learning_rate": 2.389616699633194e-06,
      "loss": 1.4606,
      "mean_token_accuracy": 0.6540708293517431,
      "num_tokens": 2775955052.0,
      "step": 16547
    },
    {
      "entropy": 1.7287197808424632,
      "epoch": 1.8178847051715141,
      "grad_norm": 0.6682546138763428,
      "learning_rate": 2.3891508347820165e-06,
      "loss": 1.0821,
      "mean_token_accuracy": 0.6904325783252716,
      "num_tokens": 2776186575.0,
      "step": 16548
    },
    {
      "entropy": 1.7020801107088726,
      "epoch": 1.817994562082887,
      "grad_norm": 0.8539118766784668,
      "learning_rate": 2.3886852424603333e-06,
      "loss": 1.4569,
      "mean_token_accuracy": 0.6489265362421671,
      "num_tokens": 2776385187.0,
      "step": 16549
    },
    {
      "entropy": 1.7080492277940114,
      "epoch": 1.8181044189942601,
      "grad_norm": 0.7399299740791321,
      "learning_rate": 2.388219922682883e-06,
      "loss": 1.4506,
      "mean_token_accuracy": 0.6532412966092428,
      "num_tokens": 2776571303.0,
      "step": 16550
    },
    {
      "entropy": 1.7559833427270253,
      "epoch": 1.8182142759056328,
      "grad_norm": 0.727372407913208,
      "learning_rate": 2.387754875464391e-06,
      "loss": 1.4189,
      "mean_token_accuracy": 0.6559430956840515,
      "num_tokens": 2776713216.0,
      "step": 16551
    },
    {
      "entropy": 1.6203450560569763,
      "epoch": 1.818324132817006,
      "grad_norm": 0.6398701071739197,
      "learning_rate": 2.3872901008195773e-06,
      "loss": 1.2424,
      "mean_token_accuracy": 0.6794936507940292,
      "num_tokens": 2776872230.0,
      "step": 16552
    },
    {
      "entropy": 1.7338751256465912,
      "epoch": 1.8184339897283788,
      "grad_norm": 0.7848241925239563,
      "learning_rate": 2.3868255987631505e-06,
      "loss": 1.2348,
      "mean_token_accuracy": 0.6750635951757431,
      "num_tokens": 2776992799.0,
      "step": 16553
    },
    {
      "entropy": 1.7074306507905324,
      "epoch": 1.8185438466397517,
      "grad_norm": 0.7216284871101379,
      "learning_rate": 2.386361369309812e-06,
      "loss": 1.3222,
      "mean_token_accuracy": 0.6633963038523992,
      "num_tokens": 2777138226.0,
      "step": 16554
    },
    {
      "entropy": 1.6739212572574615,
      "epoch": 1.8186537035511248,
      "grad_norm": 0.7185259461402893,
      "learning_rate": 2.385897412474255e-06,
      "loss": 1.5609,
      "mean_token_accuracy": 0.6289549271265665,
      "num_tokens": 2777323423.0,
      "step": 16555
    },
    {
      "entropy": 1.7207949956258137,
      "epoch": 1.8187635604624974,
      "grad_norm": 0.7477259039878845,
      "learning_rate": 2.385433728271164e-06,
      "loss": 1.3418,
      "mean_token_accuracy": 0.6546726375818253,
      "num_tokens": 2777504447.0,
      "step": 16556
    },
    {
      "entropy": 1.6997572779655457,
      "epoch": 1.8188734173738705,
      "grad_norm": 0.7746348977088928,
      "learning_rate": 2.3849703167152125e-06,
      "loss": 1.3969,
      "mean_token_accuracy": 0.6501687119404475,
      "num_tokens": 2777669377.0,
      "step": 16557
    },
    {
      "entropy": 1.715737024943034,
      "epoch": 1.8189832742852434,
      "grad_norm": 0.8140842318534851,
      "learning_rate": 2.3845071778210687e-06,
      "loss": 1.5268,
      "mean_token_accuracy": 0.6537976066271464,
      "num_tokens": 2777818039.0,
      "step": 16558
    },
    {
      "entropy": 1.714678963025411,
      "epoch": 1.8190931311966163,
      "grad_norm": 0.6977283954620361,
      "learning_rate": 2.3840443116033906e-06,
      "loss": 1.5821,
      "mean_token_accuracy": 0.6431048860152563,
      "num_tokens": 2778031195.0,
      "step": 16559
    },
    {
      "entropy": 1.7471038500467937,
      "epoch": 1.8192029881079894,
      "grad_norm": 0.6290971040725708,
      "learning_rate": 2.383581718076828e-06,
      "loss": 1.4625,
      "mean_token_accuracy": 0.6498029927412668,
      "num_tokens": 2778184112.0,
      "step": 16560
    },
    {
      "entropy": 1.7384718358516693,
      "epoch": 1.8193128450193623,
      "grad_norm": 0.8048774600028992,
      "learning_rate": 2.3831193972560204e-06,
      "loss": 1.5574,
      "mean_token_accuracy": 0.65819351375103,
      "num_tokens": 2778325520.0,
      "step": 16561
    },
    {
      "entropy": 1.709036111831665,
      "epoch": 1.8194227019307352,
      "grad_norm": 0.6308175325393677,
      "learning_rate": 2.382657349155602e-06,
      "loss": 1.4355,
      "mean_token_accuracy": 0.6599417279163996,
      "num_tokens": 2778495891.0,
      "step": 16562
    },
    {
      "entropy": 1.725346823533376,
      "epoch": 1.8195325588421083,
      "grad_norm": 0.6439611315727234,
      "learning_rate": 2.3821955737901942e-06,
      "loss": 1.3866,
      "mean_token_accuracy": 0.6503596703211466,
      "num_tokens": 2778659002.0,
      "step": 16563
    },
    {
      "entropy": 1.6709474126497905,
      "epoch": 1.819642415753481,
      "grad_norm": 0.6519814729690552,
      "learning_rate": 2.381734071174416e-06,
      "loss": 1.4571,
      "mean_token_accuracy": 0.642798125743866,
      "num_tokens": 2778843826.0,
      "step": 16564
    },
    {
      "entropy": 1.6215501725673676,
      "epoch": 1.819752272664854,
      "grad_norm": 0.655518114566803,
      "learning_rate": 2.381272841322869e-06,
      "loss": 1.2602,
      "mean_token_accuracy": 0.675087700287501,
      "num_tokens": 2778996584.0,
      "step": 16565
    },
    {
      "entropy": 1.7112641334533691,
      "epoch": 1.819862129576227,
      "grad_norm": 0.653723418712616,
      "learning_rate": 2.380811884250152e-06,
      "loss": 1.3754,
      "mean_token_accuracy": 0.6574215839306513,
      "num_tokens": 2779187702.0,
      "step": 16566
    },
    {
      "entropy": 1.6549660762151082,
      "epoch": 1.8199719864875998,
      "grad_norm": 0.7489318251609802,
      "learning_rate": 2.3803511999708554e-06,
      "loss": 1.3494,
      "mean_token_accuracy": 0.6677233328421911,
      "num_tokens": 2779388320.0,
      "step": 16567
    },
    {
      "entropy": 1.6793318192164104,
      "epoch": 1.820081843398973,
      "grad_norm": 0.6962845921516418,
      "learning_rate": 2.3798907884995617e-06,
      "loss": 1.3043,
      "mean_token_accuracy": 0.6692550530036291,
      "num_tokens": 2779514019.0,
      "step": 16568
    },
    {
      "entropy": 1.6745788753032684,
      "epoch": 1.8201917003103458,
      "grad_norm": 0.6880436539649963,
      "learning_rate": 2.379430649850837e-06,
      "loss": 1.3641,
      "mean_token_accuracy": 0.6582282483577728,
      "num_tokens": 2779675915.0,
      "step": 16569
    },
    {
      "entropy": 1.7116785844167073,
      "epoch": 1.8203015572217187,
      "grad_norm": 0.8645946383476257,
      "learning_rate": 2.3789707840392484e-06,
      "loss": 1.3819,
      "mean_token_accuracy": 0.6639973024527231,
      "num_tokens": 2779823266.0,
      "step": 16570
    },
    {
      "entropy": 1.6840636630853016,
      "epoch": 1.8204114141330916,
      "grad_norm": 0.6108362078666687,
      "learning_rate": 2.378511191079351e-06,
      "loss": 1.4026,
      "mean_token_accuracy": 0.6641562829415003,
      "num_tokens": 2779985266.0,
      "step": 16571
    },
    {
      "entropy": 1.7049194872379303,
      "epoch": 1.8205212710444645,
      "grad_norm": 0.7385087013244629,
      "learning_rate": 2.378051870985689e-06,
      "loss": 1.4367,
      "mean_token_accuracy": 0.650545577208201,
      "num_tokens": 2780144229.0,
      "step": 16572
    },
    {
      "entropy": 1.614651362101237,
      "epoch": 1.8206311279558376,
      "grad_norm": 0.6099897027015686,
      "learning_rate": 2.3775928237727996e-06,
      "loss": 1.3483,
      "mean_token_accuracy": 0.6629302948713303,
      "num_tokens": 2780302810.0,
      "step": 16573
    },
    {
      "entropy": 1.6483580370744069,
      "epoch": 1.8207409848672105,
      "grad_norm": 0.7105104327201843,
      "learning_rate": 2.377134049455213e-06,
      "loss": 1.3006,
      "mean_token_accuracy": 0.664797286192576,
      "num_tokens": 2780474250.0,
      "step": 16574
    },
    {
      "entropy": 1.7492181360721588,
      "epoch": 1.8208508417785834,
      "grad_norm": 0.6788060665130615,
      "learning_rate": 2.3766755480474464e-06,
      "loss": 1.4855,
      "mean_token_accuracy": 0.6429063032070795,
      "num_tokens": 2780669549.0,
      "step": 16575
    },
    {
      "entropy": 1.6822342773278554,
      "epoch": 1.8209606986899565,
      "grad_norm": 0.636565089225769,
      "learning_rate": 2.3762173195640147e-06,
      "loss": 1.4087,
      "mean_token_accuracy": 0.6564022650321325,
      "num_tokens": 2780853162.0,
      "step": 16576
    },
    {
      "entropy": 1.772486279408137,
      "epoch": 1.8210705556013291,
      "grad_norm": 0.6843612194061279,
      "learning_rate": 2.375759364019419e-06,
      "loss": 1.4175,
      "mean_token_accuracy": 0.6469480246305466,
      "num_tokens": 2781056685.0,
      "step": 16577
    },
    {
      "entropy": 1.7506540218989055,
      "epoch": 1.8211804125127022,
      "grad_norm": 0.727794885635376,
      "learning_rate": 2.3753016814281514e-06,
      "loss": 1.435,
      "mean_token_accuracy": 0.6630039562781652,
      "num_tokens": 2781207737.0,
      "step": 16578
    },
    {
      "entropy": 1.7064573367436726,
      "epoch": 1.8212902694240751,
      "grad_norm": 0.7168003916740417,
      "learning_rate": 2.374844271804701e-06,
      "loss": 1.2831,
      "mean_token_accuracy": 0.6836849649747213,
      "num_tokens": 2781321392.0,
      "step": 16579
    },
    {
      "entropy": 1.7291381855805714,
      "epoch": 1.821400126335448,
      "grad_norm": 0.6939396858215332,
      "learning_rate": 2.3743871351635427e-06,
      "loss": 1.4408,
      "mean_token_accuracy": 0.6493770778179169,
      "num_tokens": 2781476898.0,
      "step": 16580
    },
    {
      "entropy": 1.7322145501772563,
      "epoch": 1.8215099832468211,
      "grad_norm": 0.6548502445220947,
      "learning_rate": 2.373930271519143e-06,
      "loss": 1.4634,
      "mean_token_accuracy": 0.6514165798823038,
      "num_tokens": 2781644750.0,
      "step": 16581
    },
    {
      "entropy": 1.7112524112065632,
      "epoch": 1.821619840158194,
      "grad_norm": 0.5996736884117126,
      "learning_rate": 2.373473680885964e-06,
      "loss": 1.364,
      "mean_token_accuracy": 0.6540916860103607,
      "num_tokens": 2781826533.0,
      "step": 16582
    },
    {
      "entropy": 1.7321696877479553,
      "epoch": 1.8217296970695669,
      "grad_norm": 0.7605938911437988,
      "learning_rate": 2.373017363278457e-06,
      "loss": 1.2532,
      "mean_token_accuracy": 0.676396057009697,
      "num_tokens": 2781947706.0,
      "step": 16583
    },
    {
      "entropy": 1.683882822593053,
      "epoch": 1.8218395539809398,
      "grad_norm": 0.8438287377357483,
      "learning_rate": 2.3725613187110626e-06,
      "loss": 1.3207,
      "mean_token_accuracy": 0.676286518573761,
      "num_tokens": 2782070912.0,
      "step": 16584
    },
    {
      "entropy": 1.6728091140588124,
      "epoch": 1.8219494108923127,
      "grad_norm": 0.7430797219276428,
      "learning_rate": 2.3721055471982138e-06,
      "loss": 1.2725,
      "mean_token_accuracy": 0.6717578570048014,
      "num_tokens": 2782206255.0,
      "step": 16585
    },
    {
      "entropy": 1.7225382626056671,
      "epoch": 1.8220592678036858,
      "grad_norm": 0.6596887707710266,
      "learning_rate": 2.3716500487543376e-06,
      "loss": 1.4749,
      "mean_token_accuracy": 0.6395098119974136,
      "num_tokens": 2782423591.0,
      "step": 16586
    },
    {
      "entropy": 1.7209839125474293,
      "epoch": 1.8221691247150587,
      "grad_norm": 0.7370496988296509,
      "learning_rate": 2.3711948233938485e-06,
      "loss": 1.451,
      "mean_token_accuracy": 0.6665770759185156,
      "num_tokens": 2782558304.0,
      "step": 16587
    },
    {
      "entropy": 1.6876719395319622,
      "epoch": 1.8222789816264315,
      "grad_norm": 0.7385010719299316,
      "learning_rate": 2.3707398711311553e-06,
      "loss": 1.2099,
      "mean_token_accuracy": 0.678598885734876,
      "num_tokens": 2782664534.0,
      "step": 16588
    },
    {
      "entropy": 1.7227604786554973,
      "epoch": 1.8223888385378046,
      "grad_norm": 0.7744255065917969,
      "learning_rate": 2.3702851919806576e-06,
      "loss": 1.3421,
      "mean_token_accuracy": 0.6641747852166494,
      "num_tokens": 2782797638.0,
      "step": 16589
    },
    {
      "entropy": 1.675682693719864,
      "epoch": 1.8224986954491773,
      "grad_norm": 0.6251360177993774,
      "learning_rate": 2.369830785956744e-06,
      "loss": 1.2506,
      "mean_token_accuracy": 0.6763549745082855,
      "num_tokens": 2782911180.0,
      "step": 16590
    },
    {
      "entropy": 1.769344409306844,
      "epoch": 1.8226085523605504,
      "grad_norm": 0.7733559012413025,
      "learning_rate": 2.3693766530737978e-06,
      "loss": 1.5038,
      "mean_token_accuracy": 0.648768370350202,
      "num_tokens": 2783094728.0,
      "step": 16591
    },
    {
      "entropy": 1.7493232587973278,
      "epoch": 1.8227184092719233,
      "grad_norm": 0.711170494556427,
      "learning_rate": 2.3689227933461916e-06,
      "loss": 1.3211,
      "mean_token_accuracy": 0.6690777093172073,
      "num_tokens": 2783258611.0,
      "step": 16592
    },
    {
      "entropy": 1.681398739417394,
      "epoch": 1.8228282661832962,
      "grad_norm": 0.7355263829231262,
      "learning_rate": 2.368469206788289e-06,
      "loss": 1.2677,
      "mean_token_accuracy": 0.6758220344781876,
      "num_tokens": 2783430258.0,
      "step": 16593
    },
    {
      "entropy": 1.6628807882467906,
      "epoch": 1.8229381230946693,
      "grad_norm": 0.7200619578361511,
      "learning_rate": 2.3680158934144456e-06,
      "loss": 1.5192,
      "mean_token_accuracy": 0.6433456887801489,
      "num_tokens": 2783632093.0,
      "step": 16594
    },
    {
      "entropy": 1.701430231332779,
      "epoch": 1.8230479800060422,
      "grad_norm": 0.677447497844696,
      "learning_rate": 2.3675628532390113e-06,
      "loss": 1.4706,
      "mean_token_accuracy": 0.6618293623129526,
      "num_tokens": 2783774737.0,
      "step": 16595
    },
    {
      "entropy": 1.6659322182337444,
      "epoch": 1.823157836917415,
      "grad_norm": 0.7491664886474609,
      "learning_rate": 2.3671100862763226e-06,
      "loss": 1.3961,
      "mean_token_accuracy": 0.6457837373018265,
      "num_tokens": 2783955761.0,
      "step": 16596
    },
    {
      "entropy": 1.6904160976409912,
      "epoch": 1.823267693828788,
      "grad_norm": 0.6810483932495117,
      "learning_rate": 2.3666575925407086e-06,
      "loss": 1.4507,
      "mean_token_accuracy": 0.6556557367245356,
      "num_tokens": 2784112844.0,
      "step": 16597
    },
    {
      "entropy": 1.7386436462402344,
      "epoch": 1.8233775507401608,
      "grad_norm": 0.8389174342155457,
      "learning_rate": 2.3662053720464927e-06,
      "loss": 1.4558,
      "mean_token_accuracy": 0.6538802261153857,
      "num_tokens": 2784240847.0,
      "step": 16598
    },
    {
      "entropy": 1.6878819664319356,
      "epoch": 1.823487407651534,
      "grad_norm": 0.7181552648544312,
      "learning_rate": 2.3657534248079855e-06,
      "loss": 1.3477,
      "mean_token_accuracy": 0.6808636685212454,
      "num_tokens": 2784351960.0,
      "step": 16599
    },
    {
      "entropy": 1.6631807684898376,
      "epoch": 1.8235972645629068,
      "grad_norm": 0.6783377528190613,
      "learning_rate": 2.3653017508394916e-06,
      "loss": 1.3382,
      "mean_token_accuracy": 0.6660791685183843,
      "num_tokens": 2784499447.0,
      "step": 16600
    },
    {
      "entropy": 1.6464990079402924,
      "epoch": 1.8237071214742797,
      "grad_norm": 0.7220808267593384,
      "learning_rate": 2.3648503501553083e-06,
      "loss": 1.4082,
      "mean_token_accuracy": 0.6685073425372442,
      "num_tokens": 2784662470.0,
      "step": 16601
    },
    {
      "entropy": 1.718644032875697,
      "epoch": 1.8238169783856528,
      "grad_norm": 0.6363226175308228,
      "learning_rate": 2.3643992227697176e-06,
      "loss": 1.4001,
      "mean_token_accuracy": 0.6684810817241669,
      "num_tokens": 2784824331.0,
      "step": 16602
    },
    {
      "entropy": 1.6482765078544617,
      "epoch": 1.8239268352970255,
      "grad_norm": 0.5895575284957886,
      "learning_rate": 2.363948368697002e-06,
      "loss": 1.4568,
      "mean_token_accuracy": 0.6472050746281942,
      "num_tokens": 2785067484.0,
      "step": 16603
    },
    {
      "entropy": 1.6042577922344208,
      "epoch": 1.8240366922083986,
      "grad_norm": 0.662174642086029,
      "learning_rate": 2.363497787951428e-06,
      "loss": 1.3404,
      "mean_token_accuracy": 0.6540089795986811,
      "num_tokens": 2785336972.0,
      "step": 16604
    },
    {
      "entropy": 1.659020572900772,
      "epoch": 1.8241465491197715,
      "grad_norm": 0.6183151006698608,
      "learning_rate": 2.363047480547258e-06,
      "loss": 1.3836,
      "mean_token_accuracy": 0.666933129231135,
      "num_tokens": 2785508777.0,
      "step": 16605
    },
    {
      "entropy": 1.6878956854343414,
      "epoch": 1.8242564060311444,
      "grad_norm": 0.7308575510978699,
      "learning_rate": 2.362597446498742e-06,
      "loss": 1.1711,
      "mean_token_accuracy": 0.690845270951589,
      "num_tokens": 2785628333.0,
      "step": 16606
    },
    {
      "entropy": 1.7506561974684398,
      "epoch": 1.8243662629425175,
      "grad_norm": 0.7305101752281189,
      "learning_rate": 2.362147685820126e-06,
      "loss": 1.413,
      "mean_token_accuracy": 0.6451665014028549,
      "num_tokens": 2785756364.0,
      "step": 16607
    },
    {
      "entropy": 1.7476352254549663,
      "epoch": 1.8244761198538904,
      "grad_norm": 0.6824808716773987,
      "learning_rate": 2.361698198525644e-06,
      "loss": 1.4284,
      "mean_token_accuracy": 0.6470771382252375,
      "num_tokens": 2785922197.0,
      "step": 16608
    },
    {
      "entropy": 1.734663297732671,
      "epoch": 1.8245859767652632,
      "grad_norm": 0.7013296484947205,
      "learning_rate": 2.36124898462952e-06,
      "loss": 1.3782,
      "mean_token_accuracy": 0.6541523436705271,
      "num_tokens": 2786105100.0,
      "step": 16609
    },
    {
      "entropy": 1.7278130650520325,
      "epoch": 1.8246958336766363,
      "grad_norm": 0.8316255211830139,
      "learning_rate": 2.3608000441459748e-06,
      "loss": 1.382,
      "mean_token_accuracy": 0.6508718381325403,
      "num_tokens": 2786257010.0,
      "step": 16610
    },
    {
      "entropy": 1.699917882680893,
      "epoch": 1.824805690588009,
      "grad_norm": 0.8237127661705017,
      "learning_rate": 2.3603513770892125e-06,
      "loss": 1.3808,
      "mean_token_accuracy": 0.6678240597248077,
      "num_tokens": 2786411966.0,
      "step": 16611
    },
    {
      "entropy": 1.7327560484409332,
      "epoch": 1.8249155474993821,
      "grad_norm": 0.8676771521568298,
      "learning_rate": 2.3599029834734393e-06,
      "loss": 1.4715,
      "mean_token_accuracy": 0.6531338741381963,
      "num_tokens": 2786547040.0,
      "step": 16612
    },
    {
      "entropy": 1.7098338504632313,
      "epoch": 1.825025404410755,
      "grad_norm": 0.714078962802887,
      "learning_rate": 2.3594548633128413e-06,
      "loss": 1.3284,
      "mean_token_accuracy": 0.6696013609568278,
      "num_tokens": 2786756645.0,
      "step": 16613
    },
    {
      "entropy": 1.6878060698509216,
      "epoch": 1.8251352613221279,
      "grad_norm": 0.6905450820922852,
      "learning_rate": 2.359007016621603e-06,
      "loss": 1.4931,
      "mean_token_accuracy": 0.6502345601717631,
      "num_tokens": 2786951298.0,
      "step": 16614
    },
    {
      "entropy": 1.702516903479894,
      "epoch": 1.825245118233501,
      "grad_norm": 0.7101051807403564,
      "learning_rate": 2.3585594434139002e-06,
      "loss": 1.4063,
      "mean_token_accuracy": 0.6508783797423044,
      "num_tokens": 2787110816.0,
      "step": 16615
    },
    {
      "entropy": 1.7455834746360779,
      "epoch": 1.8253549751448737,
      "grad_norm": 0.6841264963150024,
      "learning_rate": 2.3581121437038975e-06,
      "loss": 1.2673,
      "mean_token_accuracy": 0.6685113509496053,
      "num_tokens": 2787231743.0,
      "step": 16616
    },
    {
      "entropy": 1.7308682600657146,
      "epoch": 1.8254648320562468,
      "grad_norm": 0.6765478253364563,
      "learning_rate": 2.3576651175057493e-06,
      "loss": 1.3843,
      "mean_token_accuracy": 0.6586334705352783,
      "num_tokens": 2787401301.0,
      "step": 16617
    },
    {
      "entropy": 1.6286826531092327,
      "epoch": 1.8255746889676197,
      "grad_norm": 0.7048670053482056,
      "learning_rate": 2.3572183648336072e-06,
      "loss": 1.2665,
      "mean_token_accuracy": 0.6805399060249329,
      "num_tokens": 2787572843.0,
      "step": 16618
    },
    {
      "entropy": 1.6946585575739543,
      "epoch": 1.8256845458789925,
      "grad_norm": 0.6286748647689819,
      "learning_rate": 2.3567718857016084e-06,
      "loss": 1.372,
      "mean_token_accuracy": 0.6510303070147833,
      "num_tokens": 2787763549.0,
      "step": 16619
    },
    {
      "entropy": 1.7653050124645233,
      "epoch": 1.8257944027903656,
      "grad_norm": 0.7640430331230164,
      "learning_rate": 2.3563256801238855e-06,
      "loss": 1.471,
      "mean_token_accuracy": 0.6584224353233973,
      "num_tokens": 2787893159.0,
      "step": 16620
    },
    {
      "entropy": 1.626900275548299,
      "epoch": 1.8259042597017385,
      "grad_norm": 0.7232459187507629,
      "learning_rate": 2.35587974811456e-06,
      "loss": 1.4189,
      "mean_token_accuracy": 0.6637706806262335,
      "num_tokens": 2788076267.0,
      "step": 16621
    },
    {
      "entropy": 1.6736698547999065,
      "epoch": 1.8260141166131114,
      "grad_norm": 0.7517544627189636,
      "learning_rate": 2.3554340896877453e-06,
      "loss": 1.3742,
      "mean_token_accuracy": 0.6552935838699341,
      "num_tokens": 2788232255.0,
      "step": 16622
    },
    {
      "entropy": 1.698614478111267,
      "epoch": 1.8261239735244845,
      "grad_norm": 0.7546419501304626,
      "learning_rate": 2.3549887048575446e-06,
      "loss": 1.4902,
      "mean_token_accuracy": 0.6500131438175837,
      "num_tokens": 2788431091.0,
      "step": 16623
    },
    {
      "entropy": 1.6913301448027294,
      "epoch": 1.8262338304358572,
      "grad_norm": 0.7140382528305054,
      "learning_rate": 2.354543593638059e-06,
      "loss": 1.3081,
      "mean_token_accuracy": 0.668897733092308,
      "num_tokens": 2788587712.0,
      "step": 16624
    },
    {
      "entropy": 1.728107343117396,
      "epoch": 1.8263436873472303,
      "grad_norm": 0.6673551797866821,
      "learning_rate": 2.3540987560433704e-06,
      "loss": 1.4086,
      "mean_token_accuracy": 0.6558303982019424,
      "num_tokens": 2788760375.0,
      "step": 16625
    },
    {
      "entropy": 1.6470238665739696,
      "epoch": 1.8264535442586032,
      "grad_norm": 0.6046478152275085,
      "learning_rate": 2.353654192087561e-06,
      "loss": 1.3309,
      "mean_token_accuracy": 0.6752079874277115,
      "num_tokens": 2788954047.0,
      "step": 16626
    },
    {
      "entropy": 1.6849171618620555,
      "epoch": 1.826563401169976,
      "grad_norm": 0.762234628200531,
      "learning_rate": 2.3532099017847002e-06,
      "loss": 1.4178,
      "mean_token_accuracy": 0.6630821377038956,
      "num_tokens": 2789138869.0,
      "step": 16627
    },
    {
      "entropy": 1.7250126202901204,
      "epoch": 1.8266732580813492,
      "grad_norm": 0.6825308799743652,
      "learning_rate": 2.3527658851488503e-06,
      "loss": 1.3463,
      "mean_token_accuracy": 0.6651128977537155,
      "num_tokens": 2789289194.0,
      "step": 16628
    },
    {
      "entropy": 1.6536945700645447,
      "epoch": 1.8267831149927218,
      "grad_norm": 0.6264491081237793,
      "learning_rate": 2.3523221421940624e-06,
      "loss": 1.3165,
      "mean_token_accuracy": 0.6712521612644196,
      "num_tokens": 2789433752.0,
      "step": 16629
    },
    {
      "entropy": 1.6571077704429626,
      "epoch": 1.826892971904095,
      "grad_norm": 0.6818052530288696,
      "learning_rate": 2.351878672934383e-06,
      "loss": 1.5239,
      "mean_token_accuracy": 0.6425358305374781,
      "num_tokens": 2789598739.0,
      "step": 16630
    },
    {
      "entropy": 1.7497955461343129,
      "epoch": 1.8270028288154678,
      "grad_norm": 0.7354583144187927,
      "learning_rate": 2.351435477383846e-06,
      "loss": 1.5477,
      "mean_token_accuracy": 0.6368038604656855,
      "num_tokens": 2789772847.0,
      "step": 16631
    },
    {
      "entropy": 1.736647496620814,
      "epoch": 1.8271126857268407,
      "grad_norm": 0.8048020601272583,
      "learning_rate": 2.35099255555648e-06,
      "loss": 1.5508,
      "mean_token_accuracy": 0.6268570274114609,
      "num_tokens": 2789991318.0,
      "step": 16632
    },
    {
      "entropy": 1.6801136036713917,
      "epoch": 1.8272225426382138,
      "grad_norm": 0.6898782253265381,
      "learning_rate": 2.350549907466302e-06,
      "loss": 1.3481,
      "mean_token_accuracy": 0.66416896879673,
      "num_tokens": 2790159923.0,
      "step": 16633
    },
    {
      "entropy": 1.7110735873381298,
      "epoch": 1.8273323995495867,
      "grad_norm": 0.8061655163764954,
      "learning_rate": 2.3501075331273208e-06,
      "loss": 1.4615,
      "mean_token_accuracy": 0.6463738034168879,
      "num_tokens": 2790314777.0,
      "step": 16634
    },
    {
      "entropy": 1.7187353670597076,
      "epoch": 1.8274422564609596,
      "grad_norm": 0.625403642654419,
      "learning_rate": 2.349665432553538e-06,
      "loss": 1.2924,
      "mean_token_accuracy": 0.6705781618754069,
      "num_tokens": 2790451689.0,
      "step": 16635
    },
    {
      "entropy": 1.7233947416146596,
      "epoch": 1.8275521133723327,
      "grad_norm": 0.5538727045059204,
      "learning_rate": 2.3492236057589494e-06,
      "loss": 1.5311,
      "mean_token_accuracy": 0.623880739013354,
      "num_tokens": 2790690085.0,
      "step": 16636
    },
    {
      "entropy": 1.734166105588277,
      "epoch": 1.8276619702837054,
      "grad_norm": 0.7274359464645386,
      "learning_rate": 2.348782052757533e-06,
      "loss": 1.5441,
      "mean_token_accuracy": 0.6415307223796844,
      "num_tokens": 2790855735.0,
      "step": 16637
    },
    {
      "entropy": 1.7256428599357605,
      "epoch": 1.8277718271950785,
      "grad_norm": 0.6457618474960327,
      "learning_rate": 2.3483407735632668e-06,
      "loss": 1.4386,
      "mean_token_accuracy": 0.6566118150949478,
      "num_tokens": 2791039866.0,
      "step": 16638
    },
    {
      "entropy": 1.7583041091759999,
      "epoch": 1.8278816841064514,
      "grad_norm": 0.7741835713386536,
      "learning_rate": 2.347899768190117e-06,
      "loss": 1.4442,
      "mean_token_accuracy": 0.660509412487348,
      "num_tokens": 2791221988.0,
      "step": 16639
    },
    {
      "entropy": 1.7275878588358562,
      "epoch": 1.8279915410178242,
      "grad_norm": 0.7615863084793091,
      "learning_rate": 2.34745903665204e-06,
      "loss": 1.3726,
      "mean_token_accuracy": 0.6682560543219248,
      "num_tokens": 2791351713.0,
      "step": 16640
    },
    {
      "entropy": 1.6993821263313293,
      "epoch": 1.8281013979291973,
      "grad_norm": 0.6623696684837341,
      "learning_rate": 2.3470185789629854e-06,
      "loss": 1.4305,
      "mean_token_accuracy": 0.6371948470671972,
      "num_tokens": 2791551404.0,
      "step": 16641
    },
    {
      "entropy": 1.7266852855682373,
      "epoch": 1.82821125484057,
      "grad_norm": 0.6855489015579224,
      "learning_rate": 2.3465783951368955e-06,
      "loss": 1.2734,
      "mean_token_accuracy": 0.6709648966789246,
      "num_tokens": 2791694899.0,
      "step": 16642
    },
    {
      "entropy": 1.7204951246579487,
      "epoch": 1.8283211117519431,
      "grad_norm": 0.6789599657058716,
      "learning_rate": 2.3461384851876983e-06,
      "loss": 1.6562,
      "mean_token_accuracy": 0.6272246465086937,
      "num_tokens": 2791866300.0,
      "step": 16643
    },
    {
      "entropy": 1.7294853528340657,
      "epoch": 1.828430968663316,
      "grad_norm": 0.6738252639770508,
      "learning_rate": 2.3456988491293193e-06,
      "loss": 1.5462,
      "mean_token_accuracy": 0.6291048725446066,
      "num_tokens": 2792090459.0,
      "step": 16644
    },
    {
      "entropy": 1.7207268675168355,
      "epoch": 1.8285408255746889,
      "grad_norm": 0.7021991610527039,
      "learning_rate": 2.345259486975672e-06,
      "loss": 1.2478,
      "mean_token_accuracy": 0.6744669079780579,
      "num_tokens": 2792232045.0,
      "step": 16645
    },
    {
      "entropy": 1.7015381852785747,
      "epoch": 1.828650682486062,
      "grad_norm": 2.8002796173095703,
      "learning_rate": 2.3448203987406613e-06,
      "loss": 1.0468,
      "mean_token_accuracy": 0.6926949769258499,
      "num_tokens": 2792370336.0,
      "step": 16646
    },
    {
      "entropy": 1.718252569437027,
      "epoch": 1.8287605393974349,
      "grad_norm": 0.7113930583000183,
      "learning_rate": 2.3443815844381846e-06,
      "loss": 1.3618,
      "mean_token_accuracy": 0.6545801758766174,
      "num_tokens": 2792522904.0,
      "step": 16647
    },
    {
      "entropy": 1.6835759778817494,
      "epoch": 1.8288703963088078,
      "grad_norm": 0.7733089327812195,
      "learning_rate": 2.3439430440821325e-06,
      "loss": 1.5894,
      "mean_token_accuracy": 0.6576187337438265,
      "num_tokens": 2792680483.0,
      "step": 16648
    },
    {
      "entropy": 1.7124978800614674,
      "epoch": 1.8289802532201809,
      "grad_norm": 0.7034731507301331,
      "learning_rate": 2.343504777686381e-06,
      "loss": 1.3342,
      "mean_token_accuracy": 0.6707392732302347,
      "num_tokens": 2792825740.0,
      "step": 16649
    },
    {
      "entropy": 1.7099045515060425,
      "epoch": 1.8290901101315535,
      "grad_norm": 0.7132044434547424,
      "learning_rate": 2.3430667852648026e-06,
      "loss": 1.3485,
      "mean_token_accuracy": 0.6722139616807302,
      "num_tokens": 2792955789.0,
      "step": 16650
    },
    {
      "entropy": 1.679776022831599,
      "epoch": 1.8291999670429266,
      "grad_norm": 0.6770622730255127,
      "learning_rate": 2.3426290668312595e-06,
      "loss": 1.3703,
      "mean_token_accuracy": 0.6551995724439621,
      "num_tokens": 2793117672.0,
      "step": 16651
    },
    {
      "entropy": 1.6446966528892517,
      "epoch": 1.8293098239542995,
      "grad_norm": 0.6462422609329224,
      "learning_rate": 2.3421916223996065e-06,
      "loss": 1.3236,
      "mean_token_accuracy": 0.6686488538980484,
      "num_tokens": 2793272672.0,
      "step": 16652
    },
    {
      "entropy": 1.6652612388134003,
      "epoch": 1.8294196808656724,
      "grad_norm": 0.721100926399231,
      "learning_rate": 2.341754451983686e-06,
      "loss": 1.4143,
      "mean_token_accuracy": 0.6578306208054224,
      "num_tokens": 2793437356.0,
      "step": 16653
    },
    {
      "entropy": 1.728610356648763,
      "epoch": 1.8295295377770455,
      "grad_norm": 0.755320131778717,
      "learning_rate": 2.341317555597336e-06,
      "loss": 1.3919,
      "mean_token_accuracy": 0.6722359557946523,
      "num_tokens": 2793560530.0,
      "step": 16654
    },
    {
      "entropy": 1.7180915176868439,
      "epoch": 1.8296393946884182,
      "grad_norm": 0.8217064142227173,
      "learning_rate": 2.340880933254383e-06,
      "loss": 1.4459,
      "mean_token_accuracy": 0.6533014078934988,
      "num_tokens": 2793736230.0,
      "step": 16655
    },
    {
      "entropy": 1.7117689450581868,
      "epoch": 1.8297492515997913,
      "grad_norm": 0.6694772839546204,
      "learning_rate": 2.340444584968648e-06,
      "loss": 1.4054,
      "mean_token_accuracy": 0.6524570882320404,
      "num_tokens": 2793904553.0,
      "step": 16656
    },
    {
      "entropy": 1.6685727834701538,
      "epoch": 1.8298591085111642,
      "grad_norm": 0.6724652051925659,
      "learning_rate": 2.34000851075394e-06,
      "loss": 1.4027,
      "mean_token_accuracy": 0.6603127866983414,
      "num_tokens": 2794065707.0,
      "step": 16657
    },
    {
      "entropy": 1.6848424673080444,
      "epoch": 1.829968965422537,
      "grad_norm": 0.6383946537971497,
      "learning_rate": 2.339572710624059e-06,
      "loss": 1.3201,
      "mean_token_accuracy": 0.6705543498198191,
      "num_tokens": 2794199367.0,
      "step": 16658
    },
    {
      "entropy": 1.7302991648515065,
      "epoch": 1.8300788223339102,
      "grad_norm": 0.823840320110321,
      "learning_rate": 2.3391371845928e-06,
      "loss": 1.4138,
      "mean_token_accuracy": 0.6613588233788809,
      "num_tokens": 2794363556.0,
      "step": 16659
    },
    {
      "entropy": 1.740784724553426,
      "epoch": 1.830188679245283,
      "grad_norm": 0.7151713967323303,
      "learning_rate": 2.3387019326739455e-06,
      "loss": 1.3664,
      "mean_token_accuracy": 0.6722310036420822,
      "num_tokens": 2794476140.0,
      "step": 16660
    },
    {
      "entropy": 1.7195179959138234,
      "epoch": 1.830298536156656,
      "grad_norm": 0.7539914846420288,
      "learning_rate": 2.338266954881273e-06,
      "loss": 1.5308,
      "mean_token_accuracy": 0.6465074469645818,
      "num_tokens": 2794668990.0,
      "step": 16661
    },
    {
      "entropy": 1.7197861671447754,
      "epoch": 1.830408393068029,
      "grad_norm": 0.8375680446624756,
      "learning_rate": 2.337832251228547e-06,
      "loss": 1.5809,
      "mean_token_accuracy": 0.6555479913949966,
      "num_tokens": 2794844610.0,
      "step": 16662
    },
    {
      "entropy": 1.7217328945795696,
      "epoch": 1.8305182499794017,
      "grad_norm": 0.7076695561408997,
      "learning_rate": 2.3373978217295286e-06,
      "loss": 1.3478,
      "mean_token_accuracy": 0.659163624048233,
      "num_tokens": 2795012428.0,
      "step": 16663
    },
    {
      "entropy": 1.7476484874884288,
      "epoch": 1.8306281068907748,
      "grad_norm": 0.6806117296218872,
      "learning_rate": 2.336963666397965e-06,
      "loss": 1.6084,
      "mean_token_accuracy": 0.6421725749969482,
      "num_tokens": 2795174407.0,
      "step": 16664
    },
    {
      "entropy": 1.6913608014583588,
      "epoch": 1.8307379638021477,
      "grad_norm": 0.7132964134216309,
      "learning_rate": 2.336529785247597e-06,
      "loss": 1.4221,
      "mean_token_accuracy": 0.6525693833827972,
      "num_tokens": 2795305317.0,
      "step": 16665
    },
    {
      "entropy": 1.703669399023056,
      "epoch": 1.8308478207135206,
      "grad_norm": 0.7673993706703186,
      "learning_rate": 2.336096178292159e-06,
      "loss": 1.3788,
      "mean_token_accuracy": 0.6568796038627625,
      "num_tokens": 2795427951.0,
      "step": 16666
    },
    {
      "entropy": 1.6177269021670024,
      "epoch": 1.8309576776248937,
      "grad_norm": 0.6640709638595581,
      "learning_rate": 2.3356628455453704e-06,
      "loss": 1.2852,
      "mean_token_accuracy": 0.6807574729124705,
      "num_tokens": 2795558559.0,
      "step": 16667
    },
    {
      "entropy": 1.719151347875595,
      "epoch": 1.8310675345362664,
      "grad_norm": 0.7354775667190552,
      "learning_rate": 2.3352297870209508e-06,
      "loss": 1.3344,
      "mean_token_accuracy": 0.6731430192788442,
      "num_tokens": 2795681017.0,
      "step": 16668
    },
    {
      "entropy": 1.6955258548259735,
      "epoch": 1.8311773914476395,
      "grad_norm": 0.8023842573165894,
      "learning_rate": 2.3347970027326043e-06,
      "loss": 1.497,
      "mean_token_accuracy": 0.6416831761598587,
      "num_tokens": 2795871098.0,
      "step": 16669
    },
    {
      "entropy": 1.7174125413099925,
      "epoch": 1.8312872483590124,
      "grad_norm": 0.6527412533760071,
      "learning_rate": 2.3343644926940253e-06,
      "loss": 1.2843,
      "mean_token_accuracy": 0.6673098454872767,
      "num_tokens": 2796022135.0,
      "step": 16670
    },
    {
      "entropy": 1.6860974431037903,
      "epoch": 1.8313971052703852,
      "grad_norm": 0.6887062788009644,
      "learning_rate": 2.3339322569189074e-06,
      "loss": 1.4243,
      "mean_token_accuracy": 0.6650121112664541,
      "num_tokens": 2796181833.0,
      "step": 16671
    },
    {
      "entropy": 1.6747096180915833,
      "epoch": 1.8315069621817583,
      "grad_norm": 0.7698276042938232,
      "learning_rate": 2.3335002954209285e-06,
      "loss": 1.4173,
      "mean_token_accuracy": 0.6679667383432388,
      "num_tokens": 2796341629.0,
      "step": 16672
    },
    {
      "entropy": 1.705536663532257,
      "epoch": 1.8316168190931312,
      "grad_norm": 0.7042364478111267,
      "learning_rate": 2.33306860821376e-06,
      "loss": 1.5278,
      "mean_token_accuracy": 0.6453391214211782,
      "num_tokens": 2796497957.0,
      "step": 16673
    },
    {
      "entropy": 1.678510695695877,
      "epoch": 1.8317266760045041,
      "grad_norm": 0.6615474820137024,
      "learning_rate": 2.3326371953110642e-06,
      "loss": 1.3508,
      "mean_token_accuracy": 0.6713146766026815,
      "num_tokens": 2796665935.0,
      "step": 16674
    },
    {
      "entropy": 1.6524465282758076,
      "epoch": 1.8318365329158772,
      "grad_norm": 0.6595404744148254,
      "learning_rate": 2.332206056726495e-06,
      "loss": 1.3634,
      "mean_token_accuracy": 0.6558839529752731,
      "num_tokens": 2796839734.0,
      "step": 16675
    },
    {
      "entropy": 1.683104048172633,
      "epoch": 1.8319463898272499,
      "grad_norm": 0.59060138463974,
      "learning_rate": 2.3317751924736994e-06,
      "loss": 1.4722,
      "mean_token_accuracy": 0.6600749840339025,
      "num_tokens": 2797058425.0,
      "step": 16676
    },
    {
      "entropy": 1.690855731566747,
      "epoch": 1.832056246738623,
      "grad_norm": 0.7545903921127319,
      "learning_rate": 2.331344602566313e-06,
      "loss": 1.1887,
      "mean_token_accuracy": 0.6840762843688329,
      "num_tokens": 2797168514.0,
      "step": 16677
    },
    {
      "entropy": 1.7053393423557281,
      "epoch": 1.8321661036499959,
      "grad_norm": 0.6647628545761108,
      "learning_rate": 2.3309142870179624e-06,
      "loss": 1.2683,
      "mean_token_accuracy": 0.6724948883056641,
      "num_tokens": 2797306928.0,
      "step": 16678
    },
    {
      "entropy": 1.7144875427087147,
      "epoch": 1.8322759605613688,
      "grad_norm": 0.7609655857086182,
      "learning_rate": 2.3304842458422687e-06,
      "loss": 1.4754,
      "mean_token_accuracy": 0.6519733120997747,
      "num_tokens": 2797455985.0,
      "step": 16679
    },
    {
      "entropy": 1.695515791575114,
      "epoch": 1.8323858174727419,
      "grad_norm": 0.7155903577804565,
      "learning_rate": 2.330054479052844e-06,
      "loss": 1.3468,
      "mean_token_accuracy": 0.6665776371955872,
      "num_tokens": 2797601314.0,
      "step": 16680
    },
    {
      "entropy": 1.730222334464391,
      "epoch": 1.8324956743841145,
      "grad_norm": 0.6431559920310974,
      "learning_rate": 2.329624986663286e-06,
      "loss": 1.4597,
      "mean_token_accuracy": 0.652314489086469,
      "num_tokens": 2797755866.0,
      "step": 16681
    },
    {
      "entropy": 1.7097695469856262,
      "epoch": 1.8326055312954876,
      "grad_norm": 0.7711726427078247,
      "learning_rate": 2.3291957686871906e-06,
      "loss": 1.3307,
      "mean_token_accuracy": 0.6789915611346563,
      "num_tokens": 2797949501.0,
      "step": 16682
    },
    {
      "entropy": 1.7180574436982472,
      "epoch": 1.8327153882068605,
      "grad_norm": 0.629719614982605,
      "learning_rate": 2.3287668251381425e-06,
      "loss": 1.341,
      "mean_token_accuracy": 0.661995048324267,
      "num_tokens": 2798137574.0,
      "step": 16683
    },
    {
      "entropy": 1.663592944542567,
      "epoch": 1.8328252451182334,
      "grad_norm": 0.5827559232711792,
      "learning_rate": 2.3283381560297174e-06,
      "loss": 1.3726,
      "mean_token_accuracy": 0.6665849586327871,
      "num_tokens": 2798318692.0,
      "step": 16684
    },
    {
      "entropy": 1.7471620738506317,
      "epoch": 1.8329351020296065,
      "grad_norm": 0.6353728175163269,
      "learning_rate": 2.327909761375481e-06,
      "loss": 1.5038,
      "mean_token_accuracy": 0.6181689401467642,
      "num_tokens": 2798535717.0,
      "step": 16685
    },
    {
      "entropy": 1.7170325716336567,
      "epoch": 1.8330449589409794,
      "grad_norm": 0.5999660491943359,
      "learning_rate": 2.327481641188994e-06,
      "loss": 1.4572,
      "mean_token_accuracy": 0.6410307437181473,
      "num_tokens": 2798743059.0,
      "step": 16686
    },
    {
      "entropy": 1.6927921573321025,
      "epoch": 1.8331548158523523,
      "grad_norm": 0.767248272895813,
      "learning_rate": 2.327053795483804e-06,
      "loss": 1.3298,
      "mean_token_accuracy": 0.6670361459255219,
      "num_tokens": 2798877340.0,
      "step": 16687
    },
    {
      "entropy": 1.7161982754866283,
      "epoch": 1.8332646727637254,
      "grad_norm": 0.6494265198707581,
      "learning_rate": 2.3266262242734533e-06,
      "loss": 1.4735,
      "mean_token_accuracy": 0.6449993848800659,
      "num_tokens": 2799071422.0,
      "step": 16688
    },
    {
      "entropy": 1.6752700805664062,
      "epoch": 1.833374529675098,
      "grad_norm": 0.6607106924057007,
      "learning_rate": 2.326198927571476e-06,
      "loss": 1.4465,
      "mean_token_accuracy": 0.6546447724103928,
      "num_tokens": 2799256633.0,
      "step": 16689
    },
    {
      "entropy": 1.6198724607626598,
      "epoch": 1.8334843865864712,
      "grad_norm": 0.6523711085319519,
      "learning_rate": 2.3257719053913918e-06,
      "loss": 1.3877,
      "mean_token_accuracy": 0.6629767715930939,
      "num_tokens": 2799420133.0,
      "step": 16690
    },
    {
      "entropy": 1.65846848487854,
      "epoch": 1.833594243497844,
      "grad_norm": 0.7563357353210449,
      "learning_rate": 2.325345157746719e-06,
      "loss": 1.3276,
      "mean_token_accuracy": 0.6739385028680166,
      "num_tokens": 2799565448.0,
      "step": 16691
    },
    {
      "entropy": 1.715136726697286,
      "epoch": 1.833704100409217,
      "grad_norm": 0.9137521386146545,
      "learning_rate": 2.324918684650965e-06,
      "loss": 1.2287,
      "mean_token_accuracy": 0.6744515299797058,
      "num_tokens": 2799666308.0,
      "step": 16692
    },
    {
      "entropy": 1.7323183019955952,
      "epoch": 1.83381395732059,
      "grad_norm": 0.6691234111785889,
      "learning_rate": 2.324492486117623e-06,
      "loss": 1.4001,
      "mean_token_accuracy": 0.6475772460301717,
      "num_tokens": 2799802850.0,
      "step": 16693
    },
    {
      "entropy": 1.7045779128869374,
      "epoch": 1.8339238142319627,
      "grad_norm": 0.6672487854957581,
      "learning_rate": 2.3240665621601845e-06,
      "loss": 1.394,
      "mean_token_accuracy": 0.6490417867898941,
      "num_tokens": 2799931349.0,
      "step": 16694
    },
    {
      "entropy": 1.7110650738080342,
      "epoch": 1.8340336711433358,
      "grad_norm": 0.9822511672973633,
      "learning_rate": 2.323640912792131e-06,
      "loss": 1.4708,
      "mean_token_accuracy": 0.6601487100124359,
      "num_tokens": 2800082985.0,
      "step": 16695
    },
    {
      "entropy": 1.7707766592502594,
      "epoch": 1.8341435280547087,
      "grad_norm": 0.6212161779403687,
      "learning_rate": 2.3232155380269334e-06,
      "loss": 1.4198,
      "mean_token_accuracy": 0.6484910945097605,
      "num_tokens": 2800227500.0,
      "step": 16696
    },
    {
      "entropy": 1.7343395352363586,
      "epoch": 1.8342533849660816,
      "grad_norm": 0.6109079718589783,
      "learning_rate": 2.3227904378780525e-06,
      "loss": 1.4134,
      "mean_token_accuracy": 0.6515641411145529,
      "num_tokens": 2800407929.0,
      "step": 16697
    },
    {
      "entropy": 1.7123263776302338,
      "epoch": 1.8343632418774547,
      "grad_norm": 0.7430224418640137,
      "learning_rate": 2.3223656123589465e-06,
      "loss": 1.4596,
      "mean_token_accuracy": 0.6462646871805191,
      "num_tokens": 2800592020.0,
      "step": 16698
    },
    {
      "entropy": 1.760039468606313,
      "epoch": 1.8344730987888276,
      "grad_norm": 0.7846954464912415,
      "learning_rate": 2.3219410614830565e-06,
      "loss": 1.3439,
      "mean_token_accuracy": 0.6587338050206503,
      "num_tokens": 2800717471.0,
      "step": 16699
    },
    {
      "entropy": 1.71830815076828,
      "epoch": 1.8345829557002005,
      "grad_norm": 0.833976686000824,
      "learning_rate": 2.321516785263822e-06,
      "loss": 1.4485,
      "mean_token_accuracy": 0.6538856824239095,
      "num_tokens": 2800878599.0,
      "step": 16700
    },
    {
      "entropy": 1.734289248784383,
      "epoch": 1.8346928126115736,
      "grad_norm": 0.6943913698196411,
      "learning_rate": 2.321092783714671e-06,
      "loss": 1.3736,
      "mean_token_accuracy": 0.6654922415812811,
      "num_tokens": 2801021962.0,
      "step": 16701
    },
    {
      "entropy": 1.7423664331436157,
      "epoch": 1.8348026695229462,
      "grad_norm": 0.665240466594696,
      "learning_rate": 2.3206690568490227e-06,
      "loss": 1.3895,
      "mean_token_accuracy": 0.6504726807276408,
      "num_tokens": 2801170792.0,
      "step": 16702
    },
    {
      "entropy": 1.6692781150341034,
      "epoch": 1.8349125264343193,
      "grad_norm": 0.6680687069892883,
      "learning_rate": 2.320245604680287e-06,
      "loss": 1.4679,
      "mean_token_accuracy": 0.6471812377373377,
      "num_tokens": 2801333096.0,
      "step": 16703
    },
    {
      "entropy": 1.73446982105573,
      "epoch": 1.8350223833456922,
      "grad_norm": 0.6099308133125305,
      "learning_rate": 2.3198224272218688e-06,
      "loss": 1.4017,
      "mean_token_accuracy": 0.6566864202419916,
      "num_tokens": 2801528350.0,
      "step": 16704
    },
    {
      "entropy": 1.7558285593986511,
      "epoch": 1.8351322402570651,
      "grad_norm": 0.6862417459487915,
      "learning_rate": 2.3193995244871563e-06,
      "loss": 1.4117,
      "mean_token_accuracy": 0.6532981991767883,
      "num_tokens": 2801649689.0,
      "step": 16705
    },
    {
      "entropy": 1.668075293302536,
      "epoch": 1.8352420971684382,
      "grad_norm": 0.6663626432418823,
      "learning_rate": 2.318976896489539e-06,
      "loss": 1.2259,
      "mean_token_accuracy": 0.6728375951449076,
      "num_tokens": 2801778768.0,
      "step": 16706
    },
    {
      "entropy": 1.7122756640116374,
      "epoch": 1.8353519540798109,
      "grad_norm": 0.6838109493255615,
      "learning_rate": 2.3185545432423913e-06,
      "loss": 1.3666,
      "mean_token_accuracy": 0.6625057260195414,
      "num_tokens": 2801920311.0,
      "step": 16707
    },
    {
      "entropy": 1.6512116491794586,
      "epoch": 1.835461810991184,
      "grad_norm": 0.6728096008300781,
      "learning_rate": 2.31813246475908e-06,
      "loss": 1.4699,
      "mean_token_accuracy": 0.6534949143727621,
      "num_tokens": 2802092232.0,
      "step": 16708
    },
    {
      "entropy": 1.7649835646152496,
      "epoch": 1.8355716679025569,
      "grad_norm": 0.6703423261642456,
      "learning_rate": 2.3177106610529636e-06,
      "loss": 1.3734,
      "mean_token_accuracy": 0.670386994878451,
      "num_tokens": 2802257287.0,
      "step": 16709
    },
    {
      "entropy": 1.709249993165334,
      "epoch": 1.8356815248139298,
      "grad_norm": 0.6634789109230042,
      "learning_rate": 2.317289132137394e-06,
      "loss": 1.4009,
      "mean_token_accuracy": 0.6566235572099686,
      "num_tokens": 2802415941.0,
      "step": 16710
    },
    {
      "entropy": 1.6666079958279927,
      "epoch": 1.8357913817253029,
      "grad_norm": 0.7016635537147522,
      "learning_rate": 2.3168678780257087e-06,
      "loss": 1.2665,
      "mean_token_accuracy": 0.6808893928925196,
      "num_tokens": 2802520782.0,
      "step": 16711
    },
    {
      "entropy": 1.7787012954552968,
      "epoch": 1.8359012386366758,
      "grad_norm": 0.803626298904419,
      "learning_rate": 2.316446898731243e-06,
      "loss": 1.3076,
      "mean_token_accuracy": 0.669058566292127,
      "num_tokens": 2802665165.0,
      "step": 16712
    },
    {
      "entropy": 1.7142982184886932,
      "epoch": 1.8360110955480486,
      "grad_norm": 0.6213630437850952,
      "learning_rate": 2.3160261942673214e-06,
      "loss": 1.4598,
      "mean_token_accuracy": 0.6640812555948893,
      "num_tokens": 2802817063.0,
      "step": 16713
    },
    {
      "entropy": 1.6978369255860646,
      "epoch": 1.8361209524594218,
      "grad_norm": 0.7595458030700684,
      "learning_rate": 2.315605764647256e-06,
      "loss": 1.2793,
      "mean_token_accuracy": 0.6742851883172989,
      "num_tokens": 2802976665.0,
      "step": 16714
    },
    {
      "entropy": 1.7584485709667206,
      "epoch": 1.8362308093707944,
      "grad_norm": 0.6625379323959351,
      "learning_rate": 2.3151856098843546e-06,
      "loss": 1.3989,
      "mean_token_accuracy": 0.6467997978130976,
      "num_tokens": 2803145950.0,
      "step": 16715
    },
    {
      "entropy": 1.6833869119485219,
      "epoch": 1.8363406662821675,
      "grad_norm": 0.7335963249206543,
      "learning_rate": 2.314765729991918e-06,
      "loss": 1.3019,
      "mean_token_accuracy": 0.67206671833992,
      "num_tokens": 2803299408.0,
      "step": 16716
    },
    {
      "entropy": 1.693650444348653,
      "epoch": 1.8364505231935404,
      "grad_norm": 1.7734737396240234,
      "learning_rate": 2.31434612498323e-06,
      "loss": 1.2178,
      "mean_token_accuracy": 0.6751609444618225,
      "num_tokens": 2803465084.0,
      "step": 16717
    },
    {
      "entropy": 1.657290409008662,
      "epoch": 1.8365603801049133,
      "grad_norm": 0.6704737544059753,
      "learning_rate": 2.3139267948715727e-06,
      "loss": 1.2829,
      "mean_token_accuracy": 0.6748186101516088,
      "num_tokens": 2803606663.0,
      "step": 16718
    },
    {
      "entropy": 1.6640637814998627,
      "epoch": 1.8366702370162864,
      "grad_norm": 0.6008581519126892,
      "learning_rate": 2.3135077396702205e-06,
      "loss": 1.4499,
      "mean_token_accuracy": 0.6364815980195999,
      "num_tokens": 2803903340.0,
      "step": 16719
    },
    {
      "entropy": 1.7623928785324097,
      "epoch": 1.836780093927659,
      "grad_norm": 0.6992172598838806,
      "learning_rate": 2.313088959392434e-06,
      "loss": 1.4895,
      "mean_token_accuracy": 0.6527946243683497,
      "num_tokens": 2804062195.0,
      "step": 16720
    },
    {
      "entropy": 1.6591077148914337,
      "epoch": 1.8368899508390322,
      "grad_norm": 0.6158271431922913,
      "learning_rate": 2.312670454051466e-06,
      "loss": 1.5485,
      "mean_token_accuracy": 0.636052280664444,
      "num_tokens": 2804285283.0,
      "step": 16721
    },
    {
      "entropy": 1.7128118971983592,
      "epoch": 1.836999807750405,
      "grad_norm": 0.5718826055526733,
      "learning_rate": 2.3122522236605645e-06,
      "loss": 1.4816,
      "mean_token_accuracy": 0.639900396267573,
      "num_tokens": 2804515546.0,
      "step": 16722
    },
    {
      "entropy": 1.6636869013309479,
      "epoch": 1.837109664661778,
      "grad_norm": 0.6339669227600098,
      "learning_rate": 2.311834268232964e-06,
      "loss": 1.3845,
      "mean_token_accuracy": 0.661793996890386,
      "num_tokens": 2804720983.0,
      "step": 16723
    },
    {
      "entropy": 1.6897972722848256,
      "epoch": 1.837219521573151,
      "grad_norm": 0.6934084296226501,
      "learning_rate": 2.311416587781895e-06,
      "loss": 1.215,
      "mean_token_accuracy": 0.6849165956179301,
      "num_tokens": 2804878895.0,
      "step": 16724
    },
    {
      "entropy": 1.757619212071101,
      "epoch": 1.837329378484524,
      "grad_norm": 0.6026404500007629,
      "learning_rate": 2.3109991823205763e-06,
      "loss": 1.3753,
      "mean_token_accuracy": 0.6520447432994843,
      "num_tokens": 2805043646.0,
      "step": 16725
    },
    {
      "entropy": 1.7655748923619587,
      "epoch": 1.8374392353958968,
      "grad_norm": 0.6365966200828552,
      "learning_rate": 2.310582051862217e-06,
      "loss": 1.3717,
      "mean_token_accuracy": 0.6470306913057963,
      "num_tokens": 2805192125.0,
      "step": 16726
    },
    {
      "entropy": 1.7034188906351726,
      "epoch": 1.83754909230727,
      "grad_norm": 0.8369081020355225,
      "learning_rate": 2.310165196420021e-06,
      "loss": 1.2939,
      "mean_token_accuracy": 0.668337215979894,
      "num_tokens": 2805332008.0,
      "step": 16727
    },
    {
      "entropy": 1.7169418434302013,
      "epoch": 1.8376589492186426,
      "grad_norm": 0.707994818687439,
      "learning_rate": 2.309748616007181e-06,
      "loss": 1.6019,
      "mean_token_accuracy": 0.6377008507649103,
      "num_tokens": 2805520557.0,
      "step": 16728
    },
    {
      "entropy": 1.739993025859197,
      "epoch": 1.8377688061300157,
      "grad_norm": 0.7567148208618164,
      "learning_rate": 2.3093323106368804e-06,
      "loss": 1.219,
      "mean_token_accuracy": 0.6780005594094595,
      "num_tokens": 2805656356.0,
      "step": 16729
    },
    {
      "entropy": 1.7764423092206318,
      "epoch": 1.8378786630413886,
      "grad_norm": 0.7887062430381775,
      "learning_rate": 2.308916280322296e-06,
      "loss": 1.5156,
      "mean_token_accuracy": 0.6396622359752655,
      "num_tokens": 2805861144.0,
      "step": 16730
    },
    {
      "entropy": 1.6603560149669647,
      "epoch": 1.8379885199527615,
      "grad_norm": 0.6049760580062866,
      "learning_rate": 2.3085005250765965e-06,
      "loss": 1.3529,
      "mean_token_accuracy": 0.6593878070513407,
      "num_tokens": 2806012980.0,
      "step": 16731
    },
    {
      "entropy": 1.745975524187088,
      "epoch": 1.8380983768641346,
      "grad_norm": 0.694965124130249,
      "learning_rate": 2.3080850449129375e-06,
      "loss": 1.5094,
      "mean_token_accuracy": 0.6494153340657552,
      "num_tokens": 2806192613.0,
      "step": 16732
    },
    {
      "entropy": 1.638623684644699,
      "epoch": 1.8382082337755072,
      "grad_norm": 0.5887953639030457,
      "learning_rate": 2.3076698398444714e-06,
      "loss": 1.318,
      "mean_token_accuracy": 0.6599133412043253,
      "num_tokens": 2806347525.0,
      "step": 16733
    },
    {
      "entropy": 1.7663246889909108,
      "epoch": 1.8383180906868803,
      "grad_norm": 0.7165161967277527,
      "learning_rate": 2.307254909884337e-06,
      "loss": 1.4706,
      "mean_token_accuracy": 0.6425551424423853,
      "num_tokens": 2806567225.0,
      "step": 16734
    },
    {
      "entropy": 1.6672922571500142,
      "epoch": 1.8384279475982532,
      "grad_norm": 0.7588421106338501,
      "learning_rate": 2.3068402550456666e-06,
      "loss": 1.3066,
      "mean_token_accuracy": 0.6717980951070786,
      "num_tokens": 2806721250.0,
      "step": 16735
    },
    {
      "entropy": 1.6799332797527313,
      "epoch": 1.8385378045096261,
      "grad_norm": 0.6996718645095825,
      "learning_rate": 2.3064258753415876e-06,
      "loss": 1.427,
      "mean_token_accuracy": 0.6578944275776545,
      "num_tokens": 2806893990.0,
      "step": 16736
    },
    {
      "entropy": 1.7593200008074443,
      "epoch": 1.8386476614209992,
      "grad_norm": 0.7356519103050232,
      "learning_rate": 2.30601177078521e-06,
      "loss": 1.5172,
      "mean_token_accuracy": 0.6432800640662512,
      "num_tokens": 2807056845.0,
      "step": 16737
    },
    {
      "entropy": 1.770335892836253,
      "epoch": 1.838757518332372,
      "grad_norm": 0.7394158840179443,
      "learning_rate": 2.305597941389643e-06,
      "loss": 1.4034,
      "mean_token_accuracy": 0.650958850979805,
      "num_tokens": 2807199870.0,
      "step": 16738
    },
    {
      "entropy": 1.683393657207489,
      "epoch": 1.838867375243745,
      "grad_norm": 0.7186655402183533,
      "learning_rate": 2.305184387167984e-06,
      "loss": 1.4326,
      "mean_token_accuracy": 0.6676509827375412,
      "num_tokens": 2807428387.0,
      "step": 16739
    },
    {
      "entropy": 1.7485286990801494,
      "epoch": 1.838977232155118,
      "grad_norm": 0.6906415224075317,
      "learning_rate": 2.3047711081333206e-06,
      "loss": 1.2982,
      "mean_token_accuracy": 0.6647703647613525,
      "num_tokens": 2807578751.0,
      "step": 16740
    },
    {
      "entropy": 1.7130445539951324,
      "epoch": 1.8390870890664908,
      "grad_norm": 0.6014775037765503,
      "learning_rate": 2.304358104298733e-06,
      "loss": 1.5085,
      "mean_token_accuracy": 0.6496585061152776,
      "num_tokens": 2807789299.0,
      "step": 16741
    },
    {
      "entropy": 1.7314409911632538,
      "epoch": 1.8391969459778639,
      "grad_norm": 0.8532242178916931,
      "learning_rate": 2.3039453756772944e-06,
      "loss": 1.5082,
      "mean_token_accuracy": 0.6510532250006994,
      "num_tokens": 2807931287.0,
      "step": 16742
    },
    {
      "entropy": 1.6471184194087982,
      "epoch": 1.8393068028892368,
      "grad_norm": 0.7204332947731018,
      "learning_rate": 2.3035329222820648e-06,
      "loss": 1.3199,
      "mean_token_accuracy": 0.6603179921706518,
      "num_tokens": 2808087757.0,
      "step": 16743
    },
    {
      "entropy": 1.6706886788209279,
      "epoch": 1.8394166598006096,
      "grad_norm": 0.6390844583511353,
      "learning_rate": 2.3031207441261006e-06,
      "loss": 1.3195,
      "mean_token_accuracy": 0.6594639817873637,
      "num_tokens": 2808250689.0,
      "step": 16744
    },
    {
      "entropy": 1.7221011817455292,
      "epoch": 1.8395265167119828,
      "grad_norm": 0.7180662751197815,
      "learning_rate": 2.302708841222445e-06,
      "loss": 1.2913,
      "mean_token_accuracy": 0.6685677369435629,
      "num_tokens": 2808358557.0,
      "step": 16745
    },
    {
      "entropy": 1.6975955367088318,
      "epoch": 1.8396363736233554,
      "grad_norm": 0.8012198209762573,
      "learning_rate": 2.3022972135841354e-06,
      "loss": 1.5236,
      "mean_token_accuracy": 0.636689285437266,
      "num_tokens": 2808536243.0,
      "step": 16746
    },
    {
      "entropy": 1.70916286110878,
      "epoch": 1.8397462305347285,
      "grad_norm": 0.6637392044067383,
      "learning_rate": 2.3018858612241997e-06,
      "loss": 1.3551,
      "mean_token_accuracy": 0.6624687761068344,
      "num_tokens": 2808674739.0,
      "step": 16747
    },
    {
      "entropy": 1.7597693900267284,
      "epoch": 1.8398560874461014,
      "grad_norm": 0.9263545274734497,
      "learning_rate": 2.3014747841556583e-06,
      "loss": 1.4849,
      "mean_token_accuracy": 0.6398697346448898,
      "num_tokens": 2808878557.0,
      "step": 16748
    },
    {
      "entropy": 1.7256910403569539,
      "epoch": 1.8399659443574743,
      "grad_norm": 0.695277988910675,
      "learning_rate": 2.301063982391519e-06,
      "loss": 1.3442,
      "mean_token_accuracy": 0.673882856965065,
      "num_tokens": 2809033754.0,
      "step": 16749
    },
    {
      "entropy": 1.6844683488210042,
      "epoch": 1.8400758012688474,
      "grad_norm": 0.775905430316925,
      "learning_rate": 2.300653455944785e-06,
      "loss": 1.2839,
      "mean_token_accuracy": 0.6783890922864279,
      "num_tokens": 2809173907.0,
      "step": 16750
    },
    {
      "entropy": 1.660104662179947,
      "epoch": 1.8401856581802203,
      "grad_norm": 0.9453991055488586,
      "learning_rate": 2.3002432048284495e-06,
      "loss": 1.569,
      "mean_token_accuracy": 0.6625748674074808,
      "num_tokens": 2809371151.0,
      "step": 16751
    },
    {
      "entropy": 1.6786755224068959,
      "epoch": 1.8402955150915932,
      "grad_norm": 0.9610604643821716,
      "learning_rate": 2.299833229055497e-06,
      "loss": 1.0901,
      "mean_token_accuracy": 0.6992639452219009,
      "num_tokens": 2809557765.0,
      "step": 16752
    },
    {
      "entropy": 1.6895591119925182,
      "epoch": 1.8404053720029663,
      "grad_norm": 0.6605542898178101,
      "learning_rate": 2.2994235286389006e-06,
      "loss": 1.4095,
      "mean_token_accuracy": 0.6520673781633377,
      "num_tokens": 2809742936.0,
      "step": 16753
    },
    {
      "entropy": 1.63118776679039,
      "epoch": 1.840515228914339,
      "grad_norm": 0.5481594800949097,
      "learning_rate": 2.2990141035916304e-06,
      "loss": 1.4048,
      "mean_token_accuracy": 0.6418586075305939,
      "num_tokens": 2809960815.0,
      "step": 16754
    },
    {
      "entropy": 1.64922496676445,
      "epoch": 1.840625085825712,
      "grad_norm": 0.6355406641960144,
      "learning_rate": 2.298604953926642e-06,
      "loss": 1.4373,
      "mean_token_accuracy": 0.6513316084941229,
      "num_tokens": 2810165370.0,
      "step": 16755
    },
    {
      "entropy": 1.6678697963555653,
      "epoch": 1.840734942737085,
      "grad_norm": 0.7785813212394714,
      "learning_rate": 2.2981960796568873e-06,
      "loss": 1.5217,
      "mean_token_accuracy": 0.65113993982474,
      "num_tokens": 2810349269.0,
      "step": 16756
    },
    {
      "entropy": 1.7382381856441498,
      "epoch": 1.8408447996484578,
      "grad_norm": 0.8284785747528076,
      "learning_rate": 2.297787480795305e-06,
      "loss": 1.442,
      "mean_token_accuracy": 0.6547079781691233,
      "num_tokens": 2810533928.0,
      "step": 16757
    },
    {
      "entropy": 1.6844376226266224,
      "epoch": 1.840954656559831,
      "grad_norm": 0.7436577677726746,
      "learning_rate": 2.2973791573548267e-06,
      "loss": 1.3838,
      "mean_token_accuracy": 0.6586803744236628,
      "num_tokens": 2810689879.0,
      "step": 16758
    },
    {
      "entropy": 1.7238931755224864,
      "epoch": 1.8410645134712038,
      "grad_norm": 0.6770063042640686,
      "learning_rate": 2.2969711093483765e-06,
      "loss": 1.4644,
      "mean_token_accuracy": 0.6473502864440283,
      "num_tokens": 2810846252.0,
      "step": 16759
    },
    {
      "entropy": 1.776161293188731,
      "epoch": 1.8411743703825767,
      "grad_norm": 0.601456344127655,
      "learning_rate": 2.2965633367888716e-06,
      "loss": 1.3195,
      "mean_token_accuracy": 0.6596719473600388,
      "num_tokens": 2810987101.0,
      "step": 16760
    },
    {
      "entropy": 1.6843051811059315,
      "epoch": 1.8412842272939496,
      "grad_norm": 0.746356189250946,
      "learning_rate": 2.296155839689213e-06,
      "loss": 1.3483,
      "mean_token_accuracy": 0.6751666714747747,
      "num_tokens": 2811153094.0,
      "step": 16761
    },
    {
      "entropy": 1.7052331566810608,
      "epoch": 1.8413940842053225,
      "grad_norm": 0.6584969162940979,
      "learning_rate": 2.295748618062299e-06,
      "loss": 1.4244,
      "mean_token_accuracy": 0.6420090397198995,
      "num_tokens": 2811356100.0,
      "step": 16762
    },
    {
      "entropy": 1.6847927769025166,
      "epoch": 1.8415039411166956,
      "grad_norm": 0.6887544393539429,
      "learning_rate": 2.2953416719210216e-06,
      "loss": 1.3471,
      "mean_token_accuracy": 0.6726632316907247,
      "num_tokens": 2811473596.0,
      "step": 16763
    },
    {
      "entropy": 1.6632155577341716,
      "epoch": 1.8416137980280685,
      "grad_norm": 0.7095504999160767,
      "learning_rate": 2.2949350012782563e-06,
      "loss": 1.4566,
      "mean_token_accuracy": 0.6513134290774664,
      "num_tokens": 2811660773.0,
      "step": 16764
    },
    {
      "entropy": 1.7216549217700958,
      "epoch": 1.8417236549394413,
      "grad_norm": 0.7090489268302917,
      "learning_rate": 2.2945286061468764e-06,
      "loss": 1.4007,
      "mean_token_accuracy": 0.6596039036909739,
      "num_tokens": 2811832001.0,
      "step": 16765
    },
    {
      "entropy": 1.7071708242098491,
      "epoch": 1.8418335118508145,
      "grad_norm": 0.6916561126708984,
      "learning_rate": 2.2941224865397428e-06,
      "loss": 1.5654,
      "mean_token_accuracy": 0.630169411500295,
      "num_tokens": 2812111813.0,
      "step": 16766
    },
    {
      "entropy": 1.7071344057718914,
      "epoch": 1.8419433687621871,
      "grad_norm": 0.6458945274353027,
      "learning_rate": 2.293716642469709e-06,
      "loss": 1.3842,
      "mean_token_accuracy": 0.6630050440629324,
      "num_tokens": 2812271734.0,
      "step": 16767
    },
    {
      "entropy": 1.727453351020813,
      "epoch": 1.8420532256735602,
      "grad_norm": 0.7190876603126526,
      "learning_rate": 2.2933110739496217e-06,
      "loss": 1.4531,
      "mean_token_accuracy": 0.6521121064821879,
      "num_tokens": 2812433572.0,
      "step": 16768
    },
    {
      "entropy": 1.6626160542170207,
      "epoch": 1.842163082584933,
      "grad_norm": 0.8066210746765137,
      "learning_rate": 2.2929057809923155e-06,
      "loss": 1.4449,
      "mean_token_accuracy": 0.6541995108127594,
      "num_tokens": 2812644959.0,
      "step": 16769
    },
    {
      "entropy": 1.7399661739667256,
      "epoch": 1.842272939496306,
      "grad_norm": 0.6394560933113098,
      "learning_rate": 2.2925007636106167e-06,
      "loss": 1.3539,
      "mean_token_accuracy": 0.6547619154055914,
      "num_tokens": 2812803221.0,
      "step": 16770
    },
    {
      "entropy": 1.7124665677547455,
      "epoch": 1.842382796407679,
      "grad_norm": 0.8350101709365845,
      "learning_rate": 2.292096021817345e-06,
      "loss": 1.3946,
      "mean_token_accuracy": 0.6505677302678426,
      "num_tokens": 2812976208.0,
      "step": 16771
    },
    {
      "entropy": 1.7322071393330891,
      "epoch": 1.842492653319052,
      "grad_norm": 0.7939152121543884,
      "learning_rate": 2.2916915556253123e-06,
      "loss": 1.4203,
      "mean_token_accuracy": 0.661156415939331,
      "num_tokens": 2813157911.0,
      "step": 16772
    },
    {
      "entropy": 1.7652178903420765,
      "epoch": 1.8426025102304249,
      "grad_norm": 0.7062113285064697,
      "learning_rate": 2.291287365047316e-06,
      "loss": 1.5109,
      "mean_token_accuracy": 0.6431985199451447,
      "num_tokens": 2813344031.0,
      "step": 16773
    },
    {
      "entropy": 1.6703122456868489,
      "epoch": 1.8427123671417978,
      "grad_norm": 0.713137686252594,
      "learning_rate": 2.2908834500961504e-06,
      "loss": 1.2947,
      "mean_token_accuracy": 0.6722335070371628,
      "num_tokens": 2813509598.0,
      "step": 16774
    },
    {
      "entropy": 1.73709570368131,
      "epoch": 1.8428222240531706,
      "grad_norm": 0.9680473804473877,
      "learning_rate": 2.290479810784599e-06,
      "loss": 1.387,
      "mean_token_accuracy": 0.6628308445215225,
      "num_tokens": 2813646975.0,
      "step": 16775
    },
    {
      "entropy": 1.7047974566618602,
      "epoch": 1.8429320809645438,
      "grad_norm": 0.6554457545280457,
      "learning_rate": 2.2900764471254385e-06,
      "loss": 1.4557,
      "mean_token_accuracy": 0.6604510943094889,
      "num_tokens": 2813795279.0,
      "step": 16776
    },
    {
      "entropy": 1.6860364377498627,
      "epoch": 1.8430419378759166,
      "grad_norm": 0.6723480820655823,
      "learning_rate": 2.2896733591314315e-06,
      "loss": 1.244,
      "mean_token_accuracy": 0.6721046268939972,
      "num_tokens": 2813934809.0,
      "step": 16777
    },
    {
      "entropy": 1.6676070193449657,
      "epoch": 1.8431517947872895,
      "grad_norm": 0.7274590730667114,
      "learning_rate": 2.28927054681534e-06,
      "loss": 1.2252,
      "mean_token_accuracy": 0.6727160960435867,
      "num_tokens": 2814065654.0,
      "step": 16778
    },
    {
      "entropy": 1.6777145564556122,
      "epoch": 1.8432616516986626,
      "grad_norm": 0.7008301019668579,
      "learning_rate": 2.2888680101899086e-06,
      "loss": 1.2634,
      "mean_token_accuracy": 0.6827175964911779,
      "num_tokens": 2814237054.0,
      "step": 16779
    },
    {
      "entropy": 1.6733269294102986,
      "epoch": 1.8433715086100353,
      "grad_norm": 0.7075291872024536,
      "learning_rate": 2.28846574926788e-06,
      "loss": 1.2871,
      "mean_token_accuracy": 0.6724706093470255,
      "num_tokens": 2814372528.0,
      "step": 16780
    },
    {
      "entropy": 1.7397844890753429,
      "epoch": 1.8434813655214084,
      "grad_norm": 0.6934898495674133,
      "learning_rate": 2.288063764061986e-06,
      "loss": 1.491,
      "mean_token_accuracy": 0.6440728902816772,
      "num_tokens": 2814564424.0,
      "step": 16781
    },
    {
      "entropy": 1.6866810023784637,
      "epoch": 1.8435912224327813,
      "grad_norm": 0.6557011008262634,
      "learning_rate": 2.2876620545849465e-06,
      "loss": 1.3145,
      "mean_token_accuracy": 0.66270412504673,
      "num_tokens": 2814761649.0,
      "step": 16782
    },
    {
      "entropy": 1.6241275866826375,
      "epoch": 1.8437010793441542,
      "grad_norm": 0.6553396582603455,
      "learning_rate": 2.2872606208494775e-06,
      "loss": 1.4424,
      "mean_token_accuracy": 0.6536834836006165,
      "num_tokens": 2814932983.0,
      "step": 16783
    },
    {
      "entropy": 1.6947355270385742,
      "epoch": 1.8438109362555273,
      "grad_norm": 0.8572350740432739,
      "learning_rate": 2.286859462868286e-06,
      "loss": 1.3464,
      "mean_token_accuracy": 0.6532238374153773,
      "num_tokens": 2815067834.0,
      "step": 16784
    },
    {
      "entropy": 1.7147201299667358,
      "epoch": 1.8439207931669002,
      "grad_norm": 0.6992621421813965,
      "learning_rate": 2.2864585806540637e-06,
      "loss": 1.3477,
      "mean_token_accuracy": 0.6593698014815649,
      "num_tokens": 2815250511.0,
      "step": 16785
    },
    {
      "entropy": 1.7203228970368702,
      "epoch": 1.844030650078273,
      "grad_norm": 0.7004925012588501,
      "learning_rate": 2.2860579742195016e-06,
      "loss": 1.3027,
      "mean_token_accuracy": 0.6743641148010889,
      "num_tokens": 2815388655.0,
      "step": 16786
    },
    {
      "entropy": 1.6600177884101868,
      "epoch": 1.844140506989646,
      "grad_norm": 0.6689477562904358,
      "learning_rate": 2.285657643577278e-06,
      "loss": 1.1647,
      "mean_token_accuracy": 0.6987222582101822,
      "num_tokens": 2815523979.0,
      "step": 16787
    },
    {
      "entropy": 1.6286835670471191,
      "epoch": 1.8442503639010188,
      "grad_norm": 0.632027804851532,
      "learning_rate": 2.285257588740064e-06,
      "loss": 1.3428,
      "mean_token_accuracy": 0.6710825363794962,
      "num_tokens": 2815756939.0,
      "step": 16788
    },
    {
      "entropy": 1.6791391670703888,
      "epoch": 1.844360220812392,
      "grad_norm": 0.6494190692901611,
      "learning_rate": 2.2848578097205193e-06,
      "loss": 1.4686,
      "mean_token_accuracy": 0.6351282844940821,
      "num_tokens": 2815934346.0,
      "step": 16789
    },
    {
      "entropy": 1.6839772363503773,
      "epoch": 1.8444700777237648,
      "grad_norm": 0.8661864995956421,
      "learning_rate": 2.284458306531298e-06,
      "loss": 1.4426,
      "mean_token_accuracy": 0.6467615962028503,
      "num_tokens": 2816134609.0,
      "step": 16790
    },
    {
      "entropy": 1.7479057808717091,
      "epoch": 1.8445799346351377,
      "grad_norm": 0.9440947771072388,
      "learning_rate": 2.2840590791850434e-06,
      "loss": 1.4306,
      "mean_token_accuracy": 0.6492450833320618,
      "num_tokens": 2816298540.0,
      "step": 16791
    },
    {
      "entropy": 1.6491265694300334,
      "epoch": 1.8446897915465108,
      "grad_norm": 0.6750578284263611,
      "learning_rate": 2.2836601276943944e-06,
      "loss": 1.4913,
      "mean_token_accuracy": 0.6493054578701655,
      "num_tokens": 2816496291.0,
      "step": 16792
    },
    {
      "entropy": 1.7014791468779247,
      "epoch": 1.8447996484578835,
      "grad_norm": 0.7774354815483093,
      "learning_rate": 2.2832614520719713e-06,
      "loss": 1.2901,
      "mean_token_accuracy": 0.6726734042167664,
      "num_tokens": 2816634154.0,
      "step": 16793
    },
    {
      "entropy": 1.6888912518819172,
      "epoch": 1.8449095053692566,
      "grad_norm": 0.6581716537475586,
      "learning_rate": 2.2828630523303962e-06,
      "loss": 1.2948,
      "mean_token_accuracy": 0.668033296863238,
      "num_tokens": 2816767661.0,
      "step": 16794
    },
    {
      "entropy": 1.7331350843111675,
      "epoch": 1.8450193622806295,
      "grad_norm": 0.8059678673744202,
      "learning_rate": 2.2824649284822777e-06,
      "loss": 1.2899,
      "mean_token_accuracy": 0.6695135881503423,
      "num_tokens": 2816904457.0,
      "step": 16795
    },
    {
      "entropy": 1.7052109042803447,
      "epoch": 1.8451292191920023,
      "grad_norm": 0.7135511040687561,
      "learning_rate": 2.2820670805402166e-06,
      "loss": 1.3201,
      "mean_token_accuracy": 0.6706758240858713,
      "num_tokens": 2817068724.0,
      "step": 16796
    },
    {
      "entropy": 1.7488359014193218,
      "epoch": 1.8452390761033755,
      "grad_norm": 0.7513749599456787,
      "learning_rate": 2.281669508516803e-06,
      "loss": 1.4146,
      "mean_token_accuracy": 0.6454348017772039,
      "num_tokens": 2817186893.0,
      "step": 16797
    },
    {
      "entropy": 1.7428977489471436,
      "epoch": 1.8453489330147483,
      "grad_norm": 0.6585659980773926,
      "learning_rate": 2.281272212424622e-06,
      "loss": 1.5118,
      "mean_token_accuracy": 0.6480231831471125,
      "num_tokens": 2817380337.0,
      "step": 16798
    },
    {
      "entropy": 1.6482553680737813,
      "epoch": 1.8454587899261212,
      "grad_norm": 0.6863150000572205,
      "learning_rate": 2.280875192276245e-06,
      "loss": 1.2707,
      "mean_token_accuracy": 0.6809622297684351,
      "num_tokens": 2817523945.0,
      "step": 16799
    },
    {
      "entropy": 1.7246152857939403,
      "epoch": 1.845568646837494,
      "grad_norm": 0.6100006103515625,
      "learning_rate": 2.2804784480842414e-06,
      "loss": 1.4405,
      "mean_token_accuracy": 0.648542195558548,
      "num_tokens": 2817701592.0,
      "step": 16800
    },
    {
      "entropy": 1.7031661570072174,
      "epoch": 1.845678503748867,
      "grad_norm": 0.6806704998016357,
      "learning_rate": 2.2800819798611644e-06,
      "loss": 1.3778,
      "mean_token_accuracy": 0.6427052021026611,
      "num_tokens": 2817867695.0,
      "step": 16801
    },
    {
      "entropy": 1.7161981364091237,
      "epoch": 1.84578836066024,
      "grad_norm": 0.6332004070281982,
      "learning_rate": 2.2796857876195637e-06,
      "loss": 1.4339,
      "mean_token_accuracy": 0.6533434242010117,
      "num_tokens": 2818056193.0,
      "step": 16802
    },
    {
      "entropy": 1.7151016394297283,
      "epoch": 1.845898217571613,
      "grad_norm": 0.7988026142120361,
      "learning_rate": 2.279289871371977e-06,
      "loss": 1.3272,
      "mean_token_accuracy": 0.6582034826278687,
      "num_tokens": 2818196429.0,
      "step": 16803
    },
    {
      "entropy": 1.7060537834962208,
      "epoch": 1.8460080744829859,
      "grad_norm": 0.7432763576507568,
      "learning_rate": 2.2788942311309397e-06,
      "loss": 1.3024,
      "mean_token_accuracy": 0.6767023553450903,
      "num_tokens": 2818331053.0,
      "step": 16804
    },
    {
      "entropy": 1.683958222468694,
      "epoch": 1.846117931394359,
      "grad_norm": 0.6856158375740051,
      "learning_rate": 2.2784988669089674e-06,
      "loss": 1.5868,
      "mean_token_accuracy": 0.6441004474957784,
      "num_tokens": 2818554982.0,
      "step": 16805
    },
    {
      "entropy": 1.689920614163081,
      "epoch": 1.8462277883057316,
      "grad_norm": 0.6839845180511475,
      "learning_rate": 2.278103778718577e-06,
      "loss": 1.5445,
      "mean_token_accuracy": 0.6441525717576345,
      "num_tokens": 2818721341.0,
      "step": 16806
    },
    {
      "entropy": 1.6903660396734874,
      "epoch": 1.8463376452171048,
      "grad_norm": 0.6059070825576782,
      "learning_rate": 2.2777089665722706e-06,
      "loss": 1.3686,
      "mean_token_accuracy": 0.6590339243412018,
      "num_tokens": 2818914745.0,
      "step": 16807
    },
    {
      "entropy": 1.6847312947114308,
      "epoch": 1.8464475021284776,
      "grad_norm": 0.6773668527603149,
      "learning_rate": 2.2773144304825473e-06,
      "loss": 1.3906,
      "mean_token_accuracy": 0.6678819706042608,
      "num_tokens": 2819045859.0,
      "step": 16808
    },
    {
      "entropy": 1.7114491661389668,
      "epoch": 1.8465573590398505,
      "grad_norm": 0.6937119960784912,
      "learning_rate": 2.2769201704618895e-06,
      "loss": 1.3054,
      "mean_token_accuracy": 0.6675901015599569,
      "num_tokens": 2819189812.0,
      "step": 16809
    },
    {
      "entropy": 1.7245989938577015,
      "epoch": 1.8466672159512236,
      "grad_norm": 0.8096246719360352,
      "learning_rate": 2.2765261865227795e-06,
      "loss": 1.3121,
      "mean_token_accuracy": 0.661870464682579,
      "num_tokens": 2819297022.0,
      "step": 16810
    },
    {
      "entropy": 1.7037302354971569,
      "epoch": 1.8467770728625965,
      "grad_norm": 0.7414513230323792,
      "learning_rate": 2.2761324786776827e-06,
      "loss": 1.2294,
      "mean_token_accuracy": 0.6829250454902649,
      "num_tokens": 2819415838.0,
      "step": 16811
    },
    {
      "entropy": 1.7018751204013824,
      "epoch": 1.8468869297739694,
      "grad_norm": 0.6822280287742615,
      "learning_rate": 2.275739046939063e-06,
      "loss": 1.4365,
      "mean_token_accuracy": 0.6489651799201965,
      "num_tokens": 2819582184.0,
      "step": 16812
    },
    {
      "entropy": 1.6578473349412282,
      "epoch": 1.8469967866853425,
      "grad_norm": 0.7063673734664917,
      "learning_rate": 2.275345891319372e-06,
      "loss": 1.2741,
      "mean_token_accuracy": 0.6733155796925226,
      "num_tokens": 2819737015.0,
      "step": 16813
    },
    {
      "entropy": 1.7193239827950795,
      "epoch": 1.8471066435967152,
      "grad_norm": 0.6380773782730103,
      "learning_rate": 2.2749530118310504e-06,
      "loss": 1.4591,
      "mean_token_accuracy": 0.6509887427091599,
      "num_tokens": 2819935004.0,
      "step": 16814
    },
    {
      "entropy": 1.7366726497809093,
      "epoch": 1.8472165005080883,
      "grad_norm": 0.6270143985748291,
      "learning_rate": 2.274560408486535e-06,
      "loss": 1.5331,
      "mean_token_accuracy": 0.6440207809209824,
      "num_tokens": 2820141194.0,
      "step": 16815
    },
    {
      "entropy": 1.6627205908298492,
      "epoch": 1.8473263574194612,
      "grad_norm": 0.6391332149505615,
      "learning_rate": 2.2741680812982525e-06,
      "loss": 1.3179,
      "mean_token_accuracy": 0.6662083069483439,
      "num_tokens": 2820333411.0,
      "step": 16816
    },
    {
      "entropy": 1.6978925466537476,
      "epoch": 1.847436214330834,
      "grad_norm": 0.6449623703956604,
      "learning_rate": 2.2737760302786165e-06,
      "loss": 1.383,
      "mean_token_accuracy": 0.6534488449494044,
      "num_tokens": 2820497197.0,
      "step": 16817
    },
    {
      "entropy": 1.6958427727222443,
      "epoch": 1.8475460712422072,
      "grad_norm": 0.7582001686096191,
      "learning_rate": 2.273384255440037e-06,
      "loss": 1.2255,
      "mean_token_accuracy": 0.6779115696748098,
      "num_tokens": 2820615677.0,
      "step": 16818
    },
    {
      "entropy": 1.668468713760376,
      "epoch": 1.8476559281535798,
      "grad_norm": 0.7352595925331116,
      "learning_rate": 2.2729927567949147e-06,
      "loss": 1.2167,
      "mean_token_accuracy": 0.6819255699714025,
      "num_tokens": 2820735125.0,
      "step": 16819
    },
    {
      "entropy": 1.7504223088423412,
      "epoch": 1.847765785064953,
      "grad_norm": 0.653083086013794,
      "learning_rate": 2.272601534355638e-06,
      "loss": 1.478,
      "mean_token_accuracy": 0.640269880493482,
      "num_tokens": 2820924373.0,
      "step": 16820
    },
    {
      "entropy": 1.744905153910319,
      "epoch": 1.8478756419763258,
      "grad_norm": 0.808557391166687,
      "learning_rate": 2.27221058813459e-06,
      "loss": 1.3103,
      "mean_token_accuracy": 0.6747282495101293,
      "num_tokens": 2821111140.0,
      "step": 16821
    },
    {
      "entropy": 1.6883414487044017,
      "epoch": 1.8479854988876987,
      "grad_norm": 0.8405027985572815,
      "learning_rate": 2.271819918144145e-06,
      "loss": 1.3422,
      "mean_token_accuracy": 0.6721090773741404,
      "num_tokens": 2821233106.0,
      "step": 16822
    },
    {
      "entropy": 1.6892358760039012,
      "epoch": 1.8480953557990718,
      "grad_norm": 0.5664523243904114,
      "learning_rate": 2.2714295243966663e-06,
      "loss": 1.4374,
      "mean_token_accuracy": 0.6468595862388611,
      "num_tokens": 2821409664.0,
      "step": 16823
    },
    {
      "entropy": 1.7041309575239818,
      "epoch": 1.8482052127104447,
      "grad_norm": 0.7229970097541809,
      "learning_rate": 2.2710394069045096e-06,
      "loss": 1.4368,
      "mean_token_accuracy": 0.6511443008979162,
      "num_tokens": 2821617059.0,
      "step": 16824
    },
    {
      "entropy": 1.7157021065553029,
      "epoch": 1.8483150696218176,
      "grad_norm": 0.6895220279693604,
      "learning_rate": 2.270649565680023e-06,
      "loss": 1.5049,
      "mean_token_accuracy": 0.6378757754961649,
      "num_tokens": 2821809999.0,
      "step": 16825
    },
    {
      "entropy": 1.6815617382526398,
      "epoch": 1.8484249265331907,
      "grad_norm": 0.6916029453277588,
      "learning_rate": 2.270260000735543e-06,
      "loss": 1.4192,
      "mean_token_accuracy": 0.6669404208660126,
      "num_tokens": 2821991768.0,
      "step": 16826
    },
    {
      "entropy": 1.7499388257662456,
      "epoch": 1.8485347834445633,
      "grad_norm": 0.6223210096359253,
      "learning_rate": 2.2698707120834e-06,
      "loss": 1.374,
      "mean_token_accuracy": 0.6528652707735697,
      "num_tokens": 2822148133.0,
      "step": 16827
    },
    {
      "entropy": 1.6805897454420726,
      "epoch": 1.8486446403559365,
      "grad_norm": 2.376575231552124,
      "learning_rate": 2.269481699735918e-06,
      "loss": 1.1966,
      "mean_token_accuracy": 0.6810894310474396,
      "num_tokens": 2822351860.0,
      "step": 16828
    },
    {
      "entropy": 1.6760378777980804,
      "epoch": 1.8487544972673093,
      "grad_norm": 0.6722053289413452,
      "learning_rate": 2.269092963705404e-06,
      "loss": 1.3251,
      "mean_token_accuracy": 0.6669818659623464,
      "num_tokens": 2822522055.0,
      "step": 16829
    },
    {
      "entropy": 1.6548854509989421,
      "epoch": 1.8488643541786822,
      "grad_norm": 0.6542387008666992,
      "learning_rate": 2.2687045040041625e-06,
      "loss": 1.2904,
      "mean_token_accuracy": 0.6669500768184662,
      "num_tokens": 2822682578.0,
      "step": 16830
    },
    {
      "entropy": 1.6649717092514038,
      "epoch": 1.8489742110900553,
      "grad_norm": 0.69137042760849,
      "learning_rate": 2.2683163206444903e-06,
      "loss": 1.3382,
      "mean_token_accuracy": 0.6678586552540461,
      "num_tokens": 2822822417.0,
      "step": 16831
    },
    {
      "entropy": 1.6161488095919292,
      "epoch": 1.849084068001428,
      "grad_norm": 0.7891423106193542,
      "learning_rate": 2.2679284136386717e-06,
      "loss": 1.4021,
      "mean_token_accuracy": 0.6629961331685384,
      "num_tokens": 2823043372.0,
      "step": 16832
    },
    {
      "entropy": 1.6671480735143025,
      "epoch": 1.849193924912801,
      "grad_norm": 0.5742250680923462,
      "learning_rate": 2.267540782998984e-06,
      "loss": 1.4551,
      "mean_token_accuracy": 0.6415112614631653,
      "num_tokens": 2823234593.0,
      "step": 16833
    },
    {
      "entropy": 1.7150403559207916,
      "epoch": 1.849303781824174,
      "grad_norm": 0.6328002214431763,
      "learning_rate": 2.2671534287376955e-06,
      "loss": 1.3687,
      "mean_token_accuracy": 0.6589196075995764,
      "num_tokens": 2823412259.0,
      "step": 16834
    },
    {
      "entropy": 1.6628845036029816,
      "epoch": 1.8494136387355469,
      "grad_norm": 0.6902245879173279,
      "learning_rate": 2.2667663508670654e-06,
      "loss": 1.3141,
      "mean_token_accuracy": 0.6782469848791758,
      "num_tokens": 2823563936.0,
      "step": 16835
    },
    {
      "entropy": 1.778301070133845,
      "epoch": 1.84952349564692,
      "grad_norm": 0.6464490294456482,
      "learning_rate": 2.266379549399346e-06,
      "loss": 1.4777,
      "mean_token_accuracy": 0.6514505942662557,
      "num_tokens": 2823785146.0,
      "step": 16836
    },
    {
      "entropy": 1.6853400766849518,
      "epoch": 1.8496333525582929,
      "grad_norm": 0.7404756546020508,
      "learning_rate": 2.265993024346779e-06,
      "loss": 1.3938,
      "mean_token_accuracy": 0.6646452844142914,
      "num_tokens": 2823948844.0,
      "step": 16837
    },
    {
      "entropy": 1.7575759092966716,
      "epoch": 1.8497432094696658,
      "grad_norm": 0.9101560115814209,
      "learning_rate": 2.2656067757215955e-06,
      "loss": 1.6004,
      "mean_token_accuracy": 0.6494082659482956,
      "num_tokens": 2824102594.0,
      "step": 16838
    },
    {
      "entropy": 1.705398013194402,
      "epoch": 1.8498530663810389,
      "grad_norm": 0.691576361656189,
      "learning_rate": 2.2652208035360216e-06,
      "loss": 1.5896,
      "mean_token_accuracy": 0.6335019121567408,
      "num_tokens": 2824300458.0,
      "step": 16839
    },
    {
      "entropy": 1.7217795650164287,
      "epoch": 1.8499629232924115,
      "grad_norm": 0.6099857091903687,
      "learning_rate": 2.2648351078022756e-06,
      "loss": 1.3593,
      "mean_token_accuracy": 0.6655921290318171,
      "num_tokens": 2824478345.0,
      "step": 16840
    },
    {
      "entropy": 1.6977481245994568,
      "epoch": 1.8500727802037846,
      "grad_norm": 0.7489005327224731,
      "learning_rate": 2.2644496885325602e-06,
      "loss": 1.3109,
      "mean_token_accuracy": 0.6732942511638006,
      "num_tokens": 2824614208.0,
      "step": 16841
    },
    {
      "entropy": 1.6951703131198883,
      "epoch": 1.8501826371151575,
      "grad_norm": 0.6727724671363831,
      "learning_rate": 2.2640645457390757e-06,
      "loss": 1.3008,
      "mean_token_accuracy": 0.6589942077795664,
      "num_tokens": 2824761514.0,
      "step": 16842
    },
    {
      "entropy": 1.6436572670936584,
      "epoch": 1.8502924940265304,
      "grad_norm": 0.6955944895744324,
      "learning_rate": 2.2636796794340134e-06,
      "loss": 1.2896,
      "mean_token_accuracy": 0.673475960890452,
      "num_tokens": 2824926126.0,
      "step": 16843
    },
    {
      "entropy": 1.7151092290878296,
      "epoch": 1.8504023509379035,
      "grad_norm": 0.6162389516830444,
      "learning_rate": 2.2632950896295524e-06,
      "loss": 1.3972,
      "mean_token_accuracy": 0.6557242920001348,
      "num_tokens": 2825105477.0,
      "step": 16844
    },
    {
      "entropy": 1.7381452520688374,
      "epoch": 1.8505122078492762,
      "grad_norm": 0.5753760933876038,
      "learning_rate": 2.262910776337863e-06,
      "loss": 1.4604,
      "mean_token_accuracy": 0.6351420283317566,
      "num_tokens": 2825303396.0,
      "step": 16845
    },
    {
      "entropy": 1.693215678135554,
      "epoch": 1.8506220647606493,
      "grad_norm": 0.8320888876914978,
      "learning_rate": 2.2625267395711124e-06,
      "loss": 1.3931,
      "mean_token_accuracy": 0.6597619901100794,
      "num_tokens": 2825511715.0,
      "step": 16846
    },
    {
      "entropy": 1.772448907295863,
      "epoch": 1.8507319216720222,
      "grad_norm": 0.6900238990783691,
      "learning_rate": 2.2621429793414513e-06,
      "loss": 1.2598,
      "mean_token_accuracy": 0.6730435639619827,
      "num_tokens": 2825660163.0,
      "step": 16847
    },
    {
      "entropy": 1.7407717903455098,
      "epoch": 1.850841778583395,
      "grad_norm": 0.6229955554008484,
      "learning_rate": 2.26175949566103e-06,
      "loss": 1.3992,
      "mean_token_accuracy": 0.6651196181774139,
      "num_tokens": 2825812055.0,
      "step": 16848
    },
    {
      "entropy": 1.6535049378871918,
      "epoch": 1.8509516354947682,
      "grad_norm": 0.8824671506881714,
      "learning_rate": 2.261376288541982e-06,
      "loss": 1.471,
      "mean_token_accuracy": 0.6661679844061533,
      "num_tokens": 2825974645.0,
      "step": 16849
    },
    {
      "entropy": 1.7141542633374531,
      "epoch": 1.851061492406141,
      "grad_norm": 0.7158608436584473,
      "learning_rate": 2.2609933579964364e-06,
      "loss": 1.3092,
      "mean_token_accuracy": 0.6757365266482035,
      "num_tokens": 2826109915.0,
      "step": 16850
    },
    {
      "entropy": 1.684940109650294,
      "epoch": 1.851171349317514,
      "grad_norm": 0.7266584634780884,
      "learning_rate": 2.260610704036514e-06,
      "loss": 1.4043,
      "mean_token_accuracy": 0.6563446720441183,
      "num_tokens": 2826276894.0,
      "step": 16851
    },
    {
      "entropy": 1.6518448789914448,
      "epoch": 1.851281206228887,
      "grad_norm": 0.8699021935462952,
      "learning_rate": 2.2602283266743242e-06,
      "loss": 1.235,
      "mean_token_accuracy": 0.6798707942167918,
      "num_tokens": 2826413789.0,
      "step": 16852
    },
    {
      "entropy": 1.7219206094741821,
      "epoch": 1.8513910631402597,
      "grad_norm": 0.6562429070472717,
      "learning_rate": 2.25984622592197e-06,
      "loss": 1.3031,
      "mean_token_accuracy": 0.675565222899119,
      "num_tokens": 2826543479.0,
      "step": 16853
    },
    {
      "entropy": 1.6323307752609253,
      "epoch": 1.8515009200516328,
      "grad_norm": 0.6604292988777161,
      "learning_rate": 2.259464401791544e-06,
      "loss": 1.3841,
      "mean_token_accuracy": 0.6637335220972697,
      "num_tokens": 2826681051.0,
      "step": 16854
    },
    {
      "entropy": 1.7547399997711182,
      "epoch": 1.8516107769630057,
      "grad_norm": 0.6812036633491516,
      "learning_rate": 2.25908285429513e-06,
      "loss": 1.5095,
      "mean_token_accuracy": 0.6496999114751816,
      "num_tokens": 2826877453.0,
      "step": 16855
    },
    {
      "entropy": 1.756416380405426,
      "epoch": 1.8517206338743786,
      "grad_norm": 0.5992780327796936,
      "learning_rate": 2.2587015834448066e-06,
      "loss": 1.3727,
      "mean_token_accuracy": 0.6700999438762665,
      "num_tokens": 2827036356.0,
      "step": 16856
    },
    {
      "entropy": 1.7250816226005554,
      "epoch": 1.8518304907857517,
      "grad_norm": 0.6736693978309631,
      "learning_rate": 2.2583205892526395e-06,
      "loss": 1.3946,
      "mean_token_accuracy": 0.6623944640159607,
      "num_tokens": 2827218750.0,
      "step": 16857
    },
    {
      "entropy": 1.746427297592163,
      "epoch": 1.8519403476971243,
      "grad_norm": 0.5987364053726196,
      "learning_rate": 2.2579398717306853e-06,
      "loss": 1.4286,
      "mean_token_accuracy": 0.6408430685599645,
      "num_tokens": 2827429105.0,
      "step": 16858
    },
    {
      "entropy": 1.7429214417934418,
      "epoch": 1.8520502046084975,
      "grad_norm": 0.6848793625831604,
      "learning_rate": 2.257559430890994e-06,
      "loss": 1.4197,
      "mean_token_accuracy": 0.6512637386719385,
      "num_tokens": 2827607457.0,
      "step": 16859
    },
    {
      "entropy": 1.6617528994878132,
      "epoch": 1.8521600615198703,
      "grad_norm": 0.6407644748687744,
      "learning_rate": 2.25717926674561e-06,
      "loss": 1.2838,
      "mean_token_accuracy": 0.6738065630197525,
      "num_tokens": 2827740068.0,
      "step": 16860
    },
    {
      "entropy": 1.6476930975914001,
      "epoch": 1.8522699184312432,
      "grad_norm": 0.587350070476532,
      "learning_rate": 2.2567993793065612e-06,
      "loss": 1.5079,
      "mean_token_accuracy": 0.6454335004091263,
      "num_tokens": 2827970706.0,
      "step": 16861
    },
    {
      "entropy": 1.6667810281117756,
      "epoch": 1.8523797753426163,
      "grad_norm": 0.6816261410713196,
      "learning_rate": 2.2564197685858718e-06,
      "loss": 1.3844,
      "mean_token_accuracy": 0.6544611503680547,
      "num_tokens": 2828133482.0,
      "step": 16862
    },
    {
      "entropy": 1.7026315033435822,
      "epoch": 1.8524896322539892,
      "grad_norm": 0.7092069387435913,
      "learning_rate": 2.2560404345955573e-06,
      "loss": 1.421,
      "mean_token_accuracy": 0.6365664452314377,
      "num_tokens": 2828374569.0,
      "step": 16863
    },
    {
      "entropy": 1.7290400266647339,
      "epoch": 1.852599489165362,
      "grad_norm": 0.6336418986320496,
      "learning_rate": 2.2556613773476234e-06,
      "loss": 1.3831,
      "mean_token_accuracy": 0.6517727623383204,
      "num_tokens": 2828523922.0,
      "step": 16864
    },
    {
      "entropy": 1.7043097118536632,
      "epoch": 1.8527093460767352,
      "grad_norm": 0.7059993147850037,
      "learning_rate": 2.255282596854065e-06,
      "loss": 1.3474,
      "mean_token_accuracy": 0.6678043107191721,
      "num_tokens": 2828669505.0,
      "step": 16865
    },
    {
      "entropy": 1.7145764529705048,
      "epoch": 1.8528192029881079,
      "grad_norm": 0.7578869462013245,
      "learning_rate": 2.254904093126874e-06,
      "loss": 1.4085,
      "mean_token_accuracy": 0.6547698179880778,
      "num_tokens": 2828791241.0,
      "step": 16866
    },
    {
      "entropy": 1.762321561574936,
      "epoch": 1.852929059899481,
      "grad_norm": 0.7735615372657776,
      "learning_rate": 2.2545258661780266e-06,
      "loss": 1.5863,
      "mean_token_accuracy": 0.6380794048309326,
      "num_tokens": 2828975921.0,
      "step": 16867
    },
    {
      "entropy": 1.69214462240537,
      "epoch": 1.8530389168108539,
      "grad_norm": 0.7045040130615234,
      "learning_rate": 2.2541479160194944e-06,
      "loss": 1.4513,
      "mean_token_accuracy": 0.6603608429431915,
      "num_tokens": 2829140958.0,
      "step": 16868
    },
    {
      "entropy": 1.662009169658025,
      "epoch": 1.8531487737222267,
      "grad_norm": 0.8396393060684204,
      "learning_rate": 2.2537702426632405e-06,
      "loss": 1.229,
      "mean_token_accuracy": 0.6779507348934809,
      "num_tokens": 2829246179.0,
      "step": 16869
    },
    {
      "entropy": 1.7280895511309307,
      "epoch": 1.8532586306335999,
      "grad_norm": 0.7660303115844727,
      "learning_rate": 2.2533928461212163e-06,
      "loss": 1.3047,
      "mean_token_accuracy": 0.6635698924462,
      "num_tokens": 2829424054.0,
      "step": 16870
    },
    {
      "entropy": 1.6450142761071522,
      "epoch": 1.8533684875449725,
      "grad_norm": 0.6026352047920227,
      "learning_rate": 2.2530157264053683e-06,
      "loss": 1.4684,
      "mean_token_accuracy": 0.6385354151328405,
      "num_tokens": 2829608694.0,
      "step": 16871
    },
    {
      "entropy": 1.7429430484771729,
      "epoch": 1.8534783444563456,
      "grad_norm": 0.7299525141716003,
      "learning_rate": 2.252638883527631e-06,
      "loss": 1.4044,
      "mean_token_accuracy": 0.6550277421871821,
      "num_tokens": 2829770875.0,
      "step": 16872
    },
    {
      "entropy": 1.7349806527296703,
      "epoch": 1.8535882013677185,
      "grad_norm": 0.7500406503677368,
      "learning_rate": 2.252262317499931e-06,
      "loss": 1.3102,
      "mean_token_accuracy": 0.6578699747721354,
      "num_tokens": 2829947693.0,
      "step": 16873
    },
    {
      "entropy": 1.7390219668547313,
      "epoch": 1.8536980582790914,
      "grad_norm": 0.7751812934875488,
      "learning_rate": 2.2518860283341864e-06,
      "loss": 1.5918,
      "mean_token_accuracy": 0.6272272417942683,
      "num_tokens": 2830153181.0,
      "step": 16874
    },
    {
      "entropy": 1.7201407651106517,
      "epoch": 1.8538079151904645,
      "grad_norm": 0.7094139456748962,
      "learning_rate": 2.251510016042308e-06,
      "loss": 1.5539,
      "mean_token_accuracy": 0.6450007905562719,
      "num_tokens": 2830334049.0,
      "step": 16875
    },
    {
      "entropy": 1.736316164334615,
      "epoch": 1.8539177721018374,
      "grad_norm": 0.6322393417358398,
      "learning_rate": 2.251134280636195e-06,
      "loss": 1.2949,
      "mean_token_accuracy": 0.675666610399882,
      "num_tokens": 2830485303.0,
      "step": 16876
    },
    {
      "entropy": 1.729094882806142,
      "epoch": 1.8540276290132103,
      "grad_norm": 0.7388508319854736,
      "learning_rate": 2.25075882212774e-06,
      "loss": 1.383,
      "mean_token_accuracy": 0.6609533528486887,
      "num_tokens": 2830635382.0,
      "step": 16877
    },
    {
      "entropy": 1.682877242565155,
      "epoch": 1.8541374859245834,
      "grad_norm": 0.6518582105636597,
      "learning_rate": 2.2503836405288256e-06,
      "loss": 1.4053,
      "mean_token_accuracy": 0.6476947963237762,
      "num_tokens": 2830843164.0,
      "step": 16878
    },
    {
      "entropy": 1.6826065182685852,
      "epoch": 1.854247342835956,
      "grad_norm": 0.6691297888755798,
      "learning_rate": 2.250008735851325e-06,
      "loss": 1.3046,
      "mean_token_accuracy": 0.6775392790635427,
      "num_tokens": 2830999778.0,
      "step": 16879
    },
    {
      "entropy": 1.661271055539449,
      "epoch": 1.8543571997473292,
      "grad_norm": 0.7119371294975281,
      "learning_rate": 2.2496341081071066e-06,
      "loss": 1.3536,
      "mean_token_accuracy": 0.657180925210317,
      "num_tokens": 2831151781.0,
      "step": 16880
    },
    {
      "entropy": 1.6969236334164937,
      "epoch": 1.854467056658702,
      "grad_norm": 0.6304360628128052,
      "learning_rate": 2.249259757308026e-06,
      "loss": 1.4231,
      "mean_token_accuracy": 0.6411556551853815,
      "num_tokens": 2831342014.0,
      "step": 16881
    },
    {
      "entropy": 1.7519350747267406,
      "epoch": 1.854576913570075,
      "grad_norm": 0.7681441307067871,
      "learning_rate": 2.248885683465929e-06,
      "loss": 1.2912,
      "mean_token_accuracy": 0.6645476470390955,
      "num_tokens": 2831444174.0,
      "step": 16882
    },
    {
      "entropy": 1.7026408016681671,
      "epoch": 1.854686770481448,
      "grad_norm": 0.6976202726364136,
      "learning_rate": 2.248511886592658e-06,
      "loss": 1.3042,
      "mean_token_accuracy": 0.6687952727079391,
      "num_tokens": 2831566636.0,
      "step": 16883
    },
    {
      "entropy": 1.6760593354701996,
      "epoch": 1.8547966273928207,
      "grad_norm": 0.6563632488250732,
      "learning_rate": 2.248138366700043e-06,
      "loss": 1.4318,
      "mean_token_accuracy": 0.6755139579375585,
      "num_tokens": 2831726930.0,
      "step": 16884
    },
    {
      "entropy": 1.724344511826833,
      "epoch": 1.8549064843041938,
      "grad_norm": 0.7031118869781494,
      "learning_rate": 2.247765123799904e-06,
      "loss": 1.3251,
      "mean_token_accuracy": 0.6661837746699651,
      "num_tokens": 2831896095.0,
      "step": 16885
    },
    {
      "entropy": 1.727848341067632,
      "epoch": 1.8550163412155667,
      "grad_norm": 0.5700660943984985,
      "learning_rate": 2.247392157904055e-06,
      "loss": 1.4622,
      "mean_token_accuracy": 0.642038439710935,
      "num_tokens": 2832131149.0,
      "step": 16886
    },
    {
      "entropy": 1.6446122825145721,
      "epoch": 1.8551261981269396,
      "grad_norm": 0.6341161727905273,
      "learning_rate": 2.2470194690243006e-06,
      "loss": 1.3984,
      "mean_token_accuracy": 0.6593250582615534,
      "num_tokens": 2832307378.0,
      "step": 16887
    },
    {
      "entropy": 1.6699632306893666,
      "epoch": 1.8552360550383127,
      "grad_norm": 0.5614050626754761,
      "learning_rate": 2.2466470571724357e-06,
      "loss": 1.3048,
      "mean_token_accuracy": 0.6609620600938797,
      "num_tokens": 2832519981.0,
      "step": 16888
    },
    {
      "entropy": 1.6194656590620677,
      "epoch": 1.8553459119496856,
      "grad_norm": 0.5817786455154419,
      "learning_rate": 2.2462749223602464e-06,
      "loss": 1.4775,
      "mean_token_accuracy": 0.6533914605776469,
      "num_tokens": 2832712716.0,
      "step": 16889
    },
    {
      "entropy": 1.7114621301492055,
      "epoch": 1.8554557688610585,
      "grad_norm": 0.7644500136375427,
      "learning_rate": 2.2459030645995118e-06,
      "loss": 1.3141,
      "mean_token_accuracy": 0.661896139383316,
      "num_tokens": 2832835841.0,
      "step": 16890
    },
    {
      "entropy": 1.661112666130066,
      "epoch": 1.8555656257724316,
      "grad_norm": 0.8860819935798645,
      "learning_rate": 2.245531483902e-06,
      "loss": 1.1732,
      "mean_token_accuracy": 0.688821072379748,
      "num_tokens": 2832959778.0,
      "step": 16891
    },
    {
      "entropy": 1.6903029382228851,
      "epoch": 1.8556754826838042,
      "grad_norm": 0.6567397713661194,
      "learning_rate": 2.245160180279473e-06,
      "loss": 1.4008,
      "mean_token_accuracy": 0.6515764991442362,
      "num_tokens": 2833141986.0,
      "step": 16892
    },
    {
      "entropy": 1.7396831810474396,
      "epoch": 1.8557853395951773,
      "grad_norm": 0.6399162411689758,
      "learning_rate": 2.244789153743681e-06,
      "loss": 1.5221,
      "mean_token_accuracy": 0.6352566480636597,
      "num_tokens": 2833383901.0,
      "step": 16893
    },
    {
      "entropy": 1.6990015904108684,
      "epoch": 1.8558951965065502,
      "grad_norm": 0.6782881617546082,
      "learning_rate": 2.2444184043063666e-06,
      "loss": 1.3644,
      "mean_token_accuracy": 0.6583975255489349,
      "num_tokens": 2833543551.0,
      "step": 16894
    },
    {
      "entropy": 1.798978457848231,
      "epoch": 1.856005053417923,
      "grad_norm": 0.7053307294845581,
      "learning_rate": 2.2440479319792636e-06,
      "loss": 1.4234,
      "mean_token_accuracy": 0.6484651267528534,
      "num_tokens": 2833660767.0,
      "step": 16895
    },
    {
      "entropy": 1.6739828785260518,
      "epoch": 1.8561149103292962,
      "grad_norm": 0.741791844367981,
      "learning_rate": 2.2436777367741004e-06,
      "loss": 1.3366,
      "mean_token_accuracy": 0.6574702759583791,
      "num_tokens": 2833816561.0,
      "step": 16896
    },
    {
      "entropy": 1.7440234621365864,
      "epoch": 1.8562247672406689,
      "grad_norm": 0.7840536832809448,
      "learning_rate": 2.2433078187025897e-06,
      "loss": 1.3036,
      "mean_token_accuracy": 0.6595564881960551,
      "num_tokens": 2833970261.0,
      "step": 16897
    },
    {
      "entropy": 1.7112967669963837,
      "epoch": 1.856334624152042,
      "grad_norm": 0.6875016093254089,
      "learning_rate": 2.24293817777644e-06,
      "loss": 1.5245,
      "mean_token_accuracy": 0.655097077290217,
      "num_tokens": 2834143895.0,
      "step": 16898
    },
    {
      "entropy": 1.7350221673647563,
      "epoch": 1.8564444810634149,
      "grad_norm": 0.6510404944419861,
      "learning_rate": 2.2425688140073515e-06,
      "loss": 1.3634,
      "mean_token_accuracy": 0.6634075343608856,
      "num_tokens": 2834282750.0,
      "step": 16899
    },
    {
      "entropy": 1.7747245331605275,
      "epoch": 1.8565543379747877,
      "grad_norm": 0.7304637432098389,
      "learning_rate": 2.2421997274070153e-06,
      "loss": 1.3861,
      "mean_token_accuracy": 0.6545447160800298,
      "num_tokens": 2834400058.0,
      "step": 16900
    },
    {
      "entropy": 1.6580698291460674,
      "epoch": 1.8566641948861609,
      "grad_norm": 0.6355282664299011,
      "learning_rate": 2.2418309179871094e-06,
      "loss": 1.3236,
      "mean_token_accuracy": 0.6701503843069077,
      "num_tokens": 2834567340.0,
      "step": 16901
    },
    {
      "entropy": 1.7195066312948863,
      "epoch": 1.8567740517975337,
      "grad_norm": 0.6729101538658142,
      "learning_rate": 2.2414623857593086e-06,
      "loss": 1.329,
      "mean_token_accuracy": 0.6680616289377213,
      "num_tokens": 2834701276.0,
      "step": 16902
    },
    {
      "entropy": 1.7093308369318645,
      "epoch": 1.8568839087089066,
      "grad_norm": 0.735205352306366,
      "learning_rate": 2.241094130735277e-06,
      "loss": 1.5407,
      "mean_token_accuracy": 0.6620696832736334,
      "num_tokens": 2834860563.0,
      "step": 16903
    },
    {
      "entropy": 1.6724826991558075,
      "epoch": 1.8569937656202797,
      "grad_norm": 0.6093858480453491,
      "learning_rate": 2.2407261529266697e-06,
      "loss": 1.4459,
      "mean_token_accuracy": 0.6603935311237971,
      "num_tokens": 2835024875.0,
      "step": 16904
    },
    {
      "entropy": 1.7351752022902172,
      "epoch": 1.8571036225316524,
      "grad_norm": 0.716964840888977,
      "learning_rate": 2.240358452345133e-06,
      "loss": 1.4218,
      "mean_token_accuracy": 0.6472053527832031,
      "num_tokens": 2835160577.0,
      "step": 16905
    },
    {
      "entropy": 1.6534366210301716,
      "epoch": 1.8572134794430255,
      "grad_norm": 0.6837955713272095,
      "learning_rate": 2.2399910290023024e-06,
      "loss": 1.3871,
      "mean_token_accuracy": 0.6537323395411173,
      "num_tokens": 2835300716.0,
      "step": 16906
    },
    {
      "entropy": 1.6657463312149048,
      "epoch": 1.8573233363543984,
      "grad_norm": 0.6619056463241577,
      "learning_rate": 2.2396238829098092e-06,
      "loss": 1.3247,
      "mean_token_accuracy": 0.6633240481217703,
      "num_tokens": 2835477286.0,
      "step": 16907
    },
    {
      "entropy": 1.7382064660390217,
      "epoch": 1.8574331932657713,
      "grad_norm": 0.9045251607894897,
      "learning_rate": 2.2392570140792743e-06,
      "loss": 1.4923,
      "mean_token_accuracy": 0.6527342349290848,
      "num_tokens": 2835621855.0,
      "step": 16908
    },
    {
      "entropy": 1.746301809946696,
      "epoch": 1.8575430501771444,
      "grad_norm": 0.8234473466873169,
      "learning_rate": 2.2388904225223047e-06,
      "loss": 1.4924,
      "mean_token_accuracy": 0.6496127992868423,
      "num_tokens": 2835796980.0,
      "step": 16909
    },
    {
      "entropy": 1.6744904418786366,
      "epoch": 1.857652907088517,
      "grad_norm": 0.6349613070487976,
      "learning_rate": 2.2385241082505062e-06,
      "loss": 1.3036,
      "mean_token_accuracy": 0.6642439812421799,
      "num_tokens": 2835991748.0,
      "step": 16910
    },
    {
      "entropy": 1.7444684902826946,
      "epoch": 1.8577627639998902,
      "grad_norm": 0.6656630635261536,
      "learning_rate": 2.2381580712754717e-06,
      "loss": 1.4149,
      "mean_token_accuracy": 0.6564318190018336,
      "num_tokens": 2836177838.0,
      "step": 16911
    },
    {
      "entropy": 1.7117125988006592,
      "epoch": 1.857872620911263,
      "grad_norm": 0.6614863276481628,
      "learning_rate": 2.237792311608787e-06,
      "loss": 1.5543,
      "mean_token_accuracy": 0.650190144777298,
      "num_tokens": 2836380864.0,
      "step": 16912
    },
    {
      "entropy": 1.70883509516716,
      "epoch": 1.857982477822636,
      "grad_norm": 0.6626452207565308,
      "learning_rate": 2.237426829262027e-06,
      "loss": 1.3597,
      "mean_token_accuracy": 0.6688442379236221,
      "num_tokens": 2836523172.0,
      "step": 16913
    },
    {
      "entropy": 1.7223861614863079,
      "epoch": 1.858092334734009,
      "grad_norm": 1.0268768072128296,
      "learning_rate": 2.237061624246758e-06,
      "loss": 1.3974,
      "mean_token_accuracy": 0.6556852708260218,
      "num_tokens": 2836659552.0,
      "step": 16914
    },
    {
      "entropy": 1.6183397471904755,
      "epoch": 1.858202191645382,
      "grad_norm": 0.6055456399917603,
      "learning_rate": 2.2366966965745403e-06,
      "loss": 1.3816,
      "mean_token_accuracy": 0.6664853493372599,
      "num_tokens": 2836851444.0,
      "step": 16915
    },
    {
      "entropy": 1.723154256741206,
      "epoch": 1.8583120485567548,
      "grad_norm": 0.6002776622772217,
      "learning_rate": 2.236332046256924e-06,
      "loss": 1.3431,
      "mean_token_accuracy": 0.6692459831635157,
      "num_tokens": 2837003681.0,
      "step": 16916
    },
    {
      "entropy": 1.7682878176371257,
      "epoch": 1.858421905468128,
      "grad_norm": 0.6165063977241516,
      "learning_rate": 2.2359676733054496e-06,
      "loss": 1.4432,
      "mean_token_accuracy": 0.6513163695732752,
      "num_tokens": 2837206049.0,
      "step": 16917
    },
    {
      "entropy": 1.745583325624466,
      "epoch": 1.8585317623795006,
      "grad_norm": 0.5849365592002869,
      "learning_rate": 2.235603577731648e-06,
      "loss": 1.5011,
      "mean_token_accuracy": 0.6388779282569885,
      "num_tokens": 2837413970.0,
      "step": 16918
    },
    {
      "entropy": 1.7166366577148438,
      "epoch": 1.8586416192908737,
      "grad_norm": 0.6849484443664551,
      "learning_rate": 2.2352397595470453e-06,
      "loss": 1.4588,
      "mean_token_accuracy": 0.6550758282343546,
      "num_tokens": 2837575965.0,
      "step": 16919
    },
    {
      "entropy": 1.6985012590885162,
      "epoch": 1.8587514762022466,
      "grad_norm": 0.6950430274009705,
      "learning_rate": 2.2348762187631537e-06,
      "loss": 1.3575,
      "mean_token_accuracy": 0.6614127407471339,
      "num_tokens": 2837715810.0,
      "step": 16920
    },
    {
      "entropy": 1.6506640315055847,
      "epoch": 1.8588613331136195,
      "grad_norm": 0.7237517237663269,
      "learning_rate": 2.2345129553914805e-06,
      "loss": 1.3152,
      "mean_token_accuracy": 0.66397192577521,
      "num_tokens": 2837839931.0,
      "step": 16921
    },
    {
      "entropy": 1.7041799624760945,
      "epoch": 1.8589711900249926,
      "grad_norm": 0.7405112981796265,
      "learning_rate": 2.234149969443522e-06,
      "loss": 1.5072,
      "mean_token_accuracy": 0.6494031300147375,
      "num_tokens": 2838000703.0,
      "step": 16922
    },
    {
      "entropy": 1.6308053533236186,
      "epoch": 1.8590810469363652,
      "grad_norm": 0.6319633722305298,
      "learning_rate": 2.2337872609307677e-06,
      "loss": 1.3862,
      "mean_token_accuracy": 0.6686498373746872,
      "num_tokens": 2838140080.0,
      "step": 16923
    },
    {
      "entropy": 1.7466503183046977,
      "epoch": 1.8591909038477383,
      "grad_norm": 0.6635008454322815,
      "learning_rate": 2.233424829864696e-06,
      "loss": 1.3945,
      "mean_token_accuracy": 0.649022842446963,
      "num_tokens": 2838274430.0,
      "step": 16924
    },
    {
      "entropy": 1.7209342022736867,
      "epoch": 1.8593007607591112,
      "grad_norm": 0.7904077172279358,
      "learning_rate": 2.2330626762567784e-06,
      "loss": 1.553,
      "mean_token_accuracy": 0.6467588543891907,
      "num_tokens": 2838492658.0,
      "step": 16925
    },
    {
      "entropy": 1.6345500747362773,
      "epoch": 1.859410617670484,
      "grad_norm": 0.7646093964576721,
      "learning_rate": 2.2327008001184764e-06,
      "loss": 1.5033,
      "mean_token_accuracy": 0.643667072057724,
      "num_tokens": 2838691595.0,
      "step": 16926
    },
    {
      "entropy": 1.692623883485794,
      "epoch": 1.8595204745818572,
      "grad_norm": 0.7697778940200806,
      "learning_rate": 2.2323392014612425e-06,
      "loss": 1.3278,
      "mean_token_accuracy": 0.6717701901992162,
      "num_tokens": 2838804890.0,
      "step": 16927
    },
    {
      "entropy": 1.676644762357076,
      "epoch": 1.85963033149323,
      "grad_norm": 0.6009611487388611,
      "learning_rate": 2.2319778802965244e-06,
      "loss": 1.463,
      "mean_token_accuracy": 0.6408818513154984,
      "num_tokens": 2839016654.0,
      "step": 16928
    },
    {
      "entropy": 1.719579428434372,
      "epoch": 1.859740188404603,
      "grad_norm": 0.6772399544715881,
      "learning_rate": 2.2316168366357533e-06,
      "loss": 1.4172,
      "mean_token_accuracy": 0.6630838066339493,
      "num_tokens": 2839199453.0,
      "step": 16929
    },
    {
      "entropy": 1.680406113465627,
      "epoch": 1.859850045315976,
      "grad_norm": 0.7438538074493408,
      "learning_rate": 2.2312560704903586e-06,
      "loss": 1.4936,
      "mean_token_accuracy": 0.6705125272274017,
      "num_tokens": 2839374638.0,
      "step": 16930
    },
    {
      "entropy": 1.6635006268819172,
      "epoch": 1.8599599022273487,
      "grad_norm": 0.6747929453849792,
      "learning_rate": 2.230895581871759e-06,
      "loss": 1.302,
      "mean_token_accuracy": 0.6731831183036169,
      "num_tokens": 2839525698.0,
      "step": 16931
    },
    {
      "entropy": 1.7203009327252705,
      "epoch": 1.8600697591387219,
      "grad_norm": 0.6208789348602295,
      "learning_rate": 2.2305353707913624e-06,
      "loss": 1.5573,
      "mean_token_accuracy": 0.6403620640436808,
      "num_tokens": 2839743378.0,
      "step": 16932
    },
    {
      "entropy": 1.7072515587011974,
      "epoch": 1.8601796160500947,
      "grad_norm": 0.6848557591438293,
      "learning_rate": 2.230175437260569e-06,
      "loss": 1.289,
      "mean_token_accuracy": 0.6748117307821909,
      "num_tokens": 2839860106.0,
      "step": 16933
    },
    {
      "entropy": 1.6722529927889507,
      "epoch": 1.8602894729614676,
      "grad_norm": 0.7470364570617676,
      "learning_rate": 2.229815781290772e-06,
      "loss": 1.3631,
      "mean_token_accuracy": 0.6619627922773361,
      "num_tokens": 2840008850.0,
      "step": 16934
    },
    {
      "entropy": 1.7064866026242573,
      "epoch": 1.8603993298728407,
      "grad_norm": 0.692008376121521,
      "learning_rate": 2.229456402893352e-06,
      "loss": 1.3543,
      "mean_token_accuracy": 0.6580140540997187,
      "num_tokens": 2840145150.0,
      "step": 16935
    },
    {
      "entropy": 1.6983463366826375,
      "epoch": 1.8605091867842134,
      "grad_norm": 0.6857158541679382,
      "learning_rate": 2.2290973020796873e-06,
      "loss": 1.3891,
      "mean_token_accuracy": 0.6641733994086584,
      "num_tokens": 2840296513.0,
      "step": 16936
    },
    {
      "entropy": 1.7579893469810486,
      "epoch": 1.8606190436955865,
      "grad_norm": 0.5688817501068115,
      "learning_rate": 2.228738478861139e-06,
      "loss": 1.4527,
      "mean_token_accuracy": 0.631959984699885,
      "num_tokens": 2840489377.0,
      "step": 16937
    },
    {
      "entropy": 1.7483516136805217,
      "epoch": 1.8607289006069594,
      "grad_norm": 0.6688814163208008,
      "learning_rate": 2.228379933249066e-06,
      "loss": 1.4025,
      "mean_token_accuracy": 0.651861771941185,
      "num_tokens": 2840638757.0,
      "step": 16938
    },
    {
      "entropy": 1.745933045943578,
      "epoch": 1.8608387575183323,
      "grad_norm": 0.6227981448173523,
      "learning_rate": 2.2280216652548144e-06,
      "loss": 1.3729,
      "mean_token_accuracy": 0.6608076989650726,
      "num_tokens": 2840812693.0,
      "step": 16939
    },
    {
      "entropy": 1.6749466558297474,
      "epoch": 1.8609486144297054,
      "grad_norm": 0.6650595664978027,
      "learning_rate": 2.2276636748897264e-06,
      "loss": 1.4298,
      "mean_token_accuracy": 0.6458970904350281,
      "num_tokens": 2840956606.0,
      "step": 16940
    },
    {
      "entropy": 1.7333874702453613,
      "epoch": 1.8610584713410783,
      "grad_norm": 0.6113640069961548,
      "learning_rate": 2.227305962165129e-06,
      "loss": 1.4095,
      "mean_token_accuracy": 0.6591263363758723,
      "num_tokens": 2841175897.0,
      "step": 16941
    },
    {
      "entropy": 1.7647278308868408,
      "epoch": 1.8611683282524512,
      "grad_norm": 0.9023246765136719,
      "learning_rate": 2.2269485270923446e-06,
      "loss": 1.3244,
      "mean_token_accuracy": 0.6695207307736079,
      "num_tokens": 2841295330.0,
      "step": 16942
    },
    {
      "entropy": 1.7428401311238606,
      "epoch": 1.8612781851638243,
      "grad_norm": 0.6869433522224426,
      "learning_rate": 2.2265913696826865e-06,
      "loss": 1.3092,
      "mean_token_accuracy": 0.6689073791106542,
      "num_tokens": 2841438192.0,
      "step": 16943
    },
    {
      "entropy": 1.7334860563278198,
      "epoch": 1.861388042075197,
      "grad_norm": 0.6899425983428955,
      "learning_rate": 2.2262344899474585e-06,
      "loss": 1.3344,
      "mean_token_accuracy": 0.6681728015343348,
      "num_tokens": 2841567347.0,
      "step": 16944
    },
    {
      "entropy": 1.7800839046637218,
      "epoch": 1.86149789898657,
      "grad_norm": 0.744773805141449,
      "learning_rate": 2.225877887897954e-06,
      "loss": 1.4977,
      "mean_token_accuracy": 0.6642592052618662,
      "num_tokens": 2841725960.0,
      "step": 16945
    },
    {
      "entropy": 1.6366903285185497,
      "epoch": 1.861607755897943,
      "grad_norm": 0.6069456934928894,
      "learning_rate": 2.2255215635454618e-06,
      "loss": 1.401,
      "mean_token_accuracy": 0.6623266190290451,
      "num_tokens": 2841915773.0,
      "step": 16946
    },
    {
      "entropy": 1.6906556288401287,
      "epoch": 1.8617176128093158,
      "grad_norm": 0.5900170803070068,
      "learning_rate": 2.225165516901257e-06,
      "loss": 1.5347,
      "mean_token_accuracy": 0.636528434852759,
      "num_tokens": 2842126533.0,
      "step": 16947
    },
    {
      "entropy": 1.7210322221120198,
      "epoch": 1.861827469720689,
      "grad_norm": 0.6937727928161621,
      "learning_rate": 2.2248097479766114e-06,
      "loss": 1.4849,
      "mean_token_accuracy": 0.651384433110555,
      "num_tokens": 2842268373.0,
      "step": 16948
    },
    {
      "entropy": 1.6970987915992737,
      "epoch": 1.8619373266320616,
      "grad_norm": 0.8207261562347412,
      "learning_rate": 2.224454256782783e-06,
      "loss": 1.4079,
      "mean_token_accuracy": 0.6684905638297399,
      "num_tokens": 2842422883.0,
      "step": 16949
    },
    {
      "entropy": 1.7192309498786926,
      "epoch": 1.8620471835434347,
      "grad_norm": 0.7105966806411743,
      "learning_rate": 2.2240990433310218e-06,
      "loss": 1.3975,
      "mean_token_accuracy": 0.6547664652268091,
      "num_tokens": 2842586220.0,
      "step": 16950
    },
    {
      "entropy": 1.714976857105891,
      "epoch": 1.8621570404548076,
      "grad_norm": 0.6246412396430969,
      "learning_rate": 2.2237441076325714e-06,
      "loss": 1.4338,
      "mean_token_accuracy": 0.652628536025683,
      "num_tokens": 2842777503.0,
      "step": 16951
    },
    {
      "entropy": 1.6915887892246246,
      "epoch": 1.8622668973661805,
      "grad_norm": 0.6842101216316223,
      "learning_rate": 2.223389449698666e-06,
      "loss": 1.3436,
      "mean_token_accuracy": 0.6701055020093918,
      "num_tokens": 2842904821.0,
      "step": 16952
    },
    {
      "entropy": 1.6738732159137726,
      "epoch": 1.8623767542775536,
      "grad_norm": 0.7973695397377014,
      "learning_rate": 2.2230350695405288e-06,
      "loss": 1.3581,
      "mean_token_accuracy": 0.6813636471827825,
      "num_tokens": 2843019612.0,
      "step": 16953
    },
    {
      "entropy": 1.682248741388321,
      "epoch": 1.8624866111889264,
      "grad_norm": 0.6853655576705933,
      "learning_rate": 2.222680967169377e-06,
      "loss": 1.3193,
      "mean_token_accuracy": 0.6603673497835795,
      "num_tokens": 2843174426.0,
      "step": 16954
    },
    {
      "entropy": 1.7681555946667988,
      "epoch": 1.8625964681002993,
      "grad_norm": 0.7105289101600647,
      "learning_rate": 2.2223271425964182e-06,
      "loss": 1.3293,
      "mean_token_accuracy": 0.67288438975811,
      "num_tokens": 2843305957.0,
      "step": 16955
    },
    {
      "entropy": 1.7183941106001537,
      "epoch": 1.8627063250116724,
      "grad_norm": 0.7996242642402649,
      "learning_rate": 2.22197359583285e-06,
      "loss": 1.53,
      "mean_token_accuracy": 0.6441441575686137,
      "num_tokens": 2843524423.0,
      "step": 16956
    },
    {
      "entropy": 1.7308327456315358,
      "epoch": 1.862816181923045,
      "grad_norm": 0.7495532035827637,
      "learning_rate": 2.2216203268898605e-06,
      "loss": 1.3608,
      "mean_token_accuracy": 0.6570025732119879,
      "num_tokens": 2843657802.0,
      "step": 16957
    },
    {
      "entropy": 1.6802193820476532,
      "epoch": 1.8629260388344182,
      "grad_norm": 0.7395232915878296,
      "learning_rate": 2.2212673357786333e-06,
      "loss": 1.3952,
      "mean_token_accuracy": 0.6501044581333796,
      "num_tokens": 2843822977.0,
      "step": 16958
    },
    {
      "entropy": 1.706279416879018,
      "epoch": 1.863035895745791,
      "grad_norm": 0.7118804454803467,
      "learning_rate": 2.220914622510339e-06,
      "loss": 1.4068,
      "mean_token_accuracy": 0.6517497350772222,
      "num_tokens": 2843988396.0,
      "step": 16959
    },
    {
      "entropy": 1.6896512309710185,
      "epoch": 1.863145752657164,
      "grad_norm": 0.7015063166618347,
      "learning_rate": 2.2205621870961405e-06,
      "loss": 1.5505,
      "mean_token_accuracy": 0.6469273467858633,
      "num_tokens": 2844136156.0,
      "step": 16960
    },
    {
      "entropy": 1.6428396503130596,
      "epoch": 1.863255609568537,
      "grad_norm": 0.7962595820426941,
      "learning_rate": 2.2202100295471937e-06,
      "loss": 1.1938,
      "mean_token_accuracy": 0.6869229475657145,
      "num_tokens": 2844254113.0,
      "step": 16961
    },
    {
      "entropy": 1.707498123248418,
      "epoch": 1.86336546647991,
      "grad_norm": 0.6344748139381409,
      "learning_rate": 2.219858149874642e-06,
      "loss": 1.4643,
      "mean_token_accuracy": 0.6413133492072424,
      "num_tokens": 2844456777.0,
      "step": 16962
    },
    {
      "entropy": 1.6804148157437642,
      "epoch": 1.8634753233912829,
      "grad_norm": 0.6727264523506165,
      "learning_rate": 2.219506548089623e-06,
      "loss": 1.1781,
      "mean_token_accuracy": 0.6860218544801077,
      "num_tokens": 2844572149.0,
      "step": 16963
    },
    {
      "entropy": 1.7345021267731984,
      "epoch": 1.8635851803026557,
      "grad_norm": 0.7716752290725708,
      "learning_rate": 2.219155224203268e-06,
      "loss": 1.4514,
      "mean_token_accuracy": 0.6558243483304977,
      "num_tokens": 2844746134.0,
      "step": 16964
    },
    {
      "entropy": 1.717079867919286,
      "epoch": 1.8636950372140286,
      "grad_norm": 0.7007601857185364,
      "learning_rate": 2.2188041782266905e-06,
      "loss": 1.5099,
      "mean_token_accuracy": 0.6400510122378668,
      "num_tokens": 2844934759.0,
      "step": 16965
    },
    {
      "entropy": 1.6786939601103466,
      "epoch": 1.8638048941254017,
      "grad_norm": 0.6247925758361816,
      "learning_rate": 2.2184534101710043e-06,
      "loss": 1.3304,
      "mean_token_accuracy": 0.6726222485303879,
      "num_tokens": 2845083838.0,
      "step": 16966
    },
    {
      "entropy": 1.7275762955347698,
      "epoch": 1.8639147510367746,
      "grad_norm": 0.8030937910079956,
      "learning_rate": 2.2181029200473123e-06,
      "loss": 1.2345,
      "mean_token_accuracy": 0.6929545601209005,
      "num_tokens": 2845188998.0,
      "step": 16967
    },
    {
      "entropy": 1.7728230853875477,
      "epoch": 1.8640246079481475,
      "grad_norm": 0.7184717059135437,
      "learning_rate": 2.217752707866704e-06,
      "loss": 1.4425,
      "mean_token_accuracy": 0.6444051365057627,
      "num_tokens": 2845371280.0,
      "step": 16968
    },
    {
      "entropy": 1.75874129931132,
      "epoch": 1.8641344648595206,
      "grad_norm": 0.7662733793258667,
      "learning_rate": 2.217402773640265e-06,
      "loss": 1.4214,
      "mean_token_accuracy": 0.6515029867490133,
      "num_tokens": 2845525478.0,
      "step": 16969
    },
    {
      "entropy": 1.7064630488554637,
      "epoch": 1.8642443217708933,
      "grad_norm": 0.7449208498001099,
      "learning_rate": 2.2170531173790722e-06,
      "loss": 1.3713,
      "mean_token_accuracy": 0.6680237799882889,
      "num_tokens": 2845670438.0,
      "step": 16970
    },
    {
      "entropy": 1.6645330289999645,
      "epoch": 1.8643541786822664,
      "grad_norm": 0.713966429233551,
      "learning_rate": 2.2167037390941892e-06,
      "loss": 1.4005,
      "mean_token_accuracy": 0.6721183756987253,
      "num_tokens": 2845825623.0,
      "step": 16971
    },
    {
      "entropy": 1.7196373244126637,
      "epoch": 1.8644640355936393,
      "grad_norm": 0.7147789597511292,
      "learning_rate": 2.2163546387966756e-06,
      "loss": 1.5454,
      "mean_token_accuracy": 0.6515597999095917,
      "num_tokens": 2845991287.0,
      "step": 16972
    },
    {
      "entropy": 1.704675664504369,
      "epoch": 1.8645738925050122,
      "grad_norm": 0.6308305263519287,
      "learning_rate": 2.21600581649758e-06,
      "loss": 1.3732,
      "mean_token_accuracy": 0.6472256034612656,
      "num_tokens": 2846154390.0,
      "step": 16973
    },
    {
      "entropy": 1.6952514847119649,
      "epoch": 1.8646837494163853,
      "grad_norm": 0.8253968358039856,
      "learning_rate": 2.2156572722079413e-06,
      "loss": 1.2201,
      "mean_token_accuracy": 0.6835501392682394,
      "num_tokens": 2846297166.0,
      "step": 16974
    },
    {
      "entropy": 1.7401870787143707,
      "epoch": 1.8647936063277581,
      "grad_norm": 0.9213194847106934,
      "learning_rate": 2.2153090059387926e-06,
      "loss": 1.4246,
      "mean_token_accuracy": 0.6445530652999878,
      "num_tokens": 2846470925.0,
      "step": 16975
    },
    {
      "entropy": 1.7035265266895294,
      "epoch": 1.864903463239131,
      "grad_norm": 0.6574537754058838,
      "learning_rate": 2.2149610177011547e-06,
      "loss": 1.4512,
      "mean_token_accuracy": 0.6518820325533549,
      "num_tokens": 2846627363.0,
      "step": 16976
    },
    {
      "entropy": 1.6686862508455913,
      "epoch": 1.865013320150504,
      "grad_norm": 0.7016027569770813,
      "learning_rate": 2.2146133075060412e-06,
      "loss": 1.5151,
      "mean_token_accuracy": 0.651968797047933,
      "num_tokens": 2846810432.0,
      "step": 16977
    },
    {
      "entropy": 1.673084298769633,
      "epoch": 1.8651231770618768,
      "grad_norm": 0.5893659591674805,
      "learning_rate": 2.2142658753644593e-06,
      "loss": 1.449,
      "mean_token_accuracy": 0.6452168524265289,
      "num_tokens": 2847041747.0,
      "step": 16978
    },
    {
      "entropy": 1.6141287585099537,
      "epoch": 1.86523303397325,
      "grad_norm": 0.7347483038902283,
      "learning_rate": 2.213918721287402e-06,
      "loss": 1.2958,
      "mean_token_accuracy": 0.6759419937928518,
      "num_tokens": 2847193557.0,
      "step": 16979
    },
    {
      "entropy": 1.71195982893308,
      "epoch": 1.8653428908846228,
      "grad_norm": 0.7597905993461609,
      "learning_rate": 2.2135718452858598e-06,
      "loss": 1.4343,
      "mean_token_accuracy": 0.6534530371427536,
      "num_tokens": 2847395961.0,
      "step": 16980
    },
    {
      "entropy": 1.726847916841507,
      "epoch": 1.8654527477959957,
      "grad_norm": 0.751272976398468,
      "learning_rate": 2.213225247370808e-06,
      "loss": 1.4013,
      "mean_token_accuracy": 0.6617669512828191,
      "num_tokens": 2847577102.0,
      "step": 16981
    },
    {
      "entropy": 1.7482527395089467,
      "epoch": 1.8655626047073688,
      "grad_norm": 0.7296915054321289,
      "learning_rate": 2.2128789275532175e-06,
      "loss": 1.5129,
      "mean_token_accuracy": 0.6335967232783636,
      "num_tokens": 2847772021.0,
      "step": 16982
    },
    {
      "entropy": 1.6838180720806122,
      "epoch": 1.8656724616187415,
      "grad_norm": 0.5979762077331543,
      "learning_rate": 2.2125328858440503e-06,
      "loss": 1.5231,
      "mean_token_accuracy": 0.6346350063880285,
      "num_tokens": 2847965351.0,
      "step": 16983
    },
    {
      "entropy": 1.7451152900854747,
      "epoch": 1.8657823185301146,
      "grad_norm": 0.6949437856674194,
      "learning_rate": 2.212187122254258e-06,
      "loss": 1.3898,
      "mean_token_accuracy": 0.6568313439687093,
      "num_tokens": 2848141395.0,
      "step": 16984
    },
    {
      "entropy": 1.7283788720766704,
      "epoch": 1.8658921754414874,
      "grad_norm": 0.6480981111526489,
      "learning_rate": 2.211841636794783e-06,
      "loss": 1.4786,
      "mean_token_accuracy": 0.6345923642317454,
      "num_tokens": 2848375079.0,
      "step": 16985
    },
    {
      "entropy": 1.7344995041688283,
      "epoch": 1.8660020323528603,
      "grad_norm": 0.7044827342033386,
      "learning_rate": 2.211496429476559e-06,
      "loss": 1.4727,
      "mean_token_accuracy": 0.648894136150678,
      "num_tokens": 2848592441.0,
      "step": 16986
    },
    {
      "entropy": 1.7405148645242055,
      "epoch": 1.8661118892642334,
      "grad_norm": 0.6550964117050171,
      "learning_rate": 2.2111515003105137e-06,
      "loss": 1.3739,
      "mean_token_accuracy": 0.656710093220075,
      "num_tokens": 2848736248.0,
      "step": 16987
    },
    {
      "entropy": 1.6667698224385579,
      "epoch": 1.8662217461756063,
      "grad_norm": 0.7342043519020081,
      "learning_rate": 2.2108068493075634e-06,
      "loss": 1.2817,
      "mean_token_accuracy": 0.676526720325152,
      "num_tokens": 2848898107.0,
      "step": 16988
    },
    {
      "entropy": 1.6982735991477966,
      "epoch": 1.8663316030869792,
      "grad_norm": 0.7887325286865234,
      "learning_rate": 2.2104624764786152e-06,
      "loss": 1.2851,
      "mean_token_accuracy": 0.673782487710317,
      "num_tokens": 2849023372.0,
      "step": 16989
    },
    {
      "entropy": 1.806358168522517,
      "epoch": 1.866441459998352,
      "grad_norm": 0.7065950036048889,
      "learning_rate": 2.210118381834569e-06,
      "loss": 1.5251,
      "mean_token_accuracy": 0.640480175614357,
      "num_tokens": 2849217998.0,
      "step": 16990
    },
    {
      "entropy": 1.6777258316675823,
      "epoch": 1.866551316909725,
      "grad_norm": 0.6541003584861755,
      "learning_rate": 2.2097745653863156e-06,
      "loss": 1.3798,
      "mean_token_accuracy": 0.6534243921438853,
      "num_tokens": 2849428641.0,
      "step": 16991
    },
    {
      "entropy": 1.741273860136668,
      "epoch": 1.866661173821098,
      "grad_norm": 0.7950140833854675,
      "learning_rate": 2.2094310271447355e-06,
      "loss": 1.3057,
      "mean_token_accuracy": 0.6594074964523315,
      "num_tokens": 2849527531.0,
      "step": 16992
    },
    {
      "entropy": 1.6880672574043274,
      "epoch": 1.866771030732471,
      "grad_norm": 0.6249304413795471,
      "learning_rate": 2.209087767120704e-06,
      "loss": 1.4085,
      "mean_token_accuracy": 0.6540153622627258,
      "num_tokens": 2849684171.0,
      "step": 16993
    },
    {
      "entropy": 1.7445914248625438,
      "epoch": 1.8668808876438439,
      "grad_norm": 0.6921653747558594,
      "learning_rate": 2.208744785325081e-06,
      "loss": 1.389,
      "mean_token_accuracy": 0.6449531565109888,
      "num_tokens": 2849836896.0,
      "step": 16994
    },
    {
      "entropy": 1.7295080125331879,
      "epoch": 1.866990744555217,
      "grad_norm": 0.5937165021896362,
      "learning_rate": 2.2084020817687253e-06,
      "loss": 1.4598,
      "mean_token_accuracy": 0.6409016450246176,
      "num_tokens": 2850047785.0,
      "step": 16995
    },
    {
      "entropy": 1.7254140277703602,
      "epoch": 1.8671006014665896,
      "grad_norm": 1.068790078163147,
      "learning_rate": 2.208059656462482e-06,
      "loss": 1.3398,
      "mean_token_accuracy": 0.6658286303281784,
      "num_tokens": 2850181291.0,
      "step": 16996
    },
    {
      "entropy": 1.7456210553646088,
      "epoch": 1.8672104583779627,
      "grad_norm": 0.6479652523994446,
      "learning_rate": 2.2077175094171903e-06,
      "loss": 1.3958,
      "mean_token_accuracy": 0.6518608878056208,
      "num_tokens": 2850309540.0,
      "step": 16997
    },
    {
      "entropy": 1.6959585348765056,
      "epoch": 1.8673203152893356,
      "grad_norm": 0.5444127321243286,
      "learning_rate": 2.207375640643675e-06,
      "loss": 1.3446,
      "mean_token_accuracy": 0.6572243670622507,
      "num_tokens": 2850495775.0,
      "step": 16998
    },
    {
      "entropy": 1.7165914873282115,
      "epoch": 1.8674301722007085,
      "grad_norm": 0.7069491744041443,
      "learning_rate": 2.2070340501527597e-06,
      "loss": 1.3456,
      "mean_token_accuracy": 0.6599544485410055,
      "num_tokens": 2850651848.0,
      "step": 16999
    },
    {
      "entropy": 1.6840533812840779,
      "epoch": 1.8675400291120816,
      "grad_norm": 0.6812978982925415,
      "learning_rate": 2.206692737955256e-06,
      "loss": 1.2676,
      "mean_token_accuracy": 0.6691629191239675,
      "num_tokens": 2850765863.0,
      "step": 17000
    },
    {
      "entropy": 1.6662333011627197,
      "epoch": 1.8676498860234545,
      "grad_norm": 0.7810607552528381,
      "learning_rate": 2.206351704061963e-06,
      "loss": 1.5147,
      "mean_token_accuracy": 0.6441531578699747,
      "num_tokens": 2850957710.0,
      "step": 17001
    },
    {
      "entropy": 1.778091549873352,
      "epoch": 1.8677597429348274,
      "grad_norm": 0.6844190955162048,
      "learning_rate": 2.2060109484836766e-06,
      "loss": 1.4703,
      "mean_token_accuracy": 0.6522639393806458,
      "num_tokens": 2851124151.0,
      "step": 17002
    },
    {
      "entropy": 1.772169252236684,
      "epoch": 1.8678695998462005,
      "grad_norm": 0.7324439883232117,
      "learning_rate": 2.20567047123118e-06,
      "loss": 1.401,
      "mean_token_accuracy": 0.6545427242914835,
      "num_tokens": 2851257624.0,
      "step": 17003
    },
    {
      "entropy": 1.6680610577265422,
      "epoch": 1.8679794567575732,
      "grad_norm": 0.6523362994194031,
      "learning_rate": 2.205330272315251e-06,
      "loss": 1.3719,
      "mean_token_accuracy": 0.6796788175900778,
      "num_tokens": 2851407097.0,
      "step": 17004
    },
    {
      "entropy": 1.7212667365868886,
      "epoch": 1.8680893136689463,
      "grad_norm": 0.7622836232185364,
      "learning_rate": 2.204990351746657e-06,
      "loss": 1.4981,
      "mean_token_accuracy": 0.6425471156835556,
      "num_tokens": 2851594805.0,
      "step": 17005
    },
    {
      "entropy": 1.7824140787124634,
      "epoch": 1.8681991705803191,
      "grad_norm": 0.8553072214126587,
      "learning_rate": 2.204650709536153e-06,
      "loss": 1.6837,
      "mean_token_accuracy": 0.6378919730583826,
      "num_tokens": 2851761200.0,
      "step": 17006
    },
    {
      "entropy": 1.7299172381560008,
      "epoch": 1.868309027491692,
      "grad_norm": 0.8043472766876221,
      "learning_rate": 2.204311345694492e-06,
      "loss": 1.4065,
      "mean_token_accuracy": 0.6654603232940038,
      "num_tokens": 2851896719.0,
      "step": 17007
    },
    {
      "entropy": 1.7903384566307068,
      "epoch": 1.8684188844030651,
      "grad_norm": 0.8522409200668335,
      "learning_rate": 2.203972260232415e-06,
      "loss": 1.3412,
      "mean_token_accuracy": 0.6667458862066269,
      "num_tokens": 2852084088.0,
      "step": 17008
    },
    {
      "entropy": 1.649288256963094,
      "epoch": 1.8685287413144378,
      "grad_norm": 0.6457241177558899,
      "learning_rate": 2.20363345316065e-06,
      "loss": 1.2725,
      "mean_token_accuracy": 0.6749263107776642,
      "num_tokens": 2852201978.0,
      "step": 17009
    },
    {
      "entropy": 1.6585692763328552,
      "epoch": 1.868638598225811,
      "grad_norm": 0.6605546474456787,
      "learning_rate": 2.203294924489922e-06,
      "loss": 1.2864,
      "mean_token_accuracy": 0.6589010854562124,
      "num_tokens": 2852379096.0,
      "step": 17010
    },
    {
      "entropy": 1.688430259625117,
      "epoch": 1.8687484551371838,
      "grad_norm": 0.6104924082756042,
      "learning_rate": 2.202956674230948e-06,
      "loss": 1.3572,
      "mean_token_accuracy": 0.67152139544487,
      "num_tokens": 2852565308.0,
      "step": 17011
    },
    {
      "entropy": 1.6815722684065502,
      "epoch": 1.8688583120485567,
      "grad_norm": 0.6199679970741272,
      "learning_rate": 2.202618702394431e-06,
      "loss": 1.3527,
      "mean_token_accuracy": 0.6769666820764542,
      "num_tokens": 2852721982.0,
      "step": 17012
    },
    {
      "entropy": 1.699970543384552,
      "epoch": 1.8689681689599298,
      "grad_norm": 0.6916362643241882,
      "learning_rate": 2.202281008991066e-06,
      "loss": 1.3273,
      "mean_token_accuracy": 0.6627818942070007,
      "num_tokens": 2852855715.0,
      "step": 17013
    },
    {
      "entropy": 1.7449293434619904,
      "epoch": 1.8690780258713027,
      "grad_norm": 0.6241941452026367,
      "learning_rate": 2.2019435940315435e-06,
      "loss": 1.5613,
      "mean_token_accuracy": 0.6198464930057526,
      "num_tokens": 2853091879.0,
      "step": 17014
    },
    {
      "entropy": 1.6857063074906666,
      "epoch": 1.8691878827826756,
      "grad_norm": 0.7108656167984009,
      "learning_rate": 2.2016064575265426e-06,
      "loss": 1.3398,
      "mean_token_accuracy": 0.6637291759252548,
      "num_tokens": 2853218575.0,
      "step": 17015
    },
    {
      "entropy": 1.6702306667963664,
      "epoch": 1.8692977396940487,
      "grad_norm": 0.688471794128418,
      "learning_rate": 2.201269599486732e-06,
      "loss": 1.3163,
      "mean_token_accuracy": 0.6772701740264893,
      "num_tokens": 2853381585.0,
      "step": 17016
    },
    {
      "entropy": 1.7522780398527782,
      "epoch": 1.8694075966054213,
      "grad_norm": 0.6958498358726501,
      "learning_rate": 2.2009330199227746e-06,
      "loss": 1.3844,
      "mean_token_accuracy": 0.6645175168911616,
      "num_tokens": 2853526534.0,
      "step": 17017
    },
    {
      "entropy": 1.6620089908440907,
      "epoch": 1.8695174535167944,
      "grad_norm": 0.7110161185264587,
      "learning_rate": 2.2005967188453206e-06,
      "loss": 1.2126,
      "mean_token_accuracy": 0.6797206650177637,
      "num_tokens": 2853685590.0,
      "step": 17018
    },
    {
      "entropy": 1.6503388981024425,
      "epoch": 1.8696273104281673,
      "grad_norm": 0.6182279586791992,
      "learning_rate": 2.200260696265016e-06,
      "loss": 1.6693,
      "mean_token_accuracy": 0.6140792071819305,
      "num_tokens": 2853949541.0,
      "step": 17019
    },
    {
      "entropy": 1.735267659028371,
      "epoch": 1.8697371673395402,
      "grad_norm": 0.7907410860061646,
      "learning_rate": 2.199924952192496e-06,
      "loss": 1.4237,
      "mean_token_accuracy": 0.6509945740302404,
      "num_tokens": 2854077562.0,
      "step": 17020
    },
    {
      "entropy": 1.7652918795744579,
      "epoch": 1.8698470242509133,
      "grad_norm": 0.9519900679588318,
      "learning_rate": 2.1995894866383844e-06,
      "loss": 1.3656,
      "mean_token_accuracy": 0.6748112390438715,
      "num_tokens": 2854228561.0,
      "step": 17021
    },
    {
      "entropy": 1.775589833656947,
      "epoch": 1.869956881162286,
      "grad_norm": 0.7908014059066772,
      "learning_rate": 2.1992542996133008e-06,
      "loss": 1.4917,
      "mean_token_accuracy": 0.6449446976184845,
      "num_tokens": 2854352461.0,
      "step": 17022
    },
    {
      "entropy": 1.6987537741661072,
      "epoch": 1.870066738073659,
      "grad_norm": 0.7079589366912842,
      "learning_rate": 2.198919391127854e-06,
      "loss": 1.452,
      "mean_token_accuracy": 0.6492635756731033,
      "num_tokens": 2854509134.0,
      "step": 17023
    },
    {
      "entropy": 1.7013746201992035,
      "epoch": 1.870176594985032,
      "grad_norm": 0.5822315216064453,
      "learning_rate": 2.1985847611926412e-06,
      "loss": 1.3831,
      "mean_token_accuracy": 0.6505730946858724,
      "num_tokens": 2854693579.0,
      "step": 17024
    },
    {
      "entropy": 1.6798737148443859,
      "epoch": 1.8702864518964049,
      "grad_norm": 0.6504672169685364,
      "learning_rate": 2.1982504098182543e-06,
      "loss": 1.4304,
      "mean_token_accuracy": 0.6504451334476471,
      "num_tokens": 2854874531.0,
      "step": 17025
    },
    {
      "entropy": 1.6749244034290314,
      "epoch": 1.870396308807778,
      "grad_norm": 0.8020433187484741,
      "learning_rate": 2.197916337015277e-06,
      "loss": 1.2575,
      "mean_token_accuracy": 0.6731888701518377,
      "num_tokens": 2855033432.0,
      "step": 17026
    },
    {
      "entropy": 1.7233870228131611,
      "epoch": 1.8705061657191508,
      "grad_norm": 0.6521610617637634,
      "learning_rate": 2.1975825427942797e-06,
      "loss": 1.2734,
      "mean_token_accuracy": 0.6759884258111318,
      "num_tokens": 2855157619.0,
      "step": 17027
    },
    {
      "entropy": 1.7447825769583385,
      "epoch": 1.8706160226305237,
      "grad_norm": 0.672861635684967,
      "learning_rate": 2.1972490271658304e-06,
      "loss": 1.3972,
      "mean_token_accuracy": 0.6574916392564774,
      "num_tokens": 2855387405.0,
      "step": 17028
    },
    {
      "entropy": 1.7002271513144176,
      "epoch": 1.8707258795418968,
      "grad_norm": 0.6032365560531616,
      "learning_rate": 2.1969157901404825e-06,
      "loss": 1.4316,
      "mean_token_accuracy": 0.649682859579722,
      "num_tokens": 2855554119.0,
      "step": 17029
    },
    {
      "entropy": 1.6851763526598613,
      "epoch": 1.8708357364532695,
      "grad_norm": 0.759894609451294,
      "learning_rate": 2.1965828317287816e-06,
      "loss": 1.3552,
      "mean_token_accuracy": 0.6525135089953741,
      "num_tokens": 2855676220.0,
      "step": 17030
    },
    {
      "entropy": 1.7493245204289753,
      "epoch": 1.8709455933646426,
      "grad_norm": 0.7808289527893066,
      "learning_rate": 2.1962501519412676e-06,
      "loss": 1.2661,
      "mean_token_accuracy": 0.674684152007103,
      "num_tokens": 2855798387.0,
      "step": 17031
    },
    {
      "entropy": 1.7108966807524364,
      "epoch": 1.8710554502760155,
      "grad_norm": 0.6273822784423828,
      "learning_rate": 2.1959177507884706e-06,
      "loss": 1.3955,
      "mean_token_accuracy": 0.6569380015134811,
      "num_tokens": 2855962363.0,
      "step": 17032
    },
    {
      "entropy": 1.658450762430827,
      "epoch": 1.8711653071873884,
      "grad_norm": 0.6467920541763306,
      "learning_rate": 2.195585628280909e-06,
      "loss": 1.5203,
      "mean_token_accuracy": 0.6477319151163101,
      "num_tokens": 2856134799.0,
      "step": 17033
    },
    {
      "entropy": 1.7665147085984547,
      "epoch": 1.8712751640987615,
      "grad_norm": 0.7447314262390137,
      "learning_rate": 2.1952537844290942e-06,
      "loss": 1.4415,
      "mean_token_accuracy": 0.6656771103541056,
      "num_tokens": 2856282873.0,
      "step": 17034
    },
    {
      "entropy": 1.715973476568858,
      "epoch": 1.8713850210101342,
      "grad_norm": 0.687869131565094,
      "learning_rate": 2.1949222192435293e-06,
      "loss": 1.4573,
      "mean_token_accuracy": 0.6531703372796377,
      "num_tokens": 2856413198.0,
      "step": 17035
    },
    {
      "entropy": 1.7442041039466858,
      "epoch": 1.8714948779215073,
      "grad_norm": 0.6900414824485779,
      "learning_rate": 2.1945909327347094e-06,
      "loss": 1.3789,
      "mean_token_accuracy": 0.6618852317333221,
      "num_tokens": 2856543909.0,
      "step": 17036
    },
    {
      "entropy": 1.6572751700878143,
      "epoch": 1.8716047348328801,
      "grad_norm": 0.6331953406333923,
      "learning_rate": 2.194259924913119e-06,
      "loss": 1.2094,
      "mean_token_accuracy": 0.6854116519292196,
      "num_tokens": 2856704996.0,
      "step": 17037
    },
    {
      "entropy": 1.769335389137268,
      "epoch": 1.871714591744253,
      "grad_norm": 0.7674529552459717,
      "learning_rate": 2.1939291957892327e-06,
      "loss": 1.2783,
      "mean_token_accuracy": 0.6658161183198293,
      "num_tokens": 2856829001.0,
      "step": 17038
    },
    {
      "entropy": 1.7292616963386536,
      "epoch": 1.8718244486556261,
      "grad_norm": 0.6778686046600342,
      "learning_rate": 2.19359874537352e-06,
      "loss": 1.5333,
      "mean_token_accuracy": 0.6352483679850897,
      "num_tokens": 2857081755.0,
      "step": 17039
    },
    {
      "entropy": 1.6831102867921193,
      "epoch": 1.871934305566999,
      "grad_norm": 4.391300678253174,
      "learning_rate": 2.1932685736764393e-06,
      "loss": 1.4329,
      "mean_token_accuracy": 0.6666145275036494,
      "num_tokens": 2857303953.0,
      "step": 17040
    },
    {
      "entropy": 1.7301143109798431,
      "epoch": 1.872044162478372,
      "grad_norm": 0.6847091913223267,
      "learning_rate": 2.1929386807084392e-06,
      "loss": 1.3037,
      "mean_token_accuracy": 0.6623615125815073,
      "num_tokens": 2857451437.0,
      "step": 17041
    },
    {
      "entropy": 1.7140269080797832,
      "epoch": 1.872154019389745,
      "grad_norm": 0.6751673221588135,
      "learning_rate": 2.192609066479961e-06,
      "loss": 1.2567,
      "mean_token_accuracy": 0.6729971269766489,
      "num_tokens": 2857569788.0,
      "step": 17042
    },
    {
      "entropy": 1.6233059763908386,
      "epoch": 1.8722638763011177,
      "grad_norm": 0.697934627532959,
      "learning_rate": 2.192279731001438e-06,
      "loss": 1.2847,
      "mean_token_accuracy": 0.6785244792699814,
      "num_tokens": 2857745514.0,
      "step": 17043
    },
    {
      "entropy": 1.7246392567952473,
      "epoch": 1.8723737332124908,
      "grad_norm": 0.714394211769104,
      "learning_rate": 2.191950674283292e-06,
      "loss": 1.4599,
      "mean_token_accuracy": 0.6533997456232706,
      "num_tokens": 2857908966.0,
      "step": 17044
    },
    {
      "entropy": 1.6922082702318828,
      "epoch": 1.8724835901238637,
      "grad_norm": 0.671735405921936,
      "learning_rate": 2.191621896335938e-06,
      "loss": 1.3781,
      "mean_token_accuracy": 0.6661517322063446,
      "num_tokens": 2858048527.0,
      "step": 17045
    },
    {
      "entropy": 1.710803061723709,
      "epoch": 1.8725934470352366,
      "grad_norm": 0.5997881293296814,
      "learning_rate": 2.1912933971697833e-06,
      "loss": 1.3553,
      "mean_token_accuracy": 0.6474985132614771,
      "num_tokens": 2858183882.0,
      "step": 17046
    },
    {
      "entropy": 1.7078399062156677,
      "epoch": 1.8727033039466097,
      "grad_norm": 0.6537618041038513,
      "learning_rate": 2.190965176795221e-06,
      "loss": 1.4829,
      "mean_token_accuracy": 0.6355342864990234,
      "num_tokens": 2858436938.0,
      "step": 17047
    },
    {
      "entropy": 1.717695951461792,
      "epoch": 1.8728131608579823,
      "grad_norm": 0.7487478256225586,
      "learning_rate": 2.1906372352226434e-06,
      "loss": 1.5507,
      "mean_token_accuracy": 0.6489723970492681,
      "num_tokens": 2858632964.0,
      "step": 17048
    },
    {
      "entropy": 1.7423529624938965,
      "epoch": 1.8729230177693554,
      "grad_norm": 0.59836745262146,
      "learning_rate": 2.1903095724624266e-06,
      "loss": 1.416,
      "mean_token_accuracy": 0.639144832889239,
      "num_tokens": 2858829021.0,
      "step": 17049
    },
    {
      "entropy": 1.7561921576658885,
      "epoch": 1.8730328746807283,
      "grad_norm": 0.7711092829704285,
      "learning_rate": 2.1899821885249423e-06,
      "loss": 1.4651,
      "mean_token_accuracy": 0.6511860340833664,
      "num_tokens": 2858947061.0,
      "step": 17050
    },
    {
      "entropy": 1.6973484357198079,
      "epoch": 1.8731427315921012,
      "grad_norm": 0.6623829007148743,
      "learning_rate": 2.189655083420551e-06,
      "loss": 1.3509,
      "mean_token_accuracy": 0.666906327009201,
      "num_tokens": 2859138268.0,
      "step": 17051
    },
    {
      "entropy": 1.7268371681372325,
      "epoch": 1.8732525885034743,
      "grad_norm": 0.7016375064849854,
      "learning_rate": 2.1893282571596075e-06,
      "loss": 1.5942,
      "mean_token_accuracy": 0.6331303964058558,
      "num_tokens": 2859322249.0,
      "step": 17052
    },
    {
      "entropy": 1.6590932706991832,
      "epoch": 1.8733624454148472,
      "grad_norm": 0.6531033515930176,
      "learning_rate": 2.189001709752454e-06,
      "loss": 1.4715,
      "mean_token_accuracy": 0.6680138657490412,
      "num_tokens": 2859528608.0,
      "step": 17053
    },
    {
      "entropy": 1.6124554375807445,
      "epoch": 1.87347230232622,
      "grad_norm": 0.7286319136619568,
      "learning_rate": 2.1886754412094264e-06,
      "loss": 1.2273,
      "mean_token_accuracy": 0.6924339234828949,
      "num_tokens": 2859687765.0,
      "step": 17054
    },
    {
      "entropy": 1.676022340854009,
      "epoch": 1.8735821592375932,
      "grad_norm": 0.6995905637741089,
      "learning_rate": 2.1883494515408502e-06,
      "loss": 1.3037,
      "mean_token_accuracy": 0.677752767999967,
      "num_tokens": 2859809649.0,
      "step": 17055
    },
    {
      "entropy": 1.6995362242062886,
      "epoch": 1.8736920161489659,
      "grad_norm": 0.8846271634101868,
      "learning_rate": 2.1880237407570444e-06,
      "loss": 1.4299,
      "mean_token_accuracy": 0.6495392918586731,
      "num_tokens": 2859990844.0,
      "step": 17056
    },
    {
      "entropy": 1.7364083031813304,
      "epoch": 1.873801873060339,
      "grad_norm": 0.6322318315505981,
      "learning_rate": 2.1876983088683143e-06,
      "loss": 1.4336,
      "mean_token_accuracy": 0.6391441822052002,
      "num_tokens": 2860194791.0,
      "step": 17057
    },
    {
      "entropy": 1.7000387012958527,
      "epoch": 1.8739117299717118,
      "grad_norm": 0.7319401502609253,
      "learning_rate": 2.187373155884964e-06,
      "loss": 1.4675,
      "mean_token_accuracy": 0.6507869611183802,
      "num_tokens": 2860341823.0,
      "step": 17058
    },
    {
      "entropy": 1.7169471581776936,
      "epoch": 1.8740215868830847,
      "grad_norm": 0.7342702746391296,
      "learning_rate": 2.1870482818172806e-06,
      "loss": 1.3525,
      "mean_token_accuracy": 0.6542551517486572,
      "num_tokens": 2860451598.0,
      "step": 17059
    },
    {
      "entropy": 1.690687209367752,
      "epoch": 1.8741314437944578,
      "grad_norm": 0.8333070874214172,
      "learning_rate": 2.1867236866755485e-06,
      "loss": 1.4478,
      "mean_token_accuracy": 0.6612561593453089,
      "num_tokens": 2860613234.0,
      "step": 17060
    },
    {
      "entropy": 1.6780410210291545,
      "epoch": 1.8742413007058305,
      "grad_norm": 0.6751420497894287,
      "learning_rate": 2.186399370470041e-06,
      "loss": 1.3559,
      "mean_token_accuracy": 0.6728497544924418,
      "num_tokens": 2860791756.0,
      "step": 17061
    },
    {
      "entropy": 1.6945658723513286,
      "epoch": 1.8743511576172036,
      "grad_norm": 0.6549538373947144,
      "learning_rate": 2.186075333211021e-06,
      "loss": 1.3931,
      "mean_token_accuracy": 0.6677144765853882,
      "num_tokens": 2861011997.0,
      "step": 17062
    },
    {
      "entropy": 1.7178350687026978,
      "epoch": 1.8744610145285765,
      "grad_norm": 0.8077467679977417,
      "learning_rate": 2.1857515749087446e-06,
      "loss": 1.4099,
      "mean_token_accuracy": 0.6525556395451227,
      "num_tokens": 2861207983.0,
      "step": 17063
    },
    {
      "entropy": 1.7497240900993347,
      "epoch": 1.8745708714399494,
      "grad_norm": 0.9003075957298279,
      "learning_rate": 2.1854280955734598e-06,
      "loss": 1.4174,
      "mean_token_accuracy": 0.6599795470635096,
      "num_tokens": 2861327750.0,
      "step": 17064
    },
    {
      "entropy": 1.6928727825482686,
      "epoch": 1.8746807283513225,
      "grad_norm": 0.6773639917373657,
      "learning_rate": 2.185104895215404e-06,
      "loss": 1.3828,
      "mean_token_accuracy": 0.6638530343770981,
      "num_tokens": 2861505270.0,
      "step": 17065
    },
    {
      "entropy": 1.7255871494611104,
      "epoch": 1.8747905852626954,
      "grad_norm": 0.6331843733787537,
      "learning_rate": 2.1847819738448052e-06,
      "loss": 1.4456,
      "mean_token_accuracy": 0.6406483799219131,
      "num_tokens": 2861670381.0,
      "step": 17066
    },
    {
      "entropy": 1.7596171100934346,
      "epoch": 1.8749004421740683,
      "grad_norm": 0.8675169348716736,
      "learning_rate": 2.1844593314718867e-06,
      "loss": 1.4466,
      "mean_token_accuracy": 0.6425968805948893,
      "num_tokens": 2861824862.0,
      "step": 17067
    },
    {
      "entropy": 1.6844032406806946,
      "epoch": 1.8750102990854414,
      "grad_norm": 0.7364755868911743,
      "learning_rate": 2.184136968106857e-06,
      "loss": 1.3846,
      "mean_token_accuracy": 0.6768645147482554,
      "num_tokens": 2861966016.0,
      "step": 17068
    },
    {
      "entropy": 1.6982781986395519,
      "epoch": 1.875120155996814,
      "grad_norm": 0.7753962278366089,
      "learning_rate": 2.1838148837599186e-06,
      "loss": 1.2406,
      "mean_token_accuracy": 0.6812696407238642,
      "num_tokens": 2862084902.0,
      "step": 17069
    },
    {
      "entropy": 1.715488960345586,
      "epoch": 1.8752300129081871,
      "grad_norm": 0.6685140132904053,
      "learning_rate": 2.183493078441268e-06,
      "loss": 1.3345,
      "mean_token_accuracy": 0.6754670590162277,
      "num_tokens": 2862300683.0,
      "step": 17070
    },
    {
      "entropy": 1.7158759633700054,
      "epoch": 1.87533986981956,
      "grad_norm": 0.6193472743034363,
      "learning_rate": 2.183171552161088e-06,
      "loss": 1.3894,
      "mean_token_accuracy": 0.6529115388790766,
      "num_tokens": 2862469396.0,
      "step": 17071
    },
    {
      "entropy": 1.7098310788472493,
      "epoch": 1.875449726730933,
      "grad_norm": 0.6856310963630676,
      "learning_rate": 2.1828503049295556e-06,
      "loss": 1.3109,
      "mean_token_accuracy": 0.6672416975100836,
      "num_tokens": 2862651736.0,
      "step": 17072
    },
    {
      "entropy": 1.686122328042984,
      "epoch": 1.875559583642306,
      "grad_norm": 0.7014265656471252,
      "learning_rate": 2.1825293367568375e-06,
      "loss": 1.446,
      "mean_token_accuracy": 0.6568909734487534,
      "num_tokens": 2862825931.0,
      "step": 17073
    },
    {
      "entropy": 1.6640195647875469,
      "epoch": 1.8756694405536787,
      "grad_norm": 0.7757869958877563,
      "learning_rate": 2.1822086476530922e-06,
      "loss": 1.2991,
      "mean_token_accuracy": 0.6700432101885477,
      "num_tokens": 2862961042.0,
      "step": 17074
    },
    {
      "entropy": 1.695358783006668,
      "epoch": 1.8757792974650518,
      "grad_norm": 0.5820761919021606,
      "learning_rate": 2.181888237628471e-06,
      "loss": 1.4312,
      "mean_token_accuracy": 0.6432149757941564,
      "num_tokens": 2863141499.0,
      "step": 17075
    },
    {
      "entropy": 1.7364993294080098,
      "epoch": 1.8758891543764247,
      "grad_norm": 0.6635037660598755,
      "learning_rate": 2.1815681066931136e-06,
      "loss": 1.4227,
      "mean_token_accuracy": 0.644807959596316,
      "num_tokens": 2863308785.0,
      "step": 17076
    },
    {
      "entropy": 1.6751290559768677,
      "epoch": 1.8759990112877976,
      "grad_norm": 0.6418736577033997,
      "learning_rate": 2.1812482548571515e-06,
      "loss": 1.3018,
      "mean_token_accuracy": 0.6599528888861338,
      "num_tokens": 2863449125.0,
      "step": 17077
    },
    {
      "entropy": 1.7395286758740742,
      "epoch": 1.8761088681991707,
      "grad_norm": 0.7806156873703003,
      "learning_rate": 2.180928682130708e-06,
      "loss": 1.4441,
      "mean_token_accuracy": 0.6352565785249075,
      "num_tokens": 2863620259.0,
      "step": 17078
    },
    {
      "entropy": 1.6934346357981365,
      "epoch": 1.8762187251105436,
      "grad_norm": 0.7733772993087769,
      "learning_rate": 2.1806093885238976e-06,
      "loss": 1.4599,
      "mean_token_accuracy": 0.6639293332894644,
      "num_tokens": 2863779694.0,
      "step": 17079
    },
    {
      "entropy": 1.73578542470932,
      "epoch": 1.8763285820219164,
      "grad_norm": 0.5854712724685669,
      "learning_rate": 2.1802903740468267e-06,
      "loss": 1.5494,
      "mean_token_accuracy": 0.6304313540458679,
      "num_tokens": 2863971818.0,
      "step": 17080
    },
    {
      "entropy": 1.7329691052436829,
      "epoch": 1.8764384389332895,
      "grad_norm": 0.7195613980293274,
      "learning_rate": 2.1799716387095905e-06,
      "loss": 1.3164,
      "mean_token_accuracy": 0.6736815422773361,
      "num_tokens": 2864109592.0,
      "step": 17081
    },
    {
      "entropy": 1.7070931295553844,
      "epoch": 1.8765482958446622,
      "grad_norm": 0.7272635102272034,
      "learning_rate": 2.179653182522278e-06,
      "loss": 1.2566,
      "mean_token_accuracy": 0.6699541062116623,
      "num_tokens": 2864217249.0,
      "step": 17082
    },
    {
      "entropy": 1.694780518611272,
      "epoch": 1.8766581527560353,
      "grad_norm": 0.6670692563056946,
      "learning_rate": 2.1793350054949674e-06,
      "loss": 1.3224,
      "mean_token_accuracy": 0.6682775169610977,
      "num_tokens": 2864379968.0,
      "step": 17083
    },
    {
      "entropy": 1.7478112777074177,
      "epoch": 1.8767680096674082,
      "grad_norm": 0.770989716053009,
      "learning_rate": 2.179017107637729e-06,
      "loss": 1.3859,
      "mean_token_accuracy": 0.6664139181375504,
      "num_tokens": 2864557477.0,
      "step": 17084
    },
    {
      "entropy": 1.7456609308719635,
      "epoch": 1.876877866578781,
      "grad_norm": 0.9178656339645386,
      "learning_rate": 2.1786994889606262e-06,
      "loss": 1.5924,
      "mean_token_accuracy": 0.6394909123579661,
      "num_tokens": 2864782031.0,
      "step": 17085
    },
    {
      "entropy": 1.6717379689216614,
      "epoch": 1.8769877234901542,
      "grad_norm": 0.668597400188446,
      "learning_rate": 2.1783821494737067e-06,
      "loss": 1.3992,
      "mean_token_accuracy": 0.6508362789948782,
      "num_tokens": 2864958961.0,
      "step": 17086
    },
    {
      "entropy": 1.6922581891218822,
      "epoch": 1.8770975804015269,
      "grad_norm": 0.6903640031814575,
      "learning_rate": 2.1780650891870188e-06,
      "loss": 1.3327,
      "mean_token_accuracy": 0.6786336451768875,
      "num_tokens": 2865077172.0,
      "step": 17087
    },
    {
      "entropy": 1.7544843256473541,
      "epoch": 1.8772074373129,
      "grad_norm": 0.7095819115638733,
      "learning_rate": 2.177748308110596e-06,
      "loss": 1.3514,
      "mean_token_accuracy": 0.6596596439679464,
      "num_tokens": 2865201021.0,
      "step": 17088
    },
    {
      "entropy": 1.6850469013055165,
      "epoch": 1.8773172942242728,
      "grad_norm": 0.7165399789810181,
      "learning_rate": 2.1774318062544623e-06,
      "loss": 1.4429,
      "mean_token_accuracy": 0.6499310483535131,
      "num_tokens": 2865443298.0,
      "step": 17089
    },
    {
      "entropy": 1.7009844084580739,
      "epoch": 1.8774271511356457,
      "grad_norm": 0.6865831613540649,
      "learning_rate": 2.177115583628637e-06,
      "loss": 1.4149,
      "mean_token_accuracy": 0.6542165130376816,
      "num_tokens": 2865685108.0,
      "step": 17090
    },
    {
      "entropy": 1.6992128491401672,
      "epoch": 1.8775370080470188,
      "grad_norm": 0.7311968803405762,
      "learning_rate": 2.176799640243128e-06,
      "loss": 1.2469,
      "mean_token_accuracy": 0.6794113417466482,
      "num_tokens": 2865784923.0,
      "step": 17091
    },
    {
      "entropy": 1.7033413747946422,
      "epoch": 1.8776468649583917,
      "grad_norm": 0.7062245607376099,
      "learning_rate": 2.1764839761079354e-06,
      "loss": 1.3618,
      "mean_token_accuracy": 0.6627474625905355,
      "num_tokens": 2865941631.0,
      "step": 17092
    },
    {
      "entropy": 1.6912708282470703,
      "epoch": 1.8777567218697646,
      "grad_norm": 0.6303133368492126,
      "learning_rate": 2.176168591233048e-06,
      "loss": 1.3618,
      "mean_token_accuracy": 0.6606016606092453,
      "num_tokens": 2866114212.0,
      "step": 17093
    },
    {
      "entropy": 1.6680894295374553,
      "epoch": 1.8778665787811377,
      "grad_norm": 0.6817684173583984,
      "learning_rate": 2.175853485628448e-06,
      "loss": 1.4784,
      "mean_token_accuracy": 0.6489969938993454,
      "num_tokens": 2866343322.0,
      "step": 17094
    },
    {
      "entropy": 1.7241562108198802,
      "epoch": 1.8779764356925104,
      "grad_norm": 0.653832197189331,
      "learning_rate": 2.175538659304109e-06,
      "loss": 1.3772,
      "mean_token_accuracy": 0.6535724550485611,
      "num_tokens": 2866532714.0,
      "step": 17095
    },
    {
      "entropy": 1.7202540437380474,
      "epoch": 1.8780862926038835,
      "grad_norm": 0.8709003329277039,
      "learning_rate": 2.1752241122699966e-06,
      "loss": 1.2235,
      "mean_token_accuracy": 0.6837896257638931,
      "num_tokens": 2866663231.0,
      "step": 17096
    },
    {
      "entropy": 1.7354286313056946,
      "epoch": 1.8781961495152564,
      "grad_norm": 0.6793311238288879,
      "learning_rate": 2.1749098445360633e-06,
      "loss": 1.4171,
      "mean_token_accuracy": 0.6585271706183752,
      "num_tokens": 2866817700.0,
      "step": 17097
    },
    {
      "entropy": 1.7306594252586365,
      "epoch": 1.8783060064266293,
      "grad_norm": 0.7136476039886475,
      "learning_rate": 2.174595856112257e-06,
      "loss": 1.3441,
      "mean_token_accuracy": 0.6554663379987081,
      "num_tokens": 2866969575.0,
      "step": 17098
    },
    {
      "entropy": 1.7610450983047485,
      "epoch": 1.8784158633380024,
      "grad_norm": 0.6379169821739197,
      "learning_rate": 2.174282147008515e-06,
      "loss": 1.3371,
      "mean_token_accuracy": 0.6573585122823715,
      "num_tokens": 2867123276.0,
      "step": 17099
    },
    {
      "entropy": 1.691591699918111,
      "epoch": 1.878525720249375,
      "grad_norm": 0.7431465983390808,
      "learning_rate": 2.173968717234767e-06,
      "loss": 1.4903,
      "mean_token_accuracy": 0.6451913366715113,
      "num_tokens": 2867292293.0,
      "step": 17100
    },
    {
      "entropy": 1.6427749395370483,
      "epoch": 1.8786355771607481,
      "grad_norm": 0.6136252880096436,
      "learning_rate": 2.1736555668009302e-06,
      "loss": 1.4948,
      "mean_token_accuracy": 0.6392818937699,
      "num_tokens": 2867500607.0,
      "step": 17101
    },
    {
      "entropy": 1.7291006743907928,
      "epoch": 1.878745434072121,
      "grad_norm": 0.7383739352226257,
      "learning_rate": 2.1733426957169185e-06,
      "loss": 1.4956,
      "mean_token_accuracy": 0.6548979928096136,
      "num_tokens": 2867695033.0,
      "step": 17102
    },
    {
      "entropy": 1.7051356335481007,
      "epoch": 1.878855290983494,
      "grad_norm": 0.7386910915374756,
      "learning_rate": 2.1730301039926322e-06,
      "loss": 1.4685,
      "mean_token_accuracy": 0.6496059795220693,
      "num_tokens": 2867916001.0,
      "step": 17103
    },
    {
      "entropy": 1.644729922215144,
      "epoch": 1.878965147894867,
      "grad_norm": 0.6021768450737,
      "learning_rate": 2.1727177916379664e-06,
      "loss": 1.3486,
      "mean_token_accuracy": 0.6531336605548859,
      "num_tokens": 2868091178.0,
      "step": 17104
    },
    {
      "entropy": 1.747380663951238,
      "epoch": 1.87907500480624,
      "grad_norm": 0.7101630568504333,
      "learning_rate": 2.1724057586628055e-06,
      "loss": 1.4363,
      "mean_token_accuracy": 0.6600662469863892,
      "num_tokens": 2868228095.0,
      "step": 17105
    },
    {
      "entropy": 1.7580998639265697,
      "epoch": 1.8791848617176128,
      "grad_norm": 0.6921120882034302,
      "learning_rate": 2.1720940050770238e-06,
      "loss": 1.3382,
      "mean_token_accuracy": 0.6595444331566492,
      "num_tokens": 2868384732.0,
      "step": 17106
    },
    {
      "entropy": 1.692195286353429,
      "epoch": 1.879294718628986,
      "grad_norm": 0.7340524792671204,
      "learning_rate": 2.171782530890488e-06,
      "loss": 1.5391,
      "mean_token_accuracy": 0.6522092272837957,
      "num_tokens": 2868557649.0,
      "step": 17107
    },
    {
      "entropy": 1.6761192977428436,
      "epoch": 1.8794045755403586,
      "grad_norm": 0.6261641383171082,
      "learning_rate": 2.171471336113058e-06,
      "loss": 1.2654,
      "mean_token_accuracy": 0.6697875261306763,
      "num_tokens": 2868694048.0,
      "step": 17108
    },
    {
      "entropy": 1.7369263966878254,
      "epoch": 1.8795144324517317,
      "grad_norm": 0.7136772274971008,
      "learning_rate": 2.1711604207545828e-06,
      "loss": 1.427,
      "mean_token_accuracy": 0.6500804722309113,
      "num_tokens": 2868867959.0,
      "step": 17109
    },
    {
      "entropy": 1.6655204892158508,
      "epoch": 1.8796242893631046,
      "grad_norm": 0.7923451066017151,
      "learning_rate": 2.1708497848248998e-06,
      "loss": 1.4741,
      "mean_token_accuracy": 0.647340714931488,
      "num_tokens": 2869051956.0,
      "step": 17110
    },
    {
      "entropy": 1.6829159657160442,
      "epoch": 1.8797341462744774,
      "grad_norm": 0.5876792669296265,
      "learning_rate": 2.170539428333844e-06,
      "loss": 1.4499,
      "mean_token_accuracy": 0.6519188384215037,
      "num_tokens": 2869234691.0,
      "step": 17111
    },
    {
      "entropy": 1.717431555191676,
      "epoch": 1.8798440031858505,
      "grad_norm": 0.8365014791488647,
      "learning_rate": 2.170229351291237e-06,
      "loss": 1.2309,
      "mean_token_accuracy": 0.6746444006760915,
      "num_tokens": 2869356432.0,
      "step": 17112
    },
    {
      "entropy": 1.6984197696050007,
      "epoch": 1.8799538600972232,
      "grad_norm": 0.6819642782211304,
      "learning_rate": 2.1699195537068908e-06,
      "loss": 1.3904,
      "mean_token_accuracy": 0.6632606933514277,
      "num_tokens": 2869499052.0,
      "step": 17113
    },
    {
      "entropy": 1.7775751153628032,
      "epoch": 1.8800637170085963,
      "grad_norm": 0.7044260501861572,
      "learning_rate": 2.1696100355906137e-06,
      "loss": 1.4486,
      "mean_token_accuracy": 0.6558221131563187,
      "num_tokens": 2869637826.0,
      "step": 17114
    },
    {
      "entropy": 1.6655368208885193,
      "epoch": 1.8801735739199692,
      "grad_norm": 0.6480795741081238,
      "learning_rate": 2.1693007969521985e-06,
      "loss": 1.2762,
      "mean_token_accuracy": 0.664667988816897,
      "num_tokens": 2869770682.0,
      "step": 17115
    },
    {
      "entropy": 1.7761302689711254,
      "epoch": 1.880283430831342,
      "grad_norm": 0.6664544343948364,
      "learning_rate": 2.1689918378014345e-06,
      "loss": 1.5244,
      "mean_token_accuracy": 0.6382568577925364,
      "num_tokens": 2869953883.0,
      "step": 17116
    },
    {
      "entropy": 1.7439662218093872,
      "epoch": 1.8803932877427152,
      "grad_norm": 0.8166419267654419,
      "learning_rate": 2.1686831581480992e-06,
      "loss": 1.2875,
      "mean_token_accuracy": 0.6673971563577652,
      "num_tokens": 2870115126.0,
      "step": 17117
    },
    {
      "entropy": 1.697892556587855,
      "epoch": 1.880503144654088,
      "grad_norm": 0.6083175539970398,
      "learning_rate": 2.1683747580019617e-06,
      "loss": 1.4151,
      "mean_token_accuracy": 0.6482170025507609,
      "num_tokens": 2870306843.0,
      "step": 17118
    },
    {
      "entropy": 1.6897941430409749,
      "epoch": 1.880613001565461,
      "grad_norm": 0.6954461932182312,
      "learning_rate": 2.1680666373727835e-06,
      "loss": 1.3079,
      "mean_token_accuracy": 0.6700096229712168,
      "num_tokens": 2870488476.0,
      "step": 17119
    },
    {
      "entropy": 1.6832915445168812,
      "epoch": 1.880722858476834,
      "grad_norm": 0.6204468607902527,
      "learning_rate": 2.1677587962703186e-06,
      "loss": 1.389,
      "mean_token_accuracy": 0.6591685314973196,
      "num_tokens": 2870669134.0,
      "step": 17120
    },
    {
      "entropy": 1.6706489821275075,
      "epoch": 1.8808327153882067,
      "grad_norm": 0.845382809638977,
      "learning_rate": 2.1674512347043057e-06,
      "loss": 1.2121,
      "mean_token_accuracy": 0.6803888330856959,
      "num_tokens": 2870794482.0,
      "step": 17121
    },
    {
      "entropy": 1.7348777552445729,
      "epoch": 1.8809425722995798,
      "grad_norm": 0.5870766043663025,
      "learning_rate": 2.1671439526844816e-06,
      "loss": 1.4127,
      "mean_token_accuracy": 0.6562628646691641,
      "num_tokens": 2870984182.0,
      "step": 17122
    },
    {
      "entropy": 1.6719197829564412,
      "epoch": 1.8810524292109527,
      "grad_norm": 0.685198962688446,
      "learning_rate": 2.166836950220572e-06,
      "loss": 1.3735,
      "mean_token_accuracy": 0.6528567423423132,
      "num_tokens": 2871163157.0,
      "step": 17123
    },
    {
      "entropy": 1.707009196281433,
      "epoch": 1.8811622861223256,
      "grad_norm": 0.9159536957740784,
      "learning_rate": 2.166530227322293e-06,
      "loss": 1.5308,
      "mean_token_accuracy": 0.660614863038063,
      "num_tokens": 2871303925.0,
      "step": 17124
    },
    {
      "entropy": 1.7264705697695415,
      "epoch": 1.8812721430336987,
      "grad_norm": 0.6962438821792603,
      "learning_rate": 2.166223783999351e-06,
      "loss": 1.3317,
      "mean_token_accuracy": 0.6664454191923141,
      "num_tokens": 2871441073.0,
      "step": 17125
    },
    {
      "entropy": 1.7702072660128276,
      "epoch": 1.8813819999450714,
      "grad_norm": 0.6648865938186646,
      "learning_rate": 2.165917620261446e-06,
      "loss": 1.5234,
      "mean_token_accuracy": 0.645287091533343,
      "num_tokens": 2871637167.0,
      "step": 17126
    },
    {
      "entropy": 1.6745448410511017,
      "epoch": 1.8814918568564445,
      "grad_norm": 0.7408782243728638,
      "learning_rate": 2.1656117361182664e-06,
      "loss": 1.2249,
      "mean_token_accuracy": 0.6850744038820267,
      "num_tokens": 2871766634.0,
      "step": 17127
    },
    {
      "entropy": 1.6802305380503337,
      "epoch": 1.8816017137678174,
      "grad_norm": 0.6817216277122498,
      "learning_rate": 2.165306131579495e-06,
      "loss": 1.3904,
      "mean_token_accuracy": 0.6435802976290385,
      "num_tokens": 2871954489.0,
      "step": 17128
    },
    {
      "entropy": 1.7907779812812805,
      "epoch": 1.8817115706791903,
      "grad_norm": 0.7694052457809448,
      "learning_rate": 2.165000806654805e-06,
      "loss": 1.5186,
      "mean_token_accuracy": 0.645979126294454,
      "num_tokens": 2872141193.0,
      "step": 17129
    },
    {
      "entropy": 1.7915573219458263,
      "epoch": 1.8818214275905634,
      "grad_norm": 0.7176956534385681,
      "learning_rate": 2.1646957613538573e-06,
      "loss": 1.4003,
      "mean_token_accuracy": 0.6597653726736704,
      "num_tokens": 2872323839.0,
      "step": 17130
    },
    {
      "entropy": 1.6581577956676483,
      "epoch": 1.8819312845019363,
      "grad_norm": 0.8513138890266418,
      "learning_rate": 2.1643909956863064e-06,
      "loss": 1.4395,
      "mean_token_accuracy": 0.6642699937025706,
      "num_tokens": 2872474722.0,
      "step": 17131
    },
    {
      "entropy": 1.731380472580592,
      "epoch": 1.8820411414133091,
      "grad_norm": 0.6215800642967224,
      "learning_rate": 2.1640865096618006e-06,
      "loss": 1.432,
      "mean_token_accuracy": 0.6468487431605657,
      "num_tokens": 2872681874.0,
      "step": 17132
    },
    {
      "entropy": 1.674561321735382,
      "epoch": 1.8821509983246822,
      "grad_norm": 0.6435210108757019,
      "learning_rate": 2.1637823032899747e-06,
      "loss": 1.3136,
      "mean_token_accuracy": 0.6661032090584437,
      "num_tokens": 2872841550.0,
      "step": 17133
    },
    {
      "entropy": 1.7193843921025593,
      "epoch": 1.882260855236055,
      "grad_norm": 0.7598627209663391,
      "learning_rate": 2.163478376580456e-06,
      "loss": 1.4469,
      "mean_token_accuracy": 0.6524012287457784,
      "num_tokens": 2873024920.0,
      "step": 17134
    },
    {
      "entropy": 1.693623701731364,
      "epoch": 1.882370712147428,
      "grad_norm": 2.42760968208313,
      "learning_rate": 2.1631747295428672e-06,
      "loss": 1.3129,
      "mean_token_accuracy": 0.6606552849213282,
      "num_tokens": 2873190325.0,
      "step": 17135
    },
    {
      "entropy": 1.7247453530629475,
      "epoch": 1.882480569058801,
      "grad_norm": 0.5800105333328247,
      "learning_rate": 2.1628713621868154e-06,
      "loss": 1.538,
      "mean_token_accuracy": 0.6374923388163248,
      "num_tokens": 2873403679.0,
      "step": 17136
    },
    {
      "entropy": 1.7465098798274994,
      "epoch": 1.8825904259701738,
      "grad_norm": 0.9322325587272644,
      "learning_rate": 2.1625682745219016e-06,
      "loss": 1.3702,
      "mean_token_accuracy": 0.6589129120111465,
      "num_tokens": 2873575685.0,
      "step": 17137
    },
    {
      "entropy": 1.7134642004966736,
      "epoch": 1.882700282881547,
      "grad_norm": 0.6871570348739624,
      "learning_rate": 2.1622654665577216e-06,
      "loss": 1.4218,
      "mean_token_accuracy": 0.6442284633715948,
      "num_tokens": 2873756855.0,
      "step": 17138
    },
    {
      "entropy": 1.7436382969220479,
      "epoch": 1.8828101397929196,
      "grad_norm": 0.773567795753479,
      "learning_rate": 2.1619629383038555e-06,
      "loss": 1.4462,
      "mean_token_accuracy": 0.6507983406384786,
      "num_tokens": 2873937261.0,
      "step": 17139
    },
    {
      "entropy": 1.691699226697286,
      "epoch": 1.8829199967042927,
      "grad_norm": 0.6026458740234375,
      "learning_rate": 2.1616606897698805e-06,
      "loss": 1.5601,
      "mean_token_accuracy": 0.6354630514979362,
      "num_tokens": 2874124211.0,
      "step": 17140
    },
    {
      "entropy": 1.7005370358626049,
      "epoch": 1.8830298536156655,
      "grad_norm": 0.6932726502418518,
      "learning_rate": 2.161358720965363e-06,
      "loss": 1.5492,
      "mean_token_accuracy": 0.6447855283816656,
      "num_tokens": 2874316120.0,
      "step": 17141
    },
    {
      "entropy": 1.67661514878273,
      "epoch": 1.8831397105270384,
      "grad_norm": 0.7656899690628052,
      "learning_rate": 2.1610570318998573e-06,
      "loss": 1.4386,
      "mean_token_accuracy": 0.6698861916859945,
      "num_tokens": 2874435775.0,
      "step": 17142
    },
    {
      "entropy": 1.6867518723011017,
      "epoch": 1.8832495674384115,
      "grad_norm": 0.6553547382354736,
      "learning_rate": 2.1607556225829144e-06,
      "loss": 1.3886,
      "mean_token_accuracy": 0.6542109300692877,
      "num_tokens": 2874597623.0,
      "step": 17143
    },
    {
      "entropy": 1.752112736304601,
      "epoch": 1.8833594243497844,
      "grad_norm": 0.6014690399169922,
      "learning_rate": 2.160454493024073e-06,
      "loss": 1.4618,
      "mean_token_accuracy": 0.6372010310490926,
      "num_tokens": 2874826976.0,
      "step": 17144
    },
    {
      "entropy": 1.7432648241519928,
      "epoch": 1.8834692812611573,
      "grad_norm": 0.649844229221344,
      "learning_rate": 2.1601536432328648e-06,
      "loss": 1.3441,
      "mean_token_accuracy": 0.6546978851159414,
      "num_tokens": 2875003958.0,
      "step": 17145
    },
    {
      "entropy": 1.7034888068834941,
      "epoch": 1.8835791381725304,
      "grad_norm": 0.7077612280845642,
      "learning_rate": 2.1598530732188087e-06,
      "loss": 1.4713,
      "mean_token_accuracy": 0.666733592748642,
      "num_tokens": 2875139891.0,
      "step": 17146
    },
    {
      "entropy": 1.7785635590553284,
      "epoch": 1.883688995083903,
      "grad_norm": 0.686241626739502,
      "learning_rate": 2.159552782991421e-06,
      "loss": 1.5261,
      "mean_token_accuracy": 0.6443983117739359,
      "num_tokens": 2875341135.0,
      "step": 17147
    },
    {
      "entropy": 1.6909163693586986,
      "epoch": 1.8837988519952762,
      "grad_norm": 0.7089021801948547,
      "learning_rate": 2.159252772560204e-06,
      "loss": 1.4343,
      "mean_token_accuracy": 0.6512851615746816,
      "num_tokens": 2875523311.0,
      "step": 17148
    },
    {
      "entropy": 1.6890226205190022,
      "epoch": 1.883908708906649,
      "grad_norm": 0.7156793475151062,
      "learning_rate": 2.1589530419346515e-06,
      "loss": 1.3621,
      "mean_token_accuracy": 0.6604212572177252,
      "num_tokens": 2875662146.0,
      "step": 17149
    },
    {
      "entropy": 1.6136377950509389,
      "epoch": 1.884018565818022,
      "grad_norm": 0.6490492224693298,
      "learning_rate": 2.158653591124252e-06,
      "loss": 1.3841,
      "mean_token_accuracy": 0.6620889157056808,
      "num_tokens": 2875843407.0,
      "step": 17150
    },
    {
      "entropy": 1.791116327047348,
      "epoch": 1.884128422729395,
      "grad_norm": 0.7462132573127747,
      "learning_rate": 2.1583544201384825e-06,
      "loss": 1.4494,
      "mean_token_accuracy": 0.6622537871201833,
      "num_tokens": 2875972410.0,
      "step": 17151
    },
    {
      "entropy": 1.6781320869922638,
      "epoch": 1.884238279640768,
      "grad_norm": 0.7043426632881165,
      "learning_rate": 2.1580555289868118e-06,
      "loss": 1.3202,
      "mean_token_accuracy": 0.6793678253889084,
      "num_tokens": 2876130756.0,
      "step": 17152
    },
    {
      "entropy": 1.6705817480882008,
      "epoch": 1.8843481365521408,
      "grad_norm": 0.6849955916404724,
      "learning_rate": 2.1577569176786993e-06,
      "loss": 1.2153,
      "mean_token_accuracy": 0.6768456598122915,
      "num_tokens": 2876253913.0,
      "step": 17153
    },
    {
      "entropy": 1.7637967069943745,
      "epoch": 1.8844579934635137,
      "grad_norm": 1.0273441076278687,
      "learning_rate": 2.157458586223596e-06,
      "loss": 1.3025,
      "mean_token_accuracy": 0.6631099134683609,
      "num_tokens": 2876388583.0,
      "step": 17154
    },
    {
      "entropy": 1.6225744386514027,
      "epoch": 1.8845678503748866,
      "grad_norm": 0.6709175705909729,
      "learning_rate": 2.157160534630943e-06,
      "loss": 1.2164,
      "mean_token_accuracy": 0.6821977148453394,
      "num_tokens": 2876505830.0,
      "step": 17155
    },
    {
      "entropy": 1.7032880385716755,
      "epoch": 1.8846777072862597,
      "grad_norm": 0.7127795219421387,
      "learning_rate": 2.1568627629101753e-06,
      "loss": 1.4102,
      "mean_token_accuracy": 0.6570267875989279,
      "num_tokens": 2876686265.0,
      "step": 17156
    },
    {
      "entropy": 1.6788496275742848,
      "epoch": 1.8847875641976326,
      "grad_norm": 0.7283757328987122,
      "learning_rate": 2.156565271070716e-06,
      "loss": 1.3016,
      "mean_token_accuracy": 0.6735827922821045,
      "num_tokens": 2876818542.0,
      "step": 17157
    },
    {
      "entropy": 1.6719705959161122,
      "epoch": 1.8848974211090055,
      "grad_norm": 0.8454893231391907,
      "learning_rate": 2.1562680591219815e-06,
      "loss": 1.1964,
      "mean_token_accuracy": 0.6822755336761475,
      "num_tokens": 2876933270.0,
      "step": 17158
    },
    {
      "entropy": 1.7461024026076,
      "epoch": 1.8850072780203786,
      "grad_norm": 0.7794149518013,
      "learning_rate": 2.1559711270733765e-06,
      "loss": 1.4554,
      "mean_token_accuracy": 0.6527780294418335,
      "num_tokens": 2877087587.0,
      "step": 17159
    },
    {
      "entropy": 1.7108294367790222,
      "epoch": 1.8851171349317513,
      "grad_norm": 0.6386652588844299,
      "learning_rate": 2.155674474934301e-06,
      "loss": 1.3632,
      "mean_token_accuracy": 0.6620263059933981,
      "num_tokens": 2877241197.0,
      "step": 17160
    },
    {
      "entropy": 1.716377208630244,
      "epoch": 1.8852269918431244,
      "grad_norm": 0.6413389444351196,
      "learning_rate": 2.1553781027141433e-06,
      "loss": 1.4775,
      "mean_token_accuracy": 0.6538679301738739,
      "num_tokens": 2877466362.0,
      "step": 17161
    },
    {
      "entropy": 1.6621573368708293,
      "epoch": 1.8853368487544973,
      "grad_norm": 0.7208569645881653,
      "learning_rate": 2.155082010422283e-06,
      "loss": 1.2998,
      "mean_token_accuracy": 0.6709053417046865,
      "num_tokens": 2877575652.0,
      "step": 17162
    },
    {
      "entropy": 1.6736730337142944,
      "epoch": 1.8854467056658701,
      "grad_norm": 0.8033668398857117,
      "learning_rate": 2.154786198068091e-06,
      "loss": 1.3498,
      "mean_token_accuracy": 0.6585894276698431,
      "num_tokens": 2877692948.0,
      "step": 17163
    },
    {
      "entropy": 1.7026234964529674,
      "epoch": 1.8855565625772432,
      "grad_norm": 0.7073157429695129,
      "learning_rate": 2.1544906656609303e-06,
      "loss": 1.4006,
      "mean_token_accuracy": 0.6467277258634567,
      "num_tokens": 2877850196.0,
      "step": 17164
    },
    {
      "entropy": 1.719588041305542,
      "epoch": 1.8856664194886161,
      "grad_norm": 0.6670511364936829,
      "learning_rate": 2.1541954132101546e-06,
      "loss": 1.4866,
      "mean_token_accuracy": 0.6505639304717382,
      "num_tokens": 2878003561.0,
      "step": 17165
    },
    {
      "entropy": 1.7602489292621613,
      "epoch": 1.885776276399989,
      "grad_norm": 0.9589049220085144,
      "learning_rate": 2.153900440725107e-06,
      "loss": 1.3435,
      "mean_token_accuracy": 0.6540907273689905,
      "num_tokens": 2878142884.0,
      "step": 17166
    },
    {
      "entropy": 1.7023918430010478,
      "epoch": 1.885886133311362,
      "grad_norm": 0.6268293261528015,
      "learning_rate": 2.1536057482151253e-06,
      "loss": 1.3064,
      "mean_token_accuracy": 0.6649014155069987,
      "num_tokens": 2878286722.0,
      "step": 17167
    },
    {
      "entropy": 1.7479477028052013,
      "epoch": 1.8859959902227348,
      "grad_norm": 0.7205145955085754,
      "learning_rate": 2.1533113356895356e-06,
      "loss": 1.3166,
      "mean_token_accuracy": 0.6679264704386393,
      "num_tokens": 2878488440.0,
      "step": 17168
    },
    {
      "entropy": 1.6543095012505848,
      "epoch": 1.886105847134108,
      "grad_norm": 0.6612537503242493,
      "learning_rate": 2.153017203157655e-06,
      "loss": 1.4688,
      "mean_token_accuracy": 0.6611438890298208,
      "num_tokens": 2878638347.0,
      "step": 17169
    },
    {
      "entropy": 1.6952688296635945,
      "epoch": 1.8862157040454808,
      "grad_norm": 0.6854779720306396,
      "learning_rate": 2.152723350628793e-06,
      "loss": 1.3837,
      "mean_token_accuracy": 0.6586264471213022,
      "num_tokens": 2878823408.0,
      "step": 17170
    },
    {
      "entropy": 1.6490706702073414,
      "epoch": 1.8863255609568537,
      "grad_norm": 0.7439612746238708,
      "learning_rate": 2.1524297781122507e-06,
      "loss": 1.2378,
      "mean_token_accuracy": 0.6832160651683807,
      "num_tokens": 2878940613.0,
      "step": 17171
    },
    {
      "entropy": 1.6276902059714,
      "epoch": 1.8864354178682268,
      "grad_norm": 0.6118603348731995,
      "learning_rate": 2.15213648561732e-06,
      "loss": 1.4464,
      "mean_token_accuracy": 0.6511234442392985,
      "num_tokens": 2879148471.0,
      "step": 17172
    },
    {
      "entropy": 1.7158278822898865,
      "epoch": 1.8865452747795994,
      "grad_norm": 0.603689432144165,
      "learning_rate": 2.1518434731532815e-06,
      "loss": 1.4145,
      "mean_token_accuracy": 0.6546343117952347,
      "num_tokens": 2879312410.0,
      "step": 17173
    },
    {
      "entropy": 1.75503213206927,
      "epoch": 1.8866551316909725,
      "grad_norm": 0.6921542882919312,
      "learning_rate": 2.1515507407294096e-06,
      "loss": 1.3781,
      "mean_token_accuracy": 0.6559339066346487,
      "num_tokens": 2879489120.0,
      "step": 17174
    },
    {
      "entropy": 1.6965388059616089,
      "epoch": 1.8867649886023454,
      "grad_norm": 0.5904287695884705,
      "learning_rate": 2.1512582883549703e-06,
      "loss": 1.507,
      "mean_token_accuracy": 0.6430360277493795,
      "num_tokens": 2879694192.0,
      "step": 17175
    },
    {
      "entropy": 1.7962828079859416,
      "epoch": 1.8868748455137183,
      "grad_norm": 0.8660070300102234,
      "learning_rate": 2.150966116039219e-06,
      "loss": 1.4214,
      "mean_token_accuracy": 0.6482437898715337,
      "num_tokens": 2879808765.0,
      "step": 17176
    },
    {
      "entropy": 1.7078647017478943,
      "epoch": 1.8869847024250914,
      "grad_norm": 0.6933693289756775,
      "learning_rate": 2.1506742237914026e-06,
      "loss": 1.4655,
      "mean_token_accuracy": 0.6365055541197459,
      "num_tokens": 2879968191.0,
      "step": 17177
    },
    {
      "entropy": 1.6872906982898712,
      "epoch": 1.8870945593364643,
      "grad_norm": 0.6161040663719177,
      "learning_rate": 2.1503826116207586e-06,
      "loss": 1.4166,
      "mean_token_accuracy": 0.6558385094006857,
      "num_tokens": 2880131622.0,
      "step": 17178
    },
    {
      "entropy": 1.75909224152565,
      "epoch": 1.8872044162478372,
      "grad_norm": 0.658726692199707,
      "learning_rate": 2.1500912795365193e-06,
      "loss": 1.3921,
      "mean_token_accuracy": 0.6491363197565079,
      "num_tokens": 2880300886.0,
      "step": 17179
    },
    {
      "entropy": 1.6820505162080128,
      "epoch": 1.88731427315921,
      "grad_norm": 0.8096556067466736,
      "learning_rate": 2.149800227547902e-06,
      "loss": 1.276,
      "mean_token_accuracy": 0.6641524781783422,
      "num_tokens": 2880485214.0,
      "step": 17180
    },
    {
      "entropy": 1.7462229331334431,
      "epoch": 1.887424130070583,
      "grad_norm": 0.7542430758476257,
      "learning_rate": 2.1495094556641183e-06,
      "loss": 1.5453,
      "mean_token_accuracy": 0.6436825742324194,
      "num_tokens": 2880688455.0,
      "step": 17181
    },
    {
      "entropy": 1.6861853897571564,
      "epoch": 1.887533986981956,
      "grad_norm": 0.7085747122764587,
      "learning_rate": 2.149218963894373e-06,
      "loss": 1.4594,
      "mean_token_accuracy": 0.657812312245369,
      "num_tokens": 2880835604.0,
      "step": 17182
    },
    {
      "entropy": 1.734100381533305,
      "epoch": 1.887643843893329,
      "grad_norm": 0.6035891175270081,
      "learning_rate": 2.148928752247859e-06,
      "loss": 1.5958,
      "mean_token_accuracy": 0.6254423459370931,
      "num_tokens": 2881031539.0,
      "step": 17183
    },
    {
      "entropy": 1.7015228271484375,
      "epoch": 1.8877537008047018,
      "grad_norm": 0.6321704983711243,
      "learning_rate": 2.148638820733762e-06,
      "loss": 1.4446,
      "mean_token_accuracy": 0.6493401179711024,
      "num_tokens": 2881176601.0,
      "step": 17184
    },
    {
      "entropy": 1.6736248135566711,
      "epoch": 1.887863557716075,
      "grad_norm": 0.7702553868293762,
      "learning_rate": 2.148349169361259e-06,
      "loss": 1.3464,
      "mean_token_accuracy": 0.675323560833931,
      "num_tokens": 2881349503.0,
      "step": 17185
    },
    {
      "entropy": 1.7201215823491414,
      "epoch": 1.8879734146274476,
      "grad_norm": 0.7781912684440613,
      "learning_rate": 2.148059798139514e-06,
      "loss": 1.4305,
      "mean_token_accuracy": 0.6516983310381571,
      "num_tokens": 2881490232.0,
      "step": 17186
    },
    {
      "entropy": 1.7094205915927887,
      "epoch": 1.8880832715388207,
      "grad_norm": 0.6526473760604858,
      "learning_rate": 2.1477707070776883e-06,
      "loss": 1.5196,
      "mean_token_accuracy": 0.6446429987748464,
      "num_tokens": 2881698286.0,
      "step": 17187
    },
    {
      "entropy": 1.688776175181071,
      "epoch": 1.8881931284501936,
      "grad_norm": 0.7511041760444641,
      "learning_rate": 2.1474818961849316e-06,
      "loss": 1.3161,
      "mean_token_accuracy": 0.6700662126143774,
      "num_tokens": 2881880985.0,
      "step": 17188
    },
    {
      "entropy": 1.6932948231697083,
      "epoch": 1.8883029853615665,
      "grad_norm": 0.6438283324241638,
      "learning_rate": 2.1471933654703836e-06,
      "loss": 1.4265,
      "mean_token_accuracy": 0.6442149132490158,
      "num_tokens": 2882058048.0,
      "step": 17189
    },
    {
      "entropy": 1.705348789691925,
      "epoch": 1.8884128422729396,
      "grad_norm": 0.7522128820419312,
      "learning_rate": 2.1469051149431757e-06,
      "loss": 1.271,
      "mean_token_accuracy": 0.6708547174930573,
      "num_tokens": 2882169248.0,
      "step": 17190
    },
    {
      "entropy": 1.8012695014476776,
      "epoch": 1.8885226991843125,
      "grad_norm": 0.7312252521514893,
      "learning_rate": 2.146617144612432e-06,
      "loss": 1.5895,
      "mean_token_accuracy": 0.6462727536757787,
      "num_tokens": 2882375194.0,
      "step": 17191
    },
    {
      "entropy": 1.737836887439092,
      "epoch": 1.8886325560956854,
      "grad_norm": 1.2015639543533325,
      "learning_rate": 2.1463294544872667e-06,
      "loss": 1.4586,
      "mean_token_accuracy": 0.6477744380633036,
      "num_tokens": 2882532455.0,
      "step": 17192
    },
    {
      "entropy": 1.737512121597926,
      "epoch": 1.8887424130070583,
      "grad_norm": 0.6532018184661865,
      "learning_rate": 2.1460420445767836e-06,
      "loss": 1.3933,
      "mean_token_accuracy": 0.6575685640176138,
      "num_tokens": 2882708598.0,
      "step": 17193
    },
    {
      "entropy": 1.6850264469782512,
      "epoch": 1.8888522699184311,
      "grad_norm": 0.6517339944839478,
      "learning_rate": 2.145754914890081e-06,
      "loss": 1.3152,
      "mean_token_accuracy": 0.6752770642439524,
      "num_tokens": 2882844056.0,
      "step": 17194
    },
    {
      "entropy": 1.6757459739844005,
      "epoch": 1.8889621268298042,
      "grad_norm": 0.6307591199874878,
      "learning_rate": 2.1454680654362445e-06,
      "loss": 1.3338,
      "mean_token_accuracy": 0.6622594942649206,
      "num_tokens": 2883031026.0,
      "step": 17195
    },
    {
      "entropy": 1.7201253175735474,
      "epoch": 1.8890719837411771,
      "grad_norm": 0.740987241268158,
      "learning_rate": 2.1451814962243545e-06,
      "loss": 1.3998,
      "mean_token_accuracy": 0.6528403460979462,
      "num_tokens": 2883216632.0,
      "step": 17196
    },
    {
      "entropy": 1.700130045413971,
      "epoch": 1.88918184065255,
      "grad_norm": 0.6037099361419678,
      "learning_rate": 2.1448952072634807e-06,
      "loss": 1.3888,
      "mean_token_accuracy": 0.6569363375504812,
      "num_tokens": 2883388061.0,
      "step": 17197
    },
    {
      "entropy": 1.7035789688428242,
      "epoch": 1.8892916975639231,
      "grad_norm": 0.629531741142273,
      "learning_rate": 2.1446091985626818e-06,
      "loss": 1.3131,
      "mean_token_accuracy": 0.6592882921298345,
      "num_tokens": 2883555748.0,
      "step": 17198
    },
    {
      "entropy": 1.7170901894569397,
      "epoch": 1.8894015544752958,
      "grad_norm": 0.8567357659339905,
      "learning_rate": 2.144323470131012e-06,
      "loss": 1.347,
      "mean_token_accuracy": 0.6601819346348444,
      "num_tokens": 2883707533.0,
      "step": 17199
    },
    {
      "entropy": 1.6625105639298756,
      "epoch": 1.889511411386669,
      "grad_norm": 0.7391311526298523,
      "learning_rate": 2.144038021977515e-06,
      "loss": 1.3399,
      "mean_token_accuracy": 0.6689294477303823,
      "num_tokens": 2883851556.0,
      "step": 17200
    },
    {
      "entropy": 1.6819651424884796,
      "epoch": 1.8896212682980418,
      "grad_norm": 0.7686917185783386,
      "learning_rate": 2.143752854111223e-06,
      "loss": 1.3399,
      "mean_token_accuracy": 0.6758074214061102,
      "num_tokens": 2883995505.0,
      "step": 17201
    },
    {
      "entropy": 1.8181818425655365,
      "epoch": 1.8897311252094147,
      "grad_norm": 0.7404806613922119,
      "learning_rate": 2.1434679665411625e-06,
      "loss": 1.487,
      "mean_token_accuracy": 0.6463923106590906,
      "num_tokens": 2884131386.0,
      "step": 17202
    },
    {
      "entropy": 1.736276884873708,
      "epoch": 1.8898409821207878,
      "grad_norm": 0.7244618535041809,
      "learning_rate": 2.1431833592763512e-06,
      "loss": 1.3495,
      "mean_token_accuracy": 0.6554465840260187,
      "num_tokens": 2884280001.0,
      "step": 17203
    },
    {
      "entropy": 1.7070696453253429,
      "epoch": 1.8899508390321607,
      "grad_norm": 0.6054216623306274,
      "learning_rate": 2.1428990323257944e-06,
      "loss": 1.4691,
      "mean_token_accuracy": 0.6478527784347534,
      "num_tokens": 2884483799.0,
      "step": 17204
    },
    {
      "entropy": 1.673392613728841,
      "epoch": 1.8900606959435335,
      "grad_norm": 0.6630545258522034,
      "learning_rate": 2.1426149856984922e-06,
      "loss": 1.2966,
      "mean_token_accuracy": 0.681118776400884,
      "num_tokens": 2884654832.0,
      "step": 17205
    },
    {
      "entropy": 1.7095024585723877,
      "epoch": 1.8901705528549066,
      "grad_norm": 0.633782684803009,
      "learning_rate": 2.1423312194034347e-06,
      "loss": 1.4286,
      "mean_token_accuracy": 0.6514197190602621,
      "num_tokens": 2884826182.0,
      "step": 17206
    },
    {
      "entropy": 1.6941520472367604,
      "epoch": 1.8902804097662793,
      "grad_norm": 0.772243320941925,
      "learning_rate": 2.1420477334496024e-06,
      "loss": 1.2764,
      "mean_token_accuracy": 0.6747996111710867,
      "num_tokens": 2884956841.0,
      "step": 17207
    },
    {
      "entropy": 1.7718258996804555,
      "epoch": 1.8903902666776524,
      "grad_norm": 0.8815136551856995,
      "learning_rate": 2.141764527845968e-06,
      "loss": 1.3896,
      "mean_token_accuracy": 0.6521994322538376,
      "num_tokens": 2885070369.0,
      "step": 17208
    },
    {
      "entropy": 1.7424478928248088,
      "epoch": 1.8905001235890253,
      "grad_norm": 0.6464412212371826,
      "learning_rate": 2.141481602601495e-06,
      "loss": 1.4169,
      "mean_token_accuracy": 0.6564925710360209,
      "num_tokens": 2885247084.0,
      "step": 17209
    },
    {
      "entropy": 1.7533444662888844,
      "epoch": 1.8906099805003982,
      "grad_norm": 0.6359097361564636,
      "learning_rate": 2.1411989577251376e-06,
      "loss": 1.4394,
      "mean_token_accuracy": 0.6459400206804276,
      "num_tokens": 2885433750.0,
      "step": 17210
    },
    {
      "entropy": 1.804566999276479,
      "epoch": 1.8907198374117713,
      "grad_norm": 0.7828404903411865,
      "learning_rate": 2.1409165932258406e-06,
      "loss": 1.523,
      "mean_token_accuracy": 0.6601679027080536,
      "num_tokens": 2885640946.0,
      "step": 17211
    },
    {
      "entropy": 1.722624033689499,
      "epoch": 1.890829694323144,
      "grad_norm": 0.775169849395752,
      "learning_rate": 2.1406345091125415e-06,
      "loss": 1.549,
      "mean_token_accuracy": 0.6515462944904963,
      "num_tokens": 2885818456.0,
      "step": 17212
    },
    {
      "entropy": 1.6952950755755107,
      "epoch": 1.890939551234517,
      "grad_norm": 0.7390128970146179,
      "learning_rate": 2.140352705394169e-06,
      "loss": 1.4906,
      "mean_token_accuracy": 0.6618280857801437,
      "num_tokens": 2885977593.0,
      "step": 17213
    },
    {
      "entropy": 1.7304560939470928,
      "epoch": 1.89104940814589,
      "grad_norm": 0.7561904191970825,
      "learning_rate": 2.140071182079641e-06,
      "loss": 1.2999,
      "mean_token_accuracy": 0.6680457144975662,
      "num_tokens": 2886109952.0,
      "step": 17214
    },
    {
      "entropy": 1.7267817457516987,
      "epoch": 1.8911592650572628,
      "grad_norm": 0.7434021234512329,
      "learning_rate": 2.1397899391778666e-06,
      "loss": 1.5385,
      "mean_token_accuracy": 0.6487158189217249,
      "num_tokens": 2886248004.0,
      "step": 17215
    },
    {
      "entropy": 1.64817480246226,
      "epoch": 1.891269121968636,
      "grad_norm": 0.5317151546478271,
      "learning_rate": 2.139508976697749e-06,
      "loss": 1.4407,
      "mean_token_accuracy": 0.6526560485363007,
      "num_tokens": 2886450875.0,
      "step": 17216
    },
    {
      "entropy": 1.653537929058075,
      "epoch": 1.8913789788800088,
      "grad_norm": 0.665301501750946,
      "learning_rate": 2.1392282946481794e-06,
      "loss": 1.2987,
      "mean_token_accuracy": 0.6666727811098099,
      "num_tokens": 2886590812.0,
      "step": 17217
    },
    {
      "entropy": 1.6849933167298634,
      "epoch": 1.8914888357913817,
      "grad_norm": 0.6797506213188171,
      "learning_rate": 2.1389478930380415e-06,
      "loss": 1.333,
      "mean_token_accuracy": 0.6623549064000448,
      "num_tokens": 2886736662.0,
      "step": 17218
    },
    {
      "entropy": 1.6301970183849335,
      "epoch": 1.8915986927027548,
      "grad_norm": 0.6078571081161499,
      "learning_rate": 2.13866777187621e-06,
      "loss": 1.3713,
      "mean_token_accuracy": 0.6544771194458008,
      "num_tokens": 2886961307.0,
      "step": 17219
    },
    {
      "entropy": 1.6913349032402039,
      "epoch": 1.8917085496141275,
      "grad_norm": 0.6399415135383606,
      "learning_rate": 2.13838793117155e-06,
      "loss": 1.4364,
      "mean_token_accuracy": 0.6472468177477518,
      "num_tokens": 2887153437.0,
      "step": 17220
    },
    {
      "entropy": 1.679469347000122,
      "epoch": 1.8918184065255006,
      "grad_norm": 0.6966269612312317,
      "learning_rate": 2.1381083709329195e-06,
      "loss": 1.3719,
      "mean_token_accuracy": 0.6473198433717092,
      "num_tokens": 2887320267.0,
      "step": 17221
    },
    {
      "entropy": 1.7523421943187714,
      "epoch": 1.8919282634368735,
      "grad_norm": 0.8340956568717957,
      "learning_rate": 2.1378290911691655e-06,
      "loss": 1.464,
      "mean_token_accuracy": 0.6585601170857748,
      "num_tokens": 2887483418.0,
      "step": 17222
    },
    {
      "entropy": 1.7297047674655914,
      "epoch": 1.8920381203482464,
      "grad_norm": 0.6574650406837463,
      "learning_rate": 2.1375500918891275e-06,
      "loss": 1.3611,
      "mean_token_accuracy": 0.6614359567562739,
      "num_tokens": 2887629911.0,
      "step": 17223
    },
    {
      "entropy": 1.6866742571194966,
      "epoch": 1.8921479772596195,
      "grad_norm": 0.6516870856285095,
      "learning_rate": 2.1372713731016356e-06,
      "loss": 1.3913,
      "mean_token_accuracy": 0.6656065583229065,
      "num_tokens": 2887773364.0,
      "step": 17224
    },
    {
      "entropy": 1.7239994208017986,
      "epoch": 1.8922578341709921,
      "grad_norm": 0.8059686422348022,
      "learning_rate": 2.136992934815511e-06,
      "loss": 1.3294,
      "mean_token_accuracy": 0.6618863890568415,
      "num_tokens": 2887901335.0,
      "step": 17225
    },
    {
      "entropy": 1.7334805130958557,
      "epoch": 1.8923676910823652,
      "grad_norm": 0.7674765586853027,
      "learning_rate": 2.1367147770395665e-06,
      "loss": 1.3486,
      "mean_token_accuracy": 0.6562761962413788,
      "num_tokens": 2888048170.0,
      "step": 17226
    },
    {
      "entropy": 1.8443331122398376,
      "epoch": 1.8924775479937381,
      "grad_norm": 0.6038434505462646,
      "learning_rate": 2.136436899782605e-06,
      "loss": 1.4085,
      "mean_token_accuracy": 0.6459904710451762,
      "num_tokens": 2888205505.0,
      "step": 17227
    },
    {
      "entropy": 1.7091451783974965,
      "epoch": 1.892587404905111,
      "grad_norm": 0.6854003071784973,
      "learning_rate": 2.1361593030534218e-06,
      "loss": 1.3721,
      "mean_token_accuracy": 0.6586553553740183,
      "num_tokens": 2888360293.0,
      "step": 17228
    },
    {
      "entropy": 1.7349936366081238,
      "epoch": 1.8926972618164841,
      "grad_norm": 0.672595739364624,
      "learning_rate": 2.135881986860803e-06,
      "loss": 1.3288,
      "mean_token_accuracy": 0.6604596922794977,
      "num_tokens": 2888475380.0,
      "step": 17229
    },
    {
      "entropy": 1.7175809343655903,
      "epoch": 1.892807118727857,
      "grad_norm": 0.7268809080123901,
      "learning_rate": 2.1356049512135245e-06,
      "loss": 1.2871,
      "mean_token_accuracy": 0.6609225074450175,
      "num_tokens": 2888622020.0,
      "step": 17230
    },
    {
      "entropy": 1.721697747707367,
      "epoch": 1.89291697563923,
      "grad_norm": 1.0464180707931519,
      "learning_rate": 2.135328196120354e-06,
      "loss": 1.3146,
      "mean_token_accuracy": 0.6679658045371374,
      "num_tokens": 2888767213.0,
      "step": 17231
    },
    {
      "entropy": 1.651025613149007,
      "epoch": 1.893026832550603,
      "grad_norm": 0.5859130620956421,
      "learning_rate": 2.135051721590053e-06,
      "loss": 1.3748,
      "mean_token_accuracy": 0.6555741727352142,
      "num_tokens": 2888927693.0,
      "step": 17232
    },
    {
      "entropy": 1.6868204673131306,
      "epoch": 1.8931366894619757,
      "grad_norm": 0.7139847874641418,
      "learning_rate": 2.1347755276313705e-06,
      "loss": 1.3789,
      "mean_token_accuracy": 0.6621604611476263,
      "num_tokens": 2889100377.0,
      "step": 17233
    },
    {
      "entropy": 1.7080059349536896,
      "epoch": 1.8932465463733488,
      "grad_norm": 0.8161289691925049,
      "learning_rate": 2.1344996142530466e-06,
      "loss": 1.3759,
      "mean_token_accuracy": 0.6496799687544504,
      "num_tokens": 2889249897.0,
      "step": 17234
    },
    {
      "entropy": 1.7380808293819427,
      "epoch": 1.8933564032847217,
      "grad_norm": 0.721257746219635,
      "learning_rate": 2.134223981463816e-06,
      "loss": 1.588,
      "mean_token_accuracy": 0.6347461392482122,
      "num_tokens": 2889409243.0,
      "step": 17235
    },
    {
      "entropy": 1.7111575802167256,
      "epoch": 1.8934662601960945,
      "grad_norm": 0.6843127608299255,
      "learning_rate": 2.133948629272401e-06,
      "loss": 1.3835,
      "mean_token_accuracy": 0.6749522536993027,
      "num_tokens": 2889559550.0,
      "step": 17236
    },
    {
      "entropy": 1.7137587368488312,
      "epoch": 1.8935761171074676,
      "grad_norm": 0.7074581384658813,
      "learning_rate": 2.133673557687516e-06,
      "loss": 1.5246,
      "mean_token_accuracy": 0.6346543331940969,
      "num_tokens": 2889754498.0,
      "step": 17237
    },
    {
      "entropy": 1.6512508889039357,
      "epoch": 1.8936859740188403,
      "grad_norm": 0.7215355634689331,
      "learning_rate": 2.1333987667178695e-06,
      "loss": 1.2638,
      "mean_token_accuracy": 0.6745673269033432,
      "num_tokens": 2889878312.0,
      "step": 17238
    },
    {
      "entropy": 1.7148396968841553,
      "epoch": 1.8937958309302134,
      "grad_norm": 0.7948116660118103,
      "learning_rate": 2.133124256372155e-06,
      "loss": 1.3975,
      "mean_token_accuracy": 0.6557581474383672,
      "num_tokens": 2890036666.0,
      "step": 17239
    },
    {
      "entropy": 1.7264957229296367,
      "epoch": 1.8939056878415863,
      "grad_norm": 0.7121086120605469,
      "learning_rate": 2.1328500266590625e-06,
      "loss": 1.3031,
      "mean_token_accuracy": 0.6640142252047857,
      "num_tokens": 2890161291.0,
      "step": 17240
    },
    {
      "entropy": 1.6922083993752797,
      "epoch": 1.8940155447529592,
      "grad_norm": 0.7959898114204407,
      "learning_rate": 2.132576077587272e-06,
      "loss": 1.2614,
      "mean_token_accuracy": 0.6731408536434174,
      "num_tokens": 2890333804.0,
      "step": 17241
    },
    {
      "entropy": 1.6807706554730732,
      "epoch": 1.8941254016643323,
      "grad_norm": 0.6071732044219971,
      "learning_rate": 2.132302409165452e-06,
      "loss": 1.3122,
      "mean_token_accuracy": 0.6773058325052261,
      "num_tokens": 2890502137.0,
      "step": 17242
    },
    {
      "entropy": 1.720189521710078,
      "epoch": 1.8942352585757052,
      "grad_norm": 0.6647835969924927,
      "learning_rate": 2.1320290214022642e-06,
      "loss": 1.4414,
      "mean_token_accuracy": 0.6582275728384653,
      "num_tokens": 2890709961.0,
      "step": 17243
    },
    {
      "entropy": 1.7124016781648,
      "epoch": 1.894345115487078,
      "grad_norm": 0.6113753318786621,
      "learning_rate": 2.1317559143063625e-06,
      "loss": 1.4965,
      "mean_token_accuracy": 0.6508686641852061,
      "num_tokens": 2890904159.0,
      "step": 17244
    },
    {
      "entropy": 1.7102111279964447,
      "epoch": 1.8944549723984512,
      "grad_norm": 0.856601893901825,
      "learning_rate": 2.1314830878863908e-06,
      "loss": 1.1759,
      "mean_token_accuracy": 0.6895684152841568,
      "num_tokens": 2891022698.0,
      "step": 17245
    },
    {
      "entropy": 1.7018269002437592,
      "epoch": 1.8945648293098238,
      "grad_norm": 0.6518383622169495,
      "learning_rate": 2.1312105421509827e-06,
      "loss": 1.3364,
      "mean_token_accuracy": 0.6601632038752238,
      "num_tokens": 2891193896.0,
      "step": 17246
    },
    {
      "entropy": 1.6979057788848877,
      "epoch": 1.894674686221197,
      "grad_norm": 0.678108274936676,
      "learning_rate": 2.130938277108764e-06,
      "loss": 1.3862,
      "mean_token_accuracy": 0.6634653856356939,
      "num_tokens": 2891354151.0,
      "step": 17247
    },
    {
      "entropy": 1.7425933976968129,
      "epoch": 1.8947845431325698,
      "grad_norm": 0.8439452052116394,
      "learning_rate": 2.1306662927683532e-06,
      "loss": 1.5762,
      "mean_token_accuracy": 0.6411895950635275,
      "num_tokens": 2891509855.0,
      "step": 17248
    },
    {
      "entropy": 1.6670502225557964,
      "epoch": 1.8948944000439427,
      "grad_norm": 0.8232260942459106,
      "learning_rate": 2.1303945891383575e-06,
      "loss": 1.3695,
      "mean_token_accuracy": 0.6671279718478521,
      "num_tokens": 2891678701.0,
      "step": 17249
    },
    {
      "entropy": 1.700257698694865,
      "epoch": 1.8950042569553158,
      "grad_norm": 0.8447266817092896,
      "learning_rate": 2.130123166227376e-06,
      "loss": 1.3507,
      "mean_token_accuracy": 0.6675139367580414,
      "num_tokens": 2891855717.0,
      "step": 17250
    },
    {
      "entropy": 1.717061976591746,
      "epoch": 1.8951141138666885,
      "grad_norm": 0.6110275983810425,
      "learning_rate": 2.129852024043999e-06,
      "loss": 1.4106,
      "mean_token_accuracy": 0.6613439122835795,
      "num_tokens": 2891988808.0,
      "step": 17251
    },
    {
      "entropy": 1.6792820394039154,
      "epoch": 1.8952239707780616,
      "grad_norm": 0.709892988204956,
      "learning_rate": 2.129581162596809e-06,
      "loss": 1.3578,
      "mean_token_accuracy": 0.6553207437197367,
      "num_tokens": 2892155247.0,
      "step": 17252
    },
    {
      "entropy": 1.6732084353764851,
      "epoch": 1.8953338276894345,
      "grad_norm": 0.7051602602005005,
      "learning_rate": 2.1293105818943777e-06,
      "loss": 1.3955,
      "mean_token_accuracy": 0.6673270811637243,
      "num_tokens": 2892306122.0,
      "step": 17253
    },
    {
      "entropy": 1.6753906508286793,
      "epoch": 1.8954436846008074,
      "grad_norm": 0.6376731991767883,
      "learning_rate": 2.1290402819452695e-06,
      "loss": 1.394,
      "mean_token_accuracy": 0.6547005921602249,
      "num_tokens": 2892455330.0,
      "step": 17254
    },
    {
      "entropy": 1.6851638952891033,
      "epoch": 1.8955535415121805,
      "grad_norm": 0.7481420636177063,
      "learning_rate": 2.1287702627580388e-06,
      "loss": 1.4232,
      "mean_token_accuracy": 0.6521519323190054,
      "num_tokens": 2892625583.0,
      "step": 17255
    },
    {
      "entropy": 1.7001373370488484,
      "epoch": 1.8956633984235534,
      "grad_norm": 0.7096436619758606,
      "learning_rate": 2.128500524341232e-06,
      "loss": 1.4475,
      "mean_token_accuracy": 0.648720865448316,
      "num_tokens": 2892835053.0,
      "step": 17256
    },
    {
      "entropy": 1.747383952140808,
      "epoch": 1.8957732553349262,
      "grad_norm": 0.8015025854110718,
      "learning_rate": 2.128231066703387e-06,
      "loss": 1.3288,
      "mean_token_accuracy": 0.6623203357060751,
      "num_tokens": 2892954963.0,
      "step": 17257
    },
    {
      "entropy": 1.6256678303082783,
      "epoch": 1.8958831122462994,
      "grad_norm": 0.6793299913406372,
      "learning_rate": 2.1279618898530294e-06,
      "loss": 1.3693,
      "mean_token_accuracy": 0.6596795121828715,
      "num_tokens": 2893138868.0,
      "step": 17258
    },
    {
      "entropy": 1.696552187204361,
      "epoch": 1.895992969157672,
      "grad_norm": 0.626272976398468,
      "learning_rate": 2.1276929937986816e-06,
      "loss": 1.4428,
      "mean_token_accuracy": 0.6529415895541509,
      "num_tokens": 2893319526.0,
      "step": 17259
    },
    {
      "entropy": 1.7114895482858021,
      "epoch": 1.8961028260690451,
      "grad_norm": 0.7434846758842468,
      "learning_rate": 2.1274243785488514e-06,
      "loss": 1.4121,
      "mean_token_accuracy": 0.6516354481379191,
      "num_tokens": 2893468438.0,
      "step": 17260
    },
    {
      "entropy": 1.6837340195973713,
      "epoch": 1.896212682980418,
      "grad_norm": 0.769420325756073,
      "learning_rate": 2.1271560441120416e-06,
      "loss": 1.2678,
      "mean_token_accuracy": 0.6741555829842886,
      "num_tokens": 2893605178.0,
      "step": 17261
    },
    {
      "entropy": 1.686502754688263,
      "epoch": 1.896322539891791,
      "grad_norm": 0.6285480260848999,
      "learning_rate": 2.1268879904967456e-06,
      "loss": 1.385,
      "mean_token_accuracy": 0.6608720819155375,
      "num_tokens": 2893824967.0,
      "step": 17262
    },
    {
      "entropy": 1.7563516199588776,
      "epoch": 1.896432396803164,
      "grad_norm": 0.856654942035675,
      "learning_rate": 2.1266202177114455e-06,
      "loss": 1.36,
      "mean_token_accuracy": 0.6687353501717249,
      "num_tokens": 2893958076.0,
      "step": 17263
    },
    {
      "entropy": 1.7702421148618062,
      "epoch": 1.8965422537145367,
      "grad_norm": 0.6715371608734131,
      "learning_rate": 2.1263527257646175e-06,
      "loss": 1.4385,
      "mean_token_accuracy": 0.6432004123926163,
      "num_tokens": 2894165718.0,
      "step": 17264
    },
    {
      "entropy": 1.7267632186412811,
      "epoch": 1.8966521106259098,
      "grad_norm": 0.6621989011764526,
      "learning_rate": 2.1260855146647278e-06,
      "loss": 1.4865,
      "mean_token_accuracy": 0.6259207328160604,
      "num_tokens": 2894390591.0,
      "step": 17265
    },
    {
      "entropy": 1.7133949995040894,
      "epoch": 1.8967619675372827,
      "grad_norm": 0.5840614438056946,
      "learning_rate": 2.125818584420232e-06,
      "loss": 1.4147,
      "mean_token_accuracy": 0.6490117361148199,
      "num_tokens": 2894561880.0,
      "step": 17266
    },
    {
      "entropy": 1.715239018201828,
      "epoch": 1.8968718244486555,
      "grad_norm": 0.6776023507118225,
      "learning_rate": 2.125551935039579e-06,
      "loss": 1.4306,
      "mean_token_accuracy": 0.6536256372928619,
      "num_tokens": 2894752290.0,
      "step": 17267
    },
    {
      "entropy": 1.6557459632555644,
      "epoch": 1.8969816813600286,
      "grad_norm": 0.6310899257659912,
      "learning_rate": 2.1252855665312084e-06,
      "loss": 1.3285,
      "mean_token_accuracy": 0.6622317085663477,
      "num_tokens": 2894940916.0,
      "step": 17268
    },
    {
      "entropy": 1.7279532651106517,
      "epoch": 1.8970915382714015,
      "grad_norm": 0.6145720481872559,
      "learning_rate": 2.1250194789035518e-06,
      "loss": 1.4792,
      "mean_token_accuracy": 0.6527701765298843,
      "num_tokens": 2895121962.0,
      "step": 17269
    },
    {
      "entropy": 1.7092354695002239,
      "epoch": 1.8972013951827744,
      "grad_norm": 0.6521205902099609,
      "learning_rate": 2.1247536721650283e-06,
      "loss": 1.4655,
      "mean_token_accuracy": 0.6464730401833853,
      "num_tokens": 2895276814.0,
      "step": 17270
    },
    {
      "entropy": 1.7156803806622822,
      "epoch": 1.8973112520941475,
      "grad_norm": 0.6255699992179871,
      "learning_rate": 2.1244881463240525e-06,
      "loss": 1.4412,
      "mean_token_accuracy": 0.6423149853944778,
      "num_tokens": 2895474372.0,
      "step": 17271
    },
    {
      "entropy": 1.7619168758392334,
      "epoch": 1.8974211090055202,
      "grad_norm": 0.6236703991889954,
      "learning_rate": 2.1242229013890277e-06,
      "loss": 1.4911,
      "mean_token_accuracy": 0.6392246186733246,
      "num_tokens": 2895664516.0,
      "step": 17272
    },
    {
      "entropy": 1.6980822086334229,
      "epoch": 1.8975309659168933,
      "grad_norm": 0.8708395957946777,
      "learning_rate": 2.1239579373683485e-06,
      "loss": 1.2633,
      "mean_token_accuracy": 0.6819048374891281,
      "num_tokens": 2895813180.0,
      "step": 17273
    },
    {
      "entropy": 1.6919432481129963,
      "epoch": 1.8976408228282662,
      "grad_norm": 0.6261935830116272,
      "learning_rate": 2.1236932542703996e-06,
      "loss": 1.4297,
      "mean_token_accuracy": 0.6447741687297821,
      "num_tokens": 2895979054.0,
      "step": 17274
    },
    {
      "entropy": 1.67582102616628,
      "epoch": 1.897750679739639,
      "grad_norm": 0.6235146522521973,
      "learning_rate": 2.1234288521035594e-06,
      "loss": 1.5338,
      "mean_token_accuracy": 0.660733645160993,
      "num_tokens": 2896154771.0,
      "step": 17275
    },
    {
      "entropy": 1.7051470975081127,
      "epoch": 1.8978605366510122,
      "grad_norm": 0.7629257440567017,
      "learning_rate": 2.1231647308761976e-06,
      "loss": 1.3684,
      "mean_token_accuracy": 0.6604376882314682,
      "num_tokens": 2896305092.0,
      "step": 17276
    },
    {
      "entropy": 1.7228100895881653,
      "epoch": 1.8979703935623848,
      "grad_norm": 0.5867047309875488,
      "learning_rate": 2.1229008905966725e-06,
      "loss": 1.4371,
      "mean_token_accuracy": 0.6493526001771291,
      "num_tokens": 2896471668.0,
      "step": 17277
    },
    {
      "entropy": 1.6839666068553925,
      "epoch": 1.898080250473758,
      "grad_norm": 0.5775178670883179,
      "learning_rate": 2.1226373312733327e-06,
      "loss": 1.4035,
      "mean_token_accuracy": 0.6348609228928884,
      "num_tokens": 2896683909.0,
      "step": 17278
    },
    {
      "entropy": 1.7211569050947826,
      "epoch": 1.8981901073851308,
      "grad_norm": 0.6018611192703247,
      "learning_rate": 2.1223740529145217e-06,
      "loss": 1.3831,
      "mean_token_accuracy": 0.6495659500360489,
      "num_tokens": 2896856820.0,
      "step": 17279
    },
    {
      "entropy": 1.7634968161582947,
      "epoch": 1.8982999642965037,
      "grad_norm": 0.6888352632522583,
      "learning_rate": 2.1221110555285705e-06,
      "loss": 1.3899,
      "mean_token_accuracy": 0.6544539431730906,
      "num_tokens": 2897043615.0,
      "step": 17280
    },
    {
      "entropy": 1.7279618481794994,
      "epoch": 1.8984098212078768,
      "grad_norm": 0.6864139437675476,
      "learning_rate": 2.1218483391238056e-06,
      "loss": 1.4239,
      "mean_token_accuracy": 0.6641011635462443,
      "num_tokens": 2897196622.0,
      "step": 17281
    },
    {
      "entropy": 1.7093985974788666,
      "epoch": 1.8985196781192497,
      "grad_norm": 0.7060381770133972,
      "learning_rate": 2.1215859037085396e-06,
      "loss": 1.3693,
      "mean_token_accuracy": 0.6542820632457733,
      "num_tokens": 2897350359.0,
      "step": 17282
    },
    {
      "entropy": 1.7037651638189952,
      "epoch": 1.8986295350306226,
      "grad_norm": 0.5937888026237488,
      "learning_rate": 2.121323749291078e-06,
      "loss": 1.3839,
      "mean_token_accuracy": 0.6539882570505142,
      "num_tokens": 2897504289.0,
      "step": 17283
    },
    {
      "entropy": 1.69916437069575,
      "epoch": 1.8987393919419957,
      "grad_norm": 0.7481595873832703,
      "learning_rate": 2.1210618758797206e-06,
      "loss": 1.3909,
      "mean_token_accuracy": 0.6524476011594137,
      "num_tokens": 2897655290.0,
      "step": 17284
    },
    {
      "entropy": 1.7476255595684052,
      "epoch": 1.8988492488533684,
      "grad_norm": 0.8031712174415588,
      "learning_rate": 2.1208002834827533e-06,
      "loss": 1.4292,
      "mean_token_accuracy": 0.6464576125144958,
      "num_tokens": 2897853586.0,
      "step": 17285
    },
    {
      "entropy": 1.6887069741884868,
      "epoch": 1.8989591057647415,
      "grad_norm": 0.6965251564979553,
      "learning_rate": 2.1205389721084556e-06,
      "loss": 1.4859,
      "mean_token_accuracy": 0.6459216872851054,
      "num_tokens": 2898098470.0,
      "step": 17286
    },
    {
      "entropy": 1.7607675989468892,
      "epoch": 1.8990689626761144,
      "grad_norm": 0.7362844347953796,
      "learning_rate": 2.1202779417650975e-06,
      "loss": 1.3171,
      "mean_token_accuracy": 0.6696411470572153,
      "num_tokens": 2898208883.0,
      "step": 17287
    },
    {
      "entropy": 1.6586427589257557,
      "epoch": 1.8991788195874872,
      "grad_norm": 0.5607314705848694,
      "learning_rate": 2.120017192460943e-06,
      "loss": 1.2891,
      "mean_token_accuracy": 0.6717559099197388,
      "num_tokens": 2898361274.0,
      "step": 17288
    },
    {
      "entropy": 1.741514007250468,
      "epoch": 1.8992886764988604,
      "grad_norm": 0.7974133491516113,
      "learning_rate": 2.119756724204242e-06,
      "loss": 1.2662,
      "mean_token_accuracy": 0.6750031113624573,
      "num_tokens": 2898462903.0,
      "step": 17289
    },
    {
      "entropy": 1.6692986885706584,
      "epoch": 1.899398533410233,
      "grad_norm": 0.6954519748687744,
      "learning_rate": 2.1194965370032384e-06,
      "loss": 1.2814,
      "mean_token_accuracy": 0.6717743625243505,
      "num_tokens": 2898658678.0,
      "step": 17290
    },
    {
      "entropy": 1.6970256865024567,
      "epoch": 1.8995083903216061,
      "grad_norm": 0.9171543121337891,
      "learning_rate": 2.119236630866169e-06,
      "loss": 1.344,
      "mean_token_accuracy": 0.6659214198589325,
      "num_tokens": 2898834450.0,
      "step": 17291
    },
    {
      "entropy": 1.7186993459860485,
      "epoch": 1.899618247232979,
      "grad_norm": 0.694511353969574,
      "learning_rate": 2.1189770058012575e-06,
      "loss": 1.5021,
      "mean_token_accuracy": 0.6403380235036215,
      "num_tokens": 2899016730.0,
      "step": 17292
    },
    {
      "entropy": 1.7705208857854207,
      "epoch": 1.899728104144352,
      "grad_norm": 0.65798020362854,
      "learning_rate": 2.118717661816723e-06,
      "loss": 1.3265,
      "mean_token_accuracy": 0.6581917802492777,
      "num_tokens": 2899142112.0,
      "step": 17293
    },
    {
      "entropy": 1.6541693210601807,
      "epoch": 1.899837961055725,
      "grad_norm": 0.5420558452606201,
      "learning_rate": 2.1184585989207723e-06,
      "loss": 1.0458,
      "mean_token_accuracy": 0.6923287163178126,
      "num_tokens": 2899325969.0,
      "step": 17294
    },
    {
      "entropy": 1.7057847082614899,
      "epoch": 1.8999478179670979,
      "grad_norm": 0.6451363563537598,
      "learning_rate": 2.118199817121604e-06,
      "loss": 1.3285,
      "mean_token_accuracy": 0.6623325844605764,
      "num_tokens": 2899500885.0,
      "step": 17295
    },
    {
      "entropy": 1.6700185736020405,
      "epoch": 1.9000576748784708,
      "grad_norm": 0.7210705280303955,
      "learning_rate": 2.1179413164274095e-06,
      "loss": 1.4972,
      "mean_token_accuracy": 0.6420283913612366,
      "num_tokens": 2899716939.0,
      "step": 17296
    },
    {
      "entropy": 1.685696393251419,
      "epoch": 1.9001675317898439,
      "grad_norm": 0.6625770926475525,
      "learning_rate": 2.117683096846371e-06,
      "loss": 1.5663,
      "mean_token_accuracy": 0.6434602290391922,
      "num_tokens": 2899951366.0,
      "step": 17297
    },
    {
      "entropy": 1.6919982035954793,
      "epoch": 1.9002773887012165,
      "grad_norm": 0.977072536945343,
      "learning_rate": 2.117425158386659e-06,
      "loss": 1.395,
      "mean_token_accuracy": 0.6762153804302216,
      "num_tokens": 2900112592.0,
      "step": 17298
    },
    {
      "entropy": 1.6969668567180634,
      "epoch": 1.9003872456125896,
      "grad_norm": 0.7278903722763062,
      "learning_rate": 2.1171675010564374e-06,
      "loss": 1.5714,
      "mean_token_accuracy": 0.6418847143650055,
      "num_tokens": 2900304765.0,
      "step": 17299
    },
    {
      "entropy": 1.6995855470498402,
      "epoch": 1.9004971025239625,
      "grad_norm": 0.7209764122962952,
      "learning_rate": 2.116910124863863e-06,
      "loss": 1.269,
      "mean_token_accuracy": 0.6693304081757864,
      "num_tokens": 2900414824.0,
      "step": 17300
    },
    {
      "entropy": 1.6842413942019145,
      "epoch": 1.9006069594353354,
      "grad_norm": 0.6563640236854553,
      "learning_rate": 2.1166530298170803e-06,
      "loss": 1.5027,
      "mean_token_accuracy": 0.6496880004803339,
      "num_tokens": 2900593430.0,
      "step": 17301
    },
    {
      "entropy": 1.692998468875885,
      "epoch": 1.9007168163467085,
      "grad_norm": 0.6235043406486511,
      "learning_rate": 2.1163962159242257e-06,
      "loss": 1.3154,
      "mean_token_accuracy": 0.6697773188352585,
      "num_tokens": 2900747780.0,
      "step": 17302
    },
    {
      "entropy": 1.6582288543383281,
      "epoch": 1.9008266732580812,
      "grad_norm": 0.6133668422698975,
      "learning_rate": 2.1161396831934276e-06,
      "loss": 1.3683,
      "mean_token_accuracy": 0.6610623051722845,
      "num_tokens": 2900929126.0,
      "step": 17303
    },
    {
      "entropy": 1.696847399075826,
      "epoch": 1.9009365301694543,
      "grad_norm": 0.7132181525230408,
      "learning_rate": 2.1158834316328057e-06,
      "loss": 1.3959,
      "mean_token_accuracy": 0.6614312728246053,
      "num_tokens": 2901113026.0,
      "step": 17304
    },
    {
      "entropy": 1.7614192068576813,
      "epoch": 1.9010463870808272,
      "grad_norm": 0.666845440864563,
      "learning_rate": 2.1156274612504707e-06,
      "loss": 1.6487,
      "mean_token_accuracy": 0.613468810915947,
      "num_tokens": 2901324692.0,
      "step": 17305
    },
    {
      "entropy": 1.6704783340295155,
      "epoch": 1.9011562439922,
      "grad_norm": 0.5894295573234558,
      "learning_rate": 2.115371772054523e-06,
      "loss": 1.458,
      "mean_token_accuracy": 0.6370960672696432,
      "num_tokens": 2901536912.0,
      "step": 17306
    },
    {
      "entropy": 1.739585965871811,
      "epoch": 1.9012661009035732,
      "grad_norm": 0.8946515321731567,
      "learning_rate": 2.115116364053054e-06,
      "loss": 1.4145,
      "mean_token_accuracy": 0.6544796675443649,
      "num_tokens": 2901672711.0,
      "step": 17307
    },
    {
      "entropy": 1.7094165285428364,
      "epoch": 1.901375957814946,
      "grad_norm": 0.753603994846344,
      "learning_rate": 2.1148612372541494e-06,
      "loss": 1.4601,
      "mean_token_accuracy": 0.6673130393028259,
      "num_tokens": 2901797776.0,
      "step": 17308
    },
    {
      "entropy": 1.7277058760325115,
      "epoch": 1.901485814726319,
      "grad_norm": 0.6706650257110596,
      "learning_rate": 2.114606391665883e-06,
      "loss": 1.4088,
      "mean_token_accuracy": 0.6417536189158758,
      "num_tokens": 2901976272.0,
      "step": 17309
    },
    {
      "entropy": 1.7154739300409954,
      "epoch": 1.901595671637692,
      "grad_norm": 0.7305334210395813,
      "learning_rate": 2.114351827296319e-06,
      "loss": 1.3598,
      "mean_token_accuracy": 0.6586563885211945,
      "num_tokens": 2902107800.0,
      "step": 17310
    },
    {
      "entropy": 1.6918523510297139,
      "epoch": 1.9017055285490647,
      "grad_norm": 0.6615371108055115,
      "learning_rate": 2.1140975441535173e-06,
      "loss": 1.4371,
      "mean_token_accuracy": 0.6612310359875361,
      "num_tokens": 2902296754.0,
      "step": 17311
    },
    {
      "entropy": 1.7673652370770772,
      "epoch": 1.9018153854604378,
      "grad_norm": 0.7220476865768433,
      "learning_rate": 2.1138435422455237e-06,
      "loss": 1.4816,
      "mean_token_accuracy": 0.6466121921936671,
      "num_tokens": 2902468097.0,
      "step": 17312
    },
    {
      "entropy": 1.7256468534469604,
      "epoch": 1.9019252423718107,
      "grad_norm": 0.7970626354217529,
      "learning_rate": 2.113589821580378e-06,
      "loss": 1.2991,
      "mean_token_accuracy": 0.6718382885058721,
      "num_tokens": 2902588100.0,
      "step": 17313
    },
    {
      "entropy": 1.682048757870992,
      "epoch": 1.9020350992831836,
      "grad_norm": 0.578278660774231,
      "learning_rate": 2.1133363821661097e-06,
      "loss": 1.4743,
      "mean_token_accuracy": 0.6461637963851293,
      "num_tokens": 2902759596.0,
      "step": 17314
    },
    {
      "entropy": 1.7191002070903778,
      "epoch": 1.9021449561945567,
      "grad_norm": 0.6966040134429932,
      "learning_rate": 2.113083224010741e-06,
      "loss": 1.3934,
      "mean_token_accuracy": 0.6677719354629517,
      "num_tokens": 2902921113.0,
      "step": 17315
    },
    {
      "entropy": 1.7440748512744904,
      "epoch": 1.9022548131059294,
      "grad_norm": 0.9760518074035645,
      "learning_rate": 2.112830347122284e-06,
      "loss": 1.4498,
      "mean_token_accuracy": 0.6512205849091212,
      "num_tokens": 2903037716.0,
      "step": 17316
    },
    {
      "entropy": 1.709779401620229,
      "epoch": 1.9023646700173025,
      "grad_norm": 0.6506473422050476,
      "learning_rate": 2.1125777515087405e-06,
      "loss": 1.4735,
      "mean_token_accuracy": 0.6514460444450378,
      "num_tokens": 2903208041.0,
      "step": 17317
    },
    {
      "entropy": 1.7440835038820903,
      "epoch": 1.9024745269286754,
      "grad_norm": 0.6512756943702698,
      "learning_rate": 2.1123254371781072e-06,
      "loss": 1.408,
      "mean_token_accuracy": 0.6547217865784963,
      "num_tokens": 2903370726.0,
      "step": 17318
    },
    {
      "entropy": 1.6938308576742809,
      "epoch": 1.9025843838400482,
      "grad_norm": 0.7320882081985474,
      "learning_rate": 2.1120734041383693e-06,
      "loss": 1.3902,
      "mean_token_accuracy": 0.6558147321144739,
      "num_tokens": 2903533604.0,
      "step": 17319
    },
    {
      "entropy": 1.7045827706654866,
      "epoch": 1.9026942407514214,
      "grad_norm": 0.6136589050292969,
      "learning_rate": 2.1118216523975033e-06,
      "loss": 1.3388,
      "mean_token_accuracy": 0.667515754699707,
      "num_tokens": 2903687713.0,
      "step": 17320
    },
    {
      "entropy": 1.6572574277718861,
      "epoch": 1.9028040976627942,
      "grad_norm": 0.642920196056366,
      "learning_rate": 2.111570181963476e-06,
      "loss": 1.2703,
      "mean_token_accuracy": 0.6777136772871017,
      "num_tokens": 2903848962.0,
      "step": 17321
    },
    {
      "entropy": 1.6885874370733898,
      "epoch": 1.9029139545741671,
      "grad_norm": 0.6778194904327393,
      "learning_rate": 2.1113189928442474e-06,
      "loss": 1.4339,
      "mean_token_accuracy": 0.6557305157184601,
      "num_tokens": 2904026770.0,
      "step": 17322
    },
    {
      "entropy": 1.7227852642536163,
      "epoch": 1.9030238114855402,
      "grad_norm": 0.7432954907417297,
      "learning_rate": 2.1110680850477677e-06,
      "loss": 1.2885,
      "mean_token_accuracy": 0.6714919358491898,
      "num_tokens": 2904155217.0,
      "step": 17323
    },
    {
      "entropy": 1.632401277621587,
      "epoch": 1.903133668396913,
      "grad_norm": 0.6605057716369629,
      "learning_rate": 2.1108174585819766e-06,
      "loss": 1.4722,
      "mean_token_accuracy": 0.6337202688058218,
      "num_tokens": 2904366981.0,
      "step": 17324
    },
    {
      "entropy": 1.7007041573524475,
      "epoch": 1.903243525308286,
      "grad_norm": 0.7226251363754272,
      "learning_rate": 2.1105671134548095e-06,
      "loss": 1.4875,
      "mean_token_accuracy": 0.652341494957606,
      "num_tokens": 2904540754.0,
      "step": 17325
    },
    {
      "entropy": 1.6867063740889232,
      "epoch": 1.9033533822196589,
      "grad_norm": 1.4981513023376465,
      "learning_rate": 2.110317049674186e-06,
      "loss": 1.2325,
      "mean_token_accuracy": 0.6909955491622289,
      "num_tokens": 2904719674.0,
      "step": 17326
    },
    {
      "entropy": 1.6712439060211182,
      "epoch": 1.9034632391310318,
      "grad_norm": 0.717866837978363,
      "learning_rate": 2.110067267248022e-06,
      "loss": 1.3748,
      "mean_token_accuracy": 0.6473964601755142,
      "num_tokens": 2904849892.0,
      "step": 17327
    },
    {
      "entropy": 1.626634528239568,
      "epoch": 1.9035730960424049,
      "grad_norm": 0.8814289569854736,
      "learning_rate": 2.109817766184224e-06,
      "loss": 1.3151,
      "mean_token_accuracy": 0.6663583666086197,
      "num_tokens": 2905045049.0,
      "step": 17328
    },
    {
      "entropy": 1.7585350374380748,
      "epoch": 1.9036829529537775,
      "grad_norm": 0.6172336339950562,
      "learning_rate": 2.1095685464906867e-06,
      "loss": 1.3216,
      "mean_token_accuracy": 0.6797197361787161,
      "num_tokens": 2905187276.0,
      "step": 17329
    },
    {
      "entropy": 1.7158283491929371,
      "epoch": 1.9037928098651506,
      "grad_norm": 0.6529079079627991,
      "learning_rate": 2.1093196081753005e-06,
      "loss": 1.4517,
      "mean_token_accuracy": 0.646214579542478,
      "num_tokens": 2905407433.0,
      "step": 17330
    },
    {
      "entropy": 1.6329115728537242,
      "epoch": 1.9039026667765235,
      "grad_norm": 0.6197842359542847,
      "learning_rate": 2.1090709512459403e-06,
      "loss": 1.4375,
      "mean_token_accuracy": 0.6615285128355026,
      "num_tokens": 2905645926.0,
      "step": 17331
    },
    {
      "entropy": 1.7400815387566884,
      "epoch": 1.9040125236878964,
      "grad_norm": 0.7766255736351013,
      "learning_rate": 2.1088225757104797e-06,
      "loss": 1.3882,
      "mean_token_accuracy": 0.6602704524993896,
      "num_tokens": 2905831337.0,
      "step": 17332
    },
    {
      "entropy": 1.6611623167991638,
      "epoch": 1.9041223805992695,
      "grad_norm": 0.8019027709960938,
      "learning_rate": 2.108574481576778e-06,
      "loss": 1.372,
      "mean_token_accuracy": 0.6643891384204229,
      "num_tokens": 2905988768.0,
      "step": 17333
    },
    {
      "entropy": 1.6944166123867035,
      "epoch": 1.9042322375106424,
      "grad_norm": 0.6995406150817871,
      "learning_rate": 2.1083266688526864e-06,
      "loss": 1.3526,
      "mean_token_accuracy": 0.6618950814008713,
      "num_tokens": 2906191608.0,
      "step": 17334
    },
    {
      "entropy": 1.7486229836940765,
      "epoch": 1.9043420944220153,
      "grad_norm": 0.7345391511917114,
      "learning_rate": 2.1080791375460497e-06,
      "loss": 1.3983,
      "mean_token_accuracy": 0.661010871330897,
      "num_tokens": 2906317489.0,
      "step": 17335
    },
    {
      "entropy": 1.6621031761169434,
      "epoch": 1.9044519513333884,
      "grad_norm": 0.6560261845588684,
      "learning_rate": 2.1078318876647008e-06,
      "loss": 1.2522,
      "mean_token_accuracy": 0.6751103301843008,
      "num_tokens": 2906467343.0,
      "step": 17336
    },
    {
      "entropy": 1.7779687742392223,
      "epoch": 1.904561808244761,
      "grad_norm": 0.6154184937477112,
      "learning_rate": 2.107584919216467e-06,
      "loss": 1.5128,
      "mean_token_accuracy": 0.6438574666778246,
      "num_tokens": 2906658202.0,
      "step": 17337
    },
    {
      "entropy": 1.8077290554841359,
      "epoch": 1.9046716651561342,
      "grad_norm": 0.7357187867164612,
      "learning_rate": 2.1073382322091633e-06,
      "loss": 1.5264,
      "mean_token_accuracy": 0.6432707210381826,
      "num_tokens": 2906818347.0,
      "step": 17338
    },
    {
      "entropy": 1.7658953468004863,
      "epoch": 1.904781522067507,
      "grad_norm": 0.615322470664978,
      "learning_rate": 2.107091826650596e-06,
      "loss": 1.4196,
      "mean_token_accuracy": 0.6580002655585607,
      "num_tokens": 2906975280.0,
      "step": 17339
    },
    {
      "entropy": 1.7291893462340038,
      "epoch": 1.90489137897888,
      "grad_norm": 0.6034359931945801,
      "learning_rate": 2.106845702548567e-06,
      "loss": 1.6408,
      "mean_token_accuracy": 0.6236142565806707,
      "num_tokens": 2907236930.0,
      "step": 17340
    },
    {
      "entropy": 1.6925783356030781,
      "epoch": 1.905001235890253,
      "grad_norm": 0.6417155861854553,
      "learning_rate": 2.1065998599108627e-06,
      "loss": 1.5223,
      "mean_token_accuracy": 0.631607269247373,
      "num_tokens": 2907449207.0,
      "step": 17341
    },
    {
      "entropy": 1.6567042768001556,
      "epoch": 1.9051110928016257,
      "grad_norm": 0.6812300682067871,
      "learning_rate": 2.106354298745266e-06,
      "loss": 1.3955,
      "mean_token_accuracy": 0.6692457795143127,
      "num_tokens": 2907609264.0,
      "step": 17342
    },
    {
      "entropy": 1.707110603650411,
      "epoch": 1.9052209497129988,
      "grad_norm": 0.59761643409729,
      "learning_rate": 2.1061090190595484e-06,
      "loss": 1.5329,
      "mean_token_accuracy": 0.6419897625843684,
      "num_tokens": 2907816900.0,
      "step": 17343
    },
    {
      "entropy": 1.7284224132696788,
      "epoch": 1.9053308066243717,
      "grad_norm": 0.7119576930999756,
      "learning_rate": 2.1058640208614723e-06,
      "loss": 1.3361,
      "mean_token_accuracy": 0.6653526822725931,
      "num_tokens": 2907986068.0,
      "step": 17344
    },
    {
      "entropy": 1.69676540295283,
      "epoch": 1.9054406635357446,
      "grad_norm": 0.7282069325447083,
      "learning_rate": 2.1056193041587924e-06,
      "loss": 1.2982,
      "mean_token_accuracy": 0.6773037711779276,
      "num_tokens": 2908134262.0,
      "step": 17345
    },
    {
      "entropy": 1.678769161303838,
      "epoch": 1.9055505204471177,
      "grad_norm": 0.6445490717887878,
      "learning_rate": 2.105374868959253e-06,
      "loss": 1.3609,
      "mean_token_accuracy": 0.6605921387672424,
      "num_tokens": 2908292260.0,
      "step": 17346
    },
    {
      "entropy": 1.7496456503868103,
      "epoch": 1.9056603773584906,
      "grad_norm": 0.8550807237625122,
      "learning_rate": 2.105130715270591e-06,
      "loss": 1.3914,
      "mean_token_accuracy": 0.6650789976119995,
      "num_tokens": 2908453413.0,
      "step": 17347
    },
    {
      "entropy": 1.743078887462616,
      "epoch": 1.9057702342698635,
      "grad_norm": 0.747218906879425,
      "learning_rate": 2.104886843100534e-06,
      "loss": 1.4484,
      "mean_token_accuracy": 0.6520692358414332,
      "num_tokens": 2908624898.0,
      "step": 17348
    },
    {
      "entropy": 1.767656107743581,
      "epoch": 1.9058800911812366,
      "grad_norm": 0.6700419783592224,
      "learning_rate": 2.104643252456801e-06,
      "loss": 1.498,
      "mean_token_accuracy": 0.6458103656768799,
      "num_tokens": 2908776179.0,
      "step": 17349
    },
    {
      "entropy": 1.7707056005795796,
      "epoch": 1.9059899480926092,
      "grad_norm": 0.7064527869224548,
      "learning_rate": 2.1043999433471006e-06,
      "loss": 1.3796,
      "mean_token_accuracy": 0.6523715605338415,
      "num_tokens": 2908908378.0,
      "step": 17350
    },
    {
      "entropy": 1.7640493313471477,
      "epoch": 1.9060998050039824,
      "grad_norm": 0.69893479347229,
      "learning_rate": 2.1041569157791325e-06,
      "loss": 1.356,
      "mean_token_accuracy": 0.6554395059744517,
      "num_tokens": 2909045131.0,
      "step": 17351
    },
    {
      "entropy": 1.7937356928984325,
      "epoch": 1.9062096619153552,
      "grad_norm": 0.7464211583137512,
      "learning_rate": 2.10391416976059e-06,
      "loss": 1.4799,
      "mean_token_accuracy": 0.6518764893213908,
      "num_tokens": 2909200452.0,
      "step": 17352
    },
    {
      "entropy": 1.7353100379308064,
      "epoch": 1.9063195188267281,
      "grad_norm": 0.6664573550224304,
      "learning_rate": 2.103671705299156e-06,
      "loss": 1.4749,
      "mean_token_accuracy": 0.6581431378920873,
      "num_tokens": 2909359220.0,
      "step": 17353
    },
    {
      "entropy": 1.7203071018060048,
      "epoch": 1.9064293757381012,
      "grad_norm": 0.7875437140464783,
      "learning_rate": 2.103429522402502e-06,
      "loss": 1.5624,
      "mean_token_accuracy": 0.6487771024306616,
      "num_tokens": 2909556852.0,
      "step": 17354
    },
    {
      "entropy": 1.6935315628846486,
      "epoch": 1.9065392326494741,
      "grad_norm": 0.6662817001342773,
      "learning_rate": 2.1031876210782954e-06,
      "loss": 1.2577,
      "mean_token_accuracy": 0.6786133150259653,
      "num_tokens": 2909700221.0,
      "step": 17355
    },
    {
      "entropy": 1.670400321483612,
      "epoch": 1.906649089560847,
      "grad_norm": 0.6516803503036499,
      "learning_rate": 2.1029460013341927e-06,
      "loss": 1.4057,
      "mean_token_accuracy": 0.6678726325432459,
      "num_tokens": 2909895492.0,
      "step": 17356
    },
    {
      "entropy": 1.6352357765038807,
      "epoch": 1.9067589464722199,
      "grad_norm": 0.6111500263214111,
      "learning_rate": 2.1027046631778395e-06,
      "loss": 1.3753,
      "mean_token_accuracy": 0.6627530604600906,
      "num_tokens": 2910096151.0,
      "step": 17357
    },
    {
      "entropy": 1.6735480030377705,
      "epoch": 1.9068688033835928,
      "grad_norm": 0.6414183974266052,
      "learning_rate": 2.1024636066168734e-06,
      "loss": 1.4689,
      "mean_token_accuracy": 0.6363677581151327,
      "num_tokens": 2910260269.0,
      "step": 17358
    },
    {
      "entropy": 1.7215021948019664,
      "epoch": 1.9069786602949659,
      "grad_norm": 0.6086724996566772,
      "learning_rate": 2.102222831658926e-06,
      "loss": 1.4963,
      "mean_token_accuracy": 0.6482528100411097,
      "num_tokens": 2910447473.0,
      "step": 17359
    },
    {
      "entropy": 1.642045497894287,
      "epoch": 1.9070885172063388,
      "grad_norm": 0.7172538042068481,
      "learning_rate": 2.1019823383116163e-06,
      "loss": 1.4312,
      "mean_token_accuracy": 0.6497194568316141,
      "num_tokens": 2910609340.0,
      "step": 17360
    },
    {
      "entropy": 1.710667649904887,
      "epoch": 1.9071983741177116,
      "grad_norm": 0.8276099562644958,
      "learning_rate": 2.1017421265825557e-06,
      "loss": 1.3401,
      "mean_token_accuracy": 0.6725934545199076,
      "num_tokens": 2910731278.0,
      "step": 17361
    },
    {
      "entropy": 1.733361969391505,
      "epoch": 1.9073082310290848,
      "grad_norm": 0.7834944128990173,
      "learning_rate": 2.101502196479348e-06,
      "loss": 1.3967,
      "mean_token_accuracy": 0.658065527677536,
      "num_tokens": 2910897871.0,
      "step": 17362
    },
    {
      "entropy": 1.7039579351743062,
      "epoch": 1.9074180879404574,
      "grad_norm": 0.7555103302001953,
      "learning_rate": 2.1012625480095844e-06,
      "loss": 1.3922,
      "mean_token_accuracy": 0.6700689966479937,
      "num_tokens": 2911030541.0,
      "step": 17363
    },
    {
      "entropy": 1.7056597967942555,
      "epoch": 1.9075279448518305,
      "grad_norm": 0.6581346988677979,
      "learning_rate": 2.1010231811808534e-06,
      "loss": 1.4952,
      "mean_token_accuracy": 0.6401078750689825,
      "num_tokens": 2911278929.0,
      "step": 17364
    },
    {
      "entropy": 1.6974429786205292,
      "epoch": 1.9076378017632034,
      "grad_norm": 0.573140561580658,
      "learning_rate": 2.1007840960007274e-06,
      "loss": 1.5212,
      "mean_token_accuracy": 0.6344274332125982,
      "num_tokens": 2911502264.0,
      "step": 17365
    },
    {
      "entropy": 1.679697851339976,
      "epoch": 1.9077476586745763,
      "grad_norm": 0.7497307658195496,
      "learning_rate": 2.1005452924767745e-06,
      "loss": 1.3362,
      "mean_token_accuracy": 0.659656897187233,
      "num_tokens": 2911637934.0,
      "step": 17366
    },
    {
      "entropy": 1.6486320694287617,
      "epoch": 1.9078575155859494,
      "grad_norm": 0.6654718518257141,
      "learning_rate": 2.1003067706165534e-06,
      "loss": 1.4975,
      "mean_token_accuracy": 0.6403248061736425,
      "num_tokens": 2911856512.0,
      "step": 17367
    },
    {
      "entropy": 1.712807983160019,
      "epoch": 1.9079673724973223,
      "grad_norm": 0.7178590297698975,
      "learning_rate": 2.1000685304276123e-06,
      "loss": 1.258,
      "mean_token_accuracy": 0.6742016822099686,
      "num_tokens": 2911978469.0,
      "step": 17368
    },
    {
      "entropy": 1.699036826690038,
      "epoch": 1.9080772294086952,
      "grad_norm": 0.7930957674980164,
      "learning_rate": 2.0998305719174924e-06,
      "loss": 1.3113,
      "mean_token_accuracy": 0.6729649156332016,
      "num_tokens": 2912136257.0,
      "step": 17369
    },
    {
      "entropy": 1.764205386241277,
      "epoch": 1.908187086320068,
      "grad_norm": 0.7400210499763489,
      "learning_rate": 2.0995928950937237e-06,
      "loss": 1.6815,
      "mean_token_accuracy": 0.6208955893913904,
      "num_tokens": 2912335968.0,
      "step": 17370
    },
    {
      "entropy": 1.6935129761695862,
      "epoch": 1.908296943231441,
      "grad_norm": 0.696378767490387,
      "learning_rate": 2.09935549996383e-06,
      "loss": 1.3272,
      "mean_token_accuracy": 0.6687455127636591,
      "num_tokens": 2912508242.0,
      "step": 17371
    },
    {
      "entropy": 1.725334147612254,
      "epoch": 1.908406800142814,
      "grad_norm": 0.7115861773490906,
      "learning_rate": 2.099118386535323e-06,
      "loss": 1.4895,
      "mean_token_accuracy": 0.6452667613824209,
      "num_tokens": 2912694485.0,
      "step": 17372
    },
    {
      "entropy": 1.714306155840556,
      "epoch": 1.908516657054187,
      "grad_norm": 0.7995036840438843,
      "learning_rate": 2.09888155481571e-06,
      "loss": 1.2769,
      "mean_token_accuracy": 0.6667713671922684,
      "num_tokens": 2912828341.0,
      "step": 17373
    },
    {
      "entropy": 1.6857503950595856,
      "epoch": 1.9086265139655598,
      "grad_norm": 0.7703235745429993,
      "learning_rate": 2.0986450048124836e-06,
      "loss": 1.4397,
      "mean_token_accuracy": 0.654585580031077,
      "num_tokens": 2912996677.0,
      "step": 17374
    },
    {
      "entropy": 1.6876949568589528,
      "epoch": 1.908736370876933,
      "grad_norm": 0.778724193572998,
      "learning_rate": 2.0984087365331315e-06,
      "loss": 1.501,
      "mean_token_accuracy": 0.6460902194182078,
      "num_tokens": 2913167483.0,
      "step": 17375
    },
    {
      "entropy": 1.6780872146288555,
      "epoch": 1.9088462277883056,
      "grad_norm": 0.6744540929794312,
      "learning_rate": 2.0981727499851326e-06,
      "loss": 1.5221,
      "mean_token_accuracy": 0.6462369163831075,
      "num_tokens": 2913400005.0,
      "step": 17376
    },
    {
      "entropy": 1.6881005962689717,
      "epoch": 1.9089560846996787,
      "grad_norm": 0.6781927347183228,
      "learning_rate": 2.097937045175954e-06,
      "loss": 1.4824,
      "mean_token_accuracy": 0.6568097323179245,
      "num_tokens": 2913569420.0,
      "step": 17377
    },
    {
      "entropy": 1.7392517030239105,
      "epoch": 1.9090659416110516,
      "grad_norm": 0.6244411468505859,
      "learning_rate": 2.0977016221130565e-06,
      "loss": 1.5132,
      "mean_token_accuracy": 0.6272874772548676,
      "num_tokens": 2913830881.0,
      "step": 17378
    },
    {
      "entropy": 1.6990625858306885,
      "epoch": 1.9091757985224245,
      "grad_norm": 0.7350092530250549,
      "learning_rate": 2.097466480803892e-06,
      "loss": 1.3652,
      "mean_token_accuracy": 0.6684706459442774,
      "num_tokens": 2914056190.0,
      "step": 17379
    },
    {
      "entropy": 1.7045234441757202,
      "epoch": 1.9092856554337976,
      "grad_norm": 0.7276471257209778,
      "learning_rate": 2.097231621255901e-06,
      "loss": 1.3865,
      "mean_token_accuracy": 0.6614778786897659,
      "num_tokens": 2914209787.0,
      "step": 17380
    },
    {
      "entropy": 1.6718364854653676,
      "epoch": 1.9093955123451705,
      "grad_norm": 0.7682698369026184,
      "learning_rate": 2.096997043476519e-06,
      "loss": 1.3389,
      "mean_token_accuracy": 0.6800911873579025,
      "num_tokens": 2914413262.0,
      "step": 17381
    },
    {
      "entropy": 1.7149316171805065,
      "epoch": 1.9095053692565434,
      "grad_norm": 0.7124384045600891,
      "learning_rate": 2.096762747473168e-06,
      "loss": 1.4091,
      "mean_token_accuracy": 0.6653865824143091,
      "num_tokens": 2914541576.0,
      "step": 17382
    },
    {
      "entropy": 1.6883401771386464,
      "epoch": 1.9096152261679162,
      "grad_norm": 0.6308038234710693,
      "learning_rate": 2.0965287332532634e-06,
      "loss": 1.3913,
      "mean_token_accuracy": 0.6438700606425604,
      "num_tokens": 2914680841.0,
      "step": 17383
    },
    {
      "entropy": 1.7368865112463634,
      "epoch": 1.9097250830792891,
      "grad_norm": 0.6777101755142212,
      "learning_rate": 2.0962950008242124e-06,
      "loss": 1.3046,
      "mean_token_accuracy": 0.6656106561422348,
      "num_tokens": 2914857873.0,
      "step": 17384
    },
    {
      "entropy": 1.673662155866623,
      "epoch": 1.9098349399906622,
      "grad_norm": 0.8075534105300903,
      "learning_rate": 2.096061550193414e-06,
      "loss": 1.3713,
      "mean_token_accuracy": 0.6667961577574412,
      "num_tokens": 2915027062.0,
      "step": 17385
    },
    {
      "entropy": 1.6893903613090515,
      "epoch": 1.9099447969020351,
      "grad_norm": 0.7893344759941101,
      "learning_rate": 2.0958283813682538e-06,
      "loss": 1.3099,
      "mean_token_accuracy": 0.668051486214002,
      "num_tokens": 2915178403.0,
      "step": 17386
    },
    {
      "entropy": 1.6581451892852783,
      "epoch": 1.910054653813408,
      "grad_norm": 0.6381314396858215,
      "learning_rate": 2.095595494356113e-06,
      "loss": 1.3248,
      "mean_token_accuracy": 0.6689875473578771,
      "num_tokens": 2915377301.0,
      "step": 17387
    },
    {
      "entropy": 1.7033253610134125,
      "epoch": 1.910164510724781,
      "grad_norm": 0.7965177893638611,
      "learning_rate": 2.0953628891643645e-06,
      "loss": 1.3608,
      "mean_token_accuracy": 0.6760942687590917,
      "num_tokens": 2915496356.0,
      "step": 17388
    },
    {
      "entropy": 1.715836187203725,
      "epoch": 1.9102743676361538,
      "grad_norm": 0.7303998470306396,
      "learning_rate": 2.0951305658003655e-06,
      "loss": 1.4864,
      "mean_token_accuracy": 0.6432332595189413,
      "num_tokens": 2915680397.0,
      "step": 17389
    },
    {
      "entropy": 1.6246002614498138,
      "epoch": 1.9103842245475269,
      "grad_norm": 0.5866871476173401,
      "learning_rate": 2.094898524271473e-06,
      "loss": 1.3568,
      "mean_token_accuracy": 0.6729725748300552,
      "num_tokens": 2915856875.0,
      "step": 17390
    },
    {
      "entropy": 1.6950217187404633,
      "epoch": 1.9104940814588998,
      "grad_norm": 0.604824423789978,
      "learning_rate": 2.094666764585028e-06,
      "loss": 1.5893,
      "mean_token_accuracy": 0.6251017103592554,
      "num_tokens": 2916071725.0,
      "step": 17391
    },
    {
      "entropy": 1.6907562216122944,
      "epoch": 1.9106039383702726,
      "grad_norm": 0.6250636577606201,
      "learning_rate": 2.0944352867483685e-06,
      "loss": 1.3843,
      "mean_token_accuracy": 0.6660982569058737,
      "num_tokens": 2916229565.0,
      "step": 17392
    },
    {
      "entropy": 1.6932495137055714,
      "epoch": 1.9107137952816458,
      "grad_norm": 0.7064518928527832,
      "learning_rate": 2.0942040907688184e-06,
      "loss": 1.3489,
      "mean_token_accuracy": 0.6507859379053116,
      "num_tokens": 2916382240.0,
      "step": 17393
    },
    {
      "entropy": 1.7231053411960602,
      "epoch": 1.9108236521930186,
      "grad_norm": 0.6741702556610107,
      "learning_rate": 2.0939731766536963e-06,
      "loss": 1.5839,
      "mean_token_accuracy": 0.6615618417660395,
      "num_tokens": 2916544920.0,
      "step": 17394
    },
    {
      "entropy": 1.7370639046033223,
      "epoch": 1.9109335091043915,
      "grad_norm": 0.6713312268257141,
      "learning_rate": 2.0937425444103105e-06,
      "loss": 1.3087,
      "mean_token_accuracy": 0.6731932461261749,
      "num_tokens": 2916669826.0,
      "step": 17395
    },
    {
      "entropy": 1.7642224729061127,
      "epoch": 1.9110433660157646,
      "grad_norm": 0.7128596305847168,
      "learning_rate": 2.0935121940459595e-06,
      "loss": 1.4046,
      "mean_token_accuracy": 0.6427824894587199,
      "num_tokens": 2916817048.0,
      "step": 17396
    },
    {
      "entropy": 1.6907521684964497,
      "epoch": 1.9111532229271373,
      "grad_norm": 0.7318049073219299,
      "learning_rate": 2.0932821255679337e-06,
      "loss": 1.3763,
      "mean_token_accuracy": 0.6755510369936625,
      "num_tokens": 2916967274.0,
      "step": 17397
    },
    {
      "entropy": 1.6487935086091359,
      "epoch": 1.9112630798385104,
      "grad_norm": 0.7536101341247559,
      "learning_rate": 2.0930523389835154e-06,
      "loss": 1.584,
      "mean_token_accuracy": 0.6465408056974411,
      "num_tokens": 2917128574.0,
      "step": 17398
    },
    {
      "entropy": 1.740364799896876,
      "epoch": 1.9113729367498833,
      "grad_norm": 0.6966463923454285,
      "learning_rate": 2.0928228342999764e-06,
      "loss": 1.4856,
      "mean_token_accuracy": 0.6480376496911049,
      "num_tokens": 2917283340.0,
      "step": 17399
    },
    {
      "entropy": 1.6265077789624531,
      "epoch": 1.9114827936612562,
      "grad_norm": 0.6639081835746765,
      "learning_rate": 2.092593611524582e-06,
      "loss": 1.4039,
      "mean_token_accuracy": 0.6535753359397253,
      "num_tokens": 2917514395.0,
      "step": 17400
    },
    {
      "entropy": 1.768510530392329,
      "epoch": 1.9115926505726293,
      "grad_norm": 0.6785690188407898,
      "learning_rate": 2.092364670664586e-06,
      "loss": 1.4136,
      "mean_token_accuracy": 0.6424920608599981,
      "num_tokens": 2917680252.0,
      "step": 17401
    },
    {
      "entropy": 1.6863116323947906,
      "epoch": 1.911702507484002,
      "grad_norm": 0.6685127019882202,
      "learning_rate": 2.0921360117272334e-06,
      "loss": 1.4231,
      "mean_token_accuracy": 0.6529277910788854,
      "num_tokens": 2917812834.0,
      "step": 17402
    },
    {
      "entropy": 1.6903614699840546,
      "epoch": 1.911812364395375,
      "grad_norm": 0.8102334141731262,
      "learning_rate": 2.0919076347197622e-06,
      "loss": 1.3383,
      "mean_token_accuracy": 0.6616157094637553,
      "num_tokens": 2917957581.0,
      "step": 17403
    },
    {
      "entropy": 1.7386558850606282,
      "epoch": 1.911922221306748,
      "grad_norm": 0.7050533294677734,
      "learning_rate": 2.091679539649401e-06,
      "loss": 1.4781,
      "mean_token_accuracy": 0.6581172744433085,
      "num_tokens": 2918097568.0,
      "step": 17404
    },
    {
      "entropy": 1.692396640777588,
      "epoch": 1.9120320782181208,
      "grad_norm": 0.8380081057548523,
      "learning_rate": 2.091451726523368e-06,
      "loss": 1.4178,
      "mean_token_accuracy": 0.6531778971354166,
      "num_tokens": 2918232997.0,
      "step": 17405
    },
    {
      "entropy": 1.774149735768636,
      "epoch": 1.912141935129494,
      "grad_norm": 0.7412464618682861,
      "learning_rate": 2.0912241953488736e-06,
      "loss": 1.4631,
      "mean_token_accuracy": 0.6348550717035929,
      "num_tokens": 2918390827.0,
      "step": 17406
    },
    {
      "entropy": 1.7355511287848155,
      "epoch": 1.9122517920408668,
      "grad_norm": 0.6477778553962708,
      "learning_rate": 2.0909969461331185e-06,
      "loss": 1.4172,
      "mean_token_accuracy": 0.6531795511643091,
      "num_tokens": 2918560623.0,
      "step": 17407
    },
    {
      "entropy": 1.6789377927780151,
      "epoch": 1.9123616489522397,
      "grad_norm": 0.6781573295593262,
      "learning_rate": 2.0907699788832962e-06,
      "loss": 1.4929,
      "mean_token_accuracy": 0.6445153504610062,
      "num_tokens": 2918738819.0,
      "step": 17408
    },
    {
      "entropy": 1.6440903345743816,
      "epoch": 1.9124715058636128,
      "grad_norm": 0.6116029620170593,
      "learning_rate": 2.0905432936065895e-06,
      "loss": 1.3995,
      "mean_token_accuracy": 0.6445668091376623,
      "num_tokens": 2918932198.0,
      "step": 17409
    },
    {
      "entropy": 1.72769961754481,
      "epoch": 1.9125813627749855,
      "grad_norm": 0.749138355255127,
      "learning_rate": 2.090316890310172e-06,
      "loss": 1.3863,
      "mean_token_accuracy": 0.6565118928750356,
      "num_tokens": 2919077877.0,
      "step": 17410
    },
    {
      "entropy": 1.7584010362625122,
      "epoch": 1.9126912196863586,
      "grad_norm": 0.6772981286048889,
      "learning_rate": 2.0900907690012095e-06,
      "loss": 1.2869,
      "mean_token_accuracy": 0.6611250092585882,
      "num_tokens": 2919201070.0,
      "step": 17411
    },
    {
      "entropy": 1.669664631287257,
      "epoch": 1.9128010765977315,
      "grad_norm": 0.7344382405281067,
      "learning_rate": 2.089864929686861e-06,
      "loss": 1.4473,
      "mean_token_accuracy": 0.6602032780647278,
      "num_tokens": 2919334440.0,
      "step": 17412
    },
    {
      "entropy": 1.6799374123414357,
      "epoch": 1.9129109335091043,
      "grad_norm": 0.5712904334068298,
      "learning_rate": 2.0896393723742725e-06,
      "loss": 1.3804,
      "mean_token_accuracy": 0.6711891492207845,
      "num_tokens": 2919517894.0,
      "step": 17413
    },
    {
      "entropy": 1.6531173884868622,
      "epoch": 1.9130207904204775,
      "grad_norm": 0.6494702696800232,
      "learning_rate": 2.089414097070581e-06,
      "loss": 1.2276,
      "mean_token_accuracy": 0.6815090030431747,
      "num_tokens": 2919684705.0,
      "step": 17414
    },
    {
      "entropy": 1.6996674636999767,
      "epoch": 1.9131306473318501,
      "grad_norm": 0.6836813688278198,
      "learning_rate": 2.0891891037829204e-06,
      "loss": 1.4035,
      "mean_token_accuracy": 0.6582774519920349,
      "num_tokens": 2919839562.0,
      "step": 17415
    },
    {
      "entropy": 1.6734414498011272,
      "epoch": 1.9132405042432232,
      "grad_norm": 0.804311215877533,
      "learning_rate": 2.0889643925184073e-06,
      "loss": 1.3143,
      "mean_token_accuracy": 0.6627353529135386,
      "num_tokens": 2919960685.0,
      "step": 17416
    },
    {
      "entropy": 1.669149398803711,
      "epoch": 1.9133503611545961,
      "grad_norm": 0.6251264214515686,
      "learning_rate": 2.0887399632841578e-06,
      "loss": 1.4457,
      "mean_token_accuracy": 0.6435550649960836,
      "num_tokens": 2920181248.0,
      "step": 17417
    },
    {
      "entropy": 1.7074171503384907,
      "epoch": 1.913460218065969,
      "grad_norm": 0.6743486523628235,
      "learning_rate": 2.0885158160872717e-06,
      "loss": 1.4268,
      "mean_token_accuracy": 0.654527614514033,
      "num_tokens": 2920389161.0,
      "step": 17418
    },
    {
      "entropy": 1.7007141311963399,
      "epoch": 1.913570074977342,
      "grad_norm": 0.6802394986152649,
      "learning_rate": 2.088291950934844e-06,
      "loss": 1.4994,
      "mean_token_accuracy": 0.634449248512586,
      "num_tokens": 2920611442.0,
      "step": 17419
    },
    {
      "entropy": 1.7454398373762767,
      "epoch": 1.913679931888715,
      "grad_norm": 0.7798505425453186,
      "learning_rate": 2.088068367833961e-06,
      "loss": 1.3725,
      "mean_token_accuracy": 0.6632242302099863,
      "num_tokens": 2920737237.0,
      "step": 17420
    },
    {
      "entropy": 1.7217259307702382,
      "epoch": 1.9137897888000879,
      "grad_norm": 0.6991998553276062,
      "learning_rate": 2.0878450667916983e-06,
      "loss": 1.4191,
      "mean_token_accuracy": 0.642817402879397,
      "num_tokens": 2920907848.0,
      "step": 17421
    },
    {
      "entropy": 1.6675984263420105,
      "epoch": 1.913899645711461,
      "grad_norm": 0.7746340036392212,
      "learning_rate": 2.0876220478151233e-06,
      "loss": 1.337,
      "mean_token_accuracy": 0.6696319133043289,
      "num_tokens": 2921027405.0,
      "step": 17422
    },
    {
      "entropy": 1.6807717482248943,
      "epoch": 1.9140095026228336,
      "grad_norm": 0.6704512238502502,
      "learning_rate": 2.0873993109112943e-06,
      "loss": 1.2705,
      "mean_token_accuracy": 0.6693969368934631,
      "num_tokens": 2921204488.0,
      "step": 17423
    },
    {
      "entropy": 1.6527533928553264,
      "epoch": 1.9141193595342068,
      "grad_norm": 0.7245538830757141,
      "learning_rate": 2.087176856087261e-06,
      "loss": 1.3807,
      "mean_token_accuracy": 0.671676109234492,
      "num_tokens": 2921333040.0,
      "step": 17424
    },
    {
      "entropy": 1.6895228326320648,
      "epoch": 1.9142292164455796,
      "grad_norm": 0.5984308123588562,
      "learning_rate": 2.086954683350064e-06,
      "loss": 1.3878,
      "mean_token_accuracy": 0.6493009428183237,
      "num_tokens": 2921582051.0,
      "step": 17425
    },
    {
      "entropy": 1.7049407164255779,
      "epoch": 1.9143390733569525,
      "grad_norm": 0.7265485525131226,
      "learning_rate": 2.086732792706735e-06,
      "loss": 1.326,
      "mean_token_accuracy": 0.6612226913372675,
      "num_tokens": 2921738662.0,
      "step": 17426
    },
    {
      "entropy": 1.7597126563390095,
      "epoch": 1.9144489302683256,
      "grad_norm": 0.8590186238288879,
      "learning_rate": 2.086511184164297e-06,
      "loss": 1.5987,
      "mean_token_accuracy": 0.6419850587844849,
      "num_tokens": 2921942676.0,
      "step": 17427
    },
    {
      "entropy": 1.7027497589588165,
      "epoch": 1.9145587871796983,
      "grad_norm": 0.6106962561607361,
      "learning_rate": 2.0862898577297636e-06,
      "loss": 1.3344,
      "mean_token_accuracy": 0.6656178931395212,
      "num_tokens": 2922083937.0,
      "step": 17428
    },
    {
      "entropy": 1.7116191983222961,
      "epoch": 1.9146686440910714,
      "grad_norm": 0.7605423927307129,
      "learning_rate": 2.0860688134101394e-06,
      "loss": 1.2908,
      "mean_token_accuracy": 0.6651194790999094,
      "num_tokens": 2922221769.0,
      "step": 17429
    },
    {
      "entropy": 1.7398067712783813,
      "epoch": 1.9147785010024443,
      "grad_norm": 0.6844810247421265,
      "learning_rate": 2.0858480512124205e-06,
      "loss": 1.3323,
      "mean_token_accuracy": 0.6669246157010397,
      "num_tokens": 2922352941.0,
      "step": 17430
    },
    {
      "entropy": 1.6831025381882985,
      "epoch": 1.9148883579138172,
      "grad_norm": 0.6590069532394409,
      "learning_rate": 2.0856275711435934e-06,
      "loss": 1.4787,
      "mean_token_accuracy": 0.6421498209238052,
      "num_tokens": 2922541900.0,
      "step": 17431
    },
    {
      "entropy": 1.7204078237215679,
      "epoch": 1.9149982148251903,
      "grad_norm": 0.7026862502098083,
      "learning_rate": 2.085407373210637e-06,
      "loss": 1.3757,
      "mean_token_accuracy": 0.645499716202418,
      "num_tokens": 2922689747.0,
      "step": 17432
    },
    {
      "entropy": 1.704828808705012,
      "epoch": 1.9151080717365632,
      "grad_norm": 0.7054374814033508,
      "learning_rate": 2.0851874574205206e-06,
      "loss": 1.4807,
      "mean_token_accuracy": 0.6405527790387472,
      "num_tokens": 2922909076.0,
      "step": 17433
    },
    {
      "entropy": 1.7403566241264343,
      "epoch": 1.915217928647936,
      "grad_norm": 0.6240404844284058,
      "learning_rate": 2.084967823780204e-06,
      "loss": 1.3858,
      "mean_token_accuracy": 0.6522353092829386,
      "num_tokens": 2923086459.0,
      "step": 17434
    },
    {
      "entropy": 1.6699285606543224,
      "epoch": 1.9153277855593092,
      "grad_norm": 0.6833006739616394,
      "learning_rate": 2.0847484722966383e-06,
      "loss": 1.3314,
      "mean_token_accuracy": 0.6654851237932841,
      "num_tokens": 2923264919.0,
      "step": 17435
    },
    {
      "entropy": 1.7221463322639465,
      "epoch": 1.9154376424706818,
      "grad_norm": 0.6218920946121216,
      "learning_rate": 2.0845294029767665e-06,
      "loss": 1.4466,
      "mean_token_accuracy": 0.6374649703502655,
      "num_tokens": 2923481855.0,
      "step": 17436
    },
    {
      "entropy": 1.7145523428916931,
      "epoch": 1.915547499382055,
      "grad_norm": 0.8189231157302856,
      "learning_rate": 2.084310615827522e-06,
      "loss": 1.7038,
      "mean_token_accuracy": 0.6330908884604772,
      "num_tokens": 2923683139.0,
      "step": 17437
    },
    {
      "entropy": 1.7109653453032176,
      "epoch": 1.9156573562934278,
      "grad_norm": 0.6383715271949768,
      "learning_rate": 2.0840921108558277e-06,
      "loss": 1.2914,
      "mean_token_accuracy": 0.664964367945989,
      "num_tokens": 2923815046.0,
      "step": 17438
    },
    {
      "entropy": 1.6905694603919983,
      "epoch": 1.9157672132048007,
      "grad_norm": 0.8235413432121277,
      "learning_rate": 2.0838738880686023e-06,
      "loss": 1.3632,
      "mean_token_accuracy": 0.6752482801675797,
      "num_tokens": 2923945485.0,
      "step": 17439
    },
    {
      "entropy": 1.6911144355932872,
      "epoch": 1.9158770701161738,
      "grad_norm": 0.794511616230011,
      "learning_rate": 2.083655947472749e-06,
      "loss": 1.3981,
      "mean_token_accuracy": 0.6572174479564031,
      "num_tokens": 2924111825.0,
      "step": 17440
    },
    {
      "entropy": 1.6802450319131215,
      "epoch": 1.9159869270275465,
      "grad_norm": 0.6762140989303589,
      "learning_rate": 2.0834382890751675e-06,
      "loss": 1.395,
      "mean_token_accuracy": 0.6544107298056284,
      "num_tokens": 2924227529.0,
      "step": 17441
    },
    {
      "entropy": 1.7163665493329365,
      "epoch": 1.9160967839389196,
      "grad_norm": 0.7602096199989319,
      "learning_rate": 2.0832209128827475e-06,
      "loss": 1.4227,
      "mean_token_accuracy": 0.6661782662073771,
      "num_tokens": 2924395248.0,
      "step": 17442
    },
    {
      "entropy": 1.6846363445123036,
      "epoch": 1.9162066408502925,
      "grad_norm": 0.6908214092254639,
      "learning_rate": 2.0830038189023657e-06,
      "loss": 1.6045,
      "mean_token_accuracy": 0.637446328997612,
      "num_tokens": 2924571785.0,
      "step": 17443
    },
    {
      "entropy": 1.6963723401228588,
      "epoch": 1.9163164977616653,
      "grad_norm": 0.7088649868965149,
      "learning_rate": 2.0827870071408965e-06,
      "loss": 1.2535,
      "mean_token_accuracy": 0.678161750237147,
      "num_tokens": 2924703162.0,
      "step": 17444
    },
    {
      "entropy": 1.6324211259682972,
      "epoch": 1.9164263546730385,
      "grad_norm": 0.6246728301048279,
      "learning_rate": 2.0825704776052e-06,
      "loss": 1.3837,
      "mean_token_accuracy": 0.66278408964475,
      "num_tokens": 2924980915.0,
      "step": 17445
    },
    {
      "entropy": 1.7229852279027302,
      "epoch": 1.9165362115844113,
      "grad_norm": 0.754826009273529,
      "learning_rate": 2.082354230302129e-06,
      "loss": 1.3334,
      "mean_token_accuracy": 0.6602563957373301,
      "num_tokens": 2925088795.0,
      "step": 17446
    },
    {
      "entropy": 1.6306418975194295,
      "epoch": 1.9166460684957842,
      "grad_norm": 0.6160972714424133,
      "learning_rate": 2.0821382652385284e-06,
      "loss": 1.4224,
      "mean_token_accuracy": 0.6546281178792318,
      "num_tokens": 2925322433.0,
      "step": 17447
    },
    {
      "entropy": 1.6297888457775116,
      "epoch": 1.9167559254071573,
      "grad_norm": 0.6668198704719543,
      "learning_rate": 2.081922582421233e-06,
      "loss": 1.4147,
      "mean_token_accuracy": 0.6672234535217285,
      "num_tokens": 2925496843.0,
      "step": 17448
    },
    {
      "entropy": 1.7703557411829631,
      "epoch": 1.91686578231853,
      "grad_norm": 0.7170999050140381,
      "learning_rate": 2.081707181857071e-06,
      "loss": 1.3329,
      "mean_token_accuracy": 0.6564952532450358,
      "num_tokens": 2925647583.0,
      "step": 17449
    },
    {
      "entropy": 1.7169082860151927,
      "epoch": 1.916975639229903,
      "grad_norm": 0.6741853356361389,
      "learning_rate": 2.0814920635528563e-06,
      "loss": 1.2811,
      "mean_token_accuracy": 0.6681034664312998,
      "num_tokens": 2925770751.0,
      "step": 17450
    },
    {
      "entropy": 1.6565737128257751,
      "epoch": 1.917085496141276,
      "grad_norm": 0.6688545346260071,
      "learning_rate": 2.081277227515399e-06,
      "loss": 1.2302,
      "mean_token_accuracy": 0.6802611798048019,
      "num_tokens": 2925890003.0,
      "step": 17451
    },
    {
      "entropy": 1.687977929910024,
      "epoch": 1.9171953530526489,
      "grad_norm": 0.7067691683769226,
      "learning_rate": 2.081062673751499e-06,
      "loss": 1.2822,
      "mean_token_accuracy": 0.6621923645337423,
      "num_tokens": 2926063066.0,
      "step": 17452
    },
    {
      "entropy": 1.6485174397627513,
      "epoch": 1.917305209964022,
      "grad_norm": 0.6077693104743958,
      "learning_rate": 2.0808484022679467e-06,
      "loss": 1.459,
      "mean_token_accuracy": 0.6410925338665644,
      "num_tokens": 2926254114.0,
      "step": 17453
    },
    {
      "entropy": 1.6806750198205311,
      "epoch": 1.9174150668753946,
      "grad_norm": 0.6232016682624817,
      "learning_rate": 2.0806344130715233e-06,
      "loss": 1.5307,
      "mean_token_accuracy": 0.6372226725021998,
      "num_tokens": 2926443709.0,
      "step": 17454
    },
    {
      "entropy": 1.6603333155314128,
      "epoch": 1.9175249237867678,
      "grad_norm": 0.7298293709754944,
      "learning_rate": 2.080420706169001e-06,
      "loss": 1.3589,
      "mean_token_accuracy": 0.6681396961212158,
      "num_tokens": 2926597936.0,
      "step": 17455
    },
    {
      "entropy": 1.82164399822553,
      "epoch": 1.9176347806981406,
      "grad_norm": 0.6539393663406372,
      "learning_rate": 2.080207281567144e-06,
      "loss": 1.6118,
      "mean_token_accuracy": 0.6109184970458349,
      "num_tokens": 2926871518.0,
      "step": 17456
    },
    {
      "entropy": 1.6787754893302917,
      "epoch": 1.9177446376095135,
      "grad_norm": 0.6502023339271545,
      "learning_rate": 2.079994139272708e-06,
      "loss": 1.3738,
      "mean_token_accuracy": 0.6680939892927805,
      "num_tokens": 2927064929.0,
      "step": 17457
    },
    {
      "entropy": 1.6514959534009297,
      "epoch": 1.9178544945208866,
      "grad_norm": 0.7282174825668335,
      "learning_rate": 2.0797812792924372e-06,
      "loss": 1.3208,
      "mean_token_accuracy": 0.6738225072622299,
      "num_tokens": 2927212785.0,
      "step": 17458
    },
    {
      "entropy": 1.6412135660648346,
      "epoch": 1.9179643514322595,
      "grad_norm": 0.6706090569496155,
      "learning_rate": 2.079568701633071e-06,
      "loss": 1.2853,
      "mean_token_accuracy": 0.6833283007144928,
      "num_tokens": 2927400983.0,
      "step": 17459
    },
    {
      "entropy": 1.6410308082898457,
      "epoch": 1.9180742083436324,
      "grad_norm": 0.7416619658470154,
      "learning_rate": 2.0793564063013337e-06,
      "loss": 1.41,
      "mean_token_accuracy": 0.6614979207515717,
      "num_tokens": 2927587509.0,
      "step": 17460
    },
    {
      "entropy": 1.6796442766984303,
      "epoch": 1.9181840652550055,
      "grad_norm": 0.613105058670044,
      "learning_rate": 2.0791443933039477e-06,
      "loss": 1.3794,
      "mean_token_accuracy": 0.6581423729658127,
      "num_tokens": 2927770429.0,
      "step": 17461
    },
    {
      "entropy": 1.6736660699049632,
      "epoch": 1.9182939221663782,
      "grad_norm": 0.6586642861366272,
      "learning_rate": 2.0789326626476213e-06,
      "loss": 1.3009,
      "mean_token_accuracy": 0.6772599170605341,
      "num_tokens": 2927929359.0,
      "step": 17462
    },
    {
      "entropy": 1.7245589395364125,
      "epoch": 1.9184037790777513,
      "grad_norm": 0.7125158905982971,
      "learning_rate": 2.078721214339057e-06,
      "loss": 1.2919,
      "mean_token_accuracy": 0.6627042591571808,
      "num_tokens": 2928041715.0,
      "step": 17463
    },
    {
      "entropy": 1.6420990029970806,
      "epoch": 1.9185136359891242,
      "grad_norm": 0.6651259660720825,
      "learning_rate": 2.078510048384944e-06,
      "loss": 1.3234,
      "mean_token_accuracy": 0.6715792467196783,
      "num_tokens": 2928211841.0,
      "step": 17464
    },
    {
      "entropy": 1.680494636297226,
      "epoch": 1.918623492900497,
      "grad_norm": 0.5542195439338684,
      "learning_rate": 2.0782991647919707e-06,
      "loss": 1.1542,
      "mean_token_accuracy": 0.6779807110627493,
      "num_tokens": 2928375456.0,
      "step": 17465
    },
    {
      "entropy": 1.6585955023765564,
      "epoch": 1.9187333498118702,
      "grad_norm": 0.6564247012138367,
      "learning_rate": 2.0780885635668067e-06,
      "loss": 1.3989,
      "mean_token_accuracy": 0.6611930181582769,
      "num_tokens": 2928528830.0,
      "step": 17466
    },
    {
      "entropy": 1.6445672412713368,
      "epoch": 1.9188432067232428,
      "grad_norm": 0.6655113101005554,
      "learning_rate": 2.0778782447161197e-06,
      "loss": 1.4603,
      "mean_token_accuracy": 0.6606913854678472,
      "num_tokens": 2928741569.0,
      "step": 17467
    },
    {
      "entropy": 1.7159535090128581,
      "epoch": 1.918953063634616,
      "grad_norm": 0.7392234206199646,
      "learning_rate": 2.077668208246567e-06,
      "loss": 1.3667,
      "mean_token_accuracy": 0.6548206061124802,
      "num_tokens": 2928905957.0,
      "step": 17468
    },
    {
      "entropy": 1.7086364229520161,
      "epoch": 1.9190629205459888,
      "grad_norm": 0.7043489813804626,
      "learning_rate": 2.0774584541647944e-06,
      "loss": 1.229,
      "mean_token_accuracy": 0.6727901895840963,
      "num_tokens": 2928997788.0,
      "step": 17469
    },
    {
      "entropy": 1.6513133843739827,
      "epoch": 1.9191727774573617,
      "grad_norm": 0.676826536655426,
      "learning_rate": 2.0772489824774392e-06,
      "loss": 1.437,
      "mean_token_accuracy": 0.6636106073856354,
      "num_tokens": 2929237876.0,
      "step": 17470
    },
    {
      "entropy": 1.714188575744629,
      "epoch": 1.9192826343687348,
      "grad_norm": 0.7203949689865112,
      "learning_rate": 2.0770397931911355e-06,
      "loss": 1.3942,
      "mean_token_accuracy": 0.662879596153895,
      "num_tokens": 2929369246.0,
      "step": 17471
    },
    {
      "entropy": 1.7575792769591014,
      "epoch": 1.9193924912801077,
      "grad_norm": 0.6798261404037476,
      "learning_rate": 2.0768308863125003e-06,
      "loss": 1.3794,
      "mean_token_accuracy": 0.6597266445557276,
      "num_tokens": 2929534671.0,
      "step": 17472
    },
    {
      "entropy": 1.6687467495600383,
      "epoch": 1.9195023481914806,
      "grad_norm": 0.619688868522644,
      "learning_rate": 2.0766222618481476e-06,
      "loss": 1.4953,
      "mean_token_accuracy": 0.6502044051885605,
      "num_tokens": 2929715709.0,
      "step": 17473
    },
    {
      "entropy": 1.714370201031367,
      "epoch": 1.9196122051028537,
      "grad_norm": 0.7117909789085388,
      "learning_rate": 2.076413919804679e-06,
      "loss": 1.4366,
      "mean_token_accuracy": 0.6580507506926855,
      "num_tokens": 2929870289.0,
      "step": 17474
    },
    {
      "entropy": 1.696961522102356,
      "epoch": 1.9197220620142263,
      "grad_norm": 0.7254346013069153,
      "learning_rate": 2.0762058601886882e-06,
      "loss": 1.3134,
      "mean_token_accuracy": 0.6692439218362173,
      "num_tokens": 2930053304.0,
      "step": 17475
    },
    {
      "entropy": 1.7915849188963573,
      "epoch": 1.9198319189255995,
      "grad_norm": 0.7773795127868652,
      "learning_rate": 2.0759980830067615e-06,
      "loss": 1.5147,
      "mean_token_accuracy": 0.6480228255192438,
      "num_tokens": 2930244054.0,
      "step": 17476
    },
    {
      "entropy": 1.7063364485899608,
      "epoch": 1.9199417758369723,
      "grad_norm": 0.6918734312057495,
      "learning_rate": 2.0757905882654744e-06,
      "loss": 1.355,
      "mean_token_accuracy": 0.6601203779379526,
      "num_tokens": 2930396665.0,
      "step": 17477
    },
    {
      "entropy": 1.7182010610898335,
      "epoch": 1.9200516327483452,
      "grad_norm": 0.7387691140174866,
      "learning_rate": 2.0755833759713935e-06,
      "loss": 1.4699,
      "mean_token_accuracy": 0.6380101641019186,
      "num_tokens": 2930590121.0,
      "step": 17478
    },
    {
      "entropy": 1.7257728974024455,
      "epoch": 1.9201614896597183,
      "grad_norm": 0.6251614689826965,
      "learning_rate": 2.075376446131076e-06,
      "loss": 1.3573,
      "mean_token_accuracy": 0.6537232995033264,
      "num_tokens": 2930743975.0,
      "step": 17479
    },
    {
      "entropy": 1.75346240401268,
      "epoch": 1.920271346571091,
      "grad_norm": 0.8177134990692139,
      "learning_rate": 2.0751697987510747e-06,
      "loss": 1.3432,
      "mean_token_accuracy": 0.6525897781054179,
      "num_tokens": 2930879478.0,
      "step": 17480
    },
    {
      "entropy": 1.6926167905330658,
      "epoch": 1.920381203482464,
      "grad_norm": 0.6901217699050903,
      "learning_rate": 2.0749634338379268e-06,
      "loss": 1.3196,
      "mean_token_accuracy": 0.6637932906548182,
      "num_tokens": 2931011772.0,
      "step": 17481
    },
    {
      "entropy": 1.725586086511612,
      "epoch": 1.920491060393837,
      "grad_norm": 0.7865347266197205,
      "learning_rate": 2.0747573513981635e-06,
      "loss": 1.4176,
      "mean_token_accuracy": 0.65843033293883,
      "num_tokens": 2931162551.0,
      "step": 17482
    },
    {
      "entropy": 1.685064325730006,
      "epoch": 1.9206009173052099,
      "grad_norm": 0.6249054074287415,
      "learning_rate": 2.0745515514383088e-06,
      "loss": 1.5084,
      "mean_token_accuracy": 0.6323985556761423,
      "num_tokens": 2931392882.0,
      "step": 17483
    },
    {
      "entropy": 1.6556347211201985,
      "epoch": 1.920710774216583,
      "grad_norm": 0.6788010001182556,
      "learning_rate": 2.0743460339648753e-06,
      "loss": 1.3561,
      "mean_token_accuracy": 0.6696719378232956,
      "num_tokens": 2931555075.0,
      "step": 17484
    },
    {
      "entropy": 1.6232224702835083,
      "epoch": 1.9208206311279559,
      "grad_norm": 0.651375412940979,
      "learning_rate": 2.074140798984369e-06,
      "loss": 1.3004,
      "mean_token_accuracy": 0.6754371821880341,
      "num_tokens": 2931698300.0,
      "step": 17485
    },
    {
      "entropy": 1.796891490618388,
      "epoch": 1.9209304880393288,
      "grad_norm": 0.6899563074111938,
      "learning_rate": 2.0739358465032837e-06,
      "loss": 1.4438,
      "mean_token_accuracy": 0.6399559328953425,
      "num_tokens": 2931835023.0,
      "step": 17486
    },
    {
      "entropy": 1.6822420060634613,
      "epoch": 1.9210403449507019,
      "grad_norm": 1.8057386875152588,
      "learning_rate": 2.0737311765281066e-06,
      "loss": 1.1202,
      "mean_token_accuracy": 0.6863191624482473,
      "num_tokens": 2931948990.0,
      "step": 17487
    },
    {
      "entropy": 1.6927362382411957,
      "epoch": 1.9211502018620745,
      "grad_norm": 0.7195414304733276,
      "learning_rate": 2.0735267890653154e-06,
      "loss": 1.3814,
      "mean_token_accuracy": 0.658441017071406,
      "num_tokens": 2932114658.0,
      "step": 17488
    },
    {
      "entropy": 1.57031911611557,
      "epoch": 1.9212600587734476,
      "grad_norm": 0.8102070093154907,
      "learning_rate": 2.0733226841213792e-06,
      "loss": 1.3443,
      "mean_token_accuracy": 0.6727907160917918,
      "num_tokens": 2932274915.0,
      "step": 17489
    },
    {
      "entropy": 1.6582297484079997,
      "epoch": 1.9213699156848205,
      "grad_norm": 0.7032040953636169,
      "learning_rate": 2.0731188617027572e-06,
      "loss": 1.399,
      "mean_token_accuracy": 0.66445920864741,
      "num_tokens": 2932448501.0,
      "step": 17490
    },
    {
      "entropy": 1.6773069600264232,
      "epoch": 1.9214797725961934,
      "grad_norm": 0.6263803839683533,
      "learning_rate": 2.072915321815901e-06,
      "loss": 1.5152,
      "mean_token_accuracy": 0.6362102230389913,
      "num_tokens": 2932722036.0,
      "step": 17491
    },
    {
      "entropy": 1.6817654371261597,
      "epoch": 1.9215896295075665,
      "grad_norm": 0.6429359912872314,
      "learning_rate": 2.072712064467252e-06,
      "loss": 1.5055,
      "mean_token_accuracy": 0.6553362160921097,
      "num_tokens": 2932910588.0,
      "step": 17492
    },
    {
      "entropy": 1.7349775632222493,
      "epoch": 1.9216994864189392,
      "grad_norm": 0.6507477164268494,
      "learning_rate": 2.0725090896632436e-06,
      "loss": 1.3682,
      "mean_token_accuracy": 0.6527557075023651,
      "num_tokens": 2933061736.0,
      "step": 17493
    },
    {
      "entropy": 1.6733063260714214,
      "epoch": 1.9218093433303123,
      "grad_norm": 0.7544586658477783,
      "learning_rate": 2.0723063974102996e-06,
      "loss": 1.4147,
      "mean_token_accuracy": 0.6568095733722051,
      "num_tokens": 2933234118.0,
      "step": 17494
    },
    {
      "entropy": 1.7533384064833324,
      "epoch": 1.9219192002416852,
      "grad_norm": 0.7645695209503174,
      "learning_rate": 2.072103987714835e-06,
      "loss": 1.3646,
      "mean_token_accuracy": 0.6804790943861008,
      "num_tokens": 2933344246.0,
      "step": 17495
    },
    {
      "entropy": 1.7520137230555217,
      "epoch": 1.922029057153058,
      "grad_norm": 0.8002681732177734,
      "learning_rate": 2.071901860583257e-06,
      "loss": 1.5351,
      "mean_token_accuracy": 0.6434406936168671,
      "num_tokens": 2933540169.0,
      "step": 17496
    },
    {
      "entropy": 1.7390229205290477,
      "epoch": 1.9221389140644312,
      "grad_norm": 0.7108039855957031,
      "learning_rate": 2.071700016021961e-06,
      "loss": 1.4703,
      "mean_token_accuracy": 0.6398574312527975,
      "num_tokens": 2933720785.0,
      "step": 17497
    },
    {
      "entropy": 1.6974186301231384,
      "epoch": 1.922248770975804,
      "grad_norm": 0.7148029804229736,
      "learning_rate": 2.0714984540373373e-06,
      "loss": 1.3062,
      "mean_token_accuracy": 0.6633280366659164,
      "num_tokens": 2933842641.0,
      "step": 17498
    },
    {
      "entropy": 1.6941316624482472,
      "epoch": 1.922358627887177,
      "grad_norm": 0.5549025535583496,
      "learning_rate": 2.071297174635763e-06,
      "loss": 1.4171,
      "mean_token_accuracy": 0.6544789026180903,
      "num_tokens": 2934021044.0,
      "step": 17499
    },
    {
      "entropy": 1.7065569758415222,
      "epoch": 1.92246848479855,
      "grad_norm": 0.6217483878135681,
      "learning_rate": 2.071096177823611e-06,
      "loss": 1.4027,
      "mean_token_accuracy": 0.6564749876658121,
      "num_tokens": 2934255736.0,
      "step": 17500
    },
    {
      "entropy": 1.6603321035703023,
      "epoch": 1.9225783417099227,
      "grad_norm": 0.734339714050293,
      "learning_rate": 2.070895463607242e-06,
      "loss": 1.3017,
      "mean_token_accuracy": 0.6692576507727305,
      "num_tokens": 2934400859.0,
      "step": 17501
    },
    {
      "entropy": 1.704683502515157,
      "epoch": 1.9226881986212958,
      "grad_norm": 0.8344931602478027,
      "learning_rate": 2.070695031993006e-06,
      "loss": 1.5092,
      "mean_token_accuracy": 0.6664090702931086,
      "num_tokens": 2934582181.0,
      "step": 17502
    },
    {
      "entropy": 1.7220360140005748,
      "epoch": 1.9227980555326687,
      "grad_norm": 0.7285640835762024,
      "learning_rate": 2.070494882987249e-06,
      "loss": 1.4179,
      "mean_token_accuracy": 0.6631739139556885,
      "num_tokens": 2934740982.0,
      "step": 17503
    },
    {
      "entropy": 1.6735987563927968,
      "epoch": 1.9229079124440416,
      "grad_norm": 0.6303743124008179,
      "learning_rate": 2.0702950165963066e-06,
      "loss": 1.3832,
      "mean_token_accuracy": 0.6726168394088745,
      "num_tokens": 2934932553.0,
      "step": 17504
    },
    {
      "entropy": 1.6929684579372406,
      "epoch": 1.9230177693554147,
      "grad_norm": 0.7466548681259155,
      "learning_rate": 2.0700954328265024e-06,
      "loss": 1.266,
      "mean_token_accuracy": 0.6844168156385422,
      "num_tokens": 2935095166.0,
      "step": 17505
    },
    {
      "entropy": 1.736617624759674,
      "epoch": 1.9231276262667873,
      "grad_norm": 0.7594635486602783,
      "learning_rate": 2.069896131684154e-06,
      "loss": 1.3552,
      "mean_token_accuracy": 0.6446435898542404,
      "num_tokens": 2935284625.0,
      "step": 17506
    },
    {
      "entropy": 1.6730614403883617,
      "epoch": 1.9232374831781605,
      "grad_norm": 0.6581339836120605,
      "learning_rate": 2.069697113175569e-06,
      "loss": 1.3928,
      "mean_token_accuracy": 0.663309171795845,
      "num_tokens": 2935444299.0,
      "step": 17507
    },
    {
      "entropy": 1.7582378685474396,
      "epoch": 1.9233473400895333,
      "grad_norm": 0.8001452088356018,
      "learning_rate": 2.069498377307045e-06,
      "loss": 1.4882,
      "mean_token_accuracy": 0.6397890994946162,
      "num_tokens": 2935579811.0,
      "step": 17508
    },
    {
      "entropy": 1.739981472492218,
      "epoch": 1.9234571970009062,
      "grad_norm": 0.721105694770813,
      "learning_rate": 2.0692999240848744e-06,
      "loss": 1.3548,
      "mean_token_accuracy": 0.6565016210079193,
      "num_tokens": 2935794799.0,
      "step": 17509
    },
    {
      "entropy": 1.7093225916226704,
      "epoch": 1.9235670539122793,
      "grad_norm": 0.6602572798728943,
      "learning_rate": 2.0691017535153375e-06,
      "loss": 1.4042,
      "mean_token_accuracy": 0.648267442981402,
      "num_tokens": 2935960630.0,
      "step": 17510
    },
    {
      "entropy": 1.6835937400658925,
      "epoch": 1.9236769108236522,
      "grad_norm": 0.6169915199279785,
      "learning_rate": 2.0689038656047046e-06,
      "loss": 1.4336,
      "mean_token_accuracy": 0.652891164024671,
      "num_tokens": 2936153886.0,
      "step": 17511
    },
    {
      "entropy": 1.691537966330846,
      "epoch": 1.923786767735025,
      "grad_norm": 0.6025387644767761,
      "learning_rate": 2.0687062603592407e-06,
      "loss": 1.3336,
      "mean_token_accuracy": 0.662538543343544,
      "num_tokens": 2936319156.0,
      "step": 17512
    },
    {
      "entropy": 1.68320166071256,
      "epoch": 1.9238966246463982,
      "grad_norm": 0.6816161274909973,
      "learning_rate": 2.068508937785198e-06,
      "loss": 1.3839,
      "mean_token_accuracy": 0.6539181371529897,
      "num_tokens": 2936475278.0,
      "step": 17513
    },
    {
      "entropy": 1.7054178714752197,
      "epoch": 1.9240064815577709,
      "grad_norm": 0.6919237375259399,
      "learning_rate": 2.0683118978888243e-06,
      "loss": 1.313,
      "mean_token_accuracy": 0.662996177872022,
      "num_tokens": 2936649177.0,
      "step": 17514
    },
    {
      "entropy": 1.6796445548534393,
      "epoch": 1.924116338469144,
      "grad_norm": 0.9301538467407227,
      "learning_rate": 2.0681151406763533e-06,
      "loss": 1.3744,
      "mean_token_accuracy": 0.6774726808071136,
      "num_tokens": 2936795606.0,
      "step": 17515
    },
    {
      "entropy": 1.746860404809316,
      "epoch": 1.9242261953805169,
      "grad_norm": 0.7453663349151611,
      "learning_rate": 2.067918666154014e-06,
      "loss": 1.337,
      "mean_token_accuracy": 0.6566027700901031,
      "num_tokens": 2936929561.0,
      "step": 17516
    },
    {
      "entropy": 1.6719463368256886,
      "epoch": 1.9243360522918898,
      "grad_norm": 0.695083498954773,
      "learning_rate": 2.067722474328024e-06,
      "loss": 1.3896,
      "mean_token_accuracy": 0.668315589427948,
      "num_tokens": 2937090524.0,
      "step": 17517
    },
    {
      "entropy": 1.7075058122475941,
      "epoch": 1.9244459092032629,
      "grad_norm": 0.6535371541976929,
      "learning_rate": 2.067526565204592e-06,
      "loss": 1.3489,
      "mean_token_accuracy": 0.6604385624329249,
      "num_tokens": 2937238065.0,
      "step": 17518
    },
    {
      "entropy": 1.8017792999744415,
      "epoch": 1.9245557661146355,
      "grad_norm": 0.723039448261261,
      "learning_rate": 2.0673309387899187e-06,
      "loss": 1.4437,
      "mean_token_accuracy": 0.6451696256796519,
      "num_tokens": 2937417366.0,
      "step": 17519
    },
    {
      "entropy": 1.67741854985555,
      "epoch": 1.9246656230260086,
      "grad_norm": 0.7515210509300232,
      "learning_rate": 2.067135595090197e-06,
      "loss": 1.3528,
      "mean_token_accuracy": 0.6660284996032715,
      "num_tokens": 2937572016.0,
      "step": 17520
    },
    {
      "entropy": 1.6874766151110332,
      "epoch": 1.9247754799373815,
      "grad_norm": 0.6784387230873108,
      "learning_rate": 2.0669405341116092e-06,
      "loss": 1.3964,
      "mean_token_accuracy": 0.6592771311601003,
      "num_tokens": 2937720468.0,
      "step": 17521
    },
    {
      "entropy": 1.6902848482131958,
      "epoch": 1.9248853368487544,
      "grad_norm": 0.5754929184913635,
      "learning_rate": 2.0667457558603264e-06,
      "loss": 1.4538,
      "mean_token_accuracy": 0.6473627537488937,
      "num_tokens": 2937920848.0,
      "step": 17522
    },
    {
      "entropy": 1.6405058304468791,
      "epoch": 1.9249951937601275,
      "grad_norm": 0.565492570400238,
      "learning_rate": 2.066551260342516e-06,
      "loss": 1.4986,
      "mean_token_accuracy": 0.6333438704411188,
      "num_tokens": 2938144092.0,
      "step": 17523
    },
    {
      "entropy": 1.7087134818236034,
      "epoch": 1.9251050506715004,
      "grad_norm": 0.624536395072937,
      "learning_rate": 2.0663570475643323e-06,
      "loss": 1.3191,
      "mean_token_accuracy": 0.6491807202498118,
      "num_tokens": 2938330146.0,
      "step": 17524
    },
    {
      "entropy": 1.6821011404196422,
      "epoch": 1.9252149075828733,
      "grad_norm": 0.6043448448181152,
      "learning_rate": 2.066163117531923e-06,
      "loss": 1.4004,
      "mean_token_accuracy": 0.6572328259547552,
      "num_tokens": 2938490177.0,
      "step": 17525
    },
    {
      "entropy": 1.697978417078654,
      "epoch": 1.9253247644942464,
      "grad_norm": 0.7227047085762024,
      "learning_rate": 2.065969470251425e-06,
      "loss": 1.3753,
      "mean_token_accuracy": 0.659215713540713,
      "num_tokens": 2938668497.0,
      "step": 17526
    },
    {
      "entropy": 1.6828550398349762,
      "epoch": 1.925434621405619,
      "grad_norm": 0.6420347690582275,
      "learning_rate": 2.065776105728967e-06,
      "loss": 1.5599,
      "mean_token_accuracy": 0.6333623677492142,
      "num_tokens": 2938924531.0,
      "step": 17527
    },
    {
      "entropy": 1.7999260822931926,
      "epoch": 1.9255444783169922,
      "grad_norm": 0.6861507892608643,
      "learning_rate": 2.0655830239706702e-06,
      "loss": 1.4962,
      "mean_token_accuracy": 0.6513161609570185,
      "num_tokens": 2939093357.0,
      "step": 17528
    },
    {
      "entropy": 1.7336215178171794,
      "epoch": 1.925654335228365,
      "grad_norm": 0.6525002717971802,
      "learning_rate": 2.0653902249826445e-06,
      "loss": 1.4093,
      "mean_token_accuracy": 0.6464171608289083,
      "num_tokens": 2939226820.0,
      "step": 17529
    },
    {
      "entropy": 1.7006452282269795,
      "epoch": 1.925764192139738,
      "grad_norm": 0.6565628051757812,
      "learning_rate": 2.065197708770992e-06,
      "loss": 1.5153,
      "mean_token_accuracy": 0.6620665639638901,
      "num_tokens": 2939408770.0,
      "step": 17530
    },
    {
      "entropy": 1.7232566873232524,
      "epoch": 1.925874049051111,
      "grad_norm": 0.6713189482688904,
      "learning_rate": 2.065005475341805e-06,
      "loss": 1.5064,
      "mean_token_accuracy": 0.6384440114100774,
      "num_tokens": 2939574469.0,
      "step": 17531
    },
    {
      "entropy": 1.6672783493995667,
      "epoch": 1.9259839059624837,
      "grad_norm": 0.63712477684021,
      "learning_rate": 2.06481352470117e-06,
      "loss": 1.4419,
      "mean_token_accuracy": 0.6587218890587488,
      "num_tokens": 2939782494.0,
      "step": 17532
    },
    {
      "entropy": 1.7159414490063984,
      "epoch": 1.9260937628738568,
      "grad_norm": 0.7770838141441345,
      "learning_rate": 2.064621856855161e-06,
      "loss": 1.4086,
      "mean_token_accuracy": 0.6606285522381464,
      "num_tokens": 2939922605.0,
      "step": 17533
    },
    {
      "entropy": 1.6527531743049622,
      "epoch": 1.9262036197852297,
      "grad_norm": 0.6143233776092529,
      "learning_rate": 2.064430471809843e-06,
      "loss": 1.2611,
      "mean_token_accuracy": 0.6733989963928858,
      "num_tokens": 2940107503.0,
      "step": 17534
    },
    {
      "entropy": 1.717937578757604,
      "epoch": 1.9263134766966026,
      "grad_norm": 0.7945669293403625,
      "learning_rate": 2.064239369571273e-06,
      "loss": 1.302,
      "mean_token_accuracy": 0.6729937593142191,
      "num_tokens": 2940246262.0,
      "step": 17535
    },
    {
      "entropy": 1.7034448285897572,
      "epoch": 1.9264233336079757,
      "grad_norm": 0.6210589408874512,
      "learning_rate": 2.064048550145502e-06,
      "loss": 1.3828,
      "mean_token_accuracy": 0.6582538237174352,
      "num_tokens": 2940382994.0,
      "step": 17536
    },
    {
      "entropy": 1.7313305934270222,
      "epoch": 1.9265331905193486,
      "grad_norm": 0.6636930108070374,
      "learning_rate": 2.0638580135385676e-06,
      "loss": 1.4957,
      "mean_token_accuracy": 0.641208882133166,
      "num_tokens": 2940615045.0,
      "step": 17537
    },
    {
      "entropy": 1.716033011674881,
      "epoch": 1.9266430474307215,
      "grad_norm": 0.6111452579498291,
      "learning_rate": 2.0636677597565e-06,
      "loss": 1.3465,
      "mean_token_accuracy": 0.6583975950876871,
      "num_tokens": 2940785009.0,
      "step": 17538
    },
    {
      "entropy": 1.7833648025989532,
      "epoch": 1.9267529043420946,
      "grad_norm": 0.6030783653259277,
      "learning_rate": 2.0634777888053214e-06,
      "loss": 1.4208,
      "mean_token_accuracy": 0.6543482542037964,
      "num_tokens": 2940945824.0,
      "step": 17539
    },
    {
      "entropy": 1.739495297273,
      "epoch": 1.9268627612534672,
      "grad_norm": 0.7100062966346741,
      "learning_rate": 2.063288100691043e-06,
      "loss": 1.4085,
      "mean_token_accuracy": 0.6565575549999872,
      "num_tokens": 2941091153.0,
      "step": 17540
    },
    {
      "entropy": 1.708542416493098,
      "epoch": 1.9269726181648403,
      "grad_norm": 0.6001754403114319,
      "learning_rate": 2.063098695419669e-06,
      "loss": 1.408,
      "mean_token_accuracy": 0.6558292259772619,
      "num_tokens": 2941308528.0,
      "step": 17541
    },
    {
      "entropy": 1.7160709202289581,
      "epoch": 1.9270824750762132,
      "grad_norm": 0.7005263566970825,
      "learning_rate": 2.0629095729971956e-06,
      "loss": 1.3614,
      "mean_token_accuracy": 0.6518668631712595,
      "num_tokens": 2941457810.0,
      "step": 17542
    },
    {
      "entropy": 1.7111981709798176,
      "epoch": 1.927192331987586,
      "grad_norm": 0.6936342120170593,
      "learning_rate": 2.0627207334296065e-06,
      "loss": 1.2869,
      "mean_token_accuracy": 0.6690366715192795,
      "num_tokens": 2941608696.0,
      "step": 17543
    },
    {
      "entropy": 1.7328161001205444,
      "epoch": 1.9273021888989592,
      "grad_norm": 0.6630276441574097,
      "learning_rate": 2.0625321767228782e-06,
      "loss": 1.3247,
      "mean_token_accuracy": 0.6659030715624491,
      "num_tokens": 2941744217.0,
      "step": 17544
    },
    {
      "entropy": 1.676056981086731,
      "epoch": 1.927412045810332,
      "grad_norm": 0.6332334280014038,
      "learning_rate": 2.062343902882981e-06,
      "loss": 1.3053,
      "mean_token_accuracy": 0.6878760854403178,
      "num_tokens": 2941870064.0,
      "step": 17545
    },
    {
      "entropy": 1.7297570407390594,
      "epoch": 1.927521902721705,
      "grad_norm": 0.8926072120666504,
      "learning_rate": 2.0621559119158707e-06,
      "loss": 1.3512,
      "mean_token_accuracy": 0.6621742248535156,
      "num_tokens": 2942009195.0,
      "step": 17546
    },
    {
      "entropy": 1.6616042951742809,
      "epoch": 1.9276317596330779,
      "grad_norm": 0.7044560313224792,
      "learning_rate": 2.061968203827498e-06,
      "loss": 1.1998,
      "mean_token_accuracy": 0.6850334058205286,
      "num_tokens": 2942128712.0,
      "step": 17547
    },
    {
      "entropy": 1.6350234846274059,
      "epoch": 1.9277416165444508,
      "grad_norm": 0.7069318294525146,
      "learning_rate": 2.0617807786238036e-06,
      "loss": 1.3889,
      "mean_token_accuracy": 0.662718782822291,
      "num_tokens": 2942299164.0,
      "step": 17548
    },
    {
      "entropy": 1.671046882867813,
      "epoch": 1.9278514734558239,
      "grad_norm": 0.5789463520050049,
      "learning_rate": 2.061593636310722e-06,
      "loss": 1.345,
      "mean_token_accuracy": 0.6666370083888372,
      "num_tokens": 2942465119.0,
      "step": 17549
    },
    {
      "entropy": 1.6353905896345775,
      "epoch": 1.9279613303671967,
      "grad_norm": 0.7177479267120361,
      "learning_rate": 2.061406776894172e-06,
      "loss": 1.3278,
      "mean_token_accuracy": 0.6639865090449651,
      "num_tokens": 2942607010.0,
      "step": 17550
    },
    {
      "entropy": 1.700663298368454,
      "epoch": 1.9280711872785696,
      "grad_norm": 0.6942954659461975,
      "learning_rate": 2.061220200380071e-06,
      "loss": 1.2797,
      "mean_token_accuracy": 0.6732474565505981,
      "num_tokens": 2942712681.0,
      "step": 17551
    },
    {
      "entropy": 1.7159783045450847,
      "epoch": 1.9281810441899427,
      "grad_norm": 0.6486497521400452,
      "learning_rate": 2.0610339067743213e-06,
      "loss": 1.4483,
      "mean_token_accuracy": 0.6449883927901586,
      "num_tokens": 2942933437.0,
      "step": 17552
    },
    {
      "entropy": 1.6851761241753895,
      "epoch": 1.9282909011013154,
      "grad_norm": 0.7932791113853455,
      "learning_rate": 2.060847896082822e-06,
      "loss": 1.2722,
      "mean_token_accuracy": 0.6713943233092626,
      "num_tokens": 2943051659.0,
      "step": 17553
    },
    {
      "entropy": 1.7198482652505238,
      "epoch": 1.9284007580126885,
      "grad_norm": 0.5689072012901306,
      "learning_rate": 2.0606621683114583e-06,
      "loss": 1.4662,
      "mean_token_accuracy": 0.639824832479159,
      "num_tokens": 2943252511.0,
      "step": 17554
    },
    {
      "entropy": 1.6842391788959503,
      "epoch": 1.9285106149240614,
      "grad_norm": 0.8211684823036194,
      "learning_rate": 2.0604767234661086e-06,
      "loss": 1.428,
      "mean_token_accuracy": 0.642557273308436,
      "num_tokens": 2943430385.0,
      "step": 17555
    },
    {
      "entropy": 1.7061157524585724,
      "epoch": 1.9286204718354343,
      "grad_norm": 0.7843329310417175,
      "learning_rate": 2.0602915615526418e-06,
      "loss": 1.4143,
      "mean_token_accuracy": 0.6773807754119238,
      "num_tokens": 2943557103.0,
      "step": 17556
    },
    {
      "entropy": 1.6724831461906433,
      "epoch": 1.9287303287468074,
      "grad_norm": 0.6326301693916321,
      "learning_rate": 2.06010668257692e-06,
      "loss": 1.2568,
      "mean_token_accuracy": 0.6788825293382009,
      "num_tokens": 2943675826.0,
      "step": 17557
    },
    {
      "entropy": 1.7057609955469768,
      "epoch": 1.9288401856581803,
      "grad_norm": 0.6408417820930481,
      "learning_rate": 2.0599220865447924e-06,
      "loss": 1.4451,
      "mean_token_accuracy": 0.6486535221338272,
      "num_tokens": 2943822102.0,
      "step": 17558
    },
    {
      "entropy": 1.7137981454531352,
      "epoch": 1.9289500425695532,
      "grad_norm": 0.6233062148094177,
      "learning_rate": 2.059737773462102e-06,
      "loss": 1.3929,
      "mean_token_accuracy": 0.6523498793443044,
      "num_tokens": 2943978771.0,
      "step": 17559
    },
    {
      "entropy": 1.7529114683469136,
      "epoch": 1.929059899480926,
      "grad_norm": 0.6746161580085754,
      "learning_rate": 2.059553743334683e-06,
      "loss": 1.4265,
      "mean_token_accuracy": 0.6609595467646917,
      "num_tokens": 2944172280.0,
      "step": 17560
    },
    {
      "entropy": 1.7099245886007945,
      "epoch": 1.929169756392299,
      "grad_norm": 0.6567638516426086,
      "learning_rate": 2.0593699961683594e-06,
      "loss": 1.4972,
      "mean_token_accuracy": 0.6532185673713684,
      "num_tokens": 2944307513.0,
      "step": 17561
    },
    {
      "entropy": 1.715930829445521,
      "epoch": 1.929279613303672,
      "grad_norm": 0.6228388547897339,
      "learning_rate": 2.059186531968946e-06,
      "loss": 1.3633,
      "mean_token_accuracy": 0.6599201112985611,
      "num_tokens": 2944488590.0,
      "step": 17562
    },
    {
      "entropy": 1.7236754894256592,
      "epoch": 1.929389470215045,
      "grad_norm": 0.6078210473060608,
      "learning_rate": 2.059003350742251e-06,
      "loss": 1.3334,
      "mean_token_accuracy": 0.6531506727139155,
      "num_tokens": 2944658053.0,
      "step": 17563
    },
    {
      "entropy": 1.7208663125832875,
      "epoch": 1.9294993271264178,
      "grad_norm": 0.6693648099899292,
      "learning_rate": 2.0588204524940702e-06,
      "loss": 1.4905,
      "mean_token_accuracy": 0.6456576486428579,
      "num_tokens": 2944876779.0,
      "step": 17564
    },
    {
      "entropy": 1.6756204068660736,
      "epoch": 1.929609184037791,
      "grad_norm": 0.6165689826011658,
      "learning_rate": 2.0586378372301948e-06,
      "loss": 1.4901,
      "mean_token_accuracy": 0.6373255352179209,
      "num_tokens": 2945070191.0,
      "step": 17565
    },
    {
      "entropy": 1.767015238602956,
      "epoch": 1.9297190409491636,
      "grad_norm": 0.8223422765731812,
      "learning_rate": 2.0584555049564012e-06,
      "loss": 1.3183,
      "mean_token_accuracy": 0.6613618781169256,
      "num_tokens": 2945195660.0,
      "step": 17566
    },
    {
      "entropy": 1.6678463419278462,
      "epoch": 1.9298288978605367,
      "grad_norm": 0.7065117955207825,
      "learning_rate": 2.0582734556784618e-06,
      "loss": 1.4749,
      "mean_token_accuracy": 0.6527349551518759,
      "num_tokens": 2945350628.0,
      "step": 17567
    },
    {
      "entropy": 1.59239661693573,
      "epoch": 1.9299387547719096,
      "grad_norm": 0.7592599987983704,
      "learning_rate": 2.0580916894021383e-06,
      "loss": 1.2039,
      "mean_token_accuracy": 0.6815276394287745,
      "num_tokens": 2945494933.0,
      "step": 17568
    },
    {
      "entropy": 1.770630935827891,
      "epoch": 1.9300486116832825,
      "grad_norm": 0.6339170932769775,
      "learning_rate": 2.0579102061331847e-06,
      "loss": 1.4645,
      "mean_token_accuracy": 0.6460703512032827,
      "num_tokens": 2945689644.0,
      "step": 17569
    },
    {
      "entropy": 1.6582429707050323,
      "epoch": 1.9301584685946556,
      "grad_norm": 0.6860533952713013,
      "learning_rate": 2.0577290058773418e-06,
      "loss": 1.3485,
      "mean_token_accuracy": 0.6733825008074442,
      "num_tokens": 2945818254.0,
      "step": 17570
    },
    {
      "entropy": 1.6789084871610005,
      "epoch": 1.9302683255060284,
      "grad_norm": 0.6942259073257446,
      "learning_rate": 2.057548088640347e-06,
      "loss": 1.2834,
      "mean_token_accuracy": 0.6708969473838806,
      "num_tokens": 2945953707.0,
      "step": 17571
    },
    {
      "entropy": 1.6964404781659443,
      "epoch": 1.9303781824174013,
      "grad_norm": 0.6454761624336243,
      "learning_rate": 2.0573674544279264e-06,
      "loss": 1.3878,
      "mean_token_accuracy": 0.6570356140534083,
      "num_tokens": 2946100936.0,
      "step": 17572
    },
    {
      "entropy": 1.6695491174856822,
      "epoch": 1.9304880393287742,
      "grad_norm": 0.6851876378059387,
      "learning_rate": 2.0571871032457957e-06,
      "loss": 1.6392,
      "mean_token_accuracy": 0.6317041863997778,
      "num_tokens": 2946309464.0,
      "step": 17573
    },
    {
      "entropy": 1.7130326131979625,
      "epoch": 1.930597896240147,
      "grad_norm": 0.8214697241783142,
      "learning_rate": 2.057007035099663e-06,
      "loss": 1.3649,
      "mean_token_accuracy": 0.673834909995397,
      "num_tokens": 2946427385.0,
      "step": 17574
    },
    {
      "entropy": 1.729885309934616,
      "epoch": 1.9307077531515202,
      "grad_norm": 0.6711888909339905,
      "learning_rate": 2.056827249995229e-06,
      "loss": 1.3746,
      "mean_token_accuracy": 0.661648154258728,
      "num_tokens": 2946587424.0,
      "step": 17575
    },
    {
      "entropy": 1.6910810470581055,
      "epoch": 1.930817610062893,
      "grad_norm": 0.5932799577713013,
      "learning_rate": 2.0566477479381818e-06,
      "loss": 1.3763,
      "mean_token_accuracy": 0.6474411884943644,
      "num_tokens": 2946719017.0,
      "step": 17576
    },
    {
      "entropy": 1.62163445353508,
      "epoch": 1.930927466974266,
      "grad_norm": 0.5636860728263855,
      "learning_rate": 2.0564685289342035e-06,
      "loss": 1.4351,
      "mean_token_accuracy": 0.6378550479809443,
      "num_tokens": 2946923068.0,
      "step": 17577
    },
    {
      "entropy": 1.7062998513380687,
      "epoch": 1.931037323885639,
      "grad_norm": 0.8094304800033569,
      "learning_rate": 2.0562895929889665e-06,
      "loss": 1.32,
      "mean_token_accuracy": 0.6633241772651672,
      "num_tokens": 2947031556.0,
      "step": 17578
    },
    {
      "entropy": 1.6850249568621318,
      "epoch": 1.9311471807970118,
      "grad_norm": 0.7753397226333618,
      "learning_rate": 2.0561109401081326e-06,
      "loss": 1.4007,
      "mean_token_accuracy": 0.6599368900060654,
      "num_tokens": 2947165163.0,
      "step": 17579
    },
    {
      "entropy": 1.7386715511480968,
      "epoch": 1.9312570377083849,
      "grad_norm": 0.610440731048584,
      "learning_rate": 2.055932570297359e-06,
      "loss": 1.3973,
      "mean_token_accuracy": 0.6602314561605453,
      "num_tokens": 2947361719.0,
      "step": 17580
    },
    {
      "entropy": 1.7325500547885895,
      "epoch": 1.9313668946197577,
      "grad_norm": 0.8086016178131104,
      "learning_rate": 2.0557544835622885e-06,
      "loss": 1.6061,
      "mean_token_accuracy": 0.6291801979144415,
      "num_tokens": 2947510879.0,
      "step": 17581
    },
    {
      "entropy": 1.701207419236501,
      "epoch": 1.9314767515311306,
      "grad_norm": 0.7074292898178101,
      "learning_rate": 2.055576679908558e-06,
      "loss": 1.3229,
      "mean_token_accuracy": 0.6661451806624731,
      "num_tokens": 2947660460.0,
      "step": 17582
    },
    {
      "entropy": 1.710488885641098,
      "epoch": 1.9315866084425037,
      "grad_norm": 0.6005741953849792,
      "learning_rate": 2.0553991593417954e-06,
      "loss": 1.4012,
      "mean_token_accuracy": 0.6515051871538162,
      "num_tokens": 2947880490.0,
      "step": 17583
    },
    {
      "entropy": 1.7140753865242004,
      "epoch": 1.9316964653538766,
      "grad_norm": 0.75965416431427,
      "learning_rate": 2.0552219218676184e-06,
      "loss": 1.416,
      "mean_token_accuracy": 0.655417412519455,
      "num_tokens": 2948057336.0,
      "step": 17584
    },
    {
      "entropy": 1.6573958098888397,
      "epoch": 1.9318063222652495,
      "grad_norm": 0.5710785388946533,
      "learning_rate": 2.0550449674916374e-06,
      "loss": 1.3928,
      "mean_token_accuracy": 0.6540137430032095,
      "num_tokens": 2948288883.0,
      "step": 17585
    },
    {
      "entropy": 1.7147573431332905,
      "epoch": 1.9319161791766224,
      "grad_norm": 0.709555447101593,
      "learning_rate": 2.0548682962194525e-06,
      "loss": 1.4287,
      "mean_token_accuracy": 0.6520878771940867,
      "num_tokens": 2948492498.0,
      "step": 17586
    },
    {
      "entropy": 1.7575667103131611,
      "epoch": 1.9320260360879953,
      "grad_norm": 0.5812540650367737,
      "learning_rate": 2.0546919080566545e-06,
      "loss": 1.4646,
      "mean_token_accuracy": 0.6403382619222006,
      "num_tokens": 2948692105.0,
      "step": 17587
    },
    {
      "entropy": 1.7437999844551086,
      "epoch": 1.9321358929993684,
      "grad_norm": 0.7731236219406128,
      "learning_rate": 2.054515803008827e-06,
      "loss": 1.3402,
      "mean_token_accuracy": 0.66108538210392,
      "num_tokens": 2948809266.0,
      "step": 17588
    },
    {
      "entropy": 1.6447148124376934,
      "epoch": 1.9322457499107413,
      "grad_norm": 0.6328097581863403,
      "learning_rate": 2.0543399810815448e-06,
      "loss": 1.3588,
      "mean_token_accuracy": 0.6679736226797104,
      "num_tokens": 2948943265.0,
      "step": 17589
    },
    {
      "entropy": 1.6997552712758381,
      "epoch": 1.9323556068221142,
      "grad_norm": 0.7128564119338989,
      "learning_rate": 2.05416444228037e-06,
      "loss": 1.2944,
      "mean_token_accuracy": 0.6734185715516409,
      "num_tokens": 2949056782.0,
      "step": 17590
    },
    {
      "entropy": 1.7652290364106495,
      "epoch": 1.9324654637334873,
      "grad_norm": 0.6556487679481506,
      "learning_rate": 2.053989186610859e-06,
      "loss": 1.4006,
      "mean_token_accuracy": 0.6583968649307886,
      "num_tokens": 2949200473.0,
      "step": 17591
    },
    {
      "entropy": 1.7773662507534027,
      "epoch": 1.93257532064486,
      "grad_norm": 0.7734547853469849,
      "learning_rate": 2.0538142140785604e-06,
      "loss": 1.567,
      "mean_token_accuracy": 0.6377990494171778,
      "num_tokens": 2949430212.0,
      "step": 17592
    },
    {
      "entropy": 1.6884727974732716,
      "epoch": 1.932685177556233,
      "grad_norm": 0.6802954077720642,
      "learning_rate": 2.0536395246890104e-06,
      "loss": 1.2043,
      "mean_token_accuracy": 0.6867648412783941,
      "num_tokens": 2949532312.0,
      "step": 17593
    },
    {
      "entropy": 1.707016219695409,
      "epoch": 1.932795034467606,
      "grad_norm": 0.9521844983100891,
      "learning_rate": 2.0534651184477376e-06,
      "loss": 1.3584,
      "mean_token_accuracy": 0.6677818149328232,
      "num_tokens": 2949680088.0,
      "step": 17594
    },
    {
      "entropy": 1.7301967144012451,
      "epoch": 1.9329048913789788,
      "grad_norm": 0.7132523059844971,
      "learning_rate": 2.053290995360262e-06,
      "loss": 1.3355,
      "mean_token_accuracy": 0.6592816412448883,
      "num_tokens": 2949816290.0,
      "step": 17595
    },
    {
      "entropy": 1.6510724425315857,
      "epoch": 1.933014748290352,
      "grad_norm": 0.7266356348991394,
      "learning_rate": 2.053117155432095e-06,
      "loss": 1.2963,
      "mean_token_accuracy": 0.6727642168601354,
      "num_tokens": 2949962938.0,
      "step": 17596
    },
    {
      "entropy": 1.6770485142866771,
      "epoch": 1.9331246052017248,
      "grad_norm": 0.6671058535575867,
      "learning_rate": 2.052943598668739e-06,
      "loss": 1.2558,
      "mean_token_accuracy": 0.6702116926511129,
      "num_tokens": 2950094455.0,
      "step": 17597
    },
    {
      "entropy": 1.6965230802694957,
      "epoch": 1.9332344621130977,
      "grad_norm": 0.7873666286468506,
      "learning_rate": 2.0527703250756874e-06,
      "loss": 1.3483,
      "mean_token_accuracy": 0.6622929026683172,
      "num_tokens": 2950236947.0,
      "step": 17598
    },
    {
      "entropy": 1.7883230050404866,
      "epoch": 1.9333443190244708,
      "grad_norm": 0.6915072798728943,
      "learning_rate": 2.0525973346584215e-06,
      "loss": 1.5227,
      "mean_token_accuracy": 0.6453968932231268,
      "num_tokens": 2950483692.0,
      "step": 17599
    },
    {
      "entropy": 1.6910318632920582,
      "epoch": 1.9334541759358435,
      "grad_norm": 0.6855702996253967,
      "learning_rate": 2.0524246274224193e-06,
      "loss": 1.4729,
      "mean_token_accuracy": 0.6422146856784821,
      "num_tokens": 2950643969.0,
      "step": 17600
    },
    {
      "entropy": 1.7280892829100292,
      "epoch": 1.9335640328472166,
      "grad_norm": 0.6929906606674194,
      "learning_rate": 2.0522522033731457e-06,
      "loss": 1.4143,
      "mean_token_accuracy": 0.6582867602507273,
      "num_tokens": 2950797242.0,
      "step": 17601
    },
    {
      "entropy": 1.6679367621739705,
      "epoch": 1.9336738897585894,
      "grad_norm": 0.5708891153335571,
      "learning_rate": 2.052080062516057e-06,
      "loss": 1.4377,
      "mean_token_accuracy": 0.6401932090520859,
      "num_tokens": 2951025260.0,
      "step": 17602
    },
    {
      "entropy": 1.7221278150876362,
      "epoch": 1.9337837466699623,
      "grad_norm": 0.7946709990501404,
      "learning_rate": 2.0519082048566026e-06,
      "loss": 1.2156,
      "mean_token_accuracy": 0.6832669277985891,
      "num_tokens": 2951122533.0,
      "step": 17603
    },
    {
      "entropy": 1.721358944972356,
      "epoch": 1.9338936035813354,
      "grad_norm": 0.7960524559020996,
      "learning_rate": 2.0517366304002225e-06,
      "loss": 1.3881,
      "mean_token_accuracy": 0.6513563940922419,
      "num_tokens": 2951259461.0,
      "step": 17604
    },
    {
      "entropy": 1.623354434967041,
      "epoch": 1.934003460492708,
      "grad_norm": 0.6415337920188904,
      "learning_rate": 2.0515653391523454e-06,
      "loss": 1.2289,
      "mean_token_accuracy": 0.678653672337532,
      "num_tokens": 2951398780.0,
      "step": 17605
    },
    {
      "entropy": 1.6779876053333282,
      "epoch": 1.9341133174040812,
      "grad_norm": 0.7085760235786438,
      "learning_rate": 2.051394331118392e-06,
      "loss": 1.3341,
      "mean_token_accuracy": 0.6740488906701406,
      "num_tokens": 2951548624.0,
      "step": 17606
    },
    {
      "entropy": 1.7369104822476704,
      "epoch": 1.934223174315454,
      "grad_norm": 0.6106285452842712,
      "learning_rate": 2.0512236063037767e-06,
      "loss": 1.4817,
      "mean_token_accuracy": 0.6403156071901321,
      "num_tokens": 2951760517.0,
      "step": 17607
    },
    {
      "entropy": 1.744108925263087,
      "epoch": 1.934333031226827,
      "grad_norm": 0.6894066333770752,
      "learning_rate": 2.051053164713902e-06,
      "loss": 1.4239,
      "mean_token_accuracy": 0.6464538921912512,
      "num_tokens": 2951967261.0,
      "step": 17608
    },
    {
      "entropy": 1.7185207108656566,
      "epoch": 1.9344428881382,
      "grad_norm": 0.7298069596290588,
      "learning_rate": 2.0508830063541615e-06,
      "loss": 1.398,
      "mean_token_accuracy": 0.6780803749958674,
      "num_tokens": 2952102298.0,
      "step": 17609
    },
    {
      "entropy": 1.7548142075538635,
      "epoch": 1.934552745049573,
      "grad_norm": 0.7205964922904968,
      "learning_rate": 2.0507131312299423e-06,
      "loss": 1.4849,
      "mean_token_accuracy": 0.6329950988292694,
      "num_tokens": 2952322155.0,
      "step": 17610
    },
    {
      "entropy": 1.6941269437472026,
      "epoch": 1.9346626019609459,
      "grad_norm": 0.6685055494308472,
      "learning_rate": 2.0505435393466183e-06,
      "loss": 1.3536,
      "mean_token_accuracy": 0.6650911470254263,
      "num_tokens": 2952502975.0,
      "step": 17611
    },
    {
      "entropy": 1.7216095228989918,
      "epoch": 1.934772458872319,
      "grad_norm": 0.687439501285553,
      "learning_rate": 2.0503742307095593e-06,
      "loss": 1.3819,
      "mean_token_accuracy": 0.6688835869232813,
      "num_tokens": 2952660501.0,
      "step": 17612
    },
    {
      "entropy": 1.7403018077214558,
      "epoch": 1.9348823157836916,
      "grad_norm": 0.7653110027313232,
      "learning_rate": 2.050205205324123e-06,
      "loss": 1.3546,
      "mean_token_accuracy": 0.6541765530904134,
      "num_tokens": 2952802470.0,
      "step": 17613
    },
    {
      "entropy": 1.7342408001422882,
      "epoch": 1.9349921726950647,
      "grad_norm": 0.8154670596122742,
      "learning_rate": 2.050036463195659e-06,
      "loss": 1.4267,
      "mean_token_accuracy": 0.6695893357197443,
      "num_tokens": 2952917329.0,
      "step": 17614
    },
    {
      "entropy": 1.6820714871088664,
      "epoch": 1.9351020296064376,
      "grad_norm": 0.7906708717346191,
      "learning_rate": 2.049868004329508e-06,
      "loss": 1.3398,
      "mean_token_accuracy": 0.6582440783580145,
      "num_tokens": 2953082322.0,
      "step": 17615
    },
    {
      "entropy": 1.7514929175376892,
      "epoch": 1.9352118865178105,
      "grad_norm": 0.7457329630851746,
      "learning_rate": 2.049699828731002e-06,
      "loss": 1.5964,
      "mean_token_accuracy": 0.6357724542419115,
      "num_tokens": 2953248248.0,
      "step": 17616
    },
    {
      "entropy": 1.665393054485321,
      "epoch": 1.9353217434291836,
      "grad_norm": 0.6951583027839661,
      "learning_rate": 2.049531936405464e-06,
      "loss": 1.5821,
      "mean_token_accuracy": 0.6351954390605291,
      "num_tokens": 2953467876.0,
      "step": 17617
    },
    {
      "entropy": 1.7500004569689434,
      "epoch": 1.9354316003405563,
      "grad_norm": 0.6640505790710449,
      "learning_rate": 2.0493643273582057e-06,
      "loss": 1.4366,
      "mean_token_accuracy": 0.6397050768136978,
      "num_tokens": 2953701201.0,
      "step": 17618
    },
    {
      "entropy": 1.7141669193903606,
      "epoch": 1.9355414572519294,
      "grad_norm": 0.654679536819458,
      "learning_rate": 2.049197001594534e-06,
      "loss": 1.5257,
      "mean_token_accuracy": 0.6353826026121775,
      "num_tokens": 2953900373.0,
      "step": 17619
    },
    {
      "entropy": 1.7072954674561818,
      "epoch": 1.9356513141633023,
      "grad_norm": 0.6300878524780273,
      "learning_rate": 2.0490299591197426e-06,
      "loss": 1.4607,
      "mean_token_accuracy": 0.6487697213888168,
      "num_tokens": 2954088615.0,
      "step": 17620
    },
    {
      "entropy": 1.7204040785630543,
      "epoch": 1.9357611710746752,
      "grad_norm": 0.6421894431114197,
      "learning_rate": 2.048863199939121e-06,
      "loss": 1.3859,
      "mean_token_accuracy": 0.6516237407922745,
      "num_tokens": 2954246097.0,
      "step": 17621
    },
    {
      "entropy": 1.7502519289652507,
      "epoch": 1.9358710279860483,
      "grad_norm": 0.6403509378433228,
      "learning_rate": 2.048696724057945e-06,
      "loss": 1.4453,
      "mean_token_accuracy": 0.6476548612117767,
      "num_tokens": 2954416854.0,
      "step": 17622
    },
    {
      "entropy": 1.7479767203330994,
      "epoch": 1.9359808848974212,
      "grad_norm": 0.6511620283126831,
      "learning_rate": 2.0485305314814843e-06,
      "loss": 1.5819,
      "mean_token_accuracy": 0.6273590077956518,
      "num_tokens": 2954650460.0,
      "step": 17623
    },
    {
      "entropy": 1.746782938639323,
      "epoch": 1.936090741808794,
      "grad_norm": 0.7770575284957886,
      "learning_rate": 2.0483646222149993e-06,
      "loss": 1.3677,
      "mean_token_accuracy": 0.6582979708909988,
      "num_tokens": 2954788939.0,
      "step": 17624
    },
    {
      "entropy": 1.7274068494637806,
      "epoch": 1.9362005987201671,
      "grad_norm": 0.6287463307380676,
      "learning_rate": 2.0481989962637393e-06,
      "loss": 1.3752,
      "mean_token_accuracy": 0.6612710257371267,
      "num_tokens": 2954960018.0,
      "step": 17625
    },
    {
      "entropy": 1.732554425795873,
      "epoch": 1.9363104556315398,
      "grad_norm": 0.6919560432434082,
      "learning_rate": 2.048033653632947e-06,
      "loss": 1.4181,
      "mean_token_accuracy": 0.651200125614802,
      "num_tokens": 2955097173.0,
      "step": 17626
    },
    {
      "entropy": 1.663443386554718,
      "epoch": 1.936420312542913,
      "grad_norm": 0.6868497729301453,
      "learning_rate": 2.0478685943278565e-06,
      "loss": 1.4677,
      "mean_token_accuracy": 0.6552320023377737,
      "num_tokens": 2955304001.0,
      "step": 17627
    },
    {
      "entropy": 1.7057395776112874,
      "epoch": 1.9365301694542858,
      "grad_norm": 0.6456490159034729,
      "learning_rate": 2.0477038183536913e-06,
      "loss": 1.369,
      "mean_token_accuracy": 0.6559461901585261,
      "num_tokens": 2955487842.0,
      "step": 17628
    },
    {
      "entropy": 1.7742679218451183,
      "epoch": 1.9366400263656587,
      "grad_norm": 0.6736863851547241,
      "learning_rate": 2.0475393257156655e-06,
      "loss": 1.4416,
      "mean_token_accuracy": 0.6455845187107722,
      "num_tokens": 2955688361.0,
      "step": 17629
    },
    {
      "entropy": 1.7152503629525502,
      "epoch": 1.9367498832770318,
      "grad_norm": 0.7249388098716736,
      "learning_rate": 2.0473751164189866e-06,
      "loss": 1.2432,
      "mean_token_accuracy": 0.6813737452030182,
      "num_tokens": 2955803129.0,
      "step": 17630
    },
    {
      "entropy": 1.6919386585553486,
      "epoch": 1.9368597401884045,
      "grad_norm": 0.6506887674331665,
      "learning_rate": 2.047211190468851e-06,
      "loss": 1.3881,
      "mean_token_accuracy": 0.6640054186185201,
      "num_tokens": 2955999765.0,
      "step": 17631
    },
    {
      "entropy": 1.7553547322750092,
      "epoch": 1.9369695970997776,
      "grad_norm": 0.7061113715171814,
      "learning_rate": 2.0470475478704465e-06,
      "loss": 1.3973,
      "mean_token_accuracy": 0.6518440246582031,
      "num_tokens": 2956153926.0,
      "step": 17632
    },
    {
      "entropy": 1.690263569355011,
      "epoch": 1.9370794540111504,
      "grad_norm": 0.6797465682029724,
      "learning_rate": 2.0468841886289534e-06,
      "loss": 1.3509,
      "mean_token_accuracy": 0.6615539789199829,
      "num_tokens": 2956278409.0,
      "step": 17633
    },
    {
      "entropy": 1.7189227143923442,
      "epoch": 1.9371893109225233,
      "grad_norm": 0.7588323950767517,
      "learning_rate": 2.0467211127495413e-06,
      "loss": 1.3427,
      "mean_token_accuracy": 0.680439700682958,
      "num_tokens": 2956426012.0,
      "step": 17634
    },
    {
      "entropy": 1.6739676396052043,
      "epoch": 1.9372991678338964,
      "grad_norm": 0.6452463269233704,
      "learning_rate": 2.0465583202373717e-06,
      "loss": 1.2856,
      "mean_token_accuracy": 0.6756146202484766,
      "num_tokens": 2956554851.0,
      "step": 17635
    },
    {
      "entropy": 1.6939974129199982,
      "epoch": 1.9374090247452693,
      "grad_norm": 0.7644104361534119,
      "learning_rate": 2.0463958110975957e-06,
      "loss": 1.2794,
      "mean_token_accuracy": 0.6747647374868393,
      "num_tokens": 2956682401.0,
      "step": 17636
    },
    {
      "entropy": 1.7220764855543773,
      "epoch": 1.9375188816566422,
      "grad_norm": 0.6523967385292053,
      "learning_rate": 2.046233585335359e-06,
      "loss": 1.4107,
      "mean_token_accuracy": 0.6561575432618459,
      "num_tokens": 2956840065.0,
      "step": 17637
    },
    {
      "entropy": 1.72719939549764,
      "epoch": 1.9376287385680153,
      "grad_norm": 0.5423910021781921,
      "learning_rate": 2.0460716429557937e-06,
      "loss": 1.5145,
      "mean_token_accuracy": 0.6321031053860983,
      "num_tokens": 2957092643.0,
      "step": 17638
    },
    {
      "entropy": 1.6563969254493713,
      "epoch": 1.937738595479388,
      "grad_norm": 0.634699821472168,
      "learning_rate": 2.045909983964027e-06,
      "loss": 1.262,
      "mean_token_accuracy": 0.6715675294399261,
      "num_tokens": 2957223272.0,
      "step": 17639
    },
    {
      "entropy": 1.7614007492860158,
      "epoch": 1.937848452390761,
      "grad_norm": 0.8633323311805725,
      "learning_rate": 2.045748608365174e-06,
      "loss": 1.2673,
      "mean_token_accuracy": 0.6737097253402075,
      "num_tokens": 2957385470.0,
      "step": 17640
    },
    {
      "entropy": 1.6651588181654613,
      "epoch": 1.937958309302134,
      "grad_norm": 0.716803252696991,
      "learning_rate": 2.045587516164342e-06,
      "loss": 1.3767,
      "mean_token_accuracy": 0.6795123418172201,
      "num_tokens": 2957501108.0,
      "step": 17641
    },
    {
      "entropy": 1.7195215821266174,
      "epoch": 1.9380681662135069,
      "grad_norm": 0.639150857925415,
      "learning_rate": 2.0454267073666314e-06,
      "loss": 1.4592,
      "mean_token_accuracy": 0.6458094666401545,
      "num_tokens": 2957718885.0,
      "step": 17642
    },
    {
      "entropy": 1.6857140560944874,
      "epoch": 1.93817802312488,
      "grad_norm": 0.6419286727905273,
      "learning_rate": 2.045266181977129e-06,
      "loss": 1.3571,
      "mean_token_accuracy": 0.6528473595778147,
      "num_tokens": 2957910681.0,
      "step": 17643
    },
    {
      "entropy": 1.7539623578389485,
      "epoch": 1.9382878800362526,
      "grad_norm": 0.8385192155838013,
      "learning_rate": 2.0451059400009183e-06,
      "loss": 1.4932,
      "mean_token_accuracy": 0.6529499888420105,
      "num_tokens": 2958064304.0,
      "step": 17644
    },
    {
      "entropy": 1.7804806133111317,
      "epoch": 1.9383977369476257,
      "grad_norm": 0.731391429901123,
      "learning_rate": 2.044945981443069e-06,
      "loss": 1.5301,
      "mean_token_accuracy": 0.6367037196954092,
      "num_tokens": 2958232801.0,
      "step": 17645
    },
    {
      "entropy": 1.6474103232224782,
      "epoch": 1.9385075938589986,
      "grad_norm": 0.7180584073066711,
      "learning_rate": 2.0447863063086444e-06,
      "loss": 1.3229,
      "mean_token_accuracy": 0.6761461794376373,
      "num_tokens": 2958390527.0,
      "step": 17646
    },
    {
      "entropy": 1.6555694937705994,
      "epoch": 1.9386174507703715,
      "grad_norm": 0.7365303635597229,
      "learning_rate": 2.0446269146026973e-06,
      "loss": 1.4973,
      "mean_token_accuracy": 0.6524901290734609,
      "num_tokens": 2958559788.0,
      "step": 17647
    },
    {
      "entropy": 1.6348630885283153,
      "epoch": 1.9387273076817446,
      "grad_norm": 0.7571955323219299,
      "learning_rate": 2.044467806330273e-06,
      "loss": 1.3723,
      "mean_token_accuracy": 0.6655997534592947,
      "num_tokens": 2958782862.0,
      "step": 17648
    },
    {
      "entropy": 1.7069834967454274,
      "epoch": 1.9388371645931175,
      "grad_norm": 0.6963647603988647,
      "learning_rate": 2.0443089814964074e-06,
      "loss": 1.3579,
      "mean_token_accuracy": 0.6717394888401031,
      "num_tokens": 2958926571.0,
      "step": 17649
    },
    {
      "entropy": 1.739360918601354,
      "epoch": 1.9389470215044904,
      "grad_norm": 0.7900950908660889,
      "learning_rate": 2.044150440106126e-06,
      "loss": 1.547,
      "mean_token_accuracy": 0.6345634957154592,
      "num_tokens": 2959092134.0,
      "step": 17650
    },
    {
      "entropy": 1.732648919026057,
      "epoch": 1.9390568784158635,
      "grad_norm": 0.7327719330787659,
      "learning_rate": 2.04399218216445e-06,
      "loss": 1.4618,
      "mean_token_accuracy": 0.6432109524806341,
      "num_tokens": 2959228429.0,
      "step": 17651
    },
    {
      "entropy": 1.7227603793144226,
      "epoch": 1.9391667353272362,
      "grad_norm": 0.6913332343101501,
      "learning_rate": 2.043834207676384e-06,
      "loss": 1.3656,
      "mean_token_accuracy": 0.6713483432928721,
      "num_tokens": 2959344802.0,
      "step": 17652
    },
    {
      "entropy": 1.7791978816191356,
      "epoch": 1.9392765922386093,
      "grad_norm": 0.8063234686851501,
      "learning_rate": 2.04367651664693e-06,
      "loss": 1.5213,
      "mean_token_accuracy": 0.6414127200841904,
      "num_tokens": 2959482823.0,
      "step": 17653
    },
    {
      "entropy": 1.7187303205331166,
      "epoch": 1.9393864491499822,
      "grad_norm": 0.6150225400924683,
      "learning_rate": 2.043519109081078e-06,
      "loss": 1.4355,
      "mean_token_accuracy": 0.6597120662530264,
      "num_tokens": 2959665866.0,
      "step": 17654
    },
    {
      "entropy": 1.6703492403030396,
      "epoch": 1.939496306061355,
      "grad_norm": 0.7310093641281128,
      "learning_rate": 2.04336198498381e-06,
      "loss": 1.3601,
      "mean_token_accuracy": 0.6774055063724518,
      "num_tokens": 2959809976.0,
      "step": 17655
    },
    {
      "entropy": 1.6999173561731975,
      "epoch": 1.9396061629727281,
      "grad_norm": 0.6536582112312317,
      "learning_rate": 2.0432051443601e-06,
      "loss": 1.4258,
      "mean_token_accuracy": 0.6664847979942957,
      "num_tokens": 2959974099.0,
      "step": 17656
    },
    {
      "entropy": 1.706270545721054,
      "epoch": 1.9397160198841008,
      "grad_norm": 0.5601027607917786,
      "learning_rate": 2.0430485872149117e-06,
      "loss": 1.2432,
      "mean_token_accuracy": 0.6715459475914637,
      "num_tokens": 2960154880.0,
      "step": 17657
    },
    {
      "entropy": 1.6991495788097382,
      "epoch": 1.939825876795474,
      "grad_norm": 0.6836209297180176,
      "learning_rate": 2.0428923135531984e-06,
      "loss": 1.2991,
      "mean_token_accuracy": 0.6632804969946543,
      "num_tokens": 2960313055.0,
      "step": 17658
    },
    {
      "entropy": 1.7432080507278442,
      "epoch": 1.9399357337068468,
      "grad_norm": 0.91303950548172,
      "learning_rate": 2.042736323379907e-06,
      "loss": 1.4199,
      "mean_token_accuracy": 0.6468232373396555,
      "num_tokens": 2960456172.0,
      "step": 17659
    },
    {
      "entropy": 1.727357546488444,
      "epoch": 1.9400455906182197,
      "grad_norm": 0.752682626247406,
      "learning_rate": 2.0425806166999755e-06,
      "loss": 1.3344,
      "mean_token_accuracy": 0.6625064412752787,
      "num_tokens": 2960584571.0,
      "step": 17660
    },
    {
      "entropy": 1.7152182559172313,
      "epoch": 1.9401554475295928,
      "grad_norm": 0.7578296661376953,
      "learning_rate": 2.0424251935183316e-06,
      "loss": 1.2797,
      "mean_token_accuracy": 0.6746835658947626,
      "num_tokens": 2960717321.0,
      "step": 17661
    },
    {
      "entropy": 1.7040897111097972,
      "epoch": 1.9402653044409657,
      "grad_norm": 0.6826738119125366,
      "learning_rate": 2.042270053839893e-06,
      "loss": 1.5189,
      "mean_token_accuracy": 0.6396296223004659,
      "num_tokens": 2960883517.0,
      "step": 17662
    },
    {
      "entropy": 1.7391219735145569,
      "epoch": 1.9403751613523386,
      "grad_norm": 0.7768815755844116,
      "learning_rate": 2.042115197669571e-06,
      "loss": 1.4045,
      "mean_token_accuracy": 0.6670640160640081,
      "num_tokens": 2961004315.0,
      "step": 17663
    },
    {
      "entropy": 1.7473591566085815,
      "epoch": 1.9404850182637117,
      "grad_norm": 0.6485081315040588,
      "learning_rate": 2.0419606250122666e-06,
      "loss": 1.5027,
      "mean_token_accuracy": 0.6461313168207804,
      "num_tokens": 2961219255.0,
      "step": 17664
    },
    {
      "entropy": 1.686641921599706,
      "epoch": 1.9405948751750843,
      "grad_norm": 0.7350051403045654,
      "learning_rate": 2.041806335872872e-06,
      "loss": 1.3163,
      "mean_token_accuracy": 0.6799498746792475,
      "num_tokens": 2961376511.0,
      "step": 17665
    },
    {
      "entropy": 1.7102410693963368,
      "epoch": 1.9407047320864574,
      "grad_norm": 0.7319943308830261,
      "learning_rate": 2.04165233025627e-06,
      "loss": 1.4536,
      "mean_token_accuracy": 0.647271086772283,
      "num_tokens": 2961578557.0,
      "step": 17666
    },
    {
      "entropy": 1.7241827249526978,
      "epoch": 1.9408145889978303,
      "grad_norm": 0.7803419232368469,
      "learning_rate": 2.041498608167335e-06,
      "loss": 1.4855,
      "mean_token_accuracy": 0.6466056903203329,
      "num_tokens": 2961771057.0,
      "step": 17667
    },
    {
      "entropy": 1.653838684161504,
      "epoch": 1.9409244459092032,
      "grad_norm": 0.7193467617034912,
      "learning_rate": 2.0413451696109315e-06,
      "loss": 1.2023,
      "mean_token_accuracy": 0.6801579395929972,
      "num_tokens": 2961886643.0,
      "step": 17668
    },
    {
      "entropy": 1.6649916072686513,
      "epoch": 1.9410343028205763,
      "grad_norm": 0.6423388123512268,
      "learning_rate": 2.0411920145919186e-06,
      "loss": 1.3242,
      "mean_token_accuracy": 0.6613106826941172,
      "num_tokens": 2962044517.0,
      "step": 17669
    },
    {
      "entropy": 1.7756304542223613,
      "epoch": 1.941144159731949,
      "grad_norm": 0.765924334526062,
      "learning_rate": 2.0410391431151396e-06,
      "loss": 1.2838,
      "mean_token_accuracy": 0.6603503326574961,
      "num_tokens": 2962163822.0,
      "step": 17670
    },
    {
      "entropy": 1.7474627792835236,
      "epoch": 1.941254016643322,
      "grad_norm": 0.7282141447067261,
      "learning_rate": 2.040886555185435e-06,
      "loss": 1.3865,
      "mean_token_accuracy": 0.6600453555583954,
      "num_tokens": 2962301011.0,
      "step": 17671
    },
    {
      "entropy": 1.6974960267543793,
      "epoch": 1.941363873554695,
      "grad_norm": 0.7170888781547546,
      "learning_rate": 2.040734250807634e-06,
      "loss": 1.4518,
      "mean_token_accuracy": 0.6686425358057022,
      "num_tokens": 2962491509.0,
      "step": 17672
    },
    {
      "entropy": 1.673610270023346,
      "epoch": 1.9414737304660679,
      "grad_norm": 0.597626805305481,
      "learning_rate": 2.0405822299865577e-06,
      "loss": 1.2537,
      "mean_token_accuracy": 0.6842442254225413,
      "num_tokens": 2962673019.0,
      "step": 17673
    },
    {
      "entropy": 1.7404329578081768,
      "epoch": 1.941583587377441,
      "grad_norm": 0.8017789721488953,
      "learning_rate": 2.0404304927270156e-06,
      "loss": 1.3374,
      "mean_token_accuracy": 0.6645545810461044,
      "num_tokens": 2962792301.0,
      "step": 17674
    },
    {
      "entropy": 1.664712945620219,
      "epoch": 1.9416934442888139,
      "grad_norm": 0.6364064812660217,
      "learning_rate": 2.040279039033812e-06,
      "loss": 1.5154,
      "mean_token_accuracy": 0.6475819051265717,
      "num_tokens": 2962974839.0,
      "step": 17675
    },
    {
      "entropy": 1.690699468056361,
      "epoch": 1.9418033012001867,
      "grad_norm": 0.681605339050293,
      "learning_rate": 2.0401278689117387e-06,
      "loss": 1.3548,
      "mean_token_accuracy": 0.6689165979623795,
      "num_tokens": 2963119502.0,
      "step": 17676
    },
    {
      "entropy": 1.714266578356425,
      "epoch": 1.9419131581115598,
      "grad_norm": 0.7001098394393921,
      "learning_rate": 2.039976982365581e-06,
      "loss": 1.3567,
      "mean_token_accuracy": 0.659160926938057,
      "num_tokens": 2963294588.0,
      "step": 17677
    },
    {
      "entropy": 1.7354275782903035,
      "epoch": 1.9420230150229325,
      "grad_norm": 0.7794528007507324,
      "learning_rate": 2.0398263794001142e-06,
      "loss": 1.315,
      "mean_token_accuracy": 0.6574402799208959,
      "num_tokens": 2963406921.0,
      "step": 17678
    },
    {
      "entropy": 1.693873792886734,
      "epoch": 1.9421328719343056,
      "grad_norm": 0.7015413045883179,
      "learning_rate": 2.0396760600201053e-06,
      "loss": 1.4379,
      "mean_token_accuracy": 0.6484410464763641,
      "num_tokens": 2963573114.0,
      "step": 17679
    },
    {
      "entropy": 1.7558051943778992,
      "epoch": 1.9422427288456785,
      "grad_norm": 0.7721998691558838,
      "learning_rate": 2.0395260242303113e-06,
      "loss": 1.6748,
      "mean_token_accuracy": 0.6339837138851484,
      "num_tokens": 2963763093.0,
      "step": 17680
    },
    {
      "entropy": 1.6947738925615947,
      "epoch": 1.9423525857570514,
      "grad_norm": 0.6746589541435242,
      "learning_rate": 2.0393762720354816e-06,
      "loss": 1.3065,
      "mean_token_accuracy": 0.6745160073041916,
      "num_tokens": 2963898566.0,
      "step": 17681
    },
    {
      "entropy": 1.6936275362968445,
      "epoch": 1.9424624426684245,
      "grad_norm": 0.6480662226676941,
      "learning_rate": 2.0392268034403545e-06,
      "loss": 1.3829,
      "mean_token_accuracy": 0.6479221681753794,
      "num_tokens": 2964098765.0,
      "step": 17682
    },
    {
      "entropy": 1.7492527961730957,
      "epoch": 1.9425722995797972,
      "grad_norm": 0.6564264893531799,
      "learning_rate": 2.0390776184496606e-06,
      "loss": 1.3571,
      "mean_token_accuracy": 0.6510317424933115,
      "num_tokens": 2964246008.0,
      "step": 17683
    },
    {
      "entropy": 1.6724448998769124,
      "epoch": 1.9426821564911703,
      "grad_norm": 0.6479511857032776,
      "learning_rate": 2.0389287170681226e-06,
      "loss": 1.3041,
      "mean_token_accuracy": 0.6661087870597839,
      "num_tokens": 2964399518.0,
      "step": 17684
    },
    {
      "entropy": 1.731959581375122,
      "epoch": 1.9427920134025431,
      "grad_norm": 0.7445155382156372,
      "learning_rate": 2.0387800993004534e-06,
      "loss": 1.329,
      "mean_token_accuracy": 0.659634068608284,
      "num_tokens": 2964555472.0,
      "step": 17685
    },
    {
      "entropy": 1.699200451374054,
      "epoch": 1.942901870313916,
      "grad_norm": 0.7213234305381775,
      "learning_rate": 2.0386317651513557e-06,
      "loss": 1.2045,
      "mean_token_accuracy": 0.6754323144753774,
      "num_tokens": 2964684843.0,
      "step": 17686
    },
    {
      "entropy": 1.7045519252618153,
      "epoch": 1.9430117272252891,
      "grad_norm": 0.6406714916229248,
      "learning_rate": 2.038483714625525e-06,
      "loss": 1.339,
      "mean_token_accuracy": 0.6636529515186945,
      "num_tokens": 2964860646.0,
      "step": 17687
    },
    {
      "entropy": 1.713558445374171,
      "epoch": 1.943121584136662,
      "grad_norm": 0.7353739142417908,
      "learning_rate": 2.038335947727646e-06,
      "loss": 1.4388,
      "mean_token_accuracy": 0.6637803067763647,
      "num_tokens": 2965024257.0,
      "step": 17688
    },
    {
      "entropy": 1.6618661483128865,
      "epoch": 1.943231441048035,
      "grad_norm": 0.6706850528717041,
      "learning_rate": 2.0381884644623956e-06,
      "loss": 1.3865,
      "mean_token_accuracy": 0.6615625272194544,
      "num_tokens": 2965227115.0,
      "step": 17689
    },
    {
      "entropy": 1.705021212498347,
      "epoch": 1.943341297959408,
      "grad_norm": 0.714533269405365,
      "learning_rate": 2.0380412648344426e-06,
      "loss": 1.418,
      "mean_token_accuracy": 0.6533076216777166,
      "num_tokens": 2965392439.0,
      "step": 17690
    },
    {
      "entropy": 1.6992263595263164,
      "epoch": 1.9434511548707807,
      "grad_norm": 0.6608665585517883,
      "learning_rate": 2.037894348848445e-06,
      "loss": 1.3918,
      "mean_token_accuracy": 0.6552961965401968,
      "num_tokens": 2965554340.0,
      "step": 17691
    },
    {
      "entropy": 1.6828101476033528,
      "epoch": 1.9435610117821538,
      "grad_norm": 0.663170576095581,
      "learning_rate": 2.0377477165090535e-06,
      "loss": 1.4066,
      "mean_token_accuracy": 0.6510103195905685,
      "num_tokens": 2965750001.0,
      "step": 17692
    },
    {
      "entropy": 1.6746436854203541,
      "epoch": 1.9436708686935267,
      "grad_norm": 0.6782816648483276,
      "learning_rate": 2.0376013678209085e-06,
      "loss": 1.3206,
      "mean_token_accuracy": 0.6747565368811289,
      "num_tokens": 2965884732.0,
      "step": 17693
    },
    {
      "entropy": 1.6658462782700856,
      "epoch": 1.9437807256048996,
      "grad_norm": 0.641159176826477,
      "learning_rate": 2.03745530278864e-06,
      "loss": 1.3442,
      "mean_token_accuracy": 0.6628729601701101,
      "num_tokens": 2966090536.0,
      "step": 17694
    },
    {
      "entropy": 1.7376565237840016,
      "epoch": 1.9438905825162727,
      "grad_norm": 0.7169440388679504,
      "learning_rate": 2.0373095214168737e-06,
      "loss": 1.4649,
      "mean_token_accuracy": 0.6538771440585455,
      "num_tokens": 2966257301.0,
      "step": 17695
    },
    {
      "entropy": 1.73634934425354,
      "epoch": 1.9440004394276453,
      "grad_norm": 0.7864576578140259,
      "learning_rate": 2.037164023710222e-06,
      "loss": 1.4079,
      "mean_token_accuracy": 0.6538835118214289,
      "num_tokens": 2966401908.0,
      "step": 17696
    },
    {
      "entropy": 1.7507271766662598,
      "epoch": 1.9441102963390184,
      "grad_norm": 0.819874107837677,
      "learning_rate": 2.0370188096732905e-06,
      "loss": 1.2977,
      "mean_token_accuracy": 0.660680502653122,
      "num_tokens": 2966499432.0,
      "step": 17697
    },
    {
      "entropy": 1.655652830998103,
      "epoch": 1.9442201532503913,
      "grad_norm": 0.6456592082977295,
      "learning_rate": 2.0368738793106745e-06,
      "loss": 1.3016,
      "mean_token_accuracy": 0.678799549738566,
      "num_tokens": 2966687978.0,
      "step": 17698
    },
    {
      "entropy": 1.6859602630138397,
      "epoch": 1.9443300101617642,
      "grad_norm": 0.7051413059234619,
      "learning_rate": 2.036729232626962e-06,
      "loss": 1.4748,
      "mean_token_accuracy": 0.6505583177010218,
      "num_tokens": 2966839033.0,
      "step": 17699
    },
    {
      "entropy": 1.6403660873572032,
      "epoch": 1.9444398670731373,
      "grad_norm": 0.6287828683853149,
      "learning_rate": 2.03658486962673e-06,
      "loss": 1.3748,
      "mean_token_accuracy": 0.6574486494064331,
      "num_tokens": 2967024711.0,
      "step": 17700
    },
    {
      "entropy": 1.719410906235377,
      "epoch": 1.9445497239845102,
      "grad_norm": 0.6784718036651611,
      "learning_rate": 2.036440790314548e-06,
      "loss": 1.3411,
      "mean_token_accuracy": 0.6652787824471792,
      "num_tokens": 2967151451.0,
      "step": 17701
    },
    {
      "entropy": 1.7372966408729553,
      "epoch": 1.944659580895883,
      "grad_norm": 0.8029721975326538,
      "learning_rate": 2.0362969946949755e-06,
      "loss": 1.4529,
      "mean_token_accuracy": 0.6361254553000132,
      "num_tokens": 2967375721.0,
      "step": 17702
    },
    {
      "entropy": 1.7620983918507893,
      "epoch": 1.9447694378072562,
      "grad_norm": 0.575481116771698,
      "learning_rate": 2.0361534827725636e-06,
      "loss": 1.5031,
      "mean_token_accuracy": 0.6388354301452637,
      "num_tokens": 2967592752.0,
      "step": 17703
    },
    {
      "entropy": 1.7115374505519867,
      "epoch": 1.9448792947186289,
      "grad_norm": 0.6605756878852844,
      "learning_rate": 2.0360102545518557e-06,
      "loss": 1.39,
      "mean_token_accuracy": 0.653022920091947,
      "num_tokens": 2967736489.0,
      "step": 17704
    },
    {
      "entropy": 1.6519458691279094,
      "epoch": 1.944989151630002,
      "grad_norm": 0.6345553398132324,
      "learning_rate": 2.035867310037384e-06,
      "loss": 1.4154,
      "mean_token_accuracy": 0.6511341631412506,
      "num_tokens": 2967887788.0,
      "step": 17705
    },
    {
      "entropy": 1.737346072991689,
      "epoch": 1.9450990085413749,
      "grad_norm": 0.7456694841384888,
      "learning_rate": 2.0357246492336716e-06,
      "loss": 1.313,
      "mean_token_accuracy": 0.6586676637331644,
      "num_tokens": 2968015984.0,
      "step": 17706
    },
    {
      "entropy": 1.714151293039322,
      "epoch": 1.9452088654527477,
      "grad_norm": 0.747020959854126,
      "learning_rate": 2.0355822721452358e-06,
      "loss": 1.6276,
      "mean_token_accuracy": 0.6316531747579575,
      "num_tokens": 2968206188.0,
      "step": 17707
    },
    {
      "entropy": 1.7121087312698364,
      "epoch": 1.9453187223641208,
      "grad_norm": 0.6129441857337952,
      "learning_rate": 2.03544017877658e-06,
      "loss": 1.339,
      "mean_token_accuracy": 0.6570817331473032,
      "num_tokens": 2968360647.0,
      "step": 17708
    },
    {
      "entropy": 1.6801585257053375,
      "epoch": 1.9454285792754935,
      "grad_norm": 0.7115065455436707,
      "learning_rate": 2.0352983691322046e-06,
      "loss": 1.3085,
      "mean_token_accuracy": 0.6725891331831614,
      "num_tokens": 2968553740.0,
      "step": 17709
    },
    {
      "entropy": 1.6956307987372081,
      "epoch": 1.9455384361868666,
      "grad_norm": 0.6248717904090881,
      "learning_rate": 2.035156843216596e-06,
      "loss": 1.4046,
      "mean_token_accuracy": 0.649314617117246,
      "num_tokens": 2968758358.0,
      "step": 17710
    },
    {
      "entropy": 1.7073156734307606,
      "epoch": 1.9456482930982395,
      "grad_norm": 0.7282310724258423,
      "learning_rate": 2.035015601034233e-06,
      "loss": 1.4184,
      "mean_token_accuracy": 0.6510714391867319,
      "num_tokens": 2968907627.0,
      "step": 17711
    },
    {
      "entropy": 1.767699142297109,
      "epoch": 1.9457581500096124,
      "grad_norm": 0.74590665102005,
      "learning_rate": 2.0348746425895865e-06,
      "loss": 1.3263,
      "mean_token_accuracy": 0.6632108837366104,
      "num_tokens": 2969049681.0,
      "step": 17712
    },
    {
      "entropy": 1.73310982187589,
      "epoch": 1.9458680069209855,
      "grad_norm": 0.9105587005615234,
      "learning_rate": 2.034733967887119e-06,
      "loss": 1.3848,
      "mean_token_accuracy": 0.6630599250396093,
      "num_tokens": 2969205626.0,
      "step": 17713
    },
    {
      "entropy": 1.7039326230684917,
      "epoch": 1.9459778638323584,
      "grad_norm": 0.6730808019638062,
      "learning_rate": 2.03459357693128e-06,
      "loss": 1.2393,
      "mean_token_accuracy": 0.6768955588340759,
      "num_tokens": 2969315930.0,
      "step": 17714
    },
    {
      "entropy": 1.695899059375127,
      "epoch": 1.9460877207437313,
      "grad_norm": 1.4940348863601685,
      "learning_rate": 2.0344534697265152e-06,
      "loss": 1.3153,
      "mean_token_accuracy": 0.6758741736412048,
      "num_tokens": 2969509322.0,
      "step": 17715
    },
    {
      "entropy": 1.7427550554275513,
      "epoch": 1.9461975776551044,
      "grad_norm": 0.6874081492424011,
      "learning_rate": 2.0343136462772583e-06,
      "loss": 1.4501,
      "mean_token_accuracy": 0.6438677261273066,
      "num_tokens": 2969660188.0,
      "step": 17716
    },
    {
      "entropy": 1.7365627984205882,
      "epoch": 1.946307434566477,
      "grad_norm": 0.6163883805274963,
      "learning_rate": 2.034174106587934e-06,
      "loss": 1.5149,
      "mean_token_accuracy": 0.6376241246859232,
      "num_tokens": 2969893508.0,
      "step": 17717
    },
    {
      "entropy": 1.6431179742018382,
      "epoch": 1.9464172914778501,
      "grad_norm": 0.606504499912262,
      "learning_rate": 2.0340348506629586e-06,
      "loss": 1.5092,
      "mean_token_accuracy": 0.6399561762809753,
      "num_tokens": 2970104649.0,
      "step": 17718
    },
    {
      "entropy": 1.7281967997550964,
      "epoch": 1.946527148389223,
      "grad_norm": 0.6497771739959717,
      "learning_rate": 2.033895878506742e-06,
      "loss": 1.5915,
      "mean_token_accuracy": 0.6247910012801489,
      "num_tokens": 2970337768.0,
      "step": 17719
    },
    {
      "entropy": 1.7278837660948436,
      "epoch": 1.946637005300596,
      "grad_norm": 0.7515074610710144,
      "learning_rate": 2.033757190123679e-06,
      "loss": 1.3733,
      "mean_token_accuracy": 0.6671270777781805,
      "num_tokens": 2970488423.0,
      "step": 17720
    },
    {
      "entropy": 1.755313863356908,
      "epoch": 1.946746862211969,
      "grad_norm": 0.7204878926277161,
      "learning_rate": 2.0336187855181603e-06,
      "loss": 1.4981,
      "mean_token_accuracy": 0.6442046463489532,
      "num_tokens": 2970643331.0,
      "step": 17721
    },
    {
      "entropy": 1.6647318204243977,
      "epoch": 1.9468567191233417,
      "grad_norm": 0.6584035158157349,
      "learning_rate": 2.033480664694568e-06,
      "loss": 1.4157,
      "mean_token_accuracy": 0.6540108720461527,
      "num_tokens": 2970795323.0,
      "step": 17722
    },
    {
      "entropy": 1.765694946050644,
      "epoch": 1.9469665760347148,
      "grad_norm": 0.8152051568031311,
      "learning_rate": 2.033342827657271e-06,
      "loss": 1.4476,
      "mean_token_accuracy": 0.6522760838270187,
      "num_tokens": 2970956293.0,
      "step": 17723
    },
    {
      "entropy": 1.776330480972926,
      "epoch": 1.9470764329460877,
      "grad_norm": 0.817134439945221,
      "learning_rate": 2.033205274410634e-06,
      "loss": 1.4082,
      "mean_token_accuracy": 0.6540219734112421,
      "num_tokens": 2971111548.0,
      "step": 17724
    },
    {
      "entropy": 1.7007002929846446,
      "epoch": 1.9471862898574606,
      "grad_norm": 0.6617542505264282,
      "learning_rate": 2.0330680049590095e-06,
      "loss": 1.4518,
      "mean_token_accuracy": 0.661642129222552,
      "num_tokens": 2971264294.0,
      "step": 17725
    },
    {
      "entropy": 1.6825316647688549,
      "epoch": 1.9472961467688337,
      "grad_norm": 0.6800007820129395,
      "learning_rate": 2.032931019306741e-06,
      "loss": 1.4463,
      "mean_token_accuracy": 0.6541166653235754,
      "num_tokens": 2971450963.0,
      "step": 17726
    },
    {
      "entropy": 1.7201205591360729,
      "epoch": 1.9474060036802066,
      "grad_norm": 0.6191043853759766,
      "learning_rate": 2.0327943174581663e-06,
      "loss": 1.4436,
      "mean_token_accuracy": 0.6575228720903397,
      "num_tokens": 2971650421.0,
      "step": 17727
    },
    {
      "entropy": 1.7219129304091136,
      "epoch": 1.9475158605915794,
      "grad_norm": 0.7525007128715515,
      "learning_rate": 2.0326578994176104e-06,
      "loss": 1.3096,
      "mean_token_accuracy": 0.6700589607159296,
      "num_tokens": 2971787284.0,
      "step": 17728
    },
    {
      "entropy": 1.7868116199970245,
      "epoch": 1.9476257175029525,
      "grad_norm": 0.6978966593742371,
      "learning_rate": 2.032521765189391e-06,
      "loss": 1.4937,
      "mean_token_accuracy": 0.6415872623523077,
      "num_tokens": 2971987111.0,
      "step": 17729
    },
    {
      "entropy": 1.7060894866784413,
      "epoch": 1.9477355744143252,
      "grad_norm": 1.1793681383132935,
      "learning_rate": 2.032385914777817e-06,
      "loss": 1.5346,
      "mean_token_accuracy": 0.642043317357699,
      "num_tokens": 2972138435.0,
      "step": 17730
    },
    {
      "entropy": 1.7055272956689198,
      "epoch": 1.9478454313256983,
      "grad_norm": 0.7151913642883301,
      "learning_rate": 2.032250348187188e-06,
      "loss": 1.3737,
      "mean_token_accuracy": 0.6631810615460078,
      "num_tokens": 2972288505.0,
      "step": 17731
    },
    {
      "entropy": 1.7625197768211365,
      "epoch": 1.9479552882370712,
      "grad_norm": 0.9355411529541016,
      "learning_rate": 2.032115065421794e-06,
      "loss": 1.4241,
      "mean_token_accuracy": 0.6463347425063452,
      "num_tokens": 2972489591.0,
      "step": 17732
    },
    {
      "entropy": 1.7217676838239033,
      "epoch": 1.948065145148444,
      "grad_norm": 0.7413977980613708,
      "learning_rate": 2.0319800664859175e-06,
      "loss": 1.4565,
      "mean_token_accuracy": 0.6653625269730886,
      "num_tokens": 2972644196.0,
      "step": 17733
    },
    {
      "entropy": 1.7668897410233815,
      "epoch": 1.9481750020598172,
      "grad_norm": 0.6924734711647034,
      "learning_rate": 2.031845351383831e-06,
      "loss": 1.3263,
      "mean_token_accuracy": 0.6588727583487829,
      "num_tokens": 2972777302.0,
      "step": 17734
    },
    {
      "entropy": 1.7585100928942363,
      "epoch": 1.9482848589711899,
      "grad_norm": 0.7000848650932312,
      "learning_rate": 2.0317109201197978e-06,
      "loss": 1.4577,
      "mean_token_accuracy": 0.6405526846647263,
      "num_tokens": 2972939201.0,
      "step": 17735
    },
    {
      "entropy": 1.6759247382481892,
      "epoch": 1.948394715882563,
      "grad_norm": 0.7132837176322937,
      "learning_rate": 2.0315767726980726e-06,
      "loss": 1.5039,
      "mean_token_accuracy": 0.6526048630475998,
      "num_tokens": 2973129903.0,
      "step": 17736
    },
    {
      "entropy": 1.668695737918218,
      "epoch": 1.9485045727939359,
      "grad_norm": 0.6133973598480225,
      "learning_rate": 2.031442909122902e-06,
      "loss": 1.3299,
      "mean_token_accuracy": 0.669144387046496,
      "num_tokens": 2973289265.0,
      "step": 17737
    },
    {
      "entropy": 1.6713014245033264,
      "epoch": 1.9486144297053087,
      "grad_norm": 0.6235535144805908,
      "learning_rate": 2.031309329398521e-06,
      "loss": 1.399,
      "mean_token_accuracy": 0.6442220707734426,
      "num_tokens": 2973478673.0,
      "step": 17738
    },
    {
      "entropy": 1.6983527541160583,
      "epoch": 1.9487242866166818,
      "grad_norm": 0.6092813014984131,
      "learning_rate": 2.031176033529158e-06,
      "loss": 1.4028,
      "mean_token_accuracy": 0.636608416835467,
      "num_tokens": 2973675888.0,
      "step": 17739
    },
    {
      "entropy": 1.6300262808799744,
      "epoch": 1.9488341435280547,
      "grad_norm": 0.7199864983558655,
      "learning_rate": 2.0310430215190336e-06,
      "loss": 1.3337,
      "mean_token_accuracy": 0.6639452030261358,
      "num_tokens": 2973853010.0,
      "step": 17740
    },
    {
      "entropy": 1.7593192954858143,
      "epoch": 1.9489440004394276,
      "grad_norm": 0.7048966884613037,
      "learning_rate": 2.0309102933723555e-06,
      "loss": 1.3223,
      "mean_token_accuracy": 0.6694928755362829,
      "num_tokens": 2973982382.0,
      "step": 17741
    },
    {
      "entropy": 1.6991233627001445,
      "epoch": 1.9490538573508007,
      "grad_norm": 0.6124697923660278,
      "learning_rate": 2.0307778490933245e-06,
      "loss": 1.3468,
      "mean_token_accuracy": 0.6536738177140554,
      "num_tokens": 2974186796.0,
      "step": 17742
    },
    {
      "entropy": 1.6812581419944763,
      "epoch": 1.9491637142621734,
      "grad_norm": 0.6754594445228577,
      "learning_rate": 2.0306456886861333e-06,
      "loss": 1.3569,
      "mean_token_accuracy": 0.6634483486413956,
      "num_tokens": 2974362784.0,
      "step": 17743
    },
    {
      "entropy": 1.7027353048324585,
      "epoch": 1.9492735711735465,
      "grad_norm": 0.7747242450714111,
      "learning_rate": 2.030513812154964e-06,
      "loss": 1.2265,
      "mean_token_accuracy": 0.682536577184995,
      "num_tokens": 2974489565.0,
      "step": 17744
    },
    {
      "entropy": 1.631873478492101,
      "epoch": 1.9493834280849194,
      "grad_norm": 0.6376305222511292,
      "learning_rate": 2.030382219503991e-06,
      "loss": 1.3407,
      "mean_token_accuracy": 0.6745425860087076,
      "num_tokens": 2974644841.0,
      "step": 17745
    },
    {
      "entropy": 1.6536372005939484,
      "epoch": 1.9494932849962923,
      "grad_norm": 0.812867283821106,
      "learning_rate": 2.03025091073738e-06,
      "loss": 1.4305,
      "mean_token_accuracy": 0.6665123303731283,
      "num_tokens": 2974819612.0,
      "step": 17746
    },
    {
      "entropy": 1.741923948129018,
      "epoch": 1.9496031419076654,
      "grad_norm": 0.6799856424331665,
      "learning_rate": 2.0301198858592847e-06,
      "loss": 1.4306,
      "mean_token_accuracy": 0.6507015228271484,
      "num_tokens": 2974975514.0,
      "step": 17747
    },
    {
      "entropy": 1.7347366710503895,
      "epoch": 1.9497129988190383,
      "grad_norm": 0.8397426605224609,
      "learning_rate": 2.029989144873853e-06,
      "loss": 1.2693,
      "mean_token_accuracy": 0.6738801846901575,
      "num_tokens": 2975106527.0,
      "step": 17748
    },
    {
      "entropy": 1.7347449858983357,
      "epoch": 1.9498228557304111,
      "grad_norm": 0.6037880182266235,
      "learning_rate": 2.0298586877852233e-06,
      "loss": 1.463,
      "mean_token_accuracy": 0.6357159316539764,
      "num_tokens": 2975283443.0,
      "step": 17749
    },
    {
      "entropy": 1.7268792192141216,
      "epoch": 1.949932712641784,
      "grad_norm": 0.698653519153595,
      "learning_rate": 2.0297285145975243e-06,
      "loss": 1.2884,
      "mean_token_accuracy": 0.6732809692621231,
      "num_tokens": 2975397640.0,
      "step": 17750
    },
    {
      "entropy": 1.7239871521790822,
      "epoch": 1.950042569553157,
      "grad_norm": 0.7377451658248901,
      "learning_rate": 2.0295986253148748e-06,
      "loss": 1.5272,
      "mean_token_accuracy": 0.6336576888958613,
      "num_tokens": 2975554478.0,
      "step": 17751
    },
    {
      "entropy": 1.7457629640897114,
      "epoch": 1.95015242646453,
      "grad_norm": 0.8000925779342651,
      "learning_rate": 2.029469019941387e-06,
      "loss": 1.4273,
      "mean_token_accuracy": 0.6509995808204015,
      "num_tokens": 2975691139.0,
      "step": 17752
    },
    {
      "entropy": 1.7045822242895763,
      "epoch": 1.950262283375903,
      "grad_norm": 0.6363489627838135,
      "learning_rate": 2.029339698481164e-06,
      "loss": 1.3028,
      "mean_token_accuracy": 0.6681992560625076,
      "num_tokens": 2975879366.0,
      "step": 17753
    },
    {
      "entropy": 1.723255564769109,
      "epoch": 1.9503721402872758,
      "grad_norm": 0.7007434368133545,
      "learning_rate": 2.029210660938295e-06,
      "loss": 1.5731,
      "mean_token_accuracy": 0.6275994380315145,
      "num_tokens": 2976062063.0,
      "step": 17754
    },
    {
      "entropy": 1.7033185164133708,
      "epoch": 1.950481997198649,
      "grad_norm": 0.6987881064414978,
      "learning_rate": 2.0290819073168673e-06,
      "loss": 1.2802,
      "mean_token_accuracy": 0.6664392650127411,
      "num_tokens": 2976182351.0,
      "step": 17755
    },
    {
      "entropy": 1.6668557822704315,
      "epoch": 1.9505918541100216,
      "grad_norm": 0.6711578965187073,
      "learning_rate": 2.028953437620955e-06,
      "loss": 1.2469,
      "mean_token_accuracy": 0.6852605938911438,
      "num_tokens": 2976305690.0,
      "step": 17756
    },
    {
      "entropy": 1.7156360646088917,
      "epoch": 1.9507017110213947,
      "grad_norm": 0.7528457045555115,
      "learning_rate": 2.0288252518546247e-06,
      "loss": 1.5161,
      "mean_token_accuracy": 0.64786363641421,
      "num_tokens": 2976493784.0,
      "step": 17757
    },
    {
      "entropy": 1.669191300868988,
      "epoch": 1.9508115679327676,
      "grad_norm": 0.6685511469841003,
      "learning_rate": 2.0286973500219315e-06,
      "loss": 1.4391,
      "mean_token_accuracy": 0.6614227841297785,
      "num_tokens": 2976692124.0,
      "step": 17758
    },
    {
      "entropy": 1.6809686024983723,
      "epoch": 1.9509214248441404,
      "grad_norm": 0.6204544901847839,
      "learning_rate": 2.028569732126924e-06,
      "loss": 1.5254,
      "mean_token_accuracy": 0.6390020251274109,
      "num_tokens": 2976904174.0,
      "step": 17759
    },
    {
      "entropy": 1.7139968574047089,
      "epoch": 1.9510312817555135,
      "grad_norm": 0.5688869953155518,
      "learning_rate": 2.0284423981736432e-06,
      "loss": 1.3492,
      "mean_token_accuracy": 0.663325771689415,
      "num_tokens": 2977049188.0,
      "step": 17760
    },
    {
      "entropy": 1.7387417654196422,
      "epoch": 1.9511411386668864,
      "grad_norm": 0.6545831561088562,
      "learning_rate": 2.028315348166117e-06,
      "loss": 1.387,
      "mean_token_accuracy": 0.6539622743924459,
      "num_tokens": 2977201898.0,
      "step": 17761
    },
    {
      "entropy": 1.6949077546596527,
      "epoch": 1.9512509955782593,
      "grad_norm": 0.7409424781799316,
      "learning_rate": 2.028188582108368e-06,
      "loss": 1.3519,
      "mean_token_accuracy": 0.6653612554073334,
      "num_tokens": 2977333297.0,
      "step": 17762
    },
    {
      "entropy": 1.735666275024414,
      "epoch": 1.9513608524896322,
      "grad_norm": 0.604129433631897,
      "learning_rate": 2.0280621000044065e-06,
      "loss": 1.4387,
      "mean_token_accuracy": 0.652505616346995,
      "num_tokens": 2977536291.0,
      "step": 17763
    },
    {
      "entropy": 1.6692261199156444,
      "epoch": 1.951470709401005,
      "grad_norm": 0.6267274022102356,
      "learning_rate": 2.0279359018582377e-06,
      "loss": 1.4824,
      "mean_token_accuracy": 0.6410986383756002,
      "num_tokens": 2977726406.0,
      "step": 17764
    },
    {
      "entropy": 1.7290876011053722,
      "epoch": 1.9515805663123782,
      "grad_norm": 0.7559896111488342,
      "learning_rate": 2.0278099876738543e-06,
      "loss": 1.3264,
      "mean_token_accuracy": 0.6726896514495214,
      "num_tokens": 2977841878.0,
      "step": 17765
    },
    {
      "entropy": 1.716409037510554,
      "epoch": 1.951690423223751,
      "grad_norm": 0.6588131785392761,
      "learning_rate": 2.0276843574552425e-06,
      "loss": 1.2942,
      "mean_token_accuracy": 0.6628698209921519,
      "num_tokens": 2977963873.0,
      "step": 17766
    },
    {
      "entropy": 1.717410941918691,
      "epoch": 1.951800280135124,
      "grad_norm": 0.7476875185966492,
      "learning_rate": 2.027559011206377e-06,
      "loss": 1.319,
      "mean_token_accuracy": 0.6718118588129679,
      "num_tokens": 2978082887.0,
      "step": 17767
    },
    {
      "entropy": 1.6688204904397328,
      "epoch": 1.951910137046497,
      "grad_norm": 0.6238333582878113,
      "learning_rate": 2.0274339489312252e-06,
      "loss": 1.4476,
      "mean_token_accuracy": 0.6366531451543173,
      "num_tokens": 2978319052.0,
      "step": 17768
    },
    {
      "entropy": 1.6899834473927815,
      "epoch": 1.9520199939578697,
      "grad_norm": 0.7009279131889343,
      "learning_rate": 2.0273091706337467e-06,
      "loss": 1.2801,
      "mean_token_accuracy": 0.6724486152331034,
      "num_tokens": 2978430156.0,
      "step": 17769
    },
    {
      "entropy": 1.7222119470437367,
      "epoch": 1.9521298508692428,
      "grad_norm": 0.6706877946853638,
      "learning_rate": 2.0271846763178895e-06,
      "loss": 1.3487,
      "mean_token_accuracy": 0.6513159523407618,
      "num_tokens": 2978603591.0,
      "step": 17770
    },
    {
      "entropy": 1.711435745159785,
      "epoch": 1.9522397077806157,
      "grad_norm": 0.6107102632522583,
      "learning_rate": 2.0270604659875943e-06,
      "loss": 1.374,
      "mean_token_accuracy": 0.6598343700170517,
      "num_tokens": 2978796689.0,
      "step": 17771
    },
    {
      "entropy": 1.771813799937566,
      "epoch": 1.9523495646919886,
      "grad_norm": 0.6782006621360779,
      "learning_rate": 2.026936539646792e-06,
      "loss": 1.5024,
      "mean_token_accuracy": 0.6387060980002085,
      "num_tokens": 2978999550.0,
      "step": 17772
    },
    {
      "entropy": 1.713943600654602,
      "epoch": 1.9524594216033617,
      "grad_norm": 0.8408421277999878,
      "learning_rate": 2.0268128972994044e-06,
      "loss": 1.401,
      "mean_token_accuracy": 0.6681250631809235,
      "num_tokens": 2979123400.0,
      "step": 17773
    },
    {
      "entropy": 1.7296073734760284,
      "epoch": 1.9525692785147346,
      "grad_norm": 0.8583366274833679,
      "learning_rate": 2.0266895389493456e-06,
      "loss": 1.4684,
      "mean_token_accuracy": 0.6323349376519521,
      "num_tokens": 2979299769.0,
      "step": 17774
    },
    {
      "entropy": 1.7292738854885101,
      "epoch": 1.9526791354261075,
      "grad_norm": 0.6199796199798584,
      "learning_rate": 2.0265664646005194e-06,
      "loss": 1.4296,
      "mean_token_accuracy": 0.6407396892706553,
      "num_tokens": 2979543584.0,
      "step": 17775
    },
    {
      "entropy": 1.6723608275254567,
      "epoch": 1.9527889923374804,
      "grad_norm": 0.6568523049354553,
      "learning_rate": 2.0264436742568204e-06,
      "loss": 1.4326,
      "mean_token_accuracy": 0.6430952151616415,
      "num_tokens": 2979713882.0,
      "step": 17776
    },
    {
      "entropy": 1.6405765612920125,
      "epoch": 1.9528988492488533,
      "grad_norm": 0.7078863382339478,
      "learning_rate": 2.0263211679221358e-06,
      "loss": 1.4032,
      "mean_token_accuracy": 0.6723550657431284,
      "num_tokens": 2979909442.0,
      "step": 17777
    },
    {
      "entropy": 1.6554110149542491,
      "epoch": 1.9530087061602264,
      "grad_norm": 0.6638414859771729,
      "learning_rate": 2.0261989456003436e-06,
      "loss": 1.2885,
      "mean_token_accuracy": 0.6878614326318105,
      "num_tokens": 2980088903.0,
      "step": 17778
    },
    {
      "entropy": 1.7123227616151173,
      "epoch": 1.9531185630715993,
      "grad_norm": 0.5971532464027405,
      "learning_rate": 2.02607700729531e-06,
      "loss": 1.4228,
      "mean_token_accuracy": 0.6444319188594818,
      "num_tokens": 2980281354.0,
      "step": 17779
    },
    {
      "entropy": 1.7631987730662029,
      "epoch": 1.9532284199829721,
      "grad_norm": 0.5625388622283936,
      "learning_rate": 2.025955353010896e-06,
      "loss": 1.4602,
      "mean_token_accuracy": 0.6468930691480637,
      "num_tokens": 2980500165.0,
      "step": 17780
    },
    {
      "entropy": 1.7447159190972645,
      "epoch": 1.9533382768943452,
      "grad_norm": 0.6851442456245422,
      "learning_rate": 2.0258339827509506e-06,
      "loss": 1.4913,
      "mean_token_accuracy": 0.6319667845964432,
      "num_tokens": 2980713289.0,
      "step": 17781
    },
    {
      "entropy": 1.7208144168059032,
      "epoch": 1.953448133805718,
      "grad_norm": 0.629928708076477,
      "learning_rate": 2.0257128965193165e-06,
      "loss": 1.4998,
      "mean_token_accuracy": 0.6411555955807368,
      "num_tokens": 2980902416.0,
      "step": 17782
    },
    {
      "entropy": 1.7709160546461742,
      "epoch": 1.953557990717091,
      "grad_norm": 0.7798748016357422,
      "learning_rate": 2.0255920943198244e-06,
      "loss": 1.3797,
      "mean_token_accuracy": 0.6637091686328253,
      "num_tokens": 2981033075.0,
      "step": 17783
    },
    {
      "entropy": 1.6994303961594899,
      "epoch": 1.953667847628464,
      "grad_norm": 0.7806686758995056,
      "learning_rate": 2.0254715761562998e-06,
      "loss": 1.5518,
      "mean_token_accuracy": 0.6446986546119055,
      "num_tokens": 2981192101.0,
      "step": 17784
    },
    {
      "entropy": 1.7072394092877705,
      "epoch": 1.9537777045398368,
      "grad_norm": 0.6744371056556702,
      "learning_rate": 2.0253513420325545e-06,
      "loss": 1.4875,
      "mean_token_accuracy": 0.6371971815824509,
      "num_tokens": 2981426393.0,
      "step": 17785
    },
    {
      "entropy": 1.6127947370211284,
      "epoch": 1.95388756145121,
      "grad_norm": 0.7404419779777527,
      "learning_rate": 2.025231391952396e-06,
      "loss": 1.346,
      "mean_token_accuracy": 0.6637389014164606,
      "num_tokens": 2981579481.0,
      "step": 17786
    },
    {
      "entropy": 1.7959074278672535,
      "epoch": 1.9539974183625828,
      "grad_norm": 0.7481608986854553,
      "learning_rate": 2.0251117259196202e-06,
      "loss": 1.3442,
      "mean_token_accuracy": 0.6640120794375738,
      "num_tokens": 2981726089.0,
      "step": 17787
    },
    {
      "entropy": 1.713577965895335,
      "epoch": 1.9541072752739557,
      "grad_norm": 0.835660994052887,
      "learning_rate": 2.0249923439380127e-06,
      "loss": 1.3407,
      "mean_token_accuracy": 0.6656025052070618,
      "num_tokens": 2981849837.0,
      "step": 17788
    },
    {
      "entropy": 1.696219692627589,
      "epoch": 1.9542171321853288,
      "grad_norm": 0.7188278436660767,
      "learning_rate": 2.024873246011354e-06,
      "loss": 1.2623,
      "mean_token_accuracy": 0.6720642745494843,
      "num_tokens": 2982006826.0,
      "step": 17789
    },
    {
      "entropy": 1.7328607738018036,
      "epoch": 1.9543269890967014,
      "grad_norm": 0.7431653738021851,
      "learning_rate": 2.0247544321434136e-06,
      "loss": 1.4974,
      "mean_token_accuracy": 0.6494582444429398,
      "num_tokens": 2982194388.0,
      "step": 17790
    },
    {
      "entropy": 1.713299572467804,
      "epoch": 1.9544368460080745,
      "grad_norm": 0.6786489486694336,
      "learning_rate": 2.02463590233795e-06,
      "loss": 1.3613,
      "mean_token_accuracy": 0.6588152448336283,
      "num_tokens": 2982336529.0,
      "step": 17791
    },
    {
      "entropy": 1.721155156691869,
      "epoch": 1.9545467029194474,
      "grad_norm": 0.6759476661682129,
      "learning_rate": 2.024517656598716e-06,
      "loss": 1.5028,
      "mean_token_accuracy": 0.6534711370865504,
      "num_tokens": 2982487665.0,
      "step": 17792
    },
    {
      "entropy": 1.7625728845596313,
      "epoch": 1.9546565598308203,
      "grad_norm": 0.683269739151001,
      "learning_rate": 2.0243996949294543e-06,
      "loss": 1.4255,
      "mean_token_accuracy": 0.6441936790943146,
      "num_tokens": 2982725011.0,
      "step": 17793
    },
    {
      "entropy": 1.7418459355831146,
      "epoch": 1.9547664167421934,
      "grad_norm": 0.7607301473617554,
      "learning_rate": 2.0242820173338963e-06,
      "loss": 1.3563,
      "mean_token_accuracy": 0.6651049753030142,
      "num_tokens": 2982847742.0,
      "step": 17794
    },
    {
      "entropy": 1.7185759842395782,
      "epoch": 1.954876273653566,
      "grad_norm": 0.6495237350463867,
      "learning_rate": 2.024164623815769e-06,
      "loss": 1.3563,
      "mean_token_accuracy": 0.6601082533597946,
      "num_tokens": 2982984398.0,
      "step": 17795
    },
    {
      "entropy": 1.6946265896161397,
      "epoch": 1.9549861305649392,
      "grad_norm": 0.8139024972915649,
      "learning_rate": 2.024047514378787e-06,
      "loss": 1.5517,
      "mean_token_accuracy": 0.6357475270827612,
      "num_tokens": 2983145945.0,
      "step": 17796
    },
    {
      "entropy": 1.6650099456310272,
      "epoch": 1.955095987476312,
      "grad_norm": 0.5920116305351257,
      "learning_rate": 2.0239306890266558e-06,
      "loss": 1.3403,
      "mean_token_accuracy": 0.6662998845179876,
      "num_tokens": 2983303994.0,
      "step": 17797
    },
    {
      "entropy": 1.6227064232031505,
      "epoch": 1.955205844387685,
      "grad_norm": 0.6600332260131836,
      "learning_rate": 2.0238141477630744e-06,
      "loss": 1.4115,
      "mean_token_accuracy": 0.6637008314331373,
      "num_tokens": 2983460489.0,
      "step": 17798
    },
    {
      "entropy": 1.6318263411521912,
      "epoch": 1.955315701299058,
      "grad_norm": 0.7498336434364319,
      "learning_rate": 2.0236978905917296e-06,
      "loss": 1.3756,
      "mean_token_accuracy": 0.6501528173685074,
      "num_tokens": 2983644135.0,
      "step": 17799
    },
    {
      "entropy": 1.7046960294246674,
      "epoch": 1.955425558210431,
      "grad_norm": 0.7306966781616211,
      "learning_rate": 2.0235819175163017e-06,
      "loss": 1.3088,
      "mean_token_accuracy": 0.6869508425394694,
      "num_tokens": 2983803611.0,
      "step": 17800
    },
    {
      "entropy": 1.7258172035217285,
      "epoch": 1.9555354151218038,
      "grad_norm": 0.7059761881828308,
      "learning_rate": 2.0234662285404617e-06,
      "loss": 1.3583,
      "mean_token_accuracy": 0.6637235432863235,
      "num_tokens": 2983979414.0,
      "step": 17801
    },
    {
      "entropy": 1.769530753294627,
      "epoch": 1.955645272033177,
      "grad_norm": 0.6218457818031311,
      "learning_rate": 2.0233508236678702e-06,
      "loss": 1.4673,
      "mean_token_accuracy": 0.6336728036403656,
      "num_tokens": 2984189537.0,
      "step": 17802
    },
    {
      "entropy": 1.6664655307928722,
      "epoch": 1.9557551289445496,
      "grad_norm": 0.7295881509780884,
      "learning_rate": 2.023235702902181e-06,
      "loss": 1.5348,
      "mean_token_accuracy": 0.6525272379318873,
      "num_tokens": 2984350464.0,
      "step": 17803
    },
    {
      "entropy": 1.7370224396387737,
      "epoch": 1.9558649858559227,
      "grad_norm": 0.5997971892356873,
      "learning_rate": 2.0231208662470357e-06,
      "loss": 1.4465,
      "mean_token_accuracy": 0.6436833242575327,
      "num_tokens": 2984529796.0,
      "step": 17804
    },
    {
      "entropy": 1.6230102678140004,
      "epoch": 1.9559748427672956,
      "grad_norm": 0.6606541275978088,
      "learning_rate": 2.023006313706071e-06,
      "loss": 1.315,
      "mean_token_accuracy": 0.6677302569150925,
      "num_tokens": 2984680008.0,
      "step": 17805
    },
    {
      "entropy": 1.7209392488002777,
      "epoch": 1.9560846996786685,
      "grad_norm": 0.6199936866760254,
      "learning_rate": 2.0228920452829103e-06,
      "loss": 1.352,
      "mean_token_accuracy": 0.6574979374806086,
      "num_tokens": 2984848335.0,
      "step": 17806
    },
    {
      "entropy": 1.692920833826065,
      "epoch": 1.9561945565900416,
      "grad_norm": 0.653578519821167,
      "learning_rate": 2.022778060981172e-06,
      "loss": 1.424,
      "mean_token_accuracy": 0.6595415671666464,
      "num_tokens": 2985045996.0,
      "step": 17807
    },
    {
      "entropy": 1.6915589074293773,
      "epoch": 1.9563044135014143,
      "grad_norm": 0.6038907766342163,
      "learning_rate": 2.0226643608044624e-06,
      "loss": 1.3544,
      "mean_token_accuracy": 0.6625373015801111,
      "num_tokens": 2985204883.0,
      "step": 17808
    },
    {
      "entropy": 1.691193660100301,
      "epoch": 1.9564142704127874,
      "grad_norm": 0.6831693053245544,
      "learning_rate": 2.022550944756381e-06,
      "loss": 1.5571,
      "mean_token_accuracy": 0.6408517857392629,
      "num_tokens": 2985381113.0,
      "step": 17809
    },
    {
      "entropy": 1.7213842968146007,
      "epoch": 1.9565241273241603,
      "grad_norm": 0.7153857946395874,
      "learning_rate": 2.0224378128405157e-06,
      "loss": 1.4151,
      "mean_token_accuracy": 0.6612313389778137,
      "num_tokens": 2985523825.0,
      "step": 17810
    },
    {
      "entropy": 1.7010469138622284,
      "epoch": 1.9566339842355331,
      "grad_norm": 0.6271878480911255,
      "learning_rate": 2.0223249650604493e-06,
      "loss": 1.4303,
      "mean_token_accuracy": 0.645938828587532,
      "num_tokens": 2985672895.0,
      "step": 17811
    },
    {
      "entropy": 1.6880601942539215,
      "epoch": 1.9567438411469062,
      "grad_norm": 0.8414680361747742,
      "learning_rate": 2.022212401419752e-06,
      "loss": 1.5198,
      "mean_token_accuracy": 0.6524382879336675,
      "num_tokens": 2985824112.0,
      "step": 17812
    },
    {
      "entropy": 1.697400947411855,
      "epoch": 1.9568536980582791,
      "grad_norm": 0.7417037487030029,
      "learning_rate": 2.0221001219219877e-06,
      "loss": 1.427,
      "mean_token_accuracy": 0.6512279262145361,
      "num_tokens": 2985971235.0,
      "step": 17813
    },
    {
      "entropy": 1.6493543187777202,
      "epoch": 1.956963554969652,
      "grad_norm": 0.6581324934959412,
      "learning_rate": 2.0219881265707077e-06,
      "loss": 1.3354,
      "mean_token_accuracy": 0.6625111848115921,
      "num_tokens": 2986149318.0,
      "step": 17814
    },
    {
      "entropy": 1.7380223472913106,
      "epoch": 1.9570734118810251,
      "grad_norm": 0.60667884349823,
      "learning_rate": 2.0218764153694586e-06,
      "loss": 1.4921,
      "mean_token_accuracy": 0.6427192886670431,
      "num_tokens": 2986347470.0,
      "step": 17815
    },
    {
      "entropy": 1.7578493853410084,
      "epoch": 1.9571832687923978,
      "grad_norm": 0.6818580031394958,
      "learning_rate": 2.0217649883217746e-06,
      "loss": 1.4195,
      "mean_token_accuracy": 0.64846271276474,
      "num_tokens": 2986555340.0,
      "step": 17816
    },
    {
      "entropy": 1.6980695327123005,
      "epoch": 1.957293125703771,
      "grad_norm": 0.6845924258232117,
      "learning_rate": 2.0216538454311836e-06,
      "loss": 1.3064,
      "mean_token_accuracy": 0.6753988613684972,
      "num_tokens": 2986682716.0,
      "step": 17817
    },
    {
      "entropy": 1.711136023203532,
      "epoch": 1.9574029826151438,
      "grad_norm": 0.6631032824516296,
      "learning_rate": 2.0215429867012017e-06,
      "loss": 1.3439,
      "mean_token_accuracy": 0.6630576600631078,
      "num_tokens": 2986821237.0,
      "step": 17818
    },
    {
      "entropy": 1.7483221391836803,
      "epoch": 1.9575128395265167,
      "grad_norm": 0.6929804086685181,
      "learning_rate": 2.0214324121353403e-06,
      "loss": 1.5989,
      "mean_token_accuracy": 0.6324756195147833,
      "num_tokens": 2986991133.0,
      "step": 17819
    },
    {
      "entropy": 1.7035737733046215,
      "epoch": 1.9576226964378898,
      "grad_norm": 0.6949917078018188,
      "learning_rate": 2.021322121737095e-06,
      "loss": 1.3302,
      "mean_token_accuracy": 0.6612950712442398,
      "num_tokens": 2987114817.0,
      "step": 17820
    },
    {
      "entropy": 1.7653352518876393,
      "epoch": 1.9577325533492624,
      "grad_norm": 0.7462692260742188,
      "learning_rate": 2.0212121155099607e-06,
      "loss": 1.337,
      "mean_token_accuracy": 0.6608709494272867,
      "num_tokens": 2987231442.0,
      "step": 17821
    },
    {
      "entropy": 1.7688710192839305,
      "epoch": 1.9578424102606355,
      "grad_norm": 0.651204526424408,
      "learning_rate": 2.0211023934574157e-06,
      "loss": 1.5705,
      "mean_token_accuracy": 0.6285947610934576,
      "num_tokens": 2987437378.0,
      "step": 17822
    },
    {
      "entropy": 1.7017524043718975,
      "epoch": 1.9579522671720084,
      "grad_norm": 0.9739505052566528,
      "learning_rate": 2.0209929555829346e-06,
      "loss": 1.3126,
      "mean_token_accuracy": 0.6632164816061655,
      "num_tokens": 2987588804.0,
      "step": 17823
    },
    {
      "entropy": 1.6945142149925232,
      "epoch": 1.9580621240833813,
      "grad_norm": 0.6685092449188232,
      "learning_rate": 2.02088380188998e-06,
      "loss": 1.259,
      "mean_token_accuracy": 0.6727628062168757,
      "num_tokens": 2987716913.0,
      "step": 17824
    },
    {
      "entropy": 1.674852301677068,
      "epoch": 1.9581719809947544,
      "grad_norm": 0.6597932577133179,
      "learning_rate": 2.020774932382007e-06,
      "loss": 1.4541,
      "mean_token_accuracy": 0.6472754130760828,
      "num_tokens": 2987941322.0,
      "step": 17825
    },
    {
      "entropy": 1.6793397963047028,
      "epoch": 1.9582818379061273,
      "grad_norm": 0.5924980640411377,
      "learning_rate": 2.0206663470624615e-06,
      "loss": 1.2984,
      "mean_token_accuracy": 0.678433025876681,
      "num_tokens": 2988134589.0,
      "step": 17826
    },
    {
      "entropy": 1.7250191171964009,
      "epoch": 1.9583916948175002,
      "grad_norm": 0.723518967628479,
      "learning_rate": 2.0205580459347796e-06,
      "loss": 1.4791,
      "mean_token_accuracy": 0.6549117714166641,
      "num_tokens": 2988285766.0,
      "step": 17827
    },
    {
      "entropy": 1.6623546183109283,
      "epoch": 1.9585015517288733,
      "grad_norm": 1.5038546323776245,
      "learning_rate": 2.0204500290023898e-06,
      "loss": 1.2749,
      "mean_token_accuracy": 0.6662939141194025,
      "num_tokens": 2988537104.0,
      "step": 17828
    },
    {
      "entropy": 1.6771051188309987,
      "epoch": 1.958611408640246,
      "grad_norm": 0.6059991717338562,
      "learning_rate": 2.0203422962687107e-06,
      "loss": 1.474,
      "mean_token_accuracy": 0.650149792432785,
      "num_tokens": 2988725414.0,
      "step": 17829
    },
    {
      "entropy": 1.757999986410141,
      "epoch": 1.958721265551619,
      "grad_norm": 0.7955412268638611,
      "learning_rate": 2.0202348477371504e-06,
      "loss": 1.4515,
      "mean_token_accuracy": 0.659949521223704,
      "num_tokens": 2988875269.0,
      "step": 17830
    },
    {
      "entropy": 1.7157710095246632,
      "epoch": 1.958831122462992,
      "grad_norm": 0.6813088059425354,
      "learning_rate": 2.0201276834111118e-06,
      "loss": 1.3589,
      "mean_token_accuracy": 0.6719192713499069,
      "num_tokens": 2989020852.0,
      "step": 17831
    },
    {
      "entropy": 1.7082193493843079,
      "epoch": 1.9589409793743648,
      "grad_norm": 0.7664187550544739,
      "learning_rate": 2.020020803293985e-06,
      "loss": 1.2593,
      "mean_token_accuracy": 0.6711249748865763,
      "num_tokens": 2989151390.0,
      "step": 17832
    },
    {
      "entropy": 1.770639955997467,
      "epoch": 1.959050836285738,
      "grad_norm": 0.6521178483963013,
      "learning_rate": 2.0199142073891527e-06,
      "loss": 1.3776,
      "mean_token_accuracy": 0.6535575886567434,
      "num_tokens": 2989329801.0,
      "step": 17833
    },
    {
      "entropy": 1.6498074233531952,
      "epoch": 1.9591606931971106,
      "grad_norm": 0.7866834998130798,
      "learning_rate": 2.019807895699991e-06,
      "loss": 1.4535,
      "mean_token_accuracy": 0.6591331660747528,
      "num_tokens": 2989475469.0,
      "step": 17834
    },
    {
      "entropy": 1.6990808149178822,
      "epoch": 1.9592705501084837,
      "grad_norm": 0.656196653842926,
      "learning_rate": 2.0197018682298614e-06,
      "loss": 1.551,
      "mean_token_accuracy": 0.6299006740252177,
      "num_tokens": 2989681045.0,
      "step": 17835
    },
    {
      "entropy": 1.6446273624897003,
      "epoch": 1.9593804070198566,
      "grad_norm": 0.6230295300483704,
      "learning_rate": 2.019596124982121e-06,
      "loss": 1.4115,
      "mean_token_accuracy": 0.6549782206614813,
      "num_tokens": 2989876665.0,
      "step": 17836
    },
    {
      "entropy": 1.6909184356530507,
      "epoch": 1.9594902639312295,
      "grad_norm": 0.674351692199707,
      "learning_rate": 2.0194906659601184e-06,
      "loss": 1.4357,
      "mean_token_accuracy": 0.6496634483337402,
      "num_tokens": 2990066264.0,
      "step": 17837
    },
    {
      "entropy": 1.762929618358612,
      "epoch": 1.9596001208426026,
      "grad_norm": 0.8096222281455994,
      "learning_rate": 2.0193854911671875e-06,
      "loss": 1.432,
      "mean_token_accuracy": 0.64181949198246,
      "num_tokens": 2990181928.0,
      "step": 17838
    },
    {
      "entropy": 1.728385289510091,
      "epoch": 1.9597099777539755,
      "grad_norm": 0.81138676404953,
      "learning_rate": 2.0192806006066588e-06,
      "loss": 1.3549,
      "mean_token_accuracy": 0.6485754102468491,
      "num_tokens": 2990336143.0,
      "step": 17839
    },
    {
      "entropy": 1.7208243906497955,
      "epoch": 1.9598198346653484,
      "grad_norm": 0.6620015501976013,
      "learning_rate": 2.019175994281854e-06,
      "loss": 1.4155,
      "mean_token_accuracy": 0.662138968706131,
      "num_tokens": 2990511656.0,
      "step": 17840
    },
    {
      "entropy": 1.6964669227600098,
      "epoch": 1.9599296915767215,
      "grad_norm": 0.614718496799469,
      "learning_rate": 2.019071672196081e-06,
      "loss": 1.4276,
      "mean_token_accuracy": 0.6447423497835795,
      "num_tokens": 2990694853.0,
      "step": 17841
    },
    {
      "entropy": 1.708295355240504,
      "epoch": 1.9600395484880941,
      "grad_norm": 0.6118777990341187,
      "learning_rate": 2.0189676343526424e-06,
      "loss": 1.4314,
      "mean_token_accuracy": 0.6555359264214834,
      "num_tokens": 2990875634.0,
      "step": 17842
    },
    {
      "entropy": 1.7391878565152485,
      "epoch": 1.9601494053994672,
      "grad_norm": 0.6601645946502686,
      "learning_rate": 2.0188638807548327e-06,
      "loss": 1.4738,
      "mean_token_accuracy": 0.6468467364708582,
      "num_tokens": 2991041250.0,
      "step": 17843
    },
    {
      "entropy": 1.734427313009898,
      "epoch": 1.9602592623108401,
      "grad_norm": 0.7099672555923462,
      "learning_rate": 2.0187604114059326e-06,
      "loss": 1.4544,
      "mean_token_accuracy": 0.648030087351799,
      "num_tokens": 2991231154.0,
      "step": 17844
    },
    {
      "entropy": 1.6761779586474101,
      "epoch": 1.960369119222213,
      "grad_norm": 0.8135700225830078,
      "learning_rate": 2.01865722630922e-06,
      "loss": 1.493,
      "mean_token_accuracy": 0.6484993646542231,
      "num_tokens": 2991397922.0,
      "step": 17845
    },
    {
      "entropy": 1.6813652515411377,
      "epoch": 1.9604789761335861,
      "grad_norm": 0.616743266582489,
      "learning_rate": 2.0185543254679576e-06,
      "loss": 1.4241,
      "mean_token_accuracy": 0.649142454067866,
      "num_tokens": 2991592641.0,
      "step": 17846
    },
    {
      "entropy": 1.7229444285233815,
      "epoch": 1.9605888330449588,
      "grad_norm": 0.7352148294448853,
      "learning_rate": 2.0184517088854044e-06,
      "loss": 1.4267,
      "mean_token_accuracy": 0.6816410024960836,
      "num_tokens": 2991728524.0,
      "step": 17847
    },
    {
      "entropy": 1.737259527047475,
      "epoch": 1.960698689956332,
      "grad_norm": 0.7628870606422424,
      "learning_rate": 2.0183493765648073e-06,
      "loss": 1.3125,
      "mean_token_accuracy": 0.6667766869068146,
      "num_tokens": 2991859087.0,
      "step": 17848
    },
    {
      "entropy": 1.7120140492916107,
      "epoch": 1.9608085468677048,
      "grad_norm": 0.8102467060089111,
      "learning_rate": 2.018247328509405e-06,
      "loss": 1.4574,
      "mean_token_accuracy": 0.6617083897193273,
      "num_tokens": 2992026244.0,
      "step": 17849
    },
    {
      "entropy": 1.7056652307510376,
      "epoch": 1.9609184037790777,
      "grad_norm": 0.6154736280441284,
      "learning_rate": 2.018145564722428e-06,
      "loss": 1.3339,
      "mean_token_accuracy": 0.6581693887710571,
      "num_tokens": 2992195285.0,
      "step": 17850
    },
    {
      "entropy": 1.7515573799610138,
      "epoch": 1.9610282606904508,
      "grad_norm": 0.662531852722168,
      "learning_rate": 2.0180440852070963e-06,
      "loss": 1.4603,
      "mean_token_accuracy": 0.6410819639762243,
      "num_tokens": 2992437084.0,
      "step": 17851
    },
    {
      "entropy": 1.7056761781374614,
      "epoch": 1.9611381176018237,
      "grad_norm": 0.6547462344169617,
      "learning_rate": 2.017942889966621e-06,
      "loss": 1.2562,
      "mean_token_accuracy": 0.676432599623998,
      "num_tokens": 2992561421.0,
      "step": 17852
    },
    {
      "entropy": 1.7316773037115734,
      "epoch": 1.9612479745131965,
      "grad_norm": 0.6276424527168274,
      "learning_rate": 2.0178419790042067e-06,
      "loss": 1.3315,
      "mean_token_accuracy": 0.6649932016928991,
      "num_tokens": 2992734585.0,
      "step": 17853
    },
    {
      "entropy": 1.6133818924427032,
      "epoch": 1.9613578314245697,
      "grad_norm": 0.6731429100036621,
      "learning_rate": 2.017741352323046e-06,
      "loss": 1.1471,
      "mean_token_accuracy": 0.7009394268194834,
      "num_tokens": 2992844477.0,
      "step": 17854
    },
    {
      "entropy": 1.6940800249576569,
      "epoch": 1.9614676883359423,
      "grad_norm": 0.7534624934196472,
      "learning_rate": 2.0176410099263245e-06,
      "loss": 1.1898,
      "mean_token_accuracy": 0.6858446151018143,
      "num_tokens": 2992951432.0,
      "step": 17855
    },
    {
      "entropy": 1.7091482083002727,
      "epoch": 1.9615775452473154,
      "grad_norm": 0.6614341735839844,
      "learning_rate": 2.017540951817217e-06,
      "loss": 1.4209,
      "mean_token_accuracy": 0.6604591459035873,
      "num_tokens": 2993157963.0,
      "step": 17856
    },
    {
      "entropy": 1.743918001651764,
      "epoch": 1.9616874021586883,
      "grad_norm": 0.8729313015937805,
      "learning_rate": 2.017441177998892e-06,
      "loss": 1.5282,
      "mean_token_accuracy": 0.6517240107059479,
      "num_tokens": 2993348516.0,
      "step": 17857
    },
    {
      "entropy": 1.6870131293932598,
      "epoch": 1.9617972590700612,
      "grad_norm": 1.8149455785751343,
      "learning_rate": 2.017341688474505e-06,
      "loss": 1.0478,
      "mean_token_accuracy": 0.6817310601472855,
      "num_tokens": 2993514126.0,
      "step": 17858
    },
    {
      "entropy": 1.7509052058060963,
      "epoch": 1.9619071159814343,
      "grad_norm": 0.7601586580276489,
      "learning_rate": 2.017242483247206e-06,
      "loss": 1.4875,
      "mean_token_accuracy": 0.6382629126310349,
      "num_tokens": 2993744695.0,
      "step": 17859
    },
    {
      "entropy": 1.7065601646900177,
      "epoch": 1.962016972892807,
      "grad_norm": 0.5603963732719421,
      "learning_rate": 2.017143562320135e-06,
      "loss": 1.4044,
      "mean_token_accuracy": 0.6478400429089864,
      "num_tokens": 2993936539.0,
      "step": 17860
    },
    {
      "entropy": 1.6877718269824982,
      "epoch": 1.96212682980418,
      "grad_norm": 0.7344236969947815,
      "learning_rate": 2.0170449256964217e-06,
      "loss": 1.3698,
      "mean_token_accuracy": 0.6719866941372553,
      "num_tokens": 2994087478.0,
      "step": 17861
    },
    {
      "entropy": 1.6488263805707295,
      "epoch": 1.962236686715553,
      "grad_norm": 0.6478110551834106,
      "learning_rate": 2.0169465733791895e-06,
      "loss": 1.403,
      "mean_token_accuracy": 0.6502639551957449,
      "num_tokens": 2994304002.0,
      "step": 17862
    },
    {
      "entropy": 1.7499266862869263,
      "epoch": 1.9623465436269258,
      "grad_norm": 0.8414444327354431,
      "learning_rate": 2.0168485053715497e-06,
      "loss": 1.4985,
      "mean_token_accuracy": 0.6633632381757101,
      "num_tokens": 2994442860.0,
      "step": 17863
    },
    {
      "entropy": 1.6683284640312195,
      "epoch": 1.962456400538299,
      "grad_norm": 0.8371381759643555,
      "learning_rate": 2.0167507216766076e-06,
      "loss": 1.2807,
      "mean_token_accuracy": 0.6784952729940414,
      "num_tokens": 2994570920.0,
      "step": 17864
    },
    {
      "entropy": 1.7751424014568329,
      "epoch": 1.9625662574496718,
      "grad_norm": 0.6342650651931763,
      "learning_rate": 2.0166532222974564e-06,
      "loss": 1.464,
      "mean_token_accuracy": 0.6453549315532049,
      "num_tokens": 2994786840.0,
      "step": 17865
    },
    {
      "entropy": 1.7355596522490184,
      "epoch": 1.9626761143610447,
      "grad_norm": 0.776604175567627,
      "learning_rate": 2.0165560072371824e-06,
      "loss": 1.4411,
      "mean_token_accuracy": 0.6572767297426859,
      "num_tokens": 2994965451.0,
      "step": 17866
    },
    {
      "entropy": 1.6895995835463207,
      "epoch": 1.9627859712724178,
      "grad_norm": 0.7442336678504944,
      "learning_rate": 2.0164590764988637e-06,
      "loss": 1.4932,
      "mean_token_accuracy": 0.6494418730338415,
      "num_tokens": 2995177256.0,
      "step": 17867
    },
    {
      "entropy": 1.7676254113515217,
      "epoch": 1.9628958281837905,
      "grad_norm": 0.6468122005462646,
      "learning_rate": 2.016362430085567e-06,
      "loss": 1.5374,
      "mean_token_accuracy": 0.6308100124200186,
      "num_tokens": 2995357688.0,
      "step": 17868
    },
    {
      "entropy": 1.7291751305262248,
      "epoch": 1.9630056850951636,
      "grad_norm": 0.7243047952651978,
      "learning_rate": 2.016266068000351e-06,
      "loss": 1.4871,
      "mean_token_accuracy": 0.6339818388223648,
      "num_tokens": 2995565257.0,
      "step": 17869
    },
    {
      "entropy": 1.7408881783485413,
      "epoch": 1.9631155420065365,
      "grad_norm": 0.7614642977714539,
      "learning_rate": 2.0161699902462664e-06,
      "loss": 1.5102,
      "mean_token_accuracy": 0.6478269298871359,
      "num_tokens": 2995720018.0,
      "step": 17870
    },
    {
      "entropy": 1.6972165405750275,
      "epoch": 1.9632253989179094,
      "grad_norm": 0.7591689229011536,
      "learning_rate": 2.016074196826353e-06,
      "loss": 1.3704,
      "mean_token_accuracy": 0.6604073345661163,
      "num_tokens": 2995871780.0,
      "step": 17871
    },
    {
      "entropy": 1.6704501807689667,
      "epoch": 1.9633352558292825,
      "grad_norm": 0.665471076965332,
      "learning_rate": 2.0159786877436425e-06,
      "loss": 1.3698,
      "mean_token_accuracy": 0.6625976065794627,
      "num_tokens": 2996074778.0,
      "step": 17872
    },
    {
      "entropy": 1.6610515713691711,
      "epoch": 1.9634451127406551,
      "grad_norm": 0.6701338887214661,
      "learning_rate": 2.015883463001159e-06,
      "loss": 1.3937,
      "mean_token_accuracy": 0.6479357580343882,
      "num_tokens": 2996245890.0,
      "step": 17873
    },
    {
      "entropy": 1.6841512620449066,
      "epoch": 1.9635549696520282,
      "grad_norm": 0.7010718584060669,
      "learning_rate": 2.015788522601915e-06,
      "loss": 1.368,
      "mean_token_accuracy": 0.6470450113217036,
      "num_tokens": 2996414751.0,
      "step": 17874
    },
    {
      "entropy": 1.678158462047577,
      "epoch": 1.9636648265634011,
      "grad_norm": 0.8353567123413086,
      "learning_rate": 2.0156938665489163e-06,
      "loss": 1.3558,
      "mean_token_accuracy": 0.6673894474903742,
      "num_tokens": 2996608436.0,
      "step": 17875
    },
    {
      "entropy": 1.6845565140247345,
      "epoch": 1.963774683474774,
      "grad_norm": 0.5820711851119995,
      "learning_rate": 2.0155994948451575e-06,
      "loss": 1.3492,
      "mean_token_accuracy": 0.6662445664405823,
      "num_tokens": 2996777414.0,
      "step": 17876
    },
    {
      "entropy": 1.692328284184138,
      "epoch": 1.9638845403861471,
      "grad_norm": 0.7429178357124329,
      "learning_rate": 2.015505407493627e-06,
      "loss": 1.3524,
      "mean_token_accuracy": 0.6588386446237564,
      "num_tokens": 2996917973.0,
      "step": 17877
    },
    {
      "entropy": 1.7147633930047352,
      "epoch": 1.96399439729752,
      "grad_norm": 0.6130802035331726,
      "learning_rate": 2.0154116044973023e-06,
      "loss": 1.3864,
      "mean_token_accuracy": 0.6510560760895411,
      "num_tokens": 2997075428.0,
      "step": 17878
    },
    {
      "entropy": 1.674227237701416,
      "epoch": 1.964104254208893,
      "grad_norm": 0.6673222184181213,
      "learning_rate": 2.015318085859151e-06,
      "loss": 1.2579,
      "mean_token_accuracy": 0.6707002917925516,
      "num_tokens": 2997213096.0,
      "step": 17879
    },
    {
      "entropy": 1.669933428366979,
      "epoch": 1.964214111120266,
      "grad_norm": 0.781856894493103,
      "learning_rate": 2.0152248515821334e-06,
      "loss": 1.3723,
      "mean_token_accuracy": 0.6608141760031382,
      "num_tokens": 2997395284.0,
      "step": 17880
    },
    {
      "entropy": 1.7202060023943584,
      "epoch": 1.9643239680316387,
      "grad_norm": 1.0455927848815918,
      "learning_rate": 2.0151319016692005e-06,
      "loss": 1.5199,
      "mean_token_accuracy": 0.6652625252803167,
      "num_tokens": 2997573918.0,
      "step": 17881
    },
    {
      "entropy": 1.700150231520335,
      "epoch": 1.9644338249430118,
      "grad_norm": 0.718952476978302,
      "learning_rate": 2.015039236123295e-06,
      "loss": 1.3763,
      "mean_token_accuracy": 0.649369607369105,
      "num_tokens": 2997731551.0,
      "step": 17882
    },
    {
      "entropy": 1.7306404809157054,
      "epoch": 1.9645436818543847,
      "grad_norm": 0.6521731615066528,
      "learning_rate": 2.014946854947349e-06,
      "loss": 1.3775,
      "mean_token_accuracy": 0.6443797498941422,
      "num_tokens": 2997883899.0,
      "step": 17883
    },
    {
      "entropy": 1.767806778351466,
      "epoch": 1.9646535387657575,
      "grad_norm": 0.9187655448913574,
      "learning_rate": 2.014854758144286e-06,
      "loss": 1.6006,
      "mean_token_accuracy": 0.6336929003397623,
      "num_tokens": 2998040914.0,
      "step": 17884
    },
    {
      "entropy": 1.73748313387235,
      "epoch": 1.9647633956771307,
      "grad_norm": 0.7256967425346375,
      "learning_rate": 2.0147629457170213e-06,
      "loss": 1.2618,
      "mean_token_accuracy": 0.6701177606980006,
      "num_tokens": 2998217430.0,
      "step": 17885
    },
    {
      "entropy": 1.6992026666800182,
      "epoch": 1.9648732525885033,
      "grad_norm": 0.6321195363998413,
      "learning_rate": 2.01467141766846e-06,
      "loss": 1.3484,
      "mean_token_accuracy": 0.6581118901570638,
      "num_tokens": 2998385433.0,
      "step": 17886
    },
    {
      "entropy": 1.7310790121555328,
      "epoch": 1.9649831094998764,
      "grad_norm": 0.7075302600860596,
      "learning_rate": 2.0145801740015e-06,
      "loss": 1.5002,
      "mean_token_accuracy": 0.6584192862113317,
      "num_tokens": 2998560209.0,
      "step": 17887
    },
    {
      "entropy": 1.6907731493314107,
      "epoch": 1.9650929664112493,
      "grad_norm": 0.7162296772003174,
      "learning_rate": 2.014489214719028e-06,
      "loss": 1.2948,
      "mean_token_accuracy": 0.6692901601394018,
      "num_tokens": 2998710324.0,
      "step": 17888
    },
    {
      "entropy": 1.7298618853092194,
      "epoch": 1.9652028233226222,
      "grad_norm": 0.6216132044792175,
      "learning_rate": 2.0143985398239234e-06,
      "loss": 1.4547,
      "mean_token_accuracy": 0.6533665706713995,
      "num_tokens": 2998882685.0,
      "step": 17889
    },
    {
      "entropy": 1.6897225081920624,
      "epoch": 1.9653126802339953,
      "grad_norm": 0.6112697720527649,
      "learning_rate": 2.0143081493190567e-06,
      "loss": 1.4371,
      "mean_token_accuracy": 0.6600435972213745,
      "num_tokens": 2999088643.0,
      "step": 17890
    },
    {
      "entropy": 1.688838044802348,
      "epoch": 1.9654225371453682,
      "grad_norm": 0.7275003790855408,
      "learning_rate": 2.0142180432072876e-06,
      "loss": 1.4302,
      "mean_token_accuracy": 0.6603851070006689,
      "num_tokens": 2999265814.0,
      "step": 17891
    },
    {
      "entropy": 1.6855897307395935,
      "epoch": 1.965532394056741,
      "grad_norm": 0.6274251937866211,
      "learning_rate": 2.0141282214914685e-06,
      "loss": 1.2999,
      "mean_token_accuracy": 0.6625367701053619,
      "num_tokens": 2999421528.0,
      "step": 17892
    },
    {
      "entropy": 1.6572815577189128,
      "epoch": 1.9656422509681142,
      "grad_norm": 0.766179084777832,
      "learning_rate": 2.014038684174442e-06,
      "loss": 1.3068,
      "mean_token_accuracy": 0.6744897613922755,
      "num_tokens": 2999571936.0,
      "step": 17893
    },
    {
      "entropy": 1.7280305624008179,
      "epoch": 1.9657521078794868,
      "grad_norm": 0.7325267195701599,
      "learning_rate": 2.0139494312590415e-06,
      "loss": 1.4753,
      "mean_token_accuracy": 0.6507488141457239,
      "num_tokens": 2999749565.0,
      "step": 17894
    },
    {
      "entropy": 1.6773878633975983,
      "epoch": 1.96586196479086,
      "grad_norm": 0.6621171236038208,
      "learning_rate": 2.013860462748093e-06,
      "loss": 1.4302,
      "mean_token_accuracy": 0.6595263083775839,
      "num_tokens": 2999909764.0,
      "step": 17895
    },
    {
      "entropy": 1.6768188774585724,
      "epoch": 1.9659718217022328,
      "grad_norm": 0.6506795883178711,
      "learning_rate": 2.0137717786444112e-06,
      "loss": 1.4475,
      "mean_token_accuracy": 0.6549390902121862,
      "num_tokens": 3000064739.0,
      "step": 17896
    },
    {
      "entropy": 1.7129511932531993,
      "epoch": 1.9660816786136057,
      "grad_norm": 0.643744707107544,
      "learning_rate": 2.0136833789508033e-06,
      "loss": 1.48,
      "mean_token_accuracy": 0.6619319965442022,
      "num_tokens": 3000241947.0,
      "step": 17897
    },
    {
      "entropy": 1.700930525859197,
      "epoch": 1.9661915355249788,
      "grad_norm": 0.625928521156311,
      "learning_rate": 2.0135952636700674e-06,
      "loss": 1.2884,
      "mean_token_accuracy": 0.6703586975733439,
      "num_tokens": 3000384757.0,
      "step": 17898
    },
    {
      "entropy": 1.697757363319397,
      "epoch": 1.9663013924363515,
      "grad_norm": 0.6434378623962402,
      "learning_rate": 2.0135074328049923e-06,
      "loss": 1.3812,
      "mean_token_accuracy": 0.6578892767429352,
      "num_tokens": 3000562786.0,
      "step": 17899
    },
    {
      "entropy": 1.6748135387897491,
      "epoch": 1.9664112493477246,
      "grad_norm": 0.6851823329925537,
      "learning_rate": 2.0134198863583563e-06,
      "loss": 1.4003,
      "mean_token_accuracy": 0.6644940574963888,
      "num_tokens": 3000707563.0,
      "step": 17900
    },
    {
      "entropy": 1.7217712998390198,
      "epoch": 1.9665211062590975,
      "grad_norm": 0.6717512011528015,
      "learning_rate": 2.0133326243329327e-06,
      "loss": 1.2687,
      "mean_token_accuracy": 0.6760751704374949,
      "num_tokens": 3000863358.0,
      "step": 17901
    },
    {
      "entropy": 1.6838585337003071,
      "epoch": 1.9666309631704704,
      "grad_norm": 0.7156099677085876,
      "learning_rate": 2.0132456467314814e-06,
      "loss": 1.4277,
      "mean_token_accuracy": 0.649495929479599,
      "num_tokens": 3001021623.0,
      "step": 17902
    },
    {
      "entropy": 1.6566158632437389,
      "epoch": 1.9667408200818435,
      "grad_norm": 0.6351657509803772,
      "learning_rate": 2.0131589535567566e-06,
      "loss": 1.4425,
      "mean_token_accuracy": 0.6564101775487264,
      "num_tokens": 3001189910.0,
      "step": 17903
    },
    {
      "entropy": 1.6897284885247548,
      "epoch": 1.9668506769932164,
      "grad_norm": 0.6042178273200989,
      "learning_rate": 2.0130725448115005e-06,
      "loss": 1.3028,
      "mean_token_accuracy": 0.6670292864243189,
      "num_tokens": 3001334695.0,
      "step": 17904
    },
    {
      "entropy": 1.6312000652154286,
      "epoch": 1.9669605339045892,
      "grad_norm": 0.59149169921875,
      "learning_rate": 2.012986420498449e-06,
      "loss": 1.3407,
      "mean_token_accuracy": 0.6634353597958883,
      "num_tokens": 3001513880.0,
      "step": 17905
    },
    {
      "entropy": 1.697037806113561,
      "epoch": 1.9670703908159624,
      "grad_norm": 0.6991804242134094,
      "learning_rate": 2.0129005806203278e-06,
      "loss": 1.3814,
      "mean_token_accuracy": 0.6621117989222208,
      "num_tokens": 3001658835.0,
      "step": 17906
    },
    {
      "entropy": 1.747629165649414,
      "epoch": 1.967180247727335,
      "grad_norm": 0.7504332065582275,
      "learning_rate": 2.0128150251798533e-06,
      "loss": 1.3286,
      "mean_token_accuracy": 0.6650111377239227,
      "num_tokens": 3001809013.0,
      "step": 17907
    },
    {
      "entropy": 1.7131927410761516,
      "epoch": 1.9672901046387081,
      "grad_norm": 0.7261272668838501,
      "learning_rate": 2.0127297541797336e-06,
      "loss": 1.3738,
      "mean_token_accuracy": 0.6725722004969915,
      "num_tokens": 3001948343.0,
      "step": 17908
    },
    {
      "entropy": 1.6718792418638866,
      "epoch": 1.967399961550081,
      "grad_norm": 0.6443445086479187,
      "learning_rate": 2.0126447676226678e-06,
      "loss": 1.3358,
      "mean_token_accuracy": 0.6656797925631205,
      "num_tokens": 3002112297.0,
      "step": 17909
    },
    {
      "entropy": 1.6951535542805989,
      "epoch": 1.967509818461454,
      "grad_norm": 0.7346131205558777,
      "learning_rate": 2.012560065511345e-06,
      "loss": 1.318,
      "mean_token_accuracy": 0.6694110383590063,
      "num_tokens": 3002236731.0,
      "step": 17910
    },
    {
      "entropy": 1.7302409609158833,
      "epoch": 1.967619675372827,
      "grad_norm": 0.625469982624054,
      "learning_rate": 2.012475647848446e-06,
      "loss": 1.3161,
      "mean_token_accuracy": 0.6690036505460739,
      "num_tokens": 3002373310.0,
      "step": 17911
    },
    {
      "entropy": 1.6581771274407704,
      "epoch": 1.9677295322841997,
      "grad_norm": 0.5975332260131836,
      "learning_rate": 2.0123915146366434e-06,
      "loss": 1.3223,
      "mean_token_accuracy": 0.6745662887891134,
      "num_tokens": 3002542926.0,
      "step": 17912
    },
    {
      "entropy": 1.6342376867930095,
      "epoch": 1.9678393891955728,
      "grad_norm": 0.6779927611351013,
      "learning_rate": 2.012307665878599e-06,
      "loss": 1.3618,
      "mean_token_accuracy": 0.6652511854966482,
      "num_tokens": 3002702125.0,
      "step": 17913
    },
    {
      "entropy": 1.714419464270274,
      "epoch": 1.9679492461069457,
      "grad_norm": 0.6036478877067566,
      "learning_rate": 2.0122241015769676e-06,
      "loss": 1.378,
      "mean_token_accuracy": 0.6464525610208511,
      "num_tokens": 3002865175.0,
      "step": 17914
    },
    {
      "entropy": 1.7365634739398956,
      "epoch": 1.9680591030183185,
      "grad_norm": 0.9775516390800476,
      "learning_rate": 2.0121408217343923e-06,
      "loss": 1.3371,
      "mean_token_accuracy": 0.6688741395870844,
      "num_tokens": 3002997739.0,
      "step": 17915
    },
    {
      "entropy": 1.7164349257946014,
      "epoch": 1.9681689599296917,
      "grad_norm": 0.6772252321243286,
      "learning_rate": 2.0120578263535116e-06,
      "loss": 1.4787,
      "mean_token_accuracy": 0.6568474372227987,
      "num_tokens": 3003173190.0,
      "step": 17916
    },
    {
      "entropy": 1.6874643166859944,
      "epoch": 1.9682788168410645,
      "grad_norm": 0.6911616325378418,
      "learning_rate": 2.01197511543695e-06,
      "loss": 1.4895,
      "mean_token_accuracy": 0.6461264938116074,
      "num_tokens": 3003386472.0,
      "step": 17917
    },
    {
      "entropy": 1.7422433296839397,
      "epoch": 1.9683886737524374,
      "grad_norm": 0.7325913906097412,
      "learning_rate": 2.011892688987325e-06,
      "loss": 1.5443,
      "mean_token_accuracy": 0.6517143944899241,
      "num_tokens": 3003544907.0,
      "step": 17918
    },
    {
      "entropy": 1.7027767598628998,
      "epoch": 1.9684985306638105,
      "grad_norm": 0.6650202870368958,
      "learning_rate": 2.011810547007247e-06,
      "loss": 1.3508,
      "mean_token_accuracy": 0.6672835250695547,
      "num_tokens": 3003683798.0,
      "step": 17919
    },
    {
      "entropy": 1.6662018199761708,
      "epoch": 1.9686083875751832,
      "grad_norm": 0.8393872976303101,
      "learning_rate": 2.0117286894993153e-06,
      "loss": 1.2116,
      "mean_token_accuracy": 0.684177945057551,
      "num_tokens": 3003813303.0,
      "step": 17920
    },
    {
      "entropy": 1.6738957564036052,
      "epoch": 1.9687182444865563,
      "grad_norm": 0.6645524501800537,
      "learning_rate": 2.01164711646612e-06,
      "loss": 1.4325,
      "mean_token_accuracy": 0.6557613164186478,
      "num_tokens": 3003993607.0,
      "step": 17921
    },
    {
      "entropy": 1.6993304590384166,
      "epoch": 1.9688281013979292,
      "grad_norm": 0.8092979788780212,
      "learning_rate": 2.0115658279102425e-06,
      "loss": 1.5485,
      "mean_token_accuracy": 0.632763127485911,
      "num_tokens": 3004208309.0,
      "step": 17922
    },
    {
      "entropy": 1.7931698858737946,
      "epoch": 1.968937958309302,
      "grad_norm": 0.6377851963043213,
      "learning_rate": 2.011484823834258e-06,
      "loss": 1.3844,
      "mean_token_accuracy": 0.6499971399704615,
      "num_tokens": 3004364405.0,
      "step": 17923
    },
    {
      "entropy": 1.7573831876118977,
      "epoch": 1.9690478152206752,
      "grad_norm": 0.729793131351471,
      "learning_rate": 2.0114041042407263e-06,
      "loss": 1.381,
      "mean_token_accuracy": 0.6636466036240259,
      "num_tokens": 3004561554.0,
      "step": 17924
    },
    {
      "entropy": 1.6667506992816925,
      "epoch": 1.9691576721320478,
      "grad_norm": 0.685034990310669,
      "learning_rate": 2.0113236691322057e-06,
      "loss": 1.5663,
      "mean_token_accuracy": 0.6583135426044464,
      "num_tokens": 3004756452.0,
      "step": 17925
    },
    {
      "entropy": 1.6636810302734375,
      "epoch": 1.969267529043421,
      "grad_norm": 0.660313606262207,
      "learning_rate": 2.0112435185112403e-06,
      "loss": 1.423,
      "mean_token_accuracy": 0.6492910335461298,
      "num_tokens": 3004946559.0,
      "step": 17926
    },
    {
      "entropy": 1.6946007212003071,
      "epoch": 1.9693773859547938,
      "grad_norm": 0.6375925540924072,
      "learning_rate": 2.0111636523803675e-06,
      "loss": 1.3594,
      "mean_token_accuracy": 0.6636908402045568,
      "num_tokens": 3005102722.0,
      "step": 17927
    },
    {
      "entropy": 1.6661100486914318,
      "epoch": 1.9694872428661667,
      "grad_norm": 0.6003373265266418,
      "learning_rate": 2.011084070742114e-06,
      "loss": 1.5099,
      "mean_token_accuracy": 0.657312293847402,
      "num_tokens": 3005269206.0,
      "step": 17928
    },
    {
      "entropy": 1.7043770054976146,
      "epoch": 1.9695970997775398,
      "grad_norm": 0.6125054359436035,
      "learning_rate": 2.0110047735989994e-06,
      "loss": 1.474,
      "mean_token_accuracy": 0.6454812387625376,
      "num_tokens": 3005453743.0,
      "step": 17929
    },
    {
      "entropy": 1.71139990290006,
      "epoch": 1.9697069566889127,
      "grad_norm": 0.6473939418792725,
      "learning_rate": 2.0109257609535333e-06,
      "loss": 1.4996,
      "mean_token_accuracy": 0.6278078705072403,
      "num_tokens": 3005689388.0,
      "step": 17930
    },
    {
      "entropy": 1.654092291990916,
      "epoch": 1.9698168136002856,
      "grad_norm": 0.6603448390960693,
      "learning_rate": 2.010847032808216e-06,
      "loss": 1.1989,
      "mean_token_accuracy": 0.6887961675723394,
      "num_tokens": 3005819944.0,
      "step": 17931
    },
    {
      "entropy": 1.6703099111715953,
      "epoch": 1.9699266705116587,
      "grad_norm": 0.7166707515716553,
      "learning_rate": 2.0107685891655396e-06,
      "loss": 1.3184,
      "mean_token_accuracy": 0.6670674930016199,
      "num_tokens": 3005962932.0,
      "step": 17932
    },
    {
      "entropy": 1.6925211747487385,
      "epoch": 1.9700365274230314,
      "grad_norm": 0.8018051981925964,
      "learning_rate": 2.0106904300279875e-06,
      "loss": 1.1981,
      "mean_token_accuracy": 0.6955769310394923,
      "num_tokens": 3006075267.0,
      "step": 17933
    },
    {
      "entropy": 1.6854363183180492,
      "epoch": 1.9701463843344045,
      "grad_norm": 0.6480568647384644,
      "learning_rate": 2.010612555398032e-06,
      "loss": 1.3139,
      "mean_token_accuracy": 0.6723464528719584,
      "num_tokens": 3006253222.0,
      "step": 17934
    },
    {
      "entropy": 1.6880821188290913,
      "epoch": 1.9702562412457774,
      "grad_norm": 0.7775602340698242,
      "learning_rate": 2.0105349652781383e-06,
      "loss": 1.2487,
      "mean_token_accuracy": 0.6716853429873785,
      "num_tokens": 3006374921.0,
      "step": 17935
    },
    {
      "entropy": 1.725311279296875,
      "epoch": 1.9703660981571502,
      "grad_norm": 0.8793063163757324,
      "learning_rate": 2.0104576596707627e-06,
      "loss": 1.451,
      "mean_token_accuracy": 0.6542079498370489,
      "num_tokens": 3006567762.0,
      "step": 17936
    },
    {
      "entropy": 1.6732623775800068,
      "epoch": 1.9704759550685234,
      "grad_norm": 0.6772112846374512,
      "learning_rate": 2.0103806385783504e-06,
      "loss": 1.2661,
      "mean_token_accuracy": 0.6756617873907089,
      "num_tokens": 3006709794.0,
      "step": 17937
    },
    {
      "entropy": 1.7369797627131145,
      "epoch": 1.9705858119798962,
      "grad_norm": 0.7336527109146118,
      "learning_rate": 2.0103039020033403e-06,
      "loss": 1.4932,
      "mean_token_accuracy": 0.6467774361371994,
      "num_tokens": 3006873792.0,
      "step": 17938
    },
    {
      "entropy": 1.671160767475764,
      "epoch": 1.9706956688912691,
      "grad_norm": 0.684969961643219,
      "learning_rate": 2.0102274499481617e-06,
      "loss": 1.3979,
      "mean_token_accuracy": 0.6610272874434789,
      "num_tokens": 3007044737.0,
      "step": 17939
    },
    {
      "entropy": 1.6652365227540333,
      "epoch": 1.970805525802642,
      "grad_norm": 0.6617401242256165,
      "learning_rate": 2.010151282415233e-06,
      "loss": 1.3237,
      "mean_token_accuracy": 0.6622043897708257,
      "num_tokens": 3007183324.0,
      "step": 17940
    },
    {
      "entropy": 1.6508016188939412,
      "epoch": 1.970915382714015,
      "grad_norm": 0.7206847667694092,
      "learning_rate": 2.010075399406965e-06,
      "loss": 1.4783,
      "mean_token_accuracy": 0.6530425846576691,
      "num_tokens": 3007373061.0,
      "step": 17941
    },
    {
      "entropy": 1.7173553705215454,
      "epoch": 1.971025239625388,
      "grad_norm": 0.741521954536438,
      "learning_rate": 2.00999980092576e-06,
      "loss": 1.4746,
      "mean_token_accuracy": 0.6368623872598013,
      "num_tokens": 3007552632.0,
      "step": 17942
    },
    {
      "entropy": 1.7114310661951702,
      "epoch": 1.9711350965367609,
      "grad_norm": 0.6318982243537903,
      "learning_rate": 2.0099244869740097e-06,
      "loss": 1.3902,
      "mean_token_accuracy": 0.6469387610753378,
      "num_tokens": 3007779921.0,
      "step": 17943
    },
    {
      "entropy": 1.7579089105129242,
      "epoch": 1.9712449534481338,
      "grad_norm": 0.7655471563339233,
      "learning_rate": 2.0098494575540984e-06,
      "loss": 1.3765,
      "mean_token_accuracy": 0.6498502790927887,
      "num_tokens": 3007926071.0,
      "step": 17944
    },
    {
      "entropy": 1.6568682293097179,
      "epoch": 1.9713548103595069,
      "grad_norm": 0.8164061903953552,
      "learning_rate": 2.009774712668402e-06,
      "loss": 1.373,
      "mean_token_accuracy": 0.6605587005615234,
      "num_tokens": 3008099242.0,
      "step": 17945
    },
    {
      "entropy": 1.680535574754079,
      "epoch": 1.9714646672708795,
      "grad_norm": 0.6372302174568176,
      "learning_rate": 2.009700252319283e-06,
      "loss": 1.3498,
      "mean_token_accuracy": 0.6511732886234919,
      "num_tokens": 3008321670.0,
      "step": 17946
    },
    {
      "entropy": 1.7110346754391987,
      "epoch": 1.9715745241822527,
      "grad_norm": 0.7086535096168518,
      "learning_rate": 2.0096260765091015e-06,
      "loss": 1.3739,
      "mean_token_accuracy": 0.6551353732744852,
      "num_tokens": 3008445047.0,
      "step": 17947
    },
    {
      "entropy": 1.7076995074748993,
      "epoch": 1.9716843810936255,
      "grad_norm": 0.7128680348396301,
      "learning_rate": 2.0095521852402027e-06,
      "loss": 1.3066,
      "mean_token_accuracy": 0.6718765745560328,
      "num_tokens": 3008565086.0,
      "step": 17948
    },
    {
      "entropy": 1.6902350385983784,
      "epoch": 1.9717942380049984,
      "grad_norm": 0.7834108471870422,
      "learning_rate": 2.0094785785149257e-06,
      "loss": 1.4292,
      "mean_token_accuracy": 0.6641406814257304,
      "num_tokens": 3008720383.0,
      "step": 17949
    },
    {
      "entropy": 1.642638107140859,
      "epoch": 1.9719040949163715,
      "grad_norm": 0.6965975761413574,
      "learning_rate": 2.009405256335602e-06,
      "loss": 1.2824,
      "mean_token_accuracy": 0.6902331511179606,
      "num_tokens": 3008836709.0,
      "step": 17950
    },
    {
      "entropy": 1.769042044878006,
      "epoch": 1.9720139518277444,
      "grad_norm": 0.9151806235313416,
      "learning_rate": 2.0093322187045495e-06,
      "loss": 1.5366,
      "mean_token_accuracy": 0.6416715830564499,
      "num_tokens": 3009021041.0,
      "step": 17951
    },
    {
      "entropy": 1.705027828613917,
      "epoch": 1.9721238087391173,
      "grad_norm": 0.6604277491569519,
      "learning_rate": 2.0092594656240805e-06,
      "loss": 1.2852,
      "mean_token_accuracy": 0.6765786459048589,
      "num_tokens": 3009177630.0,
      "step": 17952
    },
    {
      "entropy": 1.740889310836792,
      "epoch": 1.9722336656504902,
      "grad_norm": 0.7900790572166443,
      "learning_rate": 2.0091869970965e-06,
      "loss": 1.2679,
      "mean_token_accuracy": 0.6788128217061361,
      "num_tokens": 3009308901.0,
      "step": 17953
    },
    {
      "entropy": 1.6999844014644623,
      "epoch": 1.972343522561863,
      "grad_norm": 0.6160433888435364,
      "learning_rate": 2.0091148131240973e-06,
      "loss": 1.4133,
      "mean_token_accuracy": 0.6537296175956726,
      "num_tokens": 3009523642.0,
      "step": 17954
    },
    {
      "entropy": 1.7226817508538563,
      "epoch": 1.9724533794732362,
      "grad_norm": 0.7243252992630005,
      "learning_rate": 2.0090429137091604e-06,
      "loss": 1.3226,
      "mean_token_accuracy": 0.6633811742067337,
      "num_tokens": 3009666666.0,
      "step": 17955
    },
    {
      "entropy": 1.7036002576351166,
      "epoch": 1.972563236384609,
      "grad_norm": 0.6371243596076965,
      "learning_rate": 2.0089712988539647e-06,
      "loss": 1.3227,
      "mean_token_accuracy": 0.6615711351235708,
      "num_tokens": 3009817269.0,
      "step": 17956
    },
    {
      "entropy": 1.6567615171273549,
      "epoch": 1.972673093295982,
      "grad_norm": 0.7171679735183716,
      "learning_rate": 2.008899968560774e-06,
      "loss": 1.4099,
      "mean_token_accuracy": 0.649737944205602,
      "num_tokens": 3009963221.0,
      "step": 17957
    },
    {
      "entropy": 1.7603488365809123,
      "epoch": 1.972782950207355,
      "grad_norm": 0.7773517966270447,
      "learning_rate": 2.0088289228318493e-06,
      "loss": 1.2555,
      "mean_token_accuracy": 0.6756314287583033,
      "num_tokens": 3010058260.0,
      "step": 17958
    },
    {
      "entropy": 1.7130048672358196,
      "epoch": 1.9728928071187277,
      "grad_norm": 0.7091876864433289,
      "learning_rate": 2.008758161669438e-06,
      "loss": 1.4677,
      "mean_token_accuracy": 0.6474677075942358,
      "num_tokens": 3010235324.0,
      "step": 17959
    },
    {
      "entropy": 1.7637153267860413,
      "epoch": 1.9730026640301008,
      "grad_norm": 0.8148097395896912,
      "learning_rate": 2.008687685075778e-06,
      "loss": 1.3503,
      "mean_token_accuracy": 0.6695531010627747,
      "num_tokens": 3010358374.0,
      "step": 17960
    },
    {
      "entropy": 1.6533841292063396,
      "epoch": 1.9731125209414737,
      "grad_norm": 0.6595221161842346,
      "learning_rate": 2.0086174930531026e-06,
      "loss": 1.2779,
      "mean_token_accuracy": 0.6797658701737722,
      "num_tokens": 3010515100.0,
      "step": 17961
    },
    {
      "entropy": 1.6787741879622142,
      "epoch": 1.9732223778528466,
      "grad_norm": 0.6817485690116882,
      "learning_rate": 2.0085475856036317e-06,
      "loss": 1.6186,
      "mean_token_accuracy": 0.6448809107144674,
      "num_tokens": 3010711557.0,
      "step": 17962
    },
    {
      "entropy": 1.7178953389326732,
      "epoch": 1.9733322347642197,
      "grad_norm": 0.710960865020752,
      "learning_rate": 2.0084779627295764e-06,
      "loss": 1.4679,
      "mean_token_accuracy": 0.64095505575339,
      "num_tokens": 3010862378.0,
      "step": 17963
    },
    {
      "entropy": 1.7367713054021199,
      "epoch": 1.9734420916755926,
      "grad_norm": 0.7530184388160706,
      "learning_rate": 2.008408624433144e-06,
      "loss": 1.4309,
      "mean_token_accuracy": 0.6414470473925272,
      "num_tokens": 3011047947.0,
      "step": 17964
    },
    {
      "entropy": 1.6682301461696625,
      "epoch": 1.9735519485869655,
      "grad_norm": 0.747166633605957,
      "learning_rate": 2.008339570716525e-06,
      "loss": 1.3236,
      "mean_token_accuracy": 0.6601849645376205,
      "num_tokens": 3011180016.0,
      "step": 17965
    },
    {
      "entropy": 1.7371576726436615,
      "epoch": 1.9736618054983384,
      "grad_norm": 0.7257885932922363,
      "learning_rate": 2.0082708015819084e-06,
      "loss": 1.2824,
      "mean_token_accuracy": 0.6802943547566732,
      "num_tokens": 3011352111.0,
      "step": 17966
    },
    {
      "entropy": 1.7696191271146138,
      "epoch": 1.9737716624097112,
      "grad_norm": 0.6771504878997803,
      "learning_rate": 2.008202317031469e-06,
      "loss": 1.4747,
      "mean_token_accuracy": 0.6517404715220133,
      "num_tokens": 3011523618.0,
      "step": 17967
    },
    {
      "entropy": 1.7489943603674571,
      "epoch": 1.9738815193210844,
      "grad_norm": 0.6868027448654175,
      "learning_rate": 2.0081341170673733e-06,
      "loss": 1.4084,
      "mean_token_accuracy": 0.6525389303763708,
      "num_tokens": 3011696831.0,
      "step": 17968
    },
    {
      "entropy": 1.7214332520961761,
      "epoch": 1.9739913762324572,
      "grad_norm": 0.6243865489959717,
      "learning_rate": 2.0080662016917824e-06,
      "loss": 1.4266,
      "mean_token_accuracy": 0.6496342072884241,
      "num_tokens": 3011899761.0,
      "step": 17969
    },
    {
      "entropy": 1.6936425268650055,
      "epoch": 1.9741012331438301,
      "grad_norm": 0.6805530786514282,
      "learning_rate": 2.007998570906844e-06,
      "loss": 1.4454,
      "mean_token_accuracy": 0.6591909031073252,
      "num_tokens": 3012066461.0,
      "step": 17970
    },
    {
      "entropy": 1.6858153243859608,
      "epoch": 1.9742110900552032,
      "grad_norm": 0.8352508544921875,
      "learning_rate": 2.007931224714698e-06,
      "loss": 1.2945,
      "mean_token_accuracy": 0.6747691531976064,
      "num_tokens": 3012255327.0,
      "step": 17971
    },
    {
      "entropy": 1.6527644395828247,
      "epoch": 1.974320946966576,
      "grad_norm": 0.6151508092880249,
      "learning_rate": 2.0078641631174775e-06,
      "loss": 1.2585,
      "mean_token_accuracy": 0.6740232904752096,
      "num_tokens": 3012413394.0,
      "step": 17972
    },
    {
      "entropy": 1.7410860856374104,
      "epoch": 1.974430803877949,
      "grad_norm": 0.7390371561050415,
      "learning_rate": 2.007797386117304e-06,
      "loss": 1.38,
      "mean_token_accuracy": 0.6596208562453588,
      "num_tokens": 3012562797.0,
      "step": 17973
    },
    {
      "entropy": 1.6805489460627239,
      "epoch": 1.9745406607893219,
      "grad_norm": 0.5240894556045532,
      "learning_rate": 2.007730893716292e-06,
      "loss": 1.4129,
      "mean_token_accuracy": 0.6490062524875005,
      "num_tokens": 3012788257.0,
      "step": 17974
    },
    {
      "entropy": 1.6937835117181141,
      "epoch": 1.9746505177006948,
      "grad_norm": 0.7052786350250244,
      "learning_rate": 2.0076646859165442e-06,
      "loss": 1.4543,
      "mean_token_accuracy": 0.6538620889186859,
      "num_tokens": 3012948228.0,
      "step": 17975
    },
    {
      "entropy": 1.68635560075442,
      "epoch": 1.9747603746120679,
      "grad_norm": 0.6069852709770203,
      "learning_rate": 2.0075987627201576e-06,
      "loss": 1.4386,
      "mean_token_accuracy": 0.6424238681793213,
      "num_tokens": 3013179738.0,
      "step": 17976
    },
    {
      "entropy": 1.720237821340561,
      "epoch": 1.9748702315234408,
      "grad_norm": 0.6068885922431946,
      "learning_rate": 2.007533124129218e-06,
      "loss": 1.4261,
      "mean_token_accuracy": 0.6477613896131516,
      "num_tokens": 3013348074.0,
      "step": 17977
    },
    {
      "entropy": 1.7363394598166149,
      "epoch": 1.9749800884348137,
      "grad_norm": 0.7410934567451477,
      "learning_rate": 2.0074677701458028e-06,
      "loss": 1.4191,
      "mean_token_accuracy": 0.6523391604423523,
      "num_tokens": 3013487387.0,
      "step": 17978
    },
    {
      "entropy": 1.6087459822495778,
      "epoch": 1.9750899453461865,
      "grad_norm": 0.7028157711029053,
      "learning_rate": 2.007402700771981e-06,
      "loss": 1.3504,
      "mean_token_accuracy": 0.6695465197165807,
      "num_tokens": 3013654113.0,
      "step": 17979
    },
    {
      "entropy": 1.7600714067618053,
      "epoch": 1.9751998022575594,
      "grad_norm": 0.8189085721969604,
      "learning_rate": 2.007337916009811e-06,
      "loss": 1.4994,
      "mean_token_accuracy": 0.6365965008735657,
      "num_tokens": 3013843992.0,
      "step": 17980
    },
    {
      "entropy": 1.75289652744929,
      "epoch": 1.9753096591689325,
      "grad_norm": 0.7521695494651794,
      "learning_rate": 2.0072734158613445e-06,
      "loss": 1.3926,
      "mean_token_accuracy": 0.6658550798892975,
      "num_tokens": 3014006944.0,
      "step": 17981
    },
    {
      "entropy": 1.6855365534623463,
      "epoch": 1.9754195160803054,
      "grad_norm": 0.6774551272392273,
      "learning_rate": 2.0072092003286216e-06,
      "loss": 1.2929,
      "mean_token_accuracy": 0.680366670091947,
      "num_tokens": 3014157643.0,
      "step": 17982
    },
    {
      "entropy": 1.7333262066046398,
      "epoch": 1.9755293729916783,
      "grad_norm": 1.2397245168685913,
      "learning_rate": 2.0071452694136757e-06,
      "loss": 1.1822,
      "mean_token_accuracy": 0.6727334012587866,
      "num_tokens": 3014341117.0,
      "step": 17983
    },
    {
      "entropy": 1.7674992481867473,
      "epoch": 1.9756392299030514,
      "grad_norm": 0.7200416922569275,
      "learning_rate": 2.0070816231185293e-06,
      "loss": 1.4271,
      "mean_token_accuracy": 0.6562386403481165,
      "num_tokens": 3014516310.0,
      "step": 17984
    },
    {
      "entropy": 1.6975335478782654,
      "epoch": 1.975749086814424,
      "grad_norm": 0.6550208926200867,
      "learning_rate": 2.007018261445197e-06,
      "loss": 1.2928,
      "mean_token_accuracy": 0.6839944074551264,
      "num_tokens": 3014672547.0,
      "step": 17985
    },
    {
      "entropy": 1.7610229949156444,
      "epoch": 1.9758589437257972,
      "grad_norm": 0.6302772164344788,
      "learning_rate": 2.0069551843956847e-06,
      "loss": 1.4284,
      "mean_token_accuracy": 0.6451925585667292,
      "num_tokens": 3014823710.0,
      "step": 17986
    },
    {
      "entropy": 1.7303914825121562,
      "epoch": 1.97596880063717,
      "grad_norm": 0.6791033744812012,
      "learning_rate": 2.006892391971989e-06,
      "loss": 1.3366,
      "mean_token_accuracy": 0.6641490111748377,
      "num_tokens": 3014969094.0,
      "step": 17987
    },
    {
      "entropy": 1.7095533609390259,
      "epoch": 1.976078657548543,
      "grad_norm": 0.6710312962532043,
      "learning_rate": 2.0068298841760956e-06,
      "loss": 1.4577,
      "mean_token_accuracy": 0.631788025299708,
      "num_tokens": 3015156304.0,
      "step": 17988
    },
    {
      "entropy": 1.7411635220050812,
      "epoch": 1.976188514459916,
      "grad_norm": 0.6896677017211914,
      "learning_rate": 2.006767661009985e-06,
      "loss": 1.4357,
      "mean_token_accuracy": 0.6591566403706869,
      "num_tokens": 3015356842.0,
      "step": 17989
    },
    {
      "entropy": 1.7042207817236583,
      "epoch": 1.976298371371289,
      "grad_norm": 0.6808891892433167,
      "learning_rate": 2.0067057224756247e-06,
      "loss": 1.5334,
      "mean_token_accuracy": 0.6491953035195669,
      "num_tokens": 3015582556.0,
      "step": 17990
    },
    {
      "entropy": 1.6519914468129475,
      "epoch": 1.9764082282826618,
      "grad_norm": 0.6816950440406799,
      "learning_rate": 2.006644068574976e-06,
      "loss": 1.2486,
      "mean_token_accuracy": 0.6812132398287455,
      "num_tokens": 3015709616.0,
      "step": 17991
    },
    {
      "entropy": 1.6635911564032237,
      "epoch": 1.976518085194035,
      "grad_norm": 0.8687704801559448,
      "learning_rate": 2.00658269930999e-06,
      "loss": 1.3443,
      "mean_token_accuracy": 0.6642593095699946,
      "num_tokens": 3015864905.0,
      "step": 17992
    },
    {
      "entropy": 1.7611885865529378,
      "epoch": 1.9766279421054076,
      "grad_norm": 0.6940531134605408,
      "learning_rate": 2.00652161468261e-06,
      "loss": 1.3961,
      "mean_token_accuracy": 0.6467735171318054,
      "num_tokens": 3016015646.0,
      "step": 17993
    },
    {
      "entropy": 1.6912155350049336,
      "epoch": 1.9767377990167807,
      "grad_norm": 0.6218036413192749,
      "learning_rate": 2.0064608146947675e-06,
      "loss": 1.3728,
      "mean_token_accuracy": 0.6538327733675638,
      "num_tokens": 3016178510.0,
      "step": 17994
    },
    {
      "entropy": 1.788610190153122,
      "epoch": 1.9768476559281536,
      "grad_norm": 0.7761731147766113,
      "learning_rate": 2.006400299348387e-06,
      "loss": 1.2656,
      "mean_token_accuracy": 0.6742220024267832,
      "num_tokens": 3016306071.0,
      "step": 17995
    },
    {
      "entropy": 1.7301820814609528,
      "epoch": 1.9769575128395265,
      "grad_norm": 0.6517966389656067,
      "learning_rate": 2.006340068645385e-06,
      "loss": 1.3778,
      "mean_token_accuracy": 0.6603502233823141,
      "num_tokens": 3016492205.0,
      "step": 17996
    },
    {
      "entropy": 1.7159747183322906,
      "epoch": 1.9770673697508996,
      "grad_norm": 0.7238568067550659,
      "learning_rate": 2.0062801225876675e-06,
      "loss": 1.3778,
      "mean_token_accuracy": 0.6613292147715887,
      "num_tokens": 3016667084.0,
      "step": 17997
    },
    {
      "entropy": 1.7366797228654225,
      "epoch": 1.9771772266622722,
      "grad_norm": 0.6958896517753601,
      "learning_rate": 2.0062204611771306e-06,
      "loss": 1.4078,
      "mean_token_accuracy": 0.6479227592547735,
      "num_tokens": 3016828560.0,
      "step": 17998
    },
    {
      "entropy": 1.7239971260229747,
      "epoch": 1.9772870835736454,
      "grad_norm": 0.6808164119720459,
      "learning_rate": 2.006161084415664e-06,
      "loss": 1.5164,
      "mean_token_accuracy": 0.6513014584779739,
      "num_tokens": 3017060646.0,
      "step": 17999
    },
    {
      "entropy": 1.7256098488966625,
      "epoch": 1.9773969404850182,
      "grad_norm": 0.7273125052452087,
      "learning_rate": 2.006101992305146e-06,
      "loss": 1.3934,
      "mean_token_accuracy": 0.6515825539827347,
      "num_tokens": 3017199524.0,
      "step": 18000
    },
    {
      "entropy": 1.7242956161499023,
      "epoch": 1.9775067973963911,
      "grad_norm": 0.6841662526130676,
      "learning_rate": 2.0060431848474487e-06,
      "loss": 1.6029,
      "mean_token_accuracy": 0.6310764849185944,
      "num_tokens": 3017376477.0,
      "step": 18001
    },
    {
      "entropy": 1.6526127556959789,
      "epoch": 1.9776166543077642,
      "grad_norm": 0.7398411631584167,
      "learning_rate": 2.0059846620444303e-06,
      "loss": 1.3041,
      "mean_token_accuracy": 0.6696018973986307,
      "num_tokens": 3017536030.0,
      "step": 18002
    },
    {
      "entropy": 1.6591049631436665,
      "epoch": 1.9777265112191371,
      "grad_norm": 0.7715206146240234,
      "learning_rate": 2.0059264238979447e-06,
      "loss": 1.3687,
      "mean_token_accuracy": 0.6526884287595749,
      "num_tokens": 3017710213.0,
      "step": 18003
    },
    {
      "entropy": 1.698662171761195,
      "epoch": 1.97783636813051,
      "grad_norm": 0.7030515074729919,
      "learning_rate": 2.005868470409835e-06,
      "loss": 1.4247,
      "mean_token_accuracy": 0.6606688896814982,
      "num_tokens": 3017879975.0,
      "step": 18004
    },
    {
      "entropy": 1.6552705466747284,
      "epoch": 1.977946225041883,
      "grad_norm": 0.6308731436729431,
      "learning_rate": 2.0058108015819362e-06,
      "loss": 1.2674,
      "mean_token_accuracy": 0.6792994836966196,
      "num_tokens": 3018008327.0,
      "step": 18005
    },
    {
      "entropy": 1.7466795146465302,
      "epoch": 1.9780560819532558,
      "grad_norm": 0.7210440635681152,
      "learning_rate": 2.0057534174160713e-06,
      "loss": 1.3281,
      "mean_token_accuracy": 0.673799475034078,
      "num_tokens": 3018133227.0,
      "step": 18006
    },
    {
      "entropy": 1.7657952308654785,
      "epoch": 1.9781659388646289,
      "grad_norm": 0.9165833592414856,
      "learning_rate": 2.0056963179140585e-06,
      "loss": 1.4521,
      "mean_token_accuracy": 0.6580042143662771,
      "num_tokens": 3018281843.0,
      "step": 18007
    },
    {
      "entropy": 1.697232147057851,
      "epoch": 1.9782757957760018,
      "grad_norm": 0.6184810996055603,
      "learning_rate": 2.005639503077705e-06,
      "loss": 1.4727,
      "mean_token_accuracy": 0.6428412993748983,
      "num_tokens": 3018460132.0,
      "step": 18008
    },
    {
      "entropy": 1.6890581647555034,
      "epoch": 1.9783856526873747,
      "grad_norm": 0.6864956617355347,
      "learning_rate": 2.005582972908807e-06,
      "loss": 1.4036,
      "mean_token_accuracy": 0.6568064391613007,
      "num_tokens": 3018656885.0,
      "step": 18009
    },
    {
      "entropy": 1.715958833694458,
      "epoch": 1.9784955095987478,
      "grad_norm": 0.6373485326766968,
      "learning_rate": 2.0055267274091552e-06,
      "loss": 1.3331,
      "mean_token_accuracy": 0.6668579330046972,
      "num_tokens": 3018801487.0,
      "step": 18010
    },
    {
      "entropy": 1.6817961037158966,
      "epoch": 1.9786053665101204,
      "grad_norm": 0.7401055097579956,
      "learning_rate": 2.0054707665805303e-06,
      "loss": 1.3845,
      "mean_token_accuracy": 0.661645824710528,
      "num_tokens": 3018946548.0,
      "step": 18011
    },
    {
      "entropy": 1.663213074207306,
      "epoch": 1.9787152234214935,
      "grad_norm": 0.670312762260437,
      "learning_rate": 2.0054150904247017e-06,
      "loss": 1.4159,
      "mean_token_accuracy": 0.6704086015621821,
      "num_tokens": 3019135682.0,
      "step": 18012
    },
    {
      "entropy": 1.6933028101921082,
      "epoch": 1.9788250803328664,
      "grad_norm": 0.6959567666053772,
      "learning_rate": 2.0053596989434325e-06,
      "loss": 1.4025,
      "mean_token_accuracy": 0.6613306552171707,
      "num_tokens": 3019288636.0,
      "step": 18013
    },
    {
      "entropy": 1.65764586130778,
      "epoch": 1.9789349372442393,
      "grad_norm": 0.68830406665802,
      "learning_rate": 2.0053045921384766e-06,
      "loss": 1.4326,
      "mean_token_accuracy": 0.6502135346333185,
      "num_tokens": 3019479477.0,
      "step": 18014
    },
    {
      "entropy": 1.6973117391268413,
      "epoch": 1.9790447941556124,
      "grad_norm": 0.6733773946762085,
      "learning_rate": 2.005249770011576e-06,
      "loss": 1.5697,
      "mean_token_accuracy": 0.6302972286939621,
      "num_tokens": 3019680116.0,
      "step": 18015
    },
    {
      "entropy": 1.654345730940501,
      "epoch": 1.9791546510669853,
      "grad_norm": 0.6176797151565552,
      "learning_rate": 2.005195232564469e-06,
      "loss": 1.3239,
      "mean_token_accuracy": 0.6690139671166738,
      "num_tokens": 3019863791.0,
      "step": 18016
    },
    {
      "entropy": 1.7217604120572407,
      "epoch": 1.9792645079783582,
      "grad_norm": 0.8068521022796631,
      "learning_rate": 2.005140979798878e-06,
      "loss": 1.4333,
      "mean_token_accuracy": 0.6493235329786936,
      "num_tokens": 3020037805.0,
      "step": 18017
    },
    {
      "entropy": 1.7371099591255188,
      "epoch": 1.9793743648897313,
      "grad_norm": 0.7657269239425659,
      "learning_rate": 2.005087011716523e-06,
      "loss": 1.4369,
      "mean_token_accuracy": 0.6623478010296822,
      "num_tokens": 3020184002.0,
      "step": 18018
    },
    {
      "entropy": 1.7969795564810436,
      "epoch": 1.979484221801104,
      "grad_norm": 0.7154170274734497,
      "learning_rate": 2.0050333283191096e-06,
      "loss": 1.5782,
      "mean_token_accuracy": 0.6230311791102091,
      "num_tokens": 3020363052.0,
      "step": 18019
    },
    {
      "entropy": 1.7187202374140422,
      "epoch": 1.979594078712477,
      "grad_norm": 0.576965868473053,
      "learning_rate": 2.0049799296083384e-06,
      "loss": 1.1483,
      "mean_token_accuracy": 0.676199659705162,
      "num_tokens": 3020557205.0,
      "step": 18020
    },
    {
      "entropy": 1.707470417022705,
      "epoch": 1.97970393562385,
      "grad_norm": 0.759087324142456,
      "learning_rate": 2.0049268155859003e-06,
      "loss": 1.4009,
      "mean_token_accuracy": 0.6503723512093226,
      "num_tokens": 3020700036.0,
      "step": 18021
    },
    {
      "entropy": 1.6869849860668182,
      "epoch": 1.9798137925352228,
      "grad_norm": 0.7738426923751831,
      "learning_rate": 2.0048739862534737e-06,
      "loss": 1.3752,
      "mean_token_accuracy": 0.6719378630320231,
      "num_tokens": 3020861112.0,
      "step": 18022
    },
    {
      "entropy": 1.7128291428089142,
      "epoch": 1.979923649446596,
      "grad_norm": 0.6039331555366516,
      "learning_rate": 2.004821441612733e-06,
      "loss": 1.4135,
      "mean_token_accuracy": 0.6554146458705267,
      "num_tokens": 3021038362.0,
      "step": 18023
    },
    {
      "entropy": 1.7349358598391216,
      "epoch": 1.9800335063579686,
      "grad_norm": 0.6787173748016357,
      "learning_rate": 2.0047691816653407e-06,
      "loss": 1.4621,
      "mean_token_accuracy": 0.6508260667324066,
      "num_tokens": 3021217797.0,
      "step": 18024
    },
    {
      "entropy": 1.6685168147087097,
      "epoch": 1.9801433632693417,
      "grad_norm": 0.705312967300415,
      "learning_rate": 2.0047172064129493e-06,
      "loss": 1.4366,
      "mean_token_accuracy": 0.660369485616684,
      "num_tokens": 3021410023.0,
      "step": 18025
    },
    {
      "entropy": 1.7754539052645366,
      "epoch": 1.9802532201807146,
      "grad_norm": 0.5943109393119812,
      "learning_rate": 2.004665515857206e-06,
      "loss": 1.3934,
      "mean_token_accuracy": 0.6560729245344797,
      "num_tokens": 3021580962.0,
      "step": 18026
    },
    {
      "entropy": 1.680273950099945,
      "epoch": 1.9803630770920875,
      "grad_norm": 0.6903275847434998,
      "learning_rate": 2.004614109999745e-06,
      "loss": 1.3749,
      "mean_token_accuracy": 0.6597232023874918,
      "num_tokens": 3021788227.0,
      "step": 18027
    },
    {
      "entropy": 1.670421948035558,
      "epoch": 1.9804729340034606,
      "grad_norm": 0.6176491379737854,
      "learning_rate": 2.0045629888421937e-06,
      "loss": 1.3391,
      "mean_token_accuracy": 0.6674363017082214,
      "num_tokens": 3021959993.0,
      "step": 18028
    },
    {
      "entropy": 1.7221202949682872,
      "epoch": 1.9805827909148335,
      "grad_norm": 0.8627282977104187,
      "learning_rate": 2.004512152386172e-06,
      "loss": 1.4449,
      "mean_token_accuracy": 0.6531087706486384,
      "num_tokens": 3022159424.0,
      "step": 18029
    },
    {
      "entropy": 1.7343119382858276,
      "epoch": 1.9806926478262064,
      "grad_norm": 0.6736763119697571,
      "learning_rate": 2.0044616006332864e-06,
      "loss": 1.3932,
      "mean_token_accuracy": 0.6408475587765375,
      "num_tokens": 3022327707.0,
      "step": 18030
    },
    {
      "entropy": 1.710096687078476,
      "epoch": 1.9808025047375795,
      "grad_norm": 0.6935316324234009,
      "learning_rate": 2.0044113335851365e-06,
      "loss": 1.4266,
      "mean_token_accuracy": 0.6543708691994349,
      "num_tokens": 3022506535.0,
      "step": 18031
    },
    {
      "entropy": 1.7249768376350403,
      "epoch": 1.9809123616489521,
      "grad_norm": 0.7204832434654236,
      "learning_rate": 2.004361351243316e-06,
      "loss": 1.368,
      "mean_token_accuracy": 0.6743978013594946,
      "num_tokens": 3022623060.0,
      "step": 18032
    },
    {
      "entropy": 1.7260689040025075,
      "epoch": 1.9810222185603252,
      "grad_norm": 0.5968881845474243,
      "learning_rate": 2.004311653609404e-06,
      "loss": 1.531,
      "mean_token_accuracy": 0.6207184543212255,
      "num_tokens": 3022847515.0,
      "step": 18033
    },
    {
      "entropy": 1.7605952223141987,
      "epoch": 1.9811320754716981,
      "grad_norm": 0.677291989326477,
      "learning_rate": 2.004262240684976e-06,
      "loss": 1.3908,
      "mean_token_accuracy": 0.6491524130105972,
      "num_tokens": 3023004730.0,
      "step": 18034
    },
    {
      "entropy": 1.7027316590150197,
      "epoch": 1.981241932383071,
      "grad_norm": 0.590280294418335,
      "learning_rate": 2.004213112471593e-06,
      "loss": 1.4213,
      "mean_token_accuracy": 0.6485264748334885,
      "num_tokens": 3023213682.0,
      "step": 18035
    },
    {
      "entropy": 1.7386829058329265,
      "epoch": 1.981351789294444,
      "grad_norm": 0.7665061950683594,
      "learning_rate": 2.004164268970812e-06,
      "loss": 1.379,
      "mean_token_accuracy": 0.6652245422204336,
      "num_tokens": 3023388373.0,
      "step": 18036
    },
    {
      "entropy": 1.7038521766662598,
      "epoch": 1.9814616462058168,
      "grad_norm": 0.7388865947723389,
      "learning_rate": 2.004115710184179e-06,
      "loss": 1.3043,
      "mean_token_accuracy": 0.6681536138057709,
      "num_tokens": 3023530065.0,
      "step": 18037
    },
    {
      "entropy": 1.7088390787442524,
      "epoch": 1.9815715031171899,
      "grad_norm": 0.8848956227302551,
      "learning_rate": 2.004067436113229e-06,
      "loss": 1.3557,
      "mean_token_accuracy": 0.6594817042350769,
      "num_tokens": 3023709403.0,
      "step": 18038
    },
    {
      "entropy": 1.6985073586304982,
      "epoch": 1.9816813600285628,
      "grad_norm": 0.5689802169799805,
      "learning_rate": 2.004019446759491e-06,
      "loss": 1.3975,
      "mean_token_accuracy": 0.663287435968717,
      "num_tokens": 3023913464.0,
      "step": 18039
    },
    {
      "entropy": 1.6951737900575001,
      "epoch": 1.9817912169399357,
      "grad_norm": 0.7058504819869995,
      "learning_rate": 2.0039717421244838e-06,
      "loss": 1.3111,
      "mean_token_accuracy": 0.6672380814949671,
      "num_tokens": 3024026724.0,
      "step": 18040
    },
    {
      "entropy": 1.733831246693929,
      "epoch": 1.9819010738513088,
      "grad_norm": 0.7383568286895752,
      "learning_rate": 2.003924322209718e-06,
      "loss": 1.2293,
      "mean_token_accuracy": 0.6893104861179987,
      "num_tokens": 3024117143.0,
      "step": 18041
    },
    {
      "entropy": 1.6926162540912628,
      "epoch": 1.9820109307626816,
      "grad_norm": 0.7105924487113953,
      "learning_rate": 2.0038771870166933e-06,
      "loss": 1.278,
      "mean_token_accuracy": 0.6817958305279413,
      "num_tokens": 3024256149.0,
      "step": 18042
    },
    {
      "entropy": 1.722558597723643,
      "epoch": 1.9821207876740545,
      "grad_norm": 0.6348571181297302,
      "learning_rate": 2.0038303365469026e-06,
      "loss": 1.398,
      "mean_token_accuracy": 0.6517468144496282,
      "num_tokens": 3024410077.0,
      "step": 18043
    },
    {
      "entropy": 1.6495929559071858,
      "epoch": 1.9822306445854276,
      "grad_norm": 0.6759068965911865,
      "learning_rate": 2.0037837708018268e-06,
      "loss": 1.438,
      "mean_token_accuracy": 0.6489085604747137,
      "num_tokens": 3024594527.0,
      "step": 18044
    },
    {
      "entropy": 1.7154331902662914,
      "epoch": 1.9823405014968003,
      "grad_norm": 0.7698425054550171,
      "learning_rate": 2.0037374897829413e-06,
      "loss": 1.4302,
      "mean_token_accuracy": 0.6621577441692352,
      "num_tokens": 3024748417.0,
      "step": 18045
    },
    {
      "entropy": 1.694651484489441,
      "epoch": 1.9824503584081734,
      "grad_norm": 0.7667627930641174,
      "learning_rate": 2.0036914934917106e-06,
      "loss": 1.4109,
      "mean_token_accuracy": 0.6532551348209381,
      "num_tokens": 3024893648.0,
      "step": 18046
    },
    {
      "entropy": 1.6467284560203552,
      "epoch": 1.9825602153195463,
      "grad_norm": 0.6645065546035767,
      "learning_rate": 2.00364578192959e-06,
      "loss": 1.4022,
      "mean_token_accuracy": 0.6770640710989634,
      "num_tokens": 3025055067.0,
      "step": 18047
    },
    {
      "entropy": 1.7726899286111195,
      "epoch": 1.9826700722309192,
      "grad_norm": 0.6508256793022156,
      "learning_rate": 2.003600355098027e-06,
      "loss": 1.4051,
      "mean_token_accuracy": 0.6635939379533132,
      "num_tokens": 3025246791.0,
      "step": 18048
    },
    {
      "entropy": 1.7325632472832997,
      "epoch": 1.9827799291422923,
      "grad_norm": 0.7848646640777588,
      "learning_rate": 2.0035552129984595e-06,
      "loss": 1.4272,
      "mean_token_accuracy": 0.6580934077501297,
      "num_tokens": 3025385806.0,
      "step": 18049
    },
    {
      "entropy": 1.7530264457066853,
      "epoch": 1.982889786053665,
      "grad_norm": 0.6446986794471741,
      "learning_rate": 2.003510355632314e-06,
      "loss": 1.3292,
      "mean_token_accuracy": 0.6607964038848877,
      "num_tokens": 3025565951.0,
      "step": 18050
    },
    {
      "entropy": 1.6674051980177562,
      "epoch": 1.982999642965038,
      "grad_norm": 0.7394304275512695,
      "learning_rate": 2.003465783001013e-06,
      "loss": 1.3453,
      "mean_token_accuracy": 0.6573042770226797,
      "num_tokens": 3025704826.0,
      "step": 18051
    },
    {
      "entropy": 1.6773662368456523,
      "epoch": 1.983109499876411,
      "grad_norm": 0.558399498462677,
      "learning_rate": 2.003421495105966e-06,
      "loss": 1.4961,
      "mean_token_accuracy": 0.6545028338829676,
      "num_tokens": 3025925349.0,
      "step": 18052
    },
    {
      "entropy": 1.7445982893308003,
      "epoch": 1.9832193567877838,
      "grad_norm": 0.7014199495315552,
      "learning_rate": 2.003377491948574e-06,
      "loss": 1.2774,
      "mean_token_accuracy": 0.6735482960939407,
      "num_tokens": 3026050899.0,
      "step": 18053
    },
    {
      "entropy": 1.7237263023853302,
      "epoch": 1.983329213699157,
      "grad_norm": 0.7317463755607605,
      "learning_rate": 2.0033337735302303e-06,
      "loss": 1.285,
      "mean_token_accuracy": 0.6770526617765427,
      "num_tokens": 3026212822.0,
      "step": 18054
    },
    {
      "entropy": 1.6821326514085133,
      "epoch": 1.9834390706105298,
      "grad_norm": 0.793610692024231,
      "learning_rate": 2.003290339852319e-06,
      "loss": 1.242,
      "mean_token_accuracy": 0.6760970403750738,
      "num_tokens": 3026380803.0,
      "step": 18055
    },
    {
      "entropy": 1.6886110802491505,
      "epoch": 1.9835489275219027,
      "grad_norm": 0.621466338634491,
      "learning_rate": 2.003247190916215e-06,
      "loss": 1.2854,
      "mean_token_accuracy": 0.6679765482743582,
      "num_tokens": 3026512384.0,
      "step": 18056
    },
    {
      "entropy": 1.7125110626220703,
      "epoch": 1.9836587844332758,
      "grad_norm": 0.7082045674324036,
      "learning_rate": 2.0032043267232827e-06,
      "loss": 1.2844,
      "mean_token_accuracy": 0.6690214524666468,
      "num_tokens": 3026634106.0,
      "step": 18057
    },
    {
      "entropy": 1.6765822370847066,
      "epoch": 1.9837686413446485,
      "grad_norm": 0.7026678919792175,
      "learning_rate": 2.00316174727488e-06,
      "loss": 1.3097,
      "mean_token_accuracy": 0.6639251758654913,
      "num_tokens": 3026780481.0,
      "step": 18058
    },
    {
      "entropy": 1.7151767710844676,
      "epoch": 1.9838784982560216,
      "grad_norm": 0.7121601104736328,
      "learning_rate": 2.0031194525723535e-06,
      "loss": 1.3883,
      "mean_token_accuracy": 0.6660854717095693,
      "num_tokens": 3026923173.0,
      "step": 18059
    },
    {
      "entropy": 1.6836934685707092,
      "epoch": 1.9839883551673945,
      "grad_norm": 0.7249175906181335,
      "learning_rate": 2.003077442617042e-06,
      "loss": 1.394,
      "mean_token_accuracy": 0.6518472333749136,
      "num_tokens": 3027118633.0,
      "step": 18060
    },
    {
      "entropy": 1.6882561047871907,
      "epoch": 1.9840982120787674,
      "grad_norm": 0.797842800617218,
      "learning_rate": 2.0030357174102765e-06,
      "loss": 1.311,
      "mean_token_accuracy": 0.6653191695610682,
      "num_tokens": 3027259226.0,
      "step": 18061
    },
    {
      "entropy": 1.622244934240977,
      "epoch": 1.9842080689901405,
      "grad_norm": 0.6981305480003357,
      "learning_rate": 2.002994276953375e-06,
      "loss": 1.2685,
      "mean_token_accuracy": 0.6686497926712036,
      "num_tokens": 3027400721.0,
      "step": 18062
    },
    {
      "entropy": 1.6579966247081757,
      "epoch": 1.9843179259015131,
      "grad_norm": 0.7618954181671143,
      "learning_rate": 2.002953121247651e-06,
      "loss": 1.2649,
      "mean_token_accuracy": 0.6726798812548319,
      "num_tokens": 3027564629.0,
      "step": 18063
    },
    {
      "entropy": 1.66702335079511,
      "epoch": 1.9844277828128862,
      "grad_norm": 0.7515163421630859,
      "learning_rate": 2.0029122502944063e-06,
      "loss": 1.2735,
      "mean_token_accuracy": 0.6686499267816544,
      "num_tokens": 3027759663.0,
      "step": 18064
    },
    {
      "entropy": 1.6984266340732574,
      "epoch": 1.9845376397242591,
      "grad_norm": 0.6969068050384521,
      "learning_rate": 2.002871664094935e-06,
      "loss": 1.2867,
      "mean_token_accuracy": 0.6645700335502625,
      "num_tokens": 3027883746.0,
      "step": 18065
    },
    {
      "entropy": 1.7177335818608601,
      "epoch": 1.984647496635632,
      "grad_norm": 0.5522650480270386,
      "learning_rate": 2.0028313626505215e-06,
      "loss": 1.0616,
      "mean_token_accuracy": 0.6834283471107483,
      "num_tokens": 3028051127.0,
      "step": 18066
    },
    {
      "entropy": 1.6780750850836437,
      "epoch": 1.984757353547005,
      "grad_norm": 0.6429264545440674,
      "learning_rate": 2.002791345962441e-06,
      "loss": 1.3301,
      "mean_token_accuracy": 0.6632246325413386,
      "num_tokens": 3028212961.0,
      "step": 18067
    },
    {
      "entropy": 1.684230109055837,
      "epoch": 1.984867210458378,
      "grad_norm": 0.6792988777160645,
      "learning_rate": 2.0027516140319604e-06,
      "loss": 1.212,
      "mean_token_accuracy": 0.6855142414569855,
      "num_tokens": 3028319131.0,
      "step": 18068
    },
    {
      "entropy": 1.6362544397513072,
      "epoch": 1.9849770673697509,
      "grad_norm": 0.5678415298461914,
      "learning_rate": 2.0027121668603362e-06,
      "loss": 1.3782,
      "mean_token_accuracy": 0.6610343605279922,
      "num_tokens": 3028505641.0,
      "step": 18069
    },
    {
      "entropy": 1.668990820646286,
      "epoch": 1.985086924281124,
      "grad_norm": 0.6381085515022278,
      "learning_rate": 2.0026730044488184e-06,
      "loss": 1.3541,
      "mean_token_accuracy": 0.6664966394503912,
      "num_tokens": 3028655036.0,
      "step": 18070
    },
    {
      "entropy": 1.6200170914332073,
      "epoch": 1.9851967811924967,
      "grad_norm": 0.6306815147399902,
      "learning_rate": 2.0026341267986454e-06,
      "loss": 1.2853,
      "mean_token_accuracy": 0.6690742274125417,
      "num_tokens": 3028820136.0,
      "step": 18071
    },
    {
      "entropy": 1.7141570250193279,
      "epoch": 1.9853066381038698,
      "grad_norm": 0.6135541200637817,
      "learning_rate": 2.0025955339110474e-06,
      "loss": 1.4239,
      "mean_token_accuracy": 0.6421345720688502,
      "num_tokens": 3029017262.0,
      "step": 18072
    },
    {
      "entropy": 1.713169127702713,
      "epoch": 1.9854164950152426,
      "grad_norm": 0.7709214687347412,
      "learning_rate": 2.0025572257872475e-06,
      "loss": 1.3818,
      "mean_token_accuracy": 0.6472178449233373,
      "num_tokens": 3029195490.0,
      "step": 18073
    },
    {
      "entropy": 1.7533264259497325,
      "epoch": 1.9855263519266155,
      "grad_norm": 0.6595629453659058,
      "learning_rate": 2.002519202428457e-06,
      "loss": 1.4027,
      "mean_token_accuracy": 0.6588217069705328,
      "num_tokens": 3029344302.0,
      "step": 18074
    },
    {
      "entropy": 1.702713559071223,
      "epoch": 1.9856362088379886,
      "grad_norm": 0.6595112085342407,
      "learning_rate": 2.0024814638358793e-06,
      "loss": 1.4347,
      "mean_token_accuracy": 0.6574101795752844,
      "num_tokens": 3029555592.0,
      "step": 18075
    },
    {
      "entropy": 1.6746285160382588,
      "epoch": 1.9857460657493613,
      "grad_norm": 0.7601661086082458,
      "learning_rate": 2.002444010010708e-06,
      "loss": 1.3132,
      "mean_token_accuracy": 0.6680941929419836,
      "num_tokens": 3029696305.0,
      "step": 18076
    },
    {
      "entropy": 1.704234351714452,
      "epoch": 1.9858559226607344,
      "grad_norm": 0.6155273914337158,
      "learning_rate": 2.0024068409541304e-06,
      "loss": 1.3917,
      "mean_token_accuracy": 0.662379855910937,
      "num_tokens": 3029881772.0,
      "step": 18077
    },
    {
      "entropy": 1.6934775014718373,
      "epoch": 1.9859657795721073,
      "grad_norm": 0.6397415399551392,
      "learning_rate": 2.0023699566673213e-06,
      "loss": 1.2694,
      "mean_token_accuracy": 0.6719277749458948,
      "num_tokens": 3030039562.0,
      "step": 18078
    },
    {
      "entropy": 1.7212519546349843,
      "epoch": 1.9860756364834802,
      "grad_norm": 0.6646420955657959,
      "learning_rate": 2.0023333571514483e-06,
      "loss": 1.4844,
      "mean_token_accuracy": 0.6389352331558863,
      "num_tokens": 3030268176.0,
      "step": 18079
    },
    {
      "entropy": 1.6160194476445515,
      "epoch": 1.9861854933948533,
      "grad_norm": 0.7115574479103088,
      "learning_rate": 2.0022970424076705e-06,
      "loss": 1.3326,
      "mean_token_accuracy": 0.667738159497579,
      "num_tokens": 3030445462.0,
      "step": 18080
    },
    {
      "entropy": 1.729399710893631,
      "epoch": 1.9862953503062262,
      "grad_norm": 0.5949446558952332,
      "learning_rate": 2.002261012437137e-06,
      "loss": 1.4196,
      "mean_token_accuracy": 0.6431524356206259,
      "num_tokens": 3030648761.0,
      "step": 18081
    },
    {
      "entropy": 1.71317191918691,
      "epoch": 1.986405207217599,
      "grad_norm": 3.0127835273742676,
      "learning_rate": 2.002225267240988e-06,
      "loss": 1.3224,
      "mean_token_accuracy": 0.6609684824943542,
      "num_tokens": 3030837875.0,
      "step": 18082
    },
    {
      "entropy": 1.7283783555030823,
      "epoch": 1.9865150641289722,
      "grad_norm": 0.8065574169158936,
      "learning_rate": 2.0021898068203545e-06,
      "loss": 1.422,
      "mean_token_accuracy": 0.6655691017707189,
      "num_tokens": 3030997256.0,
      "step": 18083
    },
    {
      "entropy": 1.6900490025679271,
      "epoch": 1.9866249210403448,
      "grad_norm": 0.6390381455421448,
      "learning_rate": 2.00215463117636e-06,
      "loss": 1.2966,
      "mean_token_accuracy": 0.6703857729832331,
      "num_tokens": 3031132200.0,
      "step": 18084
    },
    {
      "entropy": 1.660315861304601,
      "epoch": 1.986734777951718,
      "grad_norm": 0.6758151054382324,
      "learning_rate": 2.0021197403101156e-06,
      "loss": 1.319,
      "mean_token_accuracy": 0.6526903261741003,
      "num_tokens": 3031266341.0,
      "step": 18085
    },
    {
      "entropy": 1.724764307339986,
      "epoch": 1.9868446348630908,
      "grad_norm": 0.7246851325035095,
      "learning_rate": 2.002085134222728e-06,
      "loss": 1.358,
      "mean_token_accuracy": 0.6704638799031576,
      "num_tokens": 3031400811.0,
      "step": 18086
    },
    {
      "entropy": 1.7192512452602386,
      "epoch": 1.9869544917744637,
      "grad_norm": 0.6231260895729065,
      "learning_rate": 2.002050812915291e-06,
      "loss": 1.5262,
      "mean_token_accuracy": 0.6408623903989792,
      "num_tokens": 3031597704.0,
      "step": 18087
    },
    {
      "entropy": 1.7471778094768524,
      "epoch": 1.9870643486858368,
      "grad_norm": 0.7257117033004761,
      "learning_rate": 2.0020167763888905e-06,
      "loss": 1.6226,
      "mean_token_accuracy": 0.6368986219167709,
      "num_tokens": 3031759715.0,
      "step": 18088
    },
    {
      "entropy": 1.6563644409179688,
      "epoch": 1.9871742055972095,
      "grad_norm": 0.7969918251037598,
      "learning_rate": 2.001983024644605e-06,
      "loss": 1.1957,
      "mean_token_accuracy": 0.68258864680926,
      "num_tokens": 3031879721.0,
      "step": 18089
    },
    {
      "entropy": 1.7332975169022877,
      "epoch": 1.9872840625085826,
      "grad_norm": 0.7111884951591492,
      "learning_rate": 2.0019495576835017e-06,
      "loss": 1.2027,
      "mean_token_accuracy": 0.678931881984075,
      "num_tokens": 3031980175.0,
      "step": 18090
    },
    {
      "entropy": 1.677456219991048,
      "epoch": 1.9873939194199555,
      "grad_norm": 0.7319856882095337,
      "learning_rate": 2.0019163755066414e-06,
      "loss": 1.4709,
      "mean_token_accuracy": 0.6506858567396799,
      "num_tokens": 3032174655.0,
      "step": 18091
    },
    {
      "entropy": 1.7617920140425365,
      "epoch": 1.9875037763313284,
      "grad_norm": 0.7048560976982117,
      "learning_rate": 2.0018834781150714e-06,
      "loss": 1.3913,
      "mean_token_accuracy": 0.6561016142368317,
      "num_tokens": 3032322569.0,
      "step": 18092
    },
    {
      "entropy": 1.6850563287734985,
      "epoch": 1.9876136332427015,
      "grad_norm": 0.7205668091773987,
      "learning_rate": 2.001850865509836e-06,
      "loss": 1.2585,
      "mean_token_accuracy": 0.6678894609212875,
      "num_tokens": 3032456059.0,
      "step": 18093
    },
    {
      "entropy": 1.6681140661239624,
      "epoch": 1.9877234901540743,
      "grad_norm": 0.7361934185028076,
      "learning_rate": 2.0018185376919665e-06,
      "loss": 1.4023,
      "mean_token_accuracy": 0.6583593388398489,
      "num_tokens": 3032622180.0,
      "step": 18094
    },
    {
      "entropy": 1.8122372031211853,
      "epoch": 1.9878333470654472,
      "grad_norm": 0.7276337146759033,
      "learning_rate": 2.0017864946624848e-06,
      "loss": 1.6099,
      "mean_token_accuracy": 0.6246108015378317,
      "num_tokens": 3032802456.0,
      "step": 18095
    },
    {
      "entropy": 1.6701407432556152,
      "epoch": 1.9879432039768203,
      "grad_norm": 0.6742632985115051,
      "learning_rate": 2.001754736422406e-06,
      "loss": 1.2446,
      "mean_token_accuracy": 0.6852086037397385,
      "num_tokens": 3032910500.0,
      "step": 18096
    },
    {
      "entropy": 1.7621448735396068,
      "epoch": 1.988053060888193,
      "grad_norm": 0.849463164806366,
      "learning_rate": 2.0017232629727345e-06,
      "loss": 1.5072,
      "mean_token_accuracy": 0.6401193489631017,
      "num_tokens": 3033111853.0,
      "step": 18097
    },
    {
      "entropy": 1.6534665822982788,
      "epoch": 1.988162917799566,
      "grad_norm": 0.6665313839912415,
      "learning_rate": 2.0016920743144674e-06,
      "loss": 1.272,
      "mean_token_accuracy": 0.6797701468070348,
      "num_tokens": 3033255604.0,
      "step": 18098
    },
    {
      "entropy": 1.7228951156139374,
      "epoch": 1.988272774710939,
      "grad_norm": 0.6837633848190308,
      "learning_rate": 2.0016611704485922e-06,
      "loss": 1.2836,
      "mean_token_accuracy": 0.671315535902977,
      "num_tokens": 3033393490.0,
      "step": 18099
    },
    {
      "entropy": 1.8056779702504475,
      "epoch": 1.9883826316223119,
      "grad_norm": 0.7126280069351196,
      "learning_rate": 2.001630551376086e-06,
      "loss": 1.3957,
      "mean_token_accuracy": 0.6486673851807913,
      "num_tokens": 3033543350.0,
      "step": 18100
    },
    {
      "entropy": 1.6797227362791698,
      "epoch": 1.988492488533685,
      "grad_norm": 0.6651612520217896,
      "learning_rate": 2.0016002170979173e-06,
      "loss": 1.4704,
      "mean_token_accuracy": 0.6411794424057007,
      "num_tokens": 3033771985.0,
      "step": 18101
    },
    {
      "entropy": 1.7329282363255818,
      "epoch": 1.9886023454450577,
      "grad_norm": 0.7120084762573242,
      "learning_rate": 2.0015701676150475e-06,
      "loss": 1.4927,
      "mean_token_accuracy": 0.6449198176463445,
      "num_tokens": 3033916379.0,
      "step": 18102
    },
    {
      "entropy": 1.7090756595134735,
      "epoch": 1.9887122023564308,
      "grad_norm": 0.866844117641449,
      "learning_rate": 2.001540402928426e-06,
      "loss": 1.3771,
      "mean_token_accuracy": 0.6641785850127538,
      "num_tokens": 3034065801.0,
      "step": 18103
    },
    {
      "entropy": 1.7364407777786255,
      "epoch": 1.9888220592678036,
      "grad_norm": 0.7089415788650513,
      "learning_rate": 2.001510923038997e-06,
      "loss": 1.4758,
      "mean_token_accuracy": 0.6599543740351995,
      "num_tokens": 3034236864.0,
      "step": 18104
    },
    {
      "entropy": 1.71084330479304,
      "epoch": 1.9889319161791765,
      "grad_norm": 0.6918189525604248,
      "learning_rate": 2.0014817279476928e-06,
      "loss": 1.377,
      "mean_token_accuracy": 0.645952895283699,
      "num_tokens": 3034406382.0,
      "step": 18105
    },
    {
      "entropy": 1.7627890010674794,
      "epoch": 1.9890417730905496,
      "grad_norm": 0.8844940662384033,
      "learning_rate": 2.0014528176554367e-06,
      "loss": 1.4876,
      "mean_token_accuracy": 0.6449083288510641,
      "num_tokens": 3034578259.0,
      "step": 18106
    },
    {
      "entropy": 1.74430717031161,
      "epoch": 1.9891516300019225,
      "grad_norm": 0.5609480738639832,
      "learning_rate": 2.0014241921631433e-06,
      "loss": 1.4494,
      "mean_token_accuracy": 0.6505746444066366,
      "num_tokens": 3034771034.0,
      "step": 18107
    },
    {
      "entropy": 1.7141135434309642,
      "epoch": 1.9892614869132954,
      "grad_norm": 0.7115533947944641,
      "learning_rate": 2.0013958514717206e-06,
      "loss": 1.3258,
      "mean_token_accuracy": 0.6693545977274576,
      "num_tokens": 3034960817.0,
      "step": 18108
    },
    {
      "entropy": 1.7084451814492543,
      "epoch": 1.9893713438246685,
      "grad_norm": 0.6754060983657837,
      "learning_rate": 2.001367795582063e-06,
      "loss": 1.5179,
      "mean_token_accuracy": 0.6482407848040262,
      "num_tokens": 3035162145.0,
      "step": 18109
    },
    {
      "entropy": 1.7450725734233856,
      "epoch": 1.9894812007360412,
      "grad_norm": 0.7590783834457397,
      "learning_rate": 2.001340024495061e-06,
      "loss": 1.4425,
      "mean_token_accuracy": 0.6480189065138499,
      "num_tokens": 3035344376.0,
      "step": 18110
    },
    {
      "entropy": 1.7174135446548462,
      "epoch": 1.9895910576474143,
      "grad_norm": 0.6129758358001709,
      "learning_rate": 2.0013125382115915e-06,
      "loss": 1.2797,
      "mean_token_accuracy": 0.669946551322937,
      "num_tokens": 3035521562.0,
      "step": 18111
    },
    {
      "entropy": 1.7383268078168232,
      "epoch": 1.9897009145587872,
      "grad_norm": 0.7468062043190002,
      "learning_rate": 2.0012853367325268e-06,
      "loss": 1.3131,
      "mean_token_accuracy": 0.6609462102254232,
      "num_tokens": 3035705803.0,
      "step": 18112
    },
    {
      "entropy": 1.7733658452828724,
      "epoch": 1.98981077147016,
      "grad_norm": 0.665949821472168,
      "learning_rate": 2.001258420058725e-06,
      "loss": 1.4654,
      "mean_token_accuracy": 0.6438464025656382,
      "num_tokens": 3035834345.0,
      "step": 18113
    },
    {
      "entropy": 1.7397722403208415,
      "epoch": 1.9899206283815332,
      "grad_norm": 0.6292708516120911,
      "learning_rate": 2.0012317881910387e-06,
      "loss": 1.4591,
      "mean_token_accuracy": 0.6419312010208765,
      "num_tokens": 3036056500.0,
      "step": 18114
    },
    {
      "entropy": 1.7050531804561615,
      "epoch": 1.9900304852929058,
      "grad_norm": 0.6399442553520203,
      "learning_rate": 2.0012054411303124e-06,
      "loss": 1.4583,
      "mean_token_accuracy": 0.6630610624949137,
      "num_tokens": 3036230464.0,
      "step": 18115
    },
    {
      "entropy": 1.6535969475905101,
      "epoch": 1.990140342204279,
      "grad_norm": 0.8072215914726257,
      "learning_rate": 2.0011793788773787e-06,
      "loss": 1.1218,
      "mean_token_accuracy": 0.6984556714693705,
      "num_tokens": 3036333949.0,
      "step": 18116
    },
    {
      "entropy": 1.7108362515767415,
      "epoch": 1.9902501991156518,
      "grad_norm": 0.6812421083450317,
      "learning_rate": 2.0011536014330627e-06,
      "loss": 1.2873,
      "mean_token_accuracy": 0.6654827296733856,
      "num_tokens": 3036471958.0,
      "step": 18117
    },
    {
      "entropy": 1.708745191494624,
      "epoch": 1.9903600560270247,
      "grad_norm": 0.6712941527366638,
      "learning_rate": 2.0011281087981796e-06,
      "loss": 1.3927,
      "mean_token_accuracy": 0.6592844178279241,
      "num_tokens": 3036634049.0,
      "step": 18118
    },
    {
      "entropy": 1.673752874135971,
      "epoch": 1.9904699129383978,
      "grad_norm": 0.7544751763343811,
      "learning_rate": 2.001102900973538e-06,
      "loss": 1.3683,
      "mean_token_accuracy": 0.667888343334198,
      "num_tokens": 3036777513.0,
      "step": 18119
    },
    {
      "entropy": 1.6410714586575825,
      "epoch": 1.9905797698497707,
      "grad_norm": 0.6688563227653503,
      "learning_rate": 2.0010779779599342e-06,
      "loss": 1.4143,
      "mean_token_accuracy": 0.6570560932159424,
      "num_tokens": 3036987258.0,
      "step": 18120
    },
    {
      "entropy": 1.7408175667126973,
      "epoch": 1.9906896267611436,
      "grad_norm": 0.7752634882926941,
      "learning_rate": 2.001053339758156e-06,
      "loss": 1.346,
      "mean_token_accuracy": 0.6612565120061239,
      "num_tokens": 3037148408.0,
      "step": 18121
    },
    {
      "entropy": 1.662128746509552,
      "epoch": 1.9907994836725167,
      "grad_norm": 0.6829171180725098,
      "learning_rate": 2.0010289863689857e-06,
      "loss": 1.3705,
      "mean_token_accuracy": 0.6696845690409342,
      "num_tokens": 3037348031.0,
      "step": 18122
    },
    {
      "entropy": 1.728913923104604,
      "epoch": 1.9909093405838894,
      "grad_norm": 0.7454518675804138,
      "learning_rate": 2.0010049177931933e-06,
      "loss": 1.4135,
      "mean_token_accuracy": 0.6618677377700806,
      "num_tokens": 3037516275.0,
      "step": 18123
    },
    {
      "entropy": 1.7775543729464214,
      "epoch": 1.9910191974952625,
      "grad_norm": 0.8814812898635864,
      "learning_rate": 2.0009811340315405e-06,
      "loss": 1.3856,
      "mean_token_accuracy": 0.6594171871741613,
      "num_tokens": 3037647651.0,
      "step": 18124
    },
    {
      "entropy": 1.7491299907366435,
      "epoch": 1.9911290544066353,
      "grad_norm": 0.5548111796379089,
      "learning_rate": 2.000957635084779e-06,
      "loss": 1.4133,
      "mean_token_accuracy": 0.6463166773319244,
      "num_tokens": 3037834677.0,
      "step": 18125
    },
    {
      "entropy": 1.695239543914795,
      "epoch": 1.9912389113180082,
      "grad_norm": 0.7862319946289062,
      "learning_rate": 2.0009344209536533e-06,
      "loss": 1.5992,
      "mean_token_accuracy": 0.6537997101744016,
      "num_tokens": 3037978289.0,
      "step": 18126
    },
    {
      "entropy": 1.7685978809992473,
      "epoch": 1.9913487682293813,
      "grad_norm": 0.632785439491272,
      "learning_rate": 2.000911491638899e-06,
      "loss": 1.5919,
      "mean_token_accuracy": 0.6281165331602097,
      "num_tokens": 3038171790.0,
      "step": 18127
    },
    {
      "entropy": 1.6535864472389221,
      "epoch": 1.991458625140754,
      "grad_norm": 0.7036636471748352,
      "learning_rate": 2.00088884714124e-06,
      "loss": 1.3068,
      "mean_token_accuracy": 0.6650771498680115,
      "num_tokens": 3038379611.0,
      "step": 18128
    },
    {
      "entropy": 1.6982588171958923,
      "epoch": 1.991568482052127,
      "grad_norm": 0.6188250184059143,
      "learning_rate": 2.000866487461393e-06,
      "loss": 1.5187,
      "mean_token_accuracy": 0.622700423002243,
      "num_tokens": 3038630107.0,
      "step": 18129
    },
    {
      "entropy": 1.7043708562850952,
      "epoch": 1.9916783389635,
      "grad_norm": 0.7103232145309448,
      "learning_rate": 2.000844412600068e-06,
      "loss": 1.3381,
      "mean_token_accuracy": 0.6587745447953542,
      "num_tokens": 3038829736.0,
      "step": 18130
    },
    {
      "entropy": 1.6450840930143993,
      "epoch": 1.9917881958748729,
      "grad_norm": 0.8464440107345581,
      "learning_rate": 2.0008226225579614e-06,
      "loss": 1.2032,
      "mean_token_accuracy": 0.6772677054007848,
      "num_tokens": 3039029703.0,
      "step": 18131
    },
    {
      "entropy": 1.687016874551773,
      "epoch": 1.991898052786246,
      "grad_norm": 0.5829222202301025,
      "learning_rate": 2.0008011173357644e-06,
      "loss": 1.2675,
      "mean_token_accuracy": 0.6710990617672602,
      "num_tokens": 3039166171.0,
      "step": 18132
    },
    {
      "entropy": 1.750480592250824,
      "epoch": 1.9920079096976189,
      "grad_norm": 0.6543905138969421,
      "learning_rate": 2.0007798969341565e-06,
      "loss": 1.4109,
      "mean_token_accuracy": 0.6614688485860825,
      "num_tokens": 3039302322.0,
      "step": 18133
    },
    {
      "entropy": 1.7635838687419891,
      "epoch": 1.9921177666089918,
      "grad_norm": 0.582114577293396,
      "learning_rate": 2.0007589613538104e-06,
      "loss": 1.4239,
      "mean_token_accuracy": 0.6485844204823176,
      "num_tokens": 3039512616.0,
      "step": 18134
    },
    {
      "entropy": 1.6652332345644634,
      "epoch": 1.9922276235203649,
      "grad_norm": 0.7193676233291626,
      "learning_rate": 2.000738310595387e-06,
      "loss": 1.3869,
      "mean_token_accuracy": 0.6623914440472921,
      "num_tokens": 3039667577.0,
      "step": 18135
    },
    {
      "entropy": 1.6600812375545502,
      "epoch": 1.9923374804317375,
      "grad_norm": 0.6071199774742126,
      "learning_rate": 2.0007179446595414e-06,
      "loss": 1.3844,
      "mean_token_accuracy": 0.6484141399463018,
      "num_tokens": 3039865053.0,
      "step": 18136
    },
    {
      "entropy": 1.7320877810319264,
      "epoch": 1.9924473373431106,
      "grad_norm": 0.7393842339515686,
      "learning_rate": 2.0006978635469175e-06,
      "loss": 1.3568,
      "mean_token_accuracy": 0.6677570939064026,
      "num_tokens": 3040001768.0,
      "step": 18137
    },
    {
      "entropy": 1.694648305575053,
      "epoch": 1.9925571942544835,
      "grad_norm": 0.7653499245643616,
      "learning_rate": 2.000678067258151e-06,
      "loss": 1.4478,
      "mean_token_accuracy": 0.644600714246432,
      "num_tokens": 3040212474.0,
      "step": 18138
    },
    {
      "entropy": 1.7461239794890087,
      "epoch": 1.9926670511658564,
      "grad_norm": 0.6602531671524048,
      "learning_rate": 2.000658555793869e-06,
      "loss": 1.3958,
      "mean_token_accuracy": 0.6600701163212458,
      "num_tokens": 3040389094.0,
      "step": 18139
    },
    {
      "entropy": 1.7250058154265087,
      "epoch": 1.9927769080772295,
      "grad_norm": 0.7628946900367737,
      "learning_rate": 2.0006393291546883e-06,
      "loss": 1.3985,
      "mean_token_accuracy": 0.6515516539414724,
      "num_tokens": 3040533558.0,
      "step": 18140
    },
    {
      "entropy": 1.6692057152589161,
      "epoch": 1.9928867649886024,
      "grad_norm": 0.6552335619926453,
      "learning_rate": 2.0006203873412174e-06,
      "loss": 1.5968,
      "mean_token_accuracy": 0.6354374637206396,
      "num_tokens": 3040772004.0,
      "step": 18141
    },
    {
      "entropy": 1.7071496148904164,
      "epoch": 1.9929966218999753,
      "grad_norm": 0.5911110639572144,
      "learning_rate": 2.000601730354056e-06,
      "loss": 1.3592,
      "mean_token_accuracy": 0.6535786141951879,
      "num_tokens": 3040998379.0,
      "step": 18142
    },
    {
      "entropy": 1.7665246824423473,
      "epoch": 1.9931064788113482,
      "grad_norm": 0.699324369430542,
      "learning_rate": 2.000583358193795e-06,
      "loss": 1.4768,
      "mean_token_accuracy": 0.6513043691714605,
      "num_tokens": 3041134684.0,
      "step": 18143
    },
    {
      "entropy": 1.7260617713133495,
      "epoch": 1.993216335722721,
      "grad_norm": 0.7378421425819397,
      "learning_rate": 2.0005652708610145e-06,
      "loss": 1.3723,
      "mean_token_accuracy": 0.6644292175769806,
      "num_tokens": 3041295927.0,
      "step": 18144
    },
    {
      "entropy": 1.696333905061086,
      "epoch": 1.9933261926340942,
      "grad_norm": 0.6919421553611755,
      "learning_rate": 2.000547468356289e-06,
      "loss": 1.4383,
      "mean_token_accuracy": 0.6629768361647924,
      "num_tokens": 3041453675.0,
      "step": 18145
    },
    {
      "entropy": 1.7212949494520824,
      "epoch": 1.993436049545467,
      "grad_norm": 0.770926296710968,
      "learning_rate": 2.0005299506801808e-06,
      "loss": 1.4902,
      "mean_token_accuracy": 0.6531381358702978,
      "num_tokens": 3041633288.0,
      "step": 18146
    },
    {
      "entropy": 1.6915223002433777,
      "epoch": 1.99354590645684,
      "grad_norm": 0.7864291071891785,
      "learning_rate": 2.000512717833244e-06,
      "loss": 1.4262,
      "mean_token_accuracy": 0.6496833662192026,
      "num_tokens": 3041787947.0,
      "step": 18147
    },
    {
      "entropy": 1.6634085575739543,
      "epoch": 1.993655763368213,
      "grad_norm": 0.7216148376464844,
      "learning_rate": 2.0004957698160243e-06,
      "loss": 1.351,
      "mean_token_accuracy": 0.6673944791158041,
      "num_tokens": 3041922058.0,
      "step": 18148
    },
    {
      "entropy": 1.7852267622947693,
      "epoch": 1.9937656202795857,
      "grad_norm": 0.6994895339012146,
      "learning_rate": 2.0004791066290583e-06,
      "loss": 1.5275,
      "mean_token_accuracy": 0.648076981306076,
      "num_tokens": 3042114828.0,
      "step": 18149
    },
    {
      "entropy": 1.7273716727892559,
      "epoch": 1.9938754771909588,
      "grad_norm": 0.7003465890884399,
      "learning_rate": 2.000462728272874e-06,
      "loss": 1.3692,
      "mean_token_accuracy": 0.6554417014122009,
      "num_tokens": 3042260808.0,
      "step": 18150
    },
    {
      "entropy": 1.640130211909612,
      "epoch": 1.9939853341023317,
      "grad_norm": 0.7557557821273804,
      "learning_rate": 2.000446634747988e-06,
      "loss": 1.4792,
      "mean_token_accuracy": 0.6581311722596487,
      "num_tokens": 3042433542.0,
      "step": 18151
    },
    {
      "entropy": 1.6444950600465138,
      "epoch": 1.9940951910137046,
      "grad_norm": 0.6619048714637756,
      "learning_rate": 2.0004308260549116e-06,
      "loss": 1.4316,
      "mean_token_accuracy": 0.6499272088209788,
      "num_tokens": 3042630077.0,
      "step": 18152
    },
    {
      "entropy": 1.7205499112606049,
      "epoch": 1.9942050479250777,
      "grad_norm": 0.7403351664543152,
      "learning_rate": 2.0004153021941435e-06,
      "loss": 1.2772,
      "mean_token_accuracy": 0.6660661300023397,
      "num_tokens": 3042738444.0,
      "step": 18153
    },
    {
      "entropy": 1.642647961775462,
      "epoch": 1.9943149048364506,
      "grad_norm": 0.6520124673843384,
      "learning_rate": 2.0004000631661763e-06,
      "loss": 1.3813,
      "mean_token_accuracy": 0.6548943569262823,
      "num_tokens": 3042898607.0,
      "step": 18154
    },
    {
      "entropy": 1.762593497832616,
      "epoch": 1.9944247617478235,
      "grad_norm": 0.6629482507705688,
      "learning_rate": 2.0003851089714914e-06,
      "loss": 1.3936,
      "mean_token_accuracy": 0.6553806563218435,
      "num_tokens": 3043072996.0,
      "step": 18155
    },
    {
      "entropy": 1.6303976476192474,
      "epoch": 1.9945346186591963,
      "grad_norm": 0.6785465478897095,
      "learning_rate": 2.000370439610563e-06,
      "loss": 1.2432,
      "mean_token_accuracy": 0.6743980348110199,
      "num_tokens": 3043205963.0,
      "step": 18156
    },
    {
      "entropy": 1.694928377866745,
      "epoch": 1.9946444755705692,
      "grad_norm": 0.622810959815979,
      "learning_rate": 2.000356055083854e-06,
      "loss": 1.4332,
      "mean_token_accuracy": 0.6510835389296213,
      "num_tokens": 3043413561.0,
      "step": 18157
    },
    {
      "entropy": 1.6337503294150035,
      "epoch": 1.9947543324819423,
      "grad_norm": 0.5835052132606506,
      "learning_rate": 2.000341955391821e-06,
      "loss": 1.4437,
      "mean_token_accuracy": 0.646688754359881,
      "num_tokens": 3043625964.0,
      "step": 18158
    },
    {
      "entropy": 1.7825499673684437,
      "epoch": 1.9948641893933152,
      "grad_norm": 0.652887761592865,
      "learning_rate": 2.0003281405349095e-06,
      "loss": 1.6008,
      "mean_token_accuracy": 0.6128579080104828,
      "num_tokens": 3043865035.0,
      "step": 18159
    },
    {
      "entropy": 1.7153000434239705,
      "epoch": 1.994974046304688,
      "grad_norm": 0.6086410880088806,
      "learning_rate": 2.0003146105135573e-06,
      "loss": 1.1742,
      "mean_token_accuracy": 0.6773505012194315,
      "num_tokens": 3044061042.0,
      "step": 18160
    },
    {
      "entropy": 1.6450629631678264,
      "epoch": 1.9950839032160612,
      "grad_norm": 0.6745823621749878,
      "learning_rate": 2.0003013653281926e-06,
      "loss": 1.3636,
      "mean_token_accuracy": 0.6562095880508423,
      "num_tokens": 3044210757.0,
      "step": 18161
    },
    {
      "entropy": 1.7687378525733948,
      "epoch": 1.9951937601274339,
      "grad_norm": 0.7521758675575256,
      "learning_rate": 2.000288404979235e-06,
      "loss": 1.5204,
      "mean_token_accuracy": 0.6322930653889974,
      "num_tokens": 3044409106.0,
      "step": 18162
    },
    {
      "entropy": 1.7188294629255931,
      "epoch": 1.995303617038807,
      "grad_norm": 0.6091630458831787,
      "learning_rate": 2.0002757294670926e-06,
      "loss": 1.337,
      "mean_token_accuracy": 0.6657722691694895,
      "num_tokens": 3044596447.0,
      "step": 18163
    },
    {
      "entropy": 1.7012285093466442,
      "epoch": 1.9954134739501799,
      "grad_norm": 0.6440872550010681,
      "learning_rate": 2.0002633387921676e-06,
      "loss": 1.3507,
      "mean_token_accuracy": 0.6604795008897781,
      "num_tokens": 3044790314.0,
      "step": 18164
    },
    {
      "entropy": 1.7051705221335094,
      "epoch": 1.9955233308615528,
      "grad_norm": 0.7219937443733215,
      "learning_rate": 2.000251232954854e-06,
      "loss": 1.291,
      "mean_token_accuracy": 0.6619381904602051,
      "num_tokens": 3044914619.0,
      "step": 18165
    },
    {
      "entropy": 1.6888903081417084,
      "epoch": 1.9956331877729259,
      "grad_norm": 0.637630820274353,
      "learning_rate": 2.0002394119555326e-06,
      "loss": 1.389,
      "mean_token_accuracy": 0.6619627823432287,
      "num_tokens": 3045098000.0,
      "step": 18166
    },
    {
      "entropy": 1.7443795800209045,
      "epoch": 1.9957430446842988,
      "grad_norm": 0.6435023546218872,
      "learning_rate": 2.000227875794579e-06,
      "loss": 1.5764,
      "mean_token_accuracy": 0.620304211974144,
      "num_tokens": 3045323953.0,
      "step": 18167
    },
    {
      "entropy": 1.6719048420588176,
      "epoch": 1.9958529015956716,
      "grad_norm": 0.6005743741989136,
      "learning_rate": 2.0002166244723573e-06,
      "loss": 1.4482,
      "mean_token_accuracy": 0.653143455584844,
      "num_tokens": 3045542928.0,
      "step": 18168
    },
    {
      "entropy": 1.713512271642685,
      "epoch": 1.9959627585070445,
      "grad_norm": 0.7789661884307861,
      "learning_rate": 2.000205657989225e-06,
      "loss": 1.3143,
      "mean_token_accuracy": 0.6610560963551203,
      "num_tokens": 3045703434.0,
      "step": 18169
    },
    {
      "entropy": 1.7187098960081737,
      "epoch": 1.9960726154184174,
      "grad_norm": 0.6709672808647156,
      "learning_rate": 2.000194976345527e-06,
      "loss": 1.3616,
      "mean_token_accuracy": 0.6639542629321417,
      "num_tokens": 3045898367.0,
      "step": 18170
    },
    {
      "entropy": 1.7733473777770996,
      "epoch": 1.9961824723297905,
      "grad_norm": 0.7715442776679993,
      "learning_rate": 2.0001845795416034e-06,
      "loss": 1.4116,
      "mean_token_accuracy": 0.6565881470839182,
      "num_tokens": 3046044074.0,
      "step": 18171
    },
    {
      "entropy": 1.7301356891791027,
      "epoch": 1.9962923292411634,
      "grad_norm": 0.8577042818069458,
      "learning_rate": 2.0001744675777812e-06,
      "loss": 1.4882,
      "mean_token_accuracy": 0.6440813392400742,
      "num_tokens": 3046206087.0,
      "step": 18172
    },
    {
      "entropy": 1.6903728346029918,
      "epoch": 1.9964021861525363,
      "grad_norm": 0.5791963934898376,
      "learning_rate": 2.000164640454383e-06,
      "loss": 1.3326,
      "mean_token_accuracy": 0.661042665441831,
      "num_tokens": 3046378472.0,
      "step": 18173
    },
    {
      "entropy": 1.687019368012746,
      "epoch": 1.9965120430639094,
      "grad_norm": 0.6625068187713623,
      "learning_rate": 2.000155098171718e-06,
      "loss": 1.4011,
      "mean_token_accuracy": 0.6618767331043879,
      "num_tokens": 3046510726.0,
      "step": 18174
    },
    {
      "entropy": 1.759124368429184,
      "epoch": 1.996621899975282,
      "grad_norm": 0.7094929218292236,
      "learning_rate": 2.000145840730089e-06,
      "loss": 1.3934,
      "mean_token_accuracy": 0.6440586149692535,
      "num_tokens": 3046658513.0,
      "step": 18175
    },
    {
      "entropy": 1.691829909880956,
      "epoch": 1.9967317568866552,
      "grad_norm": 0.690881073474884,
      "learning_rate": 2.000136868129788e-06,
      "loss": 1.428,
      "mean_token_accuracy": 0.6513862907886505,
      "num_tokens": 3046862461.0,
      "step": 18176
    },
    {
      "entropy": 1.7729640205701191,
      "epoch": 1.996841613798028,
      "grad_norm": 0.7034747004508972,
      "learning_rate": 2.0001281803711007e-06,
      "loss": 1.358,
      "mean_token_accuracy": 0.6604643066724142,
      "num_tokens": 3047004414.0,
      "step": 18177
    },
    {
      "entropy": 1.694592813650767,
      "epoch": 1.996951470709401,
      "grad_norm": 0.6533588767051697,
      "learning_rate": 2.0001197774543004e-06,
      "loss": 1.3068,
      "mean_token_accuracy": 0.6626057177782059,
      "num_tokens": 3047148671.0,
      "step": 18178
    },
    {
      "entropy": 1.7134621640046437,
      "epoch": 1.997061327620774,
      "grad_norm": 0.5928846597671509,
      "learning_rate": 2.000111659379654e-06,
      "loss": 1.4752,
      "mean_token_accuracy": 0.6483317414919535,
      "num_tokens": 3047315839.0,
      "step": 18179
    },
    {
      "entropy": 1.7521715660889943,
      "epoch": 1.997171184532147,
      "grad_norm": 0.7548753619194031,
      "learning_rate": 2.000103826147418e-06,
      "loss": 1.3642,
      "mean_token_accuracy": 0.6631999164819717,
      "num_tokens": 3047443079.0,
      "step": 18180
    },
    {
      "entropy": 1.747659554084142,
      "epoch": 1.9972810414435198,
      "grad_norm": 0.7508565187454224,
      "learning_rate": 2.0000962777578404e-06,
      "loss": 1.3458,
      "mean_token_accuracy": 0.659741202990214,
      "num_tokens": 3047566548.0,
      "step": 18181
    },
    {
      "entropy": 1.700925201177597,
      "epoch": 1.997390898354893,
      "grad_norm": 0.7700899839401245,
      "learning_rate": 2.0000890142111605e-06,
      "loss": 1.1955,
      "mean_token_accuracy": 0.6900986135005951,
      "num_tokens": 3047664506.0,
      "step": 18182
    },
    {
      "entropy": 1.6882247428099315,
      "epoch": 1.9975007552662656,
      "grad_norm": 0.7430019378662109,
      "learning_rate": 2.0000820355076072e-06,
      "loss": 1.4729,
      "mean_token_accuracy": 0.6475649029016495,
      "num_tokens": 3047869269.0,
      "step": 18183
    },
    {
      "entropy": 1.6784042815367382,
      "epoch": 1.9976106121776387,
      "grad_norm": 0.618037760257721,
      "learning_rate": 2.000075341647402e-06,
      "loss": 1.3216,
      "mean_token_accuracy": 0.6691079139709473,
      "num_tokens": 3048027510.0,
      "step": 18184
    },
    {
      "entropy": 1.718860884507497,
      "epoch": 1.9977204690890116,
      "grad_norm": 0.7390254139900208,
      "learning_rate": 2.0000689326307567e-06,
      "loss": 1.2494,
      "mean_token_accuracy": 0.6714848627646764,
      "num_tokens": 3048152184.0,
      "step": 18185
    },
    {
      "entropy": 1.6419156392415364,
      "epoch": 1.9978303260003845,
      "grad_norm": 0.7709030508995056,
      "learning_rate": 2.000062808457875e-06,
      "loss": 1.3404,
      "mean_token_accuracy": 0.6696422000726064,
      "num_tokens": 3048287917.0,
      "step": 18186
    },
    {
      "entropy": 1.68554683526357,
      "epoch": 1.9979401829117576,
      "grad_norm": 0.591776967048645,
      "learning_rate": 2.0000569691289495e-06,
      "loss": 1.4674,
      "mean_token_accuracy": 0.6471003343661627,
      "num_tokens": 3048539631.0,
      "step": 18187
    },
    {
      "entropy": 1.698345571756363,
      "epoch": 1.9980500398231302,
      "grad_norm": 0.7942776083946228,
      "learning_rate": 2.0000514146441654e-06,
      "loss": 1.5863,
      "mean_token_accuracy": 0.6430133432149887,
      "num_tokens": 3048720202.0,
      "step": 18188
    },
    {
      "entropy": 1.6566093067328136,
      "epoch": 1.9981598967345033,
      "grad_norm": 0.6725602746009827,
      "learning_rate": 2.0000461450036985e-06,
      "loss": 1.2891,
      "mean_token_accuracy": 0.6772060046593348,
      "num_tokens": 3048914194.0,
      "step": 18189
    },
    {
      "entropy": 1.7242831885814667,
      "epoch": 1.9982697536458762,
      "grad_norm": 0.6108221411705017,
      "learning_rate": 2.0000411602077163e-06,
      "loss": 1.461,
      "mean_token_accuracy": 0.6506116489569346,
      "num_tokens": 3049099713.0,
      "step": 18190
    },
    {
      "entropy": 1.7347515324751537,
      "epoch": 1.998379610557249,
      "grad_norm": 0.7071492075920105,
      "learning_rate": 2.0000364602563753e-06,
      "loss": 1.3625,
      "mean_token_accuracy": 0.6629375716050466,
      "num_tokens": 3049259887.0,
      "step": 18191
    },
    {
      "entropy": 1.7372618913650513,
      "epoch": 1.9984894674686222,
      "grad_norm": 0.6914885640144348,
      "learning_rate": 2.000032045149825e-06,
      "loss": 1.4312,
      "mean_token_accuracy": 0.650190552075704,
      "num_tokens": 3049424470.0,
      "step": 18192
    },
    {
      "entropy": 1.7188272774219513,
      "epoch": 1.998599324379995,
      "grad_norm": 0.7079371213912964,
      "learning_rate": 2.0000279148882053e-06,
      "loss": 1.6254,
      "mean_token_accuracy": 0.6389360229174296,
      "num_tokens": 3049646174.0,
      "step": 18193
    },
    {
      "entropy": 1.6750788291295369,
      "epoch": 1.998709181291368,
      "grad_norm": 0.7202898859977722,
      "learning_rate": 2.000024069471646e-06,
      "loss": 1.2239,
      "mean_token_accuracy": 0.6829964170853297,
      "num_tokens": 3049800566.0,
      "step": 18194
    },
    {
      "entropy": 1.686879813671112,
      "epoch": 1.998819038202741,
      "grad_norm": 0.7090538740158081,
      "learning_rate": 2.0000205089002696e-06,
      "loss": 1.3509,
      "mean_token_accuracy": 0.67240938047568,
      "num_tokens": 3049949036.0,
      "step": 18195
    },
    {
      "entropy": 1.6966327925523121,
      "epoch": 1.9989288951141138,
      "grad_norm": 0.6627102494239807,
      "learning_rate": 2.000017233174189e-06,
      "loss": 1.3099,
      "mean_token_accuracy": 0.6580508897701899,
      "num_tokens": 3050113118.0,
      "step": 18196
    },
    {
      "entropy": 1.7072912355264027,
      "epoch": 1.9990387520254869,
      "grad_norm": 0.689150869846344,
      "learning_rate": 2.0000142422935068e-06,
      "loss": 1.4376,
      "mean_token_accuracy": 0.6440875480572382,
      "num_tokens": 3050310659.0,
      "step": 18197
    },
    {
      "entropy": 1.6617674827575684,
      "epoch": 1.9991486089368598,
      "grad_norm": 0.6578044295310974,
      "learning_rate": 2.000011536258319e-06,
      "loss": 1.3804,
      "mean_token_accuracy": 0.6541756838560104,
      "num_tokens": 3050446831.0,
      "step": 18198
    },
    {
      "entropy": 1.661964366833369,
      "epoch": 1.9992584658482326,
      "grad_norm": 0.7953215837478638,
      "learning_rate": 2.00000911506871e-06,
      "loss": 1.3325,
      "mean_token_accuracy": 0.6677337139844894,
      "num_tokens": 3050595454.0,
      "step": 18199
    },
    {
      "entropy": 1.7314130862553914,
      "epoch": 1.9993683227596057,
      "grad_norm": 0.6476884484291077,
      "learning_rate": 2.0000069787247574e-06,
      "loss": 1.282,
      "mean_token_accuracy": 0.6776565164327621,
      "num_tokens": 3050722494.0,
      "step": 18200
    },
    {
      "entropy": 1.7134939829508464,
      "epoch": 1.9994781796709784,
      "grad_norm": 0.7247772812843323,
      "learning_rate": 2.0000051272265275e-06,
      "loss": 1.4396,
      "mean_token_accuracy": 0.6534018168846766,
      "num_tokens": 3050881167.0,
      "step": 18201
    },
    {
      "entropy": 1.6716128786404927,
      "epoch": 1.9995880365823515,
      "grad_norm": 0.6074260473251343,
      "learning_rate": 2.000003560574081e-06,
      "loss": 1.3665,
      "mean_token_accuracy": 0.6494092990954717,
      "num_tokens": 3051103681.0,
      "step": 18202
    },
    {
      "entropy": 1.7386046648025513,
      "epoch": 1.9996978934937244,
      "grad_norm": 0.7610368728637695,
      "learning_rate": 2.000002278767466e-06,
      "loss": 1.4719,
      "mean_token_accuracy": 0.6267879009246826,
      "num_tokens": 3051336600.0,
      "step": 18203
    },
    {
      "entropy": 1.6595459183057149,
      "epoch": 1.9998077504050973,
      "grad_norm": 1.1902509927749634,
      "learning_rate": 2.000001281806723e-06,
      "loss": 1.319,
      "mean_token_accuracy": 0.6607537617286047,
      "num_tokens": 3051506942.0,
      "step": 18204
    },
    {
      "entropy": 1.6532653272151947,
      "epoch": 1.9999176073164704,
      "grad_norm": 0.6938499212265015,
      "learning_rate": 2.000000569691885e-06,
      "loss": 1.3618,
      "mean_token_accuracy": 0.6603017499049505,
      "num_tokens": 3051631616.0,
      "step": 18205
    },
    {
      "entropy": 1.7311393817265828,
      "epoch": 2.0,
      "grad_norm": 0.7615280747413635,
      "learning_rate": 2.0000001424229725e-06,
      "loss": 1.4697,
      "mean_token_accuracy": 0.6398886442184448,
      "num_tokens": 3051740039.0,
      "step": 18206
    },
    {
      "epoch": 2.0,
      "step": 18206,
      "total_flos": 3.1404917922249834e+19,
      "train_loss": 1.4016287254459527,
      "train_runtime": 304386.5826,
      "train_samples_per_second": 7.177,
      "train_steps_per_second": 0.06
    }
  ],
  "logging_steps": 1,
  "max_steps": 18206,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 2000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 3.1404917922249834e+19,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}