{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 2.0,
  "eval_steps": 500,
  "global_step": 554,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "entropy": 2.358862280845642,
      "epoch": 0.0036199095022624436,
      "grad_norm": 2.292628288269043,
      "learning_rate": 0.0,
      "loss": 0.7311,
      "mean_token_accuracy": 0.8534883409738541,
      "num_tokens": 9316.0,
      "step": 1
    },
    {
      "entropy": 2.674945294857025,
      "epoch": 0.007239819004524887,
      "grad_norm": 3.8950836658477783,
      "learning_rate": 1.0219999999999999e-05,
      "loss": 1.0621,
      "mean_token_accuracy": 0.8183160275220871,
      "num_tokens": 17707.0,
      "step": 2
    },
    {
      "entropy": 2.4915525913238525,
      "epoch": 0.01085972850678733,
      "grad_norm": 2.792142868041992,
      "learning_rate": 2.0439999999999997e-05,
      "loss": 0.8448,
      "mean_token_accuracy": 0.8489587754011154,
      "num_tokens": 26783.0,
      "step": 3
    },
    {
      "entropy": 2.525622010231018,
      "epoch": 0.014479638009049774,
      "grad_norm": 2.7071900367736816,
      "learning_rate": 3.0659999999999994e-05,
      "loss": 0.8847,
      "mean_token_accuracy": 0.8486668318510056,
      "num_tokens": 35947.0,
      "step": 4
    },
    {
      "entropy": 2.588509976863861,
      "epoch": 0.01809954751131222,
      "grad_norm": 2.981574773788452,
      "learning_rate": 4.0879999999999995e-05,
      "loss": 1.0783,
      "mean_token_accuracy": 0.8135111033916473,
      "num_tokens": 44505.0,
      "step": 5
    },
    {
      "entropy": 2.662865400314331,
      "epoch": 0.02171945701357466,
      "grad_norm": 2.629283905029297,
      "learning_rate": 5.1099999999999995e-05,
      "loss": 0.9485,
      "mean_token_accuracy": 0.8152717798948288,
      "num_tokens": 53140.0,
      "step": 6
    },
    {
      "entropy": 2.6662243604660034,
      "epoch": 0.025339366515837104,
      "grad_norm": 2.730058431625366,
      "learning_rate": 6.131999999999999e-05,
      "loss": 0.6982,
      "mean_token_accuracy": 0.8552135527133942,
      "num_tokens": 61932.0,
      "step": 7
    },
    {
      "entropy": 2.661384105682373,
      "epoch": 0.02895927601809955,
      "grad_norm": 2.562839984893799,
      "learning_rate": 7.154e-05,
      "loss": 0.7296,
      "mean_token_accuracy": 0.8579540699720383,
      "num_tokens": 70973.0,
      "step": 8
    },
    {
      "entropy": 2.7889368534088135,
      "epoch": 0.03257918552036199,
      "grad_norm": 2.8640544414520264,
      "learning_rate": 8.175999999999999e-05,
      "loss": 0.5965,
      "mean_token_accuracy": 0.8638457208871841,
      "num_tokens": 79977.0,
      "step": 9
    },
    {
      "entropy": 2.811532199382782,
      "epoch": 0.03619909502262444,
      "grad_norm": 2.6199426651000977,
      "learning_rate": 9.197999999999998e-05,
      "loss": 0.4819,
      "mean_token_accuracy": 0.8786454051733017,
      "num_tokens": 88915.0,
      "step": 10
    },
    {
      "entropy": 2.941167712211609,
      "epoch": 0.039819004524886875,
      "grad_norm": 1.2497272491455078,
      "learning_rate": 0.00010219999999999999,
      "loss": 0.7192,
      "mean_token_accuracy": 0.841494083404541,
      "num_tokens": 97749.0,
      "step": 11
    },
    {
      "entropy": 3.0547962188720703,
      "epoch": 0.04343891402714932,
      "grad_norm": 1.436136245727539,
      "learning_rate": 0.00011241999999999998,
      "loss": 0.5908,
      "mean_token_accuracy": 0.8657624870538712,
      "num_tokens": 106048.0,
      "step": 12
    },
    {
      "entropy": 2.9914053082466125,
      "epoch": 0.047058823529411764,
      "grad_norm": 0.9903654456138611,
      "learning_rate": 0.00012263999999999998,
      "loss": 0.4008,
      "mean_token_accuracy": 0.8985499292612076,
      "num_tokens": 115216.0,
      "step": 13
    },
    {
      "entropy": 3.1867465376853943,
      "epoch": 0.05067873303167421,
      "grad_norm": 1.019572377204895,
      "learning_rate": 0.00013286,
      "loss": 0.5062,
      "mean_token_accuracy": 0.8893097043037415,
      "num_tokens": 124040.0,
      "step": 14
    },
    {
      "entropy": 3.2431325912475586,
      "epoch": 0.05429864253393665,
      "grad_norm": 1.2394084930419922,
      "learning_rate": 0.00014308,
      "loss": 0.361,
      "mean_token_accuracy": 0.9009967148303986,
      "num_tokens": 132447.0,
      "step": 15
    },
    {
      "entropy": 3.1858643889427185,
      "epoch": 0.0579185520361991,
      "grad_norm": 0.9859603643417358,
      "learning_rate": 0.00015329999999999999,
      "loss": 0.4498,
      "mean_token_accuracy": 0.887280747294426,
      "num_tokens": 141228.0,
      "step": 16
    },
    {
      "entropy": 3.5029141902923584,
      "epoch": 0.06153846153846154,
      "grad_norm": 1.453957438468933,
      "learning_rate": 0.00016351999999999998,
      "loss": 0.4949,
      "mean_token_accuracy": 0.888081505894661,
      "num_tokens": 149789.0,
      "step": 17
    },
    {
      "entropy": 3.4572895765304565,
      "epoch": 0.06515837104072399,
      "grad_norm": 1.390377402305603,
      "learning_rate": 0.00017374,
      "loss": 0.5449,
      "mean_token_accuracy": 0.8745045810937881,
      "num_tokens": 157813.0,
      "step": 18
    },
    {
      "entropy": 3.3081750869750977,
      "epoch": 0.06877828054298643,
      "grad_norm": 1.1171791553497314,
      "learning_rate": 0.00018395999999999997,
      "loss": 0.4786,
      "mean_token_accuracy": 0.8893420845270157,
      "num_tokens": 166315.0,
      "step": 19
    },
    {
      "entropy": 3.3776715993881226,
      "epoch": 0.07239819004524888,
      "grad_norm": 1.5567998886108398,
      "learning_rate": 0.00019418,
      "loss": 0.3669,
      "mean_token_accuracy": 0.9146632701158524,
      "num_tokens": 175207.0,
      "step": 20
    },
    {
      "entropy": 3.2677870988845825,
      "epoch": 0.0760180995475113,
      "grad_norm": 1.7404611110687256,
      "learning_rate": 0.00020439999999999998,
      "loss": 0.5287,
      "mean_token_accuracy": 0.8777483552694321,
      "num_tokens": 183833.0,
      "step": 21
    },
    {
      "entropy": 3.313201069831848,
      "epoch": 0.07963800904977375,
      "grad_norm": 1.0836979150772095,
      "learning_rate": 0.00021461999999999997,
      "loss": 0.3014,
      "mean_token_accuracy": 0.9215261936187744,
      "num_tokens": 192591.0,
      "step": 22
    },
    {
      "entropy": 3.208672881126404,
      "epoch": 0.0832579185520362,
      "grad_norm": 1.2197301387786865,
      "learning_rate": 0.00022483999999999997,
      "loss": 0.4401,
      "mean_token_accuracy": 0.9031257778406143,
      "num_tokens": 201372.0,
      "step": 23
    },
    {
      "entropy": 3.1830995082855225,
      "epoch": 0.08687782805429864,
      "grad_norm": 1.2422229051589966,
      "learning_rate": 0.00023506,
      "loss": 0.5144,
      "mean_token_accuracy": 0.8915928155183792,
      "num_tokens": 210348.0,
      "step": 24
    },
    {
      "entropy": 3.085207223892212,
      "epoch": 0.09049773755656108,
      "grad_norm": 0.8987624049186707,
      "learning_rate": 0.00024527999999999996,
      "loss": 0.3253,
      "mean_token_accuracy": 0.9221627116203308,
      "num_tokens": 219131.0,
      "step": 25
    },
    {
      "entropy": 3.026031017303467,
      "epoch": 0.09411764705882353,
      "grad_norm": 1.0273475646972656,
      "learning_rate": 0.0002555,
      "loss": 0.3495,
      "mean_token_accuracy": 0.9147634357213974,
      "num_tokens": 228292.0,
      "step": 26
    },
    {
      "entropy": 3.0420032739639282,
      "epoch": 0.09773755656108597,
      "grad_norm": 1.0590945482254028,
      "learning_rate": 0.00026572,
      "loss": 0.4495,
      "mean_token_accuracy": 0.9019353687763214,
      "num_tokens": 236942.0,
      "step": 27
    },
    {
      "entropy": 3.0469263792037964,
      "epoch": 0.10135746606334842,
      "grad_norm": 0.9584959745407104,
      "learning_rate": 0.00027594,
      "loss": 0.405,
      "mean_token_accuracy": 0.9216890782117844,
      "num_tokens": 245543.0,
      "step": 28
    },
    {
      "entropy": 2.92683744430542,
      "epoch": 0.10497737556561086,
      "grad_norm": 0.8826628923416138,
      "learning_rate": 0.00028616,
      "loss": 0.4004,
      "mean_token_accuracy": 0.9173285663127899,
      "num_tokens": 254264.0,
      "step": 29
    },
    {
      "entropy": 3.0086968541145325,
      "epoch": 0.1085972850678733,
      "grad_norm": 0.8521863222122192,
      "learning_rate": 0.00029637999999999995,
      "loss": 0.2876,
      "mean_token_accuracy": 0.9335231184959412,
      "num_tokens": 263143.0,
      "step": 30
    },
    {
      "entropy": 2.9086623191833496,
      "epoch": 0.11221719457013575,
      "grad_norm": 0.7830919623374939,
      "learning_rate": 0.00030659999999999997,
      "loss": 0.548,
      "mean_token_accuracy": 0.8831343650817871,
      "num_tokens": 272055.0,
      "step": 31
    },
    {
      "entropy": 2.9730575680732727,
      "epoch": 0.1158371040723982,
      "grad_norm": 0.7217472195625305,
      "learning_rate": 0.00031682,
      "loss": 0.3564,
      "mean_token_accuracy": 0.9119151830673218,
      "num_tokens": 280971.0,
      "step": 32
    },
    {
      "entropy": 3.081720530986786,
      "epoch": 0.11945701357466064,
      "grad_norm": 0.8697704076766968,
      "learning_rate": 0.00032703999999999996,
      "loss": 0.334,
      "mean_token_accuracy": 0.9234935492277145,
      "num_tokens": 289449.0,
      "step": 33
    },
    {
      "entropy": 3.1043431162834167,
      "epoch": 0.12307692307692308,
      "grad_norm": 0.7962514758110046,
      "learning_rate": 0.00033726,
      "loss": 0.1602,
      "mean_token_accuracy": 0.9554370939731598,
      "num_tokens": 297804.0,
      "step": 34
    },
    {
      "entropy": 3.0275490283966064,
      "epoch": 0.12669683257918551,
      "grad_norm": 0.5887104272842407,
      "learning_rate": 0.00034748,
      "loss": 0.2254,
      "mean_token_accuracy": 0.9491932094097137,
      "num_tokens": 306589.0,
      "step": 35
    },
    {
      "entropy": 3.099652886390686,
      "epoch": 0.13031674208144797,
      "grad_norm": 0.894397497177124,
      "learning_rate": 0.00035769999999999997,
      "loss": 0.6397,
      "mean_token_accuracy": 0.8802188038825989,
      "num_tokens": 315534.0,
      "step": 36
    },
    {
      "entropy": 3.0312134623527527,
      "epoch": 0.1339366515837104,
      "grad_norm": 0.6374682188034058,
      "learning_rate": 0.00036791999999999993,
      "loss": 0.2183,
      "mean_token_accuracy": 0.9478497952222824,
      "num_tokens": 324492.0,
      "step": 37
    },
    {
      "entropy": 3.28497713804245,
      "epoch": 0.13755656108597286,
      "grad_norm": 0.6740968823432922,
      "learning_rate": 0.00037813999999999995,
      "loss": 0.3619,
      "mean_token_accuracy": 0.9288723170757294,
      "num_tokens": 333195.0,
      "step": 38
    },
    {
      "entropy": 3.1478323340415955,
      "epoch": 0.1411764705882353,
      "grad_norm": 0.7235494256019592,
      "learning_rate": 0.00038836,
      "loss": 0.324,
      "mean_token_accuracy": 0.9179254025220871,
      "num_tokens": 342028.0,
      "step": 39
    },
    {
      "entropy": 3.279879152774811,
      "epoch": 0.14479638009049775,
      "grad_norm": 0.7512595653533936,
      "learning_rate": 0.00039858,
      "loss": 0.4804,
      "mean_token_accuracy": 0.889826312661171,
      "num_tokens": 350902.0,
      "step": 40
    },
    {
      "entropy": 3.173546612262726,
      "epoch": 0.14841628959276018,
      "grad_norm": 0.6978861689567566,
      "learning_rate": 0.00040879999999999996,
      "loss": 0.3442,
      "mean_token_accuracy": 0.9205169230699539,
      "num_tokens": 359787.0,
      "step": 41
    },
    {
      "entropy": 3.2385765314102173,
      "epoch": 0.1520361990950226,
      "grad_norm": 0.8108944892883301,
      "learning_rate": 0.00041901999999999993,
      "loss": 0.4223,
      "mean_token_accuracy": 0.8979178965091705,
      "num_tokens": 368426.0,
      "step": 42
    },
    {
      "entropy": 3.146568477153778,
      "epoch": 0.15565610859728507,
      "grad_norm": 0.5847787261009216,
      "learning_rate": 0.00042923999999999995,
      "loss": 0.1953,
      "mean_token_accuracy": 0.9556037336587906,
      "num_tokens": 377349.0,
      "step": 43
    },
    {
      "entropy": 3.066233277320862,
      "epoch": 0.1592760180995475,
      "grad_norm": 0.7887329459190369,
      "learning_rate": 0.00043945999999999997,
      "loss": 0.6815,
      "mean_token_accuracy": 0.8654293268918991,
      "num_tokens": 386603.0,
      "step": 44
    },
    {
      "entropy": 3.1745981574058533,
      "epoch": 0.16289592760180996,
      "grad_norm": 0.7280165553092957,
      "learning_rate": 0.00044967999999999994,
      "loss": 0.1932,
      "mean_token_accuracy": 0.9479279220104218,
      "num_tokens": 395070.0,
      "step": 45
    },
    {
      "entropy": 3.1094446182250977,
      "epoch": 0.1665158371040724,
      "grad_norm": 0.6453448534011841,
      "learning_rate": 0.00045989999999999996,
      "loss": 0.2608,
      "mean_token_accuracy": 0.9249396026134491,
      "num_tokens": 403651.0,
      "step": 46
    },
    {
      "entropy": 2.9050925970077515,
      "epoch": 0.17013574660633485,
      "grad_norm": 0.6689278483390808,
      "learning_rate": 0.00047012,
      "loss": 0.4489,
      "mean_token_accuracy": 0.898686870932579,
      "num_tokens": 412898.0,
      "step": 47
    },
    {
      "entropy": 3.2239145040512085,
      "epoch": 0.17375565610859728,
      "grad_norm": 1.0014020204544067,
      "learning_rate": 0.00048033999999999994,
      "loss": 0.3234,
      "mean_token_accuracy": 0.9231891483068466,
      "num_tokens": 421420.0,
      "step": 48
    },
    {
      "entropy": 3.035899817943573,
      "epoch": 0.17737556561085974,
      "grad_norm": 0.6415768265724182,
      "learning_rate": 0.0004905599999999999,
      "loss": 0.2259,
      "mean_token_accuracy": 0.9447792917490005,
      "num_tokens": 430258.0,
      "step": 49
    },
    {
      "entropy": 3.057477653026581,
      "epoch": 0.18099547511312217,
      "grad_norm": 0.6042271256446838,
      "learning_rate": 0.0005007799999999999,
      "loss": 0.2228,
      "mean_token_accuracy": 0.9473378211259842,
      "num_tokens": 439593.0,
      "step": 50
    },
    {
      "entropy": 2.8375911116600037,
      "epoch": 0.18461538461538463,
      "grad_norm": 0.739811897277832,
      "learning_rate": 0.000511,
      "loss": 0.3623,
      "mean_token_accuracy": 0.9050924181938171,
      "num_tokens": 449056.0,
      "step": 51
    },
    {
      "entropy": 2.9926682114601135,
      "epoch": 0.18823529411764706,
      "grad_norm": 0.6637321710586548,
      "learning_rate": 0.0005109995633102972,
      "loss": 0.2924,
      "mean_token_accuracy": 0.9397273659706116,
      "num_tokens": 457677.0,
      "step": 52
    },
    {
      "entropy": 2.7932987809181213,
      "epoch": 0.19185520361990951,
      "grad_norm": 0.5666584372520447,
      "learning_rate": 0.0005109982532428477,
      "loss": 0.2055,
      "mean_token_accuracy": 0.9385408014059067,
      "num_tokens": 466969.0,
      "step": 53
    },
    {
      "entropy": 2.765812337398529,
      "epoch": 0.19547511312217195,
      "grad_norm": 0.7875120639801025,
      "learning_rate": 0.0005109960698026271,
      "loss": 0.4549,
      "mean_token_accuracy": 0.9052814990282059,
      "num_tokens": 476285.0,
      "step": 54
    },
    {
      "entropy": 2.884207248687744,
      "epoch": 0.19909502262443438,
      "grad_norm": 0.7538661956787109,
      "learning_rate": 0.0005109930129979285,
      "loss": 0.3751,
      "mean_token_accuracy": 0.9210246652364731,
      "num_tokens": 484668.0,
      "step": 55
    },
    {
      "entropy": 2.779718518257141,
      "epoch": 0.20271493212669683,
      "grad_norm": 0.8069296479225159,
      "learning_rate": 0.0005109890828403621,
      "loss": 0.3664,
      "mean_token_accuracy": 0.9219843596220016,
      "num_tokens": 493292.0,
      "step": 56
    },
    {
      "entropy": 2.841543674468994,
      "epoch": 0.20633484162895926,
      "grad_norm": 0.5545904636383057,
      "learning_rate": 0.0005109842793448548,
      "loss": 0.1973,
      "mean_token_accuracy": 0.9547395706176758,
      "num_tokens": 501973.0,
      "step": 57
    },
    {
      "entropy": 2.8180030584335327,
      "epoch": 0.20995475113122172,
      "grad_norm": 1.015456199645996,
      "learning_rate": 0.0005109786025296513,
      "loss": 0.6019,
      "mean_token_accuracy": 0.88613361120224,
      "num_tokens": 510840.0,
      "step": 58
    },
    {
      "entropy": 2.7450912594795227,
      "epoch": 0.21357466063348415,
      "grad_norm": 0.6784740686416626,
      "learning_rate": 0.0005109720524163127,
      "loss": 0.2868,
      "mean_token_accuracy": 0.9295425117015839,
      "num_tokens": 519656.0,
      "step": 59
    },
    {
      "entropy": 2.822400987148285,
      "epoch": 0.2171945701357466,
      "grad_norm": 0.8780149817466736,
      "learning_rate": 0.000510964629029717,
      "loss": 0.4371,
      "mean_token_accuracy": 0.9089596569538116,
      "num_tokens": 528105.0,
      "step": 60
    },
    {
      "entropy": 2.522100865840912,
      "epoch": 0.22081447963800904,
      "grad_norm": 0.51394122838974,
      "learning_rate": 0.0005109563323980594,
      "loss": 0.2509,
      "mean_token_accuracy": 0.941976860165596,
      "num_tokens": 537707.0,
      "step": 61
    },
    {
      "entropy": 2.6596657633781433,
      "epoch": 0.2244343891402715,
      "grad_norm": 0.6359816789627075,
      "learning_rate": 0.0005109471625528516,
      "loss": 0.3685,
      "mean_token_accuracy": 0.9191890209913254,
      "num_tokens": 546517.0,
      "step": 62
    },
    {
      "entropy": 2.800311803817749,
      "epoch": 0.22805429864253393,
      "grad_norm": 0.6862941980361938,
      "learning_rate": 0.0005109371195289215,
      "loss": 0.2457,
      "mean_token_accuracy": 0.9330879002809525,
      "num_tokens": 555493.0,
      "step": 63
    },
    {
      "entropy": 2.7235344648361206,
      "epoch": 0.2316742081447964,
      "grad_norm": 1.0464682579040527,
      "learning_rate": 0.0005109262033644142,
      "loss": 0.4417,
      "mean_token_accuracy": 0.8957678377628326,
      "num_tokens": 564255.0,
      "step": 64
    },
    {
      "entropy": 2.6643534302711487,
      "epoch": 0.23529411764705882,
      "grad_norm": 1.0790019035339355,
      "learning_rate": 0.0005109144141007903,
      "loss": 0.4947,
      "mean_token_accuracy": 0.8889007717370987,
      "num_tokens": 573401.0,
      "step": 65
    },
    {
      "entropy": 2.760925054550171,
      "epoch": 0.23891402714932128,
      "grad_norm": 0.7957189679145813,
      "learning_rate": 0.0005109017517828273,
      "loss": 0.2259,
      "mean_token_accuracy": 0.944578230381012,
      "num_tokens": 581905.0,
      "step": 66
    },
    {
      "entropy": 2.7048792839050293,
      "epoch": 0.2425339366515837,
      "grad_norm": 0.9530714750289917,
      "learning_rate": 0.0005108882164586181,
      "loss": 0.3122,
      "mean_token_accuracy": 0.9257418513298035,
      "num_tokens": 590802.0,
      "step": 67
    },
    {
      "entropy": 2.6733291149139404,
      "epoch": 0.24615384615384617,
      "grad_norm": 0.8295993208885193,
      "learning_rate": 0.0005108738081795716,
      "loss": 0.3701,
      "mean_token_accuracy": 0.898589238524437,
      "num_tokens": 599279.0,
      "step": 68
    },
    {
      "entropy": 2.5613606572151184,
      "epoch": 0.2497737556561086,
      "grad_norm": 0.6205935478210449,
      "learning_rate": 0.0005108585270004123,
      "loss": 0.4372,
      "mean_token_accuracy": 0.9116007685661316,
      "num_tokens": 608107.0,
      "step": 69
    },
    {
      "entropy": 2.458296835422516,
      "epoch": 0.25339366515837103,
      "grad_norm": 0.7629838585853577,
      "learning_rate": 0.0005108423729791799,
      "loss": 0.2307,
      "mean_token_accuracy": 0.9386163502931595,
      "num_tokens": 616881.0,
      "step": 70
    },
    {
      "entropy": 2.4176695346832275,
      "epoch": 0.25701357466063346,
      "grad_norm": 0.902400016784668,
      "learning_rate": 0.0005108253461772298,
      "loss": 0.2853,
      "mean_token_accuracy": 0.9237343072891235,
      "num_tokens": 625323.0,
      "step": 71
    },
    {
      "entropy": 2.2265281677246094,
      "epoch": 0.26063348416289595,
      "grad_norm": 0.7744383811950684,
      "learning_rate": 0.0005108074466592316,
      "loss": 0.2435,
      "mean_token_accuracy": 0.9508260935544968,
      "num_tokens": 634260.0,
      "step": 72
    },
    {
      "entropy": 2.1855952441692352,
      "epoch": 0.2642533936651584,
      "grad_norm": 0.8615190386772156,
      "learning_rate": 0.0005107886744931702,
      "loss": 0.3323,
      "mean_token_accuracy": 0.9276078194379807,
      "num_tokens": 643235.0,
      "step": 73
    },
    {
      "entropy": 2.179121494293213,
      "epoch": 0.2678733031674208,
      "grad_norm": 0.8953279256820679,
      "learning_rate": 0.0005107690297503444,
      "loss": 0.2384,
      "mean_token_accuracy": 0.9425230622291565,
      "num_tokens": 652032.0,
      "step": 74
    },
    {
      "entropy": 2.1565526127815247,
      "epoch": 0.27149321266968324,
      "grad_norm": 0.6830486059188843,
      "learning_rate": 0.0005107485125053678,
      "loss": 0.2759,
      "mean_token_accuracy": 0.9360661953687668,
      "num_tokens": 660978.0,
      "step": 75
    },
    {
      "entropy": 2.0900665521621704,
      "epoch": 0.2751131221719457,
      "grad_norm": 0.786665141582489,
      "learning_rate": 0.0005107271228361672,
      "loss": 0.4061,
      "mean_token_accuracy": 0.910009115934372,
      "num_tokens": 669817.0,
      "step": 76
    },
    {
      "entropy": 2.1311859488487244,
      "epoch": 0.27873303167420815,
      "grad_norm": 0.6399909853935242,
      "learning_rate": 0.0005107048608239836,
      "loss": 0.272,
      "mean_token_accuracy": 0.9424714297056198,
      "num_tokens": 678469.0,
      "step": 77
    },
    {
      "entropy": 2.059997320175171,
      "epoch": 0.2823529411764706,
      "grad_norm": 0.8114754557609558,
      "learning_rate": 0.0005106817265533706,
      "loss": 0.4029,
      "mean_token_accuracy": 0.9037660360336304,
      "num_tokens": 687261.0,
      "step": 78
    },
    {
      "entropy": 1.9725019037723541,
      "epoch": 0.285972850678733,
      "grad_norm": 0.9420941472053528,
      "learning_rate": 0.0005106577201121952,
      "loss": 0.535,
      "mean_token_accuracy": 0.8996377140283585,
      "num_tokens": 695941.0,
      "step": 79
    },
    {
      "entropy": 1.9951164424419403,
      "epoch": 0.2895927601809955,
      "grad_norm": 0.6476142406463623,
      "learning_rate": 0.0005106328415916372,
      "loss": 0.2242,
      "mean_token_accuracy": 0.941379725933075,
      "num_tokens": 704643.0,
      "step": 80
    },
    {
      "entropy": 1.8962564170360565,
      "epoch": 0.29321266968325793,
      "grad_norm": 0.5974630117416382,
      "learning_rate": 0.0005106070910861881,
      "loss": 0.2934,
      "mean_token_accuracy": 0.9217697530984879,
      "num_tokens": 713605.0,
      "step": 81
    },
    {
      "entropy": 1.9781515896320343,
      "epoch": 0.29683257918552036,
      "grad_norm": 0.8755478262901306,
      "learning_rate": 0.0005105804686936518,
      "loss": 0.4551,
      "mean_token_accuracy": 0.9051328897476196,
      "num_tokens": 722385.0,
      "step": 82
    },
    {
      "entropy": 1.9892418384552002,
      "epoch": 0.3004524886877828,
      "grad_norm": 0.6887345314025879,
      "learning_rate": 0.0005105529745151433,
      "loss": 0.244,
      "mean_token_accuracy": 0.9261117279529572,
      "num_tokens": 730962.0,
      "step": 83
    },
    {
      "entropy": 2.0053181648254395,
      "epoch": 0.3040723981900452,
      "grad_norm": 0.6930885910987854,
      "learning_rate": 0.0005105246086550893,
      "loss": 0.3155,
      "mean_token_accuracy": 0.9206147193908691,
      "num_tokens": 739499.0,
      "step": 84
    },
    {
      "entropy": 1.9716475903987885,
      "epoch": 0.3076923076923077,
      "grad_norm": 0.5049461722373962,
      "learning_rate": 0.0005104953712212266,
      "loss": 0.2215,
      "mean_token_accuracy": 0.9608763605356216,
      "num_tokens": 748604.0,
      "step": 85
    },
    {
      "entropy": 1.9186978042125702,
      "epoch": 0.31131221719457014,
      "grad_norm": 0.5756685733795166,
      "learning_rate": 0.000510465262324603,
      "loss": 0.2658,
      "mean_token_accuracy": 0.9372887462377548,
      "num_tokens": 757919.0,
      "step": 86
    },
    {
      "entropy": 1.9738290905952454,
      "epoch": 0.31493212669683257,
      "grad_norm": 0.6163789629936218,
      "learning_rate": 0.0005104342820795758,
      "loss": 0.2472,
      "mean_token_accuracy": 0.9430449157953262,
      "num_tokens": 766708.0,
      "step": 87
    },
    {
      "entropy": 2.1927571892738342,
      "epoch": 0.318552036199095,
      "grad_norm": 0.7953162789344788,
      "learning_rate": 0.0005104024306038119,
      "loss": 0.261,
      "mean_token_accuracy": 0.9425829648971558,
      "num_tokens": 774601.0,
      "step": 88
    },
    {
      "entropy": 2.043731451034546,
      "epoch": 0.3221719457013575,
      "grad_norm": 0.8098088502883911,
      "learning_rate": 0.0005103697080182872,
      "loss": 0.3126,
      "mean_token_accuracy": 0.9158089309930801,
      "num_tokens": 783170.0,
      "step": 89
    },
    {
      "entropy": 1.9801572561264038,
      "epoch": 0.3257918552036199,
      "grad_norm": 0.5227240920066833,
      "learning_rate": 0.0005103361144472864,
      "loss": 0.1291,
      "mean_token_accuracy": 0.9666071832180023,
      "num_tokens": 791769.0,
      "step": 90
    },
    {
      "entropy": 1.9553790986537933,
      "epoch": 0.32941176470588235,
      "grad_norm": 0.7819464206695557,
      "learning_rate": 0.0005103016500184022,
      "loss": 0.531,
      "mean_token_accuracy": 0.8817111849784851,
      "num_tokens": 800824.0,
      "step": 91
    },
    {
      "entropy": 1.9291303753852844,
      "epoch": 0.3330316742081448,
      "grad_norm": 0.7178757190704346,
      "learning_rate": 0.0005102663148625347,
      "loss": 0.3301,
      "mean_token_accuracy": 0.9357631802558899,
      "num_tokens": 809347.0,
      "step": 92
    },
    {
      "entropy": 1.9846041798591614,
      "epoch": 0.33665158371040727,
      "grad_norm": 1.316636085510254,
      "learning_rate": 0.0005102301091138916,
      "loss": 0.4241,
      "mean_token_accuracy": 0.8993304669857025,
      "num_tokens": 817174.0,
      "step": 93
    },
    {
      "entropy": 1.814637303352356,
      "epoch": 0.3402714932126697,
      "grad_norm": 0.5486414432525635,
      "learning_rate": 0.0005101930329099865,
      "loss": 0.116,
      "mean_token_accuracy": 0.9674727618694305,
      "num_tokens": 826177.0,
      "step": 94
    },
    {
      "entropy": 1.9128066003322601,
      "epoch": 0.3438914027149321,
      "grad_norm": 0.620303750038147,
      "learning_rate": 0.00051015508639164,
      "loss": 0.1833,
      "mean_token_accuracy": 0.9569521993398666,
      "num_tokens": 835409.0,
      "step": 95
    },
    {
      "entropy": 1.7541870176792145,
      "epoch": 0.34751131221719456,
      "grad_norm": 0.8337438702583313,
      "learning_rate": 0.0005101162697029776,
      "loss": 0.3327,
      "mean_token_accuracy": 0.9193180054426193,
      "num_tokens": 844692.0,
      "step": 96
    },
    {
      "entropy": 1.8255240619182587,
      "epoch": 0.351131221719457,
      "grad_norm": 0.877780556678772,
      "learning_rate": 0.00051007658299143,
      "loss": 0.2106,
      "mean_token_accuracy": 0.9527023881673813,
      "num_tokens": 853309.0,
      "step": 97
    },
    {
      "entropy": 1.8611579239368439,
      "epoch": 0.3547511312217195,
      "grad_norm": 1.0667716264724731,
      "learning_rate": 0.0005100360264077325,
      "loss": 0.3196,
      "mean_token_accuracy": 0.9195879399776459,
      "num_tokens": 861859.0,
      "step": 98
    },
    {
      "entropy": 1.821915864944458,
      "epoch": 0.3583710407239819,
      "grad_norm": 0.8400309681892395,
      "learning_rate": 0.0005099946001059241,
      "loss": 0.4036,
      "mean_token_accuracy": 0.8951036781072617,
      "num_tokens": 871060.0,
      "step": 99
    },
    {
      "entropy": 1.7648265063762665,
      "epoch": 0.36199095022624433,
      "grad_norm": 1.1391404867172241,
      "learning_rate": 0.0005099523042433472,
      "loss": 0.389,
      "mean_token_accuracy": 0.901309460401535,
      "num_tokens": 880593.0,
      "step": 100
    },
    {
      "entropy": 1.8506875336170197,
      "epoch": 0.36561085972850677,
      "grad_norm": 0.6923297643661499,
      "learning_rate": 0.000509909138980647,
      "loss": 0.2504,
      "mean_token_accuracy": 0.9384842216968536,
      "num_tokens": 889739.0,
      "step": 101
    },
    {
      "entropy": 1.9311015605926514,
      "epoch": 0.36923076923076925,
      "grad_norm": 0.9677391052246094,
      "learning_rate": 0.0005098651044817704,
      "loss": 0.6953,
      "mean_token_accuracy": 0.8752655684947968,
      "num_tokens": 898992.0,
      "step": 102
    },
    {
      "entropy": 1.9590983986854553,
      "epoch": 0.3728506787330317,
      "grad_norm": 0.6364567279815674,
      "learning_rate": 0.0005098202009139663,
      "loss": 0.4318,
      "mean_token_accuracy": 0.9056479930877686,
      "num_tokens": 908225.0,
      "step": 103
    },
    {
      "entropy": 1.9455370008945465,
      "epoch": 0.3764705882352941,
      "grad_norm": 0.6747863292694092,
      "learning_rate": 0.0005097744284477839,
      "loss": 0.244,
      "mean_token_accuracy": 0.9428392052650452,
      "num_tokens": 917134.0,
      "step": 104
    },
    {
      "entropy": 1.8632825911045074,
      "epoch": 0.38009049773755654,
      "grad_norm": 0.5705651044845581,
      "learning_rate": 0.0005097277872570731,
      "loss": 0.2508,
      "mean_token_accuracy": 0.9325222969055176,
      "num_tokens": 926573.0,
      "step": 105
    },
    {
      "entropy": 1.9370323717594147,
      "epoch": 0.38371040723981903,
      "grad_norm": 0.6298627853393555,
      "learning_rate": 0.000509680277518983,
      "loss": 0.2481,
      "mean_token_accuracy": 0.9281332045793533,
      "num_tokens": 935853.0,
      "step": 106
    },
    {
      "entropy": 2.0217572450637817,
      "epoch": 0.38733031674208146,
      "grad_norm": 0.5434353947639465,
      "learning_rate": 0.0005096318994139617,
      "loss": 0.1809,
      "mean_token_accuracy": 0.9592084139585495,
      "num_tokens": 944279.0,
      "step": 107
    },
    {
      "entropy": 1.9619770646095276,
      "epoch": 0.3909502262443439,
      "grad_norm": 0.6959638595581055,
      "learning_rate": 0.0005095826531257552,
      "loss": 0.1376,
      "mean_token_accuracy": 0.9608310014009476,
      "num_tokens": 953336.0,
      "step": 108
    },
    {
      "entropy": 2.12511146068573,
      "epoch": 0.3945701357466063,
      "grad_norm": 1.0152848958969116,
      "learning_rate": 0.0005095325388414074,
      "loss": 0.4382,
      "mean_token_accuracy": 0.915201798081398,
      "num_tokens": 962002.0,
      "step": 109
    },
    {
      "entropy": 2.0171878039836884,
      "epoch": 0.39819004524886875,
      "grad_norm": 0.8337467312812805,
      "learning_rate": 0.0005094815567512587,
      "loss": 0.2672,
      "mean_token_accuracy": 0.9313560128211975,
      "num_tokens": 970954.0,
      "step": 110
    },
    {
      "entropy": 2.1024146378040314,
      "epoch": 0.40180995475113124,
      "grad_norm": 0.8214333057403564,
      "learning_rate": 0.0005094297070489455,
      "loss": 0.3146,
      "mean_token_accuracy": 0.9289091974496841,
      "num_tokens": 979929.0,
      "step": 111
    },
    {
      "entropy": 2.260519325733185,
      "epoch": 0.40542986425339367,
      "grad_norm": 1.1298810243606567,
      "learning_rate": 0.0005093769899313996,
      "loss": 0.3055,
      "mean_token_accuracy": 0.9213490188121796,
      "num_tokens": 988477.0,
      "step": 112
    },
    {
      "entropy": 2.2228699326515198,
      "epoch": 0.4090497737556561,
      "grad_norm": 0.8601953983306885,
      "learning_rate": 0.0005093234055988475,
      "loss": 0.2738,
      "mean_token_accuracy": 0.920888364315033,
      "num_tokens": 997091.0,
      "step": 113
    },
    {
      "entropy": 2.2165185809135437,
      "epoch": 0.41266968325791853,
      "grad_norm": 0.6331561803817749,
      "learning_rate": 0.0005092689542548091,
      "loss": 0.2241,
      "mean_token_accuracy": 0.9408514499664307,
      "num_tokens": 1005866.0,
      "step": 114
    },
    {
      "entropy": 2.324040472507477,
      "epoch": 0.416289592760181,
      "grad_norm": 0.680496096611023,
      "learning_rate": 0.0005092136361060975,
      "loss": 0.2454,
      "mean_token_accuracy": 0.9433349967002869,
      "num_tokens": 1014277.0,
      "step": 115
    },
    {
      "entropy": 2.413789749145508,
      "epoch": 0.41990950226244345,
      "grad_norm": 0.7489557862281799,
      "learning_rate": 0.0005091574513628183,
      "loss": 0.2856,
      "mean_token_accuracy": 0.934124082326889,
      "num_tokens": 1023032.0,
      "step": 116
    },
    {
      "entropy": 2.4693005681037903,
      "epoch": 0.4235294117647059,
      "grad_norm": 0.6842612624168396,
      "learning_rate": 0.0005091004002383682,
      "loss": 0.2778,
      "mean_token_accuracy": 0.9386793673038483,
      "num_tokens": 1031883.0,
      "step": 117
    },
    {
      "entropy": 2.4351969361305237,
      "epoch": 0.4271493212669683,
      "grad_norm": 0.9150674343109131,
      "learning_rate": 0.0005090424829494347,
      "loss": 0.3151,
      "mean_token_accuracy": 0.9177709072828293,
      "num_tokens": 1040985.0,
      "step": 118
    },
    {
      "entropy": 2.5141562819480896,
      "epoch": 0.4307692307692308,
      "grad_norm": 1.0200655460357666,
      "learning_rate": 0.000508983699715995,
      "loss": 0.5134,
      "mean_token_accuracy": 0.8835459351539612,
      "num_tokens": 1049949.0,
      "step": 119
    },
    {
      "entropy": 2.479240596294403,
      "epoch": 0.4343891402714932,
      "grad_norm": 0.783278226852417,
      "learning_rate": 0.0005089240507613151,
      "loss": 0.2745,
      "mean_token_accuracy": 0.9389322698116302,
      "num_tokens": 1058953.0,
      "step": 120
    },
    {
      "entropy": 2.457803785800934,
      "epoch": 0.43800904977375565,
      "grad_norm": 0.7620834112167358,
      "learning_rate": 0.0005088635363119497,
      "loss": 0.3394,
      "mean_token_accuracy": 0.9145695865154266,
      "num_tokens": 1068624.0,
      "step": 121
    },
    {
      "entropy": 2.4909247756004333,
      "epoch": 0.4416289592760181,
      "grad_norm": 0.5868712067604065,
      "learning_rate": 0.0005088021565977403,
      "loss": 0.1726,
      "mean_token_accuracy": 0.9567564129829407,
      "num_tokens": 1077686.0,
      "step": 122
    },
    {
      "entropy": 2.5540462732315063,
      "epoch": 0.4452488687782805,
      "grad_norm": 1.1467291116714478,
      "learning_rate": 0.0005087399118518148,
      "loss": 0.2617,
      "mean_token_accuracy": 0.9329706132411957,
      "num_tokens": 1086230.0,
      "step": 123
    },
    {
      "entropy": 2.377680242061615,
      "epoch": 0.448868778280543,
      "grad_norm": 0.7021825909614563,
      "learning_rate": 0.0005086768023105866,
      "loss": 0.4124,
      "mean_token_accuracy": 0.9093360006809235,
      "num_tokens": 1095867.0,
      "step": 124
    },
    {
      "entropy": 2.55239599943161,
      "epoch": 0.45248868778280543,
      "grad_norm": 0.5947801470756531,
      "learning_rate": 0.0005086128282137538,
      "loss": 0.2752,
      "mean_token_accuracy": 0.9248816668987274,
      "num_tokens": 1105003.0,
      "step": 125
    },
    {
      "entropy": 2.4695483446121216,
      "epoch": 0.45610859728506786,
      "grad_norm": 1.345604658126831,
      "learning_rate": 0.0005085479898042985,
      "loss": 0.2577,
      "mean_token_accuracy": 0.9318550229072571,
      "num_tokens": 1114162.0,
      "step": 126
    },
    {
      "entropy": 2.4898732900619507,
      "epoch": 0.4597285067873303,
      "grad_norm": 0.8534179329872131,
      "learning_rate": 0.0005084822873284848,
      "loss": 0.3013,
      "mean_token_accuracy": 0.9195661097764969,
      "num_tokens": 1123457.0,
      "step": 127
    },
    {
      "entropy": 2.5951223969459534,
      "epoch": 0.4633484162895928,
      "grad_norm": 1.1677368879318237,
      "learning_rate": 0.0005084157210358592,
      "loss": 0.1612,
      "mean_token_accuracy": 0.9599333852529526,
      "num_tokens": 1131774.0,
      "step": 128
    },
    {
      "entropy": 2.7315847873687744,
      "epoch": 0.4669683257918552,
      "grad_norm": 0.7633224129676819,
      "learning_rate": 0.0005083482911792492,
      "loss": 0.2437,
      "mean_token_accuracy": 0.9487509876489639,
      "num_tokens": 1140301.0,
      "step": 129
    },
    {
      "entropy": 2.6348633766174316,
      "epoch": 0.47058823529411764,
      "grad_norm": 0.7573317885398865,
      "learning_rate": 0.0005082799980147617,
      "loss": 0.2426,
      "mean_token_accuracy": 0.947308748960495,
      "num_tokens": 1148929.0,
      "step": 130
    },
    {
      "entropy": 2.60002738237381,
      "epoch": 0.47420814479638007,
      "grad_norm": 1.8195319175720215,
      "learning_rate": 0.0005082108418017829,
      "loss": 0.1792,
      "mean_token_accuracy": 0.9512491375207901,
      "num_tokens": 1157682.0,
      "step": 131
    },
    {
      "entropy": 2.5319923162460327,
      "epoch": 0.47782805429864256,
      "grad_norm": 0.6342993378639221,
      "learning_rate": 0.0005081408228029771,
      "loss": 0.1843,
      "mean_token_accuracy": 0.9440758228302002,
      "num_tokens": 1166687.0,
      "step": 132
    },
    {
      "entropy": 2.5666881799697876,
      "epoch": 0.481447963800905,
      "grad_norm": 0.8979415893554688,
      "learning_rate": 0.0005080699412842852,
      "loss": 0.4824,
      "mean_token_accuracy": 0.8837443292140961,
      "num_tokens": 1175746.0,
      "step": 133
    },
    {
      "entropy": 2.6854636669158936,
      "epoch": 0.4850678733031674,
      "grad_norm": 0.8302125334739685,
      "learning_rate": 0.0005079981975149243,
      "loss": 0.267,
      "mean_token_accuracy": 0.9279022663831711,
      "num_tokens": 1184196.0,
      "step": 134
    },
    {
      "entropy": 2.564552128314972,
      "epoch": 0.48868778280542985,
      "grad_norm": 0.6785959005355835,
      "learning_rate": 0.0005079255917673863,
      "loss": 0.2031,
      "mean_token_accuracy": 0.9463823586702347,
      "num_tokens": 1192982.0,
      "step": 135
    },
    {
      "entropy": 2.673682928085327,
      "epoch": 0.49230769230769234,
      "grad_norm": 1.4760410785675049,
      "learning_rate": 0.0005078521243174371,
      "loss": 0.4791,
      "mean_token_accuracy": 0.8969505727291107,
      "num_tokens": 1201454.0,
      "step": 136
    },
    {
      "entropy": 2.6232714653015137,
      "epoch": 0.49592760180995477,
      "grad_norm": 0.7845668792724609,
      "learning_rate": 0.0005077777954441157,
      "loss": 0.2472,
      "mean_token_accuracy": 0.9404618591070175,
      "num_tokens": 1210182.0,
      "step": 137
    },
    {
      "entropy": 2.5614060163497925,
      "epoch": 0.4995475113122172,
      "grad_norm": 0.725419819355011,
      "learning_rate": 0.0005077026054297322,
      "loss": 0.3643,
      "mean_token_accuracy": 0.9193316847085953,
      "num_tokens": 1219487.0,
      "step": 138
    },
    {
      "entropy": 2.5907246470451355,
      "epoch": 0.5031674208144796,
      "grad_norm": 0.7741782665252686,
      "learning_rate": 0.0005076265545598682,
      "loss": 0.276,
      "mean_token_accuracy": 0.9447730481624603,
      "num_tokens": 1228066.0,
      "step": 139
    },
    {
      "entropy": 2.531104028224945,
      "epoch": 0.5067873303167421,
      "grad_norm": 0.680992603302002,
      "learning_rate": 0.0005075496431233745,
      "loss": 0.2004,
      "mean_token_accuracy": 0.9470729678869247,
      "num_tokens": 1236980.0,
      "step": 140
    },
    {
      "entropy": 2.590231478214264,
      "epoch": 0.5104072398190045,
      "grad_norm": 0.8260406255722046,
      "learning_rate": 0.0005074718714123704,
      "loss": 0.2756,
      "mean_token_accuracy": 0.9301882535219193,
      "num_tokens": 1245565.0,
      "step": 141
    },
    {
      "entropy": 2.4858668446540833,
      "epoch": 0.5140271493212669,
      "grad_norm": 0.8085922598838806,
      "learning_rate": 0.0005073932397222429,
      "loss": 0.2314,
      "mean_token_accuracy": 0.9449103325605392,
      "num_tokens": 1254366.0,
      "step": 142
    },
    {
      "entropy": 2.5374304056167603,
      "epoch": 0.5176470588235295,
      "grad_norm": 0.7858129143714905,
      "learning_rate": 0.0005073137483516452,
      "loss": 0.1622,
      "mean_token_accuracy": 0.9510673582553864,
      "num_tokens": 1263197.0,
      "step": 143
    },
    {
      "entropy": 2.608425199985504,
      "epoch": 0.5212669683257919,
      "grad_norm": 1.2698506116867065,
      "learning_rate": 0.0005072333976024957,
      "loss": 0.1729,
      "mean_token_accuracy": 0.9509973376989365,
      "num_tokens": 1271725.0,
      "step": 144
    },
    {
      "entropy": 2.437038242816925,
      "epoch": 0.5248868778280543,
      "grad_norm": 1.0788538455963135,
      "learning_rate": 0.0005071521877799765,
      "loss": 0.3344,
      "mean_token_accuracy": 0.9166721999645233,
      "num_tokens": 1280963.0,
      "step": 145
    },
    {
      "entropy": 2.589951515197754,
      "epoch": 0.5285067873303168,
      "grad_norm": 0.9228294491767883,
      "learning_rate": 0.0005070701191925332,
      "loss": 0.3095,
      "mean_token_accuracy": 0.9239777624607086,
      "num_tokens": 1289683.0,
      "step": 146
    },
    {
      "entropy": 2.575794994831085,
      "epoch": 0.5321266968325792,
      "grad_norm": 1.359767198562622,
      "learning_rate": 0.0005069871921518726,
      "loss": 0.2447,
      "mean_token_accuracy": 0.9374738186597824,
      "num_tokens": 1298397.0,
      "step": 147
    },
    {
      "entropy": 2.5628358721733093,
      "epoch": 0.5357466063348416,
      "grad_norm": 0.9870713353157043,
      "learning_rate": 0.000506903406972962,
      "loss": 0.4824,
      "mean_token_accuracy": 0.9027767181396484,
      "num_tokens": 1307191.0,
      "step": 148
    },
    {
      "entropy": 2.5513240098953247,
      "epoch": 0.539366515837104,
      "grad_norm": 0.7921387553215027,
      "learning_rate": 0.0005068187639740286,
      "loss": 0.3278,
      "mean_token_accuracy": 0.9161934554576874,
      "num_tokens": 1315878.0,
      "step": 149
    },
    {
      "entropy": 2.526439070701599,
      "epoch": 0.5429864253393665,
      "grad_norm": 0.6320391297340393,
      "learning_rate": 0.000506733263476557,
      "loss": 0.1701,
      "mean_token_accuracy": 0.9575318098068237,
      "num_tokens": 1324786.0,
      "step": 150
    },
    {
      "entropy": 2.4837265014648438,
      "epoch": 0.5466063348416289,
      "grad_norm": 0.5369354486465454,
      "learning_rate": 0.000506646905805289,
      "loss": 0.1328,
      "mean_token_accuracy": 0.9636050164699554,
      "num_tokens": 1333766.0,
      "step": 151
    },
    {
      "entropy": 2.5264737010002136,
      "epoch": 0.5502262443438914,
      "grad_norm": 0.7346852421760559,
      "learning_rate": 0.0005065596912882222,
      "loss": 0.2012,
      "mean_token_accuracy": 0.9448132663965225,
      "num_tokens": 1343004.0,
      "step": 152
    },
    {
      "entropy": 2.569309651851654,
      "epoch": 0.5538461538461539,
      "grad_norm": 0.9926508069038391,
      "learning_rate": 0.0005064716202566082,
      "loss": 0.2831,
      "mean_token_accuracy": 0.9332023113965988,
      "num_tokens": 1351561.0,
      "step": 153
    },
    {
      "entropy": 2.3148274421691895,
      "epoch": 0.5574660633484163,
      "grad_norm": 0.6301954984664917,
      "learning_rate": 0.0005063826930449523,
      "loss": 0.3622,
      "mean_token_accuracy": 0.9349419325590134,
      "num_tokens": 1360997.0,
      "step": 154
    },
    {
      "entropy": 2.497675657272339,
      "epoch": 0.5610859728506787,
      "grad_norm": 0.8846175670623779,
      "learning_rate": 0.000506292909991011,
      "loss": 0.2314,
      "mean_token_accuracy": 0.9468862265348434,
      "num_tokens": 1369600.0,
      "step": 155
    },
    {
      "entropy": 2.313987612724304,
      "epoch": 0.5647058823529412,
      "grad_norm": 0.5701894164085388,
      "learning_rate": 0.0005062022714357922,
      "loss": 0.2154,
      "mean_token_accuracy": 0.945093959569931,
      "num_tokens": 1379125.0,
      "step": 156
    },
    {
      "entropy": 2.4019755125045776,
      "epoch": 0.5683257918552036,
      "grad_norm": 0.8769335746765137,
      "learning_rate": 0.0005061107777235524,
      "loss": 0.3565,
      "mean_token_accuracy": 0.9133864492177963,
      "num_tokens": 1388111.0,
      "step": 157
    },
    {
      "entropy": 2.3127577900886536,
      "epoch": 0.571945701357466,
      "grad_norm": 1.1026453971862793,
      "learning_rate": 0.0005060184292017965,
      "loss": 0.2897,
      "mean_token_accuracy": 0.899736076593399,
      "num_tokens": 1397528.0,
      "step": 158
    },
    {
      "entropy": 2.2682697772979736,
      "epoch": 0.5755656108597285,
      "grad_norm": 0.5426591038703918,
      "learning_rate": 0.000505925226221276,
      "loss": 0.167,
      "mean_token_accuracy": 0.9609879851341248,
      "num_tokens": 1406809.0,
      "step": 159
    },
    {
      "entropy": 2.4639336466789246,
      "epoch": 0.579185520361991,
      "grad_norm": 0.6552363038063049,
      "learning_rate": 0.0005058311691359875,
      "loss": 0.2511,
      "mean_token_accuracy": 0.9355164766311646,
      "num_tokens": 1415498.0,
      "step": 160
    },
    {
      "entropy": 2.467900663614273,
      "epoch": 0.5828054298642534,
      "grad_norm": 0.7168154120445251,
      "learning_rate": 0.000505736258303172,
      "loss": 0.234,
      "mean_token_accuracy": 0.9450509995222092,
      "num_tokens": 1424524.0,
      "step": 161
    },
    {
      "entropy": 2.3683157563209534,
      "epoch": 0.5864253393665159,
      "grad_norm": 0.6433501839637756,
      "learning_rate": 0.0005056404940833128,
      "loss": 0.3441,
      "mean_token_accuracy": 0.9261108189821243,
      "num_tokens": 1434194.0,
      "step": 162
    },
    {
      "entropy": 2.4686295986175537,
      "epoch": 0.5900452488687783,
      "grad_norm": 0.9615177512168884,
      "learning_rate": 0.0005055438768401348,
      "loss": 0.1492,
      "mean_token_accuracy": 0.966903567314148,
      "num_tokens": 1442972.0,
      "step": 163
    },
    {
      "entropy": 2.5551892518997192,
      "epoch": 0.5936651583710407,
      "grad_norm": 0.4957484006881714,
      "learning_rate": 0.0005054464069406023,
      "loss": 0.1242,
      "mean_token_accuracy": 0.969713419675827,
      "num_tokens": 1451324.0,
      "step": 164
    },
    {
      "entropy": 2.554121434688568,
      "epoch": 0.5972850678733032,
      "grad_norm": 0.7399498224258423,
      "learning_rate": 0.0005053480847549187,
      "loss": 0.206,
      "mean_token_accuracy": 0.9498797357082367,
      "num_tokens": 1459698.0,
      "step": 165
    },
    {
      "entropy": 2.5181015729904175,
      "epoch": 0.6009049773755656,
      "grad_norm": 0.7433251142501831,
      "learning_rate": 0.0005052489106565241,
      "loss": 0.2883,
      "mean_token_accuracy": 0.9419967085123062,
      "num_tokens": 1468460.0,
      "step": 166
    },
    {
      "entropy": 2.3073930144309998,
      "epoch": 0.604524886877828,
      "grad_norm": 0.5920398831367493,
      "learning_rate": 0.0005051488850220941,
      "loss": 0.197,
      "mean_token_accuracy": 0.952111005783081,
      "num_tokens": 1477579.0,
      "step": 167
    },
    {
      "entropy": 2.532376289367676,
      "epoch": 0.6081447963800904,
      "grad_norm": 0.7033098936080933,
      "learning_rate": 0.0005050480082315392,
      "loss": 0.2122,
      "mean_token_accuracy": 0.9488633275032043,
      "num_tokens": 1486307.0,
      "step": 168
    },
    {
      "entropy": 2.397290349006653,
      "epoch": 0.611764705882353,
      "grad_norm": 0.8026869893074036,
      "learning_rate": 0.0005049462806680021,
      "loss": 0.2541,
      "mean_token_accuracy": 0.9427233040332794,
      "num_tokens": 1495152.0,
      "step": 169
    },
    {
      "entropy": 2.464823842048645,
      "epoch": 0.6153846153846154,
      "grad_norm": 0.6508225798606873,
      "learning_rate": 0.0005048437027178571,
      "loss": 0.2639,
      "mean_token_accuracy": 0.9391255974769592,
      "num_tokens": 1503903.0,
      "step": 170
    },
    {
      "entropy": 2.520734131336212,
      "epoch": 0.6190045248868778,
      "grad_norm": 0.8373616337776184,
      "learning_rate": 0.0005047402747707084,
      "loss": 0.3078,
      "mean_token_accuracy": 0.9302930980920792,
      "num_tokens": 1512588.0,
      "step": 171
    },
    {
      "entropy": 2.388108015060425,
      "epoch": 0.6226244343891403,
      "grad_norm": 0.6334089636802673,
      "learning_rate": 0.0005046359972193884,
      "loss": 0.1372,
      "mean_token_accuracy": 0.9666119515895844,
      "num_tokens": 1522011.0,
      "step": 172
    },
    {
      "entropy": 2.537126660346985,
      "epoch": 0.6262443438914027,
      "grad_norm": 0.7665116190910339,
      "learning_rate": 0.0005045308704599566,
      "loss": 0.2603,
      "mean_token_accuracy": 0.9350012242794037,
      "num_tokens": 1530767.0,
      "step": 173
    },
    {
      "entropy": 2.567205488681793,
      "epoch": 0.6298642533936651,
      "grad_norm": 0.8043875098228455,
      "learning_rate": 0.0005044248948916977,
      "loss": 0.2497,
      "mean_token_accuracy": 0.9400482773780823,
      "num_tokens": 1539971.0,
      "step": 174
    },
    {
      "entropy": 2.585887610912323,
      "epoch": 0.6334841628959276,
      "grad_norm": 0.5282150506973267,
      "learning_rate": 0.0005043180709171206,
      "loss": 0.1126,
      "mean_token_accuracy": 0.9680279046297073,
      "num_tokens": 1548971.0,
      "step": 175
    },
    {
      "entropy": 2.4289392232894897,
      "epoch": 0.63710407239819,
      "grad_norm": 0.6838382482528687,
      "learning_rate": 0.0005042103989419563,
      "loss": 0.2076,
      "mean_token_accuracy": 0.9468046277761459,
      "num_tokens": 1558403.0,
      "step": 176
    },
    {
      "entropy": 2.6080575585365295,
      "epoch": 0.6407239819004525,
      "grad_norm": 0.9058650732040405,
      "learning_rate": 0.0005041018793751566,
      "loss": 0.1781,
      "mean_token_accuracy": 0.9432647377252579,
      "num_tokens": 1567209.0,
      "step": 177
    },
    {
      "entropy": 2.5212480425834656,
      "epoch": 0.644343891402715,
      "grad_norm": 0.796381950378418,
      "learning_rate": 0.0005039925126288929,
      "loss": 0.2286,
      "mean_token_accuracy": 0.9305787235498428,
      "num_tokens": 1576255.0,
      "step": 178
    },
    {
      "entropy": 2.588195264339447,
      "epoch": 0.6479638009049774,
      "grad_norm": 0.6489388942718506,
      "learning_rate": 0.0005038822991185536,
      "loss": 0.1717,
      "mean_token_accuracy": 0.9572225511074066,
      "num_tokens": 1585335.0,
      "step": 179
    },
    {
      "entropy": 2.609215259552002,
      "epoch": 0.6515837104072398,
      "grad_norm": 0.8551130294799805,
      "learning_rate": 0.0005037712392627441,
      "loss": 0.2358,
      "mean_token_accuracy": 0.9529621452093124,
      "num_tokens": 1594354.0,
      "step": 180
    },
    {
      "entropy": 2.4199504256248474,
      "epoch": 0.6552036199095023,
      "grad_norm": 0.5775637030601501,
      "learning_rate": 0.0005036593334832836,
      "loss": 0.2402,
      "mean_token_accuracy": 0.9437069743871689,
      "num_tokens": 1603750.0,
      "step": 181
    },
    {
      "entropy": 2.516424596309662,
      "epoch": 0.6588235294117647,
      "grad_norm": 0.6967942118644714,
      "learning_rate": 0.0005035465822052047,
      "loss": 0.1624,
      "mean_token_accuracy": 0.9518167823553085,
      "num_tokens": 1612474.0,
      "step": 182
    },
    {
      "entropy": 2.463354170322418,
      "epoch": 0.6624434389140271,
      "grad_norm": 0.49672600626945496,
      "learning_rate": 0.000503432985856751,
      "loss": 0.1654,
      "mean_token_accuracy": 0.9564716964960098,
      "num_tokens": 1621563.0,
      "step": 183
    },
    {
      "entropy": 2.4456416964530945,
      "epoch": 0.6660633484162896,
      "grad_norm": 0.6207183003425598,
      "learning_rate": 0.000503318544869376,
      "loss": 0.1918,
      "mean_token_accuracy": 0.9476529806852341,
      "num_tokens": 1630801.0,
      "step": 184
    },
    {
      "entropy": 2.641440451145172,
      "epoch": 0.669683257918552,
      "grad_norm": 1.220821499824524,
      "learning_rate": 0.000503203259677741,
      "loss": 0.4019,
      "mean_token_accuracy": 0.9172120243310928,
      "num_tokens": 1639522.0,
      "step": 185
    },
    {
      "entropy": 2.6447275280952454,
      "epoch": 0.6733031674208145,
      "grad_norm": 0.7546490430831909,
      "learning_rate": 0.000503087130719714,
      "loss": 0.2484,
      "mean_token_accuracy": 0.9387800246477127,
      "num_tokens": 1647964.0,
      "step": 186
    },
    {
      "entropy": 2.4657886028289795,
      "epoch": 0.676923076923077,
      "grad_norm": 0.7679230570793152,
      "learning_rate": 0.0005029701584363675,
      "loss": 0.2659,
      "mean_token_accuracy": 0.930300235748291,
      "num_tokens": 1657181.0,
      "step": 187
    },
    {
      "entropy": 2.37973552942276,
      "epoch": 0.6805429864253394,
      "grad_norm": 0.7473414540290833,
      "learning_rate": 0.0005028523432719772,
      "loss": 0.32,
      "mean_token_accuracy": 0.9233052879571915,
      "num_tokens": 1666477.0,
      "step": 188
    },
    {
      "entropy": 2.5238219499588013,
      "epoch": 0.6841628959276018,
      "grad_norm": 0.5573673248291016,
      "learning_rate": 0.0005027336856740201,
      "loss": 0.1846,
      "mean_token_accuracy": 0.9445535093545914,
      "num_tokens": 1675002.0,
      "step": 189
    },
    {
      "entropy": 2.456815242767334,
      "epoch": 0.6877828054298643,
      "grad_norm": 0.47237634658813477,
      "learning_rate": 0.0005026141860931728,
      "loss": 0.1065,
      "mean_token_accuracy": 0.964375838637352,
      "num_tokens": 1683623.0,
      "step": 190
    },
    {
      "entropy": 2.548456132411957,
      "epoch": 0.6914027149321267,
      "grad_norm": 0.7699162364006042,
      "learning_rate": 0.00050249384498331,
      "loss": 0.1985,
      "mean_token_accuracy": 0.9438774734735489,
      "num_tokens": 1691718.0,
      "step": 191
    },
    {
      "entropy": 2.4514941573143005,
      "epoch": 0.6950226244343891,
      "grad_norm": 1.4113538265228271,
      "learning_rate": 0.0005023726628015027,
      "loss": 0.4541,
      "mean_token_accuracy": 0.9207872897386551,
      "num_tokens": 1699824.0,
      "step": 192
    },
    {
      "entropy": 2.2560824751853943,
      "epoch": 0.6986425339366515,
      "grad_norm": 0.6007948517799377,
      "learning_rate": 0.0005022506400080161,
      "loss": 0.1871,
      "mean_token_accuracy": 0.9502484053373337,
      "num_tokens": 1708722.0,
      "step": 193
    },
    {
      "entropy": 2.1833614110946655,
      "epoch": 0.702262443438914,
      "grad_norm": 0.7005489468574524,
      "learning_rate": 0.0005021277770663082,
      "loss": 0.2222,
      "mean_token_accuracy": 0.9386974722146988,
      "num_tokens": 1717592.0,
      "step": 194
    },
    {
      "entropy": 2.2031923830509186,
      "epoch": 0.7058823529411765,
      "grad_norm": 0.5830584764480591,
      "learning_rate": 0.0005020040744430284,
      "loss": 0.1106,
      "mean_token_accuracy": 0.9719562232494354,
      "num_tokens": 1726149.0,
      "step": 195
    },
    {
      "entropy": 2.199785351753235,
      "epoch": 0.709502262443439,
      "grad_norm": 0.7465847134590149,
      "learning_rate": 0.0005018795326080149,
      "loss": 0.1935,
      "mean_token_accuracy": 0.9497270882129669,
      "num_tokens": 1734541.0,
      "step": 196
    },
    {
      "entropy": 2.1103186309337616,
      "epoch": 0.7131221719457014,
      "grad_norm": 1.0782264471054077,
      "learning_rate": 0.0005017541520342934,
      "loss": 0.2895,
      "mean_token_accuracy": 0.9274258464574814,
      "num_tokens": 1743722.0,
      "step": 197
    },
    {
      "entropy": 2.2248528599739075,
      "epoch": 0.7167420814479638,
      "grad_norm": 0.6409780979156494,
      "learning_rate": 0.0005016279331980754,
      "loss": 0.1425,
      "mean_token_accuracy": 0.96550352871418,
      "num_tokens": 1752156.0,
      "step": 198
    },
    {
      "entropy": 2.19924658536911,
      "epoch": 0.7203619909502262,
      "grad_norm": 0.7019934058189392,
      "learning_rate": 0.0005015008765787561,
      "loss": 0.1969,
      "mean_token_accuracy": 0.9429282248020172,
      "num_tokens": 1760978.0,
      "step": 199
    },
    {
      "entropy": 2.297484815120697,
      "epoch": 0.7239819004524887,
      "grad_norm": 0.7826490998268127,
      "learning_rate": 0.0005013729826589127,
      "loss": 0.2399,
      "mean_token_accuracy": 0.9416657984256744,
      "num_tokens": 1769533.0,
      "step": 200
    },
    {
      "entropy": 2.2471498548984528,
      "epoch": 0.7276018099547511,
      "grad_norm": 0.621566891670227,
      "learning_rate": 0.0005012442519243027,
      "loss": 0.1876,
      "mean_token_accuracy": 0.9460793286561966,
      "num_tokens": 1778286.0,
      "step": 201
    },
    {
      "entropy": 2.2212815284729004,
      "epoch": 0.7312217194570135,
      "grad_norm": 0.622283935546875,
      "learning_rate": 0.0005011146848638616,
      "loss": 0.1617,
      "mean_token_accuracy": 0.9482609927654266,
      "num_tokens": 1787392.0,
      "step": 202
    },
    {
      "entropy": 2.308752655982971,
      "epoch": 0.7348416289592761,
      "grad_norm": 0.7263973355293274,
      "learning_rate": 0.0005009842819697018,
      "loss": 0.2043,
      "mean_token_accuracy": 0.9378403723239899,
      "num_tokens": 1796133.0,
      "step": 203
    },
    {
      "entropy": 2.3376497626304626,
      "epoch": 0.7384615384615385,
      "grad_norm": 0.5493630766868591,
      "learning_rate": 0.0005008530437371101,
      "loss": 0.1145,
      "mean_token_accuracy": 0.970586434006691,
      "num_tokens": 1804769.0,
      "step": 204
    },
    {
      "entropy": 2.373005509376526,
      "epoch": 0.7420814479638009,
      "grad_norm": 0.6313483119010925,
      "learning_rate": 0.0005007209706645461,
      "loss": 0.2183,
      "mean_token_accuracy": 0.9472708404064178,
      "num_tokens": 1813364.0,
      "step": 205
    },
    {
      "entropy": 2.468949854373932,
      "epoch": 0.7457013574660634,
      "grad_norm": 1.0125588178634644,
      "learning_rate": 0.00050058806325364,
      "loss": 0.2225,
      "mean_token_accuracy": 0.9351322948932648,
      "num_tokens": 1822149.0,
      "step": 206
    },
    {
      "entropy": 2.2420623898506165,
      "epoch": 0.7493212669683258,
      "grad_norm": 0.913761556148529,
      "learning_rate": 0.0005004543220091911,
      "loss": 0.2386,
      "mean_token_accuracy": 0.9453927427530289,
      "num_tokens": 1831533.0,
      "step": 207
    },
    {
      "entropy": 2.2966006994247437,
      "epoch": 0.7529411764705882,
      "grad_norm": 0.7386876940727234,
      "learning_rate": 0.0005003197474391658,
      "loss": 0.1768,
      "mean_token_accuracy": 0.949826255440712,
      "num_tokens": 1840157.0,
      "step": 208
    },
    {
      "entropy": 2.306001305580139,
      "epoch": 0.7565610859728507,
      "grad_norm": 0.8900741338729858,
      "learning_rate": 0.0005001843400546955,
      "loss": 0.2899,
      "mean_token_accuracy": 0.9241485595703125,
      "num_tokens": 1848898.0,
      "step": 209
    },
    {
      "entropy": 2.117514967918396,
      "epoch": 0.7601809954751131,
      "grad_norm": 0.644622802734375,
      "learning_rate": 0.0005000481003700746,
      "loss": 0.2714,
      "mean_token_accuracy": 0.9299416691064835,
      "num_tokens": 1858330.0,
      "step": 210
    },
    {
      "entropy": 2.3768392205238342,
      "epoch": 0.7638009049773755,
      "grad_norm": 0.9724471569061279,
      "learning_rate": 0.0004999110289027587,
      "loss": 0.1633,
      "mean_token_accuracy": 0.9550061523914337,
      "num_tokens": 1866806.0,
      "step": 211
    },
    {
      "entropy": 2.090679556131363,
      "epoch": 0.7674208144796381,
      "grad_norm": 0.5419518351554871,
      "learning_rate": 0.0004997731261733628,
      "loss": 0.1369,
      "mean_token_accuracy": 0.9619670957326889,
      "num_tokens": 1875937.0,
      "step": 212
    },
    {
      "entropy": 2.099909245967865,
      "epoch": 0.7710407239819005,
      "grad_norm": 0.6858121752738953,
      "learning_rate": 0.0004996343927056592,
      "loss": 0.1633,
      "mean_token_accuracy": 0.9528832882642746,
      "num_tokens": 1885145.0,
      "step": 213
    },
    {
      "entropy": 2.130059242248535,
      "epoch": 0.7746606334841629,
      "grad_norm": 0.7691065073013306,
      "learning_rate": 0.000499494829026575,
      "loss": 0.348,
      "mean_token_accuracy": 0.9162366837263107,
      "num_tokens": 1894255.0,
      "step": 214
    },
    {
      "entropy": 2.191373586654663,
      "epoch": 0.7782805429864253,
      "grad_norm": 0.7427324652671814,
      "learning_rate": 0.000499354435666191,
      "loss": 0.3373,
      "mean_token_accuracy": 0.9311849176883698,
      "num_tokens": 1902981.0,
      "step": 215
    },
    {
      "entropy": 2.1425398886203766,
      "epoch": 0.7819004524886878,
      "grad_norm": 0.6410383582115173,
      "learning_rate": 0.0004992132131577392,
      "loss": 0.2079,
      "mean_token_accuracy": 0.949742391705513,
      "num_tokens": 1912253.0,
      "step": 216
    },
    {
      "entropy": 2.1396586298942566,
      "epoch": 0.7855203619909502,
      "grad_norm": 0.5689850449562073,
      "learning_rate": 0.0004990711620376003,
      "loss": 0.1999,
      "mean_token_accuracy": 0.946034774184227,
      "num_tokens": 1921409.0,
      "step": 217
    },
    {
      "entropy": 2.2237865328788757,
      "epoch": 0.7891402714932126,
      "grad_norm": 0.6408923864364624,
      "learning_rate": 0.0004989282828453029,
      "loss": 0.2452,
      "mean_token_accuracy": 0.9510752111673355,
      "num_tokens": 1930397.0,
      "step": 218
    },
    {
      "entropy": 2.234771251678467,
      "epoch": 0.7927601809954751,
      "grad_norm": 0.751447856426239,
      "learning_rate": 0.0004987845761235203,
      "loss": 0.3057,
      "mean_token_accuracy": 0.9217256307601929,
      "num_tokens": 1939172.0,
      "step": 219
    },
    {
      "entropy": 2.2653815746307373,
      "epoch": 0.7963800904977375,
      "grad_norm": 0.751455545425415,
      "learning_rate": 0.0004986400424180688,
      "loss": 0.3245,
      "mean_token_accuracy": 0.9256318956613541,
      "num_tokens": 1947979.0,
      "step": 220
    },
    {
      "entropy": 2.3123483061790466,
      "epoch": 0.8,
      "grad_norm": 0.5939492583274841,
      "learning_rate": 0.0004984946822779061,
      "loss": 0.2429,
      "mean_token_accuracy": 0.9333402067422867,
      "num_tokens": 1956814.0,
      "step": 221
    },
    {
      "entropy": 2.3289234042167664,
      "epoch": 0.8036199095022625,
      "grad_norm": 0.5591994524002075,
      "learning_rate": 0.0004983484962551284,
      "loss": 0.1507,
      "mean_token_accuracy": 0.96376833319664,
      "num_tokens": 1965641.0,
      "step": 222
    },
    {
      "entropy": 2.4314023852348328,
      "epoch": 0.8072398190045249,
      "grad_norm": 0.5805783271789551,
      "learning_rate": 0.0004982014849049687,
      "loss": 0.2049,
      "mean_token_accuracy": 0.9586948156356812,
      "num_tokens": 1974180.0,
      "step": 223
    },
    {
      "entropy": 2.3639765977859497,
      "epoch": 0.8108597285067873,
      "grad_norm": 0.6924490332603455,
      "learning_rate": 0.0004980536487857951,
      "loss": 0.2137,
      "mean_token_accuracy": 0.9441423565149307,
      "num_tokens": 1982744.0,
      "step": 224
    },
    {
      "entropy": 2.3361759781837463,
      "epoch": 0.8144796380090498,
      "grad_norm": 0.4579620361328125,
      "learning_rate": 0.0004979049884591077,
      "loss": 0.1041,
      "mean_token_accuracy": 0.9753208309412003,
      "num_tokens": 1991583.0,
      "step": 225
    },
    {
      "entropy": 2.286989688873291,
      "epoch": 0.8180995475113122,
      "grad_norm": 0.6489312052726746,
      "learning_rate": 0.0004977555044895377,
      "loss": 0.2131,
      "mean_token_accuracy": 0.9520440250635147,
      "num_tokens": 2000193.0,
      "step": 226
    },
    {
      "entropy": 2.288672834634781,
      "epoch": 0.8217194570135746,
      "grad_norm": 0.7738961577415466,
      "learning_rate": 0.0004976051974448441,
      "loss": 0.325,
      "mean_token_accuracy": 0.9060750156641006,
      "num_tokens": 2009233.0,
      "step": 227
    },
    {
      "entropy": 2.288076102733612,
      "epoch": 0.8253393665158371,
      "grad_norm": 0.7042292356491089,
      "learning_rate": 0.0004974540678959123,
      "loss": 0.2206,
      "mean_token_accuracy": 0.94980289041996,
      "num_tokens": 2018417.0,
      "step": 228
    },
    {
      "entropy": 2.217707335948944,
      "epoch": 0.8289592760180996,
      "grad_norm": 0.6834208369255066,
      "learning_rate": 0.0004973021164167515,
      "loss": 0.2907,
      "mean_token_accuracy": 0.951058641076088,
      "num_tokens": 2027822.0,
      "step": 229
    },
    {
      "entropy": 2.1610691249370575,
      "epoch": 0.832579185520362,
      "grad_norm": 0.665044903755188,
      "learning_rate": 0.0004971493435844928,
      "loss": 0.2387,
      "mean_token_accuracy": 0.9506549835205078,
      "num_tokens": 2036983.0,
      "step": 230
    },
    {
      "entropy": 2.321135401725769,
      "epoch": 0.8361990950226245,
      "grad_norm": 0.8208273649215698,
      "learning_rate": 0.0004969957499793869,
      "loss": 0.2399,
      "mean_token_accuracy": 0.9435176253318787,
      "num_tokens": 2045574.0,
      "step": 231
    },
    {
      "entropy": 2.1943611800670624,
      "epoch": 0.8398190045248869,
      "grad_norm": 0.6293840408325195,
      "learning_rate": 0.0004968413361848019,
      "loss": 0.1784,
      "mean_token_accuracy": 0.9559669345617294,
      "num_tokens": 2054336.0,
      "step": 232
    },
    {
      "entropy": 2.2722273468971252,
      "epoch": 0.8434389140271493,
      "grad_norm": 0.6535817980766296,
      "learning_rate": 0.0004966861027872211,
      "loss": 0.1675,
      "mean_token_accuracy": 0.9532535970211029,
      "num_tokens": 2063225.0,
      "step": 233
    },
    {
      "entropy": 2.3278334736824036,
      "epoch": 0.8470588235294118,
      "grad_norm": 1.1610206365585327,
      "learning_rate": 0.0004965300503762406,
      "loss": 0.1588,
      "mean_token_accuracy": 0.9641145765781403,
      "num_tokens": 2071738.0,
      "step": 234
    },
    {
      "entropy": 2.202972888946533,
      "epoch": 0.8506787330316742,
      "grad_norm": 0.4811885356903076,
      "learning_rate": 0.0004963731795445675,
      "loss": 0.0813,
      "mean_token_accuracy": 0.9766911715269089,
      "num_tokens": 2080375.0,
      "step": 235
    },
    {
      "entropy": 2.2433705925941467,
      "epoch": 0.8542986425339366,
      "grad_norm": 0.8113318681716919,
      "learning_rate": 0.0004962154908880171,
      "loss": 0.2965,
      "mean_token_accuracy": 0.9290606826543808,
      "num_tokens": 2089522.0,
      "step": 236
    },
    {
      "entropy": 2.2168884873390198,
      "epoch": 0.857918552036199,
      "grad_norm": 0.6128959655761719,
      "learning_rate": 0.0004960569850055111,
      "loss": 0.1724,
      "mean_token_accuracy": 0.9603384286165237,
      "num_tokens": 2098162.0,
      "step": 237
    },
    {
      "entropy": 2.2738255858421326,
      "epoch": 0.8615384615384616,
      "grad_norm": 0.8557195663452148,
      "learning_rate": 0.0004958976624990749,
      "loss": 0.2596,
      "mean_token_accuracy": 0.9487071484327316,
      "num_tokens": 2106984.0,
      "step": 238
    },
    {
      "entropy": 2.2031425833702087,
      "epoch": 0.865158371040724,
      "grad_norm": 0.6621816158294678,
      "learning_rate": 0.0004957375239738359,
      "loss": 0.232,
      "mean_token_accuracy": 0.9525040090084076,
      "num_tokens": 2116040.0,
      "step": 239
    },
    {
      "entropy": 2.374737858772278,
      "epoch": 0.8687782805429864,
      "grad_norm": 0.8481062054634094,
      "learning_rate": 0.0004955765700380204,
      "loss": 0.2516,
      "mean_token_accuracy": 0.9396061599254608,
      "num_tokens": 2124862.0,
      "step": 240
    },
    {
      "entropy": 2.266704559326172,
      "epoch": 0.8723981900452489,
      "grad_norm": 0.6284282803535461,
      "learning_rate": 0.0004954148013029521,
      "loss": 0.3244,
      "mean_token_accuracy": 0.9381244331598282,
      "num_tokens": 2134018.0,
      "step": 241
    },
    {
      "entropy": 2.3935859203338623,
      "epoch": 0.8760180995475113,
      "grad_norm": 1.1564176082611084,
      "learning_rate": 0.0004952522183830493,
      "loss": 0.2706,
      "mean_token_accuracy": 0.9297053664922714,
      "num_tokens": 2142745.0,
      "step": 242
    },
    {
      "entropy": 2.281618118286133,
      "epoch": 0.8796380090497737,
      "grad_norm": 0.5324040055274963,
      "learning_rate": 0.0004950888218958225,
      "loss": 0.1573,
      "mean_token_accuracy": 0.9568462073802948,
      "num_tokens": 2151607.0,
      "step": 243
    },
    {
      "entropy": 2.230749189853668,
      "epoch": 0.8832579185520362,
      "grad_norm": 0.680780291557312,
      "learning_rate": 0.0004949246124618726,
      "loss": 0.1956,
      "mean_token_accuracy": 0.9479999989271164,
      "num_tokens": 2160904.0,
      "step": 244
    },
    {
      "entropy": 2.21382600069046,
      "epoch": 0.8868778280542986,
      "grad_norm": 0.6321626305580139,
      "learning_rate": 0.0004947595907048877,
      "loss": 0.2444,
      "mean_token_accuracy": 0.9376699328422546,
      "num_tokens": 2170021.0,
      "step": 245
    },
    {
      "entropy": 2.3659472465515137,
      "epoch": 0.890497737556561,
      "grad_norm": 0.9778954982757568,
      "learning_rate": 0.0004945937572516417,
      "loss": 0.3783,
      "mean_token_accuracy": 0.9104805737733841,
      "num_tokens": 2178995.0,
      "step": 246
    },
    {
      "entropy": 2.3233078718185425,
      "epoch": 0.8941176470588236,
      "grad_norm": 0.53229820728302,
      "learning_rate": 0.0004944271127319909,
      "loss": 0.0759,
      "mean_token_accuracy": 0.9791453778743744,
      "num_tokens": 2187823.0,
      "step": 247
    },
    {
      "entropy": 2.2469444274902344,
      "epoch": 0.897737556561086,
      "grad_norm": 0.6367197632789612,
      "learning_rate": 0.0004942596577788728,
      "loss": 0.2677,
      "mean_token_accuracy": 0.9392691254615784,
      "num_tokens": 2196923.0,
      "step": 248
    },
    {
      "entropy": 2.4508965611457825,
      "epoch": 0.9013574660633484,
      "grad_norm": 0.6042234897613525,
      "learning_rate": 0.0004940913930283024,
      "loss": 0.1102,
      "mean_token_accuracy": 0.9762090593576431,
      "num_tokens": 2205400.0,
      "step": 249
    },
    {
      "entropy": 2.365670144557953,
      "epoch": 0.9049773755656109,
      "grad_norm": 0.6490639448165894,
      "learning_rate": 0.0004939223191193707,
      "loss": 0.1532,
      "mean_token_accuracy": 0.9489114433526993,
      "num_tokens": 2214201.0,
      "step": 250
    },
    {
      "entropy": 2.4013625383377075,
      "epoch": 0.9085972850678733,
      "grad_norm": 0.5969854593276978,
      "learning_rate": 0.0004937524366942419,
      "loss": 0.1273,
      "mean_token_accuracy": 0.9682519882917404,
      "num_tokens": 2222979.0,
      "step": 251
    },
    {
      "entropy": 2.4402357935905457,
      "epoch": 0.9122171945701357,
      "grad_norm": 0.7559595704078674,
      "learning_rate": 0.0004935817463981513,
      "loss": 0.1979,
      "mean_token_accuracy": 0.9483373910188675,
      "num_tokens": 2231169.0,
      "step": 252
    },
    {
      "entropy": 2.4673256874084473,
      "epoch": 0.9158371040723982,
      "grad_norm": 0.8663308620452881,
      "learning_rate": 0.0004934102488794023,
      "loss": 0.2453,
      "mean_token_accuracy": 0.9408974200487137,
      "num_tokens": 2240099.0,
      "step": 253
    },
    {
      "entropy": 2.426262080669403,
      "epoch": 0.9194570135746606,
      "grad_norm": 0.7920467257499695,
      "learning_rate": 0.0004932379447893643,
      "loss": 0.2828,
      "mean_token_accuracy": 0.9319239109754562,
      "num_tokens": 2249088.0,
      "step": 254
    },
    {
      "entropy": 2.5018852949142456,
      "epoch": 0.9230769230769231,
      "grad_norm": 0.7216617465019226,
      "learning_rate": 0.0004930648347824701,
      "loss": 0.1647,
      "mean_token_accuracy": 0.9551804810762405,
      "num_tokens": 2257710.0,
      "step": 255
    },
    {
      "entropy": 2.43031644821167,
      "epoch": 0.9266968325791856,
      "grad_norm": 0.646794319152832,
      "learning_rate": 0.0004928909195162138,
      "loss": 0.1328,
      "mean_token_accuracy": 0.9663553237915039,
      "num_tokens": 2266883.0,
      "step": 256
    },
    {
      "entropy": 2.5406370759010315,
      "epoch": 0.930316742081448,
      "grad_norm": 0.5482825040817261,
      "learning_rate": 0.0004927161996511474,
      "loss": 0.1872,
      "mean_token_accuracy": 0.9557004272937775,
      "num_tokens": 2275728.0,
      "step": 257
    },
    {
      "entropy": 2.636320471763611,
      "epoch": 0.9339366515837104,
      "grad_norm": 0.7454632520675659,
      "learning_rate": 0.0004925406758508797,
      "loss": 0.1461,
      "mean_token_accuracy": 0.9578974395990372,
      "num_tokens": 2284319.0,
      "step": 258
    },
    {
      "entropy": 2.6067575812339783,
      "epoch": 0.9375565610859729,
      "grad_norm": 0.8695769309997559,
      "learning_rate": 0.000492364348782072,
      "loss": 0.1712,
      "mean_token_accuracy": 0.9652896523475647,
      "num_tokens": 2293035.0,
      "step": 259
    },
    {
      "entropy": 2.5837162137031555,
      "epoch": 0.9411764705882353,
      "grad_norm": 0.5752995014190674,
      "learning_rate": 0.0004921872191144371,
      "loss": 0.1398,
      "mean_token_accuracy": 0.9553333520889282,
      "num_tokens": 2301802.0,
      "step": 260
    },
    {
      "entropy": 2.713033616542816,
      "epoch": 0.9447963800904977,
      "grad_norm": 0.85626620054245,
      "learning_rate": 0.0004920092875207363,
      "loss": 0.2207,
      "mean_token_accuracy": 0.9468346834182739,
      "num_tokens": 2309981.0,
      "step": 261
    },
    {
      "entropy": 2.400112509727478,
      "epoch": 0.9484162895927601,
      "grad_norm": 0.6766608953475952,
      "learning_rate": 0.0004918305546767764,
      "loss": 0.1644,
      "mean_token_accuracy": 0.9502440094947815,
      "num_tokens": 2319212.0,
      "step": 262
    },
    {
      "entropy": 2.503827154636383,
      "epoch": 0.9520361990950226,
      "grad_norm": 0.789470911026001,
      "learning_rate": 0.0004916510212614072,
      "loss": 0.2117,
      "mean_token_accuracy": 0.9454390555620193,
      "num_tokens": 2328234.0,
      "step": 263
    },
    {
      "entropy": 2.669040560722351,
      "epoch": 0.9556561085972851,
      "grad_norm": 0.9579212069511414,
      "learning_rate": 0.0004914706879565197,
      "loss": 0.2193,
      "mean_token_accuracy": 0.9321542829275131,
      "num_tokens": 2336543.0,
      "step": 264
    },
    {
      "entropy": 2.507073998451233,
      "epoch": 0.9592760180995475,
      "grad_norm": 0.5315744876861572,
      "learning_rate": 0.000491289555447043,
      "loss": 0.0851,
      "mean_token_accuracy": 0.9771326780319214,
      "num_tokens": 2345292.0,
      "step": 265
    },
    {
      "entropy": 2.4205283522605896,
      "epoch": 0.96289592760181,
      "grad_norm": 0.5441373586654663,
      "learning_rate": 0.000491107624420941,
      "loss": 0.1323,
      "mean_token_accuracy": 0.9541790336370468,
      "num_tokens": 2354242.0,
      "step": 266
    },
    {
      "entropy": 2.3817258477211,
      "epoch": 0.9665158371040724,
      "grad_norm": 0.5946238040924072,
      "learning_rate": 0.0004909248955692111,
      "loss": 0.1708,
      "mean_token_accuracy": 0.947738841176033,
      "num_tokens": 2363183.0,
      "step": 267
    },
    {
      "entropy": 2.5073485374450684,
      "epoch": 0.9701357466063348,
      "grad_norm": 0.6979324817657471,
      "learning_rate": 0.0004907413695858812,
      "loss": 0.2099,
      "mean_token_accuracy": 0.9423733651638031,
      "num_tokens": 2371885.0,
      "step": 268
    },
    {
      "entropy": 2.5705007910728455,
      "epoch": 0.9737556561085973,
      "grad_norm": 0.8203943967819214,
      "learning_rate": 0.0004905570471680057,
      "loss": 0.217,
      "mean_token_accuracy": 0.9511639326810837,
      "num_tokens": 2380316.0,
      "step": 269
    },
    {
      "entropy": 2.2677993774414062,
      "epoch": 0.9773755656108597,
      "grad_norm": 0.5840432047843933,
      "learning_rate": 0.0004903719290156649,
      "loss": 0.2364,
      "mean_token_accuracy": 0.9407180696725845,
      "num_tokens": 2389723.0,
      "step": 270
    },
    {
      "entropy": 2.477886915206909,
      "epoch": 0.9809954751131221,
      "grad_norm": 0.818929135799408,
      "learning_rate": 0.0004901860158319612,
      "loss": 0.1707,
      "mean_token_accuracy": 0.9579566866159439,
      "num_tokens": 2398388.0,
      "step": 271
    },
    {
      "entropy": 2.549662232398987,
      "epoch": 0.9846153846153847,
      "grad_norm": 0.7804781198501587,
      "learning_rate": 0.0004899993083230166,
      "loss": 0.2944,
      "mean_token_accuracy": 0.9381812512874603,
      "num_tokens": 2406929.0,
      "step": 272
    },
    {
      "entropy": 2.4465304017066956,
      "epoch": 0.9882352941176471,
      "grad_norm": 0.5218799114227295,
      "learning_rate": 0.0004898118071979699,
      "loss": 0.1661,
      "mean_token_accuracy": 0.9500218778848648,
      "num_tokens": 2415631.0,
      "step": 273
    },
    {
      "entropy": 2.5852283239364624,
      "epoch": 0.9918552036199095,
      "grad_norm": 0.591163158416748,
      "learning_rate": 0.0004896235131689743,
      "loss": 0.2005,
      "mean_token_accuracy": 0.9455285370349884,
      "num_tokens": 2424091.0,
      "step": 274
    },
    {
      "entropy": 2.478701651096344,
      "epoch": 0.995475113122172,
      "grad_norm": 1.0615383386611938,
      "learning_rate": 0.0004894344269511945,
      "loss": 0.2864,
      "mean_token_accuracy": 0.9306265562772751,
      "num_tokens": 2432705.0,
      "step": 275
    },
    {
      "entropy": 2.600062847137451,
      "epoch": 0.9990950226244344,
      "grad_norm": 0.7011683583259583,
      "learning_rate": 0.0004892445492628043,
      "loss": 0.1664,
      "mean_token_accuracy": 0.9547821134328842,
      "num_tokens": 2440992.0,
      "step": 276
    },
    {
      "entropy": 2.3411240577697754,
      "epoch": 1.0,
      "grad_norm": 0.4944029450416565,
      "learning_rate": 0.000489053880824983,
      "loss": 0.022,
      "mean_token_accuracy": 0.9929078221321106,
      "num_tokens": 2441725.0,
      "step": 277
    },
    {
      "epoch": 1.0,
      "eval_entropy": 2.5467925265552553,
      "eval_loss": 0.21274714171886444,
      "eval_mean_token_accuracy": 0.9444630068492114,
      "eval_num_tokens": 2441725.0,
      "eval_runtime": 116.0434,
      "eval_samples_per_second": 3.18,
      "eval_steps_per_second": 1.06,
      "step": 277
    },
    {
      "entropy": 2.609170138835907,
      "epoch": 1.0036199095022624,
      "grad_norm": 1.0785081386566162,
      "learning_rate": 0.0004888624223619136,
      "loss": 0.3167,
      "mean_token_accuracy": 0.9296800643205643,
      "num_tokens": 2450193.0,
      "step": 278
    },
    {
      "entropy": 2.497025430202484,
      "epoch": 1.0072398190045249,
      "grad_norm": 0.5221985578536987,
      "learning_rate": 0.0004886701746007801,
      "loss": 0.0854,
      "mean_token_accuracy": 0.9753399342298508,
      "num_tokens": 2459309.0,
      "step": 279
    },
    {
      "entropy": 2.5487362146377563,
      "epoch": 1.0108597285067873,
      "grad_norm": 0.5161958336830139,
      "learning_rate": 0.0004884771382717638,
      "loss": 0.0819,
      "mean_token_accuracy": 0.9748431146144867,
      "num_tokens": 2467844.0,
      "step": 280
    },
    {
      "entropy": 2.5276209115982056,
      "epoch": 1.0144796380090497,
      "grad_norm": 0.5731730461120605,
      "learning_rate": 0.0004882833141080412,
      "loss": 0.1541,
      "mean_token_accuracy": 0.9567564427852631,
      "num_tokens": 2476894.0,
      "step": 281
    },
    {
      "entropy": 2.4442760348320007,
      "epoch": 1.0180995475113122,
      "grad_norm": 0.7120366096496582,
      "learning_rate": 0.0004880887028457813,
      "loss": 0.1945,
      "mean_token_accuracy": 0.9465379565954208,
      "num_tokens": 2485971.0,
      "step": 282
    },
    {
      "entropy": 2.4069360494613647,
      "epoch": 1.0217194570135746,
      "grad_norm": 0.7468647360801697,
      "learning_rate": 0.00048789330522414244,
      "loss": 0.2345,
      "mean_token_accuracy": 0.9446765780448914,
      "num_tokens": 2495043.0,
      "step": 283
    },
    {
      "entropy": 2.468382716178894,
      "epoch": 1.025339366515837,
      "grad_norm": 0.666231632232666,
      "learning_rate": 0.0004876971219852697,
      "loss": 0.1779,
      "mean_token_accuracy": 0.9534575343132019,
      "num_tokens": 2503672.0,
      "step": 284
    },
    {
      "entropy": 2.4362316727638245,
      "epoch": 1.0289592760180994,
      "grad_norm": 0.8445858955383301,
      "learning_rate": 0.000487500153874292,
      "loss": 0.1698,
      "mean_token_accuracy": 0.953661322593689,
      "num_tokens": 2512322.0,
      "step": 285
    },
    {
      "entropy": 2.364333391189575,
      "epoch": 1.032579185520362,
      "grad_norm": 0.4805246591567993,
      "learning_rate": 0.0004873024016393193,
      "loss": 0.0778,
      "mean_token_accuracy": 0.9824571758508682,
      "num_tokens": 2520791.0,
      "step": 286
    },
    {
      "entropy": 2.223461151123047,
      "epoch": 1.0361990950226245,
      "grad_norm": 0.648465096950531,
      "learning_rate": 0.0004871038660314399,
      "loss": 0.2593,
      "mean_token_accuracy": 0.9419913589954376,
      "num_tokens": 2530082.0,
      "step": 287
    },
    {
      "entropy": 2.3313387036323547,
      "epoch": 1.039819004524887,
      "grad_norm": 0.6912294626235962,
      "learning_rate": 0.00048690454780471725,
      "loss": 0.1354,
      "mean_token_accuracy": 0.9561934620141983,
      "num_tokens": 2538728.0,
      "step": 288
    },
    {
      "entropy": 2.191806375980377,
      "epoch": 1.0434389140271494,
      "grad_norm": 0.8620694279670715,
      "learning_rate": 0.0004867044477161874,
      "loss": 0.1103,
      "mean_token_accuracy": 0.968692272901535,
      "num_tokens": 2547219.0,
      "step": 289
    },
    {
      "entropy": 2.167125165462494,
      "epoch": 1.0470588235294118,
      "grad_norm": 0.6192149519920349,
      "learning_rate": 0.0004865035665258559,
      "loss": 0.1288,
      "mean_token_accuracy": 0.9643534421920776,
      "num_tokens": 2555940.0,
      "step": 290
    },
    {
      "entropy": 2.2750985622406006,
      "epoch": 1.0506787330316743,
      "grad_norm": 1.7459602355957031,
      "learning_rate": 0.0004863019049966953,
      "loss": 0.393,
      "mean_token_accuracy": 0.9146681725978851,
      "num_tokens": 2564362.0,
      "step": 291
    },
    {
      "entropy": 2.236129105091095,
      "epoch": 1.0542986425339367,
      "grad_norm": 0.6311184167861938,
      "learning_rate": 0.0004860994638946416,
      "loss": 0.1536,
      "mean_token_accuracy": 0.9636097103357315,
      "num_tokens": 2573316.0,
      "step": 292
    },
    {
      "entropy": 2.2642418146133423,
      "epoch": 1.0579185520361991,
      "grad_norm": 0.6023411154747009,
      "learning_rate": 0.000485896243988592,
      "loss": 0.191,
      "mean_token_accuracy": 0.9476015418767929,
      "num_tokens": 2581835.0,
      "step": 293
    },
    {
      "entropy": 2.3589024543762207,
      "epoch": 1.0615384615384615,
      "grad_norm": 0.48049232363700867,
      "learning_rate": 0.0004856922460504016,
      "loss": 0.1017,
      "mean_token_accuracy": 0.9713075459003448,
      "num_tokens": 2590317.0,
      "step": 294
    },
    {
      "entropy": 2.4141315817832947,
      "epoch": 1.065158371040724,
      "grad_norm": 0.8456616997718811,
      "learning_rate": 0.0004854874708548806,
      "loss": 0.1422,
      "mean_token_accuracy": 0.9622762501239777,
      "num_tokens": 2598538.0,
      "step": 295
    },
    {
      "entropy": 2.069903999567032,
      "epoch": 1.0687782805429864,
      "grad_norm": 0.7641116380691528,
      "learning_rate": 0.0004852819191797912,
      "loss": 0.2185,
      "mean_token_accuracy": 0.9464851468801498,
      "num_tokens": 2608219.0,
      "step": 296
    },
    {
      "entropy": 2.163217008113861,
      "epoch": 1.0723981900452488,
      "grad_norm": 0.546085000038147,
      "learning_rate": 0.0004850755918058449,
      "loss": 0.1035,
      "mean_token_accuracy": 0.9708487540483475,
      "num_tokens": 2617261.0,
      "step": 297
    },
    {
      "entropy": 2.2678662836551666,
      "epoch": 1.0760180995475113,
      "grad_norm": 0.8699386119842529,
      "learning_rate": 0.0004848684895166994,
      "loss": 0.2384,
      "mean_token_accuracy": 0.9486480504274368,
      "num_tokens": 2626144.0,
      "step": 298
    },
    {
      "entropy": 2.13065105676651,
      "epoch": 1.0796380090497737,
      "grad_norm": 0.44323107600212097,
      "learning_rate": 0.00048466061309895554,
      "loss": 0.0818,
      "mean_token_accuracy": 0.9722468554973602,
      "num_tokens": 2635626.0,
      "step": 299
    },
    {
      "entropy": 2.184772551059723,
      "epoch": 1.0832579185520361,
      "grad_norm": 0.7928256988525391,
      "learning_rate": 0.0004844519633421545,
      "loss": 0.2378,
      "mean_token_accuracy": 0.9477885961532593,
      "num_tokens": 2644674.0,
      "step": 300
    },
    {
      "entropy": 2.1669145822525024,
      "epoch": 1.0868778280542986,
      "grad_norm": 0.5570158362388611,
      "learning_rate": 0.00048424254103877456,
      "loss": 0.1434,
      "mean_token_accuracy": 0.9587411731481552,
      "num_tokens": 2653658.0,
      "step": 301
    },
    {
      "entropy": 2.3057579398155212,
      "epoch": 1.090497737556561,
      "grad_norm": 0.9084392189979553,
      "learning_rate": 0.00048403234698422837,
      "loss": 0.3831,
      "mean_token_accuracy": 0.8896283358335495,
      "num_tokens": 2662350.0,
      "step": 302
    },
    {
      "entropy": 2.1741657853126526,
      "epoch": 1.0941176470588236,
      "grad_norm": 0.6791238784790039,
      "learning_rate": 0.0004838213819768597,
      "loss": 0.1648,
      "mean_token_accuracy": 0.9576362520456314,
      "num_tokens": 2671450.0,
      "step": 303
    },
    {
      "entropy": 2.089864045381546,
      "epoch": 1.097737556561086,
      "grad_norm": 0.5696312189102173,
      "learning_rate": 0.0004836096468179406,
      "loss": 0.1269,
      "mean_token_accuracy": 0.9658148884773254,
      "num_tokens": 2680581.0,
      "step": 304
    },
    {
      "entropy": 2.2657605409622192,
      "epoch": 1.1013574660633485,
      "grad_norm": 1.605503797531128,
      "learning_rate": 0.0004833971423116682,
      "loss": 0.1027,
      "mean_token_accuracy": 0.9762597978115082,
      "num_tokens": 2689001.0,
      "step": 305
    },
    {
      "entropy": 2.079287111759186,
      "epoch": 1.104977375565611,
      "grad_norm": 0.5804780721664429,
      "learning_rate": 0.00048318386926516157,
      "loss": 0.1137,
      "mean_token_accuracy": 0.9633719325065613,
      "num_tokens": 2698050.0,
      "step": 306
    },
    {
      "entropy": 2.201345145702362,
      "epoch": 1.1085972850678734,
      "grad_norm": 0.8606241941452026,
      "learning_rate": 0.000482969828488459,
      "loss": 0.2124,
      "mean_token_accuracy": 0.9472681730985641,
      "num_tokens": 2706704.0,
      "step": 307
    },
    {
      "entropy": 2.095236599445343,
      "epoch": 1.1122171945701358,
      "grad_norm": 0.7078782320022583,
      "learning_rate": 0.0004827550207945147,
      "loss": 0.1957,
      "mean_token_accuracy": 0.9564679116010666,
      "num_tokens": 2715745.0,
      "step": 308
    },
    {
      "entropy": 2.186302363872528,
      "epoch": 1.1158371040723982,
      "grad_norm": 0.7166503667831421,
      "learning_rate": 0.0004825394469991956,
      "loss": 0.1539,
      "mean_token_accuracy": 0.9662427455186844,
      "num_tokens": 2724296.0,
      "step": 309
    },
    {
      "entropy": 2.052559405565262,
      "epoch": 1.1194570135746607,
      "grad_norm": 0.6510501503944397,
      "learning_rate": 0.00048232310792127846,
      "loss": 0.1831,
      "mean_token_accuracy": 0.9533994495868683,
      "num_tokens": 2733482.0,
      "step": 310
    },
    {
      "entropy": 2.093154102563858,
      "epoch": 1.123076923076923,
      "grad_norm": 0.711121678352356,
      "learning_rate": 0.0004821060043824466,
      "loss": 0.2315,
      "mean_token_accuracy": 0.9381555914878845,
      "num_tokens": 2742912.0,
      "step": 311
    },
    {
      "entropy": 2.188497006893158,
      "epoch": 1.1266968325791855,
      "grad_norm": 0.6782490015029907,
      "learning_rate": 0.00048188813720728707,
      "loss": 0.2,
      "mean_token_accuracy": 0.9501812607049942,
      "num_tokens": 2751808.0,
      "step": 312
    },
    {
      "entropy": 2.0495824217796326,
      "epoch": 1.130316742081448,
      "grad_norm": 0.7644634246826172,
      "learning_rate": 0.00048166950722328697,
      "loss": 0.2152,
      "mean_token_accuracy": 0.9440928995609283,
      "num_tokens": 2761066.0,
      "step": 313
    },
    {
      "entropy": 2.1707025468349457,
      "epoch": 1.1339366515837104,
      "grad_norm": 0.655131459236145,
      "learning_rate": 0.00048145011526083106,
      "loss": 0.1637,
      "mean_token_accuracy": 0.9500558227300644,
      "num_tokens": 2769870.0,
      "step": 314
    },
    {
      "entropy": 2.1047372221946716,
      "epoch": 1.1375565610859728,
      "grad_norm": 0.5353516936302185,
      "learning_rate": 0.0004812299621531979,
      "loss": 0.1705,
      "mean_token_accuracy": 0.9455999433994293,
      "num_tokens": 2779383.0,
      "step": 315
    },
    {
      "entropy": 2.1921610236167908,
      "epoch": 1.1411764705882352,
      "grad_norm": 0.8998016119003296,
      "learning_rate": 0.00048100904873655696,
      "loss": 0.3918,
      "mean_token_accuracy": 0.9382697492837906,
      "num_tokens": 2788386.0,
      "step": 316
    },
    {
      "entropy": 2.0850723683834076,
      "epoch": 1.1447963800904977,
      "grad_norm": 0.867432713508606,
      "learning_rate": 0.0004807873758499656,
      "loss": 0.2196,
      "mean_token_accuracy": 0.9498324394226074,
      "num_tokens": 2797496.0,
      "step": 317
    },
    {
      "entropy": 2.1980925798416138,
      "epoch": 1.14841628959276,
      "grad_norm": 0.6076980233192444,
      "learning_rate": 0.00048056494433536577,
      "loss": 0.1086,
      "mean_token_accuracy": 0.9642161130905151,
      "num_tokens": 2805836.0,
      "step": 318
    },
    {
      "entropy": 2.15611070394516,
      "epoch": 1.1520361990950225,
      "grad_norm": 0.6276211738586426,
      "learning_rate": 0.0004803417550375806,
      "loss": 0.1463,
      "mean_token_accuracy": 0.9622830748558044,
      "num_tokens": 2814404.0,
      "step": 319
    },
    {
      "entropy": 2.0017230808734894,
      "epoch": 1.155656108597285,
      "grad_norm": 0.5840948820114136,
      "learning_rate": 0.0004801178088043115,
      "loss": 0.1869,
      "mean_token_accuracy": 0.9506777077913284,
      "num_tokens": 2823786.0,
      "step": 320
    },
    {
      "entropy": 2.1539418697357178,
      "epoch": 1.1592760180995474,
      "grad_norm": 1.074331283569336,
      "learning_rate": 0.0004798931064861349,
      "loss": 0.2797,
      "mean_token_accuracy": 0.9271649420261383,
      "num_tokens": 2832374.0,
      "step": 321
    },
    {
      "entropy": 1.930726408958435,
      "epoch": 1.16289592760181,
      "grad_norm": 0.5121958255767822,
      "learning_rate": 0.0004796676489364988,
      "loss": 0.1579,
      "mean_token_accuracy": 0.9582571685314178,
      "num_tokens": 2841561.0,
      "step": 322
    },
    {
      "entropy": 2.0205810368061066,
      "epoch": 1.1665158371040725,
      "grad_norm": 0.6360969543457031,
      "learning_rate": 0.00047944143701171966,
      "loss": 0.1582,
      "mean_token_accuracy": 0.9620308429002762,
      "num_tokens": 2850171.0,
      "step": 323
    },
    {
      "entropy": 1.9655758142471313,
      "epoch": 1.170135746606335,
      "grad_norm": 0.6647385358810425,
      "learning_rate": 0.0004792144715709792,
      "loss": 0.1594,
      "mean_token_accuracy": 0.954497441649437,
      "num_tokens": 2858905.0,
      "step": 324
    },
    {
      "entropy": 1.9725223183631897,
      "epoch": 1.1737556561085973,
      "grad_norm": 0.6429229974746704,
      "learning_rate": 0.0004789867534763211,
      "loss": 0.1407,
      "mean_token_accuracy": 0.9645214527845383,
      "num_tokens": 2867533.0,
      "step": 325
    },
    {
      "entropy": 1.9473685026168823,
      "epoch": 1.1773755656108598,
      "grad_norm": 0.811651349067688,
      "learning_rate": 0.0004787582835926477,
      "loss": 0.1608,
      "mean_token_accuracy": 0.9479968994855881,
      "num_tokens": 2876286.0,
      "step": 326
    },
    {
      "entropy": 1.8863109350204468,
      "epoch": 1.1809954751131222,
      "grad_norm": 0.5587059855461121,
      "learning_rate": 0.00047852906278771686,
      "loss": 0.131,
      "mean_token_accuracy": 0.9684520065784454,
      "num_tokens": 2885667.0,
      "step": 327
    },
    {
      "entropy": 1.8288891315460205,
      "epoch": 1.1846153846153846,
      "grad_norm": 0.8450536131858826,
      "learning_rate": 0.0004782990919321383,
      "loss": 0.2224,
      "mean_token_accuracy": 0.9377491921186447,
      "num_tokens": 2894765.0,
      "step": 328
    },
    {
      "entropy": 1.9347718358039856,
      "epoch": 1.188235294117647,
      "grad_norm": 0.7665867209434509,
      "learning_rate": 0.0004780683718993705,
      "loss": 0.167,
      "mean_token_accuracy": 0.9583602845668793,
      "num_tokens": 2903551.0,
      "step": 329
    },
    {
      "entropy": 1.9097798764705658,
      "epoch": 1.1918552036199095,
      "grad_norm": 0.7705667018890381,
      "learning_rate": 0.00047783690356571784,
      "loss": 0.2115,
      "mean_token_accuracy": 0.9526428133249283,
      "num_tokens": 2912197.0,
      "step": 330
    },
    {
      "entropy": 1.9174850285053253,
      "epoch": 1.195475113122172,
      "grad_norm": 0.5695499181747437,
      "learning_rate": 0.00047760468781032634,
      "loss": 0.1033,
      "mean_token_accuracy": 0.969958484172821,
      "num_tokens": 2920579.0,
      "step": 331
    },
    {
      "entropy": 1.8578442931175232,
      "epoch": 1.1990950226244343,
      "grad_norm": 0.7843735814094543,
      "learning_rate": 0.000477371725515181,
      "loss": 0.1664,
      "mean_token_accuracy": 0.9545005410909653,
      "num_tokens": 2929352.0,
      "step": 332
    },
    {
      "entropy": 1.8509328961372375,
      "epoch": 1.2027149321266968,
      "grad_norm": 0.5951048135757446,
      "learning_rate": 0.0004771380175651026,
      "loss": 0.1566,
      "mean_token_accuracy": 0.9551403075456619,
      "num_tokens": 2938387.0,
      "step": 333
    },
    {
      "entropy": 1.8236390948295593,
      "epoch": 1.2063348416289592,
      "grad_norm": 0.4988223910331726,
      "learning_rate": 0.0004769035648477434,
      "loss": 0.1242,
      "mean_token_accuracy": 0.966319814324379,
      "num_tokens": 2947741.0,
      "step": 334
    },
    {
      "entropy": 1.9594822525978088,
      "epoch": 1.2099547511312216,
      "grad_norm": 0.7550755143165588,
      "learning_rate": 0.00047666836825358477,
      "loss": 0.1591,
      "mean_token_accuracy": 0.9666347652673721,
      "num_tokens": 2956313.0,
      "step": 335
    },
    {
      "entropy": 1.9148444533348083,
      "epoch": 1.213574660633484,
      "grad_norm": 0.5889077186584473,
      "learning_rate": 0.00047643242867593345,
      "loss": 0.1343,
      "mean_token_accuracy": 0.9611433297395706,
      "num_tokens": 2964928.0,
      "step": 336
    },
    {
      "entropy": 1.8126957714557648,
      "epoch": 1.2171945701357467,
      "grad_norm": 0.5447750091552734,
      "learning_rate": 0.0004761957470109179,
      "loss": 0.1659,
      "mean_token_accuracy": 0.9552300125360489,
      "num_tokens": 2974160.0,
      "step": 337
    },
    {
      "entropy": 1.7981431782245636,
      "epoch": 1.2208144796380092,
      "grad_norm": 0.5400761365890503,
      "learning_rate": 0.0004759583241574854,
      "loss": 0.1339,
      "mean_token_accuracy": 0.9620136916637421,
      "num_tokens": 2982900.0,
      "step": 338
    },
    {
      "entropy": 1.8613979518413544,
      "epoch": 1.2244343891402716,
      "grad_norm": 0.7452914714813232,
      "learning_rate": 0.0004757201610173981,
      "loss": 0.4,
      "mean_token_accuracy": 0.9068266004323959,
      "num_tokens": 2991783.0,
      "step": 339
    },
    {
      "entropy": 1.8654026687145233,
      "epoch": 1.228054298642534,
      "grad_norm": 1.7142685651779175,
      "learning_rate": 0.00047548125849523,
      "loss": 0.3168,
      "mean_token_accuracy": 0.9308896362781525,
      "num_tokens": 3000530.0,
      "step": 340
    },
    {
      "entropy": 1.7702704071998596,
      "epoch": 1.2316742081447964,
      "grad_norm": 0.6687431931495667,
      "learning_rate": 0.0004752416174983633,
      "loss": 0.1697,
      "mean_token_accuracy": 0.9530515670776367,
      "num_tokens": 3009355.0,
      "step": 341
    },
    {
      "entropy": 1.735857516527176,
      "epoch": 1.2352941176470589,
      "grad_norm": 0.6127599477767944,
      "learning_rate": 0.00047500123893698507,
      "loss": 0.1706,
      "mean_token_accuracy": 0.9593266248703003,
      "num_tokens": 3018518.0,
      "step": 342
    },
    {
      "entropy": 1.7076368927955627,
      "epoch": 1.2389140271493213,
      "grad_norm": 0.6973987817764282,
      "learning_rate": 0.0004747601237240836,
      "loss": 0.1615,
      "mean_token_accuracy": 0.9539438933134079,
      "num_tokens": 3027752.0,
      "step": 343
    },
    {
      "entropy": 1.7353227138519287,
      "epoch": 1.2425339366515837,
      "grad_norm": 0.8406392335891724,
      "learning_rate": 0.00047451827277544546,
      "loss": 0.2063,
      "mean_token_accuracy": 0.9488435834646225,
      "num_tokens": 3036383.0,
      "step": 344
    },
    {
      "entropy": 1.6597246527671814,
      "epoch": 1.2461538461538462,
      "grad_norm": 0.5971431732177734,
      "learning_rate": 0.00047427568700965107,
      "loss": 0.1013,
      "mean_token_accuracy": 0.9721864312887192,
      "num_tokens": 3045375.0,
      "step": 345
    },
    {
      "entropy": 1.7100033462047577,
      "epoch": 1.2497737556561086,
      "grad_norm": 0.5883470773696899,
      "learning_rate": 0.00047403236734807225,
      "loss": 0.1164,
      "mean_token_accuracy": 0.9664830714464188,
      "num_tokens": 3054084.0,
      "step": 346
    },
    {
      "entropy": 1.7402609288692474,
      "epoch": 1.253393665158371,
      "grad_norm": 0.7355862855911255,
      "learning_rate": 0.00047378831471486815,
      "loss": 0.2007,
      "mean_token_accuracy": 0.9560511559247971,
      "num_tokens": 3062727.0,
      "step": 347
    },
    {
      "entropy": 1.79518261551857,
      "epoch": 1.2570135746606335,
      "grad_norm": 0.6006518006324768,
      "learning_rate": 0.00047354353003698163,
      "loss": 0.1085,
      "mean_token_accuracy": 0.9598321914672852,
      "num_tokens": 3071178.0,
      "step": 348
    },
    {
      "entropy": 1.7328391373157501,
      "epoch": 1.260633484162896,
      "grad_norm": 0.560342013835907,
      "learning_rate": 0.0004732980142441362,
      "loss": 0.1593,
      "mean_token_accuracy": 0.9579409211874008,
      "num_tokens": 3079927.0,
      "step": 349
    },
    {
      "entropy": 1.7356511652469635,
      "epoch": 1.2642533936651583,
      "grad_norm": 0.9149975776672363,
      "learning_rate": 0.00047305176826883206,
      "loss": 0.4064,
      "mean_token_accuracy": 0.9265118837356567,
      "num_tokens": 3089314.0,
      "step": 350
    },
    {
      "entropy": 1.8573569357395172,
      "epoch": 1.2678733031674208,
      "grad_norm": 0.8300670981407166,
      "learning_rate": 0.0004728047930463428,
      "loss": 0.195,
      "mean_token_accuracy": 0.9453776180744171,
      "num_tokens": 3097702.0,
      "step": 351
    },
    {
      "entropy": 1.7906217575073242,
      "epoch": 1.2714932126696832,
      "grad_norm": 0.5668906569480896,
      "learning_rate": 0.0004725570895147118,
      "loss": 0.1572,
      "mean_token_accuracy": 0.962067037820816,
      "num_tokens": 3106379.0,
      "step": 352
    },
    {
      "entropy": 1.6957395374774933,
      "epoch": 1.2751131221719456,
      "grad_norm": 0.4048328399658203,
      "learning_rate": 0.0004723086586147487,
      "loss": 0.0944,
      "mean_token_accuracy": 0.9716819673776627,
      "num_tokens": 3115622.0,
      "step": 353
    },
    {
      "entropy": 1.8158144056797028,
      "epoch": 1.278733031674208,
      "grad_norm": 0.6396092772483826,
      "learning_rate": 0.00047205950129002564,
      "loss": 0.1011,
      "mean_token_accuracy": 0.9698463827371597,
      "num_tokens": 3124016.0,
      "step": 354
    },
    {
      "entropy": 1.730194479227066,
      "epoch": 1.2823529411764705,
      "grad_norm": 0.662876307964325,
      "learning_rate": 0.000471809618486874,
      "loss": 0.1641,
      "mean_token_accuracy": 0.9520179778337479,
      "num_tokens": 3132712.0,
      "step": 355
    },
    {
      "entropy": 1.6776110529899597,
      "epoch": 1.285972850678733,
      "grad_norm": 0.868507981300354,
      "learning_rate": 0.0004715590111543804,
      "loss": 0.3374,
      "mean_token_accuracy": 0.9303739666938782,
      "num_tokens": 3142103.0,
      "step": 356
    },
    {
      "entropy": 1.6501678824424744,
      "epoch": 1.2895927601809956,
      "grad_norm": 0.5433686971664429,
      "learning_rate": 0.0004713076802443834,
      "loss": 0.1237,
      "mean_token_accuracy": 0.9653612226247787,
      "num_tokens": 3151192.0,
      "step": 357
    },
    {
      "entropy": 1.6524465382099152,
      "epoch": 1.293212669683258,
      "grad_norm": 0.6145523190498352,
      "learning_rate": 0.00047105562671147,
      "loss": 0.1204,
      "mean_token_accuracy": 0.9690534323453903,
      "num_tokens": 3159839.0,
      "step": 358
    },
    {
      "entropy": 1.5339214205741882,
      "epoch": 1.2968325791855204,
      "grad_norm": 0.500477135181427,
      "learning_rate": 0.00047080285151297144,
      "loss": 0.1295,
      "mean_token_accuracy": 0.9571033865213394,
      "num_tokens": 3169047.0,
      "step": 359
    },
    {
      "entropy": 1.6765435338020325,
      "epoch": 1.3004524886877828,
      "grad_norm": 0.6697553396224976,
      "learning_rate": 0.00047054935560896026,
      "loss": 0.135,
      "mean_token_accuracy": 0.9672541171312332,
      "num_tokens": 3177062.0,
      "step": 360
    },
    {
      "entropy": 1.5932062566280365,
      "epoch": 1.3040723981900453,
      "grad_norm": 0.706957221031189,
      "learning_rate": 0.0004702951399622462,
      "loss": 0.1229,
      "mean_token_accuracy": 0.9634416699409485,
      "num_tokens": 3185829.0,
      "step": 361
    },
    {
      "entropy": 1.5623145997524261,
      "epoch": 1.3076923076923077,
      "grad_norm": 0.6199461221694946,
      "learning_rate": 0.00047004020553837275,
      "loss": 0.1449,
      "mean_token_accuracy": 0.9620065689086914,
      "num_tokens": 3194426.0,
      "step": 362
    },
    {
      "entropy": 1.5226828753948212,
      "epoch": 1.3113122171945701,
      "grad_norm": 0.8962509036064148,
      "learning_rate": 0.0004697845533056132,
      "loss": 0.2207,
      "mean_token_accuracy": 0.9403344839811325,
      "num_tokens": 3203655.0,
      "step": 363
    },
    {
      "entropy": 1.5395641326904297,
      "epoch": 1.3149321266968326,
      "grad_norm": 0.5993619561195374,
      "learning_rate": 0.00046952818423496727,
      "loss": 0.1486,
      "mean_token_accuracy": 0.9614185988903046,
      "num_tokens": 3212069.0,
      "step": 364
    },
    {
      "entropy": 1.5738630294799805,
      "epoch": 1.318552036199095,
      "grad_norm": 0.7393983602523804,
      "learning_rate": 0.00046927109930015756,
      "loss": 0.1812,
      "mean_token_accuracy": 0.9535021334886551,
      "num_tokens": 3220482.0,
      "step": 365
    },
    {
      "entropy": 1.5462632775306702,
      "epoch": 1.3221719457013574,
      "grad_norm": 0.7453555464744568,
      "learning_rate": 0.0004690132994776253,
      "loss": 0.164,
      "mean_token_accuracy": 0.9585814625024796,
      "num_tokens": 3229505.0,
      "step": 366
    },
    {
      "entropy": 1.5241961777210236,
      "epoch": 1.3257918552036199,
      "grad_norm": 0.7553415298461914,
      "learning_rate": 0.00046875478574652713,
      "loss": 0.1445,
      "mean_token_accuracy": 0.9682841598987579,
      "num_tokens": 3238326.0,
      "step": 367
    },
    {
      "entropy": 1.5344699025154114,
      "epoch": 1.3294117647058823,
      "grad_norm": 0.8565949201583862,
      "learning_rate": 0.0004684955590887311,
      "loss": 0.2521,
      "mean_token_accuracy": 0.920401468873024,
      "num_tokens": 3247482.0,
      "step": 368
    },
    {
      "entropy": 1.5109277665615082,
      "epoch": 1.3330316742081447,
      "grad_norm": 0.5170580148696899,
      "learning_rate": 0.00046823562048881295,
      "loss": 0.1393,
      "mean_token_accuracy": 0.9584086239337921,
      "num_tokens": 3256464.0,
      "step": 369
    },
    {
      "entropy": 1.4666939079761505,
      "epoch": 1.3366515837104074,
      "grad_norm": 0.6995373368263245,
      "learning_rate": 0.0004679749709340529,
      "loss": 0.1726,
      "mean_token_accuracy": 0.9477890431880951,
      "num_tokens": 3265853.0,
      "step": 370
    },
    {
      "entropy": 1.4208430051803589,
      "epoch": 1.3402714932126698,
      "grad_norm": 1.1363991498947144,
      "learning_rate": 0.000467713611414431,
      "loss": 0.196,
      "mean_token_accuracy": 0.9495431333780289,
      "num_tokens": 3275367.0,
      "step": 371
    },
    {
      "entropy": 1.5009459853172302,
      "epoch": 1.3438914027149322,
      "grad_norm": 0.7883325219154358,
      "learning_rate": 0.00046745154292262414,
      "loss": 0.2526,
      "mean_token_accuracy": 0.9334618002176285,
      "num_tokens": 3284772.0,
      "step": 372
    },
    {
      "entropy": 1.5485479533672333,
      "epoch": 1.3475113122171947,
      "grad_norm": 0.6516429781913757,
      "learning_rate": 0.00046718876645400156,
      "loss": 0.2057,
      "mean_token_accuracy": 0.9546459317207336,
      "num_tokens": 3293493.0,
      "step": 373
    },
    {
      "entropy": 1.6237249970436096,
      "epoch": 1.351131221719457,
      "grad_norm": 0.8916263580322266,
      "learning_rate": 0.00046692528300662213,
      "loss": 0.2123,
      "mean_token_accuracy": 0.9456845372915268,
      "num_tokens": 3302063.0,
      "step": 374
    },
    {
      "entropy": 1.561572015285492,
      "epoch": 1.3547511312217195,
      "grad_norm": 0.7527791857719421,
      "learning_rate": 0.00046666109358122935,
      "loss": 0.2113,
      "mean_token_accuracy": 0.9537477940320969,
      "num_tokens": 3311037.0,
      "step": 375
    },
    {
      "entropy": 1.5594256818294525,
      "epoch": 1.358371040723982,
      "grad_norm": 1.25638747215271,
      "learning_rate": 0.0004663961991812485,
      "loss": 0.1629,
      "mean_token_accuracy": 0.9508458077907562,
      "num_tokens": 3319635.0,
      "step": 376
    },
    {
      "entropy": 1.6909976303577423,
      "epoch": 1.3619909502262444,
      "grad_norm": 0.7627813220024109,
      "learning_rate": 0.00046613060081278194,
      "loss": 0.2303,
      "mean_token_accuracy": 0.9425801336765289,
      "num_tokens": 3328043.0,
      "step": 377
    },
    {
      "entropy": 1.6074829697608948,
      "epoch": 1.3656108597285068,
      "grad_norm": 0.6584346294403076,
      "learning_rate": 0.00046586429948460646,
      "loss": 0.1815,
      "mean_token_accuracy": 0.9536214470863342,
      "num_tokens": 3337143.0,
      "step": 378
    },
    {
      "entropy": 1.7382183969020844,
      "epoch": 1.3692307692307693,
      "grad_norm": 1.37154221534729,
      "learning_rate": 0.0004655972962081684,
      "loss": 0.1849,
      "mean_token_accuracy": 0.948440819978714,
      "num_tokens": 3346033.0,
      "step": 379
    },
    {
      "entropy": 1.7148900926113129,
      "epoch": 1.3728506787330317,
      "grad_norm": 0.9487980604171753,
      "learning_rate": 0.00046532959199758,
      "loss": 0.2521,
      "mean_token_accuracy": 0.9344504028558731,
      "num_tokens": 3354849.0,
      "step": 380
    },
    {
      "entropy": 1.7164019346237183,
      "epoch": 1.3764705882352941,
      "grad_norm": 0.5609025359153748,
      "learning_rate": 0.00046506118786961614,
      "loss": 0.1425,
      "mean_token_accuracy": 0.9571309834718704,
      "num_tokens": 3363674.0,
      "step": 381
    },
    {
      "entropy": 1.894619107246399,
      "epoch": 1.3800904977375565,
      "grad_norm": 0.9811336994171143,
      "learning_rate": 0.00046479208484370997,
      "loss": 0.2522,
      "mean_token_accuracy": 0.9424156546592712,
      "num_tokens": 3372325.0,
      "step": 382
    },
    {
      "entropy": 1.78870290517807,
      "epoch": 1.383710407239819,
      "grad_norm": 0.5707085132598877,
      "learning_rate": 0.00046452228394194893,
      "loss": 0.1354,
      "mean_token_accuracy": 0.9613165706396103,
      "num_tokens": 3381270.0,
      "step": 383
    },
    {
      "entropy": 1.803922712802887,
      "epoch": 1.3873303167420814,
      "grad_norm": 0.5655364394187927,
      "learning_rate": 0.0004642517861890713,
      "loss": 0.0818,
      "mean_token_accuracy": 0.9776160269975662,
      "num_tokens": 3390363.0,
      "step": 384
    },
    {
      "entropy": 1.8172507882118225,
      "epoch": 1.3909502262443438,
      "grad_norm": 0.6950513124465942,
      "learning_rate": 0.00046398059261246205,
      "loss": 0.1145,
      "mean_token_accuracy": 0.963288351893425,
      "num_tokens": 3399176.0,
      "step": 385
    },
    {
      "entropy": 1.9182518422603607,
      "epoch": 1.3945701357466063,
      "grad_norm": 0.5900619029998779,
      "learning_rate": 0.0004637087042421489,
      "loss": 0.108,
      "mean_token_accuracy": 0.9723307639360428,
      "num_tokens": 3407978.0,
      "step": 386
    },
    {
      "entropy": 1.8558574616909027,
      "epoch": 1.3981900452488687,
      "grad_norm": 0.6279832124710083,
      "learning_rate": 0.00046343612211079843,
      "loss": 0.1471,
      "mean_token_accuracy": 0.9603912532329559,
      "num_tokens": 3416856.0,
      "step": 387
    },
    {
      "entropy": 1.8146779537200928,
      "epoch": 1.4018099547511311,
      "grad_norm": 0.6171274781227112,
      "learning_rate": 0.0004631628472537125,
      "loss": 0.1872,
      "mean_token_accuracy": 0.9447146654129028,
      "num_tokens": 3426044.0,
      "step": 388
    },
    {
      "entropy": 1.9342225790023804,
      "epoch": 1.4054298642533936,
      "grad_norm": 0.9947887659072876,
      "learning_rate": 0.00046288888070882374,
      "loss": 0.2966,
      "mean_token_accuracy": 0.9279204607009888,
      "num_tokens": 3435154.0,
      "step": 389
    },
    {
      "entropy": 1.9391801953315735,
      "epoch": 1.409049773755656,
      "grad_norm": 0.7155653834342957,
      "learning_rate": 0.000462614223516692,
      "loss": 0.1847,
      "mean_token_accuracy": 0.9475171864032745,
      "num_tokens": 3444563.0,
      "step": 390
    },
    {
      "entropy": 2.0716978013515472,
      "epoch": 1.4126696832579184,
      "grad_norm": 0.8198989629745483,
      "learning_rate": 0.0004623388767205004,
      "loss": 0.1317,
      "mean_token_accuracy": 0.9608721435070038,
      "num_tokens": 3453410.0,
      "step": 391
    },
    {
      "entropy": 2.1060431599617004,
      "epoch": 1.416289592760181,
      "grad_norm": 1.025406002998352,
      "learning_rate": 0.00046206284136605106,
      "loss": 0.2146,
      "mean_token_accuracy": 0.9414294511079788,
      "num_tokens": 3461958.0,
      "step": 392
    },
    {
      "entropy": 2.1459922194480896,
      "epoch": 1.4199095022624435,
      "grad_norm": 0.9209627509117126,
      "learning_rate": 0.00046178611850176146,
      "loss": 0.2137,
      "mean_token_accuracy": 0.956874743103981,
      "num_tokens": 3470547.0,
      "step": 393
    },
    {
      "entropy": 2.0233450531959534,
      "epoch": 1.423529411764706,
      "grad_norm": 0.5777944922447205,
      "learning_rate": 0.00046150870917866025,
      "loss": 0.122,
      "mean_token_accuracy": 0.9672323018312454,
      "num_tokens": 3479618.0,
      "step": 394
    },
    {
      "entropy": 2.035937190055847,
      "epoch": 1.4271493212669684,
      "grad_norm": 0.7945542931556702,
      "learning_rate": 0.0004612306144503835,
      "loss": 0.2879,
      "mean_token_accuracy": 0.946587473154068,
      "num_tokens": 3488533.0,
      "step": 395
    },
    {
      "entropy": 2.155315637588501,
      "epoch": 1.4307692307692308,
      "grad_norm": 0.6385292410850525,
      "learning_rate": 0.00046095183537317035,
      "loss": 0.1008,
      "mean_token_accuracy": 0.9655124247074127,
      "num_tokens": 3496686.0,
      "step": 396
    },
    {
      "entropy": 2.186827063560486,
      "epoch": 1.4343891402714932,
      "grad_norm": 0.4759826958179474,
      "learning_rate": 0.0004606723730058593,
      "loss": 0.0768,
      "mean_token_accuracy": 0.9783597737550735,
      "num_tokens": 3504958.0,
      "step": 397
    },
    {
      "entropy": 1.974392294883728,
      "epoch": 1.4380090497737557,
      "grad_norm": 0.6250292062759399,
      "learning_rate": 0.00046039222840988406,
      "loss": 0.1381,
      "mean_token_accuracy": 0.9586146324872971,
      "num_tokens": 3513694.0,
      "step": 398
    },
    {
      "entropy": 2.045738846063614,
      "epoch": 1.441628959276018,
      "grad_norm": 0.5517769455909729,
      "learning_rate": 0.0004601114026492695,
      "loss": 0.1312,
      "mean_token_accuracy": 0.9682512134313583,
      "num_tokens": 3522395.0,
      "step": 399
    },
    {
      "entropy": 2.105030357837677,
      "epoch": 1.4452488687782805,
      "grad_norm": 0.6748242974281311,
      "learning_rate": 0.0004598298967906276,
      "loss": 0.1056,
      "mean_token_accuracy": 0.9701305478811264,
      "num_tokens": 3530838.0,
      "step": 400
    },
    {
      "entropy": 2.024325281381607,
      "epoch": 1.448868778280543,
      "grad_norm": 0.6320233941078186,
      "learning_rate": 0.00045954771190315344,
      "loss": 0.1129,
      "mean_token_accuracy": 0.9633017927408218,
      "num_tokens": 3540184.0,
      "step": 401
    },
    {
      "entropy": 2.1561593413352966,
      "epoch": 1.4524886877828054,
      "grad_norm": 0.7380363941192627,
      "learning_rate": 0.0004592648490586213,
      "loss": 0.1304,
      "mean_token_accuracy": 0.9599586874246597,
      "num_tokens": 3548727.0,
      "step": 402
    },
    {
      "entropy": 2.2986454367637634,
      "epoch": 1.4561085972850678,
      "grad_norm": 0.669114351272583,
      "learning_rate": 0.00045898130933138024,
      "loss": 0.1005,
      "mean_token_accuracy": 0.9724964797496796,
      "num_tokens": 3556780.0,
      "step": 403
    },
    {
      "entropy": 2.103136509656906,
      "epoch": 1.4597285067873302,
      "grad_norm": 0.6677402853965759,
      "learning_rate": 0.0004586970937983504,
      "loss": 0.1177,
      "mean_token_accuracy": 0.9597653448581696,
      "num_tokens": 3565427.0,
      "step": 404
    },
    {
      "entropy": 2.112696200609207,
      "epoch": 1.463348416289593,
      "grad_norm": 0.4597342014312744,
      "learning_rate": 0.0004584122035390185,
      "loss": 0.0695,
      "mean_token_accuracy": 0.9763098359107971,
      "num_tokens": 3573902.0,
      "step": 405
    },
    {
      "entropy": 2.0472628474235535,
      "epoch": 1.4669683257918553,
      "grad_norm": 0.7842056751251221,
      "learning_rate": 0.0004581266396354339,
      "loss": 0.1981,
      "mean_token_accuracy": 0.9521032422780991,
      "num_tokens": 3582913.0,
      "step": 406
    },
    {
      "entropy": 2.236558735370636,
      "epoch": 1.4705882352941178,
      "grad_norm": 0.7634767293930054,
      "learning_rate": 0.000457840403172205,
      "loss": 0.1956,
      "mean_token_accuracy": 0.9602932929992676,
      "num_tokens": 3591197.0,
      "step": 407
    },
    {
      "entropy": 2.182949125766754,
      "epoch": 1.4742081447963802,
      "grad_norm": 0.7084661722183228,
      "learning_rate": 0.00045755349523649415,
      "loss": 0.2463,
      "mean_token_accuracy": 0.9392582327127457,
      "num_tokens": 3600134.0,
      "step": 408
    },
    {
      "entropy": 2.135133147239685,
      "epoch": 1.4778280542986426,
      "grad_norm": 0.8172940015792847,
      "learning_rate": 0.00045726591691801433,
      "loss": 0.2375,
      "mean_token_accuracy": 0.9458330571651459,
      "num_tokens": 3608945.0,
      "step": 409
    },
    {
      "entropy": 2.157473146915436,
      "epoch": 1.481447963800905,
      "grad_norm": 0.6165594458580017,
      "learning_rate": 0.0004569776693090246,
      "loss": 0.1628,
      "mean_token_accuracy": 0.9586529731750488,
      "num_tokens": 3617790.0,
      "step": 410
    },
    {
      "entropy": 2.15165376663208,
      "epoch": 1.4850678733031675,
      "grad_norm": 0.6619407534599304,
      "learning_rate": 0.0004566887535043263,
      "loss": 0.1866,
      "mean_token_accuracy": 0.9545126557350159,
      "num_tokens": 3626937.0,
      "step": 411
    },
    {
      "entropy": 2.271161735057831,
      "epoch": 1.48868778280543,
      "grad_norm": 0.5861835479736328,
      "learning_rate": 0.0004563991706012582,
      "loss": 0.1409,
      "mean_token_accuracy": 0.9595955163240433,
      "num_tokens": 3636025.0,
      "step": 412
    },
    {
      "entropy": 2.277799427509308,
      "epoch": 1.4923076923076923,
      "grad_norm": 0.6464956402778625,
      "learning_rate": 0.00045610892169969323,
      "loss": 0.0792,
      "mean_token_accuracy": 0.9806316941976547,
      "num_tokens": 3644746.0,
      "step": 413
    },
    {
      "entropy": 2.2143171429634094,
      "epoch": 1.4959276018099548,
      "grad_norm": 0.7531687021255493,
      "learning_rate": 0.00045581800790203366,
      "loss": 0.2584,
      "mean_token_accuracy": 0.9225966930389404,
      "num_tokens": 3654064.0,
      "step": 414
    },
    {
      "entropy": 2.231681764125824,
      "epoch": 1.4995475113122172,
      "grad_norm": 0.6902768015861511,
      "learning_rate": 0.00045552643031320726,
      "loss": 0.232,
      "mean_token_accuracy": 0.9433842301368713,
      "num_tokens": 3663130.0,
      "step": 415
    },
    {
      "entropy": 2.2672717571258545,
      "epoch": 1.5031674208144796,
      "grad_norm": 0.5134314894676208,
      "learning_rate": 0.00045523419004066273,
      "loss": 0.0874,
      "mean_token_accuracy": 0.9708191752433777,
      "num_tokens": 3671981.0,
      "step": 416
    },
    {
      "entropy": 2.3302834033966064,
      "epoch": 1.506787330316742,
      "grad_norm": 0.885969340801239,
      "learning_rate": 0.0004549412881943659,
      "loss": 0.0723,
      "mean_token_accuracy": 0.9791463166475296,
      "num_tokens": 3680525.0,
      "step": 417
    },
    {
      "entropy": 2.2693899869918823,
      "epoch": 1.5104072398190045,
      "grad_norm": 0.7424856424331665,
      "learning_rate": 0.00045464772588679547,
      "loss": 0.1509,
      "mean_token_accuracy": 0.9600907415151596,
      "num_tokens": 3689430.0,
      "step": 418
    },
    {
      "entropy": 2.4042725563049316,
      "epoch": 1.514027149321267,
      "grad_norm": 0.8968034982681274,
      "learning_rate": 0.0004543535042329382,
      "loss": 0.1984,
      "mean_token_accuracy": 0.9488537162542343,
      "num_tokens": 3697836.0,
      "step": 419
    },
    {
      "entropy": 2.2518428564071655,
      "epoch": 1.5176470588235293,
      "grad_norm": 0.5963534712791443,
      "learning_rate": 0.0004540586243502858,
      "loss": 0.1214,
      "mean_token_accuracy": 0.9711381644010544,
      "num_tokens": 3706675.0,
      "step": 420
    },
    {
      "entropy": 2.275522291660309,
      "epoch": 1.5212669683257918,
      "grad_norm": 1.0797090530395508,
      "learning_rate": 0.0004537630873588293,
      "loss": 0.2508,
      "mean_token_accuracy": 0.9247037768363953,
      "num_tokens": 3715631.0,
      "step": 421
    },
    {
      "entropy": 2.249617278575897,
      "epoch": 1.5248868778280542,
      "grad_norm": 0.7636313438415527,
      "learning_rate": 0.000453466894381056,
      "loss": 0.1112,
      "mean_token_accuracy": 0.9681926071643829,
      "num_tokens": 3724579.0,
      "step": 422
    },
    {
      "entropy": 2.280571699142456,
      "epoch": 1.5285067873303166,
      "grad_norm": 0.9915648698806763,
      "learning_rate": 0.00045317004654194464,
      "loss": 0.3532,
      "mean_token_accuracy": 0.9360047876834869,
      "num_tokens": 3733607.0,
      "step": 423
    },
    {
      "entropy": 2.241512656211853,
      "epoch": 1.532126696832579,
      "grad_norm": 0.924977719783783,
      "learning_rate": 0.0004528725449689611,
      "loss": 0.1997,
      "mean_token_accuracy": 0.9475428760051727,
      "num_tokens": 3742611.0,
      "step": 424
    },
    {
      "entropy": 2.201731503009796,
      "epoch": 1.5357466063348415,
      "grad_norm": 0.7018861770629883,
      "learning_rate": 0.0004525743907920542,
      "loss": 0.1683,
      "mean_token_accuracy": 0.9465018659830093,
      "num_tokens": 3751737.0,
      "step": 425
    },
    {
      "entropy": 2.28944593667984,
      "epoch": 1.539366515837104,
      "grad_norm": 0.5893452763557434,
      "learning_rate": 0.00045227558514365166,
      "loss": 0.0969,
      "mean_token_accuracy": 0.9711766839027405,
      "num_tokens": 3761245.0,
      "step": 426
    },
    {
      "entropy": 2.3497202396392822,
      "epoch": 1.5429864253393664,
      "grad_norm": 0.685279130935669,
      "learning_rate": 0.0004519761291586551,
      "loss": 0.106,
      "mean_token_accuracy": 0.9663016647100449,
      "num_tokens": 3769854.0,
      "step": 427
    },
    {
      "entropy": 2.308362066745758,
      "epoch": 1.5466063348416288,
      "grad_norm": 0.5116177797317505,
      "learning_rate": 0.00045167602397443694,
      "loss": 0.1132,
      "mean_token_accuracy": 0.9700013697147369,
      "num_tokens": 3778996.0,
      "step": 428
    },
    {
      "entropy": 2.238637685775757,
      "epoch": 1.5502262443438914,
      "grad_norm": 0.8374833464622498,
      "learning_rate": 0.00045137527073083457,
      "loss": 0.2539,
      "mean_token_accuracy": 0.9407305717468262,
      "num_tokens": 3787835.0,
      "step": 429
    },
    {
      "entropy": 2.3406758308410645,
      "epoch": 1.5538461538461539,
      "grad_norm": 0.5140913724899292,
      "learning_rate": 0.0004510738705701473,
      "loss": 0.1113,
      "mean_token_accuracy": 0.9635641574859619,
      "num_tokens": 3796498.0,
      "step": 430
    },
    {
      "entropy": 2.2642539143562317,
      "epoch": 1.5574660633484163,
      "grad_norm": 0.5750702023506165,
      "learning_rate": 0.0004507718246371313,
      "loss": 0.1127,
      "mean_token_accuracy": 0.9660817235708237,
      "num_tokens": 3805464.0,
      "step": 431
    },
    {
      "entropy": 2.2058264315128326,
      "epoch": 1.5610859728506787,
      "grad_norm": 0.6448659300804138,
      "learning_rate": 0.0004504691340789955,
      "loss": 0.0994,
      "mean_token_accuracy": 0.96739861369133,
      "num_tokens": 3814309.0,
      "step": 432
    },
    {
      "entropy": 2.330399215221405,
      "epoch": 1.5647058823529412,
      "grad_norm": 0.8432528376579285,
      "learning_rate": 0.0004501658000453973,
      "loss": 0.1999,
      "mean_token_accuracy": 0.9510775059461594,
      "num_tokens": 3823126.0,
      "step": 433
    },
    {
      "entropy": 2.4211326837539673,
      "epoch": 1.5683257918552036,
      "grad_norm": 0.8101194500923157,
      "learning_rate": 0.00044986182368843806,
      "loss": 0.144,
      "mean_token_accuracy": 0.9656328558921814,
      "num_tokens": 3831274.0,
      "step": 434
    },
    {
      "entropy": 2.2594956755638123,
      "epoch": 1.571945701357466,
      "grad_norm": 0.6753663420677185,
      "learning_rate": 0.0004495572061626585,
      "loss": 0.1433,
      "mean_token_accuracy": 0.9572386592626572,
      "num_tokens": 3840206.0,
      "step": 435
    },
    {
      "entropy": 2.1233682930469513,
      "epoch": 1.5755656108597285,
      "grad_norm": 0.48616713285446167,
      "learning_rate": 0.000449251948625035,
      "loss": 0.0934,
      "mean_token_accuracy": 0.9740773588418961,
      "num_tokens": 3849363.0,
      "step": 436
    },
    {
      "entropy": 2.325556695461273,
      "epoch": 1.5791855203619911,
      "grad_norm": 0.7744045853614807,
      "learning_rate": 0.00044894605223497446,
      "loss": 0.127,
      "mean_token_accuracy": 0.9687052518129349,
      "num_tokens": 3857733.0,
      "step": 437
    },
    {
      "entropy": 2.266542673110962,
      "epoch": 1.5828054298642535,
      "grad_norm": 2.373530387878418,
      "learning_rate": 0.00044863951815431045,
      "loss": 0.2404,
      "mean_token_accuracy": 0.9437267184257507,
      "num_tokens": 3866374.0,
      "step": 438
    },
    {
      "entropy": 2.1757248640060425,
      "epoch": 1.586425339366516,
      "grad_norm": 0.5588560700416565,
      "learning_rate": 0.00044833234754729847,
      "loss": 0.142,
      "mean_token_accuracy": 0.9601300358772278,
      "num_tokens": 3875520.0,
      "step": 439
    },
    {
      "entropy": 2.124377518892288,
      "epoch": 1.5900452488687784,
      "grad_norm": 0.5602438449859619,
      "learning_rate": 0.0004480245415806116,
      "loss": 0.1556,
      "mean_token_accuracy": 0.9561446160078049,
      "num_tokens": 3884345.0,
      "step": 440
    },
    {
      "entropy": 2.1571075320243835,
      "epoch": 1.5936651583710408,
      "grad_norm": 0.472598671913147,
      "learning_rate": 0.0004477161014233361,
      "loss": 0.0848,
      "mean_token_accuracy": 0.9742853343486786,
      "num_tokens": 3893129.0,
      "step": 441
    },
    {
      "entropy": 2.0434057414531708,
      "epoch": 1.5972850678733033,
      "grad_norm": 0.7104448676109314,
      "learning_rate": 0.00044740702824696703,
      "loss": 0.1524,
      "mean_token_accuracy": 0.9542464315891266,
      "num_tokens": 3902120.0,
      "step": 442
    },
    {
      "entropy": 2.1118403673171997,
      "epoch": 1.6009049773755657,
      "grad_norm": 0.6632394194602966,
      "learning_rate": 0.0004470973232254037,
      "loss": 0.3001,
      "mean_token_accuracy": 0.928197592496872,
      "num_tokens": 3910974.0,
      "step": 443
    },
    {
      "entropy": 2.0292475819587708,
      "epoch": 1.6045248868778281,
      "grad_norm": 1.050956130027771,
      "learning_rate": 0.00044678698753494527,
      "loss": 0.2226,
      "mean_token_accuracy": 0.9448522627353668,
      "num_tokens": 3920005.0,
      "step": 444
    },
    {
      "entropy": 1.991033524274826,
      "epoch": 1.6081447963800906,
      "grad_norm": 0.670244038105011,
      "learning_rate": 0.00044647602235428624,
      "loss": 0.2158,
      "mean_token_accuracy": 0.9551118016242981,
      "num_tokens": 3929334.0,
      "step": 445
    },
    {
      "entropy": 2.04949289560318,
      "epoch": 1.611764705882353,
      "grad_norm": 0.6321494579315186,
      "learning_rate": 0.00044616442886451197,
      "loss": 0.1743,
      "mean_token_accuracy": 0.9494802355766296,
      "num_tokens": 3938211.0,
      "step": 446
    },
    {
      "entropy": 2.1101951897144318,
      "epoch": 1.6153846153846154,
      "grad_norm": 0.6970012187957764,
      "learning_rate": 0.0004458522082490943,
      "loss": 0.1228,
      "mean_token_accuracy": 0.9624926447868347,
      "num_tokens": 3946534.0,
      "step": 447
    },
    {
      "entropy": 1.9337081909179688,
      "epoch": 1.6190045248868778,
      "grad_norm": 0.5971657633781433,
      "learning_rate": 0.0004455393616938868,
      "loss": 0.1431,
      "mean_token_accuracy": 0.9635348320007324,
      "num_tokens": 3955694.0,
      "step": 448
    },
    {
      "entropy": 1.9635128676891327,
      "epoch": 1.6226244343891403,
      "grad_norm": 0.8510827422142029,
      "learning_rate": 0.00044522589038712074,
      "loss": 0.2446,
      "mean_token_accuracy": 0.9457641988992691,
      "num_tokens": 3964907.0,
      "step": 449
    },
    {
      "entropy": 2.0336360335350037,
      "epoch": 1.6262443438914027,
      "grad_norm": 0.5803818106651306,
      "learning_rate": 0.00044491179551939985,
      "loss": 0.0872,
      "mean_token_accuracy": 0.9734505414962769,
      "num_tokens": 3973584.0,
      "step": 450
    },
    {
      "entropy": 2.0668878853321075,
      "epoch": 1.6298642533936651,
      "grad_norm": 0.6990496516227722,
      "learning_rate": 0.0004445970782836967,
      "loss": 0.1138,
      "mean_token_accuracy": 0.9702571034431458,
      "num_tokens": 3982632.0,
      "step": 451
    },
    {
      "entropy": 2.1481760144233704,
      "epoch": 1.6334841628959276,
      "grad_norm": 0.6156729459762573,
      "learning_rate": 0.00044428173987534733,
      "loss": 0.0936,
      "mean_token_accuracy": 0.9739355593919754,
      "num_tokens": 3991147.0,
      "step": 452
    },
    {
      "entropy": 2.0678701996803284,
      "epoch": 1.63710407239819,
      "grad_norm": 0.5441684126853943,
      "learning_rate": 0.0004439657814920472,
      "loss": 0.123,
      "mean_token_accuracy": 0.9693446308374405,
      "num_tokens": 3999990.0,
      "step": 453
    },
    {
      "entropy": 1.9867055118083954,
      "epoch": 1.6407239819004524,
      "grad_norm": 0.9218093156814575,
      "learning_rate": 0.00044364920433384656,
      "loss": 0.1997,
      "mean_token_accuracy": 0.9564195573329926,
      "num_tokens": 4009097.0,
      "step": 454
    },
    {
      "entropy": 2.145586997270584,
      "epoch": 1.6443438914027149,
      "grad_norm": 0.77643883228302,
      "learning_rate": 0.0004433320096031458,
      "loss": 0.1491,
      "mean_token_accuracy": 0.9602408111095428,
      "num_tokens": 4018059.0,
      "step": 455
    },
    {
      "entropy": 2.071108251810074,
      "epoch": 1.6479638009049773,
      "grad_norm": 0.5267088413238525,
      "learning_rate": 0.0004430141985046909,
      "loss": 0.0875,
      "mean_token_accuracy": 0.9764399826526642,
      "num_tokens": 4027089.0,
      "step": 456
    },
    {
      "entropy": 2.1659318804740906,
      "epoch": 1.6515837104072397,
      "grad_norm": 1.0642318725585938,
      "learning_rate": 0.000442695772245569,
      "loss": 0.2623,
      "mean_token_accuracy": 0.9307756721973419,
      "num_tokens": 4035719.0,
      "step": 457
    },
    {
      "entropy": 2.0232724249362946,
      "epoch": 1.6552036199095022,
      "grad_norm": 0.6213289499282837,
      "learning_rate": 0.0004423767320352035,
      "loss": 0.1597,
      "mean_token_accuracy": 0.9599647223949432,
      "num_tokens": 4045088.0,
      "step": 458
    },
    {
      "entropy": 2.047410547733307,
      "epoch": 1.6588235294117646,
      "grad_norm": 0.6346105933189392,
      "learning_rate": 0.0004420570790853498,
      "loss": 0.1422,
      "mean_token_accuracy": 0.9649711549282074,
      "num_tokens": 4054262.0,
      "step": 459
    },
    {
      "entropy": 2.0923012793064117,
      "epoch": 1.662443438914027,
      "grad_norm": 0.46477749943733215,
      "learning_rate": 0.0004417368146100907,
      "loss": 0.079,
      "mean_token_accuracy": 0.9777993708848953,
      "num_tokens": 4063107.0,
      "step": 460
    },
    {
      "entropy": 2.168913394212723,
      "epoch": 1.6660633484162894,
      "grad_norm": 0.5164734721183777,
      "learning_rate": 0.0004414159398258312,
      "loss": 0.0941,
      "mean_token_accuracy": 0.9725133627653122,
      "num_tokens": 4071656.0,
      "step": 461
    },
    {
      "entropy": 2.152670443058014,
      "epoch": 1.6696832579185519,
      "grad_norm": 0.8985757231712341,
      "learning_rate": 0.00044109445595129495,
      "loss": 0.2142,
      "mean_token_accuracy": 0.9387252777814865,
      "num_tokens": 4080023.0,
      "step": 462
    },
    {
      "entropy": 2.111784875392914,
      "epoch": 1.6733031674208145,
      "grad_norm": 0.47521084547042847,
      "learning_rate": 0.0004407723642075184,
      "loss": 0.0581,
      "mean_token_accuracy": 0.9821985810995102,
      "num_tokens": 4088469.0,
      "step": 463
    },
    {
      "entropy": 1.9784683287143707,
      "epoch": 1.676923076923077,
      "grad_norm": 0.5552536249160767,
      "learning_rate": 0.0004404496658178472,
      "loss": 0.1353,
      "mean_token_accuracy": 0.9619844257831573,
      "num_tokens": 4097737.0,
      "step": 464
    },
    {
      "entropy": 2.015674114227295,
      "epoch": 1.6805429864253394,
      "grad_norm": 0.6078305244445801,
      "learning_rate": 0.0004401263620079309,
      "loss": 0.1916,
      "mean_token_accuracy": 0.9506707191467285,
      "num_tokens": 4107156.0,
      "step": 465
    },
    {
      "entropy": 2.0832217931747437,
      "epoch": 1.6841628959276018,
      "grad_norm": 0.6618755459785461,
      "learning_rate": 0.0004398024540057186,
      "loss": 0.1671,
      "mean_token_accuracy": 0.9617152661085129,
      "num_tokens": 4116019.0,
      "step": 466
    },
    {
      "entropy": 2.0383114516735077,
      "epoch": 1.6877828054298643,
      "grad_norm": 0.5774693489074707,
      "learning_rate": 0.0004394779430414541,
      "loss": 0.2647,
      "mean_token_accuracy": 0.9387127161026001,
      "num_tokens": 4125001.0,
      "step": 467
    },
    {
      "entropy": 2.201409190893173,
      "epoch": 1.6914027149321267,
      "grad_norm": 0.7600311636924744,
      "learning_rate": 0.0004391528303476715,
      "loss": 0.073,
      "mean_token_accuracy": 0.979825034737587,
      "num_tokens": 4133467.0,
      "step": 468
    },
    {
      "entropy": 2.168666422367096,
      "epoch": 1.6950226244343891,
      "grad_norm": 0.7801902294158936,
      "learning_rate": 0.00043882711715919015,
      "loss": 0.2406,
      "mean_token_accuracy": 0.9451306313276291,
      "num_tokens": 4141765.0,
      "step": 469
    },
    {
      "entropy": 2.1429262161254883,
      "epoch": 1.6986425339366515,
      "grad_norm": 0.5192358493804932,
      "learning_rate": 0.0004385008047131104,
      "loss": 0.1052,
      "mean_token_accuracy": 0.9749262481927872,
      "num_tokens": 4150732.0,
      "step": 470
    },
    {
      "entropy": 2.1387495696544647,
      "epoch": 1.702262443438914,
      "grad_norm": 0.6219777464866638,
      "learning_rate": 0.0004381738942488083,
      "loss": 0.2127,
      "mean_token_accuracy": 0.9398418068885803,
      "num_tokens": 4159715.0,
      "step": 471
    },
    {
      "entropy": 2.1718398332595825,
      "epoch": 1.7058823529411766,
      "grad_norm": 0.5738123655319214,
      "learning_rate": 0.0004378463870079316,
      "loss": 0.1703,
      "mean_token_accuracy": 0.9520847648382187,
      "num_tokens": 4168526.0,
      "step": 472
    },
    {
      "entropy": 2.2768235206604004,
      "epoch": 1.709502262443439,
      "grad_norm": 0.662564754486084,
      "learning_rate": 0.00043751828423439456,
      "loss": 0.138,
      "mean_token_accuracy": 0.9581841826438904,
      "num_tokens": 4177189.0,
      "step": 473
    },
    {
      "entropy": 2.29143089056015,
      "epoch": 1.7131221719457015,
      "grad_norm": 0.8638074398040771,
      "learning_rate": 0.00043718958717437324,
      "loss": 0.1432,
      "mean_token_accuracy": 0.9645630270242691,
      "num_tokens": 4185367.0,
      "step": 474
    },
    {
      "entropy": 2.2810245156288147,
      "epoch": 1.716742081447964,
      "grad_norm": 0.6139346957206726,
      "learning_rate": 0.00043686029707630097,
      "loss": 0.173,
      "mean_token_accuracy": 0.9592728316783905,
      "num_tokens": 4194418.0,
      "step": 475
    },
    {
      "entropy": 2.1307725310325623,
      "epoch": 1.7203619909502263,
      "grad_norm": 0.5192779302597046,
      "learning_rate": 0.00043653041519086354,
      "loss": 0.1025,
      "mean_token_accuracy": 0.970764696598053,
      "num_tokens": 4203705.0,
      "step": 476
    },
    {
      "entropy": 2.160595118999481,
      "epoch": 1.7239819004524888,
      "grad_norm": 0.7398526668548584,
      "learning_rate": 0.0004361999427709943,
      "loss": 0.229,
      "mean_token_accuracy": 0.9352773874998093,
      "num_tokens": 4212648.0,
      "step": 477
    },
    {
      "entropy": 2.1865442991256714,
      "epoch": 1.7276018099547512,
      "grad_norm": 0.6227203011512756,
      "learning_rate": 0.0004358688810718699,
      "loss": 0.1118,
      "mean_token_accuracy": 0.9689576476812363,
      "num_tokens": 4221208.0,
      "step": 478
    },
    {
      "entropy": 2.086527943611145,
      "epoch": 1.7312217194570136,
      "grad_norm": 0.722144603729248,
      "learning_rate": 0.00043553723135090447,
      "loss": 0.1656,
      "mean_token_accuracy": 0.9537550210952759,
      "num_tokens": 4230810.0,
      "step": 479
    },
    {
      "entropy": 2.068355441093445,
      "epoch": 1.734841628959276,
      "grad_norm": 0.5781517028808594,
      "learning_rate": 0.0004352049948677462,
      "loss": 0.1497,
      "mean_token_accuracy": 0.9600837379693985,
      "num_tokens": 4240394.0,
      "step": 480
    },
    {
      "entropy": 2.185140371322632,
      "epoch": 1.7384615384615385,
      "grad_norm": 0.7261873483657837,
      "learning_rate": 0.0004348721728842715,
      "loss": 0.1582,
      "mean_token_accuracy": 0.9584025889635086,
      "num_tokens": 4249205.0,
      "step": 481
    },
    {
      "entropy": 2.21835720539093,
      "epoch": 1.742081447963801,
      "grad_norm": 0.5321667194366455,
      "learning_rate": 0.0004345387666645807,
      "loss": 0.1344,
      "mean_token_accuracy": 0.9659005403518677,
      "num_tokens": 4257808.0,
      "step": 482
    },
    {
      "entropy": 2.078131854534149,
      "epoch": 1.7457013574660634,
      "grad_norm": 0.5598498582839966,
      "learning_rate": 0.00043420477747499307,
      "loss": 0.1347,
      "mean_token_accuracy": 0.9678008407354355,
      "num_tokens": 4266728.0,
      "step": 483
    },
    {
      "entropy": 2.060504525899887,
      "epoch": 1.7493212669683258,
      "grad_norm": 0.5017166137695312,
      "learning_rate": 0.0004338702065840422,
      "loss": 0.0722,
      "mean_token_accuracy": 0.9762782007455826,
      "num_tokens": 4275514.0,
      "step": 484
    },
    {
      "entropy": 2.165244698524475,
      "epoch": 1.7529411764705882,
      "grad_norm": 0.4664002060890198,
      "learning_rate": 0.00043353505526247084,
      "loss": 0.1206,
      "mean_token_accuracy": 0.9696767777204514,
      "num_tokens": 4284013.0,
      "step": 485
    },
    {
      "entropy": 2.103049159049988,
      "epoch": 1.7565610859728507,
      "grad_norm": 0.6669000387191772,
      "learning_rate": 0.0004331993247832265,
      "loss": 0.1052,
      "mean_token_accuracy": 0.9665459096431732,
      "num_tokens": 4293011.0,
      "step": 486
    },
    {
      "entropy": 2.1286613941192627,
      "epoch": 1.760180995475113,
      "grad_norm": 0.7821269631385803,
      "learning_rate": 0.00043286301642145634,
      "loss": 0.3669,
      "mean_token_accuracy": 0.9062697291374207,
      "num_tokens": 4301965.0,
      "step": 487
    },
    {
      "entropy": 2.098009169101715,
      "epoch": 1.7638009049773755,
      "grad_norm": 0.5720731616020203,
      "learning_rate": 0.0004325261314545024,
      "loss": 0.1324,
      "mean_token_accuracy": 0.9650943875312805,
      "num_tokens": 4310914.0,
      "step": 488
    },
    {
      "entropy": 2.164614498615265,
      "epoch": 1.767420814479638,
      "grad_norm": 1.0500473976135254,
      "learning_rate": 0.0004321886711618967,
      "loss": 0.1182,
      "mean_token_accuracy": 0.9720661342144012,
      "num_tokens": 4319072.0,
      "step": 489
    },
    {
      "entropy": 2.2015402913093567,
      "epoch": 1.7710407239819004,
      "grad_norm": 0.5770253539085388,
      "learning_rate": 0.00043185063682535634,
      "loss": 0.1226,
      "mean_token_accuracy": 0.9615659862756729,
      "num_tokens": 4327539.0,
      "step": 490
    },
    {
      "entropy": 2.075456440448761,
      "epoch": 1.7746606334841628,
      "grad_norm": 0.6456925272941589,
      "learning_rate": 0.0004315120297287789,
      "loss": 0.1123,
      "mean_token_accuracy": 0.9628709554672241,
      "num_tokens": 4336523.0,
      "step": 491
    },
    {
      "entropy": 2.158169150352478,
      "epoch": 1.7782805429864252,
      "grad_norm": 0.8282069563865662,
      "learning_rate": 0.00043117285115823733,
      "loss": 0.2146,
      "mean_token_accuracy": 0.9413971602916718,
      "num_tokens": 4345294.0,
      "step": 492
    },
    {
      "entropy": 2.02735897898674,
      "epoch": 1.7819004524886877,
      "grad_norm": 0.783597469329834,
      "learning_rate": 0.000430833102401975,
      "loss": 0.1376,
      "mean_token_accuracy": 0.964630737900734,
      "num_tokens": 4354107.0,
      "step": 493
    },
    {
      "entropy": 2.138492166996002,
      "epoch": 1.78552036199095,
      "grad_norm": 0.6317175030708313,
      "learning_rate": 0.000430492784750401,
      "loss": 0.1005,
      "mean_token_accuracy": 0.9734214246273041,
      "num_tokens": 4362560.0,
      "step": 494
    },
    {
      "entropy": 2.0253217220306396,
      "epoch": 1.7891402714932125,
      "grad_norm": 0.5523395538330078,
      "learning_rate": 0.000430151899496085,
      "loss": 0.1633,
      "mean_token_accuracy": 0.9558031558990479,
      "num_tokens": 4371698.0,
      "step": 495
    },
    {
      "entropy": 2.160472810268402,
      "epoch": 1.792760180995475,
      "grad_norm": 0.6557935476303101,
      "learning_rate": 0.00042981044793375295,
      "loss": 0.1154,
      "mean_token_accuracy": 0.9722230583429337,
      "num_tokens": 4380612.0,
      "step": 496
    },
    {
      "entropy": 2.0284159183502197,
      "epoch": 1.7963800904977374,
      "grad_norm": 0.7357863187789917,
      "learning_rate": 0.00042946843136028117,
      "loss": 0.1166,
      "mean_token_accuracy": 0.9629471153020859,
      "num_tokens": 4389521.0,
      "step": 497
    },
    {
      "entropy": 2.1544791162014008,
      "epoch": 1.8,
      "grad_norm": 0.5604898929595947,
      "learning_rate": 0.00042912585107469226,
      "loss": 0.0834,
      "mean_token_accuracy": 0.9783036410808563,
      "num_tokens": 4398059.0,
      "step": 498
    },
    {
      "entropy": 2.1051094830036163,
      "epoch": 1.8036199095022625,
      "grad_norm": 0.4598539173603058,
      "learning_rate": 0.0004287827083781497,
      "loss": 0.0411,
      "mean_token_accuracy": 0.9868490546941757,
      "num_tokens": 4406453.0,
      "step": 499
    },
    {
      "entropy": 2.0219272077083588,
      "epoch": 1.807239819004525,
      "grad_norm": 0.8164628744125366,
      "learning_rate": 0.00042843900457395343,
      "loss": 0.1988,
      "mean_token_accuracy": 0.9502352625131607,
      "num_tokens": 4415440.0,
      "step": 500
    },
    {
      "entropy": 1.980013906955719,
      "epoch": 1.8108597285067873,
      "grad_norm": 0.572798490524292,
      "learning_rate": 0.0004280947409675341,
      "loss": 0.1148,
      "mean_token_accuracy": 0.966580331325531,
      "num_tokens": 4424532.0,
      "step": 501
    },
    {
      "entropy": 2.0646563172340393,
      "epoch": 1.8144796380090498,
      "grad_norm": 0.769386351108551,
      "learning_rate": 0.00042774991886644875,
      "loss": 0.1592,
      "mean_token_accuracy": 0.9553463608026505,
      "num_tokens": 4432913.0,
      "step": 502
    },
    {
      "entropy": 2.040877491235733,
      "epoch": 1.8180995475113122,
      "grad_norm": 0.7467371821403503,
      "learning_rate": 0.0004274045395803758,
      "loss": 0.2247,
      "mean_token_accuracy": 0.9526964277029037,
      "num_tokens": 4441425.0,
      "step": 503
    },
    {
      "entropy": 1.9934698939323425,
      "epoch": 1.8217194570135746,
      "grad_norm": 0.6602952480316162,
      "learning_rate": 0.00042705860442110964,
      "loss": 0.1681,
      "mean_token_accuracy": 0.9594631940126419,
      "num_tokens": 4450383.0,
      "step": 504
    },
    {
      "entropy": 2.0858289897441864,
      "epoch": 1.825339366515837,
      "grad_norm": 0.684380829334259,
      "learning_rate": 0.0004267121147025562,
      "loss": 0.1154,
      "mean_token_accuracy": 0.9638111293315887,
      "num_tokens": 4458862.0,
      "step": 505
    },
    {
      "entropy": 2.0886995792388916,
      "epoch": 1.8289592760180997,
      "grad_norm": 0.5784837007522583,
      "learning_rate": 0.00042636507174072756,
      "loss": 0.1026,
      "mean_token_accuracy": 0.9676834791898727,
      "num_tokens": 4467386.0,
      "step": 506
    },
    {
      "entropy": 2.0236063301563263,
      "epoch": 1.8325791855203621,
      "grad_norm": 0.5101180672645569,
      "learning_rate": 0.00042601747685373716,
      "loss": 0.1031,
      "mean_token_accuracy": 0.9734093993902206,
      "num_tokens": 4476054.0,
      "step": 507
    },
    {
      "entropy": 1.9801031053066254,
      "epoch": 1.8361990950226246,
      "grad_norm": 0.6581607460975647,
      "learning_rate": 0.00042566933136179455,
      "loss": 0.1548,
      "mean_token_accuracy": 0.9581006914377213,
      "num_tokens": 4484895.0,
      "step": 508
    },
    {
      "entropy": 2.0244787633419037,
      "epoch": 1.839819004524887,
      "grad_norm": 0.8100608587265015,
      "learning_rate": 0.0004253206365872008,
      "loss": 0.196,
      "mean_token_accuracy": 0.9532899260520935,
      "num_tokens": 4493737.0,
      "step": 509
    },
    {
      "entropy": 1.9108119010925293,
      "epoch": 1.8434389140271494,
      "grad_norm": 0.4903942048549652,
      "learning_rate": 0.00042497139385434314,
      "loss": 0.1313,
      "mean_token_accuracy": 0.9667337089776993,
      "num_tokens": 4502840.0,
      "step": 510
    },
    {
      "entropy": 2.009468197822571,
      "epoch": 1.8470588235294119,
      "grad_norm": 0.6010113954544067,
      "learning_rate": 0.0004246216044896897,
      "loss": 0.1013,
      "mean_token_accuracy": 0.9692314714193344,
      "num_tokens": 4511407.0,
      "step": 511
    },
    {
      "entropy": 2.0337170362472534,
      "epoch": 1.8506787330316743,
      "grad_norm": 0.7906802892684937,
      "learning_rate": 0.00042427126982178546,
      "loss": 0.1682,
      "mean_token_accuracy": 0.9550099819898605,
      "num_tokens": 4520018.0,
      "step": 512
    },
    {
      "entropy": 1.8813888728618622,
      "epoch": 1.8542986425339367,
      "grad_norm": 0.5353080034255981,
      "learning_rate": 0.00042392039118124586,
      "loss": 0.1228,
      "mean_token_accuracy": 0.9624074995517731,
      "num_tokens": 4529270.0,
      "step": 513
    },
    {
      "entropy": 2.012698233127594,
      "epoch": 1.8579185520361992,
      "grad_norm": 0.6713843941688538,
      "learning_rate": 0.00042356896990075285,
      "loss": 0.2225,
      "mean_token_accuracy": 0.9417333751916885,
      "num_tokens": 4538008.0,
      "step": 514
    },
    {
      "entropy": 1.880586564540863,
      "epoch": 1.8615384615384616,
      "grad_norm": 0.5821724534034729,
      "learning_rate": 0.00042321700731504916,
      "loss": 0.1144,
      "mean_token_accuracy": 0.9677341282367706,
      "num_tokens": 4546950.0,
      "step": 515
    },
    {
      "entropy": 2.0066279470920563,
      "epoch": 1.865158371040724,
      "grad_norm": 0.4095056354999542,
      "learning_rate": 0.0004228645047609335,
      "loss": 0.0424,
      "mean_token_accuracy": 0.9854962974786758,
      "num_tokens": 4555452.0,
      "step": 516
    },
    {
      "entropy": 2.042815536260605,
      "epoch": 1.8687782805429864,
      "grad_norm": 0.5398769974708557,
      "learning_rate": 0.0004225114635772555,
      "loss": 0.1343,
      "mean_token_accuracy": 0.9615450948476791,
      "num_tokens": 4564386.0,
      "step": 517
    },
    {
      "entropy": 2.0948933362960815,
      "epoch": 1.8723981900452489,
      "grad_norm": 0.6738974452018738,
      "learning_rate": 0.0004221578851049107,
      "loss": 0.1541,
      "mean_token_accuracy": 0.9526563137769699,
      "num_tokens": 4573041.0,
      "step": 518
    },
    {
      "entropy": 2.102545380592346,
      "epoch": 1.8760180995475113,
      "grad_norm": 0.7769943475723267,
      "learning_rate": 0.00042180377068683504,
      "loss": 0.2362,
      "mean_token_accuracy": 0.9472651779651642,
      "num_tokens": 4581666.0,
      "step": 519
    },
    {
      "entropy": 2.087820291519165,
      "epoch": 1.8796380090497737,
      "grad_norm": 0.5722424983978271,
      "learning_rate": 0.0004214491216680004,
      "loss": 0.1657,
      "mean_token_accuracy": 0.9537082612514496,
      "num_tokens": 4590238.0,
      "step": 520
    },
    {
      "entropy": 2.0093430876731873,
      "epoch": 1.8832579185520362,
      "grad_norm": 0.5844932198524475,
      "learning_rate": 0.00042109393939540867,
      "loss": 0.1485,
      "mean_token_accuracy": 0.9624215811491013,
      "num_tokens": 4599352.0,
      "step": 521
    },
    {
      "entropy": 1.9117147326469421,
      "epoch": 1.8868778280542986,
      "grad_norm": 0.46085676550865173,
      "learning_rate": 0.0004207382252180876,
      "loss": 0.0853,
      "mean_token_accuracy": 0.9769327491521835,
      "num_tokens": 4608571.0,
      "step": 522
    },
    {
      "entropy": 2.0205602943897247,
      "epoch": 1.890497737556561,
      "grad_norm": 0.5571608543395996,
      "learning_rate": 0.000420381980487085,
      "loss": 0.1517,
      "mean_token_accuracy": 0.9646699875593185,
      "num_tokens": 4617445.0,
      "step": 523
    },
    {
      "entropy": 1.9571953415870667,
      "epoch": 1.8941176470588235,
      "grad_norm": 0.470630943775177,
      "learning_rate": 0.0004200252065554636,
      "loss": 0.1005,
      "mean_token_accuracy": 0.9750025719404221,
      "num_tokens": 4626756.0,
      "step": 524
    },
    {
      "entropy": 2.063209116458893,
      "epoch": 1.897737556561086,
      "grad_norm": 0.6447069644927979,
      "learning_rate": 0.00041966790477829637,
      "loss": 0.113,
      "mean_token_accuracy": 0.9695079624652863,
      "num_tokens": 4635378.0,
      "step": 525
    },
    {
      "entropy": 1.9232109785079956,
      "epoch": 1.9013574660633483,
      "grad_norm": 0.5114295482635498,
      "learning_rate": 0.000419310076512661,
      "loss": 0.1492,
      "mean_token_accuracy": 0.9653338938951492,
      "num_tokens": 4644769.0,
      "step": 526
    },
    {
      "entropy": 2.1691197752952576,
      "epoch": 1.9049773755656108,
      "grad_norm": 0.7630137205123901,
      "learning_rate": 0.00041895172311763476,
      "loss": 0.212,
      "mean_token_accuracy": 0.9533941894769669,
      "num_tokens": 4652857.0,
      "step": 527
    },
    {
      "entropy": 2.04753240942955,
      "epoch": 1.9085972850678732,
      "grad_norm": 0.6423042416572571,
      "learning_rate": 0.00041859284595428955,
      "loss": 0.1455,
      "mean_token_accuracy": 0.956505224108696,
      "num_tokens": 4661591.0,
      "step": 528
    },
    {
      "entropy": 1.9440338611602783,
      "epoch": 1.9122171945701356,
      "grad_norm": 0.5011327266693115,
      "learning_rate": 0.00041823344638568656,
      "loss": 0.1255,
      "mean_token_accuracy": 0.965131089091301,
      "num_tokens": 4670594.0,
      "step": 529
    },
    {
      "entropy": 2.0554805397987366,
      "epoch": 1.915837104072398,
      "grad_norm": 0.5821590423583984,
      "learning_rate": 0.0004178735257768713,
      "loss": 0.0486,
      "mean_token_accuracy": 0.9875282496213913,
      "num_tokens": 4679344.0,
      "step": 530
    },
    {
      "entropy": 2.130349576473236,
      "epoch": 1.9194570135746605,
      "grad_norm": 0.5332052111625671,
      "learning_rate": 0.0004175130854948679,
      "loss": 0.0915,
      "mean_token_accuracy": 0.9737034440040588,
      "num_tokens": 4687922.0,
      "step": 531
    },
    {
      "entropy": 2.146788775920868,
      "epoch": 1.9230769230769231,
      "grad_norm": 0.5016877055168152,
      "learning_rate": 0.00041715212690867455,
      "loss": 0.1281,
      "mean_token_accuracy": 0.9681432545185089,
      "num_tokens": 4696593.0,
      "step": 532
    },
    {
      "entropy": 2.041268438100815,
      "epoch": 1.9266968325791856,
      "grad_norm": 0.5257729887962341,
      "learning_rate": 0.00041679065138925807,
      "loss": 0.1272,
      "mean_token_accuracy": 0.9649266451597214,
      "num_tokens": 4705792.0,
      "step": 533
    },
    {
      "entropy": 2.114819645881653,
      "epoch": 1.930316742081448,
      "grad_norm": 0.7085135579109192,
      "learning_rate": 0.0004164286603095484,
      "loss": 0.1545,
      "mean_token_accuracy": 0.9581228941679001,
      "num_tokens": 4714599.0,
      "step": 534
    },
    {
      "entropy": 2.022280514240265,
      "epoch": 1.9339366515837104,
      "grad_norm": 0.5309014320373535,
      "learning_rate": 0.00041606615504443387,
      "loss": 0.1933,
      "mean_token_accuracy": 0.9562340676784515,
      "num_tokens": 4724062.0,
      "step": 535
    },
    {
      "entropy": 2.0959260165691376,
      "epoch": 1.9375565610859729,
      "grad_norm": 0.6528061628341675,
      "learning_rate": 0.0004157031369707557,
      "loss": 0.1306,
      "mean_token_accuracy": 0.9612343460321426,
      "num_tokens": 4733077.0,
      "step": 536
    },
    {
      "entropy": 2.2772948145866394,
      "epoch": 1.9411764705882353,
      "grad_norm": 0.7351471185684204,
      "learning_rate": 0.0004153396074673028,
      "loss": 0.1494,
      "mean_token_accuracy": 0.9608108699321747,
      "num_tokens": 4741201.0,
      "step": 537
    },
    {
      "entropy": 2.0935052037239075,
      "epoch": 1.9447963800904977,
      "grad_norm": 0.5435840487480164,
      "learning_rate": 0.0004149755679148065,
      "loss": 0.0884,
      "mean_token_accuracy": 0.9745689779520035,
      "num_tokens": 4750306.0,
      "step": 538
    },
    {
      "entropy": 2.2082818746566772,
      "epoch": 1.9484162895927601,
      "grad_norm": 0.3780331611633301,
      "learning_rate": 0.00041461101969593537,
      "loss": 0.0739,
      "mean_token_accuracy": 0.9777179658412933,
      "num_tokens": 4758954.0,
      "step": 539
    },
    {
      "entropy": 2.1683040261268616,
      "epoch": 1.9520361990950226,
      "grad_norm": 0.4637961685657501,
      "learning_rate": 0.00041424596419529017,
      "loss": 0.0632,
      "mean_token_accuracy": 0.9834533184766769,
      "num_tokens": 4767615.0,
      "step": 540
    },
    {
      "entropy": 2.075555235147476,
      "epoch": 1.9556561085972852,
      "grad_norm": 0.7603118419647217,
      "learning_rate": 0.00041388040279939804,
      "loss": 0.2835,
      "mean_token_accuracy": 0.9364205300807953,
      "num_tokens": 4776714.0,
      "step": 541
    },
    {
      "entropy": 2.18926739692688,
      "epoch": 1.9592760180995477,
      "grad_norm": 0.8895708918571472,
      "learning_rate": 0.0004135143368967079,
      "loss": 0.2514,
      "mean_token_accuracy": 0.9361050724983215,
      "num_tokens": 4785402.0,
      "step": 542
    },
    {
      "entropy": 2.2387169003486633,
      "epoch": 1.96289592760181,
      "grad_norm": 0.6013544797897339,
      "learning_rate": 0.00041314776787758454,
      "loss": 0.1502,
      "mean_token_accuracy": 0.9594238847494125,
      "num_tokens": 4793928.0,
      "step": 543
    },
    {
      "entropy": 2.208383619785309,
      "epoch": 1.9665158371040725,
      "grad_norm": 0.6934756636619568,
      "learning_rate": 0.00041278069713430386,
      "loss": 0.1777,
      "mean_token_accuracy": 0.9619583487510681,
      "num_tokens": 4802612.0,
      "step": 544
    },
    {
      "entropy": 2.2621757984161377,
      "epoch": 1.970135746606335,
      "grad_norm": 0.6920077800750732,
      "learning_rate": 0.00041241312606104743,
      "loss": 0.1689,
      "mean_token_accuracy": 0.9594835937023163,
      "num_tokens": 4811332.0,
      "step": 545
    },
    {
      "entropy": 2.2654454112052917,
      "epoch": 1.9737556561085974,
      "grad_norm": 0.6259592771530151,
      "learning_rate": 0.000412045056053897,
      "loss": 0.142,
      "mean_token_accuracy": 0.9648078680038452,
      "num_tokens": 4820441.0,
      "step": 546
    },
    {
      "entropy": 2.218056857585907,
      "epoch": 1.9773755656108598,
      "grad_norm": 0.5390617847442627,
      "learning_rate": 0.0004116764885108292,
      "loss": 0.1737,
      "mean_token_accuracy": 0.9595656991004944,
      "num_tokens": 4829437.0,
      "step": 547
    },
    {
      "entropy": 2.2571592330932617,
      "epoch": 1.9809954751131222,
      "grad_norm": 0.3656528890132904,
      "learning_rate": 0.0004113074248317108,
      "loss": 0.0545,
      "mean_token_accuracy": 0.9825418293476105,
      "num_tokens": 4838118.0,
      "step": 548
    },
    {
      "entropy": 2.1890549659729004,
      "epoch": 1.9846153846153847,
      "grad_norm": 0.5716155767440796,
      "learning_rate": 0.00041093786641829247,
      "loss": 0.0997,
      "mean_token_accuracy": 0.9715700745582581,
      "num_tokens": 4847073.0,
      "step": 549
    },
    {
      "entropy": 2.2726192474365234,
      "epoch": 1.988235294117647,
      "grad_norm": 0.4709530770778656,
      "learning_rate": 0.0004105678146742042,
      "loss": 0.0746,
      "mean_token_accuracy": 0.9799739569425583,
      "num_tokens": 4855755.0,
      "step": 550
    },
    {
      "entropy": 2.2328362464904785,
      "epoch": 1.9918552036199095,
      "grad_norm": 0.6773779392242432,
      "learning_rate": 0.0004101972710049498,
      "loss": 0.1418,
      "mean_token_accuracy": 0.9629421681165695,
      "num_tokens": 4864601.0,
      "step": 551
    },
    {
      "entropy": 2.199812740087509,
      "epoch": 1.995475113122172,
      "grad_norm": 0.717012882232666,
      "learning_rate": 0.00040982623681790113,
      "loss": 0.2948,
      "mean_token_accuracy": 0.9432803690433502,
      "num_tokens": 4873630.0,
      "step": 552
    },
    {
      "entropy": 2.2102787494659424,
      "epoch": 1.9990950226244344,
      "grad_norm": 0.6925314664840698,
      "learning_rate": 0.00040945471352229346,
      "loss": 0.2579,
      "mean_token_accuracy": 0.9435124397277832,
      "num_tokens": 4882714.0,
      "step": 553
    },
    {
      "entropy": 2.3318979740142822,
      "epoch": 2.0,
      "grad_norm": 2.688188314437866,
      "learning_rate": 0.0004090827025292197,
      "loss": 0.0283,
      "mean_token_accuracy": 0.9918032884597778,
      "num_tokens": 4883450.0,
      "step": 554
    },
    {
      "epoch": 2.0,
      "eval_entropy": 2.2165925522160723,
      "eval_loss": 0.16817161440849304,
      "eval_mean_token_accuracy": 0.9567220133494555,
      "eval_num_tokens": 4883450.0,
      "eval_runtime": 116.1556,
      "eval_samples_per_second": 3.177,
      "eval_steps_per_second": 1.059,
      "step": 554
    }
  ],
  "logging_steps": 1,
  "max_steps": 1662,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 6,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 6.634384518674615e+17,
  "train_batch_size": 3,
  "trial_name": null,
  "trial_params": null
}