{
  "best_global_step": 600,
  "best_metric": 0.473636656999588,
  "best_model_checkpoint": "./liquidaps-clean-large/checkpoint-600",
  "epoch": 1.367475035663338,
  "eval_steps": 100,
  "global_step": 600,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "entropy": 1.3900936841964722,
      "epoch": 0.002282453637660485,
      "grad_norm": 13.0,
      "learning_rate": 0.0,
      "loss": 0.8776,
      "mean_token_accuracy": 0.7829889133572578,
      "num_tokens": 5919.0,
      "step": 1
    },
    {
      "entropy": 1.4252997040748596,
      "epoch": 0.00456490727532097,
      "grad_norm": 12.875,
      "learning_rate": 1.1363636363636364e-07,
      "loss": 0.6708,
      "mean_token_accuracy": 0.8342809975147247,
      "num_tokens": 11950.0,
      "step": 2
    },
    {
      "entropy": 1.398602306842804,
      "epoch": 0.0068473609129814554,
      "grad_norm": 13.375,
      "learning_rate": 2.2727272727272729e-07,
      "loss": 0.817,
      "mean_token_accuracy": 0.7826605513691902,
      "num_tokens": 17559.0,
      "step": 3
    },
    {
      "entropy": 1.3683724850416183,
      "epoch": 0.00912981455064194,
      "grad_norm": 13.875,
      "learning_rate": 3.409090909090909e-07,
      "loss": 0.8089,
      "mean_token_accuracy": 0.8110606968402863,
      "num_tokens": 23355.0,
      "step": 4
    },
    {
      "entropy": 1.6440566033124924,
      "epoch": 0.011412268188302425,
      "grad_norm": 16.5,
      "learning_rate": 4.5454545454545457e-07,
      "loss": 1.0826,
      "mean_token_accuracy": 0.7466800287365913,
      "num_tokens": 28342.0,
      "step": 5
    },
    {
      "entropy": 1.2425581067800522,
      "epoch": 0.013694721825962911,
      "grad_norm": 14.0625,
      "learning_rate": 5.681818181818182e-07,
      "loss": 0.8384,
      "mean_token_accuracy": 0.8118839636445045,
      "num_tokens": 33937.0,
      "step": 6
    },
    {
      "entropy": 1.494078889489174,
      "epoch": 0.015977175463623396,
      "grad_norm": 14.9375,
      "learning_rate": 6.818181818181818e-07,
      "loss": 0.8747,
      "mean_token_accuracy": 0.800664909183979,
      "num_tokens": 39724.0,
      "step": 7
    },
    {
      "entropy": 1.3064402341842651,
      "epoch": 0.01825962910128388,
      "grad_norm": 12.0,
      "learning_rate": 7.954545454545455e-07,
      "loss": 0.8043,
      "mean_token_accuracy": 0.8063121438026428,
      "num_tokens": 46054.0,
      "step": 8
    },
    {
      "entropy": 1.507575884461403,
      "epoch": 0.020542082738944364,
      "grad_norm": 17.25,
      "learning_rate": 9.090909090909091e-07,
      "loss": 1.0366,
      "mean_token_accuracy": 0.7458265796303749,
      "num_tokens": 50806.0,
      "step": 9
    },
    {
      "entropy": 1.3228261321783066,
      "epoch": 0.02282453637660485,
      "grad_norm": 13.0,
      "learning_rate": 1.0227272727272729e-06,
      "loss": 0.6629,
      "mean_token_accuracy": 0.8548868969082832,
      "num_tokens": 56696.0,
      "step": 10
    },
    {
      "entropy": 1.3493094593286514,
      "epoch": 0.025106990014265335,
      "grad_norm": 10.9375,
      "learning_rate": 1.1363636363636364e-06,
      "loss": 0.7411,
      "mean_token_accuracy": 0.8017316684126854,
      "num_tokens": 63680.0,
      "step": 11
    },
    {
      "entropy": 1.3807552456855774,
      "epoch": 0.027389443651925822,
      "grad_norm": 12.9375,
      "learning_rate": 1.25e-06,
      "loss": 0.8135,
      "mean_token_accuracy": 0.7994487285614014,
      "num_tokens": 69861.0,
      "step": 12
    },
    {
      "entropy": 1.4055243730545044,
      "epoch": 0.029671897289586305,
      "grad_norm": 11.9375,
      "learning_rate": 1.3636363636363636e-06,
      "loss": 0.9012,
      "mean_token_accuracy": 0.7958070710301399,
      "num_tokens": 75989.0,
      "step": 13
    },
    {
      "entropy": 1.431694433093071,
      "epoch": 0.03195435092724679,
      "grad_norm": 13.75,
      "learning_rate": 1.4772727272727275e-06,
      "loss": 0.9413,
      "mean_token_accuracy": 0.7656892687082291,
      "num_tokens": 81844.0,
      "step": 14
    },
    {
      "entropy": 1.5010923892259598,
      "epoch": 0.034236804564907276,
      "grad_norm": 15.3125,
      "learning_rate": 1.590909090909091e-06,
      "loss": 1.0155,
      "mean_token_accuracy": 0.7734663560986519,
      "num_tokens": 86897.0,
      "step": 15
    },
    {
      "entropy": 1.4839733690023422,
      "epoch": 0.03651925820256776,
      "grad_norm": 12.9375,
      "learning_rate": 1.7045454545454546e-06,
      "loss": 0.8776,
      "mean_token_accuracy": 0.7831285521388054,
      "num_tokens": 92714.0,
      "step": 16
    },
    {
      "entropy": 1.3343003541231155,
      "epoch": 0.038801711840228244,
      "grad_norm": 9.375,
      "learning_rate": 1.8181818181818183e-06,
      "loss": 0.7208,
      "mean_token_accuracy": 0.8181507587432861,
      "num_tokens": 100046.0,
      "step": 17
    },
    {
      "entropy": 1.488086387515068,
      "epoch": 0.04108416547788873,
      "grad_norm": 12.125,
      "learning_rate": 1.931818181818182e-06,
      "loss": 0.7636,
      "mean_token_accuracy": 0.7991937696933746,
      "num_tokens": 105549.0,
      "step": 18
    },
    {
      "entropy": 1.3153499066829681,
      "epoch": 0.04336661911554922,
      "grad_norm": 11.375,
      "learning_rate": 2.0454545454545457e-06,
      "loss": 0.7598,
      "mean_token_accuracy": 0.8102546408772469,
      "num_tokens": 111552.0,
      "step": 19
    },
    {
      "entropy": 1.3515659272670746,
      "epoch": 0.0456490727532097,
      "grad_norm": 11.375,
      "learning_rate": 2.1590909090909092e-06,
      "loss": 0.7113,
      "mean_token_accuracy": 0.810497097671032,
      "num_tokens": 117303.0,
      "step": 20
    },
    {
      "entropy": 1.4470301866531372,
      "epoch": 0.047931526390870186,
      "grad_norm": 11.125,
      "learning_rate": 2.2727272727272728e-06,
      "loss": 0.8029,
      "mean_token_accuracy": 0.7923144474625587,
      "num_tokens": 123355.0,
      "step": 21
    },
    {
      "entropy": 1.3571707159280777,
      "epoch": 0.05021398002853067,
      "grad_norm": 9.4375,
      "learning_rate": 2.3863636363636367e-06,
      "loss": 0.6621,
      "mean_token_accuracy": 0.8315573260188103,
      "num_tokens": 129801.0,
      "step": 22
    },
    {
      "entropy": 1.4135605692863464,
      "epoch": 0.05249643366619115,
      "grad_norm": 10.875,
      "learning_rate": 2.5e-06,
      "loss": 0.7478,
      "mean_token_accuracy": 0.8041789308190346,
      "num_tokens": 135168.0,
      "step": 23
    },
    {
      "entropy": 1.4300416111946106,
      "epoch": 0.054778887303851644,
      "grad_norm": 10.0625,
      "learning_rate": 2.6136363636363637e-06,
      "loss": 0.7541,
      "mean_token_accuracy": 0.8075885996222496,
      "num_tokens": 141202.0,
      "step": 24
    },
    {
      "entropy": 1.3513601571321487,
      "epoch": 0.05706134094151213,
      "grad_norm": 9.25,
      "learning_rate": 2.7272727272727272e-06,
      "loss": 0.6913,
      "mean_token_accuracy": 0.8184778317809105,
      "num_tokens": 147326.0,
      "step": 25
    },
    {
      "entropy": 1.3810700178146362,
      "epoch": 0.05934379457917261,
      "grad_norm": 9.75,
      "learning_rate": 2.8409090909090916e-06,
      "loss": 0.6849,
      "mean_token_accuracy": 0.8293009474873543,
      "num_tokens": 153439.0,
      "step": 26
    },
    {
      "entropy": 1.3730244934558868,
      "epoch": 0.061626248216833095,
      "grad_norm": 9.0625,
      "learning_rate": 2.954545454545455e-06,
      "loss": 0.6562,
      "mean_token_accuracy": 0.8283357098698616,
      "num_tokens": 159411.0,
      "step": 27
    },
    {
      "entropy": 1.337988331913948,
      "epoch": 0.06390870185449359,
      "grad_norm": 8.375,
      "learning_rate": 3.0681818181818186e-06,
      "loss": 0.5966,
      "mean_token_accuracy": 0.837442196905613,
      "num_tokens": 165669.0,
      "step": 28
    },
    {
      "entropy": 1.4772655963897705,
      "epoch": 0.06619115549215407,
      "grad_norm": 9.6875,
      "learning_rate": 3.181818181818182e-06,
      "loss": 0.7038,
      "mean_token_accuracy": 0.8186220824718475,
      "num_tokens": 170944.0,
      "step": 29
    },
    {
      "entropy": 1.3892450034618378,
      "epoch": 0.06847360912981455,
      "grad_norm": 7.8125,
      "learning_rate": 3.2954545454545456e-06,
      "loss": 0.658,
      "mean_token_accuracy": 0.8269658461213112,
      "num_tokens": 176755.0,
      "step": 30
    },
    {
      "entropy": 1.490507110953331,
      "epoch": 0.07075606276747504,
      "grad_norm": 8.375,
      "learning_rate": 3.409090909090909e-06,
      "loss": 0.7584,
      "mean_token_accuracy": 0.7987356930971146,
      "num_tokens": 182319.0,
      "step": 31
    },
    {
      "entropy": 1.3267859369516373,
      "epoch": 0.07303851640513552,
      "grad_norm": 7.15625,
      "learning_rate": 3.522727272727273e-06,
      "loss": 0.6272,
      "mean_token_accuracy": 0.8291826993227005,
      "num_tokens": 188236.0,
      "step": 32
    },
    {
      "entropy": 1.4844342470169067,
      "epoch": 0.075320970042796,
      "grad_norm": 7.53125,
      "learning_rate": 3.6363636363636366e-06,
      "loss": 0.724,
      "mean_token_accuracy": 0.806972049176693,
      "num_tokens": 193965.0,
      "step": 33
    },
    {
      "entropy": 1.4742888659238815,
      "epoch": 0.07760342368045649,
      "grad_norm": 7.03125,
      "learning_rate": 3.7500000000000005e-06,
      "loss": 0.6635,
      "mean_token_accuracy": 0.8269493877887726,
      "num_tokens": 199814.0,
      "step": 34
    },
    {
      "entropy": 1.3930696845054626,
      "epoch": 0.07988587731811697,
      "grad_norm": 6.5625,
      "learning_rate": 3.863636363636364e-06,
      "loss": 0.6553,
      "mean_token_accuracy": 0.8298437520861626,
      "num_tokens": 205725.0,
      "step": 35
    },
    {
      "entropy": 1.4377078860998154,
      "epoch": 0.08216833095577745,
      "grad_norm": 6.875,
      "learning_rate": 3.9772727272727275e-06,
      "loss": 0.6647,
      "mean_token_accuracy": 0.8262319192290306,
      "num_tokens": 211044.0,
      "step": 36
    },
    {
      "entropy": 1.4484449177980423,
      "epoch": 0.08445078459343795,
      "grad_norm": 5.8125,
      "learning_rate": 4.0909090909090915e-06,
      "loss": 0.6505,
      "mean_token_accuracy": 0.8214789107441902,
      "num_tokens": 217143.0,
      "step": 37
    },
    {
      "entropy": 1.3406399488449097,
      "epoch": 0.08673323823109844,
      "grad_norm": 5.5,
      "learning_rate": 4.204545454545455e-06,
      "loss": 0.5331,
      "mean_token_accuracy": 0.8669695928692818,
      "num_tokens": 224084.0,
      "step": 38
    },
    {
      "entropy": 1.465222254395485,
      "epoch": 0.08901569186875892,
      "grad_norm": 6.09375,
      "learning_rate": 4.3181818181818185e-06,
      "loss": 0.5913,
      "mean_token_accuracy": 0.8346145749092102,
      "num_tokens": 229446.0,
      "step": 39
    },
    {
      "entropy": 1.4082716703414917,
      "epoch": 0.0912981455064194,
      "grad_norm": 5.4375,
      "learning_rate": 4.4318181818181824e-06,
      "loss": 0.4967,
      "mean_token_accuracy": 0.8573063313961029,
      "num_tokens": 235250.0,
      "step": 40
    },
    {
      "entropy": 1.4065438956022263,
      "epoch": 0.09358059914407989,
      "grad_norm": 4.53125,
      "learning_rate": 4.5454545454545455e-06,
      "loss": 0.5228,
      "mean_token_accuracy": 0.8517210483551025,
      "num_tokens": 241666.0,
      "step": 41
    },
    {
      "entropy": 1.4178601205348969,
      "epoch": 0.09586305278174037,
      "grad_norm": 4.875,
      "learning_rate": 4.6590909090909095e-06,
      "loss": 0.5534,
      "mean_token_accuracy": 0.8581771478056908,
      "num_tokens": 247901.0,
      "step": 42
    },
    {
      "entropy": 1.4665435552597046,
      "epoch": 0.09814550641940085,
      "grad_norm": 4.84375,
      "learning_rate": 4.772727272727273e-06,
      "loss": 0.524,
      "mean_token_accuracy": 0.8218341246247292,
      "num_tokens": 253273.0,
      "step": 43
    },
    {
      "entropy": 1.4858266711235046,
      "epoch": 0.10042796005706134,
      "grad_norm": 5.1875,
      "learning_rate": 4.8863636363636365e-06,
      "loss": 0.6752,
      "mean_token_accuracy": 0.826298251748085,
      "num_tokens": 258616.0,
      "step": 44
    },
    {
      "entropy": 1.3626787662506104,
      "epoch": 0.10271041369472182,
      "grad_norm": 4.5,
      "learning_rate": 5e-06,
      "loss": 0.5618,
      "mean_token_accuracy": 0.8469245880842209,
      "num_tokens": 264408.0,
      "step": 45
    },
    {
      "entropy": 1.3205972537398338,
      "epoch": 0.1049928673323823,
      "grad_norm": 3.796875,
      "learning_rate": 4.99998226312344e-06,
      "loss": 0.4616,
      "mean_token_accuracy": 0.8739962726831436,
      "num_tokens": 270566.0,
      "step": 46
    },
    {
      "entropy": 1.3779225647449493,
      "epoch": 0.10727532097004279,
      "grad_norm": 3.484375,
      "learning_rate": 4.999929052745434e-06,
      "loss": 0.4547,
      "mean_token_accuracy": 0.8725937232375145,
      "num_tokens": 276849.0,
      "step": 47
    },
    {
      "entropy": 1.5054886192083359,
      "epoch": 0.10955777460770329,
      "grad_norm": 4.71875,
      "learning_rate": 4.999840369621011e-06,
      "loss": 0.5994,
      "mean_token_accuracy": 0.8370054960250854,
      "num_tokens": 283205.0,
      "step": 48
    },
    {
      "entropy": 1.5157189071178436,
      "epoch": 0.11184022824536377,
      "grad_norm": 4.65625,
      "learning_rate": 4.999716215008542e-06,
      "loss": 0.5843,
      "mean_token_accuracy": 0.8259787857532501,
      "num_tokens": 288059.0,
      "step": 49
    },
    {
      "entropy": 1.38004170358181,
      "epoch": 0.11412268188302425,
      "grad_norm": 3.8125,
      "learning_rate": 4.999556590669718e-06,
      "loss": 0.405,
      "mean_token_accuracy": 0.8887585029006004,
      "num_tokens": 293798.0,
      "step": 50
    },
    {
      "entropy": 1.6085818111896515,
      "epoch": 0.11640513552068474,
      "grad_norm": 6.21875,
      "learning_rate": 4.99936149886953e-06,
      "loss": 0.5947,
      "mean_token_accuracy": 0.8224818632006645,
      "num_tokens": 298157.0,
      "step": 51
    },
    {
      "entropy": 1.4853103458881378,
      "epoch": 0.11868758915834522,
      "grad_norm": 3.453125,
      "learning_rate": 4.999130942376232e-06,
      "loss": 0.4428,
      "mean_token_accuracy": 0.8794936537742615,
      "num_tokens": 304309.0,
      "step": 52
    },
    {
      "entropy": 1.6272333711385727,
      "epoch": 0.1209700427960057,
      "grad_norm": 4.6875,
      "learning_rate": 4.998864924461305e-06,
      "loss": 0.5762,
      "mean_token_accuracy": 0.8293572887778282,
      "num_tokens": 309756.0,
      "step": 53
    },
    {
      "entropy": 1.289240226149559,
      "epoch": 0.12325249643366619,
      "grad_norm": 3.265625,
      "learning_rate": 4.998563448899413e-06,
      "loss": 0.4,
      "mean_token_accuracy": 0.8821459114551544,
      "num_tokens": 316395.0,
      "step": 54
    },
    {
      "entropy": 1.555517390370369,
      "epoch": 0.12553495007132667,
      "grad_norm": 4.5,
      "learning_rate": 4.998226519968341e-06,
      "loss": 0.5261,
      "mean_token_accuracy": 0.8417777121067047,
      "num_tokens": 321365.0,
      "step": 55
    },
    {
      "entropy": 1.4511889964342117,
      "epoch": 0.12781740370898717,
      "grad_norm": 3.828125,
      "learning_rate": 4.997854142448944e-06,
      "loss": 0.5362,
      "mean_token_accuracy": 0.8543838635087013,
      "num_tokens": 327850.0,
      "step": 56
    },
    {
      "entropy": 1.480227530002594,
      "epoch": 0.13009985734664764,
      "grad_norm": 4.90625,
      "learning_rate": 4.9974463216250735e-06,
      "loss": 0.6281,
      "mean_token_accuracy": 0.8336407989263535,
      "num_tokens": 332724.0,
      "step": 57
    },
    {
      "entropy": 1.4882567524909973,
      "epoch": 0.13238231098430814,
      "grad_norm": 4.03125,
      "learning_rate": 4.997003063283503e-06,
      "loss": 0.5103,
      "mean_token_accuracy": 0.854725182056427,
      "num_tokens": 338496.0,
      "step": 58
    },
    {
      "entropy": 1.3099189698696136,
      "epoch": 0.1346647646219686,
      "grad_norm": 3.546875,
      "learning_rate": 4.996524373713848e-06,
      "loss": 0.4035,
      "mean_token_accuracy": 0.8902565762400627,
      "num_tokens": 344181.0,
      "step": 59
    },
    {
      "entropy": 1.554222896695137,
      "epoch": 0.1369472182596291,
      "grad_norm": 4.28125,
      "learning_rate": 4.996010259708475e-06,
      "loss": 0.5154,
      "mean_token_accuracy": 0.8221362680196762,
      "num_tokens": 349987.0,
      "step": 60
    },
    {
      "entropy": 1.3615255653858185,
      "epoch": 0.13922967189728958,
      "grad_norm": 4.125,
      "learning_rate": 4.995460728562403e-06,
      "loss": 0.5219,
      "mean_token_accuracy": 0.8591368719935417,
      "num_tokens": 355808.0,
      "step": 61
    },
    {
      "entropy": 1.5018275529146194,
      "epoch": 0.14151212553495007,
      "grad_norm": 3.8125,
      "learning_rate": 4.994875788073207e-06,
      "loss": 0.4981,
      "mean_token_accuracy": 0.8580456078052521,
      "num_tokens": 361358.0,
      "step": 62
    },
    {
      "entropy": 1.3897339552640915,
      "epoch": 0.14379457917261054,
      "grad_norm": 3.984375,
      "learning_rate": 4.9942554465409e-06,
      "loss": 0.4961,
      "mean_token_accuracy": 0.8571888878941536,
      "num_tokens": 366798.0,
      "step": 63
    },
    {
      "entropy": 1.3545932322740555,
      "epoch": 0.14607703281027104,
      "grad_norm": 3.34375,
      "learning_rate": 4.99359971276782e-06,
      "loss": 0.4023,
      "mean_token_accuracy": 0.8760626539587975,
      "num_tokens": 373039.0,
      "step": 64
    },
    {
      "entropy": 1.4018055945634842,
      "epoch": 0.14835948644793154,
      "grad_norm": 3.484375,
      "learning_rate": 4.992908596058501e-06,
      "loss": 0.4874,
      "mean_token_accuracy": 0.8551009446382523,
      "num_tokens": 379151.0,
      "step": 65
    },
    {
      "entropy": 1.408715844154358,
      "epoch": 0.150641940085592,
      "grad_norm": 3.78125,
      "learning_rate": 4.9921821062195445e-06,
      "loss": 0.5979,
      "mean_token_accuracy": 0.8376783430576324,
      "num_tokens": 385466.0,
      "step": 66
    },
    {
      "entropy": 1.478136882185936,
      "epoch": 0.1529243937232525,
      "grad_norm": 3.34375,
      "learning_rate": 4.9914202535594795e-06,
      "loss": 0.4359,
      "mean_token_accuracy": 0.8765653073787689,
      "num_tokens": 391861.0,
      "step": 67
    },
    {
      "entropy": 1.3361108154058456,
      "epoch": 0.15520684736091298,
      "grad_norm": 3.453125,
      "learning_rate": 4.990623048888615e-06,
      "loss": 0.4471,
      "mean_token_accuracy": 0.8761897683143616,
      "num_tokens": 397602.0,
      "step": 68
    },
    {
      "entropy": 1.5057465434074402,
      "epoch": 0.15748930099857347,
      "grad_norm": 3.984375,
      "learning_rate": 4.989790503518888e-06,
      "loss": 0.5262,
      "mean_token_accuracy": 0.8583421856164932,
      "num_tokens": 403847.0,
      "step": 69
    },
    {
      "entropy": 1.5415615290403366,
      "epoch": 0.15977175463623394,
      "grad_norm": 4.03125,
      "learning_rate": 4.988922629263701e-06,
      "loss": 0.598,
      "mean_token_accuracy": 0.8401808813214302,
      "num_tokens": 409563.0,
      "step": 70
    },
    {
      "entropy": 1.433893471956253,
      "epoch": 0.16205420827389444,
      "grad_norm": 3.875,
      "learning_rate": 4.988019438437759e-06,
      "loss": 0.5086,
      "mean_token_accuracy": 0.8572655767202377,
      "num_tokens": 415590.0,
      "step": 71
    },
    {
      "entropy": 1.5654226392507553,
      "epoch": 0.1643366619115549,
      "grad_norm": 4.65625,
      "learning_rate": 4.987080943856887e-06,
      "loss": 0.6098,
      "mean_token_accuracy": 0.8376531600952148,
      "num_tokens": 421266.0,
      "step": 72
    },
    {
      "entropy": 1.513851910829544,
      "epoch": 0.1666191155492154,
      "grad_norm": 3.78125,
      "learning_rate": 4.9861071588378565e-06,
      "loss": 0.4454,
      "mean_token_accuracy": 0.8665637820959091,
      "num_tokens": 426394.0,
      "step": 73
    },
    {
      "entropy": 1.5542047619819641,
      "epoch": 0.1689015691868759,
      "grad_norm": 4.71875,
      "learning_rate": 4.9850980971981914e-06,
      "loss": 0.6814,
      "mean_token_accuracy": 0.808769017457962,
      "num_tokens": 431932.0,
      "step": 74
    },
    {
      "entropy": 1.4060749858617783,
      "epoch": 0.17118402282453637,
      "grad_norm": 3.53125,
      "learning_rate": 4.984053773255971e-06,
      "loss": 0.4207,
      "mean_token_accuracy": 0.8581205531954765,
      "num_tokens": 437984.0,
      "step": 75
    },
    {
      "entropy": 1.4776476472616196,
      "epoch": 0.17346647646219687,
      "grad_norm": 3.9375,
      "learning_rate": 4.9829742018296335e-06,
      "loss": 0.5346,
      "mean_token_accuracy": 0.8503594622015953,
      "num_tokens": 444584.0,
      "step": 76
    },
    {
      "entropy": 1.3919195085763931,
      "epoch": 0.17574893009985734,
      "grad_norm": 3.21875,
      "learning_rate": 4.981859398237758e-06,
      "loss": 0.4565,
      "mean_token_accuracy": 0.8721787855029106,
      "num_tokens": 450943.0,
      "step": 77
    },
    {
      "entropy": 1.4689613282680511,
      "epoch": 0.17803138373751784,
      "grad_norm": 3.9375,
      "learning_rate": 4.980709378298851e-06,
      "loss": 0.5434,
      "mean_token_accuracy": 0.8531812652945518,
      "num_tokens": 456471.0,
      "step": 78
    },
    {
      "entropy": 1.474008470773697,
      "epoch": 0.1803138373751783,
      "grad_norm": 4.09375,
      "learning_rate": 4.979524158331123e-06,
      "loss": 0.531,
      "mean_token_accuracy": 0.8535453379154205,
      "num_tokens": 462328.0,
      "step": 79
    },
    {
      "entropy": 1.3587582856416702,
      "epoch": 0.1825962910128388,
      "grad_norm": 4.03125,
      "learning_rate": 4.978303755152254e-06,
      "loss": 0.4992,
      "mean_token_accuracy": 0.8549595400691032,
      "num_tokens": 468402.0,
      "step": 80
    },
    {
      "entropy": 1.3619231432676315,
      "epoch": 0.18487874465049928,
      "grad_norm": 3.359375,
      "learning_rate": 4.977048186079155e-06,
      "loss": 0.4981,
      "mean_token_accuracy": 0.8575711026787758,
      "num_tokens": 473714.0,
      "step": 81
    },
    {
      "entropy": 1.4384445995092392,
      "epoch": 0.18716119828815977,
      "grad_norm": 3.328125,
      "learning_rate": 4.975757468927727e-06,
      "loss": 0.4181,
      "mean_token_accuracy": 0.8731885701417923,
      "num_tokens": 479842.0,
      "step": 82
    },
    {
      "entropy": 1.5311954617500305,
      "epoch": 0.18944365192582024,
      "grad_norm": 4.34375,
      "learning_rate": 4.974431622012601e-06,
      "loss": 0.6287,
      "mean_token_accuracy": 0.821938157081604,
      "num_tokens": 485680.0,
      "step": 83
    },
    {
      "entropy": 1.358711913228035,
      "epoch": 0.19172610556348074,
      "grad_norm": 3.65625,
      "learning_rate": 4.973070664146885e-06,
      "loss": 0.4416,
      "mean_token_accuracy": 0.873858779668808,
      "num_tokens": 491390.0,
      "step": 84
    },
    {
      "entropy": 1.4033315032720566,
      "epoch": 0.19400855920114124,
      "grad_norm": 3.890625,
      "learning_rate": 4.971674614641891e-06,
      "loss": 0.4835,
      "mean_token_accuracy": 0.861111544072628,
      "num_tokens": 497469.0,
      "step": 85
    },
    {
      "entropy": 1.373718798160553,
      "epoch": 0.1962910128388017,
      "grad_norm": 3.46875,
      "learning_rate": 4.970243493306865e-06,
      "loss": 0.4599,
      "mean_token_accuracy": 0.8647707998752594,
      "num_tokens": 503754.0,
      "step": 86
    },
    {
      "entropy": 1.4159798175096512,
      "epoch": 0.1985734664764622,
      "grad_norm": 3.71875,
      "learning_rate": 4.968777320448707e-06,
      "loss": 0.41,
      "mean_token_accuracy": 0.8731393367052078,
      "num_tokens": 509255.0,
      "step": 87
    },
    {
      "entropy": 1.397733435034752,
      "epoch": 0.20085592011412268,
      "grad_norm": 4.0,
      "learning_rate": 4.9672761168716766e-06,
      "loss": 0.4607,
      "mean_token_accuracy": 0.8771609216928482,
      "num_tokens": 515162.0,
      "step": 88
    },
    {
      "entropy": 1.3901693522930145,
      "epoch": 0.20313837375178317,
      "grad_norm": 3.703125,
      "learning_rate": 4.9657399038771045e-06,
      "loss": 0.4985,
      "mean_token_accuracy": 0.8564205095171928,
      "num_tokens": 520980.0,
      "step": 89
    },
    {
      "entropy": 1.470759555697441,
      "epoch": 0.20542082738944364,
      "grad_norm": 4.09375,
      "learning_rate": 4.964168703263086e-06,
      "loss": 0.5552,
      "mean_token_accuracy": 0.834749348461628,
      "num_tokens": 526901.0,
      "step": 90
    },
    {
      "entropy": 1.5493524819612503,
      "epoch": 0.20770328102710414,
      "grad_norm": 4.09375,
      "learning_rate": 4.962562537324176e-06,
      "loss": 0.5276,
      "mean_token_accuracy": 0.8242713585495949,
      "num_tokens": 532502.0,
      "step": 91
    },
    {
      "entropy": 1.4955510944128036,
      "epoch": 0.2099857346647646,
      "grad_norm": 4.5,
      "learning_rate": 4.960921428851066e-06,
      "loss": 0.6117,
      "mean_token_accuracy": 0.8246004208922386,
      "num_tokens": 538159.0,
      "step": 92
    },
    {
      "entropy": 1.4567335098981857,
      "epoch": 0.2122681883024251,
      "grad_norm": 3.0,
      "learning_rate": 4.959245401130269e-06,
      "loss": 0.3503,
      "mean_token_accuracy": 0.8856313973665237,
      "num_tokens": 544079.0,
      "step": 93
    },
    {
      "entropy": 1.458535224199295,
      "epoch": 0.21455064194008558,
      "grad_norm": 3.625,
      "learning_rate": 4.957534477943782e-06,
      "loss": 0.4434,
      "mean_token_accuracy": 0.858425110578537,
      "num_tokens": 550037.0,
      "step": 94
    },
    {
      "entropy": 1.3983053117990494,
      "epoch": 0.21683309557774608,
      "grad_norm": 3.375,
      "learning_rate": 4.955788683568749e-06,
      "loss": 0.4004,
      "mean_token_accuracy": 0.8748428821563721,
      "num_tokens": 556585.0,
      "step": 95
    },
    {
      "entropy": 1.481145054101944,
      "epoch": 0.21911554921540657,
      "grad_norm": 3.3125,
      "learning_rate": 4.954008042777125e-06,
      "loss": 0.409,
      "mean_token_accuracy": 0.8758149892091751,
      "num_tokens": 562355.0,
      "step": 96
    },
    {
      "entropy": 1.6243803054094315,
      "epoch": 0.22139800285306704,
      "grad_norm": 4.75,
      "learning_rate": 4.952192580835313e-06,
      "loss": 0.6636,
      "mean_token_accuracy": 0.7973536550998688,
      "num_tokens": 568202.0,
      "step": 97
    },
    {
      "entropy": 1.575976401567459,
      "epoch": 0.22368045649072754,
      "grad_norm": 4.59375,
      "learning_rate": 4.950342323503812e-06,
      "loss": 0.6046,
      "mean_token_accuracy": 0.813086025416851,
      "num_tokens": 573655.0,
      "step": 98
    },
    {
      "entropy": 1.5205018073320389,
      "epoch": 0.225962910128388,
      "grad_norm": 3.953125,
      "learning_rate": 4.9484572970368516e-06,
      "loss": 0.5502,
      "mean_token_accuracy": 0.8478811085224152,
      "num_tokens": 579742.0,
      "step": 99
    },
    {
      "entropy": 1.5319028943777084,
      "epoch": 0.2282453637660485,
      "grad_norm": 4.71875,
      "learning_rate": 4.946537528182017e-06,
      "loss": 0.6014,
      "mean_token_accuracy": 0.8344146087765694,
      "num_tokens": 584824.0,
      "step": 100
    },
    {
      "epoch": 0.2282453637660485,
      "eval_entropy": 1.4501528475019667,
      "eval_loss": 0.5052191615104675,
      "eval_mean_token_accuracy": 0.8605326036612193,
      "eval_num_tokens": 584824.0,
      "eval_runtime": 4.4666,
      "eval_samples_per_second": 20.149,
      "eval_steps_per_second": 20.149,
      "step": 100
    },
    {
      "entropy": 1.3917143046855927,
      "epoch": 0.23052781740370898,
      "grad_norm": 3.203125,
      "learning_rate": 4.944583044179871e-06,
      "loss": 0.3933,
      "mean_token_accuracy": 0.8733155429363251,
      "num_tokens": 590608.0,
      "step": 101
    },
    {
      "entropy": 1.3328562825918198,
      "epoch": 0.23281027104136948,
      "grad_norm": 3.0625,
      "learning_rate": 4.942593872763566e-06,
      "loss": 0.3922,
      "mean_token_accuracy": 0.8770610764622688,
      "num_tokens": 596918.0,
      "step": 102
    },
    {
      "entropy": 1.3897913247346878,
      "epoch": 0.23509272467902995,
      "grad_norm": 3.4375,
      "learning_rate": 4.940570042158454e-06,
      "loss": 0.4864,
      "mean_token_accuracy": 0.8629380613565445,
      "num_tokens": 602674.0,
      "step": 103
    },
    {
      "entropy": 1.5906241983175278,
      "epoch": 0.23737517831669044,
      "grad_norm": 4.46875,
      "learning_rate": 4.93851158108168e-06,
      "loss": 0.6066,
      "mean_token_accuracy": 0.8188068121671677,
      "num_tokens": 608041.0,
      "step": 104
    },
    {
      "entropy": 1.421783059835434,
      "epoch": 0.2396576319543509,
      "grad_norm": 3.453125,
      "learning_rate": 4.93641851874178e-06,
      "loss": 0.4813,
      "mean_token_accuracy": 0.8542051687836647,
      "num_tokens": 613908.0,
      "step": 105
    },
    {
      "entropy": 1.4839935898780823,
      "epoch": 0.2419400855920114,
      "grad_norm": 4.34375,
      "learning_rate": 4.934290884838266e-06,
      "loss": 0.539,
      "mean_token_accuracy": 0.8587613850831985,
      "num_tokens": 620475.0,
      "step": 106
    },
    {
      "entropy": 1.4981091767549515,
      "epoch": 0.2442225392296719,
      "grad_norm": 3.40625,
      "learning_rate": 4.932128709561202e-06,
      "loss": 0.4702,
      "mean_token_accuracy": 0.866189256310463,
      "num_tokens": 626833.0,
      "step": 107
    },
    {
      "entropy": 1.47100168466568,
      "epoch": 0.24650499286733238,
      "grad_norm": 3.453125,
      "learning_rate": 4.929932023590776e-06,
      "loss": 0.4146,
      "mean_token_accuracy": 0.8706357181072235,
      "num_tokens": 632605.0,
      "step": 108
    },
    {
      "entropy": 1.4089600145816803,
      "epoch": 0.24878744650499288,
      "grad_norm": 2.921875,
      "learning_rate": 4.9277008580968665e-06,
      "loss": 0.4052,
      "mean_token_accuracy": 0.8793638423085213,
      "num_tokens": 639026.0,
      "step": 109
    },
    {
      "entropy": 1.4623335748910904,
      "epoch": 0.25106990014265335,
      "grad_norm": 3.109375,
      "learning_rate": 4.925435244738599e-06,
      "loss": 0.4251,
      "mean_token_accuracy": 0.8607661128044128,
      "num_tokens": 645661.0,
      "step": 110
    },
    {
      "entropy": 1.469603717327118,
      "epoch": 0.25335235378031384,
      "grad_norm": 3.203125,
      "learning_rate": 4.923135215663897e-06,
      "loss": 0.4562,
      "mean_token_accuracy": 0.8637586832046509,
      "num_tokens": 652088.0,
      "step": 111
    },
    {
      "entropy": 1.4699177891016006,
      "epoch": 0.25563480741797434,
      "grad_norm": 3.78125,
      "learning_rate": 4.920800803509026e-06,
      "loss": 0.4358,
      "mean_token_accuracy": 0.8661052659153938,
      "num_tokens": 657148.0,
      "step": 112
    },
    {
      "entropy": 1.4687887877225876,
      "epoch": 0.2579172610556348,
      "grad_norm": 4.15625,
      "learning_rate": 4.91843204139813e-06,
      "loss": 0.4832,
      "mean_token_accuracy": 0.87067711353302,
      "num_tokens": 662846.0,
      "step": 113
    },
    {
      "entropy": 1.3910206109285355,
      "epoch": 0.2601997146932953,
      "grad_norm": 3.96875,
      "learning_rate": 4.916028962942763e-06,
      "loss": 0.4606,
      "mean_token_accuracy": 0.8688057661056519,
      "num_tokens": 668283.0,
      "step": 114
    },
    {
      "entropy": 1.4946473091840744,
      "epoch": 0.2624821683309558,
      "grad_norm": 4.4375,
      "learning_rate": 4.913591602241409e-06,
      "loss": 0.5177,
      "mean_token_accuracy": 0.8503523468971252,
      "num_tokens": 673962.0,
      "step": 115
    },
    {
      "entropy": 1.4268899112939835,
      "epoch": 0.2647646219686163,
      "grad_norm": 3.734375,
      "learning_rate": 4.911119993878999e-06,
      "loss": 0.4608,
      "mean_token_accuracy": 0.8624838441610336,
      "num_tokens": 679433.0,
      "step": 116
    },
    {
      "entropy": 1.4775933474302292,
      "epoch": 0.2670470756062768,
      "grad_norm": 3.359375,
      "learning_rate": 4.908614172926426e-06,
      "loss": 0.373,
      "mean_token_accuracy": 0.8674890100955963,
      "num_tokens": 685178.0,
      "step": 117
    },
    {
      "entropy": 1.4562716633081436,
      "epoch": 0.2693295292439372,
      "grad_norm": 3.890625,
      "learning_rate": 4.906074174940038e-06,
      "loss": 0.5465,
      "mean_token_accuracy": 0.8421404510736465,
      "num_tokens": 691044.0,
      "step": 118
    },
    {
      "entropy": 1.404031679034233,
      "epoch": 0.2716119828815977,
      "grad_norm": 3.625,
      "learning_rate": 4.903500035961139e-06,
      "loss": 0.4888,
      "mean_token_accuracy": 0.8540224209427834,
      "num_tokens": 697301.0,
      "step": 119
    },
    {
      "entropy": 1.421856850385666,
      "epoch": 0.2738944365192582,
      "grad_norm": 3.328125,
      "learning_rate": 4.9008917925154795e-06,
      "loss": 0.438,
      "mean_token_accuracy": 0.8775565698742867,
      "num_tokens": 704275.0,
      "step": 120
    },
    {
      "entropy": 1.5078845471143723,
      "epoch": 0.2761768901569187,
      "grad_norm": 3.640625,
      "learning_rate": 4.89824948161273e-06,
      "loss": 0.4837,
      "mean_token_accuracy": 0.8578910827636719,
      "num_tokens": 710429.0,
      "step": 121
    },
    {
      "entropy": 1.4396383464336395,
      "epoch": 0.27845934379457915,
      "grad_norm": 3.71875,
      "learning_rate": 4.895573140745967e-06,
      "loss": 0.5219,
      "mean_token_accuracy": 0.8433092087507248,
      "num_tokens": 715838.0,
      "step": 122
    },
    {
      "entropy": 1.4553385972976685,
      "epoch": 0.28074179743223965,
      "grad_norm": 3.578125,
      "learning_rate": 4.892862807891131e-06,
      "loss": 0.4401,
      "mean_token_accuracy": 0.869629830121994,
      "num_tokens": 721249.0,
      "step": 123
    },
    {
      "entropy": 1.4222912788391113,
      "epoch": 0.28302425106990015,
      "grad_norm": 3.921875,
      "learning_rate": 4.890118521506494e-06,
      "loss": 0.5689,
      "mean_token_accuracy": 0.8471446335315704,
      "num_tokens": 727806.0,
      "step": 124
    },
    {
      "entropy": 1.4638441801071167,
      "epoch": 0.28530670470756064,
      "grad_norm": 3.59375,
      "learning_rate": 4.8873403205321115e-06,
      "loss": 0.4898,
      "mean_token_accuracy": 0.8609614819288254,
      "num_tokens": 733588.0,
      "step": 125
    },
    {
      "entropy": 1.360969141125679,
      "epoch": 0.2875891583452211,
      "grad_norm": 4.9375,
      "learning_rate": 4.884528244389269e-06,
      "loss": 0.5004,
      "mean_token_accuracy": 0.8577578216791153,
      "num_tokens": 739069.0,
      "step": 126
    },
    {
      "entropy": 1.4701900631189346,
      "epoch": 0.2898716119828816,
      "grad_norm": 3.890625,
      "learning_rate": 4.881682332979925e-06,
      "loss": 0.4782,
      "mean_token_accuracy": 0.8597236052155495,
      "num_tokens": 744612.0,
      "step": 127
    },
    {
      "entropy": 1.484321504831314,
      "epoch": 0.2921540656205421,
      "grad_norm": 4.34375,
      "learning_rate": 4.878802626686141e-06,
      "loss": 0.5044,
      "mean_token_accuracy": 0.8599332422018051,
      "num_tokens": 750198.0,
      "step": 128
    },
    {
      "entropy": 1.4526187181472778,
      "epoch": 0.2944365192582026,
      "grad_norm": 4.25,
      "learning_rate": 4.8758891663695165e-06,
      "loss": 0.5283,
      "mean_token_accuracy": 0.8519927933812141,
      "num_tokens": 755825.0,
      "step": 129
    },
    {
      "entropy": 1.487746685743332,
      "epoch": 0.2967189728958631,
      "grad_norm": 3.859375,
      "learning_rate": 4.872941993370598e-06,
      "loss": 0.4834,
      "mean_token_accuracy": 0.865722268819809,
      "num_tokens": 762609.0,
      "step": 130
    },
    {
      "entropy": 1.4334597885608673,
      "epoch": 0.2990014265335235,
      "grad_norm": 3.609375,
      "learning_rate": 4.869961149508301e-06,
      "loss": 0.462,
      "mean_token_accuracy": 0.8797513917088509,
      "num_tokens": 768825.0,
      "step": 131
    },
    {
      "entropy": 1.5593868792057037,
      "epoch": 0.301283880171184,
      "grad_norm": 3.75,
      "learning_rate": 4.866946677079314e-06,
      "loss": 0.4398,
      "mean_token_accuracy": 0.8622937723994255,
      "num_tokens": 774231.0,
      "step": 132
    },
    {
      "entropy": 1.582775130867958,
      "epoch": 0.3035663338088445,
      "grad_norm": 4.1875,
      "learning_rate": 4.8638986188574955e-06,
      "loss": 0.5733,
      "mean_token_accuracy": 0.8216232135891914,
      "num_tokens": 779217.0,
      "step": 133
    },
    {
      "entropy": 1.4957093298435211,
      "epoch": 0.305848787446505,
      "grad_norm": 3.875,
      "learning_rate": 4.8608170180932725e-06,
      "loss": 0.4983,
      "mean_token_accuracy": 0.8560524433851242,
      "num_tokens": 785209.0,
      "step": 134
    },
    {
      "entropy": 1.4334331154823303,
      "epoch": 0.30813124108416545,
      "grad_norm": 3.375,
      "learning_rate": 4.857701918513023e-06,
      "loss": 0.4457,
      "mean_token_accuracy": 0.8704549074172974,
      "num_tokens": 791251.0,
      "step": 135
    },
    {
      "entropy": 1.4960424304008484,
      "epoch": 0.31041369472182595,
      "grad_norm": 3.546875,
      "learning_rate": 4.854553364318456e-06,
      "loss": 0.4823,
      "mean_token_accuracy": 0.869213730096817,
      "num_tokens": 797202.0,
      "step": 136
    },
    {
      "entropy": 1.3933140188455582,
      "epoch": 0.31269614835948645,
      "grad_norm": 3.0,
      "learning_rate": 4.851371400185986e-06,
      "loss": 0.4387,
      "mean_token_accuracy": 0.8605329319834709,
      "num_tokens": 804144.0,
      "step": 137
    },
    {
      "entropy": 1.4915095120668411,
      "epoch": 0.31497860199714695,
      "grad_norm": 4.03125,
      "learning_rate": 4.848156071266095e-06,
      "loss": 0.404,
      "mean_token_accuracy": 0.8624937981367111,
      "num_tokens": 809125.0,
      "step": 138
    },
    {
      "entropy": 1.422121912240982,
      "epoch": 0.31726105563480744,
      "grad_norm": 3.5,
      "learning_rate": 4.844907423182699e-06,
      "loss": 0.3698,
      "mean_token_accuracy": 0.8753552809357643,
      "num_tokens": 814420.0,
      "step": 139
    },
    {
      "entropy": 1.3587403669953346,
      "epoch": 0.3195435092724679,
      "grad_norm": 3.65625,
      "learning_rate": 4.841625502032495e-06,
      "loss": 0.4201,
      "mean_token_accuracy": 0.8749541118741035,
      "num_tokens": 819445.0,
      "step": 140
    },
    {
      "entropy": 1.5249932259321213,
      "epoch": 0.3218259629101284,
      "grad_norm": 3.765625,
      "learning_rate": 4.838310354384304e-06,
      "loss": 0.4569,
      "mean_token_accuracy": 0.8636204749345779,
      "num_tokens": 825423.0,
      "step": 141
    },
    {
      "entropy": 1.4787572473287582,
      "epoch": 0.3241084165477889,
      "grad_norm": 4.28125,
      "learning_rate": 4.834962027278418e-06,
      "loss": 0.4271,
      "mean_token_accuracy": 0.8966826573014259,
      "num_tokens": 830608.0,
      "step": 142
    },
    {
      "entropy": 1.3900313079357147,
      "epoch": 0.3263908701854494,
      "grad_norm": 3.3125,
      "learning_rate": 4.831580568225931e-06,
      "loss": 0.4272,
      "mean_token_accuracy": 0.8754951432347298,
      "num_tokens": 837069.0,
      "step": 143
    },
    {
      "entropy": 1.4659005105495453,
      "epoch": 0.3286733238231098,
      "grad_norm": 3.71875,
      "learning_rate": 4.828166025208059e-06,
      "loss": 0.4788,
      "mean_token_accuracy": 0.8542606756091118,
      "num_tokens": 842779.0,
      "step": 144
    },
    {
      "entropy": 1.4241313189268112,
      "epoch": 0.3309557774607703,
      "grad_norm": 3.5,
      "learning_rate": 4.824718446675465e-06,
      "loss": 0.4501,
      "mean_token_accuracy": 0.8673816919326782,
      "num_tokens": 848075.0,
      "step": 145
    },
    {
      "entropy": 1.3615167737007141,
      "epoch": 0.3332382310984308,
      "grad_norm": 3.984375,
      "learning_rate": 4.821237881547567e-06,
      "loss": 0.4803,
      "mean_token_accuracy": 0.8680660426616669,
      "num_tokens": 853972.0,
      "step": 146
    },
    {
      "entropy": 1.4747860878705978,
      "epoch": 0.3355206847360913,
      "grad_norm": 3.890625,
      "learning_rate": 4.8177243792118515e-06,
      "loss": 0.4336,
      "mean_token_accuracy": 0.8747361823916435,
      "num_tokens": 859859.0,
      "step": 147
    },
    {
      "entropy": 1.5414969474077225,
      "epoch": 0.3378031383737518,
      "grad_norm": 3.484375,
      "learning_rate": 4.814177989523162e-06,
      "loss": 0.4489,
      "mean_token_accuracy": 0.8644633367657661,
      "num_tokens": 865836.0,
      "step": 148
    },
    {
      "entropy": 1.6249495893716812,
      "epoch": 0.34008559201141225,
      "grad_norm": 3.53125,
      "learning_rate": 4.810598762803e-06,
      "loss": 0.5226,
      "mean_token_accuracy": 0.8477596640586853,
      "num_tokens": 872086.0,
      "step": 149
    },
    {
      "entropy": 1.4743667244911194,
      "epoch": 0.34236804564907275,
      "grad_norm": 3.75,
      "learning_rate": 4.8069867498388066e-06,
      "loss": 0.4693,
      "mean_token_accuracy": 0.8513918668031693,
      "num_tokens": 877138.0,
      "step": 150
    },
    {
      "entropy": 1.3822671622037888,
      "epoch": 0.34465049928673325,
      "grad_norm": 3.21875,
      "learning_rate": 4.803342001883247e-06,
      "loss": 0.408,
      "mean_token_accuracy": 0.8763712868094444,
      "num_tokens": 883268.0,
      "step": 151
    },
    {
      "entropy": 1.4955266863107681,
      "epoch": 0.34693295292439374,
      "grad_norm": 4.15625,
      "learning_rate": 4.799664570653473e-06,
      "loss": 0.5271,
      "mean_token_accuracy": 0.8504318669438362,
      "num_tokens": 889206.0,
      "step": 152
    },
    {
      "entropy": 1.6125495880842209,
      "epoch": 0.3492154065620542,
      "grad_norm": 5.71875,
      "learning_rate": 4.795954508330403e-06,
      "loss": 0.6248,
      "mean_token_accuracy": 0.8179907724261284,
      "num_tokens": 894476.0,
      "step": 153
    },
    {
      "entropy": 1.5931424498558044,
      "epoch": 0.3514978601997147,
      "grad_norm": 4.75,
      "learning_rate": 4.792211867557969e-06,
      "loss": 0.4888,
      "mean_token_accuracy": 0.8579384312033653,
      "num_tokens": 899026.0,
      "step": 154
    },
    {
      "entropy": 1.4209279268980026,
      "epoch": 0.3537803138373752,
      "grad_norm": 3.484375,
      "learning_rate": 4.788436701442378e-06,
      "loss": 0.4354,
      "mean_token_accuracy": 0.8708065152168274,
      "num_tokens": 905347.0,
      "step": 155
    },
    {
      "entropy": 1.4381519109010696,
      "epoch": 0.3560627674750357,
      "grad_norm": 3.703125,
      "learning_rate": 4.784629063551354e-06,
      "loss": 0.5609,
      "mean_token_accuracy": 0.8458188697695732,
      "num_tokens": 911400.0,
      "step": 156
    },
    {
      "entropy": 1.4265454858541489,
      "epoch": 0.3583452211126961,
      "grad_norm": 3.5,
      "learning_rate": 4.780789007913379e-06,
      "loss": 0.516,
      "mean_token_accuracy": 0.8464484214782715,
      "num_tokens": 917633.0,
      "step": 157
    },
    {
      "entropy": 1.6952187418937683,
      "epoch": 0.3606276747503566,
      "grad_norm": 4.46875,
      "learning_rate": 4.776916589016928e-06,
      "loss": 0.6655,
      "mean_token_accuracy": 0.8154120817780495,
      "num_tokens": 922878.0,
      "step": 158
    },
    {
      "entropy": 1.4849806427955627,
      "epoch": 0.3629101283880171,
      "grad_norm": 3.984375,
      "learning_rate": 4.773011861809694e-06,
      "loss": 0.5529,
      "mean_token_accuracy": 0.8317237794399261,
      "num_tokens": 928432.0,
      "step": 159
    },
    {
      "entropy": 1.3825362920761108,
      "epoch": 0.3651925820256776,
      "grad_norm": 3.1875,
      "learning_rate": 4.769074881697806e-06,
      "loss": 0.422,
      "mean_token_accuracy": 0.8742568120360374,
      "num_tokens": 934019.0,
      "step": 160
    },
    {
      "entropy": 1.429061233997345,
      "epoch": 0.3674750356633381,
      "grad_norm": 3.328125,
      "learning_rate": 4.765105704545052e-06,
      "loss": 0.4181,
      "mean_token_accuracy": 0.8700381815433502,
      "num_tokens": 940405.0,
      "step": 161
    },
    {
      "entropy": 1.4522172808647156,
      "epoch": 0.36975748930099855,
      "grad_norm": 3.296875,
      "learning_rate": 4.761104386672074e-06,
      "loss": 0.4664,
      "mean_token_accuracy": 0.8705998063087463,
      "num_tokens": 946891.0,
      "step": 162
    },
    {
      "entropy": 1.4823334366083145,
      "epoch": 0.37203994293865905,
      "grad_norm": 3.171875,
      "learning_rate": 4.757070984855577e-06,
      "loss": 0.3902,
      "mean_token_accuracy": 0.8853188008069992,
      "num_tokens": 954063.0,
      "step": 163
    },
    {
      "entropy": 1.4951584190130234,
      "epoch": 0.37432239657631955,
      "grad_norm": 4.25,
      "learning_rate": 4.7530055563275225e-06,
      "loss": 0.4601,
      "mean_token_accuracy": 0.8618411421775818,
      "num_tokens": 959914.0,
      "step": 164
    },
    {
      "entropy": 1.4573408663272858,
      "epoch": 0.37660485021398005,
      "grad_norm": 4.625,
      "learning_rate": 4.748908158774312e-06,
      "loss": 0.5381,
      "mean_token_accuracy": 0.8516411259770393,
      "num_tokens": 965145.0,
      "step": 165
    },
    {
      "entropy": 1.4346065074205399,
      "epoch": 0.3788873038516405,
      "grad_norm": 3.421875,
      "learning_rate": 4.744778850335974e-06,
      "loss": 0.4718,
      "mean_token_accuracy": 0.8635387867689133,
      "num_tokens": 971469.0,
      "step": 166
    },
    {
      "entropy": 1.4204413443803787,
      "epoch": 0.381169757489301,
      "grad_norm": 3.6875,
      "learning_rate": 4.7406176896053356e-06,
      "loss": 0.4281,
      "mean_token_accuracy": 0.8760756626725197,
      "num_tokens": 976905.0,
      "step": 167
    },
    {
      "entropy": 1.4582399874925613,
      "epoch": 0.3834522111269615,
      "grad_norm": 3.625,
      "learning_rate": 4.736424735627193e-06,
      "loss": 0.472,
      "mean_token_accuracy": 0.8653873577713966,
      "num_tokens": 982797.0,
      "step": 168
    },
    {
      "entropy": 1.4145529568195343,
      "epoch": 0.385734664764622,
      "grad_norm": 4.15625,
      "learning_rate": 4.73220004789747e-06,
      "loss": 0.4677,
      "mean_token_accuracy": 0.8689080029726028,
      "num_tokens": 988588.0,
      "step": 169
    },
    {
      "entropy": 1.4675364196300507,
      "epoch": 0.3880171184022825,
      "grad_norm": 3.796875,
      "learning_rate": 4.7279436863623805e-06,
      "loss": 0.4218,
      "mean_token_accuracy": 0.8724250420928001,
      "num_tokens": 994490.0,
      "step": 170
    },
    {
      "entropy": 1.4822284132242203,
      "epoch": 0.3902995720399429,
      "grad_norm": 3.25,
      "learning_rate": 4.7236557114175705e-06,
      "loss": 0.4036,
      "mean_token_accuracy": 0.8729385659098625,
      "num_tokens": 1000341.0,
      "step": 171
    },
    {
      "entropy": 1.5275023579597473,
      "epoch": 0.3925820256776034,
      "grad_norm": 3.71875,
      "learning_rate": 4.719336183907266e-06,
      "loss": 0.5107,
      "mean_token_accuracy": 0.846622422337532,
      "num_tokens": 1005552.0,
      "step": 172
    },
    {
      "entropy": 1.4371494799852371,
      "epoch": 0.3948644793152639,
      "grad_norm": 3.859375,
      "learning_rate": 4.7149851651234085e-06,
      "loss": 0.4761,
      "mean_token_accuracy": 0.856620728969574,
      "num_tokens": 1011272.0,
      "step": 173
    },
    {
      "entropy": 1.4481075257062912,
      "epoch": 0.3971469329529244,
      "grad_norm": 3.265625,
      "learning_rate": 4.710602716804784e-06,
      "loss": 0.4907,
      "mean_token_accuracy": 0.8551308736205101,
      "num_tokens": 1018025.0,
      "step": 174
    },
    {
      "entropy": 1.4776830077171326,
      "epoch": 0.39942938659058486,
      "grad_norm": 3.484375,
      "learning_rate": 4.706188901136148e-06,
      "loss": 0.4157,
      "mean_token_accuracy": 0.8659848943352699,
      "num_tokens": 1023559.0,
      "step": 175
    },
    {
      "entropy": 1.3460393995046616,
      "epoch": 0.40171184022824535,
      "grad_norm": 3.15625,
      "learning_rate": 4.701743780747345e-06,
      "loss": 0.3891,
      "mean_token_accuracy": 0.8979940786957741,
      "num_tokens": 1029587.0,
      "step": 176
    },
    {
      "entropy": 1.5323508977890015,
      "epoch": 0.40399429386590585,
      "grad_norm": 3.671875,
      "learning_rate": 4.697267418712415e-06,
      "loss": 0.5064,
      "mean_token_accuracy": 0.8600496724247932,
      "num_tokens": 1035523.0,
      "step": 177
    },
    {
      "entropy": 1.3961755633354187,
      "epoch": 0.40627674750356635,
      "grad_norm": 3.4375,
      "learning_rate": 4.6927598785487026e-06,
      "loss": 0.4937,
      "mean_token_accuracy": 0.8478540182113647,
      "num_tokens": 1041403.0,
      "step": 178
    },
    {
      "entropy": 1.4182656705379486,
      "epoch": 0.40855920114122685,
      "grad_norm": 3.015625,
      "learning_rate": 4.6882212242159555e-06,
      "loss": 0.3456,
      "mean_token_accuracy": 0.8982625529170036,
      "num_tokens": 1047682.0,
      "step": 179
    },
    {
      "entropy": 1.548415094614029,
      "epoch": 0.4108416547788873,
      "grad_norm": 4.3125,
      "learning_rate": 4.683651520115414e-06,
      "loss": 0.5678,
      "mean_token_accuracy": 0.8428888395428658,
      "num_tokens": 1053172.0,
      "step": 180
    },
    {
      "entropy": 1.396517127752304,
      "epoch": 0.4131241084165478,
      "grad_norm": 3.46875,
      "learning_rate": 4.679050831088902e-06,
      "loss": 0.4803,
      "mean_token_accuracy": 0.856790341436863,
      "num_tokens": 1059373.0,
      "step": 181
    },
    {
      "entropy": 1.3589655607938766,
      "epoch": 0.4154065620542083,
      "grad_norm": 3.53125,
      "learning_rate": 4.674419222417899e-06,
      "loss": 0.3944,
      "mean_token_accuracy": 0.8856743425130844,
      "num_tokens": 1065347.0,
      "step": 182
    },
    {
      "entropy": 1.5359989404678345,
      "epoch": 0.4176890156918688,
      "grad_norm": 4.15625,
      "learning_rate": 4.669756759822625e-06,
      "loss": 0.4896,
      "mean_token_accuracy": 0.8504308834671974,
      "num_tokens": 1070311.0,
      "step": 183
    },
    {
      "entropy": 1.3297200053930283,
      "epoch": 0.4199714693295292,
      "grad_norm": 3.21875,
      "learning_rate": 4.665063509461098e-06,
      "loss": 0.3047,
      "mean_token_accuracy": 0.9152820706367493,
      "num_tokens": 1076590.0,
      "step": 184
    },
    {
      "entropy": 1.3356045931577682,
      "epoch": 0.4222539229671897,
      "grad_norm": 2.9375,
      "learning_rate": 4.660339537928198e-06,
      "loss": 0.3891,
      "mean_token_accuracy": 0.8858283907175064,
      "num_tokens": 1082550.0,
      "step": 185
    },
    {
      "entropy": 1.518212452530861,
      "epoch": 0.4245363766048502,
      "grad_norm": 3.078125,
      "learning_rate": 4.655584912254727e-06,
      "loss": 0.393,
      "mean_token_accuracy": 0.8758783265948296,
      "num_tokens": 1088391.0,
      "step": 186
    },
    {
      "entropy": 1.488260880112648,
      "epoch": 0.4268188302425107,
      "grad_norm": 3.65625,
      "learning_rate": 4.650799699906452e-06,
      "loss": 0.4005,
      "mean_token_accuracy": 0.871321365237236,
      "num_tokens": 1093823.0,
      "step": 187
    },
    {
      "entropy": 1.4447910338640213,
      "epoch": 0.42910128388017116,
      "grad_norm": 3.21875,
      "learning_rate": 4.645983968783148e-06,
      "loss": 0.3873,
      "mean_token_accuracy": 0.8878121376037598,
      "num_tokens": 1099347.0,
      "step": 188
    },
    {
      "entropy": 1.4393097907304764,
      "epoch": 0.43138373751783166,
      "grad_norm": 3.40625,
      "learning_rate": 4.64113778721764e-06,
      "loss": 0.3712,
      "mean_token_accuracy": 0.8943579867482185,
      "num_tokens": 1104941.0,
      "step": 189
    },
    {
      "entropy": 1.5411454141139984,
      "epoch": 0.43366619115549215,
      "grad_norm": 4.15625,
      "learning_rate": 4.636261223974826e-06,
      "loss": 0.498,
      "mean_token_accuracy": 0.8571378961205482,
      "num_tokens": 1110031.0,
      "step": 190
    },
    {
      "entropy": 1.3604239225387573,
      "epoch": 0.43594864479315265,
      "grad_norm": 3.53125,
      "learning_rate": 4.631354348250706e-06,
      "loss": 0.4366,
      "mean_token_accuracy": 0.8668901473283768,
      "num_tokens": 1116176.0,
      "step": 191
    },
    {
      "entropy": 1.4267419427633286,
      "epoch": 0.43823109843081315,
      "grad_norm": 3.125,
      "learning_rate": 4.626417229671401e-06,
      "loss": 0.4324,
      "mean_token_accuracy": 0.8729524612426758,
      "num_tokens": 1122065.0,
      "step": 192
    },
    {
      "entropy": 1.554912507534027,
      "epoch": 0.4405135520684736,
      "grad_norm": 4.34375,
      "learning_rate": 4.621449938292159e-06,
      "loss": 0.5843,
      "mean_token_accuracy": 0.8273278325796127,
      "num_tokens": 1127506.0,
      "step": 193
    },
    {
      "entropy": 1.3502502888441086,
      "epoch": 0.4427960057061341,
      "grad_norm": 2.828125,
      "learning_rate": 4.616452544596367e-06,
      "loss": 0.3874,
      "mean_token_accuracy": 0.8785886839032173,
      "num_tokens": 1133494.0,
      "step": 194
    },
    {
      "entropy": 1.4718603789806366,
      "epoch": 0.4450784593437946,
      "grad_norm": 3.90625,
      "learning_rate": 4.611425119494552e-06,
      "loss": 0.4499,
      "mean_token_accuracy": 0.8621420189738274,
      "num_tokens": 1139036.0,
      "step": 195
    },
    {
      "entropy": 1.592808559536934,
      "epoch": 0.4473609129814551,
      "grad_norm": 4.5625,
      "learning_rate": 4.606367734323365e-06,
      "loss": 0.5667,
      "mean_token_accuracy": 0.832310289144516,
      "num_tokens": 1144022.0,
      "step": 196
    },
    {
      "entropy": 1.410594865679741,
      "epoch": 0.4496433666191155,
      "grad_norm": 4.03125,
      "learning_rate": 4.601280460844583e-06,
      "loss": 0.5266,
      "mean_token_accuracy": 0.855924166738987,
      "num_tokens": 1150011.0,
      "step": 197
    },
    {
      "entropy": 1.4304940402507782,
      "epoch": 0.451925820256776,
      "grad_norm": 4.46875,
      "learning_rate": 4.596163371244076e-06,
      "loss": 0.5302,
      "mean_token_accuracy": 0.8468711525201797,
      "num_tokens": 1155938.0,
      "step": 198
    },
    {
      "entropy": 1.4850642681121826,
      "epoch": 0.4542082738944365,
      "grad_norm": 3.8125,
      "learning_rate": 4.591016538130796e-06,
      "loss": 0.5296,
      "mean_token_accuracy": 0.8607726991176605,
      "num_tokens": 1161187.0,
      "step": 199
    },
    {
      "entropy": 1.495200276374817,
      "epoch": 0.456490727532097,
      "grad_norm": 3.71875,
      "learning_rate": 4.585840034535736e-06,
      "loss": 0.4806,
      "mean_token_accuracy": 0.865336537361145,
      "num_tokens": 1167354.0,
      "step": 200
    },
    {
      "epoch": 0.456490727532097,
      "eval_entropy": 1.4645510156949362,
      "eval_loss": 0.48574092984199524,
      "eval_mean_token_accuracy": 0.8648963557349311,
      "eval_num_tokens": 1167354.0,
      "eval_runtime": 4.6146,
      "eval_samples_per_second": 19.503,
      "eval_steps_per_second": 19.503,
      "step": 200
    },
    {
      "entropy": 1.5986905246973038,
      "epoch": 0.4587731811697575,
      "grad_norm": 3.984375,
      "learning_rate": 4.580633933910901e-06,
      "loss": 0.4827,
      "mean_token_accuracy": 0.8589570224285126,
      "num_tokens": 1173168.0,
      "step": 201
    },
    {
      "entropy": 1.4304189831018448,
      "epoch": 0.46105563480741796,
      "grad_norm": 3.328125,
      "learning_rate": 4.575398310128263e-06,
      "loss": 0.432,
      "mean_token_accuracy": 0.870637446641922,
      "num_tokens": 1178884.0,
      "step": 202
    },
    {
      "entropy": 1.5412327647209167,
      "epoch": 0.46333808844507846,
      "grad_norm": 4.03125,
      "learning_rate": 4.570133237478711e-06,
      "loss": 0.5089,
      "mean_token_accuracy": 0.8491686582565308,
      "num_tokens": 1184480.0,
      "step": 203
    },
    {
      "entropy": 1.4805094599723816,
      "epoch": 0.46562054208273895,
      "grad_norm": 3.453125,
      "learning_rate": 4.564838790671e-06,
      "loss": 0.5336,
      "mean_token_accuracy": 0.8480750620365143,
      "num_tokens": 1190484.0,
      "step": 204
    },
    {
      "entropy": 1.4799759984016418,
      "epoch": 0.46790299572039945,
      "grad_norm": 3.359375,
      "learning_rate": 4.55951504483069e-06,
      "loss": 0.4372,
      "mean_token_accuracy": 0.8827960044145584,
      "num_tokens": 1195901.0,
      "step": 205
    },
    {
      "entropy": 1.5237813293933868,
      "epoch": 0.4701854493580599,
      "grad_norm": 4.125,
      "learning_rate": 4.55416207549908e-06,
      "loss": 0.613,
      "mean_token_accuracy": 0.8307090178132057,
      "num_tokens": 1201383.0,
      "step": 206
    },
    {
      "entropy": 1.438712790608406,
      "epoch": 0.4724679029957204,
      "grad_norm": 3.21875,
      "learning_rate": 4.548779958632134e-06,
      "loss": 0.5351,
      "mean_token_accuracy": 0.8520702794194221,
      "num_tokens": 1207874.0,
      "step": 207
    },
    {
      "entropy": 1.4036246687173843,
      "epoch": 0.4747503566333809,
      "grad_norm": 3.390625,
      "learning_rate": 4.543368770599406e-06,
      "loss": 0.346,
      "mean_token_accuracy": 0.8787712529301643,
      "num_tokens": 1213989.0,
      "step": 208
    },
    {
      "entropy": 1.486038789153099,
      "epoch": 0.4770328102710414,
      "grad_norm": 3.71875,
      "learning_rate": 4.537928588182955e-06,
      "loss": 0.5211,
      "mean_token_accuracy": 0.8482290953397751,
      "num_tokens": 1219525.0,
      "step": 209
    },
    {
      "entropy": 1.444077506661415,
      "epoch": 0.4793152639087018,
      "grad_norm": 2.953125,
      "learning_rate": 4.532459488576258e-06,
      "loss": 0.3976,
      "mean_token_accuracy": 0.8832324147224426,
      "num_tokens": 1226231.0,
      "step": 210
    },
    {
      "entropy": 1.5054399818181992,
      "epoch": 0.4815977175463623,
      "grad_norm": 3.671875,
      "learning_rate": 4.526961549383109e-06,
      "loss": 0.4581,
      "mean_token_accuracy": 0.8546851649880409,
      "num_tokens": 1232271.0,
      "step": 211
    },
    {
      "entropy": 1.4887232929468155,
      "epoch": 0.4838801711840228,
      "grad_norm": 3.1875,
      "learning_rate": 4.521434848616523e-06,
      "loss": 0.4776,
      "mean_token_accuracy": 0.8665826469659805,
      "num_tokens": 1239076.0,
      "step": 212
    },
    {
      "entropy": 1.4471513032913208,
      "epoch": 0.4861626248216833,
      "grad_norm": 3.140625,
      "learning_rate": 4.515879464697629e-06,
      "loss": 0.3437,
      "mean_token_accuracy": 0.9033405035734177,
      "num_tokens": 1245117.0,
      "step": 213
    },
    {
      "entropy": 1.4255793392658234,
      "epoch": 0.4884450784593438,
      "grad_norm": 3.21875,
      "learning_rate": 4.5102954764545525e-06,
      "loss": 0.3922,
      "mean_token_accuracy": 0.879116877913475,
      "num_tokens": 1251024.0,
      "step": 214
    },
    {
      "entropy": 1.4146728217601776,
      "epoch": 0.49072753209700426,
      "grad_norm": 3.21875,
      "learning_rate": 4.5046829631213014e-06,
      "loss": 0.4581,
      "mean_token_accuracy": 0.8701305538415909,
      "num_tokens": 1257738.0,
      "step": 215
    },
    {
      "entropy": 1.4356386065483093,
      "epoch": 0.49300998573466476,
      "grad_norm": 2.796875,
      "learning_rate": 4.499042004336642e-06,
      "loss": 0.4283,
      "mean_token_accuracy": 0.8771600425243378,
      "num_tokens": 1265254.0,
      "step": 216
    },
    {
      "entropy": 1.3496776968240738,
      "epoch": 0.49529243937232525,
      "grad_norm": 2.859375,
      "learning_rate": 4.4933726801429665e-06,
      "loss": 0.3705,
      "mean_token_accuracy": 0.8920829594135284,
      "num_tokens": 1271970.0,
      "step": 217
    },
    {
      "entropy": 1.5127773433923721,
      "epoch": 0.49757489300998575,
      "grad_norm": 3.78125,
      "learning_rate": 4.487675070985156e-06,
      "loss": 0.4624,
      "mean_token_accuracy": 0.8566678315401077,
      "num_tokens": 1277606.0,
      "step": 218
    },
    {
      "entropy": 1.4766086488962173,
      "epoch": 0.4998573466476462,
      "grad_norm": 3.796875,
      "learning_rate": 4.481949257709442e-06,
      "loss": 0.4412,
      "mean_token_accuracy": 0.8686520978808403,
      "num_tokens": 1283617.0,
      "step": 219
    },
    {
      "entropy": 1.5000656843185425,
      "epoch": 0.5021398002853067,
      "grad_norm": 4.40625,
      "learning_rate": 4.476195321562262e-06,
      "loss": 0.5898,
      "mean_token_accuracy": 0.8323855772614479,
      "num_tokens": 1289328.0,
      "step": 220
    },
    {
      "entropy": 1.4562593698501587,
      "epoch": 0.5044222539229671,
      "grad_norm": 3.625,
      "learning_rate": 4.470413344189098e-06,
      "loss": 0.4657,
      "mean_token_accuracy": 0.8688141480088234,
      "num_tokens": 1294897.0,
      "step": 221
    },
    {
      "entropy": 1.412929117679596,
      "epoch": 0.5067047075606277,
      "grad_norm": 3.515625,
      "learning_rate": 4.464603407633326e-06,
      "loss": 0.4717,
      "mean_token_accuracy": 0.8586973398923874,
      "num_tokens": 1300887.0,
      "step": 222
    },
    {
      "entropy": 1.5253776609897614,
      "epoch": 0.5089871611982881,
      "grad_norm": 3.390625,
      "learning_rate": 4.458765594335048e-06,
      "loss": 0.473,
      "mean_token_accuracy": 0.8543320819735527,
      "num_tokens": 1306712.0,
      "step": 223
    },
    {
      "entropy": 1.5946801453828812,
      "epoch": 0.5112696148359487,
      "grad_norm": 3.90625,
      "learning_rate": 4.452899987129922e-06,
      "loss": 0.5303,
      "mean_token_accuracy": 0.8440029099583626,
      "num_tokens": 1311955.0,
      "step": 224
    },
    {
      "entropy": 1.3364089578390121,
      "epoch": 0.5135520684736091,
      "grad_norm": 3.140625,
      "learning_rate": 4.44700666924799e-06,
      "loss": 0.3431,
      "mean_token_accuracy": 0.8987620249390602,
      "num_tokens": 1318460.0,
      "step": 225
    },
    {
      "entropy": 1.4394992887973785,
      "epoch": 0.5158345221112696,
      "grad_norm": 3.0,
      "learning_rate": 4.441085724312494e-06,
      "loss": 0.4805,
      "mean_token_accuracy": 0.861751489341259,
      "num_tokens": 1325269.0,
      "step": 226
    },
    {
      "entropy": 1.4739690721035004,
      "epoch": 0.5181169757489301,
      "grad_norm": 3.5,
      "learning_rate": 4.435137236338688e-06,
      "loss": 0.4712,
      "mean_token_accuracy": 0.8692339286208153,
      "num_tokens": 1331087.0,
      "step": 227
    },
    {
      "entropy": 1.408553659915924,
      "epoch": 0.5203994293865906,
      "grad_norm": 3.703125,
      "learning_rate": 4.42916128973265e-06,
      "loss": 0.545,
      "mean_token_accuracy": 0.8480049669742584,
      "num_tokens": 1336928.0,
      "step": 228
    },
    {
      "entropy": 1.4906915128231049,
      "epoch": 0.5226818830242511,
      "grad_norm": 4.3125,
      "learning_rate": 4.423157969290081e-06,
      "loss": 0.4943,
      "mean_token_accuracy": 0.8629228696227074,
      "num_tokens": 1341951.0,
      "step": 229
    },
    {
      "entropy": 1.5799495428800583,
      "epoch": 0.5249643366619116,
      "grad_norm": 3.875,
      "learning_rate": 4.417127360195107e-06,
      "loss": 0.454,
      "mean_token_accuracy": 0.8446270450949669,
      "num_tokens": 1346983.0,
      "step": 230
    },
    {
      "entropy": 1.3668962121009827,
      "epoch": 0.527246790299572,
      "grad_norm": 3.28125,
      "learning_rate": 4.41106954801906e-06,
      "loss": 0.3977,
      "mean_token_accuracy": 0.8871706500649452,
      "num_tokens": 1354122.0,
      "step": 231
    },
    {
      "entropy": 1.5603487640619278,
      "epoch": 0.5295292439372326,
      "grad_norm": 3.359375,
      "learning_rate": 4.404984618719275e-06,
      "loss": 0.4717,
      "mean_token_accuracy": 0.8657551482319832,
      "num_tokens": 1359608.0,
      "step": 232
    },
    {
      "entropy": 1.4570914506912231,
      "epoch": 0.531811697574893,
      "grad_norm": 3.1875,
      "learning_rate": 4.398872658637863e-06,
      "loss": 0.4311,
      "mean_token_accuracy": 0.8685552924871445,
      "num_tokens": 1365590.0,
      "step": 233
    },
    {
      "entropy": 1.329675242304802,
      "epoch": 0.5340941512125535,
      "grad_norm": 3.09375,
      "learning_rate": 4.39273375450049e-06,
      "loss": 0.4566,
      "mean_token_accuracy": 0.8627236634492874,
      "num_tokens": 1372145.0,
      "step": 234
    },
    {
      "entropy": 1.4357402175664902,
      "epoch": 0.536376604850214,
      "grad_norm": 3.5,
      "learning_rate": 4.386567993415144e-06,
      "loss": 0.4507,
      "mean_token_accuracy": 0.8667884543538094,
      "num_tokens": 1377900.0,
      "step": 235
    },
    {
      "entropy": 1.5077559649944305,
      "epoch": 0.5386590584878744,
      "grad_norm": 3.984375,
      "learning_rate": 4.3803754628708995e-06,
      "loss": 0.5176,
      "mean_token_accuracy": 0.8583211898803711,
      "num_tokens": 1383999.0,
      "step": 236
    },
    {
      "entropy": 1.3777508586645126,
      "epoch": 0.540941512125535,
      "grad_norm": 3.265625,
      "learning_rate": 4.3741562507366754e-06,
      "loss": 0.3431,
      "mean_token_accuracy": 0.8923545554280281,
      "num_tokens": 1390419.0,
      "step": 237
    },
    {
      "entropy": 1.4933728128671646,
      "epoch": 0.5432239657631954,
      "grad_norm": 3.203125,
      "learning_rate": 4.367910445259991e-06,
      "loss": 0.4044,
      "mean_token_accuracy": 0.8686385452747345,
      "num_tokens": 1396684.0,
      "step": 238
    },
    {
      "entropy": 1.4653480350971222,
      "epoch": 0.5455064194008559,
      "grad_norm": 3.25,
      "learning_rate": 4.361638135065711e-06,
      "loss": 0.4561,
      "mean_token_accuracy": 0.8716481998562813,
      "num_tokens": 1402830.0,
      "step": 239
    },
    {
      "entropy": 1.5274227857589722,
      "epoch": 0.5477888730385164,
      "grad_norm": 3.6875,
      "learning_rate": 4.355339409154788e-06,
      "loss": 0.5069,
      "mean_token_accuracy": 0.8373076170682907,
      "num_tokens": 1408506.0,
      "step": 240
    },
    {
      "entropy": 1.4511406421661377,
      "epoch": 0.5500713266761769,
      "grad_norm": 3.3125,
      "learning_rate": 4.3490143569030025e-06,
      "loss": 0.4684,
      "mean_token_accuracy": 0.8665965721011162,
      "num_tokens": 1414792.0,
      "step": 241
    },
    {
      "entropy": 1.3838857859373093,
      "epoch": 0.5523537803138374,
      "grad_norm": 3.4375,
      "learning_rate": 4.34266306805969e-06,
      "loss": 0.4547,
      "mean_token_accuracy": 0.8690644651651382,
      "num_tokens": 1420524.0,
      "step": 242
    },
    {
      "entropy": 1.4130767732858658,
      "epoch": 0.5546362339514979,
      "grad_norm": 3.46875,
      "learning_rate": 4.336285632746472e-06,
      "loss": 0.471,
      "mean_token_accuracy": 0.8564508408308029,
      "num_tokens": 1426426.0,
      "step": 243
    },
    {
      "entropy": 1.618276908993721,
      "epoch": 0.5569186875891583,
      "grad_norm": 4.03125,
      "learning_rate": 4.329882141455974e-06,
      "loss": 0.5143,
      "mean_token_accuracy": 0.8403759598731995,
      "num_tokens": 1431586.0,
      "step": 244
    },
    {
      "entropy": 1.4412871301174164,
      "epoch": 0.5592011412268189,
      "grad_norm": 3.90625,
      "learning_rate": 4.323452685050545e-06,
      "loss": 0.4539,
      "mean_token_accuracy": 0.863670825958252,
      "num_tokens": 1437354.0,
      "step": 245
    },
    {
      "entropy": 1.4914350509643555,
      "epoch": 0.5614835948644793,
      "grad_norm": 3.03125,
      "learning_rate": 4.316997354760965e-06,
      "loss": 0.3826,
      "mean_token_accuracy": 0.8802237138152122,
      "num_tokens": 1443221.0,
      "step": 246
    },
    {
      "entropy": 1.5026773810386658,
      "epoch": 0.5637660485021398,
      "grad_norm": 3.359375,
      "learning_rate": 4.3105162421851494e-06,
      "loss": 0.4275,
      "mean_token_accuracy": 0.8739782869815826,
      "num_tokens": 1448716.0,
      "step": 247
    },
    {
      "entropy": 1.467271402478218,
      "epoch": 0.5660485021398003,
      "grad_norm": 3.765625,
      "learning_rate": 4.304009439286855e-06,
      "loss": 0.4786,
      "mean_token_accuracy": 0.8454955220222473,
      "num_tokens": 1453607.0,
      "step": 248
    },
    {
      "entropy": 1.3084248155355453,
      "epoch": 0.5683309557774607,
      "grad_norm": 3.171875,
      "learning_rate": 4.297477038394368e-06,
      "loss": 0.4264,
      "mean_token_accuracy": 0.8782637789845467,
      "num_tokens": 1460122.0,
      "step": 249
    },
    {
      "entropy": 1.4157914519309998,
      "epoch": 0.5706134094151213,
      "grad_norm": 3.046875,
      "learning_rate": 4.2909191321992e-06,
      "loss": 0.4883,
      "mean_token_accuracy": 0.8630497455596924,
      "num_tokens": 1466789.0,
      "step": 250
    },
    {
      "entropy": 1.3701231330633163,
      "epoch": 0.5728958630527817,
      "grad_norm": 3.53125,
      "learning_rate": 4.28433581375477e-06,
      "loss": 0.4331,
      "mean_token_accuracy": 0.874555304646492,
      "num_tokens": 1472752.0,
      "step": 251
    },
    {
      "entropy": 1.5737513154745102,
      "epoch": 0.5751783166904422,
      "grad_norm": 3.625,
      "learning_rate": 4.2777271764750805e-06,
      "loss": 0.4553,
      "mean_token_accuracy": 0.8664311170578003,
      "num_tokens": 1478473.0,
      "step": 252
    },
    {
      "entropy": 1.525623768568039,
      "epoch": 0.5774607703281027,
      "grad_norm": 3.390625,
      "learning_rate": 4.271093314133401e-06,
      "loss": 0.466,
      "mean_token_accuracy": 0.8556927219033241,
      "num_tokens": 1484284.0,
      "step": 253
    },
    {
      "entropy": 1.4639706760644913,
      "epoch": 0.5797432239657632,
      "grad_norm": 3.75,
      "learning_rate": 4.264434320860929e-06,
      "loss": 0.5532,
      "mean_token_accuracy": 0.844054289162159,
      "num_tokens": 1490166.0,
      "step": 254
    },
    {
      "entropy": 1.5366946905851364,
      "epoch": 0.5820256776034237,
      "grad_norm": 3.65625,
      "learning_rate": 4.257750291145457e-06,
      "loss": 0.5268,
      "mean_token_accuracy": 0.8521439135074615,
      "num_tokens": 1495689.0,
      "step": 255
    },
    {
      "entropy": 1.5063273757696152,
      "epoch": 0.5843081312410842,
      "grad_norm": 3.796875,
      "learning_rate": 4.251041319830034e-06,
      "loss": 0.5244,
      "mean_token_accuracy": 0.8497593402862549,
      "num_tokens": 1501104.0,
      "step": 256
    },
    {
      "entropy": 1.5439026057720184,
      "epoch": 0.5865905848787446,
      "grad_norm": 3.3125,
      "learning_rate": 4.2443075021116166e-06,
      "loss": 0.3605,
      "mean_token_accuracy": 0.8726519420742989,
      "num_tokens": 1506924.0,
      "step": 257
    },
    {
      "entropy": 1.4876836389303207,
      "epoch": 0.5888730385164052,
      "grad_norm": 3.640625,
      "learning_rate": 4.237548933539718e-06,
      "loss": 0.4703,
      "mean_token_accuracy": 0.866664931178093,
      "num_tokens": 1512828.0,
      "step": 258
    },
    {
      "entropy": 1.480648323893547,
      "epoch": 0.5911554921540656,
      "grad_norm": 3.3125,
      "learning_rate": 4.230765710015058e-06,
      "loss": 0.466,
      "mean_token_accuracy": 0.8522143065929413,
      "num_tokens": 1518522.0,
      "step": 259
    },
    {
      "entropy": 1.4419532120227814,
      "epoch": 0.5934379457917262,
      "grad_norm": 3.703125,
      "learning_rate": 4.223957927788195e-06,
      "loss": 0.4973,
      "mean_token_accuracy": 0.8543191030621529,
      "num_tokens": 1523970.0,
      "step": 260
    },
    {
      "entropy": 1.4034761041402817,
      "epoch": 0.5957203994293866,
      "grad_norm": 2.984375,
      "learning_rate": 4.217125683458162e-06,
      "loss": 0.3724,
      "mean_token_accuracy": 0.8887425437569618,
      "num_tokens": 1530150.0,
      "step": 261
    },
    {
      "entropy": 1.5668024867773056,
      "epoch": 0.598002853067047,
      "grad_norm": 4.5,
      "learning_rate": 4.210269073971098e-06,
      "loss": 0.4921,
      "mean_token_accuracy": 0.8630413040518761,
      "num_tokens": 1535368.0,
      "step": 262
    },
    {
      "entropy": 1.4702572673559189,
      "epoch": 0.6002853067047076,
      "grad_norm": 3.40625,
      "learning_rate": 4.203388196618874e-06,
      "loss": 0.3834,
      "mean_token_accuracy": 0.8823850229382515,
      "num_tokens": 1541388.0,
      "step": 263
    },
    {
      "entropy": 1.353348970413208,
      "epoch": 0.602567760342368,
      "grad_norm": 3.03125,
      "learning_rate": 4.196483149037707e-06,
      "loss": 0.3882,
      "mean_token_accuracy": 0.8797778934240341,
      "num_tokens": 1547245.0,
      "step": 264
    },
    {
      "entropy": 1.3397300243377686,
      "epoch": 0.6048502139800286,
      "grad_norm": 3.453125,
      "learning_rate": 4.1895540292067765e-06,
      "loss": 0.4969,
      "mean_token_accuracy": 0.8677136451005936,
      "num_tokens": 1553007.0,
      "step": 265
    },
    {
      "entropy": 1.533875733613968,
      "epoch": 0.607132667617689,
      "grad_norm": 4.15625,
      "learning_rate": 4.18260093544684e-06,
      "loss": 0.5423,
      "mean_token_accuracy": 0.8619329035282135,
      "num_tokens": 1559044.0,
      "step": 266
    },
    {
      "entropy": 1.4415863156318665,
      "epoch": 0.6094151212553495,
      "grad_norm": 3.296875,
      "learning_rate": 4.1756239664188275e-06,
      "loss": 0.4586,
      "mean_token_accuracy": 0.8679523020982742,
      "num_tokens": 1565121.0,
      "step": 267
    },
    {
      "entropy": 1.5389132052659988,
      "epoch": 0.61169757489301,
      "grad_norm": 3.515625,
      "learning_rate": 4.168623221122451e-06,
      "loss": 0.3954,
      "mean_token_accuracy": 0.8800017014145851,
      "num_tokens": 1570839.0,
      "step": 268
    },
    {
      "entropy": 1.4849002212285995,
      "epoch": 0.6139800285306705,
      "grad_norm": 4.46875,
      "learning_rate": 4.161598798894795e-06,
      "loss": 0.5272,
      "mean_token_accuracy": 0.842116691172123,
      "num_tokens": 1576765.0,
      "step": 269
    },
    {
      "entropy": 1.526948407292366,
      "epoch": 0.6162624821683309,
      "grad_norm": 3.796875,
      "learning_rate": 4.154550799408906e-06,
      "loss": 0.4815,
      "mean_token_accuracy": 0.8517501726746559,
      "num_tokens": 1582404.0,
      "step": 270
    },
    {
      "entropy": 1.5471256375312805,
      "epoch": 0.6185449358059915,
      "grad_norm": 4.0625,
      "learning_rate": 4.147479322672383e-06,
      "loss": 0.5704,
      "mean_token_accuracy": 0.8349821045994759,
      "num_tokens": 1588027.0,
      "step": 271
    },
    {
      "entropy": 1.3742996156215668,
      "epoch": 0.6208273894436519,
      "grad_norm": 3.03125,
      "learning_rate": 4.1403844690259544e-06,
      "loss": 0.4357,
      "mean_token_accuracy": 0.8906814530491829,
      "num_tokens": 1594482.0,
      "step": 272
    },
    {
      "entropy": 1.7183980494737625,
      "epoch": 0.6231098430813125,
      "grad_norm": 4.625,
      "learning_rate": 4.1332663391420515e-06,
      "loss": 0.6023,
      "mean_token_accuracy": 0.8240282908082008,
      "num_tokens": 1599978.0,
      "step": 273
    },
    {
      "entropy": 1.4364304840564728,
      "epoch": 0.6253922967189729,
      "grad_norm": 3.140625,
      "learning_rate": 4.126125034023392e-06,
      "loss": 0.4642,
      "mean_token_accuracy": 0.8591607213020325,
      "num_tokens": 1606427.0,
      "step": 274
    },
    {
      "entropy": 1.4346765726804733,
      "epoch": 0.6276747503566333,
      "grad_norm": 3.28125,
      "learning_rate": 4.11896065500153e-06,
      "loss": 0.4256,
      "mean_token_accuracy": 0.8701624721288681,
      "num_tokens": 1612618.0,
      "step": 275
    },
    {
      "entropy": 1.625702291727066,
      "epoch": 0.6299572039942939,
      "grad_norm": 5.125,
      "learning_rate": 4.111773303735432e-06,
      "loss": 0.4558,
      "mean_token_accuracy": 0.8545658215880394,
      "num_tokens": 1617388.0,
      "step": 276
    },
    {
      "entropy": 1.4506097733974457,
      "epoch": 0.6322396576319543,
      "grad_norm": 3.046875,
      "learning_rate": 4.104563082210028e-06,
      "loss": 0.4293,
      "mean_token_accuracy": 0.8728143572807312,
      "num_tokens": 1623851.0,
      "step": 277
    },
    {
      "entropy": 1.5303080081939697,
      "epoch": 0.6345221112696149,
      "grad_norm": 3.515625,
      "learning_rate": 4.097330092734765e-06,
      "loss": 0.5024,
      "mean_token_accuracy": 0.8505230322480202,
      "num_tokens": 1629428.0,
      "step": 278
    },
    {
      "entropy": 1.4354898631572723,
      "epoch": 0.6368045649072753,
      "grad_norm": 3.03125,
      "learning_rate": 4.090074437942155e-06,
      "loss": 0.435,
      "mean_token_accuracy": 0.8785936459898949,
      "num_tokens": 1635769.0,
      "step": 279
    },
    {
      "entropy": 1.547384113073349,
      "epoch": 0.6390870185449358,
      "grad_norm": 4.0,
      "learning_rate": 4.082796220786324e-06,
      "loss": 0.5469,
      "mean_token_accuracy": 0.8383355513215065,
      "num_tokens": 1641791.0,
      "step": 280
    },
    {
      "entropy": 1.480806604027748,
      "epoch": 0.6413694721825963,
      "grad_norm": 4.4375,
      "learning_rate": 4.0754955445415405e-06,
      "loss": 0.4233,
      "mean_token_accuracy": 0.8961210995912552,
      "num_tokens": 1646709.0,
      "step": 281
    },
    {
      "entropy": 1.4669694900512695,
      "epoch": 0.6436519258202568,
      "grad_norm": 4.0,
      "learning_rate": 4.06817251280076e-06,
      "loss": 0.4288,
      "mean_token_accuracy": 0.8806118816137314,
      "num_tokens": 1651676.0,
      "step": 282
    },
    {
      "entropy": 1.4136276096105576,
      "epoch": 0.6459343794579172,
      "grad_norm": 3.15625,
      "learning_rate": 4.06082722947415e-06,
      "loss": 0.4005,
      "mean_token_accuracy": 0.8672489523887634,
      "num_tokens": 1657293.0,
      "step": 283
    },
    {
      "entropy": 1.4642555862665176,
      "epoch": 0.6482168330955778,
      "grad_norm": 3.421875,
      "learning_rate": 4.053459798787619e-06,
      "loss": 0.4534,
      "mean_token_accuracy": 0.8670831546187401,
      "num_tokens": 1662778.0,
      "step": 284
    },
    {
      "entropy": 1.4143490493297577,
      "epoch": 0.6504992867332382,
      "grad_norm": 3.015625,
      "learning_rate": 4.046070325281333e-06,
      "loss": 0.4511,
      "mean_token_accuracy": 0.8704198077321053,
      "num_tokens": 1669050.0,
      "step": 285
    },
    {
      "entropy": 1.402878537774086,
      "epoch": 0.6527817403708988,
      "grad_norm": 2.78125,
      "learning_rate": 4.038658913808235e-06,
      "loss": 0.3552,
      "mean_token_accuracy": 0.8852335959672928,
      "num_tokens": 1675168.0,
      "step": 286
    },
    {
      "entropy": 1.4332346022129059,
      "epoch": 0.6550641940085592,
      "grad_norm": 3.359375,
      "learning_rate": 4.031225669532558e-06,
      "loss": 0.4411,
      "mean_token_accuracy": 0.8605756536126137,
      "num_tokens": 1680716.0,
      "step": 287
    },
    {
      "entropy": 1.4855122715234756,
      "epoch": 0.6573466476462196,
      "grad_norm": 3.890625,
      "learning_rate": 4.0237706979283306e-06,
      "loss": 0.5067,
      "mean_token_accuracy": 0.8480587676167488,
      "num_tokens": 1686358.0,
      "step": 288
    },
    {
      "entropy": 1.415476381778717,
      "epoch": 0.6596291012838802,
      "grad_norm": 3.109375,
      "learning_rate": 4.016294104777883e-06,
      "loss": 0.3724,
      "mean_token_accuracy": 0.8872483521699905,
      "num_tokens": 1692477.0,
      "step": 289
    },
    {
      "entropy": 1.4918617755174637,
      "epoch": 0.6619115549215406,
      "grad_norm": 3.546875,
      "learning_rate": 4.008795996170341e-06,
      "loss": 0.481,
      "mean_token_accuracy": 0.8568604290485382,
      "num_tokens": 1698377.0,
      "step": 290
    },
    {
      "entropy": 1.3961764425039291,
      "epoch": 0.6641940085592012,
      "grad_norm": 3.015625,
      "learning_rate": 4.001276478500127e-06,
      "loss": 0.3972,
      "mean_token_accuracy": 0.885112538933754,
      "num_tokens": 1704209.0,
      "step": 291
    },
    {
      "entropy": 1.4769706726074219,
      "epoch": 0.6664764621968616,
      "grad_norm": 3.640625,
      "learning_rate": 3.993735658465446e-06,
      "loss": 0.5053,
      "mean_token_accuracy": 0.8577989414334297,
      "num_tokens": 1710422.0,
      "step": 292
    },
    {
      "entropy": 1.3838878571987152,
      "epoch": 0.6687589158345221,
      "grad_norm": 2.96875,
      "learning_rate": 3.986173643066774e-06,
      "loss": 0.3759,
      "mean_token_accuracy": 0.8760515302419662,
      "num_tokens": 1716105.0,
      "step": 293
    },
    {
      "entropy": 1.3878977000713348,
      "epoch": 0.6710413694721826,
      "grad_norm": 2.796875,
      "learning_rate": 3.978590539605338e-06,
      "loss": 0.329,
      "mean_token_accuracy": 0.8979349583387375,
      "num_tokens": 1723015.0,
      "step": 294
    },
    {
      "entropy": 1.4417504221200943,
      "epoch": 0.6733238231098431,
      "grad_norm": 3.453125,
      "learning_rate": 3.970986455681593e-06,
      "loss": 0.5339,
      "mean_token_accuracy": 0.854948602616787,
      "num_tokens": 1729102.0,
      "step": 295
    },
    {
      "entropy": 1.4643060863018036,
      "epoch": 0.6756062767475036,
      "grad_norm": 3.171875,
      "learning_rate": 3.963361499193699e-06,
      "loss": 0.4545,
      "mean_token_accuracy": 0.8652586191892624,
      "num_tokens": 1734903.0,
      "step": 296
    },
    {
      "entropy": 1.4911223948001862,
      "epoch": 0.6778887303851641,
      "grad_norm": 3.25,
      "learning_rate": 3.955715778335984e-06,
      "loss": 0.4584,
      "mean_token_accuracy": 0.8684913441538811,
      "num_tokens": 1740820.0,
      "step": 297
    },
    {
      "entropy": 1.414558470249176,
      "epoch": 0.6801711840228245,
      "grad_norm": 3.046875,
      "learning_rate": 3.948049401597414e-06,
      "loss": 0.4304,
      "mean_token_accuracy": 0.8772279694676399,
      "num_tokens": 1747285.0,
      "step": 298
    },
    {
      "entropy": 1.4684519618749619,
      "epoch": 0.6824536376604851,
      "grad_norm": 3.5,
      "learning_rate": 3.9403624777600526e-06,
      "loss": 0.3402,
      "mean_token_accuracy": 0.8974613174796104,
      "num_tokens": 1752238.0,
      "step": 299
    },
    {
      "entropy": 1.513798087835312,
      "epoch": 0.6847360912981455,
      "grad_norm": 4.4375,
      "learning_rate": 3.932655115897513e-06,
      "loss": 0.518,
      "mean_token_accuracy": 0.8387879729270935,
      "num_tokens": 1757263.0,
      "step": 300
    },
    {
      "epoch": 0.6847360912981455,
      "eval_entropy": 1.4728518161508772,
      "eval_loss": 0.4787273108959198,
      "eval_mean_token_accuracy": 0.8652989500098758,
      "eval_num_tokens": 1757263.0,
      "eval_runtime": 4.4526,
      "eval_samples_per_second": 20.213,
      "eval_steps_per_second": 20.213,
      "step": 300
    },
    {
      "entropy": 1.5329459309577942,
      "epoch": 0.6870185449358059,
      "grad_norm": 3.0625,
      "learning_rate": 3.924927425373417e-06,
      "loss": 0.3762,
      "mean_token_accuracy": 0.8721340969204903,
      "num_tokens": 1762777.0,
      "step": 301
    },
    {
      "entropy": 1.3736970275640488,
      "epoch": 0.6893009985734665,
      "grad_norm": 2.84375,
      "learning_rate": 3.91717951583984e-06,
      "loss": 0.403,
      "mean_token_accuracy": 0.8769481182098389,
      "num_tokens": 1769311.0,
      "step": 302
    },
    {
      "entropy": 1.4778434038162231,
      "epoch": 0.6915834522111269,
      "grad_norm": 3.265625,
      "learning_rate": 3.909411497235752e-06,
      "loss": 0.4176,
      "mean_token_accuracy": 0.8799067437648773,
      "num_tokens": 1775618.0,
      "step": 303
    },
    {
      "entropy": 1.493824690580368,
      "epoch": 0.6938659058487875,
      "grad_norm": 3.046875,
      "learning_rate": 3.901623479785465e-06,
      "loss": 0.4883,
      "mean_token_accuracy": 0.8613429367542267,
      "num_tokens": 1782559.0,
      "step": 304
    },
    {
      "entropy": 1.412913128733635,
      "epoch": 0.6961483594864479,
      "grad_norm": 4.28125,
      "learning_rate": 3.89381557399706e-06,
      "loss": 0.4606,
      "mean_token_accuracy": 0.8659727945923805,
      "num_tokens": 1788268.0,
      "step": 305
    },
    {
      "entropy": 1.3977010250091553,
      "epoch": 0.6984308131241084,
      "grad_norm": 3.046875,
      "learning_rate": 3.885987890660828e-06,
      "loss": 0.3609,
      "mean_token_accuracy": 0.8855833634734154,
      "num_tokens": 1794289.0,
      "step": 306
    },
    {
      "entropy": 1.4351555556058884,
      "epoch": 0.7007132667617689,
      "grad_norm": 3.203125,
      "learning_rate": 3.87814054084769e-06,
      "loss": 0.3922,
      "mean_token_accuracy": 0.882360152900219,
      "num_tokens": 1800100.0,
      "step": 307
    },
    {
      "entropy": 1.4589954763650894,
      "epoch": 0.7029957203994294,
      "grad_norm": 3.84375,
      "learning_rate": 3.8702736359076265e-06,
      "loss": 0.4728,
      "mean_token_accuracy": 0.8583435043692589,
      "num_tokens": 1806175.0,
      "step": 308
    },
    {
      "entropy": 1.497866302728653,
      "epoch": 0.7052781740370899,
      "grad_norm": 3.984375,
      "learning_rate": 3.862387287468095e-06,
      "loss": 0.5149,
      "mean_token_accuracy": 0.8527609705924988,
      "num_tokens": 1811406.0,
      "step": 309
    },
    {
      "entropy": 1.5516266524791718,
      "epoch": 0.7075606276747504,
      "grad_norm": 3.5,
      "learning_rate": 3.854481607432445e-06,
      "loss": 0.4476,
      "mean_token_accuracy": 0.8626842275261879,
      "num_tokens": 1816804.0,
      "step": 310
    },
    {
      "entropy": 1.3300371170043945,
      "epoch": 0.7098430813124108,
      "grad_norm": 3.0625,
      "learning_rate": 3.846556707978337e-06,
      "loss": 0.4001,
      "mean_token_accuracy": 0.8860765770077705,
      "num_tokens": 1823102.0,
      "step": 311
    },
    {
      "entropy": 1.5138549208641052,
      "epoch": 0.7121255349500714,
      "grad_norm": 3.71875,
      "learning_rate": 3.838612701556138e-06,
      "loss": 0.4696,
      "mean_token_accuracy": 0.8707823753356934,
      "num_tokens": 1828740.0,
      "step": 312
    },
    {
      "entropy": 1.4780635386705399,
      "epoch": 0.7144079885877318,
      "grad_norm": 3.140625,
      "learning_rate": 3.830649700887339e-06,
      "loss": 0.4598,
      "mean_token_accuracy": 0.8627598807215691,
      "num_tokens": 1835314.0,
      "step": 313
    },
    {
      "entropy": 1.483512207865715,
      "epoch": 0.7166904422253922,
      "grad_norm": 3.859375,
      "learning_rate": 3.822667818962948e-06,
      "loss": 0.3944,
      "mean_token_accuracy": 0.8666610270738602,
      "num_tokens": 1840589.0,
      "step": 314
    },
    {
      "entropy": 1.351017713546753,
      "epoch": 0.7189728958630528,
      "grad_norm": 3.046875,
      "learning_rate": 3.814667169041887e-06,
      "loss": 0.4589,
      "mean_token_accuracy": 0.8681119009852409,
      "num_tokens": 1846865.0,
      "step": 315
    },
    {
      "entropy": 1.454156056046486,
      "epoch": 0.7212553495007132,
      "grad_norm": 2.859375,
      "learning_rate": 3.8066478646493898e-06,
      "loss": 0.3616,
      "mean_token_accuracy": 0.887380801141262,
      "num_tokens": 1853343.0,
      "step": 316
    },
    {
      "entropy": 1.3507359623908997,
      "epoch": 0.7235378031383738,
      "grad_norm": 3.109375,
      "learning_rate": 3.798610019575384e-06,
      "loss": 0.3908,
      "mean_token_accuracy": 0.8893059492111206,
      "num_tokens": 1859535.0,
      "step": 317
    },
    {
      "entropy": 1.5166684240102768,
      "epoch": 0.7258202567760342,
      "grad_norm": 4.3125,
      "learning_rate": 3.790553747872885e-06,
      "loss": 0.5235,
      "mean_token_accuracy": 0.8411901965737343,
      "num_tokens": 1864957.0,
      "step": 318
    },
    {
      "entropy": 1.4589732587337494,
      "epoch": 0.7281027104136947,
      "grad_norm": 3.34375,
      "learning_rate": 3.7824791638563674e-06,
      "loss": 0.4074,
      "mean_token_accuracy": 0.8821713030338287,
      "num_tokens": 1870586.0,
      "step": 319
    },
    {
      "entropy": 1.429191216826439,
      "epoch": 0.7303851640513552,
      "grad_norm": 3.40625,
      "learning_rate": 3.7743863821001538e-06,
      "loss": 0.4902,
      "mean_token_accuracy": 0.8597285747528076,
      "num_tokens": 1876572.0,
      "step": 320
    },
    {
      "entropy": 1.52955062687397,
      "epoch": 0.7326676176890157,
      "grad_norm": 4.09375,
      "learning_rate": 3.766275517436779e-06,
      "loss": 0.5007,
      "mean_token_accuracy": 0.8509823232889175,
      "num_tokens": 1881581.0,
      "step": 321
    },
    {
      "entropy": 1.6073177456855774,
      "epoch": 0.7349500713266762,
      "grad_norm": 4.9375,
      "learning_rate": 3.7581466849553685e-06,
      "loss": 0.5742,
      "mean_token_accuracy": 0.8330699577927589,
      "num_tokens": 1886980.0,
      "step": 322
    },
    {
      "entropy": 1.490510642528534,
      "epoch": 0.7372325249643367,
      "grad_norm": 4.15625,
      "learning_rate": 3.7500000000000005e-06,
      "loss": 0.5597,
      "mean_token_accuracy": 0.8421717286109924,
      "num_tokens": 1892848.0,
      "step": 323
    },
    {
      "entropy": 1.4249206632375717,
      "epoch": 0.7395149786019971,
      "grad_norm": 3.59375,
      "learning_rate": 3.741835578168071e-06,
      "loss": 0.5289,
      "mean_token_accuracy": 0.8406483083963394,
      "num_tokens": 1899057.0,
      "step": 324
    },
    {
      "entropy": 1.4169852286577225,
      "epoch": 0.7417974322396577,
      "grad_norm": 3.421875,
      "learning_rate": 3.7336535353086546e-06,
      "loss": 0.4855,
      "mean_token_accuracy": 0.8616788312792778,
      "num_tokens": 1905042.0,
      "step": 325
    },
    {
      "entropy": 1.5189264565706253,
      "epoch": 0.7440798858773181,
      "grad_norm": 3.59375,
      "learning_rate": 3.7254539875208577e-06,
      "loss": 0.5092,
      "mean_token_accuracy": 0.8563691675662994,
      "num_tokens": 1910608.0,
      "step": 326
    },
    {
      "entropy": 1.4049191176891327,
      "epoch": 0.7463623395149787,
      "grad_norm": 3.40625,
      "learning_rate": 3.717237051152175e-06,
      "loss": 0.4253,
      "mean_token_accuracy": 0.8755350038409233,
      "num_tokens": 1916900.0,
      "step": 327
    },
    {
      "entropy": 1.4406355023384094,
      "epoch": 0.7486447931526391,
      "grad_norm": 3.3125,
      "learning_rate": 3.7090028427968343e-06,
      "loss": 0.5454,
      "mean_token_accuracy": 0.8430257961153984,
      "num_tokens": 1923487.0,
      "step": 328
    },
    {
      "entropy": 1.4147418439388275,
      "epoch": 0.7509272467902995,
      "grad_norm": 3.734375,
      "learning_rate": 3.7007514792941462e-06,
      "loss": 0.4328,
      "mean_token_accuracy": 0.873896099627018,
      "num_tokens": 1929126.0,
      "step": 329
    },
    {
      "entropy": 1.4407319128513336,
      "epoch": 0.7532097004279601,
      "grad_norm": 3.609375,
      "learning_rate": 3.692483077726843e-06,
      "loss": 0.4482,
      "mean_token_accuracy": 0.8734828159213066,
      "num_tokens": 1935299.0,
      "step": 330
    },
    {
      "entropy": 1.3825494647026062,
      "epoch": 0.7554921540656205,
      "grad_norm": 3.046875,
      "learning_rate": 3.684197755419419e-06,
      "loss": 0.3914,
      "mean_token_accuracy": 0.8881862461566925,
      "num_tokens": 1941583.0,
      "step": 331
    },
    {
      "entropy": 1.5679688155651093,
      "epoch": 0.757774607703281,
      "grad_norm": 3.5,
      "learning_rate": 3.6758956299364643e-06,
      "loss": 0.5205,
      "mean_token_accuracy": 0.850575216114521,
      "num_tokens": 1947719.0,
      "step": 332
    },
    {
      "entropy": 1.478807806968689,
      "epoch": 0.7600570613409415,
      "grad_norm": 3.953125,
      "learning_rate": 3.6675768190810023e-06,
      "loss": 0.5383,
      "mean_token_accuracy": 0.8558880761265755,
      "num_tokens": 1952792.0,
      "step": 333
    },
    {
      "entropy": 1.4567435085773468,
      "epoch": 0.762339514978602,
      "grad_norm": 3.625,
      "learning_rate": 3.659241440892806e-06,
      "loss": 0.4479,
      "mean_token_accuracy": 0.8747463598847389,
      "num_tokens": 1959114.0,
      "step": 334
    },
    {
      "entropy": 1.3806256204843521,
      "epoch": 0.7646219686162625,
      "grad_norm": 2.90625,
      "learning_rate": 3.6508896136467376e-06,
      "loss": 0.3259,
      "mean_token_accuracy": 0.9004263803362846,
      "num_tokens": 1965297.0,
      "step": 335
    },
    {
      "entropy": 1.3886072635650635,
      "epoch": 0.766904422253923,
      "grad_norm": 2.75,
      "learning_rate": 3.642521455851058e-06,
      "loss": 0.3218,
      "mean_token_accuracy": 0.8972492516040802,
      "num_tokens": 1972145.0,
      "step": 336
    },
    {
      "entropy": 1.4320484548807144,
      "epoch": 0.7691868758915834,
      "grad_norm": 3.671875,
      "learning_rate": 3.634137086245754e-06,
      "loss": 0.4502,
      "mean_token_accuracy": 0.8562175408005714,
      "num_tokens": 1977851.0,
      "step": 337
    },
    {
      "entropy": 1.606041207909584,
      "epoch": 0.771469329529244,
      "grad_norm": 3.921875,
      "learning_rate": 3.625736623800849e-06,
      "loss": 0.5698,
      "mean_token_accuracy": 0.8275244310498238,
      "num_tokens": 1983459.0,
      "step": 338
    },
    {
      "entropy": 1.396391972899437,
      "epoch": 0.7737517831669044,
      "grad_norm": 3.125,
      "learning_rate": 3.6173201877147134e-06,
      "loss": 0.4157,
      "mean_token_accuracy": 0.8768060877919197,
      "num_tokens": 1989443.0,
      "step": 339
    },
    {
      "entropy": 1.2999221831560135,
      "epoch": 0.776034236804565,
      "grad_norm": 2.65625,
      "learning_rate": 3.6088878974123796e-06,
      "loss": 0.3211,
      "mean_token_accuracy": 0.9015626162290573,
      "num_tokens": 1996081.0,
      "step": 340
    },
    {
      "entropy": 1.4438531249761581,
      "epoch": 0.7783166904422254,
      "grad_norm": 3.109375,
      "learning_rate": 3.6004398725438406e-06,
      "loss": 0.4224,
      "mean_token_accuracy": 0.8693163841962814,
      "num_tokens": 2002046.0,
      "step": 341
    },
    {
      "entropy": 1.5661528557538986,
      "epoch": 0.7805991440798858,
      "grad_norm": 3.8125,
      "learning_rate": 3.5919762329823556e-06,
      "loss": 0.4583,
      "mean_token_accuracy": 0.8407174274325371,
      "num_tokens": 2007992.0,
      "step": 342
    },
    {
      "entropy": 1.5423270612955093,
      "epoch": 0.7828815977175464,
      "grad_norm": 3.828125,
      "learning_rate": 3.5834970988227484e-06,
      "loss": 0.5046,
      "mean_token_accuracy": 0.8615901097655296,
      "num_tokens": 2013678.0,
      "step": 343
    },
    {
      "entropy": 1.3757345080375671,
      "epoch": 0.7851640513552068,
      "grad_norm": 3.078125,
      "learning_rate": 3.5750025903797053e-06,
      "loss": 0.435,
      "mean_token_accuracy": 0.8637730702757835,
      "num_tokens": 2019976.0,
      "step": 344
    },
    {
      "entropy": 1.5496114045381546,
      "epoch": 0.7874465049928673,
      "grad_norm": 4.03125,
      "learning_rate": 3.566492828186063e-06,
      "loss": 0.466,
      "mean_token_accuracy": 0.861820325255394,
      "num_tokens": 2025396.0,
      "step": 345
    },
    {
      "entropy": 1.4001742899417877,
      "epoch": 0.7897289586305278,
      "grad_norm": 3.265625,
      "learning_rate": 3.5579679329911025e-06,
      "loss": 0.4244,
      "mean_token_accuracy": 0.8774027079343796,
      "num_tokens": 2031341.0,
      "step": 346
    },
    {
      "entropy": 1.4246700257062912,
      "epoch": 0.7920114122681883,
      "grad_norm": 2.59375,
      "learning_rate": 3.5494280257588367e-06,
      "loss": 0.3573,
      "mean_token_accuracy": 0.8994497805833817,
      "num_tokens": 2038154.0,
      "step": 347
    },
    {
      "entropy": 1.4771685898303986,
      "epoch": 0.7942938659058488,
      "grad_norm": 3.5625,
      "learning_rate": 3.5408732276662882e-06,
      "loss": 0.4837,
      "mean_token_accuracy": 0.8569220453500748,
      "num_tokens": 2043977.0,
      "step": 348
    },
    {
      "entropy": 1.3758689016103745,
      "epoch": 0.7965763195435093,
      "grad_norm": 3.484375,
      "learning_rate": 3.532303660101776e-06,
      "loss": 0.4086,
      "mean_token_accuracy": 0.8799771890044212,
      "num_tokens": 2049581.0,
      "step": 349
    },
    {
      "entropy": 1.4391580671072006,
      "epoch": 0.7988587731811697,
      "grad_norm": 3.4375,
      "learning_rate": 3.5237194446631883e-06,
      "loss": 0.4414,
      "mean_token_accuracy": 0.8686051443219185,
      "num_tokens": 2054885.0,
      "step": 350
    },
    {
      "entropy": 1.572434514760971,
      "epoch": 0.8011412268188303,
      "grad_norm": 3.578125,
      "learning_rate": 3.515120703156264e-06,
      "loss": 0.4561,
      "mean_token_accuracy": 0.869783990085125,
      "num_tokens": 2060752.0,
      "step": 351
    },
    {
      "entropy": 1.3927340656518936,
      "epoch": 0.8034236804564907,
      "grad_norm": 3.25,
      "learning_rate": 3.506507557592853e-06,
      "loss": 0.3986,
      "mean_token_accuracy": 0.8710938170552254,
      "num_tokens": 2066701.0,
      "step": 352
    },
    {
      "entropy": 1.6066904217004776,
      "epoch": 0.8057061340941513,
      "grad_norm": 4.5,
      "learning_rate": 3.4978801301891972e-06,
      "loss": 0.5213,
      "mean_token_accuracy": 0.8417335525155067,
      "num_tokens": 2072037.0,
      "step": 353
    },
    {
      "entropy": 1.5368521958589554,
      "epoch": 0.8079885877318117,
      "grad_norm": 3.6875,
      "learning_rate": 3.4892385433641875e-06,
      "loss": 0.5679,
      "mean_token_accuracy": 0.8372282758355141,
      "num_tokens": 2077090.0,
      "step": 354
    },
    {
      "entropy": 1.4477348923683167,
      "epoch": 0.8102710413694721,
      "grad_norm": 3.140625,
      "learning_rate": 3.480582919737631e-06,
      "loss": 0.4322,
      "mean_token_accuracy": 0.8827796950936317,
      "num_tokens": 2083157.0,
      "step": 355
    },
    {
      "entropy": 1.449633464217186,
      "epoch": 0.8125534950071327,
      "grad_norm": 3.578125,
      "learning_rate": 3.4719133821285108e-06,
      "loss": 0.497,
      "mean_token_accuracy": 0.8483736291527748,
      "num_tokens": 2089047.0,
      "step": 356
    },
    {
      "entropy": 1.4000667333602905,
      "epoch": 0.8148359486447931,
      "grad_norm": 3.109375,
      "learning_rate": 3.4632300535532415e-06,
      "loss": 0.5416,
      "mean_token_accuracy": 0.8374148234724998,
      "num_tokens": 2095911.0,
      "step": 357
    },
    {
      "entropy": 1.5335423648357391,
      "epoch": 0.8171184022824537,
      "grad_norm": 3.703125,
      "learning_rate": 3.4545330572239234e-06,
      "loss": 0.4418,
      "mean_token_accuracy": 0.8705498203635216,
      "num_tokens": 2101062.0,
      "step": 358
    },
    {
      "entropy": 1.4877882897853851,
      "epoch": 0.8194008559201141,
      "grad_norm": 2.96875,
      "learning_rate": 3.445822516546598e-06,
      "loss": 0.382,
      "mean_token_accuracy": 0.885826900601387,
      "num_tokens": 2107503.0,
      "step": 359
    },
    {
      "entropy": 1.5615941286087036,
      "epoch": 0.8216833095577746,
      "grad_norm": 3.515625,
      "learning_rate": 3.437098555119493e-06,
      "loss": 0.4703,
      "mean_token_accuracy": 0.8597147017717361,
      "num_tokens": 2112957.0,
      "step": 360
    },
    {
      "entropy": 1.4338414072990417,
      "epoch": 0.8239657631954351,
      "grad_norm": 3.65625,
      "learning_rate": 3.4283612967312692e-06,
      "loss": 0.4431,
      "mean_token_accuracy": 0.8747149705886841,
      "num_tokens": 2119534.0,
      "step": 361
    },
    {
      "entropy": 1.3991961032152176,
      "epoch": 0.8262482168330956,
      "grad_norm": 2.8125,
      "learning_rate": 3.4196108653592662e-06,
      "loss": 0.3343,
      "mean_token_accuracy": 0.9073175340890884,
      "num_tokens": 2125905.0,
      "step": 362
    },
    {
      "entropy": 1.4029065370559692,
      "epoch": 0.828530670470756,
      "grad_norm": 3.265625,
      "learning_rate": 3.4108473851677408e-06,
      "loss": 0.3691,
      "mean_token_accuracy": 0.8828721046447754,
      "num_tokens": 2132517.0,
      "step": 363
    },
    {
      "entropy": 1.4478721916675568,
      "epoch": 0.8308131241084166,
      "grad_norm": 3.0,
      "learning_rate": 3.4020709805061066e-06,
      "loss": 0.399,
      "mean_token_accuracy": 0.8760695457458496,
      "num_tokens": 2138908.0,
      "step": 364
    },
    {
      "entropy": 1.470540538430214,
      "epoch": 0.833095577746077,
      "grad_norm": 3.59375,
      "learning_rate": 3.3932817759071666e-06,
      "loss": 0.4839,
      "mean_token_accuracy": 0.8647991716861725,
      "num_tokens": 2144936.0,
      "step": 365
    },
    {
      "entropy": 1.3821264803409576,
      "epoch": 0.8353780313837376,
      "grad_norm": 3.40625,
      "learning_rate": 3.3844798960853533e-06,
      "loss": 0.4712,
      "mean_token_accuracy": 0.8681535720825195,
      "num_tokens": 2151022.0,
      "step": 366
    },
    {
      "entropy": 1.4431174248456955,
      "epoch": 0.837660485021398,
      "grad_norm": 3.484375,
      "learning_rate": 3.3756654659349487e-06,
      "loss": 0.4008,
      "mean_token_accuracy": 0.8728353902697563,
      "num_tokens": 2156626.0,
      "step": 367
    },
    {
      "entropy": 1.3731088489294052,
      "epoch": 0.8399429386590584,
      "grad_norm": 3.40625,
      "learning_rate": 3.3668386105283226e-06,
      "loss": 0.4741,
      "mean_token_accuracy": 0.863268293440342,
      "num_tokens": 2163234.0,
      "step": 368
    },
    {
      "entropy": 1.4210239797830582,
      "epoch": 0.842225392296719,
      "grad_norm": 2.921875,
      "learning_rate": 3.357999455114148e-06,
      "loss": 0.4039,
      "mean_token_accuracy": 0.8817742839455605,
      "num_tokens": 2169749.0,
      "step": 369
    },
    {
      "entropy": 1.4794443249702454,
      "epoch": 0.8445078459343794,
      "grad_norm": 3.25,
      "learning_rate": 3.3491481251156355e-06,
      "loss": 0.4879,
      "mean_token_accuracy": 0.8580229580402374,
      "num_tokens": 2175776.0,
      "step": 370
    },
    {
      "entropy": 1.6413906067609787,
      "epoch": 0.84679029957204,
      "grad_norm": 4.1875,
      "learning_rate": 3.34028474612874e-06,
      "loss": 0.4411,
      "mean_token_accuracy": 0.8557733818888664,
      "num_tokens": 2180562.0,
      "step": 371
    },
    {
      "entropy": 1.410418540239334,
      "epoch": 0.8490727532097004,
      "grad_norm": 3.359375,
      "learning_rate": 3.3314094439203903e-06,
      "loss": 0.4152,
      "mean_token_accuracy": 0.8825007230043411,
      "num_tokens": 2185764.0,
      "step": 372
    },
    {
      "entropy": 1.479749009013176,
      "epoch": 0.8513552068473609,
      "grad_norm": 3.578125,
      "learning_rate": 3.322522344426698e-06,
      "loss": 0.4534,
      "mean_token_accuracy": 0.8688785433769226,
      "num_tokens": 2191225.0,
      "step": 373
    },
    {
      "entropy": 1.4503730237483978,
      "epoch": 0.8536376604850214,
      "grad_norm": 3.1875,
      "learning_rate": 3.3136235737511715e-06,
      "loss": 0.3714,
      "mean_token_accuracy": 0.8881650194525719,
      "num_tokens": 2196792.0,
      "step": 374
    },
    {
      "entropy": 1.3789267241954803,
      "epoch": 0.8559201141226819,
      "grad_norm": 2.953125,
      "learning_rate": 3.3047132581629297e-06,
      "loss": 0.398,
      "mean_token_accuracy": 0.8848712220788002,
      "num_tokens": 2203140.0,
      "step": 375
    },
    {
      "entropy": 1.4894972145557404,
      "epoch": 0.8582025677603423,
      "grad_norm": 3.203125,
      "learning_rate": 3.295791524094906e-06,
      "loss": 0.3865,
      "mean_token_accuracy": 0.8710450083017349,
      "num_tokens": 2209122.0,
      "step": 376
    },
    {
      "entropy": 1.3985904306173325,
      "epoch": 0.8604850213980029,
      "grad_norm": 2.875,
      "learning_rate": 3.286858498142057e-06,
      "loss": 0.4158,
      "mean_token_accuracy": 0.878923624753952,
      "num_tokens": 2215258.0,
      "step": 377
    },
    {
      "entropy": 1.548867017030716,
      "epoch": 0.8627674750356633,
      "grad_norm": 3.484375,
      "learning_rate": 3.277914307059566e-06,
      "loss": 0.5408,
      "mean_token_accuracy": 0.8471002653241158,
      "num_tokens": 2221371.0,
      "step": 378
    },
    {
      "entropy": 1.4772979021072388,
      "epoch": 0.8650499286733239,
      "grad_norm": 3.25,
      "learning_rate": 3.2689590777610443e-06,
      "loss": 0.3972,
      "mean_token_accuracy": 0.8763172924518585,
      "num_tokens": 2227158.0,
      "step": 379
    },
    {
      "entropy": 1.5023012608289719,
      "epoch": 0.8673323823109843,
      "grad_norm": 2.96875,
      "learning_rate": 3.259992937316727e-06,
      "loss": 0.4516,
      "mean_token_accuracy": 0.8623324111104012,
      "num_tokens": 2233629.0,
      "step": 380
    },
    {
      "entropy": 1.5667530596256256,
      "epoch": 0.8696148359486447,
      "grad_norm": 5.0625,
      "learning_rate": 3.251016012951678e-06,
      "loss": 0.6043,
      "mean_token_accuracy": 0.8312884569168091,
      "num_tokens": 2239082.0,
      "step": 381
    },
    {
      "entropy": 1.380866751074791,
      "epoch": 0.8718972895863053,
      "grad_norm": 3.140625,
      "learning_rate": 3.242028432043974e-06,
      "loss": 0.4196,
      "mean_token_accuracy": 0.8756621181964874,
      "num_tokens": 2245272.0,
      "step": 382
    },
    {
      "entropy": 1.4950210005044937,
      "epoch": 0.8741797432239657,
      "grad_norm": 3.265625,
      "learning_rate": 3.2330303221229078e-06,
      "loss": 0.4317,
      "mean_token_accuracy": 0.8579834923148155,
      "num_tokens": 2251010.0,
      "step": 383
    },
    {
      "entropy": 1.7085559666156769,
      "epoch": 0.8764621968616263,
      "grad_norm": 4.6875,
      "learning_rate": 3.2240218108671683e-06,
      "loss": 0.6511,
      "mean_token_accuracy": 0.8028427958488464,
      "num_tokens": 2256288.0,
      "step": 384
    },
    {
      "entropy": 1.579810380935669,
      "epoch": 0.8787446504992867,
      "grad_norm": 3.5,
      "learning_rate": 3.2150030261030414e-06,
      "loss": 0.4849,
      "mean_token_accuracy": 0.8453002646565437,
      "num_tokens": 2262186.0,
      "step": 385
    },
    {
      "entropy": 1.5028070509433746,
      "epoch": 0.8810271041369472,
      "grad_norm": 3.6875,
      "learning_rate": 3.205974095802582e-06,
      "loss": 0.5576,
      "mean_token_accuracy": 0.8453918322920799,
      "num_tokens": 2268003.0,
      "step": 386
    },
    {
      "entropy": 1.50083489716053,
      "epoch": 0.8833095577746077,
      "grad_norm": 3.859375,
      "learning_rate": 3.196935148081808e-06,
      "loss": 0.5821,
      "mean_token_accuracy": 0.8238921985030174,
      "num_tokens": 2273238.0,
      "step": 387
    },
    {
      "entropy": 1.460751935839653,
      "epoch": 0.8855920114122682,
      "grad_norm": 3.078125,
      "learning_rate": 3.187886311198881e-06,
      "loss": 0.463,
      "mean_token_accuracy": 0.8708171024918556,
      "num_tokens": 2279778.0,
      "step": 388
    },
    {
      "entropy": 1.3422992527484894,
      "epoch": 0.8878744650499286,
      "grad_norm": 3.28125,
      "learning_rate": 3.178827713552281e-06,
      "loss": 0.4008,
      "mean_token_accuracy": 0.875513955950737,
      "num_tokens": 2286016.0,
      "step": 389
    },
    {
      "entropy": 1.5027628540992737,
      "epoch": 0.8901569186875892,
      "grad_norm": 3.328125,
      "learning_rate": 3.1697594836789924e-06,
      "loss": 0.5086,
      "mean_token_accuracy": 0.8417061790823936,
      "num_tokens": 2291896.0,
      "step": 390
    },
    {
      "entropy": 1.5571343451738358,
      "epoch": 0.8924393723252496,
      "grad_norm": 4.53125,
      "learning_rate": 3.160681750252674e-06,
      "loss": 0.5863,
      "mean_token_accuracy": 0.8346568569540977,
      "num_tokens": 2296989.0,
      "step": 391
    },
    {
      "entropy": 1.4478174448013306,
      "epoch": 0.8947218259629102,
      "grad_norm": 3.265625,
      "learning_rate": 3.1515946420818343e-06,
      "loss": 0.4618,
      "mean_token_accuracy": 0.8564577624201775,
      "num_tokens": 2303240.0,
      "step": 392
    },
    {
      "entropy": 1.4417100101709366,
      "epoch": 0.8970042796005706,
      "grad_norm": 3.3125,
      "learning_rate": 3.142498288108007e-06,
      "loss": 0.5086,
      "mean_token_accuracy": 0.8544816300272942,
      "num_tokens": 2308819.0,
      "step": 393
    },
    {
      "entropy": 1.549110621213913,
      "epoch": 0.899286733238231,
      "grad_norm": 3.234375,
      "learning_rate": 3.133392817403919e-06,
      "loss": 0.4943,
      "mean_token_accuracy": 0.8492691740393639,
      "num_tokens": 2315199.0,
      "step": 394
    },
    {
      "entropy": 1.437395378947258,
      "epoch": 0.9015691868758916,
      "grad_norm": 3.265625,
      "learning_rate": 3.124278359171657e-06,
      "loss": 0.4162,
      "mean_token_accuracy": 0.8790151923894882,
      "num_tokens": 2321449.0,
      "step": 395
    },
    {
      "entropy": 1.4882071912288666,
      "epoch": 0.903851640513552,
      "grad_norm": 3.15625,
      "learning_rate": 3.1151550427408383e-06,
      "loss": 0.3974,
      "mean_token_accuracy": 0.8646276146173477,
      "num_tokens": 2327198.0,
      "step": 396
    },
    {
      "entropy": 1.414357990026474,
      "epoch": 0.9061340941512126,
      "grad_norm": 3.640625,
      "learning_rate": 3.1060229975667716e-06,
      "loss": 0.3884,
      "mean_token_accuracy": 0.874775730073452,
      "num_tokens": 2333184.0,
      "step": 397
    },
    {
      "entropy": 1.5017937868833542,
      "epoch": 0.908416547788873,
      "grad_norm": 3.09375,
      "learning_rate": 3.0968823532286246e-06,
      "loss": 0.4596,
      "mean_token_accuracy": 0.8661977797746658,
      "num_tokens": 2339353.0,
      "step": 398
    },
    {
      "entropy": 1.4912959188222885,
      "epoch": 0.9106990014265335,
      "grad_norm": 3.015625,
      "learning_rate": 3.0877332394275806e-06,
      "loss": 0.3845,
      "mean_token_accuracy": 0.8872612118721008,
      "num_tokens": 2345323.0,
      "step": 399
    },
    {
      "entropy": 1.5040694773197174,
      "epoch": 0.912981455064194,
      "grad_norm": 3.84375,
      "learning_rate": 3.0785757859850025e-06,
      "loss": 0.4793,
      "mean_token_accuracy": 0.8584380373358727,
      "num_tokens": 2350382.0,
      "step": 400
    },
    {
      "epoch": 0.912981455064194,
      "eval_entropy": 1.4835859013928308,
      "eval_loss": 0.47563549876213074,
      "eval_mean_token_accuracy": 0.8651414997047848,
      "eval_num_tokens": 2350382.0,
      "eval_runtime": 4.4144,
      "eval_samples_per_second": 20.388,
      "eval_steps_per_second": 20.388,
      "step": 400
    },
    {
      "entropy": 1.4684801995754242,
      "epoch": 0.9152639087018545,
      "grad_norm": 3.765625,
      "learning_rate": 3.069410122840585e-06,
      "loss": 0.4838,
      "mean_token_accuracy": 0.8577789217233658,
      "num_tokens": 2356642.0,
      "step": 401
    },
    {
      "entropy": 1.4736972451210022,
      "epoch": 0.917546362339515,
      "grad_norm": 3.09375,
      "learning_rate": 3.0602363800505198e-06,
      "loss": 0.4626,
      "mean_token_accuracy": 0.8666577711701393,
      "num_tokens": 2363069.0,
      "step": 402
    },
    {
      "entropy": 1.4170372486114502,
      "epoch": 0.9198288159771755,
      "grad_norm": 2.96875,
      "learning_rate": 3.05105468778564e-06,
      "loss": 0.4183,
      "mean_token_accuracy": 0.8878279328346252,
      "num_tokens": 2369558.0,
      "step": 403
    },
    {
      "entropy": 1.2785319834947586,
      "epoch": 0.9221112696148359,
      "grad_norm": 3.0,
      "learning_rate": 3.041865176329579e-06,
      "loss": 0.383,
      "mean_token_accuracy": 0.8874974772334099,
      "num_tokens": 2376487.0,
      "step": 404
    },
    {
      "entropy": 1.5108132362365723,
      "epoch": 0.9243937232524965,
      "grad_norm": 3.796875,
      "learning_rate": 3.032667976076923e-06,
      "loss": 0.5087,
      "mean_token_accuracy": 0.8496776968240738,
      "num_tokens": 2382047.0,
      "step": 405
    },
    {
      "entropy": 1.4732455164194107,
      "epoch": 0.9266761768901569,
      "grad_norm": 2.84375,
      "learning_rate": 3.0234632175313537e-06,
      "loss": 0.3808,
      "mean_token_accuracy": 0.8731858357787132,
      "num_tokens": 2388697.0,
      "step": 406
    },
    {
      "entropy": 1.428204596042633,
      "epoch": 0.9289586305278174,
      "grad_norm": 2.96875,
      "learning_rate": 3.0142510313038057e-06,
      "loss": 0.3893,
      "mean_token_accuracy": 0.8852085620164871,
      "num_tokens": 2395175.0,
      "step": 407
    },
    {
      "entropy": 1.3948392271995544,
      "epoch": 0.9312410841654779,
      "grad_norm": 3.015625,
      "learning_rate": 3.0050315481106074e-06,
      "loss": 0.4367,
      "mean_token_accuracy": 0.8680780380964279,
      "num_tokens": 2401107.0,
      "step": 408
    },
    {
      "entropy": 1.4686945080757141,
      "epoch": 0.9335235378031383,
      "grad_norm": 3.078125,
      "learning_rate": 2.9958048987716266e-06,
      "loss": 0.4492,
      "mean_token_accuracy": 0.8716259375214577,
      "num_tokens": 2407315.0,
      "step": 409
    },
    {
      "entropy": 1.5125146508216858,
      "epoch": 0.9358059914407989,
      "grad_norm": 3.5625,
      "learning_rate": 2.9865712142084145e-06,
      "loss": 0.5313,
      "mean_token_accuracy": 0.8568686470389366,
      "num_tokens": 2413259.0,
      "step": 410
    },
    {
      "entropy": 1.433497592806816,
      "epoch": 0.9380884450784593,
      "grad_norm": 3.0,
      "learning_rate": 2.977330625442352e-06,
      "loss": 0.412,
      "mean_token_accuracy": 0.8721762746572495,
      "num_tokens": 2419468.0,
      "step": 411
    },
    {
      "entropy": 1.4551435112953186,
      "epoch": 0.9403708987161198,
      "grad_norm": 2.90625,
      "learning_rate": 2.9680832635927824e-06,
      "loss": 0.472,
      "mean_token_accuracy": 0.8528627678751945,
      "num_tokens": 2426271.0,
      "step": 412
    },
    {
      "entropy": 1.447442203760147,
      "epoch": 0.9426533523537803,
      "grad_norm": 2.71875,
      "learning_rate": 2.95882925987516e-06,
      "loss": 0.3598,
      "mean_token_accuracy": 0.8820754066109657,
      "num_tokens": 2432887.0,
      "step": 413
    },
    {
      "entropy": 1.5209446549415588,
      "epoch": 0.9449358059914408,
      "grad_norm": 3.46875,
      "learning_rate": 2.949568745599182e-06,
      "loss": 0.4893,
      "mean_token_accuracy": 0.8616260290145874,
      "num_tokens": 2438656.0,
      "step": 414
    },
    {
      "entropy": 1.4069498479366302,
      "epoch": 0.9472182596291013,
      "grad_norm": 3.46875,
      "learning_rate": 2.9403018521669256e-06,
      "loss": 0.5104,
      "mean_token_accuracy": 0.8574993088841438,
      "num_tokens": 2444704.0,
      "step": 415
    },
    {
      "entropy": 1.487932413816452,
      "epoch": 0.9495007132667618,
      "grad_norm": 3.21875,
      "learning_rate": 2.9310287110709895e-06,
      "loss": 0.4016,
      "mean_token_accuracy": 0.8731286600232124,
      "num_tokens": 2450361.0,
      "step": 416
    },
    {
      "entropy": 1.5046747326850891,
      "epoch": 0.9517831669044222,
      "grad_norm": 3.34375,
      "learning_rate": 2.921749453892618e-06,
      "loss": 0.4286,
      "mean_token_accuracy": 0.8756372630596161,
      "num_tokens": 2456532.0,
      "step": 417
    },
    {
      "entropy": 1.5569333881139755,
      "epoch": 0.9540656205420828,
      "grad_norm": 3.4375,
      "learning_rate": 2.9124642122998453e-06,
      "loss": 0.5047,
      "mean_token_accuracy": 0.8422510251402855,
      "num_tokens": 2462276.0,
      "step": 418
    },
    {
      "entropy": 1.477220967411995,
      "epoch": 0.9563480741797432,
      "grad_norm": 3.015625,
      "learning_rate": 2.903173118045616e-06,
      "loss": 0.4585,
      "mean_token_accuracy": 0.8631913363933563,
      "num_tokens": 2468621.0,
      "step": 419
    },
    {
      "entropy": 1.3926943019032478,
      "epoch": 0.9586305278174037,
      "grad_norm": 3.53125,
      "learning_rate": 2.893876302965925e-06,
      "loss": 0.4379,
      "mean_token_accuracy": 0.8661207035183907,
      "num_tokens": 2474234.0,
      "step": 420
    },
    {
      "entropy": 1.5482182949781418,
      "epoch": 0.9609129814550642,
      "grad_norm": 3.78125,
      "learning_rate": 2.884573898977941e-06,
      "loss": 0.507,
      "mean_token_accuracy": 0.8496933579444885,
      "num_tokens": 2479680.0,
      "step": 421
    },
    {
      "entropy": 1.360275536775589,
      "epoch": 0.9631954350927246,
      "grad_norm": 3.3125,
      "learning_rate": 2.8752660380781367e-06,
      "loss": 0.4307,
      "mean_token_accuracy": 0.8788939565420151,
      "num_tokens": 2485907.0,
      "step": 422
    },
    {
      "entropy": 1.3031716644763947,
      "epoch": 0.9654778887303852,
      "grad_norm": 2.875,
      "learning_rate": 2.865952852340417e-06,
      "loss": 0.3625,
      "mean_token_accuracy": 0.8956428542733192,
      "num_tokens": 2492467.0,
      "step": 423
    },
    {
      "entropy": 1.541382610797882,
      "epoch": 0.9677603423680456,
      "grad_norm": 3.8125,
      "learning_rate": 2.856634473914242e-06,
      "loss": 0.5266,
      "mean_token_accuracy": 0.8559072092175484,
      "num_tokens": 2498045.0,
      "step": 424
    },
    {
      "entropy": 1.4921831041574478,
      "epoch": 0.9700427960057061,
      "grad_norm": 3.28125,
      "learning_rate": 2.8473110350227536e-06,
      "loss": 0.3466,
      "mean_token_accuracy": 0.8902567103505135,
      "num_tokens": 2503553.0,
      "step": 425
    },
    {
      "entropy": 1.470309928059578,
      "epoch": 0.9723252496433666,
      "grad_norm": 3.375,
      "learning_rate": 2.8379826679609e-06,
      "loss": 0.4556,
      "mean_token_accuracy": 0.8601387813687325,
      "num_tokens": 2509707.0,
      "step": 426
    },
    {
      "entropy": 1.3546678721904755,
      "epoch": 0.9746077032810271,
      "grad_norm": 2.828125,
      "learning_rate": 2.828649505093558e-06,
      "loss": 0.3985,
      "mean_token_accuracy": 0.8941172435879707,
      "num_tokens": 2516288.0,
      "step": 427
    },
    {
      "entropy": 1.4447802305221558,
      "epoch": 0.9768901569186876,
      "grad_norm": 3.421875,
      "learning_rate": 2.819311678853652e-06,
      "loss": 0.4776,
      "mean_token_accuracy": 0.8569598346948624,
      "num_tokens": 2521956.0,
      "step": 428
    },
    {
      "entropy": 1.6203635483980179,
      "epoch": 0.9791726105563481,
      "grad_norm": 3.734375,
      "learning_rate": 2.8099693217402807e-06,
      "loss": 0.4593,
      "mean_token_accuracy": 0.8529090061783791,
      "num_tokens": 2526920.0,
      "step": 429
    },
    {
      "entropy": 1.473097711801529,
      "epoch": 0.9814550641940085,
      "grad_norm": 3.265625,
      "learning_rate": 2.800622566316831e-06,
      "loss": 0.5033,
      "mean_token_accuracy": 0.8560734689235687,
      "num_tokens": 2533504.0,
      "step": 430
    },
    {
      "entropy": 1.5207239985466003,
      "epoch": 0.9837375178316691,
      "grad_norm": 4.09375,
      "learning_rate": 2.7912715452091014e-06,
      "loss": 0.5041,
      "mean_token_accuracy": 0.8554971441626549,
      "num_tokens": 2538535.0,
      "step": 431
    },
    {
      "entropy": 1.5741059184074402,
      "epoch": 0.9860199714693295,
      "grad_norm": 4.0,
      "learning_rate": 2.7819163911034175e-06,
      "loss": 0.4511,
      "mean_token_accuracy": 0.8700136467814445,
      "num_tokens": 2543371.0,
      "step": 432
    },
    {
      "entropy": 1.3865297734737396,
      "epoch": 0.9883024251069901,
      "grad_norm": 3.4375,
      "learning_rate": 2.77255723674475e-06,
      "loss": 0.4648,
      "mean_token_accuracy": 0.8642655313014984,
      "num_tokens": 2549303.0,
      "step": 433
    },
    {
      "entropy": 1.484322428703308,
      "epoch": 0.9905848787446505,
      "grad_norm": 3.453125,
      "learning_rate": 2.7631942149348313e-06,
      "loss": 0.5178,
      "mean_token_accuracy": 0.8604016155004501,
      "num_tokens": 2554892.0,
      "step": 434
    },
    {
      "entropy": 1.4711394906044006,
      "epoch": 0.992867332382311,
      "grad_norm": 3.1875,
      "learning_rate": 2.7538274585302707e-06,
      "loss": 0.5105,
      "mean_token_accuracy": 0.8574899211525917,
      "num_tokens": 2561168.0,
      "step": 435
    },
    {
      "entropy": 1.4003391563892365,
      "epoch": 0.9951497860199715,
      "grad_norm": 2.890625,
      "learning_rate": 2.74445710044067e-06,
      "loss": 0.3995,
      "mean_token_accuracy": 0.8786035105586052,
      "num_tokens": 2567401.0,
      "step": 436
    },
    {
      "entropy": 1.4778650850057602,
      "epoch": 0.997432239657632,
      "grad_norm": 3.25,
      "learning_rate": 2.735083273626738e-06,
      "loss": 0.5094,
      "mean_token_accuracy": 0.8610806316137314,
      "num_tokens": 2573896.0,
      "step": 437
    },
    {
      "entropy": 1.5298404842615128,
      "epoch": 0.9997146932952924,
      "grad_norm": 3.765625,
      "learning_rate": 2.7257061110984005e-06,
      "loss": 0.5801,
      "mean_token_accuracy": 0.8354984298348427,
      "num_tokens": 2579575.0,
      "step": 438
    },
    {
      "entropy": 1.2647957801818848,
      "epoch": 1.0,
      "grad_norm": 7.5,
      "learning_rate": 2.7163257459129184e-06,
      "loss": 0.3378,
      "mean_token_accuracy": 0.9111570119857788,
      "num_tokens": 2580462.0,
      "step": 439
    },
    {
      "entropy": 1.5493428707122803,
      "epoch": 1.0022824536376604,
      "grad_norm": 3.53125,
      "learning_rate": 2.7069423111729948e-06,
      "loss": 0.482,
      "mean_token_accuracy": 0.8536929711699486,
      "num_tokens": 2586104.0,
      "step": 440
    },
    {
      "entropy": 1.6429398506879807,
      "epoch": 1.0045649072753209,
      "grad_norm": 3.765625,
      "learning_rate": 2.6975559400248876e-06,
      "loss": 0.5162,
      "mean_token_accuracy": 0.8646445199847221,
      "num_tokens": 2591601.0,
      "step": 441
    },
    {
      "entropy": 1.3536241203546524,
      "epoch": 1.0068473609129815,
      "grad_norm": 2.53125,
      "learning_rate": 2.688166765656523e-06,
      "loss": 0.3578,
      "mean_token_accuracy": 0.8843531683087349,
      "num_tokens": 2598127.0,
      "step": 442
    },
    {
      "entropy": 1.4669701904058456,
      "epoch": 1.009129814550642,
      "grad_norm": 3.921875,
      "learning_rate": 2.6787749212956023e-06,
      "loss": 0.5313,
      "mean_token_accuracy": 0.8472650721669197,
      "num_tokens": 2603447.0,
      "step": 443
    },
    {
      "entropy": 1.4554204195737839,
      "epoch": 1.0114122681883024,
      "grad_norm": 3.78125,
      "learning_rate": 2.6693805402077123e-06,
      "loss": 0.5817,
      "mean_token_accuracy": 0.83076561242342,
      "num_tokens": 2609040.0,
      "step": 444
    },
    {
      "entropy": 1.4986287206411362,
      "epoch": 1.0136947218259629,
      "grad_norm": 3.546875,
      "learning_rate": 2.6599837556944353e-06,
      "loss": 0.498,
      "mean_token_accuracy": 0.8590250089764595,
      "num_tokens": 2615545.0,
      "step": 445
    },
    {
      "entropy": 1.5251432359218597,
      "epoch": 1.0159771754636233,
      "grad_norm": 4.0,
      "learning_rate": 2.6505847010914575e-06,
      "loss": 0.633,
      "mean_token_accuracy": 0.8183507323265076,
      "num_tokens": 2621930.0,
      "step": 446
    },
    {
      "entropy": 1.4970913529396057,
      "epoch": 1.018259629101284,
      "grad_norm": 3.203125,
      "learning_rate": 2.641183509766675e-06,
      "loss": 0.3988,
      "mean_token_accuracy": 0.8723035603761673,
      "num_tokens": 2627761.0,
      "step": 447
    },
    {
      "entropy": 1.4567296206951141,
      "epoch": 1.0205420827389444,
      "grad_norm": 3.296875,
      "learning_rate": 2.6317803151183053e-06,
      "loss": 0.4201,
      "mean_token_accuracy": 0.8818748518824577,
      "num_tokens": 2633748.0,
      "step": 448
    },
    {
      "entropy": 1.4635232239961624,
      "epoch": 1.0228245363766049,
      "grad_norm": 3.109375,
      "learning_rate": 2.6223752505729884e-06,
      "loss": 0.452,
      "mean_token_accuracy": 0.8645489439368248,
      "num_tokens": 2639662.0,
      "step": 449
    },
    {
      "entropy": 1.4294497519731522,
      "epoch": 1.0251069900142653,
      "grad_norm": 3.28125,
      "learning_rate": 2.6129684495839013e-06,
      "loss": 0.5102,
      "mean_token_accuracy": 0.8570954278111458,
      "num_tokens": 2645946.0,
      "step": 450
    },
    {
      "entropy": 1.3900626301765442,
      "epoch": 1.0273894436519257,
      "grad_norm": 2.9375,
      "learning_rate": 2.6035600456288573e-06,
      "loss": 0.3859,
      "mean_token_accuracy": 0.8834785372018814,
      "num_tokens": 2652364.0,
      "step": 451
    },
    {
      "entropy": 1.4409504532814026,
      "epoch": 1.0296718972895864,
      "grad_norm": 3.1875,
      "learning_rate": 2.594150172208417e-06,
      "loss": 0.4641,
      "mean_token_accuracy": 0.8652448132634163,
      "num_tokens": 2658338.0,
      "step": 452
    },
    {
      "entropy": 1.5055885165929794,
      "epoch": 1.0319543509272469,
      "grad_norm": 3.625,
      "learning_rate": 2.5847389628439905e-06,
      "loss": 0.426,
      "mean_token_accuracy": 0.8645097240805626,
      "num_tokens": 2663620.0,
      "step": 453
    },
    {
      "entropy": 1.5077017843723297,
      "epoch": 1.0342368045649073,
      "grad_norm": 3.15625,
      "learning_rate": 2.575326551075945e-06,
      "loss": 0.4288,
      "mean_token_accuracy": 0.8733096942305565,
      "num_tokens": 2669362.0,
      "step": 454
    },
    {
      "entropy": 1.3824554234743118,
      "epoch": 1.0365192582025677,
      "grad_norm": 3.03125,
      "learning_rate": 2.5659130704617092e-06,
      "loss": 0.4209,
      "mean_token_accuracy": 0.8664216324687004,
      "num_tokens": 2675587.0,
      "step": 455
    },
    {
      "entropy": 1.4790180027484894,
      "epoch": 1.0388017118402282,
      "grad_norm": 3.09375,
      "learning_rate": 2.5564986545738767e-06,
      "loss": 0.3928,
      "mean_token_accuracy": 0.8827410265803337,
      "num_tokens": 2681742.0,
      "step": 456
    },
    {
      "entropy": 1.4870340526103973,
      "epoch": 1.0410841654778886,
      "grad_norm": 3.734375,
      "learning_rate": 2.547083436998316e-06,
      "loss": 0.3968,
      "mean_token_accuracy": 0.8777871504426003,
      "num_tokens": 2687070.0,
      "step": 457
    },
    {
      "entropy": 1.492873653769493,
      "epoch": 1.0433666191155493,
      "grad_norm": 3.375,
      "learning_rate": 2.5376675513322665e-06,
      "loss": 0.4273,
      "mean_token_accuracy": 0.8743336573243141,
      "num_tokens": 2693415.0,
      "step": 458
    },
    {
      "entropy": 1.5607992857694626,
      "epoch": 1.0456490727532097,
      "grad_norm": 4.0,
      "learning_rate": 2.52825113118245e-06,
      "loss": 0.5436,
      "mean_token_accuracy": 0.8444447070360184,
      "num_tokens": 2699241.0,
      "step": 459
    },
    {
      "entropy": 1.4991340637207031,
      "epoch": 1.0479315263908702,
      "grad_norm": 3.0,
      "learning_rate": 2.5188343101631717e-06,
      "loss": 0.4713,
      "mean_token_accuracy": 0.8594570085406303,
      "num_tokens": 2705629.0,
      "step": 460
    },
    {
      "entropy": 1.4429044276475906,
      "epoch": 1.0502139800285306,
      "grad_norm": 3.28125,
      "learning_rate": 2.5094172218944276e-06,
      "loss": 0.5136,
      "mean_token_accuracy": 0.8507946282625198,
      "num_tokens": 2711944.0,
      "step": 461
    },
    {
      "entropy": 1.5478469878435135,
      "epoch": 1.052496433666191,
      "grad_norm": 3.21875,
      "learning_rate": 2.5e-06,
      "loss": 0.4498,
      "mean_token_accuracy": 0.8698392882943153,
      "num_tokens": 2717870.0,
      "step": 462
    },
    {
      "entropy": 1.4724483042955399,
      "epoch": 1.0547788873038517,
      "grad_norm": 4.09375,
      "learning_rate": 2.4905827781055733e-06,
      "loss": 0.5091,
      "mean_token_accuracy": 0.8364823833107948,
      "num_tokens": 2722955.0,
      "step": 463
    },
    {
      "entropy": 1.4399842321872711,
      "epoch": 1.0570613409415122,
      "grad_norm": 2.96875,
      "learning_rate": 2.4811656898368287e-06,
      "loss": 0.4118,
      "mean_token_accuracy": 0.8793508112430573,
      "num_tokens": 2729267.0,
      "step": 464
    },
    {
      "entropy": 1.4447701424360275,
      "epoch": 1.0593437945791726,
      "grad_norm": 3.3125,
      "learning_rate": 2.4717488688175513e-06,
      "loss": 0.4089,
      "mean_token_accuracy": 0.8816163316369057,
      "num_tokens": 2735200.0,
      "step": 465
    },
    {
      "entropy": 1.507298544049263,
      "epoch": 1.061626248216833,
      "grad_norm": 3.71875,
      "learning_rate": 2.4623324486677352e-06,
      "loss": 0.5426,
      "mean_token_accuracy": 0.8359150066971779,
      "num_tokens": 2740627.0,
      "step": 466
    },
    {
      "entropy": 1.4749993681907654,
      "epoch": 1.0639087018544935,
      "grad_norm": 3.28125,
      "learning_rate": 2.4529165630016855e-06,
      "loss": 0.4186,
      "mean_token_accuracy": 0.8762158378958702,
      "num_tokens": 2745817.0,
      "step": 467
    },
    {
      "entropy": 1.5043630599975586,
      "epoch": 1.0661911554921542,
      "grad_norm": 3.25,
      "learning_rate": 2.4435013454261246e-06,
      "loss": 0.4691,
      "mean_token_accuracy": 0.8595764860510826,
      "num_tokens": 2752047.0,
      "step": 468
    },
    {
      "entropy": 1.464219182729721,
      "epoch": 1.0684736091298146,
      "grad_norm": 3.609375,
      "learning_rate": 2.4340869295382924e-06,
      "loss": 0.4847,
      "mean_token_accuracy": 0.8647123128175735,
      "num_tokens": 2758030.0,
      "step": 469
    },
    {
      "entropy": 1.5525110363960266,
      "epoch": 1.070756062767475,
      "grad_norm": 3.40625,
      "learning_rate": 2.4246734489240554e-06,
      "loss": 0.4389,
      "mean_token_accuracy": 0.871659129858017,
      "num_tokens": 2763739.0,
      "step": 470
    },
    {
      "entropy": 1.441315084695816,
      "epoch": 1.0730385164051355,
      "grad_norm": 3.09375,
      "learning_rate": 2.4152610371560095e-06,
      "loss": 0.4706,
      "mean_token_accuracy": 0.8659368455410004,
      "num_tokens": 2770144.0,
      "step": 471
    },
    {
      "entropy": 1.5431715548038483,
      "epoch": 1.075320970042796,
      "grad_norm": 3.671875,
      "learning_rate": 2.4058498277915835e-06,
      "loss": 0.5396,
      "mean_token_accuracy": 0.8234963491559029,
      "num_tokens": 2776060.0,
      "step": 472
    },
    {
      "entropy": 1.3775285333395004,
      "epoch": 1.0776034236804566,
      "grad_norm": 3.0625,
      "learning_rate": 2.3964399543711427e-06,
      "loss": 0.3289,
      "mean_token_accuracy": 0.8977130725979805,
      "num_tokens": 2782100.0,
      "step": 473
    },
    {
      "entropy": 1.424841582775116,
      "epoch": 1.079885877318117,
      "grad_norm": 3.125,
      "learning_rate": 2.3870315504160995e-06,
      "loss": 0.4425,
      "mean_token_accuracy": 0.8671782091259956,
      "num_tokens": 2787965.0,
      "step": 474
    },
    {
      "entropy": 1.4423463493585587,
      "epoch": 1.0821683309557775,
      "grad_norm": 2.953125,
      "learning_rate": 2.377624749427012e-06,
      "loss": 0.3595,
      "mean_token_accuracy": 0.8889539316296577,
      "num_tokens": 2794165.0,
      "step": 475
    },
    {
      "entropy": 1.4992396533489227,
      "epoch": 1.084450784593438,
      "grad_norm": 3.875,
      "learning_rate": 2.3682196848816955e-06,
      "loss": 0.4793,
      "mean_token_accuracy": 0.8694660887122154,
      "num_tokens": 2800010.0,
      "step": 476
    },
    {
      "entropy": 1.4096488505601883,
      "epoch": 1.0867332382310984,
      "grad_norm": 3.03125,
      "learning_rate": 2.358816490233326e-06,
      "loss": 0.3516,
      "mean_token_accuracy": 0.8974229022860527,
      "num_tokens": 2805889.0,
      "step": 477
    },
    {
      "entropy": 1.4805195033550262,
      "epoch": 1.089015691868759,
      "grad_norm": 3.34375,
      "learning_rate": 2.3494152989085433e-06,
      "loss": 0.5061,
      "mean_token_accuracy": 0.8679251745343208,
      "num_tokens": 2811684.0,
      "step": 478
    },
    {
      "entropy": 1.5036189705133438,
      "epoch": 1.0912981455064195,
      "grad_norm": 3.546875,
      "learning_rate": 2.3400162443055655e-06,
      "loss": 0.5221,
      "mean_token_accuracy": 0.8420342952013016,
      "num_tokens": 2817131.0,
      "step": 479
    },
    {
      "entropy": 1.594360738992691,
      "epoch": 1.09358059914408,
      "grad_norm": 4.0,
      "learning_rate": 2.330619459792289e-06,
      "loss": 0.5052,
      "mean_token_accuracy": 0.8538608327507973,
      "num_tokens": 2822205.0,
      "step": 480
    },
    {
      "entropy": 1.3911210894584656,
      "epoch": 1.0958630527817403,
      "grad_norm": 2.796875,
      "learning_rate": 2.321225078704399e-06,
      "loss": 0.3525,
      "mean_token_accuracy": 0.8852925226092339,
      "num_tokens": 2828146.0,
      "step": 481
    },
    {
      "entropy": 1.5996953547000885,
      "epoch": 1.0981455064194008,
      "grad_norm": 3.4375,
      "learning_rate": 2.311833234343478e-06,
      "loss": 0.4677,
      "mean_token_accuracy": 0.8572832494974136,
      "num_tokens": 2833879.0,
      "step": 482
    },
    {
      "entropy": 1.5117892771959305,
      "epoch": 1.1004279600570612,
      "grad_norm": 4.09375,
      "learning_rate": 2.3024440599751132e-06,
      "loss": 0.4467,
      "mean_token_accuracy": 0.8582476228475571,
      "num_tokens": 2839173.0,
      "step": 483
    },
    {
      "entropy": 1.433998242020607,
      "epoch": 1.102710413694722,
      "grad_norm": 2.90625,
      "learning_rate": 2.293057688827007e-06,
      "loss": 0.3942,
      "mean_token_accuracy": 0.8847835510969162,
      "num_tokens": 2845616.0,
      "step": 484
    },
    {
      "entropy": 1.5342581421136856,
      "epoch": 1.1049928673323823,
      "grad_norm": 3.078125,
      "learning_rate": 2.283674254087082e-06,
      "loss": 0.4659,
      "mean_token_accuracy": 0.8615615218877792,
      "num_tokens": 2851949.0,
      "step": 485
    },
    {
      "entropy": 1.5389353781938553,
      "epoch": 1.1072753209700428,
      "grad_norm": 3.421875,
      "learning_rate": 2.274293888901599e-06,
      "loss": 0.4388,
      "mean_token_accuracy": 0.871217891573906,
      "num_tokens": 2857358.0,
      "step": 486
    },
    {
      "entropy": 1.4772920906543732,
      "epoch": 1.1095577746077032,
      "grad_norm": 4.03125,
      "learning_rate": 2.264916726373263e-06,
      "loss": 0.5044,
      "mean_token_accuracy": 0.8598240464925766,
      "num_tokens": 2862299.0,
      "step": 487
    },
    {
      "entropy": 1.4805989265441895,
      "epoch": 1.1118402282453639,
      "grad_norm": 2.890625,
      "learning_rate": 2.2555428995593303e-06,
      "loss": 0.444,
      "mean_token_accuracy": 0.8689677938818932,
      "num_tokens": 2868820.0,
      "step": 488
    },
    {
      "entropy": 1.4840258061885834,
      "epoch": 1.1141226818830243,
      "grad_norm": 3.421875,
      "learning_rate": 2.24617254146973e-06,
      "loss": 0.4531,
      "mean_token_accuracy": 0.8679408878087997,
      "num_tokens": 2874968.0,
      "step": 489
    },
    {
      "entropy": 1.4381522238254547,
      "epoch": 1.1164051355206848,
      "grad_norm": 3.125,
      "learning_rate": 2.23680578506517e-06,
      "loss": 0.4115,
      "mean_token_accuracy": 0.8769493475556374,
      "num_tokens": 2880835.0,
      "step": 490
    },
    {
      "entropy": 1.4330200850963593,
      "epoch": 1.1186875891583452,
      "grad_norm": 2.90625,
      "learning_rate": 2.2274427632552507e-06,
      "loss": 0.4123,
      "mean_token_accuracy": 0.8793010637164116,
      "num_tokens": 2887529.0,
      "step": 491
    },
    {
      "entropy": 1.3696521073579788,
      "epoch": 1.1209700427960057,
      "grad_norm": 2.9375,
      "learning_rate": 2.2180836088965833e-06,
      "loss": 0.3384,
      "mean_token_accuracy": 0.8860399350523949,
      "num_tokens": 2893458.0,
      "step": 492
    },
    {
      "entropy": 1.4893521070480347,
      "epoch": 1.123252496433666,
      "grad_norm": 3.0,
      "learning_rate": 2.208728454790899e-06,
      "loss": 0.4691,
      "mean_token_accuracy": 0.8572286292910576,
      "num_tokens": 2899716.0,
      "step": 493
    },
    {
      "entropy": 1.3807679414749146,
      "epoch": 1.1255349500713268,
      "grad_norm": 3.015625,
      "learning_rate": 2.1993774336831696e-06,
      "loss": 0.4068,
      "mean_token_accuracy": 0.8788377121090889,
      "num_tokens": 2906271.0,
      "step": 494
    },
    {
      "entropy": 1.4945531785488129,
      "epoch": 1.1278174037089872,
      "grad_norm": 3.078125,
      "learning_rate": 2.19003067825972e-06,
      "loss": 0.4081,
      "mean_token_accuracy": 0.8731363192200661,
      "num_tokens": 2912348.0,
      "step": 495
    },
    {
      "entropy": 1.5495448559522629,
      "epoch": 1.1300998573466476,
      "grad_norm": 3.921875,
      "learning_rate": 2.180688321146349e-06,
      "loss": 0.601,
      "mean_token_accuracy": 0.8166243210434914,
      "num_tokens": 2918060.0,
      "step": 496
    },
    {
      "entropy": 1.5690300911664963,
      "epoch": 1.132382310984308,
      "grad_norm": 3.5,
      "learning_rate": 2.1713504949064433e-06,
      "loss": 0.4601,
      "mean_token_accuracy": 0.85266974568367,
      "num_tokens": 2923409.0,
      "step": 497
    },
    {
      "entropy": 1.3820966184139252,
      "epoch": 1.1346647646219685,
      "grad_norm": 2.703125,
      "learning_rate": 2.1620173320391007e-06,
      "loss": 0.2558,
      "mean_token_accuracy": 0.9106499254703522,
      "num_tokens": 2929722.0,
      "step": 498
    },
    {
      "entropy": 1.540186420083046,
      "epoch": 1.1369472182596292,
      "grad_norm": 3.21875,
      "learning_rate": 2.1526889649772477e-06,
      "loss": 0.4437,
      "mean_token_accuracy": 0.8645635023713112,
      "num_tokens": 2935812.0,
      "step": 499
    },
    {
      "entropy": 1.435683935880661,
      "epoch": 1.1392296718972896,
      "grad_norm": 3.234375,
      "learning_rate": 2.143365526085759e-06,
      "loss": 0.48,
      "mean_token_accuracy": 0.8664367198944092,
      "num_tokens": 2942222.0,
      "step": 500
    },
    {
      "epoch": 1.1392296718972896,
      "eval_entropy": 1.4798295431666904,
      "eval_loss": 0.4741344451904297,
      "eval_mean_token_accuracy": 0.8666040844387478,
      "eval_num_tokens": 2942222.0,
      "eval_runtime": 4.4417,
      "eval_samples_per_second": 20.262,
      "eval_steps_per_second": 20.262,
      "step": 500
    },
    {
      "entropy": 1.4722786843776703,
      "epoch": 1.14151212553495,
      "grad_norm": 3.484375,
      "learning_rate": 2.1340471476595836e-06,
      "loss": 0.4947,
      "mean_token_accuracy": 0.8604092225432396,
      "num_tokens": 2947869.0,
      "step": 501
    },
    {
      "entropy": 1.5302625745534897,
      "epoch": 1.1437945791726105,
      "grad_norm": 3.765625,
      "learning_rate": 2.124733961921864e-06,
      "loss": 0.5213,
      "mean_token_accuracy": 0.8443537354469299,
      "num_tokens": 2953787.0,
      "step": 502
    },
    {
      "entropy": 1.482778623700142,
      "epoch": 1.146077032810271,
      "grad_norm": 4.0,
      "learning_rate": 2.11542610102206e-06,
      "loss": 0.5494,
      "mean_token_accuracy": 0.8402880057692528,
      "num_tokens": 2958803.0,
      "step": 503
    },
    {
      "entropy": 1.4486149698495865,
      "epoch": 1.1483594864479316,
      "grad_norm": 3.203125,
      "learning_rate": 2.1061236970340756e-06,
      "loss": 0.4747,
      "mean_token_accuracy": 0.8640668168663979,
      "num_tokens": 2965403.0,
      "step": 504
    },
    {
      "entropy": 1.4366931170225143,
      "epoch": 1.150641940085592,
      "grad_norm": 3.078125,
      "learning_rate": 2.096826881954385e-06,
      "loss": 0.4002,
      "mean_token_accuracy": 0.869108684360981,
      "num_tokens": 2971085.0,
      "step": 505
    },
    {
      "entropy": 1.4204550981521606,
      "epoch": 1.1529243937232525,
      "grad_norm": 2.890625,
      "learning_rate": 2.0875357877001556e-06,
      "loss": 0.3827,
      "mean_token_accuracy": 0.8868636935949326,
      "num_tokens": 2976577.0,
      "step": 506
    },
    {
      "entropy": 1.484930396080017,
      "epoch": 1.155206847360913,
      "grad_norm": 3.578125,
      "learning_rate": 2.0782505461073822e-06,
      "loss": 0.4416,
      "mean_token_accuracy": 0.8644617721438408,
      "num_tokens": 2981977.0,
      "step": 507
    },
    {
      "entropy": 1.5487978011369705,
      "epoch": 1.1574893009985734,
      "grad_norm": 3.359375,
      "learning_rate": 2.0689712889290114e-06,
      "loss": 0.4142,
      "mean_token_accuracy": 0.8582484424114227,
      "num_tokens": 2987315.0,
      "step": 508
    },
    {
      "entropy": 1.4167566150426865,
      "epoch": 1.159771754636234,
      "grad_norm": 3.046875,
      "learning_rate": 2.059698147833075e-06,
      "loss": 0.4121,
      "mean_token_accuracy": 0.8841976970434189,
      "num_tokens": 2993295.0,
      "step": 509
    },
    {
      "entropy": 1.3966283351182938,
      "epoch": 1.1620542082738945,
      "grad_norm": 3.1875,
      "learning_rate": 2.0504312544008193e-06,
      "loss": 0.4939,
      "mean_token_accuracy": 0.8544362857937813,
      "num_tokens": 2999720.0,
      "step": 510
    },
    {
      "entropy": 1.5113223046064377,
      "epoch": 1.164336661911555,
      "grad_norm": 3.578125,
      "learning_rate": 2.0411707401248406e-06,
      "loss": 0.4498,
      "mean_token_accuracy": 0.8582001850008965,
      "num_tokens": 3004838.0,
      "step": 511
    },
    {
      "entropy": 1.4698415398597717,
      "epoch": 1.1666191155492154,
      "grad_norm": 3.453125,
      "learning_rate": 2.0319167364072184e-06,
      "loss": 0.4023,
      "mean_token_accuracy": 0.8724709004163742,
      "num_tokens": 3010321.0,
      "step": 512
    },
    {
      "entropy": 1.5211911350488663,
      "epoch": 1.1689015691868758,
      "grad_norm": 4.71875,
      "learning_rate": 2.0226693745576494e-06,
      "loss": 0.5156,
      "mean_token_accuracy": 0.8473959043622017,
      "num_tokens": 3015170.0,
      "step": 513
    },
    {
      "entropy": 1.3687680065631866,
      "epoch": 1.1711840228245363,
      "grad_norm": 3.15625,
      "learning_rate": 2.0134287857915864e-06,
      "loss": 0.4614,
      "mean_token_accuracy": 0.8563283011317253,
      "num_tokens": 3021067.0,
      "step": 514
    },
    {
      "entropy": 1.4768206179141998,
      "epoch": 1.173466476462197,
      "grad_norm": 4.0625,
      "learning_rate": 2.004195101228374e-06,
      "loss": 0.5225,
      "mean_token_accuracy": 0.8456647023558617,
      "num_tokens": 3026317.0,
      "step": 515
    },
    {
      "entropy": 1.5133604854345322,
      "epoch": 1.1757489300998574,
      "grad_norm": 3.359375,
      "learning_rate": 1.9949684518893926e-06,
      "loss": 0.4637,
      "mean_token_accuracy": 0.8587842807173729,
      "num_tokens": 3032462.0,
      "step": 516
    },
    {
      "entropy": 1.5985838025808334,
      "epoch": 1.1780313837375178,
      "grad_norm": 3.5,
      "learning_rate": 1.985748968696194e-06,
      "loss": 0.4668,
      "mean_token_accuracy": 0.8562392815947533,
      "num_tokens": 3037823.0,
      "step": 517
    },
    {
      "entropy": 1.2920548766851425,
      "epoch": 1.1803138373751783,
      "grad_norm": 2.453125,
      "learning_rate": 1.9765367824686467e-06,
      "loss": 0.3451,
      "mean_token_accuracy": 0.8893763497471809,
      "num_tokens": 3044938.0,
      "step": 518
    },
    {
      "entropy": 1.5204766243696213,
      "epoch": 1.182596291012839,
      "grad_norm": 3.203125,
      "learning_rate": 1.9673320239230783e-06,
      "loss": 0.4753,
      "mean_token_accuracy": 0.8598108664155006,
      "num_tokens": 3051301.0,
      "step": 519
    },
    {
      "entropy": 1.445823684334755,
      "epoch": 1.1848787446504994,
      "grad_norm": 3.875,
      "learning_rate": 1.9581348236704217e-06,
      "loss": 0.4797,
      "mean_token_accuracy": 0.8649851009249687,
      "num_tokens": 3056991.0,
      "step": 520
    },
    {
      "entropy": 1.4846927672624588,
      "epoch": 1.1871611982881598,
      "grad_norm": 3.875,
      "learning_rate": 1.9489453122143605e-06,
      "loss": 0.5029,
      "mean_token_accuracy": 0.8675966411828995,
      "num_tokens": 3062974.0,
      "step": 521
    },
    {
      "entropy": 1.4466316848993301,
      "epoch": 1.1894436519258202,
      "grad_norm": 3.421875,
      "learning_rate": 1.939763619949481e-06,
      "loss": 0.4049,
      "mean_token_accuracy": 0.8771371468901634,
      "num_tokens": 3068426.0,
      "step": 522
    },
    {
      "entropy": 1.5384458899497986,
      "epoch": 1.1917261055634807,
      "grad_norm": 3.484375,
      "learning_rate": 1.930589877159415e-06,
      "loss": 0.454,
      "mean_token_accuracy": 0.864221066236496,
      "num_tokens": 3074213.0,
      "step": 523
    },
    {
      "entropy": 1.541999727487564,
      "epoch": 1.1940085592011411,
      "grad_norm": 2.984375,
      "learning_rate": 1.9214242140149987e-06,
      "loss": 0.3965,
      "mean_token_accuracy": 0.874009445309639,
      "num_tokens": 3080429.0,
      "step": 524
    },
    {
      "entropy": 1.4880231320858002,
      "epoch": 1.1962910128388018,
      "grad_norm": 4.1875,
      "learning_rate": 1.9122667605724202e-06,
      "loss": 0.5623,
      "mean_token_accuracy": 0.8356714621186256,
      "num_tokens": 3085713.0,
      "step": 525
    },
    {
      "entropy": 1.5347374975681305,
      "epoch": 1.1985734664764622,
      "grad_norm": 2.890625,
      "learning_rate": 1.9031176467713763e-06,
      "loss": 0.3592,
      "mean_token_accuracy": 0.8790554702281952,
      "num_tokens": 3092191.0,
      "step": 526
    },
    {
      "entropy": 1.4829518347978592,
      "epoch": 1.2008559201141227,
      "grad_norm": 3.078125,
      "learning_rate": 1.8939770024332294e-06,
      "loss": 0.3886,
      "mean_token_accuracy": 0.882826641201973,
      "num_tokens": 3098756.0,
      "step": 527
    },
    {
      "entropy": 1.4315824955701828,
      "epoch": 1.2031383737517831,
      "grad_norm": 3.203125,
      "learning_rate": 1.884844957259163e-06,
      "loss": 0.4995,
      "mean_token_accuracy": 0.8524395078420639,
      "num_tokens": 3104965.0,
      "step": 528
    },
    {
      "entropy": 1.4298695474863052,
      "epoch": 1.2054208273894436,
      "grad_norm": 2.8125,
      "learning_rate": 1.875721640828344e-06,
      "loss": 0.3871,
      "mean_token_accuracy": 0.8858682960271835,
      "num_tokens": 3111490.0,
      "step": 529
    },
    {
      "entropy": 1.4648047238588333,
      "epoch": 1.2077032810271042,
      "grad_norm": 2.859375,
      "learning_rate": 1.866607182596081e-06,
      "loss": 0.3277,
      "mean_token_accuracy": 0.8968348726630211,
      "num_tokens": 3117215.0,
      "step": 530
    },
    {
      "entropy": 1.5635619461536407,
      "epoch": 1.2099857346647647,
      "grad_norm": 3.46875,
      "learning_rate": 1.857501711891993e-06,
      "loss": 0.4185,
      "mean_token_accuracy": 0.8711593821644783,
      "num_tokens": 3123093.0,
      "step": 531
    },
    {
      "entropy": 1.4186049550771713,
      "epoch": 1.212268188302425,
      "grad_norm": 3.109375,
      "learning_rate": 1.848405357918166e-06,
      "loss": 0.4707,
      "mean_token_accuracy": 0.8640479817986488,
      "num_tokens": 3129377.0,
      "step": 532
    },
    {
      "entropy": 1.439442053437233,
      "epoch": 1.2145506419400856,
      "grad_norm": 3.046875,
      "learning_rate": 1.8393182497473271e-06,
      "loss": 0.3726,
      "mean_token_accuracy": 0.8774393498897552,
      "num_tokens": 3135006.0,
      "step": 533
    },
    {
      "entropy": 1.5040159970521927,
      "epoch": 1.216833095577746,
      "grad_norm": 3.734375,
      "learning_rate": 1.830240516321008e-06,
      "loss": 0.5652,
      "mean_token_accuracy": 0.8349686115980148,
      "num_tokens": 3140699.0,
      "step": 534
    },
    {
      "entropy": 1.5229474604129791,
      "epoch": 1.2191155492154067,
      "grad_norm": 3.109375,
      "learning_rate": 1.8211722864477197e-06,
      "loss": 0.4583,
      "mean_token_accuracy": 0.8692138940095901,
      "num_tokens": 3147116.0,
      "step": 535
    },
    {
      "entropy": 1.4866357445716858,
      "epoch": 1.221398002853067,
      "grad_norm": 3.390625,
      "learning_rate": 1.8121136888011198e-06,
      "loss": 0.5026,
      "mean_token_accuracy": 0.8499261438846588,
      "num_tokens": 3153155.0,
      "step": 536
    },
    {
      "entropy": 1.4372419267892838,
      "epoch": 1.2236804564907275,
      "grad_norm": 3.453125,
      "learning_rate": 1.8030648519181926e-06,
      "loss": 0.4709,
      "mean_token_accuracy": 0.8507603630423546,
      "num_tokens": 3158699.0,
      "step": 537
    },
    {
      "entropy": 1.4247355163097382,
      "epoch": 1.225962910128388,
      "grad_norm": 2.875,
      "learning_rate": 1.7940259041974189e-06,
      "loss": 0.4764,
      "mean_token_accuracy": 0.8748277649283409,
      "num_tokens": 3165422.0,
      "step": 538
    },
    {
      "entropy": 1.4786742329597473,
      "epoch": 1.2282453637660484,
      "grad_norm": 3.5625,
      "learning_rate": 1.7849969738969592e-06,
      "loss": 0.4736,
      "mean_token_accuracy": 0.8629911243915558,
      "num_tokens": 3171419.0,
      "step": 539
    },
    {
      "entropy": 1.5304382294416428,
      "epoch": 1.230527817403709,
      "grad_norm": 3.375,
      "learning_rate": 1.7759781891328321e-06,
      "loss": 0.494,
      "mean_token_accuracy": 0.8473329395055771,
      "num_tokens": 3177530.0,
      "step": 540
    },
    {
      "entropy": 1.3744118362665176,
      "epoch": 1.2328102710413695,
      "grad_norm": 2.96875,
      "learning_rate": 1.766969677877094e-06,
      "loss": 0.4123,
      "mean_token_accuracy": 0.8834565728902817,
      "num_tokens": 3184220.0,
      "step": 541
    },
    {
      "entropy": 1.3755813837051392,
      "epoch": 1.23509272467903,
      "grad_norm": 2.796875,
      "learning_rate": 1.7579715679560273e-06,
      "loss": 0.4265,
      "mean_token_accuracy": 0.8768275752663612,
      "num_tokens": 3190613.0,
      "step": 542
    },
    {
      "entropy": 1.4333829581737518,
      "epoch": 1.2373751783166904,
      "grad_norm": 3.484375,
      "learning_rate": 1.7489839870483236e-06,
      "loss": 0.4931,
      "mean_token_accuracy": 0.8496510609984398,
      "num_tokens": 3196269.0,
      "step": 543
    },
    {
      "entropy": 1.4510899037122726,
      "epoch": 1.2396576319543509,
      "grad_norm": 3.078125,
      "learning_rate": 1.7400070626832732e-06,
      "loss": 0.3757,
      "mean_token_accuracy": 0.8865254819393158,
      "num_tokens": 3201924.0,
      "step": 544
    },
    {
      "entropy": 1.4932819455862045,
      "epoch": 1.2419400855920113,
      "grad_norm": 3.484375,
      "learning_rate": 1.7310409222389563e-06,
      "loss": 0.4531,
      "mean_token_accuracy": 0.850062184035778,
      "num_tokens": 3207808.0,
      "step": 545
    },
    {
      "entropy": 1.5299255549907684,
      "epoch": 1.244222539229672,
      "grad_norm": 3.328125,
      "learning_rate": 1.7220856929404342e-06,
      "loss": 0.4531,
      "mean_token_accuracy": 0.8687416762113571,
      "num_tokens": 3213083.0,
      "step": 546
    },
    {
      "entropy": 1.5315914154052734,
      "epoch": 1.2465049928673324,
      "grad_norm": 3.84375,
      "learning_rate": 1.713141501857943e-06,
      "loss": 0.504,
      "mean_token_accuracy": 0.850853443145752,
      "num_tokens": 3218803.0,
      "step": 547
    },
    {
      "entropy": 1.5325356125831604,
      "epoch": 1.2487874465049928,
      "grad_norm": 3.578125,
      "learning_rate": 1.7042084759050948e-06,
      "loss": 0.495,
      "mean_token_accuracy": 0.8577945232391357,
      "num_tokens": 3224187.0,
      "step": 548
    },
    {
      "entropy": 1.3780454993247986,
      "epoch": 1.2510699001426533,
      "grad_norm": 3.140625,
      "learning_rate": 1.6952867418370707e-06,
      "loss": 0.4453,
      "mean_token_accuracy": 0.8700388446450233,
      "num_tokens": 3230589.0,
      "step": 549
    },
    {
      "entropy": 1.466676115989685,
      "epoch": 1.253352353780314,
      "grad_norm": 3.296875,
      "learning_rate": 1.6863764262488292e-06,
      "loss": 0.496,
      "mean_token_accuracy": 0.8478997200727463,
      "num_tokens": 3237256.0,
      "step": 550
    },
    {
      "entropy": 1.4295217841863632,
      "epoch": 1.2556348074179744,
      "grad_norm": 3.109375,
      "learning_rate": 1.677477655573303e-06,
      "loss": 0.4455,
      "mean_token_accuracy": 0.8676532134413719,
      "num_tokens": 3243578.0,
      "step": 551
    },
    {
      "entropy": 1.4432758837938309,
      "epoch": 1.2579172610556348,
      "grad_norm": 3.46875,
      "learning_rate": 1.6685905560796101e-06,
      "loss": 0.4933,
      "mean_token_accuracy": 0.8503763899207115,
      "num_tokens": 3249344.0,
      "step": 552
    },
    {
      "entropy": 1.4768379628658295,
      "epoch": 1.2601997146932953,
      "grad_norm": 3.578125,
      "learning_rate": 1.6597152538712608e-06,
      "loss": 0.5331,
      "mean_token_accuracy": 0.8477922007441521,
      "num_tokens": 3256038.0,
      "step": 553
    },
    {
      "entropy": 1.4157912582159042,
      "epoch": 1.2624821683309557,
      "grad_norm": 3.515625,
      "learning_rate": 1.6508518748843651e-06,
      "loss": 0.5013,
      "mean_token_accuracy": 0.860062412917614,
      "num_tokens": 3261703.0,
      "step": 554
    },
    {
      "entropy": 1.403880551457405,
      "epoch": 1.2647646219686162,
      "grad_norm": 3.234375,
      "learning_rate": 1.6420005448858522e-06,
      "loss": 0.5094,
      "mean_token_accuracy": 0.8528245538473129,
      "num_tokens": 3268063.0,
      "step": 555
    },
    {
      "entropy": 1.5064998269081116,
      "epoch": 1.2670470756062768,
      "grad_norm": 3.0625,
      "learning_rate": 1.6331613894716787e-06,
      "loss": 0.4452,
      "mean_token_accuracy": 0.8757540956139565,
      "num_tokens": 3274092.0,
      "step": 556
    },
    {
      "entropy": 1.4100589752197266,
      "epoch": 1.2693295292439373,
      "grad_norm": 3.203125,
      "learning_rate": 1.6243345340650523e-06,
      "loss": 0.4675,
      "mean_token_accuracy": 0.8688594177365303,
      "num_tokens": 3280661.0,
      "step": 557
    },
    {
      "entropy": 1.5577640682458878,
      "epoch": 1.2716119828815977,
      "grad_norm": 3.40625,
      "learning_rate": 1.6155201039146478e-06,
      "loss": 0.4195,
      "mean_token_accuracy": 0.8589218854904175,
      "num_tokens": 3286601.0,
      "step": 558
    },
    {
      "entropy": 1.3485192209482193,
      "epoch": 1.2738944365192582,
      "grad_norm": 2.890625,
      "learning_rate": 1.6067182240928332e-06,
      "loss": 0.3449,
      "mean_token_accuracy": 0.8934107944369316,
      "num_tokens": 3292073.0,
      "step": 559
    },
    {
      "entropy": 1.5532638430595398,
      "epoch": 1.2761768901569188,
      "grad_norm": 3.328125,
      "learning_rate": 1.5979290194938938e-06,
      "loss": 0.4331,
      "mean_token_accuracy": 0.8702542334794998,
      "num_tokens": 3298200.0,
      "step": 560
    },
    {
      "entropy": 1.5261798650026321,
      "epoch": 1.2784593437945793,
      "grad_norm": 3.109375,
      "learning_rate": 1.5891526148322594e-06,
      "loss": 0.4389,
      "mean_token_accuracy": 0.862305723130703,
      "num_tokens": 3304356.0,
      "step": 561
    },
    {
      "entropy": 1.536175400018692,
      "epoch": 1.2807417974322397,
      "grad_norm": 4.3125,
      "learning_rate": 1.5803891346407342e-06,
      "loss": 0.5677,
      "mean_token_accuracy": 0.8316505700349808,
      "num_tokens": 3309722.0,
      "step": 562
    },
    {
      "entropy": 1.4453733563423157,
      "epoch": 1.2830242510699001,
      "grad_norm": 3.1875,
      "learning_rate": 1.5716387032687314e-06,
      "loss": 0.3941,
      "mean_token_accuracy": 0.8798687309026718,
      "num_tokens": 3315076.0,
      "step": 563
    },
    {
      "entropy": 1.5081749856472015,
      "epoch": 1.2853067047075606,
      "grad_norm": 2.96875,
      "learning_rate": 1.562901444880508e-06,
      "loss": 0.4143,
      "mean_token_accuracy": 0.8727659210562706,
      "num_tokens": 3320848.0,
      "step": 564
    },
    {
      "entropy": 1.5081788897514343,
      "epoch": 1.287589158345221,
      "grad_norm": 3.1875,
      "learning_rate": 1.5541774834534024e-06,
      "loss": 0.4623,
      "mean_token_accuracy": 0.8562600538134575,
      "num_tokens": 3327236.0,
      "step": 565
    },
    {
      "entropy": 1.4714922159910202,
      "epoch": 1.2898716119828815,
      "grad_norm": 3.46875,
      "learning_rate": 1.5454669427760774e-06,
      "loss": 0.4112,
      "mean_token_accuracy": 0.8714669123291969,
      "num_tokens": 3333039.0,
      "step": 566
    },
    {
      "entropy": 1.496582642197609,
      "epoch": 1.2921540656205421,
      "grad_norm": 3.328125,
      "learning_rate": 1.5367699464467596e-06,
      "loss": 0.4667,
      "mean_token_accuracy": 0.8694412559270859,
      "num_tokens": 3339578.0,
      "step": 567
    },
    {
      "entropy": 1.453754335641861,
      "epoch": 1.2944365192582026,
      "grad_norm": 3.234375,
      "learning_rate": 1.5280866178714898e-06,
      "loss": 0.4655,
      "mean_token_accuracy": 0.8703877553343773,
      "num_tokens": 3346073.0,
      "step": 568
    },
    {
      "entropy": 1.496316447854042,
      "epoch": 1.296718972895863,
      "grad_norm": 3.3125,
      "learning_rate": 1.5194170802623692e-06,
      "loss": 0.403,
      "mean_token_accuracy": 0.8825008124113083,
      "num_tokens": 3351735.0,
      "step": 569
    },
    {
      "entropy": 1.5532702058553696,
      "epoch": 1.2990014265335235,
      "grad_norm": 3.375,
      "learning_rate": 1.5107614566358136e-06,
      "loss": 0.5159,
      "mean_token_accuracy": 0.872811533510685,
      "num_tokens": 3358008.0,
      "step": 570
    },
    {
      "entropy": 1.3984228074550629,
      "epoch": 1.3012838801711841,
      "grad_norm": 2.90625,
      "learning_rate": 1.5021198698108038e-06,
      "loss": 0.4531,
      "mean_token_accuracy": 0.8692669570446014,
      "num_tokens": 3364752.0,
      "step": 571
    },
    {
      "entropy": 1.500732660293579,
      "epoch": 1.3035663338088446,
      "grad_norm": 3.28125,
      "learning_rate": 1.4934924424071479e-06,
      "loss": 0.3973,
      "mean_token_accuracy": 0.8750224709510803,
      "num_tokens": 3369908.0,
      "step": 572
    },
    {
      "entropy": 1.4046034514904022,
      "epoch": 1.305848787446505,
      "grad_norm": 2.984375,
      "learning_rate": 1.4848792968437376e-06,
      "loss": 0.407,
      "mean_token_accuracy": 0.8775566592812538,
      "num_tokens": 3376101.0,
      "step": 573
    },
    {
      "entropy": 1.4599164128303528,
      "epoch": 1.3081312410841655,
      "grad_norm": 3.15625,
      "learning_rate": 1.4762805553368115e-06,
      "loss": 0.4068,
      "mean_token_accuracy": 0.8896359950304031,
      "num_tokens": 3381766.0,
      "step": 574
    },
    {
      "entropy": 1.5650553405284882,
      "epoch": 1.310413694721826,
      "grad_norm": 3.90625,
      "learning_rate": 1.4676963398982248e-06,
      "loss": 0.526,
      "mean_token_accuracy": 0.8529334291815758,
      "num_tokens": 3387045.0,
      "step": 575
    },
    {
      "entropy": 1.4292816668748856,
      "epoch": 1.3126961483594863,
      "grad_norm": 3.1875,
      "learning_rate": 1.4591267723337122e-06,
      "loss": 0.4427,
      "mean_token_accuracy": 0.8748316466808319,
      "num_tokens": 3393002.0,
      "step": 576
    },
    {
      "entropy": 1.5142599791288376,
      "epoch": 1.314978601997147,
      "grad_norm": 3.03125,
      "learning_rate": 1.4505719742411644e-06,
      "loss": 0.3505,
      "mean_token_accuracy": 0.8907722160220146,
      "num_tokens": 3398389.0,
      "step": 577
    },
    {
      "entropy": 1.3882330507040024,
      "epoch": 1.3172610556348074,
      "grad_norm": 2.734375,
      "learning_rate": 1.4420320670088977e-06,
      "loss": 0.3516,
      "mean_token_accuracy": 0.891185887157917,
      "num_tokens": 3404815.0,
      "step": 578
    },
    {
      "entropy": 1.5874699354171753,
      "epoch": 1.3195435092724679,
      "grad_norm": 3.6875,
      "learning_rate": 1.4335071718139379e-06,
      "loss": 0.5036,
      "mean_token_accuracy": 0.8607900366187096,
      "num_tokens": 3410299.0,
      "step": 579
    },
    {
      "entropy": 1.5547137558460236,
      "epoch": 1.3218259629101283,
      "grad_norm": 3.578125,
      "learning_rate": 1.424997409620295e-06,
      "loss": 0.4533,
      "mean_token_accuracy": 0.8668412491679192,
      "num_tokens": 3415403.0,
      "step": 580
    },
    {
      "entropy": 1.3236225843429565,
      "epoch": 1.324108416547789,
      "grad_norm": 3.078125,
      "learning_rate": 1.4165029011772513e-06,
      "loss": 0.4062,
      "mean_token_accuracy": 0.8871461227536201,
      "num_tokens": 3421683.0,
      "step": 581
    },
    {
      "entropy": 1.469793826341629,
      "epoch": 1.3263908701854494,
      "grad_norm": 2.875,
      "learning_rate": 1.4080237670176456e-06,
      "loss": 0.4243,
      "mean_token_accuracy": 0.8801388815045357,
      "num_tokens": 3427994.0,
      "step": 582
    },
    {
      "entropy": 1.4647793471813202,
      "epoch": 1.3286733238231099,
      "grad_norm": 3.09375,
      "learning_rate": 1.3995601274561605e-06,
      "loss": 0.4262,
      "mean_token_accuracy": 0.8648821488022804,
      "num_tokens": 3434912.0,
      "step": 583
    },
    {
      "entropy": 1.4584257155656815,
      "epoch": 1.3309557774607703,
      "grad_norm": 3.171875,
      "learning_rate": 1.3911121025876212e-06,
      "loss": 0.4423,
      "mean_token_accuracy": 0.8798868283629417,
      "num_tokens": 3442058.0,
      "step": 584
    },
    {
      "entropy": 1.5300581902265549,
      "epoch": 1.3332382310984308,
      "grad_norm": 3.21875,
      "learning_rate": 1.382679812285287e-06,
      "loss": 0.4313,
      "mean_token_accuracy": 0.8496553376317024,
      "num_tokens": 3447771.0,
      "step": 585
    },
    {
      "entropy": 1.5843760669231415,
      "epoch": 1.3355206847360912,
      "grad_norm": 4.0625,
      "learning_rate": 1.3742633761991519e-06,
      "loss": 0.4945,
      "mean_token_accuracy": 0.8482984900474548,
      "num_tokens": 3452785.0,
      "step": 586
    },
    {
      "entropy": 1.4104232043027878,
      "epoch": 1.3378031383737519,
      "grad_norm": 2.984375,
      "learning_rate": 1.365862913754247e-06,
      "loss": 0.3925,
      "mean_token_accuracy": 0.8749718070030212,
      "num_tokens": 3458611.0,
      "step": 587
    },
    {
      "entropy": 1.5725494027137756,
      "epoch": 1.3400855920114123,
      "grad_norm": 3.5,
      "learning_rate": 1.357478544148943e-06,
      "loss": 0.4045,
      "mean_token_accuracy": 0.8671303018927574,
      "num_tokens": 3465091.0,
      "step": 588
    },
    {
      "entropy": 1.4776265919208527,
      "epoch": 1.3423680456490727,
      "grad_norm": 3.015625,
      "learning_rate": 1.3491103863532626e-06,
      "loss": 0.3392,
      "mean_token_accuracy": 0.9015164896845818,
      "num_tokens": 3470488.0,
      "step": 589
    },
    {
      "entropy": 1.6683387607336044,
      "epoch": 1.3446504992867332,
      "grad_norm": 4.8125,
      "learning_rate": 1.3407585591071944e-06,
      "loss": 0.5101,
      "mean_token_accuracy": 0.846831701695919,
      "num_tokens": 3475407.0,
      "step": 590
    },
    {
      "entropy": 1.5126305967569351,
      "epoch": 1.3469329529243939,
      "grad_norm": 3.3125,
      "learning_rate": 1.3324231809189985e-06,
      "loss": 0.4343,
      "mean_token_accuracy": 0.8680194914340973,
      "num_tokens": 3481469.0,
      "step": 591
    },
    {
      "entropy": 1.5650955736637115,
      "epoch": 1.3492154065620543,
      "grad_norm": 3.515625,
      "learning_rate": 1.3241043700635352e-06,
      "loss": 0.4892,
      "mean_token_accuracy": 0.86560869961977,
      "num_tokens": 3487280.0,
      "step": 592
    },
    {
      "entropy": 1.5224829465150833,
      "epoch": 1.3514978601997147,
      "grad_norm": 3.5625,
      "learning_rate": 1.3158022445805816e-06,
      "loss": 0.437,
      "mean_token_accuracy": 0.8517628982663155,
      "num_tokens": 3492699.0,
      "step": 593
    },
    {
      "entropy": 1.5090250372886658,
      "epoch": 1.3537803138373752,
      "grad_norm": 3.734375,
      "learning_rate": 1.3075169222731573e-06,
      "loss": 0.4919,
      "mean_token_accuracy": 0.8590176850557327,
      "num_tokens": 3498075.0,
      "step": 594
    },
    {
      "entropy": 1.3978570252656937,
      "epoch": 1.3560627674750356,
      "grad_norm": 3.375,
      "learning_rate": 1.2992485207058548e-06,
      "loss": 0.4248,
      "mean_token_accuracy": 0.8699210062623024,
      "num_tokens": 3503380.0,
      "step": 595
    },
    {
      "entropy": 1.4768076539039612,
      "epoch": 1.358345221112696,
      "grad_norm": 3.5625,
      "learning_rate": 1.2909971572031663e-06,
      "loss": 0.4681,
      "mean_token_accuracy": 0.8609839826822281,
      "num_tokens": 3509109.0,
      "step": 596
    },
    {
      "entropy": 1.4522972255945206,
      "epoch": 1.3606276747503565,
      "grad_norm": 3.296875,
      "learning_rate": 1.2827629488478254e-06,
      "loss": 0.5161,
      "mean_token_accuracy": 0.8707276359200478,
      "num_tokens": 3515057.0,
      "step": 597
    },
    {
      "entropy": 1.57838936150074,
      "epoch": 1.3629101283880172,
      "grad_norm": 3.484375,
      "learning_rate": 1.2745460124791425e-06,
      "loss": 0.4295,
      "mean_token_accuracy": 0.8608080074191093,
      "num_tokens": 3520795.0,
      "step": 598
    },
    {
      "entropy": 1.4834775626659393,
      "epoch": 1.3651925820256776,
      "grad_norm": 3.1875,
      "learning_rate": 1.266346464691346e-06,
      "loss": 0.4126,
      "mean_token_accuracy": 0.8710288777947426,
      "num_tokens": 3526380.0,
      "step": 599
    },
    {
      "entropy": 1.5034915506839752,
      "epoch": 1.367475035663338,
      "grad_norm": 3.484375,
      "learning_rate": 1.25816442183193e-06,
      "loss": 0.5211,
      "mean_token_accuracy": 0.837138943374157,
      "num_tokens": 3531865.0,
      "step": 600
    },
    {
      "epoch": 1.367475035663338,
      "eval_entropy": 1.4793427891201443,
      "eval_loss": 0.473636656999588,
      "eval_mean_token_accuracy": 0.8656807369656033,
      "eval_num_tokens": 3531865.0,
      "eval_runtime": 4.3898,
      "eval_samples_per_second": 20.502,
      "eval_steps_per_second": 20.502,
      "step": 600
    }
  ],
  "logging_steps": 1,
  "max_steps": 878,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.360105773011712e+16,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}