{
  "best_global_step": 3800,
  "best_metric": 1.0250593423843384,
  "best_model_checkpoint": "/workspace/adversarial-rlhf/runs/sft-OpenHermes-2.5-Mistral-7B-20251108-1943/checkpoints/checkpoint-3800",
  "epoch": 1.0,
  "eval_steps": 100,
  "global_step": 3821,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "entropy": 1.1123480509966612,
      "epoch": 0.0013085793735176249,
      "grad_norm": 0.6217469573020935,
      "learning_rate": 1.9979063072494113e-05,
      "loss": 1.4467,
      "mean_token_accuracy": 0.6513771142810583,
      "num_tokens": 38846.0,
      "step": 5
    },
    {
      "entropy": 1.1004129022359848,
      "epoch": 0.0026171587470352497,
      "grad_norm": 0.4485588073730469,
      "learning_rate": 1.995289191311175e-05,
      "loss": 1.3538,
      "mean_token_accuracy": 0.6656047463417053,
      "num_tokens": 77083.0,
      "step": 10
    },
    {
      "entropy": 1.1241086978465318,
      "epoch": 0.003925738120552875,
      "grad_norm": 0.4486566483974457,
      "learning_rate": 1.9926720753729393e-05,
      "loss": 1.2136,
      "mean_token_accuracy": 0.6849155448377132,
      "num_tokens": 113871.0,
      "step": 15
    },
    {
      "entropy": 1.2270274113863706,
      "epoch": 0.005234317494070499,
      "grad_norm": 0.3619006276130676,
      "learning_rate": 1.990054959434703e-05,
      "loss": 1.1882,
      "mean_token_accuracy": 0.6774788822978735,
      "num_tokens": 149409.0,
      "step": 20
    },
    {
      "entropy": 1.21558427400887,
      "epoch": 0.006542896867588125,
      "grad_norm": 0.3003220558166504,
      "learning_rate": 1.987437843496467e-05,
      "loss": 1.2674,
      "mean_token_accuracy": 0.6861417829990387,
      "num_tokens": 191753.0,
      "step": 25
    },
    {
      "entropy": 1.2555227734148502,
      "epoch": 0.00785147624110575,
      "grad_norm": 0.28489917516708374,
      "learning_rate": 1.9848207275582308e-05,
      "loss": 1.1575,
      "mean_token_accuracy": 0.6786608777940273,
      "num_tokens": 236354.0,
      "step": 30
    },
    {
      "entropy": 1.2973661322146655,
      "epoch": 0.009160055614623375,
      "grad_norm": 0.2774274945259094,
      "learning_rate": 1.982203611619995e-05,
      "loss": 1.2217,
      "mean_token_accuracy": 0.6799626011401415,
      "num_tokens": 276048.0,
      "step": 35
    },
    {
      "entropy": 1.196922979876399,
      "epoch": 0.010468634988140999,
      "grad_norm": 0.2974745035171509,
      "learning_rate": 1.979586495681759e-05,
      "loss": 1.1239,
      "mean_token_accuracy": 0.6995673455297947,
      "num_tokens": 313936.0,
      "step": 40
    },
    {
      "entropy": 1.2235115006566049,
      "epoch": 0.011777214361658624,
      "grad_norm": 0.2803105115890503,
      "learning_rate": 1.9769693797435227e-05,
      "loss": 1.1753,
      "mean_token_accuracy": 0.6886466249823571,
      "num_tokens": 354248.0,
      "step": 45
    },
    {
      "entropy": 1.2047650370746852,
      "epoch": 0.01308579373517625,
      "grad_norm": 0.24354718625545502,
      "learning_rate": 1.974352263805287e-05,
      "loss": 1.1418,
      "mean_token_accuracy": 0.6953188866376877,
      "num_tokens": 392556.0,
      "step": 50
    },
    {
      "entropy": 1.174419540166855,
      "epoch": 0.014394373108693874,
      "grad_norm": 0.2286166548728943,
      "learning_rate": 1.9717351478670507e-05,
      "loss": 1.1289,
      "mean_token_accuracy": 0.6958644594997168,
      "num_tokens": 429553.0,
      "step": 55
    },
    {
      "entropy": 1.2164320405572653,
      "epoch": 0.0157029524822115,
      "grad_norm": 0.24150270223617554,
      "learning_rate": 1.9691180319288145e-05,
      "loss": 1.1822,
      "mean_token_accuracy": 0.6899411961436271,
      "num_tokens": 471479.0,
      "step": 60
    },
    {
      "entropy": 1.3109304085373878,
      "epoch": 0.017011531855729123,
      "grad_norm": 0.2634604275226593,
      "learning_rate": 1.9665009159905787e-05,
      "loss": 1.2606,
      "mean_token_accuracy": 0.6797668907791377,
      "num_tokens": 507880.0,
      "step": 65
    },
    {
      "entropy": 1.3245886493474246,
      "epoch": 0.01832011122924675,
      "grad_norm": 0.2704319953918457,
      "learning_rate": 1.9638838000523425e-05,
      "loss": 1.1799,
      "mean_token_accuracy": 0.6835815001279115,
      "num_tokens": 545408.0,
      "step": 70
    },
    {
      "entropy": 1.2262448083609343,
      "epoch": 0.019628690602764374,
      "grad_norm": 0.2790036201477051,
      "learning_rate": 1.9612666841141064e-05,
      "loss": 1.1106,
      "mean_token_accuracy": 0.6929917622357606,
      "num_tokens": 583634.0,
      "step": 75
    },
    {
      "entropy": 1.265508808940649,
      "epoch": 0.020937269976281998,
      "grad_norm": 0.22567331790924072,
      "learning_rate": 1.9586495681758702e-05,
      "loss": 1.2072,
      "mean_token_accuracy": 0.6882555760443211,
      "num_tokens": 619048.0,
      "step": 80
    },
    {
      "entropy": 1.2399516824632884,
      "epoch": 0.022245849349799625,
      "grad_norm": 0.26959890127182007,
      "learning_rate": 1.9560324522376344e-05,
      "loss": 1.1765,
      "mean_token_accuracy": 0.6866359710693359,
      "num_tokens": 657325.0,
      "step": 85
    },
    {
      "entropy": 1.2313102029263974,
      "epoch": 0.02355442872331725,
      "grad_norm": 0.31447833776474,
      "learning_rate": 1.9534153362993982e-05,
      "loss": 1.1615,
      "mean_token_accuracy": 0.6929020721465349,
      "num_tokens": 692549.0,
      "step": 90
    },
    {
      "entropy": 1.29357091486454,
      "epoch": 0.024863008096834872,
      "grad_norm": 0.27703842520713806,
      "learning_rate": 1.950798220361162e-05,
      "loss": 1.2535,
      "mean_token_accuracy": 0.6816725376993418,
      "num_tokens": 730459.0,
      "step": 95
    },
    {
      "entropy": 1.1631319765001535,
      "epoch": 0.0261715874703525,
      "grad_norm": 0.30061009526252747,
      "learning_rate": 1.9481811044229262e-05,
      "loss": 1.0757,
      "mean_token_accuracy": 0.7062662675976753,
      "num_tokens": 770154.0,
      "step": 100
    },
    {
      "epoch": 0.0261715874703525,
      "eval_entropy": 1.138489418029785,
      "eval_loss": 1.1535744667053223,
      "eval_mean_token_accuracy": 0.7070313329696656,
      "eval_num_tokens": 770154.0,
      "eval_runtime": 96.9826,
      "eval_samples_per_second": 10.311,
      "eval_steps_per_second": 1.289,
      "step": 100
    },
    {
      "entropy": 1.2952044211328029,
      "epoch": 0.027480166843870123,
      "grad_norm": 0.3016025125980377,
      "learning_rate": 1.94556398848469e-05,
      "loss": 1.1798,
      "mean_token_accuracy": 0.6826052766293287,
      "num_tokens": 806341.0,
      "step": 105
    },
    {
      "entropy": 1.2129868753254414,
      "epoch": 0.028788746217387747,
      "grad_norm": 0.2947443425655365,
      "learning_rate": 1.942946872546454e-05,
      "loss": 1.1327,
      "mean_token_accuracy": 0.6927057210355997,
      "num_tokens": 843316.0,
      "step": 110
    },
    {
      "entropy": 1.290729960054159,
      "epoch": 0.030097325590905374,
      "grad_norm": 0.3131401240825653,
      "learning_rate": 1.940329756608218e-05,
      "loss": 1.1927,
      "mean_token_accuracy": 0.6800491612404584,
      "num_tokens": 879843.0,
      "step": 115
    },
    {
      "entropy": 1.1782143030315637,
      "epoch": 0.031405904964423,
      "grad_norm": 0.2727121114730835,
      "learning_rate": 1.937712640669982e-05,
      "loss": 1.0659,
      "mean_token_accuracy": 0.700430641323328,
      "num_tokens": 920743.0,
      "step": 120
    },
    {
      "entropy": 1.1695528313517571,
      "epoch": 0.03271448433794062,
      "grad_norm": 0.26583895087242126,
      "learning_rate": 1.9350955247317458e-05,
      "loss": 1.0232,
      "mean_token_accuracy": 0.7075442411005497,
      "num_tokens": 959096.0,
      "step": 125
    },
    {
      "entropy": 1.2109053663909435,
      "epoch": 0.034023063711458246,
      "grad_norm": 0.3991076946258545,
      "learning_rate": 1.93247840879351e-05,
      "loss": 1.1003,
      "mean_token_accuracy": 0.699517872184515,
      "num_tokens": 992352.0,
      "step": 130
    },
    {
      "entropy": 1.2005993926897645,
      "epoch": 0.035331643084975876,
      "grad_norm": 0.22760024666786194,
      "learning_rate": 1.9298612928552734e-05,
      "loss": 1.0873,
      "mean_token_accuracy": 0.7063136156648397,
      "num_tokens": 1031994.0,
      "step": 135
    },
    {
      "entropy": 1.2139225870370864,
      "epoch": 0.0366402224584935,
      "grad_norm": 0.2275068610906601,
      "learning_rate": 1.9272441769170376e-05,
      "loss": 1.2156,
      "mean_token_accuracy": 0.6952568493783474,
      "num_tokens": 1074569.0,
      "step": 140
    },
    {
      "entropy": 1.1324009403586388,
      "epoch": 0.037948801832011124,
      "grad_norm": 0.29410237073898315,
      "learning_rate": 1.9246270609788015e-05,
      "loss": 1.0779,
      "mean_token_accuracy": 0.7172829706221819,
      "num_tokens": 1113952.0,
      "step": 145
    },
    {
      "entropy": 1.2293724507093429,
      "epoch": 0.03925738120552875,
      "grad_norm": 0.37723538279533386,
      "learning_rate": 1.9220099450405653e-05,
      "loss": 1.146,
      "mean_token_accuracy": 0.6888038989156484,
      "num_tokens": 1148309.0,
      "step": 150
    },
    {
      "entropy": 1.2574020594358444,
      "epoch": 0.04056596057904637,
      "grad_norm": 0.2657281756401062,
      "learning_rate": 1.9193928291023295e-05,
      "loss": 1.1935,
      "mean_token_accuracy": 0.6899809587746859,
      "num_tokens": 1189282.0,
      "step": 155
    },
    {
      "entropy": 1.2693338964134455,
      "epoch": 0.041874539952563995,
      "grad_norm": 0.3656497895717621,
      "learning_rate": 1.9167757131640933e-05,
      "loss": 1.1972,
      "mean_token_accuracy": 0.6868170712143182,
      "num_tokens": 1227946.0,
      "step": 160
    },
    {
      "entropy": 1.2286424834281207,
      "epoch": 0.043183119326081626,
      "grad_norm": 0.3276367485523224,
      "learning_rate": 1.914158597225857e-05,
      "loss": 1.2015,
      "mean_token_accuracy": 0.6974392894655466,
      "num_tokens": 1263944.0,
      "step": 165
    },
    {
      "entropy": 1.1861646961420775,
      "epoch": 0.04449169869959925,
      "grad_norm": 0.23723381757736206,
      "learning_rate": 1.9115414812876213e-05,
      "loss": 1.0972,
      "mean_token_accuracy": 0.7079249806702137,
      "num_tokens": 1304585.0,
      "step": 170
    },
    {
      "entropy": 1.208771700784564,
      "epoch": 0.045800278073116873,
      "grad_norm": 0.26714691519737244,
      "learning_rate": 1.908924365349385e-05,
      "loss": 1.1027,
      "mean_token_accuracy": 0.6939801312983036,
      "num_tokens": 1348683.0,
      "step": 175
    },
    {
      "entropy": 1.2366201855242251,
      "epoch": 0.0471088574466345,
      "grad_norm": 0.2907228171825409,
      "learning_rate": 1.906307249411149e-05,
      "loss": 1.1874,
      "mean_token_accuracy": 0.6881870869547129,
      "num_tokens": 1383690.0,
      "step": 180
    },
    {
      "entropy": 1.1898431174457074,
      "epoch": 0.04841743682015212,
      "grad_norm": 0.307679146528244,
      "learning_rate": 1.9036901334729128e-05,
      "loss": 1.0673,
      "mean_token_accuracy": 0.6996020458638668,
      "num_tokens": 1421508.0,
      "step": 185
    },
    {
      "entropy": 1.187743027880788,
      "epoch": 0.049726016193669745,
      "grad_norm": 0.3183029890060425,
      "learning_rate": 1.901073017534677e-05,
      "loss": 1.0849,
      "mean_token_accuracy": 0.7036747265607118,
      "num_tokens": 1462197.0,
      "step": 190
    },
    {
      "entropy": 1.2066817820072173,
      "epoch": 0.051034595567187375,
      "grad_norm": 0.3657572865486145,
      "learning_rate": 1.898455901596441e-05,
      "loss": 1.1581,
      "mean_token_accuracy": 0.6929362419992685,
      "num_tokens": 1495983.0,
      "step": 195
    },
    {
      "entropy": 1.2126169182360171,
      "epoch": 0.052343174940705,
      "grad_norm": 0.29915717244148254,
      "learning_rate": 1.8958387856582047e-05,
      "loss": 1.209,
      "mean_token_accuracy": 0.6987330242991447,
      "num_tokens": 1533227.0,
      "step": 200
    },
    {
      "epoch": 0.052343174940705,
      "eval_entropy": 1.1249961452484132,
      "eval_loss": 1.1296290159225464,
      "eval_mean_token_accuracy": 0.7111005320549011,
      "eval_num_tokens": 1533227.0,
      "eval_runtime": 96.9069,
      "eval_samples_per_second": 10.319,
      "eval_steps_per_second": 1.29,
      "step": 200
    },
    {
      "entropy": 1.2599914189428092,
      "epoch": 0.05365175431422262,
      "grad_norm": 0.27243492007255554,
      "learning_rate": 1.893221669719969e-05,
      "loss": 1.1688,
      "mean_token_accuracy": 0.6900306183844804,
      "num_tokens": 1571122.0,
      "step": 205
    },
    {
      "entropy": 1.182131139561534,
      "epoch": 0.05496033368774025,
      "grad_norm": 0.3210395276546478,
      "learning_rate": 1.8906045537817327e-05,
      "loss": 1.0958,
      "mean_token_accuracy": 0.7051124095916748,
      "num_tokens": 1610597.0,
      "step": 210
    },
    {
      "entropy": 1.1748668916523457,
      "epoch": 0.05626891306125787,
      "grad_norm": 0.289655864238739,
      "learning_rate": 1.8879874378434965e-05,
      "loss": 1.1017,
      "mean_token_accuracy": 0.704343120381236,
      "num_tokens": 1647358.0,
      "step": 215
    },
    {
      "entropy": 1.2121441032737494,
      "epoch": 0.057577492434775494,
      "grad_norm": 0.27067476511001587,
      "learning_rate": 1.8853703219052607e-05,
      "loss": 1.0814,
      "mean_token_accuracy": 0.7023848608136177,
      "num_tokens": 1683267.0,
      "step": 220
    },
    {
      "entropy": 1.2210756927728652,
      "epoch": 0.058886071808293125,
      "grad_norm": 0.2811789810657501,
      "learning_rate": 1.8827532059670245e-05,
      "loss": 1.1921,
      "mean_token_accuracy": 0.6895555172115564,
      "num_tokens": 1720402.0,
      "step": 225
    },
    {
      "entropy": 1.2133880224078895,
      "epoch": 0.06019465118181075,
      "grad_norm": 0.2670990526676178,
      "learning_rate": 1.8801360900287884e-05,
      "loss": 1.1452,
      "mean_token_accuracy": 0.6956219498068095,
      "num_tokens": 1760874.0,
      "step": 230
    },
    {
      "entropy": 1.1936849866062402,
      "epoch": 0.06150323055532837,
      "grad_norm": 0.23748992383480072,
      "learning_rate": 1.8775189740905526e-05,
      "loss": 1.1095,
      "mean_token_accuracy": 0.701577215641737,
      "num_tokens": 1798253.0,
      "step": 235
    },
    {
      "entropy": 1.1502909563481807,
      "epoch": 0.062811809928846,
      "grad_norm": 0.26068389415740967,
      "learning_rate": 1.8749018581523164e-05,
      "loss": 1.158,
      "mean_token_accuracy": 0.7133214943110943,
      "num_tokens": 1833443.0,
      "step": 240
    },
    {
      "entropy": 1.3078780982643365,
      "epoch": 0.06412038930236362,
      "grad_norm": 0.4137086272239685,
      "learning_rate": 1.8722847422140802e-05,
      "loss": 1.2878,
      "mean_token_accuracy": 0.6780555315315724,
      "num_tokens": 1871910.0,
      "step": 245
    },
    {
      "entropy": 1.2249418403953314,
      "epoch": 0.06542896867588124,
      "grad_norm": 0.2942444384098053,
      "learning_rate": 1.869667626275844e-05,
      "loss": 1.1637,
      "mean_token_accuracy": 0.6950553271919488,
      "num_tokens": 1909524.0,
      "step": 250
    },
    {
      "entropy": 1.211066035553813,
      "epoch": 0.06673754804939887,
      "grad_norm": 0.3243419826030731,
      "learning_rate": 1.8670505103376082e-05,
      "loss": 1.1516,
      "mean_token_accuracy": 0.6988872833549976,
      "num_tokens": 1949325.0,
      "step": 255
    },
    {
      "entropy": 1.1659034360200167,
      "epoch": 0.06804612742291649,
      "grad_norm": 0.2724755108356476,
      "learning_rate": 1.864433394399372e-05,
      "loss": 1.1041,
      "mean_token_accuracy": 0.7077850546687842,
      "num_tokens": 1992509.0,
      "step": 260
    },
    {
      "entropy": 1.1442662578076124,
      "epoch": 0.06935470679643412,
      "grad_norm": 0.22777320444583893,
      "learning_rate": 1.861816278461136e-05,
      "loss": 1.0722,
      "mean_token_accuracy": 0.7042363248765469,
      "num_tokens": 2025452.0,
      "step": 265
    },
    {
      "entropy": 1.1255293242633342,
      "epoch": 0.07066328616995175,
      "grad_norm": 0.30172210931777954,
      "learning_rate": 1.8591991625229e-05,
      "loss": 1.039,
      "mean_token_accuracy": 0.7133398558944464,
      "num_tokens": 2066169.0,
      "step": 270
    },
    {
      "entropy": 1.1561335507780313,
      "epoch": 0.07197186554346938,
      "grad_norm": 0.2582629323005676,
      "learning_rate": 1.856582046584664e-05,
      "loss": 1.1285,
      "mean_token_accuracy": 0.6994227156043052,
      "num_tokens": 2107302.0,
      "step": 275
    },
    {
      "entropy": 1.1572829529643058,
      "epoch": 0.073280444916987,
      "grad_norm": 0.3104718029499054,
      "learning_rate": 1.8539649306464278e-05,
      "loss": 1.0956,
      "mean_token_accuracy": 0.706654816865921,
      "num_tokens": 2143551.0,
      "step": 280
    },
    {
      "entropy": 1.1630447298288344,
      "epoch": 0.07458902429050462,
      "grad_norm": 0.23650068044662476,
      "learning_rate": 1.851347814708192e-05,
      "loss": 1.1061,
      "mean_token_accuracy": 0.7114994272589683,
      "num_tokens": 2184046.0,
      "step": 285
    },
    {
      "entropy": 1.1605928294360637,
      "epoch": 0.07589760366402225,
      "grad_norm": 0.2913525104522705,
      "learning_rate": 1.8487306987699554e-05,
      "loss": 1.1521,
      "mean_token_accuracy": 0.7072546981275082,
      "num_tokens": 2223868.0,
      "step": 290
    },
    {
      "entropy": 1.169267463684082,
      "epoch": 0.07720618303753987,
      "grad_norm": 0.2545417547225952,
      "learning_rate": 1.8461135828317196e-05,
      "loss": 1.1464,
      "mean_token_accuracy": 0.7014396741986275,
      "num_tokens": 2265467.0,
      "step": 295
    },
    {
      "entropy": 1.170828291401267,
      "epoch": 0.0785147624110575,
      "grad_norm": 0.3250999450683594,
      "learning_rate": 1.8434964668934835e-05,
      "loss": 1.1287,
      "mean_token_accuracy": 0.7041407331824303,
      "num_tokens": 2304656.0,
      "step": 300
    },
    {
      "epoch": 0.0785147624110575,
      "eval_entropy": 1.1109629173278808,
      "eval_loss": 1.1124978065490723,
      "eval_mean_token_accuracy": 0.7139446325302125,
      "eval_num_tokens": 2304656.0,
      "eval_runtime": 96.7866,
      "eval_samples_per_second": 10.332,
      "eval_steps_per_second": 1.292,
      "step": 300
    },
    {
      "entropy": 1.2286480199545622,
      "epoch": 0.07982334178457512,
      "grad_norm": 0.2837753891944885,
      "learning_rate": 1.8408793509552473e-05,
      "loss": 1.1965,
      "mean_token_accuracy": 0.6960091460496187,
      "num_tokens": 2346109.0,
      "step": 305
    },
    {
      "entropy": 1.225469772517681,
      "epoch": 0.08113192115809274,
      "grad_norm": 0.3345058262348175,
      "learning_rate": 1.8382622350170115e-05,
      "loss": 1.2391,
      "mean_token_accuracy": 0.6988137848675251,
      "num_tokens": 2387084.0,
      "step": 310
    },
    {
      "entropy": 1.076605834439397,
      "epoch": 0.08244050053161037,
      "grad_norm": 0.2856815755367279,
      "learning_rate": 1.8356451190787753e-05,
      "loss": 1.0384,
      "mean_token_accuracy": 0.7207759529352188,
      "num_tokens": 2428351.0,
      "step": 315
    },
    {
      "entropy": 1.1501711413264275,
      "epoch": 0.08374907990512799,
      "grad_norm": 0.3421330451965332,
      "learning_rate": 1.833028003140539e-05,
      "loss": 1.1022,
      "mean_token_accuracy": 0.7128844160586596,
      "num_tokens": 2465278.0,
      "step": 320
    },
    {
      "entropy": 1.1183946415781976,
      "epoch": 0.08505765927864561,
      "grad_norm": 0.26048743724823,
      "learning_rate": 1.8304108872023033e-05,
      "loss": 1.1056,
      "mean_token_accuracy": 0.7164099890738725,
      "num_tokens": 2505150.0,
      "step": 325
    },
    {
      "entropy": 1.2478729356080294,
      "epoch": 0.08636623865216325,
      "grad_norm": 0.3070579767227173,
      "learning_rate": 1.827793771264067e-05,
      "loss": 1.1858,
      "mean_token_accuracy": 0.6890709776431322,
      "num_tokens": 2545535.0,
      "step": 330
    },
    {
      "entropy": 1.1905897859483958,
      "epoch": 0.08767481802568088,
      "grad_norm": 0.29979345202445984,
      "learning_rate": 1.825176655325831e-05,
      "loss": 1.1911,
      "mean_token_accuracy": 0.6996586941182613,
      "num_tokens": 2587914.0,
      "step": 335
    },
    {
      "entropy": 1.1719540372490882,
      "epoch": 0.0889833973991985,
      "grad_norm": 0.3220307528972626,
      "learning_rate": 1.822559539387595e-05,
      "loss": 1.1214,
      "mean_token_accuracy": 0.7045478235930205,
      "num_tokens": 2625193.0,
      "step": 340
    },
    {
      "entropy": 1.1586624164134265,
      "epoch": 0.09029197677271612,
      "grad_norm": 0.2599794566631317,
      "learning_rate": 1.819942423449359e-05,
      "loss": 1.0431,
      "mean_token_accuracy": 0.7106049194931984,
      "num_tokens": 2665612.0,
      "step": 345
    },
    {
      "entropy": 1.1819968853145837,
      "epoch": 0.09160055614623375,
      "grad_norm": 0.29061323404312134,
      "learning_rate": 1.817325307511123e-05,
      "loss": 1.1262,
      "mean_token_accuracy": 0.7002443138509988,
      "num_tokens": 2706946.0,
      "step": 350
    },
    {
      "entropy": 1.1458000589162112,
      "epoch": 0.09290913551975137,
      "grad_norm": 0.347755491733551,
      "learning_rate": 1.8147081915728867e-05,
      "loss": 1.0993,
      "mean_token_accuracy": 0.7002494022250175,
      "num_tokens": 2747375.0,
      "step": 355
    },
    {
      "entropy": 1.1966037943959236,
      "epoch": 0.094217714893269,
      "grad_norm": 0.37435945868492126,
      "learning_rate": 1.812091075634651e-05,
      "loss": 1.1504,
      "mean_token_accuracy": 0.7029601544141769,
      "num_tokens": 2790158.0,
      "step": 360
    },
    {
      "entropy": 1.1675037112087012,
      "epoch": 0.09552629426678662,
      "grad_norm": 0.32143616676330566,
      "learning_rate": 1.8094739596964147e-05,
      "loss": 1.0943,
      "mean_token_accuracy": 0.7053755812346936,
      "num_tokens": 2827819.0,
      "step": 365
    },
    {
      "entropy": 1.1707987286150456,
      "epoch": 0.09683487364030424,
      "grad_norm": 0.35289084911346436,
      "learning_rate": 1.8068568437581785e-05,
      "loss": 1.1038,
      "mean_token_accuracy": 0.7076830513775348,
      "num_tokens": 2869307.0,
      "step": 370
    },
    {
      "entropy": 1.1168341800570487,
      "epoch": 0.09814345301382187,
      "grad_norm": 0.3782387673854828,
      "learning_rate": 1.8042397278199427e-05,
      "loss": 1.0558,
      "mean_token_accuracy": 0.7170991696417331,
      "num_tokens": 2914107.0,
      "step": 375
    },
    {
      "entropy": 1.1111165493726731,
      "epoch": 0.09945203238733949,
      "grad_norm": 0.3120217025279999,
      "learning_rate": 1.8016226118817065e-05,
      "loss": 1.0232,
      "mean_token_accuracy": 0.7135602042078972,
      "num_tokens": 2952137.0,
      "step": 380
    },
    {
      "entropy": 1.1221987165510654,
      "epoch": 0.10076061176085711,
      "grad_norm": 0.3564794659614563,
      "learning_rate": 1.7990054959434704e-05,
      "loss": 1.0421,
      "mean_token_accuracy": 0.712994397431612,
      "num_tokens": 2992220.0,
      "step": 385
    },
    {
      "entropy": 1.1915016632527113,
      "epoch": 0.10206919113437475,
      "grad_norm": 0.3401761054992676,
      "learning_rate": 1.7963883800052346e-05,
      "loss": 1.1218,
      "mean_token_accuracy": 0.704281483963132,
      "num_tokens": 3032423.0,
      "step": 390
    },
    {
      "entropy": 1.1808374393731356,
      "epoch": 0.10337777050789237,
      "grad_norm": 0.32225707173347473,
      "learning_rate": 1.7937712640669984e-05,
      "loss": 1.1646,
      "mean_token_accuracy": 0.6994639791548252,
      "num_tokens": 3068229.0,
      "step": 395
    },
    {
      "entropy": 1.1816586170345544,
      "epoch": 0.10468634988141,
      "grad_norm": 0.29380306601524353,
      "learning_rate": 1.7911541481287622e-05,
      "loss": 1.1252,
      "mean_token_accuracy": 0.7064340703189373,
      "num_tokens": 3108153.0,
      "step": 400
    },
    {
      "epoch": 0.10468634988141,
      "eval_entropy": 1.1162484121322631,
      "eval_loss": 1.1014440059661865,
      "eval_mean_token_accuracy": 0.7159673566818238,
      "eval_num_tokens": 3108153.0,
      "eval_runtime": 96.8755,
      "eval_samples_per_second": 10.323,
      "eval_steps_per_second": 1.29,
      "step": 400
    },
    {
      "entropy": 1.1671059928834437,
      "epoch": 0.10599492925492762,
      "grad_norm": 0.34220021963119507,
      "learning_rate": 1.788537032190526e-05,
      "loss": 1.0648,
      "mean_token_accuracy": 0.7134943757206201,
      "num_tokens": 3144634.0,
      "step": 405
    },
    {
      "entropy": 1.1742517005652189,
      "epoch": 0.10730350862844525,
      "grad_norm": 0.3622688949108124,
      "learning_rate": 1.7859199162522902e-05,
      "loss": 1.1752,
      "mean_token_accuracy": 0.7035086948424578,
      "num_tokens": 3184006.0,
      "step": 410
    },
    {
      "entropy": 1.193211056292057,
      "epoch": 0.10861208800196287,
      "grad_norm": 0.29637637734413147,
      "learning_rate": 1.783302800314054e-05,
      "loss": 1.1365,
      "mean_token_accuracy": 0.6987239971756936,
      "num_tokens": 3224565.0,
      "step": 415
    },
    {
      "entropy": 1.251770207285881,
      "epoch": 0.1099206673754805,
      "grad_norm": 0.2511119544506073,
      "learning_rate": 1.780685684375818e-05,
      "loss": 1.2718,
      "mean_token_accuracy": 0.6891444839537144,
      "num_tokens": 3265562.0,
      "step": 420
    },
    {
      "entropy": 1.23516104221344,
      "epoch": 0.11122924674899812,
      "grad_norm": 0.32558682560920715,
      "learning_rate": 1.778068568437582e-05,
      "loss": 1.2006,
      "mean_token_accuracy": 0.6901515744626522,
      "num_tokens": 3302848.0,
      "step": 425
    },
    {
      "entropy": 1.132848785072565,
      "epoch": 0.11253782612251574,
      "grad_norm": 0.26255035400390625,
      "learning_rate": 1.775451452499346e-05,
      "loss": 1.0432,
      "mean_token_accuracy": 0.7118600439280272,
      "num_tokens": 3342127.0,
      "step": 430
    },
    {
      "entropy": 1.180259444192052,
      "epoch": 0.11384640549603336,
      "grad_norm": 0.3205581307411194,
      "learning_rate": 1.7728343365611098e-05,
      "loss": 1.1224,
      "mean_token_accuracy": 0.7004977215081454,
      "num_tokens": 3381062.0,
      "step": 435
    },
    {
      "entropy": 1.249288512021303,
      "epoch": 0.11515498486955099,
      "grad_norm": 0.31854113936424255,
      "learning_rate": 1.770217220622874e-05,
      "loss": 1.2151,
      "mean_token_accuracy": 0.6909528046846389,
      "num_tokens": 3418674.0,
      "step": 440
    },
    {
      "entropy": 1.1658391878008842,
      "epoch": 0.11646356424306861,
      "grad_norm": 0.31040823459625244,
      "learning_rate": 1.7676001046846374e-05,
      "loss": 1.1628,
      "mean_token_accuracy": 0.7044171277433634,
      "num_tokens": 3459660.0,
      "step": 445
    },
    {
      "entropy": 1.1223286792635918,
      "epoch": 0.11777214361658625,
      "grad_norm": 0.387347936630249,
      "learning_rate": 1.7649829887464016e-05,
      "loss": 1.0412,
      "mean_token_accuracy": 0.716064503788948,
      "num_tokens": 3498595.0,
      "step": 450
    },
    {
      "entropy": 1.1415202051401139,
      "epoch": 0.11908072299010387,
      "grad_norm": 0.28736481070518494,
      "learning_rate": 1.7623658728081658e-05,
      "loss": 1.1526,
      "mean_token_accuracy": 0.7126259196549654,
      "num_tokens": 3538259.0,
      "step": 455
    },
    {
      "entropy": 1.1327776111662389,
      "epoch": 0.1203893023636215,
      "grad_norm": 0.2839507460594177,
      "learning_rate": 1.7597487568699293e-05,
      "loss": 1.0416,
      "mean_token_accuracy": 0.7203302428126335,
      "num_tokens": 3577846.0,
      "step": 460
    },
    {
      "entropy": 1.1565908435732126,
      "epoch": 0.12169788173713912,
      "grad_norm": 0.27812105417251587,
      "learning_rate": 1.7571316409316935e-05,
      "loss": 1.1039,
      "mean_token_accuracy": 0.7012306869029998,
      "num_tokens": 3621788.0,
      "step": 465
    },
    {
      "entropy": 1.2063092295080424,
      "epoch": 0.12300646111065675,
      "grad_norm": 0.38487356901168823,
      "learning_rate": 1.7545145249934573e-05,
      "loss": 1.1509,
      "mean_token_accuracy": 0.7023797459900379,
      "num_tokens": 3658439.0,
      "step": 470
    },
    {
      "entropy": 1.0865493860095738,
      "epoch": 0.12431504048417437,
      "grad_norm": 0.2500401735305786,
      "learning_rate": 1.751897409055221e-05,
      "loss": 1.003,
      "mean_token_accuracy": 0.7198965962976217,
      "num_tokens": 3698868.0,
      "step": 475
    },
    {
      "entropy": 1.1908767573535441,
      "epoch": 0.125623619857692,
      "grad_norm": 0.3962502181529999,
      "learning_rate": 1.7492802931169853e-05,
      "loss": 1.1297,
      "mean_token_accuracy": 0.7053800851106644,
      "num_tokens": 3741081.0,
      "step": 480
    },
    {
      "entropy": 1.1331688780337572,
      "epoch": 0.12693219923120963,
      "grad_norm": 0.2883553206920624,
      "learning_rate": 1.746663177178749e-05,
      "loss": 1.0536,
      "mean_token_accuracy": 0.7061506755650043,
      "num_tokens": 3780895.0,
      "step": 485
    },
    {
      "entropy": 1.097454984486103,
      "epoch": 0.12824077860472724,
      "grad_norm": 0.3009795844554901,
      "learning_rate": 1.744046061240513e-05,
      "loss": 1.0696,
      "mean_token_accuracy": 0.7190258864313364,
      "num_tokens": 3821605.0,
      "step": 490
    },
    {
      "entropy": 1.2135265406221152,
      "epoch": 0.12954935797824488,
      "grad_norm": 0.25389495491981506,
      "learning_rate": 1.741428945302277e-05,
      "loss": 1.2089,
      "mean_token_accuracy": 0.693002799153328,
      "num_tokens": 3861658.0,
      "step": 495
    },
    {
      "entropy": 1.2169387113302945,
      "epoch": 0.1308579373517625,
      "grad_norm": 0.2983970642089844,
      "learning_rate": 1.738811829364041e-05,
      "loss": 1.1668,
      "mean_token_accuracy": 0.7012713517993688,
      "num_tokens": 3903328.0,
      "step": 500
    },
    {
      "epoch": 0.1308579373517625,
      "eval_entropy": 1.0979133324623107,
      "eval_loss": 1.0918148756027222,
      "eval_mean_token_accuracy": 0.7178149290084839,
      "eval_num_tokens": 3903328.0,
      "eval_runtime": 96.8747,
      "eval_samples_per_second": 10.323,
      "eval_steps_per_second": 1.29,
      "step": 500
    },
    {
      "entropy": 1.1749178305268289,
      "epoch": 0.13216651672528013,
      "grad_norm": 0.38501033186912537,
      "learning_rate": 1.736194713425805e-05,
      "loss": 1.1413,
      "mean_token_accuracy": 0.707249428331852,
      "num_tokens": 3944540.0,
      "step": 505
    },
    {
      "entropy": 1.1787702813744545,
      "epoch": 0.13347509609879774,
      "grad_norm": 0.43281009793281555,
      "learning_rate": 1.7335775974875687e-05,
      "loss": 1.1217,
      "mean_token_accuracy": 0.7034583434462547,
      "num_tokens": 3980926.0,
      "step": 510
    },
    {
      "entropy": 1.0645542204380036,
      "epoch": 0.13478367547231537,
      "grad_norm": 0.3150987923145294,
      "learning_rate": 1.730960481549333e-05,
      "loss": 1.05,
      "mean_token_accuracy": 0.7132887698709964,
      "num_tokens": 4021891.0,
      "step": 515
    },
    {
      "entropy": 1.1106295462697744,
      "epoch": 0.13609225484583298,
      "grad_norm": 0.3438737094402313,
      "learning_rate": 1.7283433656110967e-05,
      "loss": 1.0003,
      "mean_token_accuracy": 0.7212319687008858,
      "num_tokens": 4060166.0,
      "step": 520
    },
    {
      "entropy": 1.1168012116104364,
      "epoch": 0.13740083421935062,
      "grad_norm": 0.3113572895526886,
      "learning_rate": 1.7257262496728605e-05,
      "loss": 1.0543,
      "mean_token_accuracy": 0.7209181990474463,
      "num_tokens": 4094716.0,
      "step": 525
    },
    {
      "entropy": 1.175467026978731,
      "epoch": 0.13870941359286823,
      "grad_norm": 0.302837073802948,
      "learning_rate": 1.7231091337346247e-05,
      "loss": 1.1289,
      "mean_token_accuracy": 0.7042849272489548,
      "num_tokens": 4141339.0,
      "step": 530
    },
    {
      "entropy": 1.0599542949348688,
      "epoch": 0.14001799296638587,
      "grad_norm": 0.2495729923248291,
      "learning_rate": 1.7204920177963885e-05,
      "loss": 1.052,
      "mean_token_accuracy": 0.7274259474128485,
      "num_tokens": 4185050.0,
      "step": 535
    },
    {
      "entropy": 1.1991025242954492,
      "epoch": 0.1413265723399035,
      "grad_norm": 0.4198792576789856,
      "learning_rate": 1.7178749018581524e-05,
      "loss": 1.1902,
      "mean_token_accuracy": 0.6947382442653179,
      "num_tokens": 4223794.0,
      "step": 540
    },
    {
      "entropy": 1.227722565829754,
      "epoch": 0.14263515171342112,
      "grad_norm": 0.3961770236492157,
      "learning_rate": 1.7152577859199166e-05,
      "loss": 1.1986,
      "mean_token_accuracy": 0.6865826688706875,
      "num_tokens": 4255882.0,
      "step": 545
    },
    {
      "entropy": 1.1813674479722978,
      "epoch": 0.14394373108693875,
      "grad_norm": 0.33829399943351746,
      "learning_rate": 1.7126406699816804e-05,
      "loss": 1.1159,
      "mean_token_accuracy": 0.7054100755602122,
      "num_tokens": 4293931.0,
      "step": 550
    },
    {
      "entropy": 1.1598187141120433,
      "epoch": 0.14525231046045636,
      "grad_norm": 0.29768019914627075,
      "learning_rate": 1.7100235540434442e-05,
      "loss": 1.1149,
      "mean_token_accuracy": 0.7081062331795692,
      "num_tokens": 4331281.0,
      "step": 555
    },
    {
      "entropy": 1.1658945206552744,
      "epoch": 0.146560889833974,
      "grad_norm": 0.47267428040504456,
      "learning_rate": 1.707406438105208e-05,
      "loss": 1.126,
      "mean_token_accuracy": 0.7110950201749802,
      "num_tokens": 4367666.0,
      "step": 560
    },
    {
      "entropy": 1.107292691990733,
      "epoch": 0.1478694692074916,
      "grad_norm": 0.30985575914382935,
      "learning_rate": 1.7047893221669722e-05,
      "loss": 1.0491,
      "mean_token_accuracy": 0.7133530873805285,
      "num_tokens": 4404165.0,
      "step": 565
    },
    {
      "entropy": 1.0999628335237503,
      "epoch": 0.14917804858100925,
      "grad_norm": 0.38928133249282837,
      "learning_rate": 1.702172206228736e-05,
      "loss": 1.0697,
      "mean_token_accuracy": 0.7206672951579094,
      "num_tokens": 4444145.0,
      "step": 570
    },
    {
      "entropy": 1.0466942593455315,
      "epoch": 0.15048662795452686,
      "grad_norm": 0.3638196289539337,
      "learning_rate": 1.6995550902905e-05,
      "loss": 0.9879,
      "mean_token_accuracy": 0.7333550229668617,
      "num_tokens": 4486612.0,
      "step": 575
    },
    {
      "entropy": 1.1943504758179189,
      "epoch": 0.1517952073280445,
      "grad_norm": 0.35094064474105835,
      "learning_rate": 1.696937974352264e-05,
      "loss": 1.173,
      "mean_token_accuracy": 0.7010251984000206,
      "num_tokens": 4527971.0,
      "step": 580
    },
    {
      "entropy": 1.1672972977161407,
      "epoch": 0.1531037867015621,
      "grad_norm": 0.3714410662651062,
      "learning_rate": 1.694320858414028e-05,
      "loss": 1.1864,
      "mean_token_accuracy": 0.6985016442835331,
      "num_tokens": 4565626.0,
      "step": 585
    },
    {
      "entropy": 1.183141415938735,
      "epoch": 0.15441236607507974,
      "grad_norm": 0.3710881173610687,
      "learning_rate": 1.6917037424757918e-05,
      "loss": 1.1097,
      "mean_token_accuracy": 0.709296465292573,
      "num_tokens": 4601255.0,
      "step": 590
    },
    {
      "entropy": 1.1613754861056804,
      "epoch": 0.15572094544859735,
      "grad_norm": 0.4122501015663147,
      "learning_rate": 1.689086626537556e-05,
      "loss": 1.0919,
      "mean_token_accuracy": 0.7126895777881146,
      "num_tokens": 4635025.0,
      "step": 595
    },
    {
      "entropy": 1.1225487384945154,
      "epoch": 0.157029524822115,
      "grad_norm": 0.260109007358551,
      "learning_rate": 1.6864695105993198e-05,
      "loss": 1.074,
      "mean_token_accuracy": 0.71206672526896,
      "num_tokens": 4675929.0,
      "step": 600
    },
    {
      "epoch": 0.157029524822115,
      "eval_entropy": 1.078299481868744,
      "eval_loss": 1.0839170217514038,
      "eval_mean_token_accuracy": 0.7196547708511353,
      "eval_num_tokens": 4675929.0,
      "eval_runtime": 96.9266,
      "eval_samples_per_second": 10.317,
      "eval_steps_per_second": 1.29,
      "step": 600
    },
    {
      "entropy": 1.214971611648798,
      "epoch": 0.15833810419563263,
      "grad_norm": 0.4801560044288635,
      "learning_rate": 1.6838523946610836e-05,
      "loss": 1.1404,
      "mean_token_accuracy": 0.6989750042557716,
      "num_tokens": 4714005.0,
      "step": 605
    },
    {
      "entropy": 1.1845928117632867,
      "epoch": 0.15964668356915024,
      "grad_norm": 0.30919569730758667,
      "learning_rate": 1.6812352787228478e-05,
      "loss": 1.2036,
      "mean_token_accuracy": 0.698324055224657,
      "num_tokens": 4755777.0,
      "step": 610
    },
    {
      "entropy": 1.0673103269189597,
      "epoch": 0.16095526294266788,
      "grad_norm": 0.2788703143596649,
      "learning_rate": 1.6786181627846113e-05,
      "loss": 0.9835,
      "mean_token_accuracy": 0.719642236456275,
      "num_tokens": 4795809.0,
      "step": 615
    },
    {
      "entropy": 1.1469231896102428,
      "epoch": 0.16226384231618549,
      "grad_norm": 0.3465251624584198,
      "learning_rate": 1.6760010468463755e-05,
      "loss": 1.0888,
      "mean_token_accuracy": 0.7080798294395209,
      "num_tokens": 4837156.0,
      "step": 620
    },
    {
      "entropy": 1.1547171102836729,
      "epoch": 0.16357242168970312,
      "grad_norm": 0.25486519932746887,
      "learning_rate": 1.6733839309081393e-05,
      "loss": 1.0928,
      "mean_token_accuracy": 0.7026465550065041,
      "num_tokens": 4877484.0,
      "step": 625
    },
    {
      "entropy": 1.1483009189367295,
      "epoch": 0.16488100106322073,
      "grad_norm": 0.2877664566040039,
      "learning_rate": 1.670766814969903e-05,
      "loss": 1.0912,
      "mean_token_accuracy": 0.7045180670917034,
      "num_tokens": 4916567.0,
      "step": 630
    },
    {
      "entropy": 1.057371946424246,
      "epoch": 0.16618958043673837,
      "grad_norm": 0.29588788747787476,
      "learning_rate": 1.6681496990316673e-05,
      "loss": 1.0147,
      "mean_token_accuracy": 0.733672034740448,
      "num_tokens": 4955375.0,
      "step": 635
    },
    {
      "entropy": 1.105701708048582,
      "epoch": 0.16749815981025598,
      "grad_norm": 0.305503785610199,
      "learning_rate": 1.665532583093431e-05,
      "loss": 1.0907,
      "mean_token_accuracy": 0.718507794290781,
      "num_tokens": 4994274.0,
      "step": 640
    },
    {
      "entropy": 1.1482198983430862,
      "epoch": 0.16880673918377362,
      "grad_norm": 0.34045520424842834,
      "learning_rate": 1.662915467155195e-05,
      "loss": 1.0737,
      "mean_token_accuracy": 0.7120114967226983,
      "num_tokens": 5028739.0,
      "step": 645
    },
    {
      "entropy": 1.1510255340486766,
      "epoch": 0.17011531855729123,
      "grad_norm": 0.3617549240589142,
      "learning_rate": 1.660298351216959e-05,
      "loss": 1.0989,
      "mean_token_accuracy": 0.7049180768430233,
      "num_tokens": 5067269.0,
      "step": 650
    },
    {
      "entropy": 1.1354583825916051,
      "epoch": 0.17142389793080887,
      "grad_norm": 0.2900081276893616,
      "learning_rate": 1.657681235278723e-05,
      "loss": 1.07,
      "mean_token_accuracy": 0.7162535794079303,
      "num_tokens": 5105740.0,
      "step": 655
    },
    {
      "entropy": 1.1124658603221178,
      "epoch": 0.1727324773043265,
      "grad_norm": 0.31473371386528015,
      "learning_rate": 1.655064119340487e-05,
      "loss": 1.0722,
      "mean_token_accuracy": 0.7151258502155542,
      "num_tokens": 5144288.0,
      "step": 660
    },
    {
      "entropy": 1.1872437849640847,
      "epoch": 0.1740410566778441,
      "grad_norm": 0.33180883526802063,
      "learning_rate": 1.6524470034022507e-05,
      "loss": 1.1771,
      "mean_token_accuracy": 0.6998372994363308,
      "num_tokens": 5182259.0,
      "step": 665
    },
    {
      "entropy": 1.140797757729888,
      "epoch": 0.17534963605136175,
      "grad_norm": 0.3464796245098114,
      "learning_rate": 1.649829887464015e-05,
      "loss": 1.088,
      "mean_token_accuracy": 0.7082854315638543,
      "num_tokens": 5221128.0,
      "step": 670
    },
    {
      "entropy": 1.1274819798767566,
      "epoch": 0.17665821542487936,
      "grad_norm": 0.3252648711204529,
      "learning_rate": 1.6472127715257787e-05,
      "loss": 1.0973,
      "mean_token_accuracy": 0.7148232467472553,
      "num_tokens": 5256205.0,
      "step": 675
    },
    {
      "entropy": 1.1311011631041765,
      "epoch": 0.177966794798397,
      "grad_norm": 0.6462693214416504,
      "learning_rate": 1.6445956555875425e-05,
      "loss": 1.0543,
      "mean_token_accuracy": 0.7152682617306709,
      "num_tokens": 5292320.0,
      "step": 680
    },
    {
      "entropy": 1.0446813367307186,
      "epoch": 0.1792753741719146,
      "grad_norm": 0.28639963269233704,
      "learning_rate": 1.6419785396493067e-05,
      "loss": 0.9461,
      "mean_token_accuracy": 0.7340242311358451,
      "num_tokens": 5334639.0,
      "step": 685
    },
    {
      "entropy": 1.1492939487099647,
      "epoch": 0.18058395354543225,
      "grad_norm": 0.34751448035240173,
      "learning_rate": 1.6393614237110705e-05,
      "loss": 1.0876,
      "mean_token_accuracy": 0.71434987783432,
      "num_tokens": 5371003.0,
      "step": 690
    },
    {
      "entropy": 1.1387122191488743,
      "epoch": 0.18189253291894986,
      "grad_norm": 0.32928481698036194,
      "learning_rate": 1.6367443077728344e-05,
      "loss": 1.1427,
      "mean_token_accuracy": 0.7110460348427295,
      "num_tokens": 5408983.0,
      "step": 695
    },
    {
      "entropy": 1.202421073615551,
      "epoch": 0.1832011122924675,
      "grad_norm": 0.36161890625953674,
      "learning_rate": 1.6341271918345986e-05,
      "loss": 1.17,
      "mean_token_accuracy": 0.6983021099120379,
      "num_tokens": 5449270.0,
      "step": 700
    },
    {
      "epoch": 0.1832011122924675,
      "eval_entropy": 1.0868224625587464,
      "eval_loss": 1.078864336013794,
      "eval_mean_token_accuracy": 0.7203193211555481,
      "eval_num_tokens": 5449270.0,
      "eval_runtime": 96.8653,
      "eval_samples_per_second": 10.324,
      "eval_steps_per_second": 1.29,
      "step": 700
    },
    {
      "entropy": 1.139945473894477,
      "epoch": 0.1845096916659851,
      "grad_norm": 0.34418225288391113,
      "learning_rate": 1.6315100758963624e-05,
      "loss": 1.0577,
      "mean_token_accuracy": 0.7123764835298061,
      "num_tokens": 5486900.0,
      "step": 705
    },
    {
      "entropy": 1.2072007820010184,
      "epoch": 0.18581827103950274,
      "grad_norm": 0.2719118595123291,
      "learning_rate": 1.6288929599581262e-05,
      "loss": 1.165,
      "mean_token_accuracy": 0.6938376247882843,
      "num_tokens": 5526941.0,
      "step": 710
    },
    {
      "entropy": 1.254874274134636,
      "epoch": 0.18712685041302035,
      "grad_norm": 0.42757540941238403,
      "learning_rate": 1.6262758440198904e-05,
      "loss": 1.2349,
      "mean_token_accuracy": 0.6856517255306244,
      "num_tokens": 5563702.0,
      "step": 715
    },
    {
      "entropy": 1.0055264480412007,
      "epoch": 0.188435429786538,
      "grad_norm": 0.3122069537639618,
      "learning_rate": 1.6236587280816542e-05,
      "loss": 0.9459,
      "mean_token_accuracy": 0.7404189445078373,
      "num_tokens": 5607678.0,
      "step": 720
    },
    {
      "entropy": 1.1009038139134646,
      "epoch": 0.18974400916005563,
      "grad_norm": 0.31834590435028076,
      "learning_rate": 1.621041612143418e-05,
      "loss": 1.0656,
      "mean_token_accuracy": 0.7191543571650982,
      "num_tokens": 5647310.0,
      "step": 725
    },
    {
      "entropy": 1.0673759788274766,
      "epoch": 0.19105258853357324,
      "grad_norm": 0.2675130069255829,
      "learning_rate": 1.618424496205182e-05,
      "loss": 1.0109,
      "mean_token_accuracy": 0.7255190499126911,
      "num_tokens": 5685639.0,
      "step": 730
    },
    {
      "entropy": 1.1511727664619684,
      "epoch": 0.19236116790709087,
      "grad_norm": 0.37566685676574707,
      "learning_rate": 1.615807380266946e-05,
      "loss": 1.0625,
      "mean_token_accuracy": 0.7034743718802929,
      "num_tokens": 5720880.0,
      "step": 735
    },
    {
      "entropy": 1.0888585902750492,
      "epoch": 0.19366974728060848,
      "grad_norm": 0.25365257263183594,
      "learning_rate": 1.61319026432871e-05,
      "loss": 1.049,
      "mean_token_accuracy": 0.7239378560334444,
      "num_tokens": 5762559.0,
      "step": 740
    },
    {
      "entropy": 1.1175981510430575,
      "epoch": 0.19497832665412612,
      "grad_norm": 0.43423643708229065,
      "learning_rate": 1.6105731483904738e-05,
      "loss": 1.0806,
      "mean_token_accuracy": 0.7193359076976776,
      "num_tokens": 5803927.0,
      "step": 745
    },
    {
      "entropy": 1.103783832490444,
      "epoch": 0.19628690602764373,
      "grad_norm": 0.38531434535980225,
      "learning_rate": 1.607956032452238e-05,
      "loss": 1.0503,
      "mean_token_accuracy": 0.722858403250575,
      "num_tokens": 5845809.0,
      "step": 750
    },
    {
      "entropy": 1.1102315738797188,
      "epoch": 0.19759548540116137,
      "grad_norm": 0.3240512013435364,
      "learning_rate": 1.6053389165140018e-05,
      "loss": 1.074,
      "mean_token_accuracy": 0.7143935695290565,
      "num_tokens": 5884671.0,
      "step": 755
    },
    {
      "entropy": 1.1394222188740968,
      "epoch": 0.19890406477467898,
      "grad_norm": 0.35714927315711975,
      "learning_rate": 1.6027218005757656e-05,
      "loss": 1.0505,
      "mean_token_accuracy": 0.7142257861793041,
      "num_tokens": 5923161.0,
      "step": 760
    },
    {
      "entropy": 1.10749419555068,
      "epoch": 0.20021264414819662,
      "grad_norm": 0.28041279315948486,
      "learning_rate": 1.6001046846375298e-05,
      "loss": 1.0247,
      "mean_token_accuracy": 0.7158019613474608,
      "num_tokens": 5964592.0,
      "step": 765
    },
    {
      "entropy": 1.1163969319313765,
      "epoch": 0.20152122352171423,
      "grad_norm": 0.3620986342430115,
      "learning_rate": 1.5974875686992933e-05,
      "loss": 1.1243,
      "mean_token_accuracy": 0.7199557162821293,
      "num_tokens": 6002121.0,
      "step": 770
    },
    {
      "entropy": 1.1485939621925354,
      "epoch": 0.20282980289523186,
      "grad_norm": 0.28997066617012024,
      "learning_rate": 1.5948704527610575e-05,
      "loss": 1.1103,
      "mean_token_accuracy": 0.7058781541883945,
      "num_tokens": 6042026.0,
      "step": 775
    },
    {
      "entropy": 1.163365462049842,
      "epoch": 0.2041383822687495,
      "grad_norm": 0.3916630148887634,
      "learning_rate": 1.5922533368228213e-05,
      "loss": 1.1024,
      "mean_token_accuracy": 0.7097311306744813,
      "num_tokens": 6081711.0,
      "step": 780
    },
    {
      "entropy": 1.1414872355759145,
      "epoch": 0.2054469616422671,
      "grad_norm": 0.3654806315898895,
      "learning_rate": 1.589636220884585e-05,
      "loss": 1.1151,
      "mean_token_accuracy": 0.7132655665278435,
      "num_tokens": 6124022.0,
      "step": 785
    },
    {
      "entropy": 1.1237910758703946,
      "epoch": 0.20675554101578475,
      "grad_norm": 0.30389606952667236,
      "learning_rate": 1.5870191049463493e-05,
      "loss": 1.071,
      "mean_token_accuracy": 0.7095677696168423,
      "num_tokens": 6163807.0,
      "step": 790
    },
    {
      "entropy": 1.108309706300497,
      "epoch": 0.20806412038930236,
      "grad_norm": 0.3702613413333893,
      "learning_rate": 1.584401989008113e-05,
      "loss": 1.0634,
      "mean_token_accuracy": 0.7195238072425127,
      "num_tokens": 6201204.0,
      "step": 795
    },
    {
      "entropy": 1.114043417200446,
      "epoch": 0.20937269976282,
      "grad_norm": 0.35386136174201965,
      "learning_rate": 1.581784873069877e-05,
      "loss": 1.0579,
      "mean_token_accuracy": 0.7175327345728875,
      "num_tokens": 6241249.0,
      "step": 800
    },
    {
      "epoch": 0.20937269976282,
      "eval_entropy": 1.0886374835968018,
      "eval_loss": 1.0736411809921265,
      "eval_mean_token_accuracy": 0.7216972298622132,
      "eval_num_tokens": 6241249.0,
      "eval_runtime": 96.8086,
      "eval_samples_per_second": 10.33,
      "eval_steps_per_second": 1.291,
      "step": 800
    },
    {
      "entropy": 1.1533120274543762,
      "epoch": 0.2106812791363376,
      "grad_norm": 0.37774205207824707,
      "learning_rate": 1.579167757131641e-05,
      "loss": 1.1071,
      "mean_token_accuracy": 0.7110585495829582,
      "num_tokens": 6280255.0,
      "step": 805
    },
    {
      "entropy": 1.1299995694309473,
      "epoch": 0.21198985850985524,
      "grad_norm": 0.3383270502090454,
      "learning_rate": 1.576550641193405e-05,
      "loss": 1.1167,
      "mean_token_accuracy": 0.7196012400090694,
      "num_tokens": 6320822.0,
      "step": 810
    },
    {
      "entropy": 1.132519034296274,
      "epoch": 0.21329843788337285,
      "grad_norm": 0.4295906126499176,
      "learning_rate": 1.573933525255169e-05,
      "loss": 1.0924,
      "mean_token_accuracy": 0.7042114794254303,
      "num_tokens": 6356129.0,
      "step": 815
    },
    {
      "entropy": 1.0832153180614115,
      "epoch": 0.2146070172568905,
      "grad_norm": 0.3158726394176483,
      "learning_rate": 1.571316409316933e-05,
      "loss": 1.0307,
      "mean_token_accuracy": 0.7189163245260716,
      "num_tokens": 6396277.0,
      "step": 820
    },
    {
      "entropy": 1.1116347532719373,
      "epoch": 0.2159155966304081,
      "grad_norm": 0.41325512528419495,
      "learning_rate": 1.568699293378697e-05,
      "loss": 1.0844,
      "mean_token_accuracy": 0.7163894921541214,
      "num_tokens": 6437087.0,
      "step": 825
    },
    {
      "entropy": 1.143670390546322,
      "epoch": 0.21722417600392574,
      "grad_norm": 0.4080452620983124,
      "learning_rate": 1.5660821774404607e-05,
      "loss": 1.1135,
      "mean_token_accuracy": 0.7132163152098656,
      "num_tokens": 6476092.0,
      "step": 830
    },
    {
      "entropy": 1.0523447673767805,
      "epoch": 0.21853275537744335,
      "grad_norm": 0.4133390784263611,
      "learning_rate": 1.5634650615022245e-05,
      "loss": 0.9998,
      "mean_token_accuracy": 0.7262923561036587,
      "num_tokens": 6513582.0,
      "step": 835
    },
    {
      "entropy": 1.1258170191198587,
      "epoch": 0.219841334750961,
      "grad_norm": 0.30965185165405273,
      "learning_rate": 1.5608479455639887e-05,
      "loss": 1.0456,
      "mean_token_accuracy": 0.7124281242489815,
      "num_tokens": 6548126.0,
      "step": 840
    },
    {
      "entropy": 0.9893411479890346,
      "epoch": 0.22114991412447862,
      "grad_norm": 0.2973790168762207,
      "learning_rate": 1.5582308296257525e-05,
      "loss": 0.9799,
      "mean_token_accuracy": 0.7382751934230327,
      "num_tokens": 6586710.0,
      "step": 845
    },
    {
      "entropy": 1.0379876332357525,
      "epoch": 0.22245849349799623,
      "grad_norm": 0.3356630206108093,
      "learning_rate": 1.5556137136875164e-05,
      "loss": 0.996,
      "mean_token_accuracy": 0.7286129504442215,
      "num_tokens": 6619347.0,
      "step": 850
    },
    {
      "entropy": 1.1024742640554905,
      "epoch": 0.22376707287151387,
      "grad_norm": 0.2636205554008484,
      "learning_rate": 1.5529965977492806e-05,
      "loss": 1.0735,
      "mean_token_accuracy": 0.7184439640492201,
      "num_tokens": 6659706.0,
      "step": 855
    },
    {
      "entropy": 1.0713739044964314,
      "epoch": 0.22507565224503148,
      "grad_norm": 0.31522178649902344,
      "learning_rate": 1.5503794818110444e-05,
      "loss": 1.0024,
      "mean_token_accuracy": 0.7307705961167812,
      "num_tokens": 6697262.0,
      "step": 860
    },
    {
      "entropy": 1.104831437766552,
      "epoch": 0.22638423161854912,
      "grad_norm": 0.4077572822570801,
      "learning_rate": 1.5477623658728082e-05,
      "loss": 1.0503,
      "mean_token_accuracy": 0.714413607865572,
      "num_tokens": 6736296.0,
      "step": 865
    },
    {
      "entropy": 1.111717356555164,
      "epoch": 0.22769281099206673,
      "grad_norm": 0.29983147978782654,
      "learning_rate": 1.5451452499345724e-05,
      "loss": 1.0415,
      "mean_token_accuracy": 0.7202403925359249,
      "num_tokens": 6771577.0,
      "step": 870
    },
    {
      "entropy": 1.0804973103106021,
      "epoch": 0.22900139036558437,
      "grad_norm": 0.3723820149898529,
      "learning_rate": 1.5425281339963362e-05,
      "loss": 1.0643,
      "mean_token_accuracy": 0.7192892145365477,
      "num_tokens": 6809238.0,
      "step": 875
    },
    {
      "entropy": 1.1236145053058864,
      "epoch": 0.23030996973910198,
      "grad_norm": 0.3762100338935852,
      "learning_rate": 1.5399110180581e-05,
      "loss": 1.1046,
      "mean_token_accuracy": 0.7134812079370022,
      "num_tokens": 6849361.0,
      "step": 880
    },
    {
      "entropy": 1.1618900313973426,
      "epoch": 0.23161854911261961,
      "grad_norm": 0.30742284655570984,
      "learning_rate": 1.537293902119864e-05,
      "loss": 1.1275,
      "mean_token_accuracy": 0.7040756050497293,
      "num_tokens": 6888648.0,
      "step": 885
    },
    {
      "entropy": 1.0937749415636062,
      "epoch": 0.23292712848613722,
      "grad_norm": 0.3493000864982605,
      "learning_rate": 1.534676786181628e-05,
      "loss": 0.9861,
      "mean_token_accuracy": 0.7299770966172219,
      "num_tokens": 6930330.0,
      "step": 890
    },
    {
      "entropy": 1.1693835414946079,
      "epoch": 0.23423570785965486,
      "grad_norm": 0.4292133152484894,
      "learning_rate": 1.532059670243392e-05,
      "loss": 1.1322,
      "mean_token_accuracy": 0.7005651116371154,
      "num_tokens": 6967178.0,
      "step": 895
    },
    {
      "entropy": 1.1351615231484176,
      "epoch": 0.2355442872331725,
      "grad_norm": 0.375841349363327,
      "learning_rate": 1.5294425543051558e-05,
      "loss": 1.0663,
      "mean_token_accuracy": 0.7153576008975506,
      "num_tokens": 7004358.0,
      "step": 900
    },
    {
      "epoch": 0.2355442872331725,
      "eval_entropy": 1.0517715344429015,
      "eval_loss": 1.0706533193588257,
      "eval_mean_token_accuracy": 0.7221157221794129,
      "eval_num_tokens": 7004358.0,
      "eval_runtime": 97.0639,
      "eval_samples_per_second": 10.302,
      "eval_steps_per_second": 1.288,
      "step": 900
    },
    {
      "entropy": 1.0132040306925774,
      "epoch": 0.2368528666066901,
      "grad_norm": 0.3356113135814667,
      "learning_rate": 1.52682543836692e-05,
      "loss": 1.0007,
      "mean_token_accuracy": 0.7337090380489826,
      "num_tokens": 7045486.0,
      "step": 905
    },
    {
      "entropy": 1.0505661655217409,
      "epoch": 0.23816144598020775,
      "grad_norm": 0.3069000244140625,
      "learning_rate": 1.5242083224286836e-05,
      "loss": 1.0113,
      "mean_token_accuracy": 0.7300900310277939,
      "num_tokens": 7087578.0,
      "step": 910
    },
    {
      "entropy": 1.0948154201731086,
      "epoch": 0.23947002535372536,
      "grad_norm": 0.26865532994270325,
      "learning_rate": 1.5215912064904476e-05,
      "loss": 0.996,
      "mean_token_accuracy": 0.7241026997566223,
      "num_tokens": 7125621.0,
      "step": 915
    },
    {
      "entropy": 1.0862870909273625,
      "epoch": 0.240778604727243,
      "grad_norm": 0.3076420724391937,
      "learning_rate": 1.5189740905522116e-05,
      "loss": 1.0411,
      "mean_token_accuracy": 0.7218753002583981,
      "num_tokens": 7163248.0,
      "step": 920
    },
    {
      "entropy": 1.0920290663838386,
      "epoch": 0.2420871841007606,
      "grad_norm": 0.35735777020454407,
      "learning_rate": 1.5163569746139755e-05,
      "loss": 0.9907,
      "mean_token_accuracy": 0.7253928408026695,
      "num_tokens": 7198313.0,
      "step": 925
    },
    {
      "entropy": 1.0561616513878107,
      "epoch": 0.24339576347427824,
      "grad_norm": 0.3752039670944214,
      "learning_rate": 1.5137398586757395e-05,
      "loss": 1.0076,
      "mean_token_accuracy": 0.7270361024886369,
      "num_tokens": 7236629.0,
      "step": 930
    },
    {
      "entropy": 1.192596261948347,
      "epoch": 0.24470434284779585,
      "grad_norm": 0.3303165137767792,
      "learning_rate": 1.5111227427375035e-05,
      "loss": 1.1446,
      "mean_token_accuracy": 0.7021023813635111,
      "num_tokens": 7278903.0,
      "step": 935
    },
    {
      "entropy": 1.1245649460703135,
      "epoch": 0.2460129222213135,
      "grad_norm": 0.43512144684791565,
      "learning_rate": 1.5085056267992673e-05,
      "loss": 1.0783,
      "mean_token_accuracy": 0.7149506479501724,
      "num_tokens": 7314092.0,
      "step": 940
    },
    {
      "entropy": 1.1568658344447613,
      "epoch": 0.2473215015948311,
      "grad_norm": 0.2600148320198059,
      "learning_rate": 1.5058885108610313e-05,
      "loss": 1.1493,
      "mean_token_accuracy": 0.7064739305526018,
      "num_tokens": 7354852.0,
      "step": 945
    },
    {
      "entropy": 1.1390374675393105,
      "epoch": 0.24863008096834874,
      "grad_norm": 0.4230680465698242,
      "learning_rate": 1.5032713949227953e-05,
      "loss": 1.051,
      "mean_token_accuracy": 0.7147066026926041,
      "num_tokens": 7391988.0,
      "step": 950
    },
    {
      "entropy": 1.1157769251614809,
      "epoch": 0.24993866034186635,
      "grad_norm": 0.31027132272720337,
      "learning_rate": 1.500654278984559e-05,
      "loss": 1.1055,
      "mean_token_accuracy": 0.7114299058914184,
      "num_tokens": 7430698.0,
      "step": 955
    },
    {
      "entropy": 1.1084700468927622,
      "epoch": 0.251247239715384,
      "grad_norm": 0.3883765935897827,
      "learning_rate": 1.498037163046323e-05,
      "loss": 1.0371,
      "mean_token_accuracy": 0.7152060814201832,
      "num_tokens": 7466746.0,
      "step": 960
    },
    {
      "entropy": 1.1067252047359943,
      "epoch": 0.2525558190889016,
      "grad_norm": 0.3586679697036743,
      "learning_rate": 1.495420047108087e-05,
      "loss": 1.091,
      "mean_token_accuracy": 0.7141210325062275,
      "num_tokens": 7508827.0,
      "step": 965
    },
    {
      "entropy": 1.1788568448275327,
      "epoch": 0.25386439846241926,
      "grad_norm": 0.28028714656829834,
      "learning_rate": 1.4928029311698508e-05,
      "loss": 1.1108,
      "mean_token_accuracy": 0.7068845115602016,
      "num_tokens": 7549412.0,
      "step": 970
    },
    {
      "entropy": 1.1229758808389305,
      "epoch": 0.25517297783593684,
      "grad_norm": 0.25545772910118103,
      "learning_rate": 1.4901858152316149e-05,
      "loss": 1.0713,
      "mean_token_accuracy": 0.7074509769678116,
      "num_tokens": 7587152.0,
      "step": 975
    },
    {
      "entropy": 1.0951409205794334,
      "epoch": 0.2564815572094545,
      "grad_norm": 0.4516986608505249,
      "learning_rate": 1.4875686992933789e-05,
      "loss": 0.9969,
      "mean_token_accuracy": 0.723530513048172,
      "num_tokens": 7623760.0,
      "step": 980
    },
    {
      "entropy": 1.1083605211228131,
      "epoch": 0.2577901365829721,
      "grad_norm": 0.28635019063949585,
      "learning_rate": 1.4849515833551427e-05,
      "loss": 1.0367,
      "mean_token_accuracy": 0.7231942892074585,
      "num_tokens": 7670277.0,
      "step": 985
    },
    {
      "entropy": 1.140053043141961,
      "epoch": 0.25909871595648976,
      "grad_norm": 0.29921141266822815,
      "learning_rate": 1.4823344674169067e-05,
      "loss": 1.0606,
      "mean_token_accuracy": 0.7078870553523302,
      "num_tokens": 7711405.0,
      "step": 990
    },
    {
      "entropy": 1.1648910887539388,
      "epoch": 0.26040729533000734,
      "grad_norm": 0.44739824533462524,
      "learning_rate": 1.4797173514786707e-05,
      "loss": 1.0833,
      "mean_token_accuracy": 0.7147607050836087,
      "num_tokens": 7745597.0,
      "step": 995
    },
    {
      "entropy": 1.1015649508684873,
      "epoch": 0.261715874703525,
      "grad_norm": 0.3616364598274231,
      "learning_rate": 1.4771002355404345e-05,
      "loss": 1.102,
      "mean_token_accuracy": 0.7119447905570269,
      "num_tokens": 7778271.0,
      "step": 1000
    },
    {
      "epoch": 0.261715874703525,
      "eval_entropy": 1.0673753538131714,
      "eval_loss": 1.0669485330581665,
      "eval_mean_token_accuracy": 0.7229559454917908,
      "eval_num_tokens": 7778271.0,
      "eval_runtime": 96.9367,
      "eval_samples_per_second": 10.316,
      "eval_steps_per_second": 1.29,
      "step": 1000
    },
    {
      "entropy": 1.1813726715743542,
      "epoch": 0.2630244540770426,
      "grad_norm": 0.34745144844055176,
      "learning_rate": 1.4744831196021986e-05,
      "loss": 1.1606,
      "mean_token_accuracy": 0.7018857698887586,
      "num_tokens": 7820880.0,
      "step": 1005
    },
    {
      "entropy": 1.1542737431824208,
      "epoch": 0.26433303345056025,
      "grad_norm": 0.37115049362182617,
      "learning_rate": 1.4718660036639626e-05,
      "loss": 1.102,
      "mean_token_accuracy": 0.7048508331179619,
      "num_tokens": 7858918.0,
      "step": 1010
    },
    {
      "entropy": 1.0566180381923913,
      "epoch": 0.26564161282407783,
      "grad_norm": 0.3299511671066284,
      "learning_rate": 1.4692488877257262e-05,
      "loss": 0.9832,
      "mean_token_accuracy": 0.7326587349176407,
      "num_tokens": 7896026.0,
      "step": 1015
    },
    {
      "entropy": 1.131032995507121,
      "epoch": 0.26695019219759547,
      "grad_norm": 0.3021943271160126,
      "learning_rate": 1.4666317717874902e-05,
      "loss": 1.1154,
      "mean_token_accuracy": 0.7120835833251477,
      "num_tokens": 7936716.0,
      "step": 1020
    },
    {
      "entropy": 1.1042870879173279,
      "epoch": 0.2682587715711131,
      "grad_norm": 0.47742941975593567,
      "learning_rate": 1.4640146558492542e-05,
      "loss": 1.047,
      "mean_token_accuracy": 0.7116286411881447,
      "num_tokens": 7973759.0,
      "step": 1025
    },
    {
      "entropy": 1.1014587018638848,
      "epoch": 0.26956735094463075,
      "grad_norm": 0.36218902468681335,
      "learning_rate": 1.461397539911018e-05,
      "loss": 1.0494,
      "mean_token_accuracy": 0.7173497840762139,
      "num_tokens": 8012730.0,
      "step": 1030
    },
    {
      "entropy": 1.1734120152890681,
      "epoch": 0.2708759303181484,
      "grad_norm": 0.38173866271972656,
      "learning_rate": 1.458780423972782e-05,
      "loss": 1.0801,
      "mean_token_accuracy": 0.7082495357841253,
      "num_tokens": 8053786.0,
      "step": 1035
    },
    {
      "entropy": 1.102143411897123,
      "epoch": 0.27218450969166597,
      "grad_norm": 0.32196053862571716,
      "learning_rate": 1.4561633080345461e-05,
      "loss": 1.0723,
      "mean_token_accuracy": 0.7233434859663248,
      "num_tokens": 8092132.0,
      "step": 1040
    },
    {
      "entropy": 1.0193447671830653,
      "epoch": 0.2734930890651836,
      "grad_norm": 0.3907255530357361,
      "learning_rate": 1.4535461920963101e-05,
      "loss": 0.9895,
      "mean_token_accuracy": 0.7300974868237973,
      "num_tokens": 8131337.0,
      "step": 1045
    },
    {
      "entropy": 1.105736630409956,
      "epoch": 0.27480166843870124,
      "grad_norm": 0.564200758934021,
      "learning_rate": 1.450929076158074e-05,
      "loss": 1.0985,
      "mean_token_accuracy": 0.7164596065878868,
      "num_tokens": 8170291.0,
      "step": 1050
    },
    {
      "entropy": 1.0954801928251983,
      "epoch": 0.2761102478122189,
      "grad_norm": 0.3417541980743408,
      "learning_rate": 1.448311960219838e-05,
      "loss": 1.0295,
      "mean_token_accuracy": 0.7208357889205217,
      "num_tokens": 8205888.0,
      "step": 1055
    },
    {
      "entropy": 1.164321320876479,
      "epoch": 0.27741882718573646,
      "grad_norm": 0.450543075799942,
      "learning_rate": 1.445694844281602e-05,
      "loss": 1.0975,
      "mean_token_accuracy": 0.7097847059369087,
      "num_tokens": 8242915.0,
      "step": 1060
    },
    {
      "entropy": 1.1172142535448075,
      "epoch": 0.2787274065592541,
      "grad_norm": 0.3983106315135956,
      "learning_rate": 1.4430777283433656e-05,
      "loss": 1.0618,
      "mean_token_accuracy": 0.7233660608530045,
      "num_tokens": 8280049.0,
      "step": 1065
    },
    {
      "entropy": 1.1097337387502193,
      "epoch": 0.28003598593277174,
      "grad_norm": 0.3336636424064636,
      "learning_rate": 1.4404606124051296e-05,
      "loss": 1.0713,
      "mean_token_accuracy": 0.7141048096120357,
      "num_tokens": 8320724.0,
      "step": 1070
    },
    {
      "entropy": 1.143090207502246,
      "epoch": 0.2813445653062894,
      "grad_norm": 0.47186407446861267,
      "learning_rate": 1.4378434964668936e-05,
      "loss": 1.1169,
      "mean_token_accuracy": 0.7122757855802775,
      "num_tokens": 8355846.0,
      "step": 1075
    },
    {
      "entropy": 1.116348212212324,
      "epoch": 0.282653144679807,
      "grad_norm": 0.3499598205089569,
      "learning_rate": 1.4352263805286575e-05,
      "loss": 1.0442,
      "mean_token_accuracy": 0.7156722906976938,
      "num_tokens": 8394668.0,
      "step": 1080
    },
    {
      "entropy": 1.2300225652754306,
      "epoch": 0.2839617240533246,
      "grad_norm": 0.3478023111820221,
      "learning_rate": 1.4326092645904215e-05,
      "loss": 1.1722,
      "mean_token_accuracy": 0.6905759438872338,
      "num_tokens": 8431587.0,
      "step": 1085
    },
    {
      "entropy": 1.0534675564616918,
      "epoch": 0.28527030342684223,
      "grad_norm": 0.38736996054649353,
      "learning_rate": 1.4299921486521855e-05,
      "loss": 1.0075,
      "mean_token_accuracy": 0.7261179834604263,
      "num_tokens": 8469819.0,
      "step": 1090
    },
    {
      "entropy": 1.0744053564965725,
      "epoch": 0.28657888280035987,
      "grad_norm": 0.32573196291923523,
      "learning_rate": 1.4273750327139493e-05,
      "loss": 1.0065,
      "mean_token_accuracy": 0.727313157171011,
      "num_tokens": 8507289.0,
      "step": 1095
    },
    {
      "entropy": 1.1115598980337382,
      "epoch": 0.2878874621738775,
      "grad_norm": 0.2983573079109192,
      "learning_rate": 1.4247579167757133e-05,
      "loss": 1.0318,
      "mean_token_accuracy": 0.7211863253265619,
      "num_tokens": 8541734.0,
      "step": 1100
    },
    {
      "epoch": 0.2878874621738775,
      "eval_entropy": 1.0663088278770447,
      "eval_loss": 1.0640983581542969,
      "eval_mean_token_accuracy": 0.7233748874664306,
      "eval_num_tokens": 8541734.0,
      "eval_runtime": 97.2334,
      "eval_samples_per_second": 10.285,
      "eval_steps_per_second": 1.286,
      "step": 1100
    },
    {
      "entropy": 1.179681045934558,
      "epoch": 0.2891960415473951,
      "grad_norm": 0.34421974420547485,
      "learning_rate": 1.4221408008374773e-05,
      "loss": 1.1522,
      "mean_token_accuracy": 0.7020174067467451,
      "num_tokens": 8579590.0,
      "step": 1105
    },
    {
      "entropy": 1.23528895676136,
      "epoch": 0.2905046209209127,
      "grad_norm": 0.4845016300678253,
      "learning_rate": 1.4195236848992412e-05,
      "loss": 1.2052,
      "mean_token_accuracy": 0.6924681778997183,
      "num_tokens": 8616216.0,
      "step": 1110
    },
    {
      "entropy": 1.071528448536992,
      "epoch": 0.29181320029443036,
      "grad_norm": 0.3960973620414734,
      "learning_rate": 1.4169065689610052e-05,
      "loss": 0.9994,
      "mean_token_accuracy": 0.7225042834877968,
      "num_tokens": 8654775.0,
      "step": 1115
    },
    {
      "entropy": 1.2246194936335086,
      "epoch": 0.293121779667948,
      "grad_norm": 0.42761850357055664,
      "learning_rate": 1.4142894530227692e-05,
      "loss": 1.1149,
      "mean_token_accuracy": 0.6936006706207991,
      "num_tokens": 8690533.0,
      "step": 1120
    },
    {
      "entropy": 1.0734559996053576,
      "epoch": 0.2944303590414656,
      "grad_norm": 0.3908097445964813,
      "learning_rate": 1.4116723370845328e-05,
      "loss": 1.0524,
      "mean_token_accuracy": 0.7204558227211237,
      "num_tokens": 8727564.0,
      "step": 1125
    },
    {
      "entropy": 1.0594063133001328,
      "epoch": 0.2957389384149832,
      "grad_norm": 0.28768423199653625,
      "learning_rate": 1.4090552211462969e-05,
      "loss": 1.0328,
      "mean_token_accuracy": 0.7205640614032746,
      "num_tokens": 8774139.0,
      "step": 1130
    },
    {
      "entropy": 1.0696671523153782,
      "epoch": 0.29704751778850086,
      "grad_norm": 0.4257560968399048,
      "learning_rate": 1.4064381052080609e-05,
      "loss": 1.0058,
      "mean_token_accuracy": 0.7245784349739551,
      "num_tokens": 8810357.0,
      "step": 1135
    },
    {
      "entropy": 1.1237424857914449,
      "epoch": 0.2983560971620185,
      "grad_norm": 0.3298150599002838,
      "learning_rate": 1.4038209892698247e-05,
      "loss": 1.1134,
      "mean_token_accuracy": 0.7139571741223335,
      "num_tokens": 8850219.0,
      "step": 1140
    },
    {
      "entropy": 1.0590598836541176,
      "epoch": 0.29966467653553613,
      "grad_norm": 0.36441755294799805,
      "learning_rate": 1.4012038733315887e-05,
      "loss": 1.0017,
      "mean_token_accuracy": 0.72717116586864,
      "num_tokens": 8890728.0,
      "step": 1145
    },
    {
      "entropy": 1.0748774517327546,
      "epoch": 0.3009732559090537,
      "grad_norm": 0.5299174189567566,
      "learning_rate": 1.3985867573933527e-05,
      "loss": 1.0444,
      "mean_token_accuracy": 0.7247283719480038,
      "num_tokens": 8931167.0,
      "step": 1150
    },
    {
      "entropy": 1.2320478869602085,
      "epoch": 0.30228183528257135,
      "grad_norm": 0.31828537583351135,
      "learning_rate": 1.3959696414551165e-05,
      "loss": 1.1425,
      "mean_token_accuracy": 0.7029214788228273,
      "num_tokens": 8971179.0,
      "step": 1155
    },
    {
      "entropy": 1.0877997063100338,
      "epoch": 0.303590414656089,
      "grad_norm": 0.3202095329761505,
      "learning_rate": 1.3933525255168806e-05,
      "loss": 1.0868,
      "mean_token_accuracy": 0.7259886477142572,
      "num_tokens": 9012122.0,
      "step": 1160
    },
    {
      "entropy": 1.1524120923131704,
      "epoch": 0.30489899402960663,
      "grad_norm": 0.44416385889053345,
      "learning_rate": 1.3907354095786446e-05,
      "loss": 1.1781,
      "mean_token_accuracy": 0.7089681778103113,
      "num_tokens": 9051879.0,
      "step": 1165
    },
    {
      "entropy": 1.142632443830371,
      "epoch": 0.3062075734031242,
      "grad_norm": 0.29014092683792114,
      "learning_rate": 1.3881182936404082e-05,
      "loss": 1.1183,
      "mean_token_accuracy": 0.7098891779780387,
      "num_tokens": 9095080.0,
      "step": 1170
    },
    {
      "entropy": 1.0738845858722925,
      "epoch": 0.30751615277664185,
      "grad_norm": 0.5643961429595947,
      "learning_rate": 1.3855011777021722e-05,
      "loss": 1.0341,
      "mean_token_accuracy": 0.7218465633690357,
      "num_tokens": 9134553.0,
      "step": 1175
    },
    {
      "entropy": 1.0997203588485718,
      "epoch": 0.3088247321501595,
      "grad_norm": 0.3256031274795532,
      "learning_rate": 1.3828840617639362e-05,
      "loss": 1.0443,
      "mean_token_accuracy": 0.7164226226508618,
      "num_tokens": 9171451.0,
      "step": 1180
    },
    {
      "entropy": 1.1001708198338747,
      "epoch": 0.3101333115236771,
      "grad_norm": 0.38000190258026123,
      "learning_rate": 1.3802669458257e-05,
      "loss": 1.0945,
      "mean_token_accuracy": 0.7193384803831577,
      "num_tokens": 9212655.0,
      "step": 1185
    },
    {
      "entropy": 1.1442682899534702,
      "epoch": 0.3114418908971947,
      "grad_norm": 0.38140004873275757,
      "learning_rate": 1.377649829887464e-05,
      "loss": 1.1116,
      "mean_token_accuracy": 0.7097606465220452,
      "num_tokens": 9251378.0,
      "step": 1190
    },
    {
      "entropy": 1.0966169007122517,
      "epoch": 0.31275047027071234,
      "grad_norm": 0.30173954367637634,
      "learning_rate": 1.3750327139492281e-05,
      "loss": 1.0569,
      "mean_token_accuracy": 0.7154310643672943,
      "num_tokens": 9290376.0,
      "step": 1195
    },
    {
      "entropy": 1.112706720456481,
      "epoch": 0.31405904964423,
      "grad_norm": 0.3677958846092224,
      "learning_rate": 1.372415598010992e-05,
      "loss": 1.1293,
      "mean_token_accuracy": 0.7175452932715416,
      "num_tokens": 9335450.0,
      "step": 1200
    },
    {
      "epoch": 0.31405904964423,
      "eval_entropy": 1.0616401386260987,
      "eval_loss": 1.0616909265518188,
      "eval_mean_token_accuracy": 0.7236422438621521,
      "eval_num_tokens": 9335450.0,
      "eval_runtime": 97.3061,
      "eval_samples_per_second": 10.277,
      "eval_steps_per_second": 1.285,
      "step": 1200
    },
    {
      "entropy": 1.0197914224117994,
      "epoch": 0.3153676290177476,
      "grad_norm": 0.303828626871109,
      "learning_rate": 1.369798482072756e-05,
      "loss": 0.9773,
      "mean_token_accuracy": 0.7335654478520155,
      "num_tokens": 9376757.0,
      "step": 1205
    },
    {
      "entropy": 1.0958842366933823,
      "epoch": 0.31667620839126526,
      "grad_norm": 0.31567996740341187,
      "learning_rate": 1.36718136613452e-05,
      "loss": 1.1095,
      "mean_token_accuracy": 0.7230709217488765,
      "num_tokens": 9412399.0,
      "step": 1210
    },
    {
      "entropy": 1.0366449020802975,
      "epoch": 0.31798478776478284,
      "grad_norm": 0.28812670707702637,
      "learning_rate": 1.364564250196284e-05,
      "loss": 0.9809,
      "mean_token_accuracy": 0.7372792772948742,
      "num_tokens": 9459659.0,
      "step": 1215
    },
    {
      "entropy": 1.16514153778553,
      "epoch": 0.3192933671383005,
      "grad_norm": 0.32817167043685913,
      "learning_rate": 1.3619471342580476e-05,
      "loss": 1.1274,
      "mean_token_accuracy": 0.7073730494827032,
      "num_tokens": 9501119.0,
      "step": 1220
    },
    {
      "entropy": 1.1919928897172212,
      "epoch": 0.3206019465118181,
      "grad_norm": 0.4222601056098938,
      "learning_rate": 1.3593300183198118e-05,
      "loss": 1.1383,
      "mean_token_accuracy": 0.7020205046981574,
      "num_tokens": 9541572.0,
      "step": 1225
    },
    {
      "entropy": 1.0665121775120496,
      "epoch": 0.32191052588533575,
      "grad_norm": 0.37065136432647705,
      "learning_rate": 1.3567129023815758e-05,
      "loss": 1.0282,
      "mean_token_accuracy": 0.7204833775758743,
      "num_tokens": 9582686.0,
      "step": 1230
    },
    {
      "entropy": 1.1947314314544202,
      "epoch": 0.32321910525885333,
      "grad_norm": 0.34813007712364197,
      "learning_rate": 1.3540957864433395e-05,
      "loss": 1.1388,
      "mean_token_accuracy": 0.6964055716991424,
      "num_tokens": 9623500.0,
      "step": 1235
    },
    {
      "entropy": 1.0864916004240512,
      "epoch": 0.32452768463237097,
      "grad_norm": 0.2981452941894531,
      "learning_rate": 1.3514786705051035e-05,
      "loss": 1.0402,
      "mean_token_accuracy": 0.7253331996500492,
      "num_tokens": 9667330.0,
      "step": 1240
    },
    {
      "entropy": 1.088518501445651,
      "epoch": 0.3258362640058886,
      "grad_norm": 0.27413734793663025,
      "learning_rate": 1.3488615545668675e-05,
      "loss": 1.0039,
      "mean_token_accuracy": 0.7201201483607292,
      "num_tokens": 9707928.0,
      "step": 1245
    },
    {
      "entropy": 1.0232492092996837,
      "epoch": 0.32714484337940625,
      "grad_norm": 0.3049759864807129,
      "learning_rate": 1.3462444386286313e-05,
      "loss": 1.0155,
      "mean_token_accuracy": 0.731953501701355,
      "num_tokens": 9749414.0,
      "step": 1250
    },
    {
      "entropy": 1.1411474995315074,
      "epoch": 0.3284534227529239,
      "grad_norm": 0.30817753076553345,
      "learning_rate": 1.3436273226903953e-05,
      "loss": 1.1117,
      "mean_token_accuracy": 0.7109464205801487,
      "num_tokens": 9787037.0,
      "step": 1255
    },
    {
      "entropy": 1.0607344008982182,
      "epoch": 0.32976200212644147,
      "grad_norm": 0.2996397316455841,
      "learning_rate": 1.3410102067521593e-05,
      "loss": 0.9988,
      "mean_token_accuracy": 0.7263243019580841,
      "num_tokens": 9823917.0,
      "step": 1260
    },
    {
      "entropy": 1.1400364696979524,
      "epoch": 0.3310705814999591,
      "grad_norm": 0.394529789686203,
      "learning_rate": 1.3383930908139232e-05,
      "loss": 1.1346,
      "mean_token_accuracy": 0.7115379109978676,
      "num_tokens": 9863897.0,
      "step": 1265
    },
    {
      "entropy": 1.1153028715401887,
      "epoch": 0.33237916087347674,
      "grad_norm": 0.38152188062667847,
      "learning_rate": 1.3357759748756872e-05,
      "loss": 1.0826,
      "mean_token_accuracy": 0.7159910671412945,
      "num_tokens": 9907161.0,
      "step": 1270
    },
    {
      "entropy": 1.1335538432002068,
      "epoch": 0.3336877402469944,
      "grad_norm": 0.3795076012611389,
      "learning_rate": 1.3331588589374512e-05,
      "loss": 1.062,
      "mean_token_accuracy": 0.712515490502119,
      "num_tokens": 9941050.0,
      "step": 1275
    },
    {
      "entropy": 1.201156435534358,
      "epoch": 0.33499631962051196,
      "grad_norm": 0.31430941820144653,
      "learning_rate": 1.3305417429992148e-05,
      "loss": 1.1755,
      "mean_token_accuracy": 0.7030155394226313,
      "num_tokens": 9982204.0,
      "step": 1280
    },
    {
      "entropy": 1.0916207611560822,
      "epoch": 0.3363048989940296,
      "grad_norm": 0.3562738597393036,
      "learning_rate": 1.3279246270609789e-05,
      "loss": 1.03,
      "mean_token_accuracy": 0.7254784423857927,
      "num_tokens": 10023122.0,
      "step": 1285
    },
    {
      "entropy": 1.1606000121682882,
      "epoch": 0.33761347836754724,
      "grad_norm": 0.4184325337409973,
      "learning_rate": 1.3253075111227429e-05,
      "loss": 1.1373,
      "mean_token_accuracy": 0.7046990938484669,
      "num_tokens": 10064911.0,
      "step": 1290
    },
    {
      "entropy": 1.0977379951626063,
      "epoch": 0.3389220577410649,
      "grad_norm": 0.3197747766971588,
      "learning_rate": 1.3226903951845067e-05,
      "loss": 1.0689,
      "mean_token_accuracy": 0.7257760524749756,
      "num_tokens": 10100407.0,
      "step": 1295
    },
    {
      "entropy": 1.074541300162673,
      "epoch": 0.34023063711458246,
      "grad_norm": 0.40503931045532227,
      "learning_rate": 1.3200732792462707e-05,
      "loss": 0.967,
      "mean_token_accuracy": 0.7171443022787571,
      "num_tokens": 10134360.0,
      "step": 1300
    },
    {
      "epoch": 0.34023063711458246,
      "eval_entropy": 1.04598343706131,
      "eval_loss": 1.0586909055709839,
      "eval_mean_token_accuracy": 0.7240785593986512,
      "eval_num_tokens": 10134360.0,
      "eval_runtime": 97.2108,
      "eval_samples_per_second": 10.287,
      "eval_steps_per_second": 1.286,
      "step": 1300
    },
    {
      "entropy": 1.093527865409851,
      "epoch": 0.3415392164881001,
      "grad_norm": 0.30255845189094543,
      "learning_rate": 1.3174561633080347e-05,
      "loss": 1.0996,
      "mean_token_accuracy": 0.7116521965712309,
      "num_tokens": 10174760.0,
      "step": 1305
    },
    {
      "entropy": 1.0523213766515256,
      "epoch": 0.34284779586161773,
      "grad_norm": 0.2793543040752411,
      "learning_rate": 1.3148390473697985e-05,
      "loss": 0.9752,
      "mean_token_accuracy": 0.7246817748993635,
      "num_tokens": 10216071.0,
      "step": 1310
    },
    {
      "entropy": 1.0620372116565704,
      "epoch": 0.34415637523513537,
      "grad_norm": 0.31549394130706787,
      "learning_rate": 1.3122219314315626e-05,
      "loss": 0.992,
      "mean_token_accuracy": 0.7261651441454887,
      "num_tokens": 10256598.0,
      "step": 1315
    },
    {
      "entropy": 1.0895736794918776,
      "epoch": 0.345464954608653,
      "grad_norm": 0.3750867545604706,
      "learning_rate": 1.3096048154933266e-05,
      "loss": 1.051,
      "mean_token_accuracy": 0.7179807629436255,
      "num_tokens": 10294800.0,
      "step": 1320
    },
    {
      "entropy": 1.0776633590459823,
      "epoch": 0.3467735339821706,
      "grad_norm": 0.4244779944419861,
      "learning_rate": 1.3069876995550902e-05,
      "loss": 1.007,
      "mean_token_accuracy": 0.7257129170000554,
      "num_tokens": 10334846.0,
      "step": 1325
    },
    {
      "entropy": 1.1380624793469907,
      "epoch": 0.3480821133556882,
      "grad_norm": 0.3876670300960541,
      "learning_rate": 1.3043705836168542e-05,
      "loss": 1.1296,
      "mean_token_accuracy": 0.7143970631062985,
      "num_tokens": 10374248.0,
      "step": 1330
    },
    {
      "entropy": 1.055607095360756,
      "epoch": 0.34939069272920587,
      "grad_norm": 0.5531731247901917,
      "learning_rate": 1.3017534676786182e-05,
      "loss": 0.9648,
      "mean_token_accuracy": 0.7317230701446533,
      "num_tokens": 10410746.0,
      "step": 1335
    },
    {
      "entropy": 1.134307411313057,
      "epoch": 0.3506992721027235,
      "grad_norm": 0.3122623860836029,
      "learning_rate": 1.299136351740382e-05,
      "loss": 1.078,
      "mean_token_accuracy": 0.7120365314185619,
      "num_tokens": 10452938.0,
      "step": 1340
    },
    {
      "entropy": 1.0759996108710765,
      "epoch": 0.3520078514762411,
      "grad_norm": 0.35110828280448914,
      "learning_rate": 1.296519235802146e-05,
      "loss": 0.9849,
      "mean_token_accuracy": 0.7297365363687277,
      "num_tokens": 10491903.0,
      "step": 1345
    },
    {
      "entropy": 1.1492443475872278,
      "epoch": 0.3533164308497587,
      "grad_norm": 0.35788699984550476,
      "learning_rate": 1.2939021198639101e-05,
      "loss": 1.1878,
      "mean_token_accuracy": 0.7069006145000458,
      "num_tokens": 10527375.0,
      "step": 1350
    },
    {
      "entropy": 1.0579143922775984,
      "epoch": 0.35462501022327636,
      "grad_norm": 0.35787340998649597,
      "learning_rate": 1.291285003925674e-05,
      "loss": 1.0007,
      "mean_token_accuracy": 0.7237559407949448,
      "num_tokens": 10568018.0,
      "step": 1355
    },
    {
      "entropy": 1.1339404121041299,
      "epoch": 0.355933589596794,
      "grad_norm": 0.4546626806259155,
      "learning_rate": 1.288667887987438e-05,
      "loss": 1.1295,
      "mean_token_accuracy": 0.7201502379029989,
      "num_tokens": 10607681.0,
      "step": 1360
    },
    {
      "entropy": 1.0893705368041993,
      "epoch": 0.3572421689703116,
      "grad_norm": 0.45456886291503906,
      "learning_rate": 1.286050772049202e-05,
      "loss": 1.0304,
      "mean_token_accuracy": 0.7344392716884613,
      "num_tokens": 10641980.0,
      "step": 1365
    },
    {
      "entropy": 1.0794930804520846,
      "epoch": 0.3585507483438292,
      "grad_norm": 0.3907780945301056,
      "learning_rate": 1.283433656110966e-05,
      "loss": 1.0827,
      "mean_token_accuracy": 0.7246263407170772,
      "num_tokens": 10683159.0,
      "step": 1370
    },
    {
      "entropy": 1.0798350811004638,
      "epoch": 0.35985932771734686,
      "grad_norm": 0.49161893129348755,
      "learning_rate": 1.2808165401727298e-05,
      "loss": 1.0915,
      "mean_token_accuracy": 0.7175786912441253,
      "num_tokens": 10719560.0,
      "step": 1375
    },
    {
      "entropy": 1.131149498745799,
      "epoch": 0.3611679070908645,
      "grad_norm": 0.4854622185230255,
      "learning_rate": 1.2781994242344938e-05,
      "loss": 1.1285,
      "mean_token_accuracy": 0.7150968369096518,
      "num_tokens": 10759050.0,
      "step": 1380
    },
    {
      "entropy": 1.0728477615863086,
      "epoch": 0.36247648646438213,
      "grad_norm": 0.42540574073791504,
      "learning_rate": 1.2755823082962578e-05,
      "loss": 1.0358,
      "mean_token_accuracy": 0.724468483030796,
      "num_tokens": 10800630.0,
      "step": 1385
    },
    {
      "entropy": 1.1225707672536374,
      "epoch": 0.3637850658378997,
      "grad_norm": 0.44094985723495483,
      "learning_rate": 1.2729651923580215e-05,
      "loss": 1.0344,
      "mean_token_accuracy": 0.7132398471236229,
      "num_tokens": 10835582.0,
      "step": 1390
    },
    {
      "entropy": 1.127060130983591,
      "epoch": 0.36509364521141735,
      "grad_norm": 0.3640246093273163,
      "learning_rate": 1.2703480764197855e-05,
      "loss": 1.0752,
      "mean_token_accuracy": 0.717224034294486,
      "num_tokens": 10873989.0,
      "step": 1395
    },
    {
      "entropy": 1.110959093272686,
      "epoch": 0.366402224584935,
      "grad_norm": 0.3808118402957916,
      "learning_rate": 1.2677309604815495e-05,
      "loss": 1.0352,
      "mean_token_accuracy": 0.7157318696379662,
      "num_tokens": 10914540.0,
      "step": 1400
    },
    {
      "epoch": 0.366402224584935,
      "eval_entropy": 1.057036506652832,
      "eval_loss": 1.056433081626892,
      "eval_mean_token_accuracy": 0.724943666934967,
      "eval_num_tokens": 10914540.0,
      "eval_runtime": 97.2457,
      "eval_samples_per_second": 10.283,
      "eval_steps_per_second": 1.285,
      "step": 1400
    },
    {
      "entropy": 1.1179429598152637,
      "epoch": 0.3677108039584526,
      "grad_norm": 0.3942883610725403,
      "learning_rate": 1.2651138445433133e-05,
      "loss": 1.0674,
      "mean_token_accuracy": 0.7157964497804642,
      "num_tokens": 10951332.0,
      "step": 1405
    },
    {
      "entropy": 1.144387823715806,
      "epoch": 0.3690193833319702,
      "grad_norm": 0.35214006900787354,
      "learning_rate": 1.2624967286050773e-05,
      "loss": 1.1239,
      "mean_token_accuracy": 0.7134873129427433,
      "num_tokens": 10990644.0,
      "step": 1410
    },
    {
      "entropy": 1.057513090223074,
      "epoch": 0.37032796270548785,
      "grad_norm": 0.3838125169277191,
      "learning_rate": 1.2598796126668413e-05,
      "loss": 1.0198,
      "mean_token_accuracy": 0.7325119793415069,
      "num_tokens": 11032177.0,
      "step": 1415
    },
    {
      "entropy": 1.088934962451458,
      "epoch": 0.3716365420790055,
      "grad_norm": 0.26814350485801697,
      "learning_rate": 1.2572624967286052e-05,
      "loss": 1.0808,
      "mean_token_accuracy": 0.7172140318900346,
      "num_tokens": 11072735.0,
      "step": 1420
    },
    {
      "entropy": 1.1592457950115205,
      "epoch": 0.3729451214525231,
      "grad_norm": 0.45993542671203613,
      "learning_rate": 1.2546453807903692e-05,
      "loss": 1.1143,
      "mean_token_accuracy": 0.7036133039742708,
      "num_tokens": 11111309.0,
      "step": 1425
    },
    {
      "entropy": 1.1127744242548943,
      "epoch": 0.3742537008260407,
      "grad_norm": 0.3038633167743683,
      "learning_rate": 1.2520282648521332e-05,
      "loss": 1.0659,
      "mean_token_accuracy": 0.725579933822155,
      "num_tokens": 11150368.0,
      "step": 1430
    },
    {
      "entropy": 1.135872596874833,
      "epoch": 0.37556228019955834,
      "grad_norm": 0.32042160630226135,
      "learning_rate": 1.2494111489138968e-05,
      "loss": 1.1148,
      "mean_token_accuracy": 0.7169803373515606,
      "num_tokens": 11186513.0,
      "step": 1435
    },
    {
      "entropy": 1.087304012849927,
      "epoch": 0.376870859573076,
      "grad_norm": 0.3336869180202484,
      "learning_rate": 1.2467940329756609e-05,
      "loss": 1.0445,
      "mean_token_accuracy": 0.7192518580704927,
      "num_tokens": 11225174.0,
      "step": 1440
    },
    {
      "entropy": 1.0319055780768394,
      "epoch": 0.3781794389465936,
      "grad_norm": 0.43524104356765747,
      "learning_rate": 1.2441769170374249e-05,
      "loss": 0.9855,
      "mean_token_accuracy": 0.7250500712543726,
      "num_tokens": 11261841.0,
      "step": 1445
    },
    {
      "entropy": 1.0503356985747814,
      "epoch": 0.37948801832011125,
      "grad_norm": 0.34029972553253174,
      "learning_rate": 1.2415598010991887e-05,
      "loss": 0.9427,
      "mean_token_accuracy": 0.7291811019182205,
      "num_tokens": 11301122.0,
      "step": 1450
    },
    {
      "entropy": 1.135501291975379,
      "epoch": 0.38079659769362884,
      "grad_norm": 0.34890979528427124,
      "learning_rate": 1.2389426851609527e-05,
      "loss": 1.0706,
      "mean_token_accuracy": 0.707598365843296,
      "num_tokens": 11341491.0,
      "step": 1455
    },
    {
      "entropy": 1.012824462354183,
      "epoch": 0.3821051770671465,
      "grad_norm": 0.44555002450942993,
      "learning_rate": 1.2363255692227167e-05,
      "loss": 0.986,
      "mean_token_accuracy": 0.7334959991276264,
      "num_tokens": 11382277.0,
      "step": 1460
    },
    {
      "entropy": 1.084730239585042,
      "epoch": 0.3834137564406641,
      "grad_norm": 0.34672921895980835,
      "learning_rate": 1.2337084532844805e-05,
      "loss": 1.0185,
      "mean_token_accuracy": 0.7293158903717994,
      "num_tokens": 11420312.0,
      "step": 1465
    },
    {
      "entropy": 1.0931822203099728,
      "epoch": 0.38472233581418175,
      "grad_norm": 0.4738580882549286,
      "learning_rate": 1.2310913373462446e-05,
      "loss": 1.0744,
      "mean_token_accuracy": 0.7275880422443152,
      "num_tokens": 11458742.0,
      "step": 1470
    },
    {
      "entropy": 1.0959295086562633,
      "epoch": 0.38603091518769933,
      "grad_norm": 0.3458891212940216,
      "learning_rate": 1.2284742214080086e-05,
      "loss": 1.0425,
      "mean_token_accuracy": 0.7294268280267715,
      "num_tokens": 11494946.0,
      "step": 1475
    },
    {
      "entropy": 1.1744199082255364,
      "epoch": 0.38733949456121697,
      "grad_norm": 0.3247629404067993,
      "learning_rate": 1.2258571054697724e-05,
      "loss": 1.1929,
      "mean_token_accuracy": 0.6963723137974739,
      "num_tokens": 11531053.0,
      "step": 1480
    },
    {
      "entropy": 1.022578400745988,
      "epoch": 0.3886480739347346,
      "grad_norm": 0.37479135394096375,
      "learning_rate": 1.2232399895315364e-05,
      "loss": 0.9592,
      "mean_token_accuracy": 0.7337148085236549,
      "num_tokens": 11569356.0,
      "step": 1485
    },
    {
      "entropy": 1.0597552750259638,
      "epoch": 0.38995665330825224,
      "grad_norm": 0.34326809644699097,
      "learning_rate": 1.2206228735933004e-05,
      "loss": 1.03,
      "mean_token_accuracy": 0.7236659746617079,
      "num_tokens": 11609142.0,
      "step": 1490
    },
    {
      "entropy": 1.038928609713912,
      "epoch": 0.3912652326817699,
      "grad_norm": 0.33052825927734375,
      "learning_rate": 1.218005757655064e-05,
      "loss": 1.0297,
      "mean_token_accuracy": 0.7271129328757524,
      "num_tokens": 11649979.0,
      "step": 1495
    },
    {
      "entropy": 1.149324530735612,
      "epoch": 0.39257381205528746,
      "grad_norm": 0.44736945629119873,
      "learning_rate": 1.2153886417168281e-05,
      "loss": 1.0566,
      "mean_token_accuracy": 0.7146747212857008,
      "num_tokens": 11685504.0,
      "step": 1500
    },
    {
      "epoch": 0.39257381205528746,
      "eval_entropy": 1.061660517692566,
      "eval_loss": 1.0545203685760498,
      "eval_mean_token_accuracy": 0.7252409801483154,
      "eval_num_tokens": 11685504.0,
      "eval_runtime": 97.242,
      "eval_samples_per_second": 10.284,
      "eval_steps_per_second": 1.285,
      "step": 1500
    },
    {
      "entropy": 1.1069697327911854,
      "epoch": 0.3938823914288051,
      "grad_norm": 0.7664462327957153,
      "learning_rate": 1.2127715257785921e-05,
      "loss": 1.0101,
      "mean_token_accuracy": 0.7186468083411455,
      "num_tokens": 11720415.0,
      "step": 1505
    },
    {
      "entropy": 1.0142726931720971,
      "epoch": 0.39519097080232274,
      "grad_norm": 0.3830406069755554,
      "learning_rate": 1.210154409840356e-05,
      "loss": 0.974,
      "mean_token_accuracy": 0.736117148399353,
      "num_tokens": 11756577.0,
      "step": 1510
    },
    {
      "entropy": 1.112984489277005,
      "epoch": 0.3964995501758404,
      "grad_norm": 0.41094282269477844,
      "learning_rate": 1.20753729390212e-05,
      "loss": 1.1002,
      "mean_token_accuracy": 0.7189074017107486,
      "num_tokens": 11794872.0,
      "step": 1515
    },
    {
      "entropy": 1.0922920301556587,
      "epoch": 0.39780812954935796,
      "grad_norm": 0.37885573506355286,
      "learning_rate": 1.204920177963884e-05,
      "loss": 1.0302,
      "mean_token_accuracy": 0.7164245635271073,
      "num_tokens": 11833530.0,
      "step": 1520
    },
    {
      "entropy": 1.1610772363841533,
      "epoch": 0.3991167089228756,
      "grad_norm": 0.44092655181884766,
      "learning_rate": 1.2023030620256478e-05,
      "loss": 1.1124,
      "mean_token_accuracy": 0.6998836103826761,
      "num_tokens": 11865444.0,
      "step": 1525
    },
    {
      "entropy": 1.1576842796057463,
      "epoch": 0.40042528829639323,
      "grad_norm": 0.44296759366989136,
      "learning_rate": 1.1996859460874118e-05,
      "loss": 1.1521,
      "mean_token_accuracy": 0.7068853817880154,
      "num_tokens": 11901975.0,
      "step": 1530
    },
    {
      "entropy": 1.0967234898358584,
      "epoch": 0.40173386766991087,
      "grad_norm": 0.33487918972969055,
      "learning_rate": 1.1970688301491758e-05,
      "loss": 1.0064,
      "mean_token_accuracy": 0.7251658782362937,
      "num_tokens": 11939696.0,
      "step": 1535
    },
    {
      "entropy": 1.086240155249834,
      "epoch": 0.40304244704342845,
      "grad_norm": 0.40726640820503235,
      "learning_rate": 1.1944517142109398e-05,
      "loss": 1.0593,
      "mean_token_accuracy": 0.725240446254611,
      "num_tokens": 11982185.0,
      "step": 1540
    },
    {
      "entropy": 1.1482622426003217,
      "epoch": 0.4043510264169461,
      "grad_norm": 0.4323379397392273,
      "learning_rate": 1.1918345982727035e-05,
      "loss": 1.128,
      "mean_token_accuracy": 0.7092867191880942,
      "num_tokens": 12017859.0,
      "step": 1545
    },
    {
      "entropy": 1.2151045732200145,
      "epoch": 0.40565960579046373,
      "grad_norm": 0.3303086459636688,
      "learning_rate": 1.1892174823344675e-05,
      "loss": 1.2045,
      "mean_token_accuracy": 0.6960071615874768,
      "num_tokens": 12056052.0,
      "step": 1550
    },
    {
      "entropy": 1.0982510183006524,
      "epoch": 0.40696818516398137,
      "grad_norm": 0.3505324721336365,
      "learning_rate": 1.1866003663962315e-05,
      "loss": 1.067,
      "mean_token_accuracy": 0.7211838360875845,
      "num_tokens": 12093787.0,
      "step": 1555
    },
    {
      "entropy": 1.0351288244128227,
      "epoch": 0.408276764537499,
      "grad_norm": 0.4866773188114166,
      "learning_rate": 1.1839832504579953e-05,
      "loss": 1.0177,
      "mean_token_accuracy": 0.7380380086600781,
      "num_tokens": 12135954.0,
      "step": 1560
    },
    {
      "entropy": 1.0588519033044577,
      "epoch": 0.4095853439110166,
      "grad_norm": 0.35260552167892456,
      "learning_rate": 1.1813661345197593e-05,
      "loss": 0.9948,
      "mean_token_accuracy": 0.7311153151094913,
      "num_tokens": 12177684.0,
      "step": 1565
    },
    {
      "entropy": 1.09910380654037,
      "epoch": 0.4108939232845342,
      "grad_norm": 0.3076630234718323,
      "learning_rate": 1.1787490185815233e-05,
      "loss": 1.0572,
      "mean_token_accuracy": 0.7178509868681431,
      "num_tokens": 12217097.0,
      "step": 1570
    },
    {
      "entropy": 1.0710554268211125,
      "epoch": 0.41220250265805186,
      "grad_norm": 0.6353772878646851,
      "learning_rate": 1.1761319026432872e-05,
      "loss": 1.0566,
      "mean_token_accuracy": 0.7280903398990631,
      "num_tokens": 12254118.0,
      "step": 1575
    },
    {
      "entropy": 1.0847718585282564,
      "epoch": 0.4135110820315695,
      "grad_norm": 0.5102863311767578,
      "learning_rate": 1.1735147867050512e-05,
      "loss": 1.0074,
      "mean_token_accuracy": 0.7276991017162799,
      "num_tokens": 12290736.0,
      "step": 1580
    },
    {
      "entropy": 1.1992057055234908,
      "epoch": 0.4148196614050871,
      "grad_norm": 0.46092355251312256,
      "learning_rate": 1.1708976707668152e-05,
      "loss": 1.1854,
      "mean_token_accuracy": 0.7027558118104935,
      "num_tokens": 12327361.0,
      "step": 1585
    },
    {
      "entropy": 1.1261769212782382,
      "epoch": 0.4161282407786047,
      "grad_norm": 0.2733989357948303,
      "learning_rate": 1.168280554828579e-05,
      "loss": 1.0773,
      "mean_token_accuracy": 0.7125700250267982,
      "num_tokens": 12364890.0,
      "step": 1590
    },
    {
      "entropy": 1.116732070967555,
      "epoch": 0.41743682015212236,
      "grad_norm": 0.24640727043151855,
      "learning_rate": 1.165663438890343e-05,
      "loss": 1.1195,
      "mean_token_accuracy": 0.7179068107157945,
      "num_tokens": 12408137.0,
      "step": 1595
    },
    {
      "entropy": 1.119725486636162,
      "epoch": 0.41874539952564,
      "grad_norm": 0.38413721323013306,
      "learning_rate": 1.163046322952107e-05,
      "loss": 1.02,
      "mean_token_accuracy": 0.7142953380942345,
      "num_tokens": 12448886.0,
      "step": 1600
    },
    {
      "epoch": 0.41874539952564,
      "eval_entropy": 1.0526617636680604,
      "eval_loss": 1.0522558689117432,
      "eval_mean_token_accuracy": 0.7257419657707215,
      "eval_num_tokens": 12448886.0,
      "eval_runtime": 97.091,
      "eval_samples_per_second": 10.3,
      "eval_steps_per_second": 1.287,
      "step": 1600
    },
    {
      "entropy": 1.052151035144925,
      "epoch": 0.4200539788991576,
      "grad_norm": 0.3078325390815735,
      "learning_rate": 1.1604292070138707e-05,
      "loss": 1.0539,
      "mean_token_accuracy": 0.7285561367869378,
      "num_tokens": 12488545.0,
      "step": 1605
    },
    {
      "entropy": 1.143933541327715,
      "epoch": 0.4213625582726752,
      "grad_norm": 0.4508214592933655,
      "learning_rate": 1.1578120910756347e-05,
      "loss": 1.1383,
      "mean_token_accuracy": 0.7101572744548321,
      "num_tokens": 12524775.0,
      "step": 1610
    },
    {
      "entropy": 1.1741201549768447,
      "epoch": 0.42267113764619285,
      "grad_norm": 0.4099365770816803,
      "learning_rate": 1.1551949751373987e-05,
      "loss": 1.1825,
      "mean_token_accuracy": 0.705308374390006,
      "num_tokens": 12560784.0,
      "step": 1615
    },
    {
      "entropy": 1.0800459958612918,
      "epoch": 0.4239797170197105,
      "grad_norm": 0.3584926128387451,
      "learning_rate": 1.1525778591991625e-05,
      "loss": 1.0387,
      "mean_token_accuracy": 0.7256841942667961,
      "num_tokens": 12603010.0,
      "step": 1620
    },
    {
      "entropy": 1.1276030663400889,
      "epoch": 0.4252882963932281,
      "grad_norm": 0.5926274657249451,
      "learning_rate": 1.1499607432609266e-05,
      "loss": 1.0812,
      "mean_token_accuracy": 0.718872818350792,
      "num_tokens": 12639637.0,
      "step": 1625
    },
    {
      "entropy": 1.0730494752526283,
      "epoch": 0.4265968757667457,
      "grad_norm": 0.3367457389831543,
      "learning_rate": 1.1473436273226906e-05,
      "loss": 1.0183,
      "mean_token_accuracy": 0.7222284369170666,
      "num_tokens": 12685003.0,
      "step": 1630
    },
    {
      "entropy": 1.1390976216644049,
      "epoch": 0.42790545514026335,
      "grad_norm": 0.3196088373661041,
      "learning_rate": 1.1447265113844544e-05,
      "loss": 1.1352,
      "mean_token_accuracy": 0.7116539262235164,
      "num_tokens": 12725882.0,
      "step": 1635
    },
    {
      "entropy": 1.1160973783582449,
      "epoch": 0.429214034513781,
      "grad_norm": 0.30303776264190674,
      "learning_rate": 1.1421093954462184e-05,
      "loss": 1.045,
      "mean_token_accuracy": 0.7158118285238743,
      "num_tokens": 12769557.0,
      "step": 1640
    },
    {
      "entropy": 1.1582866314798594,
      "epoch": 0.4305226138872986,
      "grad_norm": 0.3513560891151428,
      "learning_rate": 1.1394922795079824e-05,
      "loss": 1.1353,
      "mean_token_accuracy": 0.705193604901433,
      "num_tokens": 12810697.0,
      "step": 1645
    },
    {
      "entropy": 1.1496058501303197,
      "epoch": 0.4318311932608162,
      "grad_norm": 0.2923238277435303,
      "learning_rate": 1.136875163569746e-05,
      "loss": 1.0884,
      "mean_token_accuracy": 0.7144812878221274,
      "num_tokens": 12851256.0,
      "step": 1650
    },
    {
      "entropy": 1.1143131528049708,
      "epoch": 0.43313977263433384,
      "grad_norm": 0.3065350651741028,
      "learning_rate": 1.1342580476315101e-05,
      "loss": 1.0523,
      "mean_token_accuracy": 0.7173210971057415,
      "num_tokens": 12888965.0,
      "step": 1655
    },
    {
      "entropy": 1.0787921320647,
      "epoch": 0.4344483520078515,
      "grad_norm": 0.46374326944351196,
      "learning_rate": 1.1316409316932741e-05,
      "loss": 1.0793,
      "mean_token_accuracy": 0.7249518293887377,
      "num_tokens": 12929333.0,
      "step": 1660
    },
    {
      "entropy": 1.057104966789484,
      "epoch": 0.4357569313813691,
      "grad_norm": 0.313374400138855,
      "learning_rate": 1.129023815755038e-05,
      "loss": 1.0395,
      "mean_token_accuracy": 0.7259028911590576,
      "num_tokens": 12968877.0,
      "step": 1665
    },
    {
      "entropy": 1.1018395122140645,
      "epoch": 0.4370655107548867,
      "grad_norm": 0.5729189515113831,
      "learning_rate": 1.126406699816802e-05,
      "loss": 1.0302,
      "mean_token_accuracy": 0.7193635780364275,
      "num_tokens": 13009336.0,
      "step": 1670
    },
    {
      "entropy": 1.090810688957572,
      "epoch": 0.43837409012840434,
      "grad_norm": 0.34041526913642883,
      "learning_rate": 1.123789583878566e-05,
      "loss": 1.0004,
      "mean_token_accuracy": 0.7279005717486143,
      "num_tokens": 13050299.0,
      "step": 1675
    },
    {
      "entropy": 0.9902068875730038,
      "epoch": 0.439682669501922,
      "grad_norm": 0.3354148864746094,
      "learning_rate": 1.1211724679403298e-05,
      "loss": 0.9542,
      "mean_token_accuracy": 0.7408786326646805,
      "num_tokens": 13090891.0,
      "step": 1680
    },
    {
      "entropy": 0.9622725404798984,
      "epoch": 0.4409912488754396,
      "grad_norm": 0.36764782667160034,
      "learning_rate": 1.1185553520020938e-05,
      "loss": 0.9176,
      "mean_token_accuracy": 0.7487996619194746,
      "num_tokens": 13132101.0,
      "step": 1685
    },
    {
      "entropy": 1.045450020954013,
      "epoch": 0.44229982824895725,
      "grad_norm": 0.37813687324523926,
      "learning_rate": 1.1159382360638578e-05,
      "loss": 0.9415,
      "mean_token_accuracy": 0.7361387588083744,
      "num_tokens": 13170933.0,
      "step": 1690
    },
    {
      "entropy": 1.0522997014224529,
      "epoch": 0.44360840762247483,
      "grad_norm": 0.382914274930954,
      "learning_rate": 1.1133211201256216e-05,
      "loss": 1.0357,
      "mean_token_accuracy": 0.7225256580859423,
      "num_tokens": 13209472.0,
      "step": 1695
    },
    {
      "entropy": 1.0627464193850755,
      "epoch": 0.44491698699599247,
      "grad_norm": 0.6186394691467285,
      "learning_rate": 1.1107040041873856e-05,
      "loss": 0.9805,
      "mean_token_accuracy": 0.7301313698291778,
      "num_tokens": 13243159.0,
      "step": 1700
    },
    {
      "epoch": 0.44491698699599247,
      "eval_entropy": 1.048878930568695,
      "eval_loss": 1.0501657724380493,
      "eval_mean_token_accuracy": 0.7263216118812561,
      "eval_num_tokens": 13243159.0,
      "eval_runtime": 97.3502,
      "eval_samples_per_second": 10.272,
      "eval_steps_per_second": 1.284,
      "step": 1700
    },
    {
      "entropy": 1.0235866460949183,
      "epoch": 0.4462255663695101,
      "grad_norm": 0.3209091126918793,
      "learning_rate": 1.1080868882491496e-05,
      "loss": 1.0014,
      "mean_token_accuracy": 0.739182323589921,
      "num_tokens": 13280837.0,
      "step": 1705
    },
    {
      "entropy": 1.0558000404387713,
      "epoch": 0.44753414574302774,
      "grad_norm": 0.30199235677719116,
      "learning_rate": 1.1054697723109137e-05,
      "loss": 0.9891,
      "mean_token_accuracy": 0.7261330507695675,
      "num_tokens": 13322890.0,
      "step": 1710
    },
    {
      "entropy": 1.121560701727867,
      "epoch": 0.4488427251165453,
      "grad_norm": 0.4387257993221283,
      "learning_rate": 1.1028526563726773e-05,
      "loss": 1.1191,
      "mean_token_accuracy": 0.7114489011466503,
      "num_tokens": 13360229.0,
      "step": 1715
    },
    {
      "entropy": 1.0835831377655267,
      "epoch": 0.45015130449006296,
      "grad_norm": 0.44212666153907776,
      "learning_rate": 1.1002355404344413e-05,
      "loss": 1.0534,
      "mean_token_accuracy": 0.7208398774266243,
      "num_tokens": 13401284.0,
      "step": 1720
    },
    {
      "entropy": 1.0752512661740183,
      "epoch": 0.4514598838635806,
      "grad_norm": 0.304918110370636,
      "learning_rate": 1.0976184244962053e-05,
      "loss": 1.0347,
      "mean_token_accuracy": 0.725695389136672,
      "num_tokens": 13444485.0,
      "step": 1725
    },
    {
      "entropy": 1.021533490344882,
      "epoch": 0.45276846323709824,
      "grad_norm": 0.3151404857635498,
      "learning_rate": 1.0950013085579692e-05,
      "loss": 0.9656,
      "mean_token_accuracy": 0.7328935824334621,
      "num_tokens": 13486444.0,
      "step": 1730
    },
    {
      "entropy": 1.1548058629035949,
      "epoch": 0.4540770426106159,
      "grad_norm": 0.4337512254714966,
      "learning_rate": 1.0923841926197332e-05,
      "loss": 1.1178,
      "mean_token_accuracy": 0.7139813594520092,
      "num_tokens": 13527431.0,
      "step": 1735
    },
    {
      "entropy": 1.142104067094624,
      "epoch": 0.45538562198413346,
      "grad_norm": 0.36979472637176514,
      "learning_rate": 1.0897670766814972e-05,
      "loss": 1.1315,
      "mean_token_accuracy": 0.7120837710797787,
      "num_tokens": 13567478.0,
      "step": 1740
    },
    {
      "entropy": 1.1160997115075588,
      "epoch": 0.4566942013576511,
      "grad_norm": 0.3845500946044922,
      "learning_rate": 1.087149960743261e-05,
      "loss": 1.1022,
      "mean_token_accuracy": 0.712579957395792,
      "num_tokens": 13605160.0,
      "step": 1745
    },
    {
      "entropy": 0.9988198220729828,
      "epoch": 0.45800278073116873,
      "grad_norm": 0.38837000727653503,
      "learning_rate": 1.084532844805025e-05,
      "loss": 0.9329,
      "mean_token_accuracy": 0.7446095444262028,
      "num_tokens": 13644314.0,
      "step": 1750
    },
    {
      "entropy": 1.130447569489479,
      "epoch": 0.4593113601046864,
      "grad_norm": 0.3902071714401245,
      "learning_rate": 1.081915728866789e-05,
      "loss": 1.0794,
      "mean_token_accuracy": 0.7083112396299839,
      "num_tokens": 13681672.0,
      "step": 1755
    },
    {
      "entropy": 1.0452111046761274,
      "epoch": 0.46061993947820395,
      "grad_norm": 0.4102812111377716,
      "learning_rate": 1.0792986129285527e-05,
      "loss": 1.0083,
      "mean_token_accuracy": 0.7271155752241611,
      "num_tokens": 13723858.0,
      "step": 1760
    },
    {
      "entropy": 0.9923233393579721,
      "epoch": 0.4619285188517216,
      "grad_norm": 0.3408261239528656,
      "learning_rate": 1.0766814969903167e-05,
      "loss": 0.9552,
      "mean_token_accuracy": 0.7382691666483879,
      "num_tokens": 13762274.0,
      "step": 1765
    },
    {
      "entropy": 1.0694189239293337,
      "epoch": 0.46323709822523923,
      "grad_norm": 0.33313289284706116,
      "learning_rate": 1.0740643810520807e-05,
      "loss": 1.0309,
      "mean_token_accuracy": 0.728821600228548,
      "num_tokens": 13804541.0,
      "step": 1770
    },
    {
      "entropy": 1.148886876925826,
      "epoch": 0.46454567759875687,
      "grad_norm": 0.4039045572280884,
      "learning_rate": 1.0714472651138445e-05,
      "loss": 1.1428,
      "mean_token_accuracy": 0.7021496020257473,
      "num_tokens": 13842698.0,
      "step": 1775
    },
    {
      "entropy": 1.059429519250989,
      "epoch": 0.46585425697227445,
      "grad_norm": 0.3325613737106323,
      "learning_rate": 1.0688301491756086e-05,
      "loss": 1.0277,
      "mean_token_accuracy": 0.7256958331912756,
      "num_tokens": 13883697.0,
      "step": 1780
    },
    {
      "entropy": 1.1187500689178704,
      "epoch": 0.4671628363457921,
      "grad_norm": 0.3969448208808899,
      "learning_rate": 1.0662130332373726e-05,
      "loss": 1.0818,
      "mean_token_accuracy": 0.7165641494095325,
      "num_tokens": 13922509.0,
      "step": 1785
    },
    {
      "entropy": 1.1411572575569153,
      "epoch": 0.4684714157193097,
      "grad_norm": 0.391754150390625,
      "learning_rate": 1.0635959172991364e-05,
      "loss": 1.1149,
      "mean_token_accuracy": 0.7164013959467411,
      "num_tokens": 13958198.0,
      "step": 1790
    },
    {
      "entropy": 1.0621652530506254,
      "epoch": 0.46977999509282736,
      "grad_norm": 0.3251922130584717,
      "learning_rate": 1.0609788013609004e-05,
      "loss": 1.0348,
      "mean_token_accuracy": 0.7337204076349735,
      "num_tokens": 13997488.0,
      "step": 1795
    },
    {
      "entropy": 1.0552761495113372,
      "epoch": 0.471088574466345,
      "grad_norm": 0.28842347860336304,
      "learning_rate": 1.0583616854226644e-05,
      "loss": 0.9837,
      "mean_token_accuracy": 0.732194972038269,
      "num_tokens": 14038479.0,
      "step": 1800
    },
    {
      "epoch": 0.471088574466345,
      "eval_entropy": 1.056775134563446,
      "eval_loss": 1.048877477645874,
      "eval_mean_token_accuracy": 0.7264609928131104,
      "eval_num_tokens": 14038479.0,
      "eval_runtime": 97.5713,
      "eval_samples_per_second": 10.249,
      "eval_steps_per_second": 1.281,
      "step": 1800
    },
    {
      "entropy": 1.1512902732938528,
      "epoch": 0.4723971538398626,
      "grad_norm": 0.4646497964859009,
      "learning_rate": 1.055744569484428e-05,
      "loss": 1.1312,
      "mean_token_accuracy": 0.7179503016173839,
      "num_tokens": 14074174.0,
      "step": 1805
    },
    {
      "entropy": 1.0646660778671504,
      "epoch": 0.4737057332133802,
      "grad_norm": 0.29955199360847473,
      "learning_rate": 1.0531274535461921e-05,
      "loss": 1.0278,
      "mean_token_accuracy": 0.7245239842683077,
      "num_tokens": 14115408.0,
      "step": 1810
    },
    {
      "entropy": 1.0254539363086224,
      "epoch": 0.47501431258689786,
      "grad_norm": 0.31829652190208435,
      "learning_rate": 1.0505103376079561e-05,
      "loss": 0.9724,
      "mean_token_accuracy": 0.7322143398225307,
      "num_tokens": 14154697.0,
      "step": 1815
    },
    {
      "entropy": 1.1258851181715728,
      "epoch": 0.4763228919604155,
      "grad_norm": 0.45105260610580444,
      "learning_rate": 1.04789322166972e-05,
      "loss": 1.1154,
      "mean_token_accuracy": 0.7129046030342578,
      "num_tokens": 14194725.0,
      "step": 1820
    },
    {
      "entropy": 1.098579701408744,
      "epoch": 0.4776314713339331,
      "grad_norm": 0.37159058451652527,
      "learning_rate": 1.045276105731484e-05,
      "loss": 1.0148,
      "mean_token_accuracy": 0.7232114516198636,
      "num_tokens": 14236159.0,
      "step": 1825
    },
    {
      "entropy": 1.0738941352814435,
      "epoch": 0.4789400507074507,
      "grad_norm": 0.34484973549842834,
      "learning_rate": 1.042658989793248e-05,
      "loss": 1.0382,
      "mean_token_accuracy": 0.7244183134287596,
      "num_tokens": 14275868.0,
      "step": 1830
    },
    {
      "entropy": 1.0540620289742946,
      "epoch": 0.48024863008096835,
      "grad_norm": 0.4253799617290497,
      "learning_rate": 1.0400418738550118e-05,
      "loss": 0.9825,
      "mean_token_accuracy": 0.7318723525851965,
      "num_tokens": 14314897.0,
      "step": 1835
    },
    {
      "entropy": 1.1317568343132733,
      "epoch": 0.481557209454486,
      "grad_norm": 0.3978184163570404,
      "learning_rate": 1.0374247579167758e-05,
      "loss": 1.1196,
      "mean_token_accuracy": 0.7122768431901931,
      "num_tokens": 14353468.0,
      "step": 1840
    },
    {
      "entropy": 0.9921163013204932,
      "epoch": 0.4828657888280036,
      "grad_norm": 0.6404853463172913,
      "learning_rate": 1.0348076419785398e-05,
      "loss": 0.9584,
      "mean_token_accuracy": 0.7398792453110218,
      "num_tokens": 14393542.0,
      "step": 1845
    },
    {
      "entropy": 1.0703047849237919,
      "epoch": 0.4841743682015212,
      "grad_norm": 0.4562324285507202,
      "learning_rate": 1.0321905260403036e-05,
      "loss": 1.0268,
      "mean_token_accuracy": 0.7257931806147099,
      "num_tokens": 14438299.0,
      "step": 1850
    },
    {
      "entropy": 1.098178230971098,
      "epoch": 0.48548294757503885,
      "grad_norm": 0.5880526900291443,
      "learning_rate": 1.0295734101020676e-05,
      "loss": 1.0345,
      "mean_token_accuracy": 0.719204118102789,
      "num_tokens": 14472012.0,
      "step": 1855
    },
    {
      "entropy": 0.9670162990689277,
      "epoch": 0.4867915269485565,
      "grad_norm": 0.6454201340675354,
      "learning_rate": 1.0269562941638316e-05,
      "loss": 0.9095,
      "mean_token_accuracy": 0.7467180170118809,
      "num_tokens": 14508320.0,
      "step": 1860
    },
    {
      "entropy": 1.0095211911946536,
      "epoch": 0.4881001063220741,
      "grad_norm": 0.42344188690185547,
      "learning_rate": 1.0243391782255957e-05,
      "loss": 0.9624,
      "mean_token_accuracy": 0.7334278732538223,
      "num_tokens": 14545217.0,
      "step": 1865
    },
    {
      "entropy": 1.055738451331854,
      "epoch": 0.4894086856955917,
      "grad_norm": 0.35296040773391724,
      "learning_rate": 1.0217220622873593e-05,
      "loss": 0.9997,
      "mean_token_accuracy": 0.7282113581895828,
      "num_tokens": 14587523.0,
      "step": 1870
    },
    {
      "entropy": 1.0467969175428151,
      "epoch": 0.49071726506910934,
      "grad_norm": 0.3616087734699249,
      "learning_rate": 1.0191049463491233e-05,
      "loss": 1.0211,
      "mean_token_accuracy": 0.7238417502492667,
      "num_tokens": 14629386.0,
      "step": 1875
    },
    {
      "entropy": 1.0537079151719808,
      "epoch": 0.492025844442627,
      "grad_norm": 0.3368701934814453,
      "learning_rate": 1.0164878304108873e-05,
      "loss": 1.0216,
      "mean_token_accuracy": 0.7280502840876579,
      "num_tokens": 14672059.0,
      "step": 1880
    },
    {
      "entropy": 1.1863497417420148,
      "epoch": 0.4933344238161446,
      "grad_norm": 0.35971367359161377,
      "learning_rate": 1.0138707144726512e-05,
      "loss": 1.1773,
      "mean_token_accuracy": 0.7055241405963898,
      "num_tokens": 14713139.0,
      "step": 1885
    },
    {
      "entropy": 1.0729142222553492,
      "epoch": 0.4946430031896622,
      "grad_norm": 0.3640763461589813,
      "learning_rate": 1.0112535985344152e-05,
      "loss": 1.0327,
      "mean_token_accuracy": 0.7191622793674469,
      "num_tokens": 14751005.0,
      "step": 1890
    },
    {
      "entropy": 1.06036187261343,
      "epoch": 0.49595158256317984,
      "grad_norm": 0.529114305973053,
      "learning_rate": 1.0086364825961792e-05,
      "loss": 0.9994,
      "mean_token_accuracy": 0.7312576837837697,
      "num_tokens": 14791363.0,
      "step": 1895
    },
    {
      "entropy": 1.0985333036631346,
      "epoch": 0.4972601619366975,
      "grad_norm": 0.655299723148346,
      "learning_rate": 1.006019366657943e-05,
      "loss": 1.0157,
      "mean_token_accuracy": 0.715160496532917,
      "num_tokens": 14824965.0,
      "step": 1900
    },
    {
      "epoch": 0.4972601619366975,
      "eval_entropy": 1.049722795009613,
      "eval_loss": 1.0476868152618408,
      "eval_mean_token_accuracy": 0.7267285461425781,
      "eval_num_tokens": 14824965.0,
      "eval_runtime": 97.3332,
      "eval_samples_per_second": 10.274,
      "eval_steps_per_second": 1.284,
      "step": 1900
    },
    {
      "entropy": 1.1007526509463788,
      "epoch": 0.4985687413102151,
      "grad_norm": 0.3946051001548767,
      "learning_rate": 1.003402250719707e-05,
      "loss": 1.0781,
      "mean_token_accuracy": 0.7194148235023021,
      "num_tokens": 14861751.0,
      "step": 1905
    },
    {
      "entropy": 1.0730507016181945,
      "epoch": 0.4998773206837327,
      "grad_norm": 0.4027865529060364,
      "learning_rate": 1.000785134781471e-05,
      "loss": 1.0453,
      "mean_token_accuracy": 0.7289649330079555,
      "num_tokens": 14899381.0,
      "step": 1910
    },
    {
      "entropy": 1.0322015034034848,
      "epoch": 0.5011859000572504,
      "grad_norm": 0.3154545724391937,
      "learning_rate": 9.981680188432349e-06,
      "loss": 0.9092,
      "mean_token_accuracy": 0.7354275353252888,
      "num_tokens": 14937444.0,
      "step": 1915
    },
    {
      "entropy": 1.070195358619094,
      "epoch": 0.502494479430768,
      "grad_norm": 0.6190849542617798,
      "learning_rate": 9.955509029049987e-06,
      "loss": 0.9885,
      "mean_token_accuracy": 0.7289122432470322,
      "num_tokens": 14973078.0,
      "step": 1920
    },
    {
      "entropy": 1.1444286353886128,
      "epoch": 0.5038030588042856,
      "grad_norm": 0.3921438455581665,
      "learning_rate": 9.929337869667627e-06,
      "loss": 1.1402,
      "mean_token_accuracy": 0.7071823209524155,
      "num_tokens": 15013712.0,
      "step": 1925
    },
    {
      "entropy": 1.1046634882688522,
      "epoch": 0.5051116381778032,
      "grad_norm": 0.35547974705696106,
      "learning_rate": 9.903166710285267e-06,
      "loss": 1.0808,
      "mean_token_accuracy": 0.7203411210328341,
      "num_tokens": 15056268.0,
      "step": 1930
    },
    {
      "entropy": 1.1063471656292676,
      "epoch": 0.5064202175513208,
      "grad_norm": 0.4154115915298462,
      "learning_rate": 9.876995550902906e-06,
      "loss": 1.1305,
      "mean_token_accuracy": 0.7238013096153736,
      "num_tokens": 15095616.0,
      "step": 1935
    },
    {
      "entropy": 1.093080758303404,
      "epoch": 0.5077287969248385,
      "grad_norm": 0.33288487792015076,
      "learning_rate": 9.850824391520546e-06,
      "loss": 1.0423,
      "mean_token_accuracy": 0.7236416719853878,
      "num_tokens": 15135823.0,
      "step": 1940
    },
    {
      "entropy": 1.0675853207707404,
      "epoch": 0.5090373762983561,
      "grad_norm": 0.4353385269641876,
      "learning_rate": 9.824653232138186e-06,
      "loss": 1.027,
      "mean_token_accuracy": 0.721454057097435,
      "num_tokens": 15173689.0,
      "step": 1945
    },
    {
      "entropy": 0.9674046196043491,
      "epoch": 0.5103459556718737,
      "grad_norm": 0.6318839192390442,
      "learning_rate": 9.798482072755824e-06,
      "loss": 0.8977,
      "mean_token_accuracy": 0.7534206889569759,
      "num_tokens": 15215084.0,
      "step": 1950
    },
    {
      "entropy": 1.029712200164795,
      "epoch": 0.5116545350453914,
      "grad_norm": 0.4194331765174866,
      "learning_rate": 9.772310913373462e-06,
      "loss": 0.9468,
      "mean_token_accuracy": 0.7411890789866448,
      "num_tokens": 15255554.0,
      "step": 1955
    },
    {
      "entropy": 1.0968198750168086,
      "epoch": 0.512963114418909,
      "grad_norm": 0.5084384679794312,
      "learning_rate": 9.746139753991103e-06,
      "loss": 1.1293,
      "mean_token_accuracy": 0.7243112053722143,
      "num_tokens": 15291594.0,
      "step": 1960
    },
    {
      "entropy": 1.1029110010713339,
      "epoch": 0.5142716937924265,
      "grad_norm": 0.39724844694137573,
      "learning_rate": 9.719968594608743e-06,
      "loss": 1.1192,
      "mean_token_accuracy": 0.7196755088865757,
      "num_tokens": 15331102.0,
      "step": 1965
    },
    {
      "entropy": 1.088718469440937,
      "epoch": 0.5155802731659442,
      "grad_norm": 0.29742664098739624,
      "learning_rate": 9.693797435226381e-06,
      "loss": 1.0498,
      "mean_token_accuracy": 0.718688540160656,
      "num_tokens": 15370084.0,
      "step": 1970
    },
    {
      "entropy": 1.0800972525030375,
      "epoch": 0.5168888525394618,
      "grad_norm": 0.4087739586830139,
      "learning_rate": 9.667626275844021e-06,
      "loss": 1.0431,
      "mean_token_accuracy": 0.7267526693642139,
      "num_tokens": 15407968.0,
      "step": 1975
    },
    {
      "entropy": 1.1198014959692955,
      "epoch": 0.5181974319129795,
      "grad_norm": 0.3880080282688141,
      "learning_rate": 9.64145511646166e-06,
      "loss": 1.1213,
      "mean_token_accuracy": 0.7201451409608126,
      "num_tokens": 15445003.0,
      "step": 1980
    },
    {
      "entropy": 1.098936778306961,
      "epoch": 0.5195060112864971,
      "grad_norm": 0.3442750871181488,
      "learning_rate": 9.6152839570793e-06,
      "loss": 1.0513,
      "mean_token_accuracy": 0.7280969373881817,
      "num_tokens": 15486123.0,
      "step": 1985
    },
    {
      "entropy": 1.106550743058324,
      "epoch": 0.5208145906600147,
      "grad_norm": 0.34958696365356445,
      "learning_rate": 9.58911279769694e-06,
      "loss": 1.0701,
      "mean_token_accuracy": 0.7197918314486742,
      "num_tokens": 15525274.0,
      "step": 1990
    },
    {
      "entropy": 1.0225239008665086,
      "epoch": 0.5221231700335324,
      "grad_norm": 0.2728900909423828,
      "learning_rate": 9.562941638314578e-06,
      "loss": 0.9536,
      "mean_token_accuracy": 0.7333686843514442,
      "num_tokens": 15567557.0,
      "step": 1995
    },
    {
      "entropy": 1.015058632940054,
      "epoch": 0.52343174940705,
      "grad_norm": 0.42618778347969055,
      "learning_rate": 9.536770478932218e-06,
      "loss": 0.9551,
      "mean_token_accuracy": 0.7347531169652939,
      "num_tokens": 15608023.0,
      "step": 2000
    },
    {
      "epoch": 0.52343174940705,
      "eval_entropy": 1.0467440810203552,
      "eval_loss": 1.0457295179367065,
      "eval_mean_token_accuracy": 0.727197292804718,
      "eval_num_tokens": 15608023.0,
      "eval_runtime": 97.3484,
      "eval_samples_per_second": 10.272,
      "eval_steps_per_second": 1.284,
      "step": 2000
    },
    {
      "entropy": 1.1194863107055426,
      "epoch": 0.5247403287805676,
      "grad_norm": 0.43802356719970703,
      "learning_rate": 9.510599319549856e-06,
      "loss": 1.1008,
      "mean_token_accuracy": 0.7199479583650827,
      "num_tokens": 15646573.0,
      "step": 2005
    },
    {
      "entropy": 1.123955625295639,
      "epoch": 0.5260489081540852,
      "grad_norm": 0.3263470232486725,
      "learning_rate": 9.484428160167496e-06,
      "loss": 1.0753,
      "mean_token_accuracy": 0.7194419991225004,
      "num_tokens": 15688301.0,
      "step": 2010
    },
    {
      "entropy": 1.075960063934326,
      "epoch": 0.5273574875276028,
      "grad_norm": 0.43562212586402893,
      "learning_rate": 9.458257000785136e-06,
      "loss": 1.0737,
      "mean_token_accuracy": 0.7178402289748191,
      "num_tokens": 15725214.0,
      "step": 2015
    },
    {
      "entropy": 1.048216313868761,
      "epoch": 0.5286660669011205,
      "grad_norm": 0.2702055871486664,
      "learning_rate": 9.432085841402775e-06,
      "loss": 1.0164,
      "mean_token_accuracy": 0.7296169806271792,
      "num_tokens": 15764282.0,
      "step": 2020
    },
    {
      "entropy": 1.0972533270716667,
      "epoch": 0.5299746462746381,
      "grad_norm": 0.38811036944389343,
      "learning_rate": 9.405914682020413e-06,
      "loss": 1.0683,
      "mean_token_accuracy": 0.7193491701036692,
      "num_tokens": 15807279.0,
      "step": 2025
    },
    {
      "entropy": 1.0837439749389888,
      "epoch": 0.5312832256481557,
      "grad_norm": 0.38090547919273376,
      "learning_rate": 9.379743522638053e-06,
      "loss": 1.0179,
      "mean_token_accuracy": 0.7216418325901032,
      "num_tokens": 15849485.0,
      "step": 2030
    },
    {
      "entropy": 1.0280620481818914,
      "epoch": 0.5325918050216734,
      "grad_norm": 0.44307711720466614,
      "learning_rate": 9.353572363255693e-06,
      "loss": 0.9705,
      "mean_token_accuracy": 0.7349147848784924,
      "num_tokens": 15888255.0,
      "step": 2035
    },
    {
      "entropy": 1.1240373719483614,
      "epoch": 0.5339003843951909,
      "grad_norm": 0.41446390748023987,
      "learning_rate": 9.327401203873332e-06,
      "loss": 1.1051,
      "mean_token_accuracy": 0.7141484066843986,
      "num_tokens": 15929388.0,
      "step": 2040
    },
    {
      "entropy": 1.1305542685091496,
      "epoch": 0.5352089637687086,
      "grad_norm": 0.749841034412384,
      "learning_rate": 9.301230044490972e-06,
      "loss": 1.126,
      "mean_token_accuracy": 0.7178158447146415,
      "num_tokens": 15971137.0,
      "step": 2045
    },
    {
      "entropy": 1.0323502123355865,
      "epoch": 0.5365175431422262,
      "grad_norm": 0.48051634430885315,
      "learning_rate": 9.27505888510861e-06,
      "loss": 0.9978,
      "mean_token_accuracy": 0.7359145298600197,
      "num_tokens": 16011804.0,
      "step": 2050
    },
    {
      "entropy": 1.0280569117516278,
      "epoch": 0.5378261225157438,
      "grad_norm": 0.2908135950565338,
      "learning_rate": 9.24888772572625e-06,
      "loss": 0.9785,
      "mean_token_accuracy": 0.7374115951359272,
      "num_tokens": 16050785.0,
      "step": 2055
    },
    {
      "entropy": 1.0569781139492989,
      "epoch": 0.5391347018892615,
      "grad_norm": 0.35007575154304504,
      "learning_rate": 9.22271656634389e-06,
      "loss": 0.9877,
      "mean_token_accuracy": 0.7339214488863945,
      "num_tokens": 16090836.0,
      "step": 2060
    },
    {
      "entropy": 1.0800054289400578,
      "epoch": 0.5404432812627791,
      "grad_norm": 0.32629233598709106,
      "learning_rate": 9.196545406961529e-06,
      "loss": 1.0375,
      "mean_token_accuracy": 0.7278057150542736,
      "num_tokens": 16131547.0,
      "step": 2065
    },
    {
      "entropy": 1.0801922511309385,
      "epoch": 0.5417518606362968,
      "grad_norm": 0.43629997968673706,
      "learning_rate": 9.170374247579169e-06,
      "loss": 1.0448,
      "mean_token_accuracy": 0.7214881278574466,
      "num_tokens": 16168637.0,
      "step": 2070
    },
    {
      "entropy": 1.10114951916039,
      "epoch": 0.5430604400098143,
      "grad_norm": 0.3292621076107025,
      "learning_rate": 9.144203088196809e-06,
      "loss": 1.0632,
      "mean_token_accuracy": 0.7205091584473848,
      "num_tokens": 16210603.0,
      "step": 2075
    },
    {
      "entropy": 1.0731607031077146,
      "epoch": 0.5443690193833319,
      "grad_norm": 0.3450382351875305,
      "learning_rate": 9.118031928814447e-06,
      "loss": 0.985,
      "mean_token_accuracy": 0.7285647377371788,
      "num_tokens": 16248842.0,
      "step": 2080
    },
    {
      "entropy": 1.110469686985016,
      "epoch": 0.5456775987568496,
      "grad_norm": 0.5088993310928345,
      "learning_rate": 9.091860769432087e-06,
      "loss": 1.0761,
      "mean_token_accuracy": 0.7160798791795969,
      "num_tokens": 16282386.0,
      "step": 2085
    },
    {
      "entropy": 1.066830562800169,
      "epoch": 0.5469861781303672,
      "grad_norm": 0.5230424404144287,
      "learning_rate": 9.065689610049726e-06,
      "loss": 1.0209,
      "mean_token_accuracy": 0.7298058848828077,
      "num_tokens": 16315017.0,
      "step": 2090
    },
    {
      "entropy": 1.0682125560939313,
      "epoch": 0.5482947575038849,
      "grad_norm": 0.29241734743118286,
      "learning_rate": 9.039518450667366e-06,
      "loss": 1.0398,
      "mean_token_accuracy": 0.7212686751037836,
      "num_tokens": 16356673.0,
      "step": 2095
    },
    {
      "entropy": 1.0166700199246406,
      "epoch": 0.5496033368774025,
      "grad_norm": 0.37928712368011475,
      "learning_rate": 9.013347291285006e-06,
      "loss": 0.9511,
      "mean_token_accuracy": 0.7362009316682816,
      "num_tokens": 16397408.0,
      "step": 2100
    },
    {
      "epoch": 0.5496033368774025,
      "eval_entropy": 1.0475300779342651,
      "eval_loss": 1.0435727834701538,
      "eval_mean_token_accuracy": 0.7274958577156067,
      "eval_num_tokens": 16397408.0,
      "eval_runtime": 97.2217,
      "eval_samples_per_second": 10.286,
      "eval_steps_per_second": 1.286,
      "step": 2100
    },
    {
      "entropy": 1.0761947065591813,
      "epoch": 0.5509119162509201,
      "grad_norm": 0.4101719558238983,
      "learning_rate": 8.987176131902644e-06,
      "loss": 1.0654,
      "mean_token_accuracy": 0.7192930780351162,
      "num_tokens": 16434511.0,
      "step": 2105
    },
    {
      "entropy": 1.097949853539467,
      "epoch": 0.5522204956244378,
      "grad_norm": 0.4837743043899536,
      "learning_rate": 8.961004972520282e-06,
      "loss": 1.0397,
      "mean_token_accuracy": 0.7156211558729411,
      "num_tokens": 16472214.0,
      "step": 2110
    },
    {
      "entropy": 1.0977317329496146,
      "epoch": 0.5535290749979553,
      "grad_norm": 0.39783498644828796,
      "learning_rate": 8.934833813137923e-06,
      "loss": 1.1348,
      "mean_token_accuracy": 0.71487329415977,
      "num_tokens": 16512818.0,
      "step": 2115
    },
    {
      "entropy": 1.1164306864142417,
      "epoch": 0.5548376543714729,
      "grad_norm": 0.5113677978515625,
      "learning_rate": 8.908662653755563e-06,
      "loss": 1.0433,
      "mean_token_accuracy": 0.7190901465713978,
      "num_tokens": 16549988.0,
      "step": 2120
    },
    {
      "entropy": 1.118570750951767,
      "epoch": 0.5561462337449906,
      "grad_norm": 0.457736074924469,
      "learning_rate": 8.882491494373201e-06,
      "loss": 1.0624,
      "mean_token_accuracy": 0.7195118874311447,
      "num_tokens": 16588026.0,
      "step": 2125
    },
    {
      "entropy": 1.0895183108747006,
      "epoch": 0.5574548131185082,
      "grad_norm": 0.443959504365921,
      "learning_rate": 8.856320334990841e-06,
      "loss": 1.0314,
      "mean_token_accuracy": 0.7270146373659372,
      "num_tokens": 16626368.0,
      "step": 2130
    },
    {
      "entropy": 1.091917496919632,
      "epoch": 0.5587633924920259,
      "grad_norm": 0.3934486210346222,
      "learning_rate": 8.83014917560848e-06,
      "loss": 1.0449,
      "mean_token_accuracy": 0.7249642074108124,
      "num_tokens": 16658226.0,
      "step": 2135
    },
    {
      "entropy": 1.0808244206011295,
      "epoch": 0.5600719718655435,
      "grad_norm": 0.4523155093193054,
      "learning_rate": 8.80397801622612e-06,
      "loss": 1.0726,
      "mean_token_accuracy": 0.725436444580555,
      "num_tokens": 16694803.0,
      "step": 2140
    },
    {
      "entropy": 1.0595968872308732,
      "epoch": 0.561380551239061,
      "grad_norm": 0.6529179215431213,
      "learning_rate": 8.77780685684376e-06,
      "loss": 1.0853,
      "mean_token_accuracy": 0.728100998699665,
      "num_tokens": 16731046.0,
      "step": 2145
    },
    {
      "entropy": 1.1225625108927488,
      "epoch": 0.5626891306125787,
      "grad_norm": 0.5509600043296814,
      "learning_rate": 8.751635697461398e-06,
      "loss": 1.0464,
      "mean_token_accuracy": 0.7140719693154096,
      "num_tokens": 16770258.0,
      "step": 2150
    },
    {
      "entropy": 1.0641490031033753,
      "epoch": 0.5639977099860963,
      "grad_norm": 0.401279091835022,
      "learning_rate": 8.725464538079038e-06,
      "loss": 1.006,
      "mean_token_accuracy": 0.7247611582279205,
      "num_tokens": 16808152.0,
      "step": 2155
    },
    {
      "entropy": 1.077583958208561,
      "epoch": 0.565306289359614,
      "grad_norm": 0.3935731053352356,
      "learning_rate": 8.699293378696676e-06,
      "loss": 1.0364,
      "mean_token_accuracy": 0.7233245447278023,
      "num_tokens": 16846703.0,
      "step": 2160
    },
    {
      "entropy": 1.1116807896643877,
      "epoch": 0.5666148687331316,
      "grad_norm": 0.31971287727355957,
      "learning_rate": 8.673122219314316e-06,
      "loss": 1.1141,
      "mean_token_accuracy": 0.7137772016227245,
      "num_tokens": 16885531.0,
      "step": 2165
    },
    {
      "entropy": 1.1279645822942257,
      "epoch": 0.5679234481066492,
      "grad_norm": 0.33220037817955017,
      "learning_rate": 8.646951059931956e-06,
      "loss": 1.1373,
      "mean_token_accuracy": 0.7136048063635826,
      "num_tokens": 16922160.0,
      "step": 2170
    },
    {
      "entropy": 1.0512098886072636,
      "epoch": 0.5692320274801669,
      "grad_norm": 0.41083812713623047,
      "learning_rate": 8.620779900549595e-06,
      "loss": 1.0153,
      "mean_token_accuracy": 0.7320755422115326,
      "num_tokens": 16961964.0,
      "step": 2175
    },
    {
      "entropy": 1.0632092259824275,
      "epoch": 0.5705406068536845,
      "grad_norm": 0.3310851752758026,
      "learning_rate": 8.594608741167235e-06,
      "loss": 1.0625,
      "mean_token_accuracy": 0.7241213608533144,
      "num_tokens": 17005710.0,
      "step": 2180
    },
    {
      "entropy": 1.0541639674454928,
      "epoch": 0.571849186227202,
      "grad_norm": 0.5147233009338379,
      "learning_rate": 8.568437581784875e-06,
      "loss": 1.0132,
      "mean_token_accuracy": 0.7322873834520578,
      "num_tokens": 17043166.0,
      "step": 2185
    },
    {
      "entropy": 1.1003672912716866,
      "epoch": 0.5731577656007197,
      "grad_norm": 0.6766669154167175,
      "learning_rate": 8.542266422402513e-06,
      "loss": 1.1054,
      "mean_token_accuracy": 0.7199019856750966,
      "num_tokens": 17077200.0,
      "step": 2190
    },
    {
      "entropy": 1.0057383235543966,
      "epoch": 0.5744663449742373,
      "grad_norm": 0.41832664608955383,
      "learning_rate": 8.516095263020152e-06,
      "loss": 0.9413,
      "mean_token_accuracy": 0.7480561546981335,
      "num_tokens": 17116788.0,
      "step": 2195
    },
    {
      "entropy": 1.0743875481188296,
      "epoch": 0.575774924347755,
      "grad_norm": 0.38505351543426514,
      "learning_rate": 8.489924103637792e-06,
      "loss": 0.9846,
      "mean_token_accuracy": 0.7285970754921436,
      "num_tokens": 17156595.0,
      "step": 2200
    },
    {
      "epoch": 0.575774924347755,
      "eval_entropy": 1.047807973384857,
      "eval_loss": 1.0419152975082397,
      "eval_mean_token_accuracy": 0.7281912508010864,
      "eval_num_tokens": 17156595.0,
      "eval_runtime": 97.2111,
      "eval_samples_per_second": 10.287,
      "eval_steps_per_second": 1.286,
      "step": 2200
    },
    {
      "entropy": 1.018094291538,
      "epoch": 0.5770835037212726,
      "grad_norm": 0.47084370255470276,
      "learning_rate": 8.463752944255432e-06,
      "loss": 0.9611,
      "mean_token_accuracy": 0.7393688425421715,
      "num_tokens": 17190391.0,
      "step": 2205
    },
    {
      "entropy": 1.0440906029194594,
      "epoch": 0.5783920830947902,
      "grad_norm": 0.611663818359375,
      "learning_rate": 8.43758178487307e-06,
      "loss": 1.0335,
      "mean_token_accuracy": 0.7285435609519482,
      "num_tokens": 17228559.0,
      "step": 2210
    },
    {
      "entropy": 1.033133103698492,
      "epoch": 0.5797006624683079,
      "grad_norm": 0.4824153482913971,
      "learning_rate": 8.41141062549071e-06,
      "loss": 1.013,
      "mean_token_accuracy": 0.7390854120254516,
      "num_tokens": 17264262.0,
      "step": 2215
    },
    {
      "entropy": 1.0519094690680504,
      "epoch": 0.5810092418418255,
      "grad_norm": 0.35666635632514954,
      "learning_rate": 8.385239466108349e-06,
      "loss": 1.0353,
      "mean_token_accuracy": 0.7265864860266447,
      "num_tokens": 17298474.0,
      "step": 2220
    },
    {
      "entropy": 1.1184704467654227,
      "epoch": 0.5823178212153431,
      "grad_norm": 0.4187191426753998,
      "learning_rate": 8.359068306725989e-06,
      "loss": 1.0395,
      "mean_token_accuracy": 0.7226161871105432,
      "num_tokens": 17342249.0,
      "step": 2225
    },
    {
      "entropy": 1.109714150428772,
      "epoch": 0.5836264005888607,
      "grad_norm": 0.424214243888855,
      "learning_rate": 8.332897147343629e-06,
      "loss": 1.0727,
      "mean_token_accuracy": 0.7170622806996108,
      "num_tokens": 17381434.0,
      "step": 2230
    },
    {
      "entropy": 1.0706456020474433,
      "epoch": 0.5849349799623783,
      "grad_norm": 0.3002157211303711,
      "learning_rate": 8.306725987961267e-06,
      "loss": 1.046,
      "mean_token_accuracy": 0.7237683780491352,
      "num_tokens": 17419527.0,
      "step": 2235
    },
    {
      "entropy": 1.0564652543514967,
      "epoch": 0.586243559335896,
      "grad_norm": 0.3851909041404724,
      "learning_rate": 8.280554828578907e-06,
      "loss": 0.9903,
      "mean_token_accuracy": 0.731862674281001,
      "num_tokens": 17456332.0,
      "step": 2240
    },
    {
      "entropy": 1.059485612437129,
      "epoch": 0.5875521387094136,
      "grad_norm": 0.30845922231674194,
      "learning_rate": 8.254383669196546e-06,
      "loss": 1.0166,
      "mean_token_accuracy": 0.7287565600126982,
      "num_tokens": 17503670.0,
      "step": 2245
    },
    {
      "entropy": 1.0321750465780497,
      "epoch": 0.5888607180829312,
      "grad_norm": 0.35590362548828125,
      "learning_rate": 8.228212509814186e-06,
      "loss": 1.0185,
      "mean_token_accuracy": 0.7324472777545452,
      "num_tokens": 17541709.0,
      "step": 2250
    },
    {
      "entropy": 1.029836729541421,
      "epoch": 0.5901692974564489,
      "grad_norm": 0.5374951362609863,
      "learning_rate": 8.202041350431826e-06,
      "loss": 0.9625,
      "mean_token_accuracy": 0.7331007912755012,
      "num_tokens": 17578411.0,
      "step": 2255
    },
    {
      "entropy": 1.0388061545789242,
      "epoch": 0.5914778768299664,
      "grad_norm": 0.26899445056915283,
      "learning_rate": 8.175870191049464e-06,
      "loss": 0.9839,
      "mean_token_accuracy": 0.7304695654660464,
      "num_tokens": 17618221.0,
      "step": 2260
    },
    {
      "entropy": 1.0612275712192059,
      "epoch": 0.5927864562034841,
      "grad_norm": 0.47736746072769165,
      "learning_rate": 8.149699031667102e-06,
      "loss": 1.0262,
      "mean_token_accuracy": 0.725922341644764,
      "num_tokens": 17656712.0,
      "step": 2265
    },
    {
      "entropy": 1.1566721752285958,
      "epoch": 0.5940950355770017,
      "grad_norm": 0.37901201844215393,
      "learning_rate": 8.123527872284743e-06,
      "loss": 1.1165,
      "mean_token_accuracy": 0.7078841663897038,
      "num_tokens": 17692983.0,
      "step": 2270
    },
    {
      "entropy": 1.1062884621322155,
      "epoch": 0.5954036149505193,
      "grad_norm": 0.5285326838493347,
      "learning_rate": 8.097356712902383e-06,
      "loss": 1.06,
      "mean_token_accuracy": 0.7236683152616024,
      "num_tokens": 17732335.0,
      "step": 2275
    },
    {
      "entropy": 1.093737093731761,
      "epoch": 0.596712194324037,
      "grad_norm": 0.3490510582923889,
      "learning_rate": 8.071185553520021e-06,
      "loss": 1.0661,
      "mean_token_accuracy": 0.7216609187424183,
      "num_tokens": 17767130.0,
      "step": 2280
    },
    {
      "entropy": 1.108936246484518,
      "epoch": 0.5980207736975546,
      "grad_norm": 0.5806106925010681,
      "learning_rate": 8.045014394137661e-06,
      "loss": 1.1176,
      "mean_token_accuracy": 0.7208809830248356,
      "num_tokens": 17803730.0,
      "step": 2285
    },
    {
      "entropy": 1.168883834220469,
      "epoch": 0.5993293530710723,
      "grad_norm": 0.36321160197257996,
      "learning_rate": 8.0188432347553e-06,
      "loss": 1.1264,
      "mean_token_accuracy": 0.707911616563797,
      "num_tokens": 17844864.0,
      "step": 2290
    },
    {
      "entropy": 1.0555749453604222,
      "epoch": 0.6006379324445899,
      "grad_norm": 0.37642714381217957,
      "learning_rate": 7.99267207537294e-06,
      "loss": 1.0828,
      "mean_token_accuracy": 0.7319136694073677,
      "num_tokens": 17888044.0,
      "step": 2295
    },
    {
      "entropy": 1.0490516472607851,
      "epoch": 0.6019465118181074,
      "grad_norm": 1.011374831199646,
      "learning_rate": 7.96650091599058e-06,
      "loss": 1.0583,
      "mean_token_accuracy": 0.7280811902135611,
      "num_tokens": 17925845.0,
      "step": 2300
    },
    {
      "epoch": 0.6019465118181074,
      "eval_entropy": 1.038636552810669,
      "eval_loss": 1.0401142835617065,
      "eval_mean_token_accuracy": 0.7285269827842712,
      "eval_num_tokens": 17925845.0,
      "eval_runtime": 97.1825,
      "eval_samples_per_second": 10.29,
      "eval_steps_per_second": 1.286,
      "step": 2300
    },
    {
      "entropy": 1.060953125730157,
      "epoch": 0.6032550911916251,
      "grad_norm": 0.3888475000858307,
      "learning_rate": 7.940329756608218e-06,
      "loss": 1.0127,
      "mean_token_accuracy": 0.7261522125452757,
      "num_tokens": 17967227.0,
      "step": 2305
    },
    {
      "entropy": 1.108807889930904,
      "epoch": 0.6045636705651427,
      "grad_norm": 0.4732019901275635,
      "learning_rate": 7.914158597225858e-06,
      "loss": 1.048,
      "mean_token_accuracy": 0.7257308520376682,
      "num_tokens": 18000648.0,
      "step": 2310
    },
    {
      "entropy": 1.0645822279155255,
      "epoch": 0.6058722499386603,
      "grad_norm": 0.5344901084899902,
      "learning_rate": 7.887987437843498e-06,
      "loss": 1.0637,
      "mean_token_accuracy": 0.726478286832571,
      "num_tokens": 18041076.0,
      "step": 2315
    },
    {
      "entropy": 1.0792375735938549,
      "epoch": 0.607180829312178,
      "grad_norm": 0.4639453589916229,
      "learning_rate": 7.861816278461136e-06,
      "loss": 1.0164,
      "mean_token_accuracy": 0.7243579313158989,
      "num_tokens": 18078141.0,
      "step": 2320
    },
    {
      "entropy": 1.1244300540536643,
      "epoch": 0.6084894086856956,
      "grad_norm": 0.4256502389907837,
      "learning_rate": 7.835645119078776e-06,
      "loss": 1.0715,
      "mean_token_accuracy": 0.721744529902935,
      "num_tokens": 18115889.0,
      "step": 2325
    },
    {
      "entropy": 1.0580251537263394,
      "epoch": 0.6097979880592133,
      "grad_norm": 0.3264947235584259,
      "learning_rate": 7.809473959696415e-06,
      "loss": 1.0605,
      "mean_token_accuracy": 0.7277645215392112,
      "num_tokens": 18157055.0,
      "step": 2330
    },
    {
      "entropy": 1.0746600326150655,
      "epoch": 0.6111065674327308,
      "grad_norm": 0.2848566472530365,
      "learning_rate": 7.783302800314055e-06,
      "loss": 1.0606,
      "mean_token_accuracy": 0.7236160174012184,
      "num_tokens": 18194754.0,
      "step": 2335
    },
    {
      "entropy": 1.0729442548006773,
      "epoch": 0.6124151468062484,
      "grad_norm": 0.34202495217323303,
      "learning_rate": 7.757131640931695e-06,
      "loss": 1.0274,
      "mean_token_accuracy": 0.7167530670762062,
      "num_tokens": 18239971.0,
      "step": 2340
    },
    {
      "entropy": 1.1377609726041555,
      "epoch": 0.6137237261797661,
      "grad_norm": 0.5917489528656006,
      "learning_rate": 7.730960481549333e-06,
      "loss": 1.0862,
      "mean_token_accuracy": 0.7097996596246958,
      "num_tokens": 18277572.0,
      "step": 2345
    },
    {
      "entropy": 1.0688726913183928,
      "epoch": 0.6150323055532837,
      "grad_norm": 0.3864566683769226,
      "learning_rate": 7.704789322166972e-06,
      "loss": 0.9895,
      "mean_token_accuracy": 0.7335865460336208,
      "num_tokens": 18318117.0,
      "step": 2350
    },
    {
      "entropy": 1.0338464200496673,
      "epoch": 0.6163408849268014,
      "grad_norm": 0.3866376280784607,
      "learning_rate": 7.678618162784612e-06,
      "loss": 0.9989,
      "mean_token_accuracy": 0.7306736633181572,
      "num_tokens": 18357427.0,
      "step": 2355
    },
    {
      "entropy": 1.0776856757700444,
      "epoch": 0.617649464300319,
      "grad_norm": 0.37204793095588684,
      "learning_rate": 7.652447003402252e-06,
      "loss": 1.0805,
      "mean_token_accuracy": 0.7231950167566538,
      "num_tokens": 18398690.0,
      "step": 2360
    },
    {
      "entropy": 1.0225880276411772,
      "epoch": 0.6189580436738366,
      "grad_norm": 0.4354966878890991,
      "learning_rate": 7.62627584401989e-06,
      "loss": 0.9557,
      "mean_token_accuracy": 0.7365483164787292,
      "num_tokens": 18436962.0,
      "step": 2365
    },
    {
      "entropy": 1.056931370869279,
      "epoch": 0.6202666230473542,
      "grad_norm": 0.29399538040161133,
      "learning_rate": 7.60010468463753e-06,
      "loss": 1.0455,
      "mean_token_accuracy": 0.7246545068919659,
      "num_tokens": 18479590.0,
      "step": 2370
    },
    {
      "entropy": 1.0880108322948217,
      "epoch": 0.6215752024208718,
      "grad_norm": 0.26629939675331116,
      "learning_rate": 7.5739335252551695e-06,
      "loss": 1.0752,
      "mean_token_accuracy": 0.7159001469612122,
      "num_tokens": 18520588.0,
      "step": 2375
    },
    {
      "entropy": 1.0517158180475235,
      "epoch": 0.6228837817943894,
      "grad_norm": 0.4959399998188019,
      "learning_rate": 7.547762365872809e-06,
      "loss": 0.9754,
      "mean_token_accuracy": 0.7284245084971189,
      "num_tokens": 18556912.0,
      "step": 2380
    },
    {
      "entropy": 1.0565275117754935,
      "epoch": 0.6241923611679071,
      "grad_norm": 0.6061561107635498,
      "learning_rate": 7.521591206490449e-06,
      "loss": 0.9693,
      "mean_token_accuracy": 0.7295171424746514,
      "num_tokens": 18591545.0,
      "step": 2385
    },
    {
      "entropy": 1.1225751712918282,
      "epoch": 0.6255009405414247,
      "grad_norm": 0.43570899963378906,
      "learning_rate": 7.495420047108087e-06,
      "loss": 1.0837,
      "mean_token_accuracy": 0.7186510719358921,
      "num_tokens": 18632236.0,
      "step": 2390
    },
    {
      "entropy": 1.1181074380874634,
      "epoch": 0.6268095199149424,
      "grad_norm": 0.49738365411758423,
      "learning_rate": 7.469248887725726e-06,
      "loss": 1.0293,
      "mean_token_accuracy": 0.7210543874651194,
      "num_tokens": 18671653.0,
      "step": 2395
    },
    {
      "entropy": 1.092723872885108,
      "epoch": 0.62811809928846,
      "grad_norm": 0.5354933142662048,
      "learning_rate": 7.4430777283433664e-06,
      "loss": 1.0792,
      "mean_token_accuracy": 0.7276735674589873,
      "num_tokens": 18712711.0,
      "step": 2400
    },
    {
      "epoch": 0.62811809928846,
      "eval_entropy": 1.0314421949386596,
      "eval_loss": 1.0386921167373657,
      "eval_mean_token_accuracy": 0.7286318821907043,
      "eval_num_tokens": 18712711.0,
      "eval_runtime": 97.152,
      "eval_samples_per_second": 10.293,
      "eval_steps_per_second": 1.287,
      "step": 2400
    },
    {
      "entropy": 1.1883727714419365,
      "epoch": 0.6294266786619775,
      "grad_norm": 0.3528256416320801,
      "learning_rate": 7.416906568961006e-06,
      "loss": 1.1798,
      "mean_token_accuracy": 0.7113151207566262,
      "num_tokens": 18752528.0,
      "step": 2405
    },
    {
      "entropy": 1.1015507124364377,
      "epoch": 0.6307352580354952,
      "grad_norm": 0.421294242143631,
      "learning_rate": 7.390735409578646e-06,
      "loss": 1.058,
      "mean_token_accuracy": 0.7168937616050244,
      "num_tokens": 18791480.0,
      "step": 2410
    },
    {
      "entropy": 1.040089299157262,
      "epoch": 0.6320438374090128,
      "grad_norm": 0.34841352701187134,
      "learning_rate": 7.364564250196284e-06,
      "loss": 0.9257,
      "mean_token_accuracy": 0.7292000584304332,
      "num_tokens": 18827672.0,
      "step": 2415
    },
    {
      "entropy": 1.0772018309682607,
      "epoch": 0.6333524167825305,
      "grad_norm": 0.39158549904823303,
      "learning_rate": 7.338393090813923e-06,
      "loss": 1.0312,
      "mean_token_accuracy": 0.7295682705938816,
      "num_tokens": 18867541.0,
      "step": 2420
    },
    {
      "entropy": 1.191065814346075,
      "epoch": 0.6346609961560481,
      "grad_norm": 0.5301610231399536,
      "learning_rate": 7.312221931431563e-06,
      "loss": 1.214,
      "mean_token_accuracy": 0.7043293602764606,
      "num_tokens": 18907080.0,
      "step": 2425
    },
    {
      "entropy": 1.0250558149069549,
      "epoch": 0.6359695755295657,
      "grad_norm": 0.46418026089668274,
      "learning_rate": 7.286050772049203e-06,
      "loss": 0.9982,
      "mean_token_accuracy": 0.7344914440065622,
      "num_tokens": 18945688.0,
      "step": 2430
    },
    {
      "entropy": 1.1069321628659963,
      "epoch": 0.6372781549030834,
      "grad_norm": 0.45496806502342224,
      "learning_rate": 7.259879612666841e-06,
      "loss": 1.016,
      "mean_token_accuracy": 0.7186556220054626,
      "num_tokens": 18982398.0,
      "step": 2435
    },
    {
      "entropy": 1.0202362570911645,
      "epoch": 0.638586734276601,
      "grad_norm": 0.46681129932403564,
      "learning_rate": 7.233708453284481e-06,
      "loss": 1.0134,
      "mean_token_accuracy": 0.7437549475580454,
      "num_tokens": 19022263.0,
      "step": 2440
    },
    {
      "entropy": 1.026650892943144,
      "epoch": 0.6398953136501185,
      "grad_norm": 0.2987666428089142,
      "learning_rate": 7.20753729390212e-06,
      "loss": 0.9835,
      "mean_token_accuracy": 0.7353227615356446,
      "num_tokens": 19065353.0,
      "step": 2445
    },
    {
      "entropy": 1.0794596791267395,
      "epoch": 0.6412038930236362,
      "grad_norm": 0.6045072674751282,
      "learning_rate": 7.1813661345197595e-06,
      "loss": 1.0901,
      "mean_token_accuracy": 0.7167344830930233,
      "num_tokens": 19106128.0,
      "step": 2450
    },
    {
      "entropy": 1.1413863252848386,
      "epoch": 0.6425124723971538,
      "grad_norm": 0.408202588558197,
      "learning_rate": 7.1551949751373995e-06,
      "loss": 1.07,
      "mean_token_accuracy": 0.709665472060442,
      "num_tokens": 19144518.0,
      "step": 2455
    },
    {
      "entropy": 1.018723826110363,
      "epoch": 0.6438210517706715,
      "grad_norm": 0.7658793330192566,
      "learning_rate": 7.129023815755039e-06,
      "loss": 1.0139,
      "mean_token_accuracy": 0.7404938109219075,
      "num_tokens": 19186225.0,
      "step": 2460
    },
    {
      "entropy": 1.035357365384698,
      "epoch": 0.6451296311441891,
      "grad_norm": 0.27525585889816284,
      "learning_rate": 7.102852656372677e-06,
      "loss": 0.9998,
      "mean_token_accuracy": 0.7318320117890835,
      "num_tokens": 19227399.0,
      "step": 2465
    },
    {
      "entropy": 0.9564740158617496,
      "epoch": 0.6464382105177067,
      "grad_norm": 0.4672304093837738,
      "learning_rate": 7.076681496990317e-06,
      "loss": 0.9195,
      "mean_token_accuracy": 0.7519853860139847,
      "num_tokens": 19267194.0,
      "step": 2470
    },
    {
      "entropy": 1.0981974124908447,
      "epoch": 0.6477467898912244,
      "grad_norm": 0.5112661719322205,
      "learning_rate": 7.050510337607956e-06,
      "loss": 1.0416,
      "mean_token_accuracy": 0.7168846629559994,
      "num_tokens": 19303499.0,
      "step": 2475
    },
    {
      "entropy": 1.1099361848086118,
      "epoch": 0.6490553692647419,
      "grad_norm": 0.6969805359840393,
      "learning_rate": 7.0243391782255965e-06,
      "loss": 1.0715,
      "mean_token_accuracy": 0.7152190506458282,
      "num_tokens": 19341950.0,
      "step": 2480
    },
    {
      "entropy": 1.0465524211525916,
      "epoch": 0.6503639486382596,
      "grad_norm": 0.26998811960220337,
      "learning_rate": 6.998168018843236e-06,
      "loss": 1.0512,
      "mean_token_accuracy": 0.7323187306523323,
      "num_tokens": 19386737.0,
      "step": 2485
    },
    {
      "entropy": 0.9889295142143965,
      "epoch": 0.6516725280117772,
      "grad_norm": 0.38220036029815674,
      "learning_rate": 6.971996859460874e-06,
      "loss": 0.9593,
      "mean_token_accuracy": 0.7394830010831356,
      "num_tokens": 19428001.0,
      "step": 2490
    },
    {
      "entropy": 1.0677450440824032,
      "epoch": 0.6529811073852948,
      "grad_norm": 0.4677034914493561,
      "learning_rate": 6.945825700078514e-06,
      "loss": 0.9954,
      "mean_token_accuracy": 0.7268911335617304,
      "num_tokens": 19465393.0,
      "step": 2495
    },
    {
      "entropy": 1.049769724905491,
      "epoch": 0.6542896867588125,
      "grad_norm": 0.6634142398834229,
      "learning_rate": 6.919654540696153e-06,
      "loss": 1.039,
      "mean_token_accuracy": 0.7285342015326023,
      "num_tokens": 19501464.0,
      "step": 2500
    },
    {
      "epoch": 0.6542896867588125,
      "eval_entropy": 1.035133779525757,
      "eval_loss": 1.0362484455108643,
      "eval_mean_token_accuracy": 0.7291943707466125,
      "eval_num_tokens": 19501464.0,
      "eval_runtime": 97.1896,
      "eval_samples_per_second": 10.289,
      "eval_steps_per_second": 1.286,
      "step": 2500
    },
    {
      "entropy": 1.0178256921470166,
      "epoch": 0.6555982661323301,
      "grad_norm": 0.3480639159679413,
      "learning_rate": 6.8934833813137926e-06,
      "loss": 0.9423,
      "mean_token_accuracy": 0.7350625194609165,
      "num_tokens": 19541127.0,
      "step": 2505
    },
    {
      "entropy": 1.1573872964829206,
      "epoch": 0.6569068455058478,
      "grad_norm": 0.3416019678115845,
      "learning_rate": 6.867312221931433e-06,
      "loss": 1.1634,
      "mean_token_accuracy": 0.7034627720713615,
      "num_tokens": 19577837.0,
      "step": 2510
    },
    {
      "entropy": 1.08112654350698,
      "epoch": 0.6582154248793654,
      "grad_norm": 0.5420477390289307,
      "learning_rate": 6.841141062549072e-06,
      "loss": 1.016,
      "mean_token_accuracy": 0.7271684132516384,
      "num_tokens": 19608622.0,
      "step": 2515
    },
    {
      "entropy": 0.9906784903258086,
      "epoch": 0.6595240042528829,
      "grad_norm": 0.46363091468811035,
      "learning_rate": 6.81496990316671e-06,
      "loss": 0.9497,
      "mean_token_accuracy": 0.7543116796761751,
      "num_tokens": 19643843.0,
      "step": 2520
    },
    {
      "entropy": 1.001466591656208,
      "epoch": 0.6608325836264006,
      "grad_norm": 0.37773942947387695,
      "learning_rate": 6.78879874378435e-06,
      "loss": 0.9092,
      "mean_token_accuracy": 0.7434275582432747,
      "num_tokens": 19681055.0,
      "step": 2525
    },
    {
      "entropy": 1.1146674454212189,
      "epoch": 0.6621411629999182,
      "grad_norm": 0.33123865723609924,
      "learning_rate": 6.7626275844019895e-06,
      "loss": 1.1595,
      "mean_token_accuracy": 0.721651129052043,
      "num_tokens": 19722916.0,
      "step": 2530
    },
    {
      "entropy": 1.0137363068759442,
      "epoch": 0.6634497423734358,
      "grad_norm": 0.2801375091075897,
      "learning_rate": 6.736456425019629e-06,
      "loss": 1.0089,
      "mean_token_accuracy": 0.7334360480308533,
      "num_tokens": 19764966.0,
      "step": 2535
    },
    {
      "entropy": 1.0639188002794981,
      "epoch": 0.6647583217469535,
      "grad_norm": 0.3247496485710144,
      "learning_rate": 6.710285265637269e-06,
      "loss": 1.0763,
      "mean_token_accuracy": 0.7175609428435564,
      "num_tokens": 19804025.0,
      "step": 2540
    },
    {
      "entropy": 1.1048081483691932,
      "epoch": 0.6660669011204711,
      "grad_norm": 0.4086282551288605,
      "learning_rate": 6.684114106254907e-06,
      "loss": 1.1058,
      "mean_token_accuracy": 0.7259872317314148,
      "num_tokens": 19843774.0,
      "step": 2545
    },
    {
      "entropy": 1.1255848862230777,
      "epoch": 0.6673754804939888,
      "grad_norm": 0.44439879059791565,
      "learning_rate": 6.657942946872546e-06,
      "loss": 1.0964,
      "mean_token_accuracy": 0.7162352904677391,
      "num_tokens": 19881825.0,
      "step": 2550
    },
    {
      "entropy": 1.1439194109290838,
      "epoch": 0.6686840598675063,
      "grad_norm": 0.29299938678741455,
      "learning_rate": 6.6317717874901865e-06,
      "loss": 1.1223,
      "mean_token_accuracy": 0.7133913572877646,
      "num_tokens": 19921618.0,
      "step": 2555
    },
    {
      "entropy": 1.029699081927538,
      "epoch": 0.6699926392410239,
      "grad_norm": 0.40280821919441223,
      "learning_rate": 6.605600628107826e-06,
      "loss": 0.9621,
      "mean_token_accuracy": 0.7391855999827385,
      "num_tokens": 19960586.0,
      "step": 2560
    },
    {
      "entropy": 1.003632688894868,
      "epoch": 0.6713012186145416,
      "grad_norm": 0.2862677276134491,
      "learning_rate": 6.579429468725466e-06,
      "loss": 0.9738,
      "mean_token_accuracy": 0.7375729866325855,
      "num_tokens": 20000547.0,
      "step": 2565
    },
    {
      "entropy": 1.1057576406747103,
      "epoch": 0.6726097979880592,
      "grad_norm": 0.28728872537612915,
      "learning_rate": 6.553258309343105e-06,
      "loss": 1.0678,
      "mean_token_accuracy": 0.7252844780683517,
      "num_tokens": 20045934.0,
      "step": 2570
    },
    {
      "entropy": 1.0278929378837347,
      "epoch": 0.6739183773615769,
      "grad_norm": 0.3557819724082947,
      "learning_rate": 6.527087149960743e-06,
      "loss": 0.9804,
      "mean_token_accuracy": 0.7362292345613242,
      "num_tokens": 20088247.0,
      "step": 2575
    },
    {
      "entropy": 1.0297599412500857,
      "epoch": 0.6752269567350945,
      "grad_norm": 0.3730546534061432,
      "learning_rate": 6.500915990578383e-06,
      "loss": 1.0108,
      "mean_token_accuracy": 0.7349158681929111,
      "num_tokens": 20130988.0,
      "step": 2580
    },
    {
      "entropy": 1.0113672140985728,
      "epoch": 0.6765355361086121,
      "grad_norm": 0.3825022876262665,
      "learning_rate": 6.474744831196023e-06,
      "loss": 0.9893,
      "mean_token_accuracy": 0.7319887422025204,
      "num_tokens": 20169034.0,
      "step": 2585
    },
    {
      "entropy": 1.1008230350911616,
      "epoch": 0.6778441154821297,
      "grad_norm": 0.5840580463409424,
      "learning_rate": 6.448573671813662e-06,
      "loss": 1.0848,
      "mean_token_accuracy": 0.716325681656599,
      "num_tokens": 20206269.0,
      "step": 2590
    },
    {
      "entropy": 1.0766204059123994,
      "epoch": 0.6791526948556473,
      "grad_norm": 0.4373389482498169,
      "learning_rate": 6.422402512431302e-06,
      "loss": 1.0217,
      "mean_token_accuracy": 0.7277089573442936,
      "num_tokens": 20241866.0,
      "step": 2595
    },
    {
      "entropy": 1.0236305307596922,
      "epoch": 0.6804612742291649,
      "grad_norm": 0.6429861783981323,
      "learning_rate": 6.39623135304894e-06,
      "loss": 0.9714,
      "mean_token_accuracy": 0.7359235771000385,
      "num_tokens": 20279405.0,
      "step": 2600
    },
    {
      "epoch": 0.6804612742291649,
      "eval_entropy": 1.0339577412605285,
      "eval_loss": 1.03507399559021,
      "eval_mean_token_accuracy": 0.7294820728302002,
      "eval_num_tokens": 20279405.0,
      "eval_runtime": 97.2889,
      "eval_samples_per_second": 10.279,
      "eval_steps_per_second": 1.285,
      "step": 2600
    },
    {
      "entropy": 1.1064529620110988,
      "epoch": 0.6817698536026826,
      "grad_norm": 0.6711133718490601,
      "learning_rate": 6.3700601936665795e-06,
      "loss": 1.0578,
      "mean_token_accuracy": 0.7143168658018112,
      "num_tokens": 20318358.0,
      "step": 2605
    },
    {
      "entropy": 1.0551523761823773,
      "epoch": 0.6830784329762002,
      "grad_norm": 0.6876797080039978,
      "learning_rate": 6.3438890342842196e-06,
      "loss": 1.0351,
      "mean_token_accuracy": 0.7304907165467739,
      "num_tokens": 20355919.0,
      "step": 2610
    },
    {
      "entropy": 1.0216753158718348,
      "epoch": 0.6843870123497179,
      "grad_norm": 0.43939870595932007,
      "learning_rate": 6.317717874901859e-06,
      "loss": 0.9788,
      "mean_token_accuracy": 0.7326975151896477,
      "num_tokens": 20395739.0,
      "step": 2615
    },
    {
      "entropy": 1.0042755860835313,
      "epoch": 0.6856955917232355,
      "grad_norm": 0.45771950483322144,
      "learning_rate": 6.291546715519498e-06,
      "loss": 1.0214,
      "mean_token_accuracy": 0.7377393446862698,
      "num_tokens": 20439063.0,
      "step": 2620
    },
    {
      "entropy": 1.08444495908916,
      "epoch": 0.687004171096753,
      "grad_norm": 0.328112930059433,
      "learning_rate": 6.265375556137138e-06,
      "loss": 1.0578,
      "mean_token_accuracy": 0.7258397076278925,
      "num_tokens": 20480446.0,
      "step": 2625
    },
    {
      "entropy": 1.053849907964468,
      "epoch": 0.6883127504702707,
      "grad_norm": 0.4496280550956726,
      "learning_rate": 6.2392043967547764e-06,
      "loss": 1.0282,
      "mean_token_accuracy": 0.7329249262809754,
      "num_tokens": 20519257.0,
      "step": 2630
    },
    {
      "entropy": 1.0985306035727262,
      "epoch": 0.6896213298437883,
      "grad_norm": 0.43236038088798523,
      "learning_rate": 6.213033237372416e-06,
      "loss": 1.0809,
      "mean_token_accuracy": 0.7229348205029964,
      "num_tokens": 20560703.0,
      "step": 2635
    },
    {
      "entropy": 1.039340978488326,
      "epoch": 0.690929909217306,
      "grad_norm": 0.592126727104187,
      "learning_rate": 6.186862077990056e-06,
      "loss": 0.9885,
      "mean_token_accuracy": 0.7413885131478309,
      "num_tokens": 20602363.0,
      "step": 2640
    },
    {
      "entropy": 1.040134682506323,
      "epoch": 0.6922384885908236,
      "grad_norm": 0.5198757648468018,
      "learning_rate": 6.160690918607695e-06,
      "loss": 1.0226,
      "mean_token_accuracy": 0.7368385374546051,
      "num_tokens": 20639437.0,
      "step": 2645
    },
    {
      "entropy": 1.1080417584627866,
      "epoch": 0.6935470679643412,
      "grad_norm": 0.2894703149795532,
      "learning_rate": 6.134519759225335e-06,
      "loss": 1.1345,
      "mean_token_accuracy": 0.7155061598867178,
      "num_tokens": 20680275.0,
      "step": 2650
    },
    {
      "entropy": 1.0198019824922084,
      "epoch": 0.6948556473378589,
      "grad_norm": 0.3462557792663574,
      "learning_rate": 6.108348599842973e-06,
      "loss": 1.0143,
      "mean_token_accuracy": 0.7402982845902443,
      "num_tokens": 20718417.0,
      "step": 2655
    },
    {
      "entropy": 1.0144409965723753,
      "epoch": 0.6961642267113765,
      "grad_norm": 0.3350953757762909,
      "learning_rate": 6.082177440460613e-06,
      "loss": 0.9838,
      "mean_token_accuracy": 0.7343977279961109,
      "num_tokens": 20762227.0,
      "step": 2660
    },
    {
      "entropy": 1.0715901810675859,
      "epoch": 0.697472806084894,
      "grad_norm": 0.6075988411903381,
      "learning_rate": 6.056006281078253e-06,
      "loss": 1.0055,
      "mean_token_accuracy": 0.7305215656757355,
      "num_tokens": 20798122.0,
      "step": 2665
    },
    {
      "entropy": 1.1007160846143962,
      "epoch": 0.6987813854584117,
      "grad_norm": 0.4501047134399414,
      "learning_rate": 6.029835121695892e-06,
      "loss": 1.058,
      "mean_token_accuracy": 0.7208323903381825,
      "num_tokens": 20834210.0,
      "step": 2670
    },
    {
      "entropy": 1.0522528853267432,
      "epoch": 0.7000899648319293,
      "grad_norm": 0.36250752210617065,
      "learning_rate": 6.00366396231353e-06,
      "loss": 0.9972,
      "mean_token_accuracy": 0.7273079171776772,
      "num_tokens": 20872418.0,
      "step": 2675
    },
    {
      "entropy": 1.054316360130906,
      "epoch": 0.701398544205447,
      "grad_norm": 0.3319310247898102,
      "learning_rate": 5.977492802931171e-06,
      "loss": 1.0515,
      "mean_token_accuracy": 0.7271708060055971,
      "num_tokens": 20911504.0,
      "step": 2680
    },
    {
      "entropy": 1.0553948923945426,
      "epoch": 0.7027071235789646,
      "grad_norm": 0.46403029561042786,
      "learning_rate": 5.9513216435488095e-06,
      "loss": 1.0058,
      "mean_token_accuracy": 0.733677176013589,
      "num_tokens": 20947438.0,
      "step": 2685
    },
    {
      "entropy": 1.135214940458536,
      "epoch": 0.7040157029524822,
      "grad_norm": 0.2997356355190277,
      "learning_rate": 5.925150484166449e-06,
      "loss": 1.0205,
      "mean_token_accuracy": 0.7149875804781913,
      "num_tokens": 20984843.0,
      "step": 2690
    },
    {
      "entropy": 1.067294117808342,
      "epoch": 0.7053242823259999,
      "grad_norm": 0.7109698057174683,
      "learning_rate": 5.898979324784089e-06,
      "loss": 1.0424,
      "mean_token_accuracy": 0.7298292949795723,
      "num_tokens": 21024317.0,
      "step": 2695
    },
    {
      "entropy": 1.0000967428088188,
      "epoch": 0.7066328616995174,
      "grad_norm": 0.4540089964866638,
      "learning_rate": 5.872808165401728e-06,
      "loss": 1.0007,
      "mean_token_accuracy": 0.734975878149271,
      "num_tokens": 21064116.0,
      "step": 2700
    },
    {
      "epoch": 0.7066328616995174,
      "eval_entropy": 1.033733127117157,
      "eval_loss": 1.0336334705352783,
      "eval_mean_token_accuracy": 0.7298680348396301,
      "eval_num_tokens": 21064116.0,
      "eval_runtime": 97.2545,
      "eval_samples_per_second": 10.282,
      "eval_steps_per_second": 1.285,
      "step": 2700
    },
    {
      "entropy": 1.0902955643832684,
      "epoch": 0.7079414410730351,
      "grad_norm": 0.4074270725250244,
      "learning_rate": 5.846637006019366e-06,
      "loss": 1.103,
      "mean_token_accuracy": 0.7196738637983799,
      "num_tokens": 21106096.0,
      "step": 2705
    },
    {
      "entropy": 0.9893661700189114,
      "epoch": 0.7092500204465527,
      "grad_norm": 0.43556877970695496,
      "learning_rate": 5.8204658466370065e-06,
      "loss": 0.9469,
      "mean_token_accuracy": 0.7477334760129452,
      "num_tokens": 21143151.0,
      "step": 2710
    },
    {
      "entropy": 1.0833146207034587,
      "epoch": 0.7105585998200703,
      "grad_norm": 0.6449909806251526,
      "learning_rate": 5.794294687254646e-06,
      "loss": 1.0748,
      "mean_token_accuracy": 0.7204306960105896,
      "num_tokens": 21179840.0,
      "step": 2715
    },
    {
      "entropy": 1.0693892493844033,
      "epoch": 0.711867179193588,
      "grad_norm": 0.2570124864578247,
      "learning_rate": 5.768123527872285e-06,
      "loss": 1.0456,
      "mean_token_accuracy": 0.722801336273551,
      "num_tokens": 21217194.0,
      "step": 2720
    },
    {
      "entropy": 1.0765843842178584,
      "epoch": 0.7131757585671056,
      "grad_norm": 0.5316287279129028,
      "learning_rate": 5.741952368489925e-06,
      "loss": 1.0263,
      "mean_token_accuracy": 0.7246413186192513,
      "num_tokens": 21251605.0,
      "step": 2725
    },
    {
      "entropy": 1.0620105125010013,
      "epoch": 0.7144843379406232,
      "grad_norm": 0.3342624306678772,
      "learning_rate": 5.715781209107563e-06,
      "loss": 1.0065,
      "mean_token_accuracy": 0.7301050588488579,
      "num_tokens": 21294871.0,
      "step": 2730
    },
    {
      "entropy": 1.0648996368050576,
      "epoch": 0.7157929173141409,
      "grad_norm": 0.5223391056060791,
      "learning_rate": 5.689610049725203e-06,
      "loss": 1.0258,
      "mean_token_accuracy": 0.7259559325873852,
      "num_tokens": 21326670.0,
      "step": 2735
    },
    {
      "entropy": 1.0742478474974633,
      "epoch": 0.7171014966876584,
      "grad_norm": 0.5522735118865967,
      "learning_rate": 5.663438890342843e-06,
      "loss": 1.0703,
      "mean_token_accuracy": 0.7225585378706455,
      "num_tokens": 21367325.0,
      "step": 2740
    },
    {
      "entropy": 0.9710161112248897,
      "epoch": 0.7184100760611761,
      "grad_norm": 0.33066603541374207,
      "learning_rate": 5.637267730960482e-06,
      "loss": 0.9442,
      "mean_token_accuracy": 0.7384205959737301,
      "num_tokens": 21408334.0,
      "step": 2745
    },
    {
      "entropy": 1.0664944287389517,
      "epoch": 0.7197186554346937,
      "grad_norm": 0.4889247417449951,
      "learning_rate": 5.611096571578122e-06,
      "loss": 1.112,
      "mean_token_accuracy": 0.7264700572937727,
      "num_tokens": 21449839.0,
      "step": 2750
    },
    {
      "entropy": 1.0030995801091194,
      "epoch": 0.7210272348082113,
      "grad_norm": 0.3732108771800995,
      "learning_rate": 5.584925412195761e-06,
      "loss": 0.9111,
      "mean_token_accuracy": 0.7403148956596851,
      "num_tokens": 21487742.0,
      "step": 2755
    },
    {
      "entropy": 1.0033697545528413,
      "epoch": 0.722335814181729,
      "grad_norm": 0.43490299582481384,
      "learning_rate": 5.5587542528133995e-06,
      "loss": 0.9582,
      "mean_token_accuracy": 0.7397238194942475,
      "num_tokens": 21526844.0,
      "step": 2760
    },
    {
      "entropy": 1.1253223221749067,
      "epoch": 0.7236443935552466,
      "grad_norm": 0.46164193749427795,
      "learning_rate": 5.5325830934310396e-06,
      "loss": 1.1347,
      "mean_token_accuracy": 0.7200637456029654,
      "num_tokens": 21568539.0,
      "step": 2765
    },
    {
      "entropy": 1.0714545018970967,
      "epoch": 0.7249529729287643,
      "grad_norm": 0.39674556255340576,
      "learning_rate": 5.506411934048679e-06,
      "loss": 1.0253,
      "mean_token_accuracy": 0.7276010327041149,
      "num_tokens": 21603326.0,
      "step": 2770
    },
    {
      "entropy": 1.06046348772943,
      "epoch": 0.7262615523022818,
      "grad_norm": 0.4999883770942688,
      "learning_rate": 5.480240774666318e-06,
      "loss": 1.0495,
      "mean_token_accuracy": 0.7262998007237911,
      "num_tokens": 21642529.0,
      "step": 2775
    },
    {
      "entropy": 1.0288800846785306,
      "epoch": 0.7275701316757994,
      "grad_norm": 0.45190781354904175,
      "learning_rate": 5.454069615283958e-06,
      "loss": 1.0062,
      "mean_token_accuracy": 0.7358099550008774,
      "num_tokens": 21675950.0,
      "step": 2780
    },
    {
      "entropy": 1.064651170000434,
      "epoch": 0.7288787110493171,
      "grad_norm": 0.6091992259025574,
      "learning_rate": 5.4278984559015964e-06,
      "loss": 1.0302,
      "mean_token_accuracy": 0.7322472549974919,
      "num_tokens": 21712389.0,
      "step": 2785
    },
    {
      "entropy": 1.067555221542716,
      "epoch": 0.7301872904228347,
      "grad_norm": 0.3587604761123657,
      "learning_rate": 5.401727296519236e-06,
      "loss": 1.0269,
      "mean_token_accuracy": 0.7269019264727831,
      "num_tokens": 21750233.0,
      "step": 2790
    },
    {
      "entropy": 1.0527180466800927,
      "epoch": 0.7314958697963523,
      "grad_norm": 0.6426623463630676,
      "learning_rate": 5.375556137136876e-06,
      "loss": 1.045,
      "mean_token_accuracy": 0.7300838761031627,
      "num_tokens": 21788770.0,
      "step": 2795
    },
    {
      "entropy": 1.115583229251206,
      "epoch": 0.73280444916987,
      "grad_norm": 0.5922237634658813,
      "learning_rate": 5.349384977754515e-06,
      "loss": 1.0523,
      "mean_token_accuracy": 0.7175281938165426,
      "num_tokens": 21826397.0,
      "step": 2800
    },
    {
      "epoch": 0.73280444916987,
      "eval_entropy": 1.0408368062973024,
      "eval_loss": 1.0325729846954346,
      "eval_mean_token_accuracy": 0.73026052236557,
      "eval_num_tokens": 21826397.0,
      "eval_runtime": 97.1897,
      "eval_samples_per_second": 10.289,
      "eval_steps_per_second": 1.286,
      "step": 2800
    },
    {
      "entropy": 1.1054367668926717,
      "epoch": 0.7341130285433876,
      "grad_norm": 0.5465598106384277,
      "learning_rate": 5.323213818372154e-06,
      "loss": 1.08,
      "mean_token_accuracy": 0.720421589165926,
      "num_tokens": 21863424.0,
      "step": 2805
    },
    {
      "entropy": 1.1147074215114117,
      "epoch": 0.7354216079169053,
      "grad_norm": 0.4170718193054199,
      "learning_rate": 5.297042658989794e-06,
      "loss": 1.0508,
      "mean_token_accuracy": 0.7232054278254509,
      "num_tokens": 21900462.0,
      "step": 2810
    },
    {
      "entropy": 1.0979057766497136,
      "epoch": 0.7367301872904228,
      "grad_norm": 0.4706130027770996,
      "learning_rate": 5.270871499607433e-06,
      "loss": 1.0168,
      "mean_token_accuracy": 0.719353062659502,
      "num_tokens": 21933354.0,
      "step": 2815
    },
    {
      "entropy": 0.9744918283075095,
      "epoch": 0.7380387666639404,
      "grad_norm": 0.5279991626739502,
      "learning_rate": 5.244700340225073e-06,
      "loss": 0.9217,
      "mean_token_accuracy": 0.7506507318466902,
      "num_tokens": 21970100.0,
      "step": 2820
    },
    {
      "entropy": 1.0728078037500381,
      "epoch": 0.7393473460374581,
      "grad_norm": 0.5053285956382751,
      "learning_rate": 5.218529180842712e-06,
      "loss": 1.0283,
      "mean_token_accuracy": 0.7311844080686569,
      "num_tokens": 22004093.0,
      "step": 2825
    },
    {
      "entropy": 1.0765360169112683,
      "epoch": 0.7406559254109757,
      "grad_norm": 0.36004361510276794,
      "learning_rate": 5.192358021460351e-06,
      "loss": 1.0092,
      "mean_token_accuracy": 0.7210248097777366,
      "num_tokens": 22045336.0,
      "step": 2830
    },
    {
      "entropy": 1.017987198382616,
      "epoch": 0.7419645047844934,
      "grad_norm": 0.36846044659614563,
      "learning_rate": 5.166186862077991e-06,
      "loss": 0.9839,
      "mean_token_accuracy": 0.7387872941792011,
      "num_tokens": 22086534.0,
      "step": 2835
    },
    {
      "entropy": 1.0489673603326082,
      "epoch": 0.743273084158011,
      "grad_norm": 0.46179378032684326,
      "learning_rate": 5.1400157026956295e-06,
      "loss": 0.9415,
      "mean_token_accuracy": 0.7353867895901203,
      "num_tokens": 22121230.0,
      "step": 2840
    },
    {
      "entropy": 1.1243290316313506,
      "epoch": 0.7445816635315285,
      "grad_norm": 0.5417360663414001,
      "learning_rate": 5.113844543313269e-06,
      "loss": 1.0578,
      "mean_token_accuracy": 0.7204208463430405,
      "num_tokens": 22159032.0,
      "step": 2845
    },
    {
      "entropy": 1.0939917907118797,
      "epoch": 0.7458902429050462,
      "grad_norm": 0.48897913098335266,
      "learning_rate": 5.087673383930909e-06,
      "loss": 1.0063,
      "mean_token_accuracy": 0.7165301315486431,
      "num_tokens": 22196955.0,
      "step": 2850
    },
    {
      "entropy": 1.0858067644760012,
      "epoch": 0.7471988222785638,
      "grad_norm": 0.5564597845077515,
      "learning_rate": 5.061502224548548e-06,
      "loss": 1.0764,
      "mean_token_accuracy": 0.7208572022616864,
      "num_tokens": 22234201.0,
      "step": 2855
    },
    {
      "entropy": 1.0590477578341961,
      "epoch": 0.7485074016520814,
      "grad_norm": 0.3768922686576843,
      "learning_rate": 5.035331065166187e-06,
      "loss": 0.9812,
      "mean_token_accuracy": 0.7291722763329744,
      "num_tokens": 22272779.0,
      "step": 2860
    },
    {
      "entropy": 1.1251448437571525,
      "epoch": 0.7498159810255991,
      "grad_norm": 0.3560837507247925,
      "learning_rate": 5.009159905783827e-06,
      "loss": 1.0892,
      "mean_token_accuracy": 0.7106486916542053,
      "num_tokens": 22308851.0,
      "step": 2865
    },
    {
      "entropy": 1.119718360155821,
      "epoch": 0.7511245603991167,
      "grad_norm": 0.5380016565322876,
      "learning_rate": 4.982988746401466e-06,
      "loss": 1.0983,
      "mean_token_accuracy": 0.7206918202340603,
      "num_tokens": 22343884.0,
      "step": 2870
    },
    {
      "entropy": 1.0894725158810616,
      "epoch": 0.7524331397726344,
      "grad_norm": 0.3485453426837921,
      "learning_rate": 4.956817587019106e-06,
      "loss": 1.0491,
      "mean_token_accuracy": 0.7222230531275272,
      "num_tokens": 22384017.0,
      "step": 2875
    },
    {
      "entropy": 1.0093999858945608,
      "epoch": 0.753741719146152,
      "grad_norm": 0.4127729535102844,
      "learning_rate": 4.930646427636745e-06,
      "loss": 0.9502,
      "mean_token_accuracy": 0.7418296955525875,
      "num_tokens": 22418122.0,
      "step": 2880
    },
    {
      "entropy": 1.1371208924800158,
      "epoch": 0.7550502985196695,
      "grad_norm": 0.43648311495780945,
      "learning_rate": 4.904475268254384e-06,
      "loss": 1.1494,
      "mean_token_accuracy": 0.7121193654835224,
      "num_tokens": 22459009.0,
      "step": 2885
    },
    {
      "entropy": 1.0378689534962178,
      "epoch": 0.7563588778931872,
      "grad_norm": 0.44997143745422363,
      "learning_rate": 4.878304108872023e-06,
      "loss": 0.9618,
      "mean_token_accuracy": 0.7308846026659012,
      "num_tokens": 22493139.0,
      "step": 2890
    },
    {
      "entropy": 1.0220247332006693,
      "epoch": 0.7576674572667048,
      "grad_norm": 0.561329185962677,
      "learning_rate": 4.852132949489663e-06,
      "loss": 0.9283,
      "mean_token_accuracy": 0.7339823555201292,
      "num_tokens": 22529225.0,
      "step": 2895
    },
    {
      "entropy": 1.0556524885818361,
      "epoch": 0.7589760366402225,
      "grad_norm": 0.3141125738620758,
      "learning_rate": 4.825961790107302e-06,
      "loss": 1.0225,
      "mean_token_accuracy": 0.732053418457508,
      "num_tokens": 22565967.0,
      "step": 2900
    },
    {
      "epoch": 0.7589760366402225,
      "eval_entropy": 1.0340708026885985,
      "eval_loss": 1.0317820310592651,
      "eval_mean_token_accuracy": 0.7304344477653504,
      "eval_num_tokens": 22565967.0,
      "eval_runtime": 97.2034,
      "eval_samples_per_second": 10.288,
      "eval_steps_per_second": 1.286,
      "step": 2900
    },
    {
      "entropy": 1.0628287993371486,
      "epoch": 0.7602846160137401,
      "grad_norm": 0.5528143048286438,
      "learning_rate": 4.799790630724941e-06,
      "loss": 1.0052,
      "mean_token_accuracy": 0.7236215595155955,
      "num_tokens": 22605849.0,
      "step": 2905
    },
    {
      "entropy": 1.0544053295627236,
      "epoch": 0.7615931953872577,
      "grad_norm": 0.5025759339332581,
      "learning_rate": 4.773619471342581e-06,
      "loss": 0.995,
      "mean_token_accuracy": 0.7306290067732334,
      "num_tokens": 22647439.0,
      "step": 2910
    },
    {
      "entropy": 1.0855362933129071,
      "epoch": 0.7629017747607754,
      "grad_norm": 0.5423142910003662,
      "learning_rate": 4.74744831196022e-06,
      "loss": 1.0644,
      "mean_token_accuracy": 0.729085548222065,
      "num_tokens": 22686489.0,
      "step": 2915
    },
    {
      "entropy": 1.1064934462308884,
      "epoch": 0.764210354134293,
      "grad_norm": 0.324994295835495,
      "learning_rate": 4.7212771525778596e-06,
      "loss": 1.0572,
      "mean_token_accuracy": 0.7155943371355533,
      "num_tokens": 22729097.0,
      "step": 2920
    },
    {
      "entropy": 1.0514110021293164,
      "epoch": 0.7655189335078105,
      "grad_norm": 0.48154741525650024,
      "learning_rate": 4.695105993195499e-06,
      "loss": 0.9801,
      "mean_token_accuracy": 0.728981614857912,
      "num_tokens": 22767464.0,
      "step": 2925
    },
    {
      "entropy": 1.0362781658768654,
      "epoch": 0.7668275128813282,
      "grad_norm": 0.5839325189590454,
      "learning_rate": 4.668934833813139e-06,
      "loss": 0.9951,
      "mean_token_accuracy": 0.7349088959395885,
      "num_tokens": 22806605.0,
      "step": 2930
    },
    {
      "entropy": 1.0683909840881824,
      "epoch": 0.7681360922548458,
      "grad_norm": 0.37387317419052124,
      "learning_rate": 4.642763674430777e-06,
      "loss": 1.0933,
      "mean_token_accuracy": 0.7265824314206839,
      "num_tokens": 22844597.0,
      "step": 2935
    },
    {
      "entropy": 1.1125381592661143,
      "epoch": 0.7694446716283635,
      "grad_norm": 0.6262072324752808,
      "learning_rate": 4.616592515048417e-06,
      "loss": 1.0776,
      "mean_token_accuracy": 0.7169565990567207,
      "num_tokens": 22883020.0,
      "step": 2940
    },
    {
      "entropy": 1.1716872084885837,
      "epoch": 0.7707532510018811,
      "grad_norm": 0.4011521637439728,
      "learning_rate": 4.5904213556660565e-06,
      "loss": 1.1654,
      "mean_token_accuracy": 0.7077478947117924,
      "num_tokens": 22922580.0,
      "step": 2945
    },
    {
      "entropy": 1.0219284979626537,
      "epoch": 0.7720618303753987,
      "grad_norm": 0.6057654619216919,
      "learning_rate": 4.564250196283696e-06,
      "loss": 1.0102,
      "mean_token_accuracy": 0.7341908976435662,
      "num_tokens": 22961570.0,
      "step": 2950
    },
    {
      "entropy": 1.045608853548765,
      "epoch": 0.7733704097489164,
      "grad_norm": 0.5418355464935303,
      "learning_rate": 4.538079036901335e-06,
      "loss": 0.9675,
      "mean_token_accuracy": 0.731929623708129,
      "num_tokens": 22998884.0,
      "step": 2955
    },
    {
      "entropy": 1.1297316145151854,
      "epoch": 0.7746789891224339,
      "grad_norm": 0.469908207654953,
      "learning_rate": 4.511907877518974e-06,
      "loss": 1.1027,
      "mean_token_accuracy": 0.7112006828188896,
      "num_tokens": 23036097.0,
      "step": 2960
    },
    {
      "entropy": 1.0829615991562604,
      "epoch": 0.7759875684959516,
      "grad_norm": 0.42076605558395386,
      "learning_rate": 4.485736718136614e-06,
      "loss": 0.9541,
      "mean_token_accuracy": 0.7311103120446205,
      "num_tokens": 23071198.0,
      "step": 2965
    },
    {
      "entropy": 1.0218299932777881,
      "epoch": 0.7772961478694692,
      "grad_norm": 0.6354956030845642,
      "learning_rate": 4.459565558754253e-06,
      "loss": 0.94,
      "mean_token_accuracy": 0.7375240176916122,
      "num_tokens": 23105690.0,
      "step": 2970
    },
    {
      "entropy": 1.0296128673478961,
      "epoch": 0.7786047272429868,
      "grad_norm": 0.5609083771705627,
      "learning_rate": 4.433394399371893e-06,
      "loss": 0.9641,
      "mean_token_accuracy": 0.7355793751776218,
      "num_tokens": 23149341.0,
      "step": 2975
    },
    {
      "entropy": 1.0164244651794434,
      "epoch": 0.7799133066165045,
      "grad_norm": 0.4903509318828583,
      "learning_rate": 4.407223239989532e-06,
      "loss": 0.9678,
      "mean_token_accuracy": 0.7360415138304234,
      "num_tokens": 23184633.0,
      "step": 2980
    },
    {
      "entropy": 1.0966936625540256,
      "epoch": 0.7812218859900221,
      "grad_norm": 0.39143356680870056,
      "learning_rate": 4.381052080607171e-06,
      "loss": 1.0806,
      "mean_token_accuracy": 0.7219570934772491,
      "num_tokens": 23221750.0,
      "step": 2985
    },
    {
      "entropy": 1.042829731106758,
      "epoch": 0.7825304653635398,
      "grad_norm": 0.4407028257846832,
      "learning_rate": 4.35488092122481e-06,
      "loss": 1.0816,
      "mean_token_accuracy": 0.7296155303716659,
      "num_tokens": 23263629.0,
      "step": 2990
    },
    {
      "entropy": 1.067452398315072,
      "epoch": 0.7838390447370573,
      "grad_norm": 0.4685254991054535,
      "learning_rate": 4.32870976184245e-06,
      "loss": 1.0394,
      "mean_token_accuracy": 0.7196490127593279,
      "num_tokens": 23299548.0,
      "step": 2995
    },
    {
      "entropy": 1.0206131491810084,
      "epoch": 0.7851476241105749,
      "grad_norm": 0.4271470010280609,
      "learning_rate": 4.30253860246009e-06,
      "loss": 0.9486,
      "mean_token_accuracy": 0.7346534051001072,
      "num_tokens": 23340920.0,
      "step": 3000
    },
    {
      "epoch": 0.7851476241105749,
      "eval_entropy": 1.0305686144828796,
      "eval_loss": 1.03084135055542,
      "eval_mean_token_accuracy": 0.7306465420722962,
      "eval_num_tokens": 23340920.0,
      "eval_runtime": 97.1158,
      "eval_samples_per_second": 10.297,
      "eval_steps_per_second": 1.287,
      "step": 3000
    },
    {
      "entropy": 1.0277832087129355,
      "epoch": 0.7864562034840926,
      "grad_norm": 0.44500380754470825,
      "learning_rate": 4.276367443077729e-06,
      "loss": 0.987,
      "mean_token_accuracy": 0.7308167792856693,
      "num_tokens": 23381557.0,
      "step": 3005
    },
    {
      "entropy": 1.086503054201603,
      "epoch": 0.7877647828576102,
      "grad_norm": 0.3013031780719757,
      "learning_rate": 4.250196283695368e-06,
      "loss": 1.1165,
      "mean_token_accuracy": 0.721335730701685,
      "num_tokens": 23422282.0,
      "step": 3010
    },
    {
      "entropy": 1.1198953952640296,
      "epoch": 0.7890733622311278,
      "grad_norm": 0.5127637982368469,
      "learning_rate": 4.224025124313007e-06,
      "loss": 1.0667,
      "mean_token_accuracy": 0.716464214771986,
      "num_tokens": 23462818.0,
      "step": 3015
    },
    {
      "entropy": 1.0935983188450336,
      "epoch": 0.7903819416046455,
      "grad_norm": 0.7555818557739258,
      "learning_rate": 4.1978539649306465e-06,
      "loss": 1.0789,
      "mean_token_accuracy": 0.7195366825908422,
      "num_tokens": 23500331.0,
      "step": 3020
    },
    {
      "entropy": 1.092792271077633,
      "epoch": 0.7916905209781631,
      "grad_norm": 0.37865763902664185,
      "learning_rate": 4.171682805548286e-06,
      "loss": 1.0283,
      "mean_token_accuracy": 0.7241503912955523,
      "num_tokens": 23537976.0,
      "step": 3025
    },
    {
      "entropy": 1.0759663056582212,
      "epoch": 0.7929991003516808,
      "grad_norm": 0.5228607058525085,
      "learning_rate": 4.145511646165926e-06,
      "loss": 1.0736,
      "mean_token_accuracy": 0.7280153460800648,
      "num_tokens": 23581747.0,
      "step": 3030
    },
    {
      "entropy": 1.1236386895179749,
      "epoch": 0.7943076797251983,
      "grad_norm": 0.6752633452415466,
      "learning_rate": 4.119340486783565e-06,
      "loss": 1.0768,
      "mean_token_accuracy": 0.7147096544504166,
      "num_tokens": 23615855.0,
      "step": 3035
    },
    {
      "entropy": 1.1543139606714248,
      "epoch": 0.7956162590987159,
      "grad_norm": 0.402425616979599,
      "learning_rate": 4.093169327401204e-06,
      "loss": 1.1301,
      "mean_token_accuracy": 0.7124893587082625,
      "num_tokens": 23653681.0,
      "step": 3040
    },
    {
      "entropy": 1.1155839897692204,
      "epoch": 0.7969248384722336,
      "grad_norm": 0.3531131148338318,
      "learning_rate": 4.066998168018843e-06,
      "loss": 1.1011,
      "mean_token_accuracy": 0.7147599868476391,
      "num_tokens": 23691707.0,
      "step": 3045
    },
    {
      "entropy": 1.0141445618122815,
      "epoch": 0.7982334178457512,
      "grad_norm": 0.8314666152000427,
      "learning_rate": 4.0408270086364835e-06,
      "loss": 0.9637,
      "mean_token_accuracy": 0.7401646625250577,
      "num_tokens": 23731289.0,
      "step": 3050
    },
    {
      "entropy": 1.1060345830395817,
      "epoch": 0.7995419972192689,
      "grad_norm": 0.39150726795196533,
      "learning_rate": 4.014655849254122e-06,
      "loss": 1.1086,
      "mean_token_accuracy": 0.7131407152861357,
      "num_tokens": 23769110.0,
      "step": 3055
    },
    {
      "entropy": 1.1247680716216564,
      "epoch": 0.8008505765927865,
      "grad_norm": 0.393403023481369,
      "learning_rate": 3.988484689871762e-06,
      "loss": 1.0878,
      "mean_token_accuracy": 0.7203011158853769,
      "num_tokens": 23805247.0,
      "step": 3060
    },
    {
      "entropy": 1.0936600599437951,
      "epoch": 0.802159155966304,
      "grad_norm": 0.40403568744659424,
      "learning_rate": 3.962313530489401e-06,
      "loss": 1.0812,
      "mean_token_accuracy": 0.7204918511211872,
      "num_tokens": 23846787.0,
      "step": 3065
    },
    {
      "entropy": 1.1725836582481861,
      "epoch": 0.8034677353398217,
      "grad_norm": 0.4385111629962921,
      "learning_rate": 3.93614237110704e-06,
      "loss": 1.1878,
      "mean_token_accuracy": 0.7098725575953722,
      "num_tokens": 23884749.0,
      "step": 3070
    },
    {
      "entropy": 1.056993416696787,
      "epoch": 0.8047763147133393,
      "grad_norm": 0.4194464087486267,
      "learning_rate": 3.90997121172468e-06,
      "loss": 1.0316,
      "mean_token_accuracy": 0.7291632607579231,
      "num_tokens": 23925854.0,
      "step": 3075
    },
    {
      "entropy": 1.122009427472949,
      "epoch": 0.8060848940868569,
      "grad_norm": 0.34683725237846375,
      "learning_rate": 3.883800052342319e-06,
      "loss": 1.0402,
      "mean_token_accuracy": 0.7219870649278164,
      "num_tokens": 23965584.0,
      "step": 3080
    },
    {
      "entropy": 0.982495572976768,
      "epoch": 0.8073934734603746,
      "grad_norm": 0.7075260281562805,
      "learning_rate": 3.857628892959959e-06,
      "loss": 0.9437,
      "mean_token_accuracy": 0.750491987913847,
      "num_tokens": 24004600.0,
      "step": 3085
    },
    {
      "entropy": 1.0386792987585067,
      "epoch": 0.8087020528338922,
      "grad_norm": 0.3854619562625885,
      "learning_rate": 3.831457733577597e-06,
      "loss": 0.9687,
      "mean_token_accuracy": 0.7319545924663544,
      "num_tokens": 24039464.0,
      "step": 3090
    },
    {
      "entropy": 1.0844634655863046,
      "epoch": 0.8100106322074099,
      "grad_norm": 0.47892338037490845,
      "learning_rate": 3.8052865741952373e-06,
      "loss": 1.0465,
      "mean_token_accuracy": 0.7266070485115051,
      "num_tokens": 24076409.0,
      "step": 3095
    },
    {
      "entropy": 1.0820760104805232,
      "epoch": 0.8113192115809275,
      "grad_norm": 0.43651270866394043,
      "learning_rate": 3.7791154148128765e-06,
      "loss": 1.0007,
      "mean_token_accuracy": 0.7236479226499796,
      "num_tokens": 24118481.0,
      "step": 3100
    },
    {
      "epoch": 0.8113192115809275,
      "eval_entropy": 1.036030520915985,
      "eval_loss": 1.028921365737915,
      "eval_mean_token_accuracy": 0.7310774421691895,
      "eval_num_tokens": 24118481.0,
      "eval_runtime": 97.2385,
      "eval_samples_per_second": 10.284,
      "eval_steps_per_second": 1.285,
      "step": 3100
    },
    {
      "entropy": 1.1077489994466305,
      "epoch": 0.812627790954445,
      "grad_norm": 0.42022934556007385,
      "learning_rate": 3.7529442554305157e-06,
      "loss": 1.0661,
      "mean_token_accuracy": 0.7255024470388889,
      "num_tokens": 24158004.0,
      "step": 3105
    },
    {
      "entropy": 1.0772877372801304,
      "epoch": 0.8139363703279627,
      "grad_norm": 0.3519681990146637,
      "learning_rate": 3.7267730960481554e-06,
      "loss": 1.0428,
      "mean_token_accuracy": 0.7230064436793328,
      "num_tokens": 24194320.0,
      "step": 3110
    },
    {
      "entropy": 1.0549692034721374,
      "epoch": 0.8152449497014803,
      "grad_norm": 0.5634621381759644,
      "learning_rate": 3.7006019366657946e-06,
      "loss": 1.0893,
      "mean_token_accuracy": 0.7291611786931753,
      "num_tokens": 24233260.0,
      "step": 3115
    },
    {
      "entropy": 0.9838933110237121,
      "epoch": 0.816553529074998,
      "grad_norm": 0.3864845037460327,
      "learning_rate": 3.6744307772834342e-06,
      "loss": 0.9414,
      "mean_token_accuracy": 0.7454824268817901,
      "num_tokens": 24270814.0,
      "step": 3120
    },
    {
      "entropy": 1.0704244837164878,
      "epoch": 0.8178621084485156,
      "grad_norm": 0.5081256628036499,
      "learning_rate": 3.648259617901073e-06,
      "loss": 1.0257,
      "mean_token_accuracy": 0.723455361276865,
      "num_tokens": 24309235.0,
      "step": 3125
    },
    {
      "entropy": 1.022134768590331,
      "epoch": 0.8191706878220332,
      "grad_norm": 0.42314413189888,
      "learning_rate": 3.6220884585187127e-06,
      "loss": 0.9948,
      "mean_token_accuracy": 0.7342596560716629,
      "num_tokens": 24348724.0,
      "step": 3130
    },
    {
      "entropy": 1.0905879106372596,
      "epoch": 0.8204792671955509,
      "grad_norm": 0.30757448077201843,
      "learning_rate": 3.5959172991363523e-06,
      "loss": 1.0555,
      "mean_token_accuracy": 0.724842281267047,
      "num_tokens": 24388628.0,
      "step": 3135
    },
    {
      "entropy": 1.0407748512923718,
      "epoch": 0.8217878465690684,
      "grad_norm": 0.7021998167037964,
      "learning_rate": 3.569746139753991e-06,
      "loss": 0.9854,
      "mean_token_accuracy": 0.7305317636579275,
      "num_tokens": 24427341.0,
      "step": 3140
    },
    {
      "entropy": 1.1128646079450846,
      "epoch": 0.823096425942586,
      "grad_norm": 0.3260432779788971,
      "learning_rate": 3.5435749803716308e-06,
      "loss": 1.0951,
      "mean_token_accuracy": 0.712972067296505,
      "num_tokens": 24462200.0,
      "step": 3145
    },
    {
      "entropy": 1.1428508426994086,
      "epoch": 0.8244050053161037,
      "grad_norm": 0.37607815861701965,
      "learning_rate": 3.5174038209892704e-06,
      "loss": 1.1074,
      "mean_token_accuracy": 0.7139423068612814,
      "num_tokens": 24503955.0,
      "step": 3150
    },
    {
      "entropy": 1.0314291812479497,
      "epoch": 0.8257135846896213,
      "grad_norm": 0.5070587992668152,
      "learning_rate": 3.491232661606909e-06,
      "loss": 1.0294,
      "mean_token_accuracy": 0.7355128142982721,
      "num_tokens": 24543206.0,
      "step": 3155
    },
    {
      "entropy": 1.1036609571427107,
      "epoch": 0.827022164063139,
      "grad_norm": 0.41178247332572937,
      "learning_rate": 3.465061502224549e-06,
      "loss": 1.0937,
      "mean_token_accuracy": 0.7211760215461254,
      "num_tokens": 24579806.0,
      "step": 3160
    },
    {
      "entropy": 1.1116086110472678,
      "epoch": 0.8283307434366566,
      "grad_norm": 0.5788869857788086,
      "learning_rate": 3.438890342842188e-06,
      "loss": 1.0604,
      "mean_token_accuracy": 0.721147482842207,
      "num_tokens": 24616984.0,
      "step": 3165
    },
    {
      "entropy": 1.1319230053573848,
      "epoch": 0.8296393228101742,
      "grad_norm": 0.6010908484458923,
      "learning_rate": 3.4127191834598277e-06,
      "loss": 1.0807,
      "mean_token_accuracy": 0.7168502196669578,
      "num_tokens": 24654055.0,
      "step": 3170
    },
    {
      "entropy": 1.1207389827817678,
      "epoch": 0.8309479021836919,
      "grad_norm": 0.5787162780761719,
      "learning_rate": 3.386548024077467e-06,
      "loss": 1.0741,
      "mean_token_accuracy": 0.7188828401267529,
      "num_tokens": 24696566.0,
      "step": 3175
    },
    {
      "entropy": 1.0550225611776114,
      "epoch": 0.8322564815572094,
      "grad_norm": 0.4683392643928528,
      "learning_rate": 3.360376864695106e-06,
      "loss": 1.0378,
      "mean_token_accuracy": 0.7269921116530895,
      "num_tokens": 24735302.0,
      "step": 3180
    },
    {
      "entropy": 1.064477189257741,
      "epoch": 0.8335650609307271,
      "grad_norm": 0.43787601590156555,
      "learning_rate": 3.3342057053127458e-06,
      "loss": 1.029,
      "mean_token_accuracy": 0.7256352994590998,
      "num_tokens": 24777394.0,
      "step": 3185
    },
    {
      "entropy": 0.9952436108142138,
      "epoch": 0.8348736403042447,
      "grad_norm": 0.619921863079071,
      "learning_rate": 3.3080345459303846e-06,
      "loss": 0.9214,
      "mean_token_accuracy": 0.7489484068006277,
      "num_tokens": 24820138.0,
      "step": 3190
    },
    {
      "entropy": 1.0670820290222764,
      "epoch": 0.8361822196777623,
      "grad_norm": 0.4853121340274811,
      "learning_rate": 3.281863386548024e-06,
      "loss": 1.0733,
      "mean_token_accuracy": 0.7309010468423367,
      "num_tokens": 24857394.0,
      "step": 3195
    },
    {
      "entropy": 1.0793268527835607,
      "epoch": 0.83749079905128,
      "grad_norm": 0.3238151967525482,
      "learning_rate": 3.255692227165664e-06,
      "loss": 1.0963,
      "mean_token_accuracy": 0.7233440794050694,
      "num_tokens": 24894819.0,
      "step": 3200
    },
    {
      "epoch": 0.83749079905128,
      "eval_entropy": 1.0310797443389892,
      "eval_loss": 1.0281308889389038,
      "eval_mean_token_accuracy": 0.7311860795021057,
      "eval_num_tokens": 24894819.0,
      "eval_runtime": 97.2362,
      "eval_samples_per_second": 10.284,
      "eval_steps_per_second": 1.286,
      "step": 3200
    },
    {
      "entropy": 1.0457366950809956,
      "epoch": 0.8387993784247976,
      "grad_norm": 0.44579482078552246,
      "learning_rate": 3.2295210677833035e-06,
      "loss": 0.995,
      "mean_token_accuracy": 0.7295556962490082,
      "num_tokens": 24934467.0,
      "step": 3205
    },
    {
      "entropy": 1.0695260234177113,
      "epoch": 0.8401079577983152,
      "grad_norm": 0.4931753873825073,
      "learning_rate": 3.2033499084009423e-06,
      "loss": 1.0579,
      "mean_token_accuracy": 0.7268257789313793,
      "num_tokens": 24973181.0,
      "step": 3210
    },
    {
      "entropy": 1.0737264335155488,
      "epoch": 0.8414165371718328,
      "grad_norm": 0.542246401309967,
      "learning_rate": 3.177178749018582e-06,
      "loss": 1.044,
      "mean_token_accuracy": 0.7273680947721004,
      "num_tokens": 25008234.0,
      "step": 3215
    },
    {
      "entropy": 1.0925125159323215,
      "epoch": 0.8427251165453504,
      "grad_norm": 0.7821519374847412,
      "learning_rate": 3.151007589636221e-06,
      "loss": 1.0926,
      "mean_token_accuracy": 0.7236344940960407,
      "num_tokens": 25042804.0,
      "step": 3220
    },
    {
      "entropy": 1.0435322053730487,
      "epoch": 0.8440336959188681,
      "grad_norm": 0.5571607351303101,
      "learning_rate": 3.1248364302538604e-06,
      "loss": 1.0314,
      "mean_token_accuracy": 0.7397142663598061,
      "num_tokens": 25081713.0,
      "step": 3225
    },
    {
      "entropy": 1.0707201555371284,
      "epoch": 0.8453422752923857,
      "grad_norm": 0.46003878116607666,
      "learning_rate": 3.0986652708715e-06,
      "loss": 1.0396,
      "mean_token_accuracy": 0.7285445638000965,
      "num_tokens": 25115761.0,
      "step": 3230
    },
    {
      "entropy": 1.0421096246689558,
      "epoch": 0.8466508546659033,
      "grad_norm": 0.5213029980659485,
      "learning_rate": 3.0724941114891392e-06,
      "loss": 0.9743,
      "mean_token_accuracy": 0.729071582481265,
      "num_tokens": 25158298.0,
      "step": 3235
    },
    {
      "entropy": 0.9816816847771406,
      "epoch": 0.847959434039421,
      "grad_norm": 0.2949255704879761,
      "learning_rate": 3.0463229521067784e-06,
      "loss": 0.8791,
      "mean_token_accuracy": 0.7419180549681187,
      "num_tokens": 25195031.0,
      "step": 3240
    },
    {
      "entropy": 1.1069608356803655,
      "epoch": 0.8492680134129386,
      "grad_norm": 0.4634745121002197,
      "learning_rate": 3.0201517927244177e-06,
      "loss": 1.0572,
      "mean_token_accuracy": 0.7191666610538959,
      "num_tokens": 25233843.0,
      "step": 3245
    },
    {
      "entropy": 1.0450120318681002,
      "epoch": 0.8505765927864563,
      "grad_norm": 0.41588935256004333,
      "learning_rate": 2.9939806333420573e-06,
      "loss": 1.004,
      "mean_token_accuracy": 0.7298405677080154,
      "num_tokens": 25277199.0,
      "step": 3250
    },
    {
      "entropy": 1.0192270964384078,
      "epoch": 0.8518851721599738,
      "grad_norm": 0.3328169584274292,
      "learning_rate": 2.967809473959697e-06,
      "loss": 1.0314,
      "mean_token_accuracy": 0.7342530839145184,
      "num_tokens": 25313963.0,
      "step": 3255
    },
    {
      "entropy": 1.068826200440526,
      "epoch": 0.8531937515334914,
      "grad_norm": 0.4146538972854614,
      "learning_rate": 2.9416383145773357e-06,
      "loss": 1.0426,
      "mean_token_accuracy": 0.7297728694975376,
      "num_tokens": 25354460.0,
      "step": 3260
    },
    {
      "entropy": 1.0722479410469532,
      "epoch": 0.8545023309070091,
      "grad_norm": 0.41407662630081177,
      "learning_rate": 2.9154671551949754e-06,
      "loss": 1.038,
      "mean_token_accuracy": 0.7312197633087635,
      "num_tokens": 25391042.0,
      "step": 3265
    },
    {
      "entropy": 1.0916271772235633,
      "epoch": 0.8558109102805267,
      "grad_norm": 0.36934009194374084,
      "learning_rate": 2.889295995812615e-06,
      "loss": 1.1389,
      "mean_token_accuracy": 0.7267607122659683,
      "num_tokens": 25435161.0,
      "step": 3270
    },
    {
      "entropy": 1.051083530113101,
      "epoch": 0.8571194896540443,
      "grad_norm": 0.35780689120292664,
      "learning_rate": 2.863124836430254e-06,
      "loss": 1.0192,
      "mean_token_accuracy": 0.7258496068418026,
      "num_tokens": 25479291.0,
      "step": 3275
    },
    {
      "entropy": 1.0690735118463635,
      "epoch": 0.858428069027562,
      "grad_norm": 0.3563995659351349,
      "learning_rate": 2.8369536770478935e-06,
      "loss": 1.0232,
      "mean_token_accuracy": 0.7209200043231249,
      "num_tokens": 25518588.0,
      "step": 3280
    },
    {
      "entropy": 1.0599579058587552,
      "epoch": 0.8597366484010796,
      "grad_norm": 0.50145423412323,
      "learning_rate": 2.8107825176655327e-06,
      "loss": 1.0418,
      "mean_token_accuracy": 0.7253329046070576,
      "num_tokens": 25555559.0,
      "step": 3285
    },
    {
      "entropy": 1.0637880939990283,
      "epoch": 0.8610452277745972,
      "grad_norm": 0.32374799251556396,
      "learning_rate": 2.7846113582831723e-06,
      "loss": 1.0589,
      "mean_token_accuracy": 0.729487194865942,
      "num_tokens": 25599141.0,
      "step": 3290
    },
    {
      "entropy": 1.121987307816744,
      "epoch": 0.8623538071481148,
      "grad_norm": 0.7996993064880371,
      "learning_rate": 2.7584401989008115e-06,
      "loss": 1.1568,
      "mean_token_accuracy": 0.71376275382936,
      "num_tokens": 25635193.0,
      "step": 3295
    },
    {
      "entropy": 1.075880871899426,
      "epoch": 0.8636623865216324,
      "grad_norm": 0.3166949450969696,
      "learning_rate": 2.7322690395184508e-06,
      "loss": 1.0328,
      "mean_token_accuracy": 0.7281475432217122,
      "num_tokens": 25671967.0,
      "step": 3300
    },
    {
      "epoch": 0.8636623865216324,
      "eval_entropy": 1.0315785236358643,
      "eval_loss": 1.0274593830108643,
      "eval_mean_token_accuracy": 0.7313339967727661,
      "eval_num_tokens": 25671967.0,
      "eval_runtime": 97.2667,
      "eval_samples_per_second": 10.281,
      "eval_steps_per_second": 1.285,
      "step": 3300
    },
    {
      "entropy": 1.0423275344073772,
      "epoch": 0.8649709658951501,
      "grad_norm": 0.5029602646827698,
      "learning_rate": 2.7060978801360904e-06,
      "loss": 1.0144,
      "mean_token_accuracy": 0.7371830597519875,
      "num_tokens": 25714593.0,
      "step": 3305
    },
    {
      "entropy": 1.019960217177868,
      "epoch": 0.8662795452686677,
      "grad_norm": 0.3714219629764557,
      "learning_rate": 2.679926720753729e-06,
      "loss": 0.9591,
      "mean_token_accuracy": 0.7337398871779441,
      "num_tokens": 25753622.0,
      "step": 3310
    },
    {
      "entropy": 1.0438139468431473,
      "epoch": 0.8675881246421854,
      "grad_norm": 0.49829211831092834,
      "learning_rate": 2.653755561371369e-06,
      "loss": 1.0152,
      "mean_token_accuracy": 0.7405216414481401,
      "num_tokens": 25789764.0,
      "step": 3315
    },
    {
      "entropy": 1.0796325359493495,
      "epoch": 0.868896704015703,
      "grad_norm": 0.9016978144645691,
      "learning_rate": 2.6275844019890085e-06,
      "loss": 1.0369,
      "mean_token_accuracy": 0.7271438419818879,
      "num_tokens": 25827139.0,
      "step": 3320
    },
    {
      "entropy": 1.1373902840539813,
      "epoch": 0.8702052833892205,
      "grad_norm": 0.5277310609817505,
      "learning_rate": 2.601413242606648e-06,
      "loss": 1.1125,
      "mean_token_accuracy": 0.7127894099801779,
      "num_tokens": 25866714.0,
      "step": 3325
    },
    {
      "entropy": 1.0553706608712674,
      "epoch": 0.8715138627627382,
      "grad_norm": 0.39588603377342224,
      "learning_rate": 2.575242083224287e-06,
      "loss": 1.0219,
      "mean_token_accuracy": 0.7270961362868548,
      "num_tokens": 25909686.0,
      "step": 3330
    },
    {
      "entropy": 1.065532573312521,
      "epoch": 0.8728224421362558,
      "grad_norm": 0.5084222555160522,
      "learning_rate": 2.5490709238419266e-06,
      "loss": 1.0483,
      "mean_token_accuracy": 0.7294468872249127,
      "num_tokens": 25950054.0,
      "step": 3335
    },
    {
      "entropy": 1.0791085483506322,
      "epoch": 0.8741310215097734,
      "grad_norm": 0.5307091474533081,
      "learning_rate": 2.5228997644595658e-06,
      "loss": 1.0317,
      "mean_token_accuracy": 0.7308267526328563,
      "num_tokens": 25988785.0,
      "step": 3340
    },
    {
      "entropy": 1.0206924524158238,
      "epoch": 0.8754396008832911,
      "grad_norm": 0.44742336869239807,
      "learning_rate": 2.4967286050772054e-06,
      "loss": 0.9997,
      "mean_token_accuracy": 0.7365788772702218,
      "num_tokens": 26031548.0,
      "step": 3345
    },
    {
      "entropy": 1.072092866897583,
      "epoch": 0.8767481802568087,
      "grad_norm": 0.4204552471637726,
      "learning_rate": 2.4705574456948446e-06,
      "loss": 1.0516,
      "mean_token_accuracy": 0.7274888075888157,
      "num_tokens": 26073312.0,
      "step": 3350
    },
    {
      "entropy": 1.0556320391595364,
      "epoch": 0.8780567596303264,
      "grad_norm": 0.4932871162891388,
      "learning_rate": 2.444386286312484e-06,
      "loss": 1.0326,
      "mean_token_accuracy": 0.7380503460764885,
      "num_tokens": 26114431.0,
      "step": 3355
    },
    {
      "entropy": 1.091795524954796,
      "epoch": 0.879365339003844,
      "grad_norm": 0.561880350112915,
      "learning_rate": 2.418215126930123e-06,
      "loss": 1.0774,
      "mean_token_accuracy": 0.7251040559262037,
      "num_tokens": 26153886.0,
      "step": 3360
    },
    {
      "entropy": 1.07560763284564,
      "epoch": 0.8806739183773615,
      "grad_norm": 0.48657548427581787,
      "learning_rate": 2.3920439675477623e-06,
      "loss": 1.0658,
      "mean_token_accuracy": 0.7262101206928492,
      "num_tokens": 26186389.0,
      "step": 3365
    },
    {
      "entropy": 1.0190218634903432,
      "epoch": 0.8819824977508792,
      "grad_norm": 0.7028672099113464,
      "learning_rate": 2.365872808165402e-06,
      "loss": 0.9896,
      "mean_token_accuracy": 0.7349074624478817,
      "num_tokens": 26216742.0,
      "step": 3370
    },
    {
      "entropy": 1.0444237791001796,
      "epoch": 0.8832910771243968,
      "grad_norm": 0.3169384300708771,
      "learning_rate": 2.339701648783041e-06,
      "loss": 0.9722,
      "mean_token_accuracy": 0.7366019688546658,
      "num_tokens": 26252709.0,
      "step": 3375
    },
    {
      "entropy": 1.0996058486402034,
      "epoch": 0.8845996564979145,
      "grad_norm": 0.45103803277015686,
      "learning_rate": 2.313530489400681e-06,
      "loss": 1.0965,
      "mean_token_accuracy": 0.7159675225615502,
      "num_tokens": 26290405.0,
      "step": 3380
    },
    {
      "entropy": 1.120962193235755,
      "epoch": 0.8859082358714321,
      "grad_norm": 0.4903068244457245,
      "learning_rate": 2.28735933001832e-06,
      "loss": 1.133,
      "mean_token_accuracy": 0.7219177789986133,
      "num_tokens": 26328036.0,
      "step": 3385
    },
    {
      "entropy": 1.015447051078081,
      "epoch": 0.8872168152449497,
      "grad_norm": 0.5176340341567993,
      "learning_rate": 2.2611881706359592e-06,
      "loss": 1.0307,
      "mean_token_accuracy": 0.7406690739095211,
      "num_tokens": 26370299.0,
      "step": 3390
    },
    {
      "entropy": 1.0935089591890574,
      "epoch": 0.8885253946184674,
      "grad_norm": 0.29109635949134827,
      "learning_rate": 2.235017011253599e-06,
      "loss": 1.0479,
      "mean_token_accuracy": 0.7220962606370449,
      "num_tokens": 26410839.0,
      "step": 3395
    },
    {
      "entropy": 1.073088315874338,
      "epoch": 0.8898339739919849,
      "grad_norm": 0.41668152809143066,
      "learning_rate": 2.208845851871238e-06,
      "loss": 1.0365,
      "mean_token_accuracy": 0.7313703790307045,
      "num_tokens": 26451902.0,
      "step": 3400
    },
    {
      "epoch": 0.8898339739919849,
      "eval_entropy": 1.0298821225166321,
      "eval_loss": 1.0266761779785156,
      "eval_mean_token_accuracy": 0.7314435024261474,
      "eval_num_tokens": 26451902.0,
      "eval_runtime": 97.2178,
      "eval_samples_per_second": 10.286,
      "eval_steps_per_second": 1.286,
      "step": 3400
    },
    {
      "entropy": 1.1048546012490987,
      "epoch": 0.8911425533655025,
      "grad_norm": 0.33564722537994385,
      "learning_rate": 2.1826746924888777e-06,
      "loss": 1.1361,
      "mean_token_accuracy": 0.7248132299631834,
      "num_tokens": 26494266.0,
      "step": 3405
    },
    {
      "entropy": 1.0767640516161918,
      "epoch": 0.8924511327390202,
      "grad_norm": 0.34754645824432373,
      "learning_rate": 2.156503533106517e-06,
      "loss": 1.0538,
      "mean_token_accuracy": 0.7239204317331314,
      "num_tokens": 26538961.0,
      "step": 3410
    },
    {
      "entropy": 1.1368263632059097,
      "epoch": 0.8937597121125378,
      "grad_norm": 0.42159193754196167,
      "learning_rate": 2.130332373724156e-06,
      "loss": 1.0626,
      "mean_token_accuracy": 0.7145794078707695,
      "num_tokens": 26576209.0,
      "step": 3415
    },
    {
      "entropy": 1.1049470301717519,
      "epoch": 0.8950682914860555,
      "grad_norm": 0.41963493824005127,
      "learning_rate": 2.1041612143417954e-06,
      "loss": 1.078,
      "mean_token_accuracy": 0.7214818011969328,
      "num_tokens": 26615242.0,
      "step": 3420
    },
    {
      "entropy": 1.0639567028731107,
      "epoch": 0.8963768708595731,
      "grad_norm": 0.27538204193115234,
      "learning_rate": 2.0779900549594346e-06,
      "loss": 1.0215,
      "mean_token_accuracy": 0.7226650364696979,
      "num_tokens": 26655742.0,
      "step": 3425
    },
    {
      "entropy": 1.041541761904955,
      "epoch": 0.8976854502330907,
      "grad_norm": 0.3388216197490692,
      "learning_rate": 2.0518188955770743e-06,
      "loss": 1.0363,
      "mean_token_accuracy": 0.7356565605849028,
      "num_tokens": 26693766.0,
      "step": 3430
    },
    {
      "entropy": 1.0412372374907135,
      "epoch": 0.8989940296066083,
      "grad_norm": 0.3273700773715973,
      "learning_rate": 2.0256477361947135e-06,
      "loss": 0.9961,
      "mean_token_accuracy": 0.7328124668449163,
      "num_tokens": 26731172.0,
      "step": 3435
    },
    {
      "entropy": 1.0402305848896503,
      "epoch": 0.9003026089801259,
      "grad_norm": 0.5662808418273926,
      "learning_rate": 1.999476576812353e-06,
      "loss": 1.0287,
      "mean_token_accuracy": 0.7347014851868152,
      "num_tokens": 26770030.0,
      "step": 3440
    },
    {
      "entropy": 1.0628270111978053,
      "epoch": 0.9016111883536436,
      "grad_norm": 0.39010319113731384,
      "learning_rate": 1.9733054174299923e-06,
      "loss": 0.9835,
      "mean_token_accuracy": 0.7256053328514099,
      "num_tokens": 26811239.0,
      "step": 3445
    },
    {
      "entropy": 1.0397684559226037,
      "epoch": 0.9029197677271612,
      "grad_norm": 0.5970498323440552,
      "learning_rate": 1.9471342580476316e-06,
      "loss": 1.0163,
      "mean_token_accuracy": 0.7326931424438954,
      "num_tokens": 26850997.0,
      "step": 3450
    },
    {
      "entropy": 1.0377406038343906,
      "epoch": 0.9042283471006788,
      "grad_norm": 0.45579779148101807,
      "learning_rate": 1.920963098665271e-06,
      "loss": 1.0484,
      "mean_token_accuracy": 0.7341817907989026,
      "num_tokens": 26889505.0,
      "step": 3455
    },
    {
      "entropy": 1.020282133296132,
      "epoch": 0.9055369264741965,
      "grad_norm": 0.40827953815460205,
      "learning_rate": 1.8947919392829104e-06,
      "loss": 1.0153,
      "mean_token_accuracy": 0.737718590721488,
      "num_tokens": 26927519.0,
      "step": 3460
    },
    {
      "entropy": 1.053854411840439,
      "epoch": 0.9068455058477141,
      "grad_norm": 0.45387595891952515,
      "learning_rate": 1.8686207799005498e-06,
      "loss": 0.9982,
      "mean_token_accuracy": 0.7261220943182707,
      "num_tokens": 26966277.0,
      "step": 3465
    },
    {
      "entropy": 1.017658719792962,
      "epoch": 0.9081540852212318,
      "grad_norm": 0.36533382534980774,
      "learning_rate": 1.842449620518189e-06,
      "loss": 0.9675,
      "mean_token_accuracy": 0.7362812142819166,
      "num_tokens": 27002691.0,
      "step": 3470
    },
    {
      "entropy": 1.053343753516674,
      "epoch": 0.9094626645947493,
      "grad_norm": 0.3158053755760193,
      "learning_rate": 1.8162784611358283e-06,
      "loss": 1.0161,
      "mean_token_accuracy": 0.7329125508666039,
      "num_tokens": 27040733.0,
      "step": 3475
    },
    {
      "entropy": 0.9715707473456859,
      "epoch": 0.9107712439682669,
      "grad_norm": 0.30097201466560364,
      "learning_rate": 1.790107301753468e-06,
      "loss": 0.9108,
      "mean_token_accuracy": 0.741458211094141,
      "num_tokens": 27083118.0,
      "step": 3480
    },
    {
      "entropy": 1.1143366053700448,
      "epoch": 0.9120798233417846,
      "grad_norm": 0.5649247765541077,
      "learning_rate": 1.7639361423711071e-06,
      "loss": 1.0844,
      "mean_token_accuracy": 0.7136627584695816,
      "num_tokens": 27118214.0,
      "step": 3485
    },
    {
      "entropy": 1.053029465302825,
      "epoch": 0.9133884027153022,
      "grad_norm": 0.41902416944503784,
      "learning_rate": 1.7377649829887466e-06,
      "loss": 0.9994,
      "mean_token_accuracy": 0.7316753648221492,
      "num_tokens": 27154246.0,
      "step": 3490
    },
    {
      "entropy": 1.0596496284008026,
      "epoch": 0.9146969820888198,
      "grad_norm": 0.4515739977359772,
      "learning_rate": 1.7115938236063858e-06,
      "loss": 1.0266,
      "mean_token_accuracy": 0.7284657262265682,
      "num_tokens": 27190566.0,
      "step": 3495
    },
    {
      "entropy": 1.1401704950258136,
      "epoch": 0.9160055614623375,
      "grad_norm": 0.5285766124725342,
      "learning_rate": 1.6854226642240254e-06,
      "loss": 1.1079,
      "mean_token_accuracy": 0.7140452340245247,
      "num_tokens": 27231234.0,
      "step": 3500
    },
    {
      "epoch": 0.9160055614623375,
      "eval_entropy": 1.0293893675804138,
      "eval_loss": 1.0261290073394775,
      "eval_mean_token_accuracy": 0.7316831665039063,
      "eval_num_tokens": 27231234.0,
      "eval_runtime": 97.2439,
      "eval_samples_per_second": 10.283,
      "eval_steps_per_second": 1.285,
      "step": 3500
    },
    {
      "entropy": 1.060255604609847,
      "epoch": 0.917314140835855,
      "grad_norm": 0.5222223401069641,
      "learning_rate": 1.6592515048416647e-06,
      "loss": 1.0422,
      "mean_token_accuracy": 0.7291194565594197,
      "num_tokens": 27274088.0,
      "step": 3505
    },
    {
      "entropy": 1.0341279707849025,
      "epoch": 0.9186227202093727,
      "grad_norm": 0.46550068259239197,
      "learning_rate": 1.6330803454593039e-06,
      "loss": 1.0274,
      "mean_token_accuracy": 0.736503117159009,
      "num_tokens": 27314182.0,
      "step": 3510
    },
    {
      "entropy": 1.0762779969722032,
      "epoch": 0.9199312995828903,
      "grad_norm": 0.4758652150630951,
      "learning_rate": 1.6069091860769433e-06,
      "loss": 1.0411,
      "mean_token_accuracy": 0.7197697997093201,
      "num_tokens": 27353165.0,
      "step": 3515
    },
    {
      "entropy": 1.0701686941087245,
      "epoch": 0.9212398789564079,
      "grad_norm": 0.49974560737609863,
      "learning_rate": 1.5807380266945827e-06,
      "loss": 1.0625,
      "mean_token_accuracy": 0.7291940327733755,
      "num_tokens": 27387526.0,
      "step": 3520
    },
    {
      "entropy": 1.083727527782321,
      "epoch": 0.9225484583299256,
      "grad_norm": 0.5067974328994751,
      "learning_rate": 1.5545668673122222e-06,
      "loss": 1.0838,
      "mean_token_accuracy": 0.719190240651369,
      "num_tokens": 27424821.0,
      "step": 3525
    },
    {
      "entropy": 1.0643510822206736,
      "epoch": 0.9238570377034432,
      "grad_norm": 0.6037015914916992,
      "learning_rate": 1.5283957079298614e-06,
      "loss": 1.08,
      "mean_token_accuracy": 0.7282540425658226,
      "num_tokens": 27462609.0,
      "step": 3530
    },
    {
      "entropy": 1.0500620037317276,
      "epoch": 0.9251656170769609,
      "grad_norm": 0.6834056377410889,
      "learning_rate": 1.5022245485475006e-06,
      "loss": 1.0026,
      "mean_token_accuracy": 0.7320256743580102,
      "num_tokens": 27500178.0,
      "step": 3535
    },
    {
      "entropy": 1.0600904449820518,
      "epoch": 0.9264741964504785,
      "grad_norm": 0.5821903347969055,
      "learning_rate": 1.4760533891651402e-06,
      "loss": 1.0701,
      "mean_token_accuracy": 0.7213537424802781,
      "num_tokens": 27539087.0,
      "step": 3540
    },
    {
      "entropy": 1.057712410390377,
      "epoch": 0.927782775823996,
      "grad_norm": 0.28830403089523315,
      "learning_rate": 1.4498822297827795e-06,
      "loss": 0.9984,
      "mean_token_accuracy": 0.7261978283524513,
      "num_tokens": 27575481.0,
      "step": 3545
    },
    {
      "entropy": 1.0745814580470323,
      "epoch": 0.9290913551975137,
      "grad_norm": 0.5320100784301758,
      "learning_rate": 1.4237110704004189e-06,
      "loss": 1.0255,
      "mean_token_accuracy": 0.7240989219397307,
      "num_tokens": 27610121.0,
      "step": 3550
    },
    {
      "entropy": 1.1143604163080454,
      "epoch": 0.9303999345710313,
      "grad_norm": 0.3023637533187866,
      "learning_rate": 1.3975399110180581e-06,
      "loss": 1.1067,
      "mean_token_accuracy": 0.7260128542780876,
      "num_tokens": 27648696.0,
      "step": 3555
    },
    {
      "entropy": 1.0836713276803493,
      "epoch": 0.9317085139445489,
      "grad_norm": 0.6137750148773193,
      "learning_rate": 1.3713687516356975e-06,
      "loss": 1.0442,
      "mean_token_accuracy": 0.7201635256409645,
      "num_tokens": 27682007.0,
      "step": 3560
    },
    {
      "entropy": 1.1006150282919407,
      "epoch": 0.9330170933180666,
      "grad_norm": 0.44908300042152405,
      "learning_rate": 1.345197592253337e-06,
      "loss": 1.1144,
      "mean_token_accuracy": 0.7233285054564476,
      "num_tokens": 27719353.0,
      "step": 3565
    },
    {
      "entropy": 1.0796324241906405,
      "epoch": 0.9343256726915842,
      "grad_norm": 0.4785999655723572,
      "learning_rate": 1.3190264328709762e-06,
      "loss": 1.0587,
      "mean_token_accuracy": 0.725184840708971,
      "num_tokens": 27760487.0,
      "step": 3570
    },
    {
      "entropy": 1.0421875026077032,
      "epoch": 0.9356342520651019,
      "grad_norm": 0.5122357606887817,
      "learning_rate": 1.2928552734886158e-06,
      "loss": 1.025,
      "mean_token_accuracy": 0.7302470609545708,
      "num_tokens": 27803053.0,
      "step": 3575
    },
    {
      "entropy": 1.0390013061463832,
      "epoch": 0.9369428314386195,
      "grad_norm": 0.5996967554092407,
      "learning_rate": 1.266684114106255e-06,
      "loss": 0.9942,
      "mean_token_accuracy": 0.7326175101101399,
      "num_tokens": 27841890.0,
      "step": 3580
    },
    {
      "entropy": 1.0458267323672772,
      "epoch": 0.938251410812137,
      "grad_norm": 0.4176723062992096,
      "learning_rate": 1.2405129547238943e-06,
      "loss": 1.0177,
      "mean_token_accuracy": 0.724136520922184,
      "num_tokens": 27882510.0,
      "step": 3585
    },
    {
      "entropy": 1.0069429714232683,
      "epoch": 0.9395599901856547,
      "grad_norm": 0.40060707926750183,
      "learning_rate": 1.2143417953415337e-06,
      "loss": 0.9671,
      "mean_token_accuracy": 0.7366093017160893,
      "num_tokens": 27923388.0,
      "step": 3590
    },
    {
      "entropy": 1.16991759352386,
      "epoch": 0.9408685695591723,
      "grad_norm": 0.3461279571056366,
      "learning_rate": 1.1881706359591731e-06,
      "loss": 1.1462,
      "mean_token_accuracy": 0.7035489819943905,
      "num_tokens": 27964084.0,
      "step": 3595
    },
    {
      "entropy": 1.0686412911862135,
      "epoch": 0.94217714893269,
      "grad_norm": 0.2957308888435364,
      "learning_rate": 1.1619994765768126e-06,
      "loss": 1.1066,
      "mean_token_accuracy": 0.7225402969866991,
      "num_tokens": 28001682.0,
      "step": 3600
    },
    {
      "epoch": 0.94217714893269,
      "eval_entropy": 1.0279519958496093,
      "eval_loss": 1.0255744457244873,
      "eval_mean_token_accuracy": 0.7317811703681946,
      "eval_num_tokens": 28001682.0,
      "eval_runtime": 97.2947,
      "eval_samples_per_second": 10.278,
      "eval_steps_per_second": 1.285,
      "step": 3600
    },
    {
      "entropy": 1.0206676226109266,
      "epoch": 0.9434857283062076,
      "grad_norm": 0.35788989067077637,
      "learning_rate": 1.1358283171944518e-06,
      "loss": 1.0176,
      "mean_token_accuracy": 0.7300234287977219,
      "num_tokens": 28042579.0,
      "step": 3605
    },
    {
      "entropy": 1.1715757973492145,
      "epoch": 0.9447943076797252,
      "grad_norm": 0.6498376131057739,
      "learning_rate": 1.1096571578120912e-06,
      "loss": 1.2274,
      "mean_token_accuracy": 0.7090075612068176,
      "num_tokens": 28077521.0,
      "step": 3610
    },
    {
      "entropy": 1.0543236445635558,
      "epoch": 0.9461028870532429,
      "grad_norm": 0.3194473385810852,
      "learning_rate": 1.0834859984297304e-06,
      "loss": 1.0491,
      "mean_token_accuracy": 0.72547093257308,
      "num_tokens": 28116840.0,
      "step": 3615
    },
    {
      "entropy": 1.1037466993555427,
      "epoch": 0.9474114664267604,
      "grad_norm": 0.6278566718101501,
      "learning_rate": 1.0573148390473699e-06,
      "loss": 1.0452,
      "mean_token_accuracy": 0.7226000647991896,
      "num_tokens": 28153551.0,
      "step": 3620
    },
    {
      "entropy": 1.0038308002054692,
      "epoch": 0.948720045800278,
      "grad_norm": 0.48984530568122864,
      "learning_rate": 1.0311436796650093e-06,
      "loss": 0.9795,
      "mean_token_accuracy": 0.7407138921320439,
      "num_tokens": 28189324.0,
      "step": 3625
    },
    {
      "entropy": 1.0743804059922695,
      "epoch": 0.9500286251737957,
      "grad_norm": 0.35918810963630676,
      "learning_rate": 1.0049725202826487e-06,
      "loss": 1.1096,
      "mean_token_accuracy": 0.7247271824628114,
      "num_tokens": 28230753.0,
      "step": 3630
    },
    {
      "entropy": 1.0661400273442267,
      "epoch": 0.9513372045473133,
      "grad_norm": 0.45430681109428406,
      "learning_rate": 9.78801360900288e-07,
      "loss": 1.0431,
      "mean_token_accuracy": 0.7261486738920212,
      "num_tokens": 28267961.0,
      "step": 3635
    },
    {
      "entropy": 1.0930729560554027,
      "epoch": 0.952645783920831,
      "grad_norm": 0.5693202018737793,
      "learning_rate": 9.526302015179273e-07,
      "loss": 1.0501,
      "mean_token_accuracy": 0.7252973057329655,
      "num_tokens": 28303967.0,
      "step": 3640
    },
    {
      "entropy": 1.124368030577898,
      "epoch": 0.9539543632943486,
      "grad_norm": 0.5943740010261536,
      "learning_rate": 9.264590421355667e-07,
      "loss": 1.148,
      "mean_token_accuracy": 0.7163769982755184,
      "num_tokens": 28339080.0,
      "step": 3645
    },
    {
      "entropy": 1.0308339811861515,
      "epoch": 0.9552629426678662,
      "grad_norm": 0.4916401505470276,
      "learning_rate": 9.00287882753206e-07,
      "loss": 0.9571,
      "mean_token_accuracy": 0.7355926677584648,
      "num_tokens": 28376833.0,
      "step": 3650
    },
    {
      "entropy": 1.0489124123007059,
      "epoch": 0.9565715220413838,
      "grad_norm": 0.5581033229827881,
      "learning_rate": 8.741167233708454e-07,
      "loss": 1.0203,
      "mean_token_accuracy": 0.7289952971041203,
      "num_tokens": 28413990.0,
      "step": 3655
    },
    {
      "entropy": 1.027711633220315,
      "epoch": 0.9578801014149014,
      "grad_norm": 0.5208143591880798,
      "learning_rate": 8.479455639884849e-07,
      "loss": 0.985,
      "mean_token_accuracy": 0.7333911582827568,
      "num_tokens": 28451250.0,
      "step": 3660
    },
    {
      "entropy": 1.0729194439947605,
      "epoch": 0.9591886807884191,
      "grad_norm": 0.6603464484214783,
      "learning_rate": 8.217744046061241e-07,
      "loss": 1.1221,
      "mean_token_accuracy": 0.7259935919195414,
      "num_tokens": 28488287.0,
      "step": 3665
    },
    {
      "entropy": 1.1133702561259269,
      "epoch": 0.9604972601619367,
      "grad_norm": 0.45469507575035095,
      "learning_rate": 7.956032452237634e-07,
      "loss": 1.0952,
      "mean_token_accuracy": 0.7223341464996338,
      "num_tokens": 28523839.0,
      "step": 3670
    },
    {
      "entropy": 1.0385285302996636,
      "epoch": 0.9618058395354543,
      "grad_norm": 0.4402262270450592,
      "learning_rate": 7.694320858414028e-07,
      "loss": 1.0786,
      "mean_token_accuracy": 0.7375961367040873,
      "num_tokens": 28561415.0,
      "step": 3675
    },
    {
      "entropy": 1.0912371952086688,
      "epoch": 0.963114418908972,
      "grad_norm": 0.4388654828071594,
      "learning_rate": 7.432609264590422e-07,
      "loss": 1.1011,
      "mean_token_accuracy": 0.7208574242889881,
      "num_tokens": 28598012.0,
      "step": 3680
    },
    {
      "entropy": 1.0840743597596885,
      "epoch": 0.9644229982824896,
      "grad_norm": 0.5213295221328735,
      "learning_rate": 7.170897670766816e-07,
      "loss": 1.0878,
      "mean_token_accuracy": 0.7260554354637861,
      "num_tokens": 28640120.0,
      "step": 3685
    },
    {
      "entropy": 1.0481572005897761,
      "epoch": 0.9657315776560071,
      "grad_norm": 0.6161360740661621,
      "learning_rate": 6.90918607694321e-07,
      "loss": 0.9982,
      "mean_token_accuracy": 0.7346723277121783,
      "num_tokens": 28680039.0,
      "step": 3690
    },
    {
      "entropy": 1.081262205913663,
      "epoch": 0.9670401570295248,
      "grad_norm": 0.5245823264122009,
      "learning_rate": 6.647474483119602e-07,
      "loss": 1.0661,
      "mean_token_accuracy": 0.7203562073409557,
      "num_tokens": 28720731.0,
      "step": 3695
    },
    {
      "entropy": 1.0632508873939515,
      "epoch": 0.9683487364030424,
      "grad_norm": 0.3406558334827423,
      "learning_rate": 6.385762889295996e-07,
      "loss": 1.011,
      "mean_token_accuracy": 0.7315301813185215,
      "num_tokens": 28758379.0,
      "step": 3700
    },
    {
      "epoch": 0.9683487364030424,
      "eval_entropy": 1.0293308172225952,
      "eval_loss": 1.0250952243804932,
      "eval_mean_token_accuracy": 0.7318736510276794,
      "eval_num_tokens": 28758379.0,
      "eval_runtime": 97.2597,
      "eval_samples_per_second": 10.282,
      "eval_steps_per_second": 1.285,
      "step": 3700
    },
    {
      "entropy": 1.0361842691898346,
      "epoch": 0.9696573157765601,
      "grad_norm": 0.3829176127910614,
      "learning_rate": 6.12405129547239e-07,
      "loss": 1.0297,
      "mean_token_accuracy": 0.738416987657547,
      "num_tokens": 28801046.0,
      "step": 3705
    },
    {
      "entropy": 0.9786388706415892,
      "epoch": 0.9709658951500777,
      "grad_norm": 0.42764556407928467,
      "learning_rate": 5.862339701648783e-07,
      "loss": 0.897,
      "mean_token_accuracy": 0.7432105515152216,
      "num_tokens": 28841846.0,
      "step": 3710
    },
    {
      "entropy": 1.0343420587480068,
      "epoch": 0.9722744745235953,
      "grad_norm": 0.3440265357494354,
      "learning_rate": 5.600628107825177e-07,
      "loss": 1.0067,
      "mean_token_accuracy": 0.7312737897038459,
      "num_tokens": 28888566.0,
      "step": 3715
    },
    {
      "entropy": 1.0930624961853028,
      "epoch": 0.973583053897113,
      "grad_norm": 0.26113247871398926,
      "learning_rate": 5.338916514001571e-07,
      "loss": 1.1205,
      "mean_token_accuracy": 0.7230574164539576,
      "num_tokens": 28926022.0,
      "step": 3720
    },
    {
      "entropy": 1.0122245840728283,
      "epoch": 0.9748916332706306,
      "grad_norm": 0.4856005012989044,
      "learning_rate": 5.077204920177964e-07,
      "loss": 1.0115,
      "mean_token_accuracy": 0.7327728264033795,
      "num_tokens": 28967341.0,
      "step": 3725
    },
    {
      "entropy": 1.0293555181473493,
      "epoch": 0.9762002126441482,
      "grad_norm": 0.4436942934989929,
      "learning_rate": 4.815493326354357e-07,
      "loss": 1.0318,
      "mean_token_accuracy": 0.7331165555864573,
      "num_tokens": 29011545.0,
      "step": 3730
    },
    {
      "entropy": 1.0567047752439975,
      "epoch": 0.9775087920176658,
      "grad_norm": 0.46222445368766785,
      "learning_rate": 4.5537817325307516e-07,
      "loss": 1.0437,
      "mean_token_accuracy": 0.7290311522781849,
      "num_tokens": 29050339.0,
      "step": 3735
    },
    {
      "entropy": 1.0223099350929261,
      "epoch": 0.9788173713911834,
      "grad_norm": 0.6509369611740112,
      "learning_rate": 4.2920701387071454e-07,
      "loss": 1.0271,
      "mean_token_accuracy": 0.743386908620596,
      "num_tokens": 29090275.0,
      "step": 3740
    },
    {
      "entropy": 1.0612529110163451,
      "epoch": 0.9801259507647011,
      "grad_norm": 0.5703464150428772,
      "learning_rate": 4.0303585448835386e-07,
      "loss": 1.0539,
      "mean_token_accuracy": 0.7298849746584892,
      "num_tokens": 29129073.0,
      "step": 3745
    },
    {
      "entropy": 1.0348493970930577,
      "epoch": 0.9814345301382187,
      "grad_norm": 0.35511285066604614,
      "learning_rate": 3.7686469510599324e-07,
      "loss": 1.0283,
      "mean_token_accuracy": 0.7344648085534573,
      "num_tokens": 29171021.0,
      "step": 3750
    },
    {
      "entropy": 1.1379429820924998,
      "epoch": 0.9827431095117363,
      "grad_norm": 0.3323829174041748,
      "learning_rate": 3.506935357236326e-07,
      "loss": 1.1105,
      "mean_token_accuracy": 0.7117891266942025,
      "num_tokens": 29206905.0,
      "step": 3755
    },
    {
      "entropy": 1.0437415711581708,
      "epoch": 0.984051688885254,
      "grad_norm": 0.40716320276260376,
      "learning_rate": 3.2452237634127194e-07,
      "loss": 1.0219,
      "mean_token_accuracy": 0.7391361027956009,
      "num_tokens": 29247960.0,
      "step": 3760
    },
    {
      "entropy": 1.1265955708920956,
      "epoch": 0.9853602682587715,
      "grad_norm": 0.6306870579719543,
      "learning_rate": 2.983512169589113e-07,
      "loss": 1.062,
      "mean_token_accuracy": 0.7148844588547945,
      "num_tokens": 29282043.0,
      "step": 3765
    },
    {
      "entropy": 1.0719765815883875,
      "epoch": 0.9866688476322892,
      "grad_norm": 0.35759237408638,
      "learning_rate": 2.7218005757655065e-07,
      "loss": 1.0682,
      "mean_token_accuracy": 0.7296040445566178,
      "num_tokens": 29323533.0,
      "step": 3770
    },
    {
      "entropy": 1.0471963623538614,
      "epoch": 0.9879774270058068,
      "grad_norm": 0.4440222382545471,
      "learning_rate": 2.4600889819419e-07,
      "loss": 0.9946,
      "mean_token_accuracy": 0.7308863338083029,
      "num_tokens": 29364067.0,
      "step": 3775
    },
    {
      "entropy": 1.0608526386320591,
      "epoch": 0.9892860063793244,
      "grad_norm": 0.41301101446151733,
      "learning_rate": 2.198377388118294e-07,
      "loss": 1.0721,
      "mean_token_accuracy": 0.730213138461113,
      "num_tokens": 29411394.0,
      "step": 3780
    },
    {
      "entropy": 1.042181348055601,
      "epoch": 0.9905945857528421,
      "grad_norm": 0.7013579607009888,
      "learning_rate": 1.9366657942946875e-07,
      "loss": 0.9976,
      "mean_token_accuracy": 0.7371749997138977,
      "num_tokens": 29447775.0,
      "step": 3785
    },
    {
      "entropy": 1.0719102643430234,
      "epoch": 0.9919031651263597,
      "grad_norm": 0.6451042890548706,
      "learning_rate": 1.6749542004710808e-07,
      "loss": 1.0273,
      "mean_token_accuracy": 0.725009347498417,
      "num_tokens": 29482789.0,
      "step": 3790
    },
    {
      "entropy": 1.0650145791471004,
      "epoch": 0.9932117444998774,
      "grad_norm": 0.46040284633636475,
      "learning_rate": 1.4132426066474745e-07,
      "loss": 1.0511,
      "mean_token_accuracy": 0.7309038709849119,
      "num_tokens": 29522469.0,
      "step": 3795
    },
    {
      "entropy": 1.099685497954488,
      "epoch": 0.994520323873395,
      "grad_norm": 0.47909924387931824,
      "learning_rate": 1.1515310128238682e-07,
      "loss": 1.0294,
      "mean_token_accuracy": 0.7283653065562248,
      "num_tokens": 29558695.0,
      "step": 3800
    },
    {
      "epoch": 0.994520323873395,
      "eval_entropy": 1.027329535484314,
      "eval_loss": 1.0250593423843384,
      "eval_mean_token_accuracy": 0.7319152827262878,
      "eval_num_tokens": 29558695.0,
      "eval_runtime": 97.2485,
      "eval_samples_per_second": 10.283,
      "eval_steps_per_second": 1.285,
      "step": 3800
    },
    {
      "entropy": 1.0765836983919144,
      "epoch": 0.9958289032469125,
      "grad_norm": 0.46970200538635254,
      "learning_rate": 8.898194190002618e-08,
      "loss": 1.0639,
      "mean_token_accuracy": 0.7184258241206407,
      "num_tokens": 29599289.0,
      "step": 3805
    },
    {
      "entropy": 1.0330897614359855,
      "epoch": 0.9971374826204302,
      "grad_norm": 0.34983229637145996,
      "learning_rate": 6.281078251766554e-08,
      "loss": 1.0025,
      "mean_token_accuracy": 0.7342484682798386,
      "num_tokens": 29637188.0,
      "step": 3810
    },
    {
      "entropy": 1.04201779961586,
      "epoch": 0.9984460619939478,
      "grad_norm": 0.39102649688720703,
      "learning_rate": 3.6639623135304896e-08,
      "loss": 0.9961,
      "mean_token_accuracy": 0.7322810731828213,
      "num_tokens": 29671533.0,
      "step": 3815
    },
    {
      "entropy": 1.1104622691869737,
      "epoch": 0.9997546413674654,
      "grad_norm": 0.39447513222694397,
      "learning_rate": 1.0468463752944255e-08,
      "loss": 1.1002,
      "mean_token_accuracy": 0.7095972750335932,
      "num_tokens": 29712231.0,
      "step": 3820
    },
    {
      "epoch": 1.0,
      "step": 3821,
      "total_flos": 1.297831890260091e+18,
      "train_loss": 1.0613669765554028,
      "train_runtime": 22265.1627,
      "train_samples_per_second": 2.746,
      "train_steps_per_second": 0.172
    }
  ],
  "logging_steps": 5,
  "max_steps": 3821,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.297831890260091e+18,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}