{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 804,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "entropy": 1.126197099685669,
      "epoch": 0.003738317757009346,
      "grad_norm": 0.4137735962867737,
      "learning_rate": 0.0002,
      "loss": 2.431535243988037,
      "mean_token_accuracy": 0.54428631067276,
      "num_tokens": 16465.0,
      "step": 1
    },
    {
      "entropy": 1.2562520503997803,
      "epoch": 0.007476635514018692,
      "grad_norm": 0.3902691900730133,
      "learning_rate": 0.0002,
      "loss": 2.188866376876831,
      "mean_token_accuracy": 0.5568228960037231,
      "num_tokens": 32573.0,
      "step": 2
    },
    {
      "entropy": 1.4093195796012878,
      "epoch": 0.011214953271028037,
      "grad_norm": 0.29741090536117554,
      "learning_rate": 0.0002,
      "loss": 1.7309190034866333,
      "mean_token_accuracy": 0.591301366686821,
      "num_tokens": 48848.0,
      "step": 3
    },
    {
      "entropy": 1.3904370069503784,
      "epoch": 0.014953271028037384,
      "grad_norm": 0.24415643513202667,
      "learning_rate": 0.0002,
      "loss": 1.4167925119400024,
      "mean_token_accuracy": 0.6262245625257492,
      "num_tokens": 64779.0,
      "step": 4
    },
    {
      "entropy": 1.3590968251228333,
      "epoch": 0.018691588785046728,
      "grad_norm": 0.2501066327095032,
      "learning_rate": 0.0002,
      "loss": 1.3086440563201904,
      "mean_token_accuracy": 0.6442629396915436,
      "num_tokens": 81017.0,
      "step": 5
    },
    {
      "entropy": 1.2659040987491608,
      "epoch": 0.022429906542056073,
      "grad_norm": 0.13132381439208984,
      "learning_rate": 0.0002,
      "loss": 1.1781953573226929,
      "mean_token_accuracy": 0.6602727770805359,
      "num_tokens": 97143.0,
      "step": 6
    },
    {
      "entropy": 1.1754920184612274,
      "epoch": 0.026168224299065422,
      "grad_norm": 0.10863616317510605,
      "learning_rate": 0.0002,
      "loss": 1.0758289098739624,
      "mean_token_accuracy": 0.6747478097677231,
      "num_tokens": 113270.0,
      "step": 7
    },
    {
      "entropy": 1.1110295355319977,
      "epoch": 0.029906542056074768,
      "grad_norm": 0.11261261999607086,
      "learning_rate": 0.0002,
      "loss": 1.0382510423660278,
      "mean_token_accuracy": 0.6741550117731094,
      "num_tokens": 129740.0,
      "step": 8
    },
    {
      "entropy": 1.0438694655895233,
      "epoch": 0.03364485981308411,
      "grad_norm": 0.1300426870584488,
      "learning_rate": 0.0002,
      "loss": 0.9842232465744019,
      "mean_token_accuracy": 0.6938712894916534,
      "num_tokens": 146153.0,
      "step": 9
    },
    {
      "entropy": 0.980072870850563,
      "epoch": 0.037383177570093455,
      "grad_norm": 0.1279866099357605,
      "learning_rate": 0.0002,
      "loss": 0.907992422580719,
      "mean_token_accuracy": 0.7037613391876221,
      "num_tokens": 162400.0,
      "step": 10
    },
    {
      "entropy": 0.9512171745300293,
      "epoch": 0.041121495327102804,
      "grad_norm": 0.11444728821516037,
      "learning_rate": 0.0002,
      "loss": 0.8603078722953796,
      "mean_token_accuracy": 0.7085670977830887,
      "num_tokens": 178596.0,
      "step": 11
    },
    {
      "entropy": 0.9008210897445679,
      "epoch": 0.044859813084112146,
      "grad_norm": 0.1163485050201416,
      "learning_rate": 0.0002,
      "loss": 0.8202763199806213,
      "mean_token_accuracy": 0.7147757261991501,
      "num_tokens": 194960.0,
      "step": 12
    },
    {
      "entropy": 0.8144031316041946,
      "epoch": 0.048598130841121495,
      "grad_norm": 1.8727822303771973,
      "learning_rate": 0.0002,
      "loss": 0.7989485859870911,
      "mean_token_accuracy": 0.714598998427391,
      "num_tokens": 211519.0,
      "step": 13
    },
    {
      "entropy": 0.7731810510158539,
      "epoch": 0.052336448598130844,
      "grad_norm": 0.40646815299987793,
      "learning_rate": 0.0002,
      "loss": 0.7675734162330627,
      "mean_token_accuracy": 0.7164532542228699,
      "num_tokens": 227947.0,
      "step": 14
    },
    {
      "entropy": 0.7750754952430725,
      "epoch": 0.056074766355140186,
      "grad_norm": 0.0927761048078537,
      "learning_rate": 0.0002,
      "loss": 0.752495527267456,
      "mean_token_accuracy": 0.7247887402772903,
      "num_tokens": 244285.0,
      "step": 15
    },
    {
      "entropy": 0.7294797450304031,
      "epoch": 0.059813084112149535,
      "grad_norm": 0.09633366763591766,
      "learning_rate": 0.0002,
      "loss": 0.7139282822608948,
      "mean_token_accuracy": 0.733425110578537,
      "num_tokens": 260524.0,
      "step": 16
    },
    {
      "entropy": 0.7113516181707382,
      "epoch": 0.06355140186915888,
      "grad_norm": 0.08278490602970123,
      "learning_rate": 0.0002,
      "loss": 0.69715416431427,
      "mean_token_accuracy": 0.7404225617647171,
      "num_tokens": 276676.0,
      "step": 17
    },
    {
      "entropy": 0.6892006993293762,
      "epoch": 0.06728971962616823,
      "grad_norm": 0.09702161699533463,
      "learning_rate": 0.0002,
      "loss": 0.6832636594772339,
      "mean_token_accuracy": 0.7384749203920364,
      "num_tokens": 293327.0,
      "step": 18
    },
    {
      "entropy": 0.683604821562767,
      "epoch": 0.07102803738317758,
      "grad_norm": 0.09970250725746155,
      "learning_rate": 0.0002,
      "loss": 0.6719778776168823,
      "mean_token_accuracy": 0.7447258532047272,
      "num_tokens": 309768.0,
      "step": 19
    },
    {
      "entropy": 0.6530238687992096,
      "epoch": 0.07476635514018691,
      "grad_norm": 0.08765958249568939,
      "learning_rate": 0.0002,
      "loss": 0.6265610456466675,
      "mean_token_accuracy": 0.7607048451900482,
      "num_tokens": 325953.0,
      "step": 20
    },
    {
      "entropy": 0.6858675181865692,
      "epoch": 0.07850467289719626,
      "grad_norm": 0.1555248200893402,
      "learning_rate": 0.0002,
      "loss": 0.653350830078125,
      "mean_token_accuracy": 0.7461759150028229,
      "num_tokens": 342357.0,
      "step": 21
    },
    {
      "entropy": 0.6731577664613724,
      "epoch": 0.08224299065420561,
      "grad_norm": 0.07943135499954224,
      "learning_rate": 0.0002,
      "loss": 0.6468416452407837,
      "mean_token_accuracy": 0.745930403470993,
      "num_tokens": 358780.0,
      "step": 22
    },
    {
      "entropy": 0.6372379511594772,
      "epoch": 0.08598130841121496,
      "grad_norm": 0.07176131755113602,
      "learning_rate": 0.0002,
      "loss": 0.6231244802474976,
      "mean_token_accuracy": 0.757389485836029,
      "num_tokens": 375059.0,
      "step": 23
    },
    {
      "entropy": 0.6160608530044556,
      "epoch": 0.08971962616822429,
      "grad_norm": 0.09053056687116623,
      "learning_rate": 0.0002,
      "loss": 0.6240095496177673,
      "mean_token_accuracy": 0.7537032961845398,
      "num_tokens": 391372.0,
      "step": 24
    },
    {
      "entropy": 0.6163977682590485,
      "epoch": 0.09345794392523364,
      "grad_norm": 0.06957540661096573,
      "learning_rate": 0.0002,
      "loss": 0.6137739419937134,
      "mean_token_accuracy": 0.7591944634914398,
      "num_tokens": 407634.0,
      "step": 25
    },
    {
      "entropy": 0.6172843426465988,
      "epoch": 0.09719626168224299,
      "grad_norm": 0.06831946223974228,
      "learning_rate": 0.0002,
      "loss": 0.6151383519172668,
      "mean_token_accuracy": 0.7588979452848434,
      "num_tokens": 424139.0,
      "step": 26
    },
    {
      "entropy": 0.6146537363529205,
      "epoch": 0.10093457943925234,
      "grad_norm": 0.06785774976015091,
      "learning_rate": 0.0002,
      "loss": 0.6100280284881592,
      "mean_token_accuracy": 0.7608075141906738,
      "num_tokens": 440251.0,
      "step": 27
    },
    {
      "entropy": 0.5965892523527145,
      "epoch": 0.10467289719626169,
      "grad_norm": 0.06592898070812225,
      "learning_rate": 0.0002,
      "loss": 0.5876743793487549,
      "mean_token_accuracy": 0.7687714993953705,
      "num_tokens": 456512.0,
      "step": 28
    },
    {
      "entropy": 0.6143475025892258,
      "epoch": 0.10841121495327102,
      "grad_norm": 0.06412907689809799,
      "learning_rate": 0.0002,
      "loss": 0.6119903326034546,
      "mean_token_accuracy": 0.7573402374982834,
      "num_tokens": 472958.0,
      "step": 29
    },
    {
      "entropy": 0.5956396609544754,
      "epoch": 0.11214953271028037,
      "grad_norm": 0.06444356590509415,
      "learning_rate": 0.0002,
      "loss": 0.594578206539154,
      "mean_token_accuracy": 0.7660299837589264,
      "num_tokens": 489407.0,
      "step": 30
    },
    {
      "entropy": 0.5987770259380341,
      "epoch": 0.11588785046728972,
      "grad_norm": 0.05562213435769081,
      "learning_rate": 0.0002,
      "loss": 0.5932596921920776,
      "mean_token_accuracy": 0.7620532661676407,
      "num_tokens": 506104.0,
      "step": 31
    },
    {
      "entropy": 0.5812755525112152,
      "epoch": 0.11962616822429907,
      "grad_norm": 0.060992538928985596,
      "learning_rate": 0.0002,
      "loss": 0.5729696154594421,
      "mean_token_accuracy": 0.7730918079614639,
      "num_tokens": 522565.0,
      "step": 32
    },
    {
      "entropy": 0.5877644866704941,
      "epoch": 0.1233644859813084,
      "grad_norm": 0.05839328467845917,
      "learning_rate": 0.0002,
      "loss": 0.5913704633712769,
      "mean_token_accuracy": 0.7656503766775131,
      "num_tokens": 539081.0,
      "step": 33
    },
    {
      "entropy": 0.5780033618211746,
      "epoch": 0.12710280373831775,
      "grad_norm": 0.05193523317575455,
      "learning_rate": 0.0002,
      "loss": 0.5819685459136963,
      "mean_token_accuracy": 0.7665455341339111,
      "num_tokens": 555504.0,
      "step": 34
    },
    {
      "entropy": 0.5869153290987015,
      "epoch": 0.1308411214953271,
      "grad_norm": 0.06890807300806046,
      "learning_rate": 0.0002,
      "loss": 0.5857660174369812,
      "mean_token_accuracy": 0.7676131427288055,
      "num_tokens": 572153.0,
      "step": 35
    },
    {
      "entropy": 0.5672304034233093,
      "epoch": 0.13457943925233645,
      "grad_norm": 0.05624233931303024,
      "learning_rate": 0.0002,
      "loss": 0.5718747973442078,
      "mean_token_accuracy": 0.7710311710834503,
      "num_tokens": 588585.0,
      "step": 36
    },
    {
      "entropy": 0.5678977817296982,
      "epoch": 0.1383177570093458,
      "grad_norm": 0.06091594323515892,
      "learning_rate": 0.0002,
      "loss": 0.5765193104743958,
      "mean_token_accuracy": 0.7686972767114639,
      "num_tokens": 604864.0,
      "step": 37
    },
    {
      "entropy": 0.5863034427165985,
      "epoch": 0.14205607476635515,
      "grad_norm": 0.07292835414409637,
      "learning_rate": 0.0002,
      "loss": 0.597279965877533,
      "mean_token_accuracy": 0.7606304287910461,
      "num_tokens": 621080.0,
      "step": 38
    },
    {
      "entropy": 0.5759021639823914,
      "epoch": 0.14579439252336449,
      "grad_norm": 0.05464645475149155,
      "learning_rate": 0.0002,
      "loss": 0.570218563079834,
      "mean_token_accuracy": 0.770964503288269,
      "num_tokens": 637503.0,
      "step": 39
    },
    {
      "entropy": 0.5763402879238129,
      "epoch": 0.14953271028037382,
      "grad_norm": 0.056617990136146545,
      "learning_rate": 0.0002,
      "loss": 0.5686919093132019,
      "mean_token_accuracy": 0.7723182737827301,
      "num_tokens": 653609.0,
      "step": 40
    },
    {
      "entropy": 0.6039886325597763,
      "epoch": 0.15327102803738318,
      "grad_norm": 0.04869381710886955,
      "learning_rate": 0.0002,
      "loss": 0.5939038395881653,
      "mean_token_accuracy": 0.7607405036687851,
      "num_tokens": 669981.0,
      "step": 41
    },
    {
      "entropy": 0.5946750342845917,
      "epoch": 0.15700934579439252,
      "grad_norm": 0.046227701008319855,
      "learning_rate": 0.0002,
      "loss": 0.589706301689148,
      "mean_token_accuracy": 0.7646626383066177,
      "num_tokens": 686537.0,
      "step": 42
    },
    {
      "entropy": 0.5577073395252228,
      "epoch": 0.16074766355140188,
      "grad_norm": 0.04413911700248718,
      "learning_rate": 0.0002,
      "loss": 0.559436023235321,
      "mean_token_accuracy": 0.7762598991394043,
      "num_tokens": 702686.0,
      "step": 43
    },
    {
      "entropy": 0.5665079057216644,
      "epoch": 0.16448598130841122,
      "grad_norm": 0.047774720937013626,
      "learning_rate": 0.0002,
      "loss": 0.5647708773612976,
      "mean_token_accuracy": 0.7764726728200912,
      "num_tokens": 718966.0,
      "step": 44
    },
    {
      "entropy": 0.5726076513528824,
      "epoch": 0.16822429906542055,
      "grad_norm": 0.05053015798330307,
      "learning_rate": 0.0002,
      "loss": 0.5747931003570557,
      "mean_token_accuracy": 0.7704672068357468,
      "num_tokens": 735364.0,
      "step": 45
    },
    {
      "entropy": 0.5688610672950745,
      "epoch": 0.17196261682242991,
      "grad_norm": 0.037495676428079605,
      "learning_rate": 0.0002,
      "loss": 0.5652605295181274,
      "mean_token_accuracy": 0.770918145775795,
      "num_tokens": 751902.0,
      "step": 46
    },
    {
      "entropy": 0.581221267580986,
      "epoch": 0.17570093457943925,
      "grad_norm": 0.051694370806217194,
      "learning_rate": 0.0002,
      "loss": 0.5826902389526367,
      "mean_token_accuracy": 0.7654351443052292,
      "num_tokens": 768151.0,
      "step": 47
    },
    {
      "entropy": 0.5708408057689667,
      "epoch": 0.17943925233644858,
      "grad_norm": 0.04264647886157036,
      "learning_rate": 0.0002,
      "loss": 0.5651251673698425,
      "mean_token_accuracy": 0.7749274671077728,
      "num_tokens": 784511.0,
      "step": 48
    },
    {
      "entropy": 0.5757250636816025,
      "epoch": 0.18317757009345795,
      "grad_norm": 0.050725825130939484,
      "learning_rate": 0.0002,
      "loss": 0.5704944133758545,
      "mean_token_accuracy": 0.7680549174547195,
      "num_tokens": 800966.0,
      "step": 49
    },
    {
      "entropy": 0.5546318888664246,
      "epoch": 0.18691588785046728,
      "grad_norm": 0.03947490453720093,
      "learning_rate": 0.0002,
      "loss": 0.5488482713699341,
      "mean_token_accuracy": 0.7769860327243805,
      "num_tokens": 817293.0,
      "step": 50
    },
    {
      "entropy": 0.5634811520576477,
      "epoch": 0.19065420560747665,
      "grad_norm": 0.049806442111730576,
      "learning_rate": 0.0002,
      "loss": 0.5557321906089783,
      "mean_token_accuracy": 0.7740621268749237,
      "num_tokens": 833385.0,
      "step": 51
    },
    {
      "entropy": 0.582123801112175,
      "epoch": 0.19439252336448598,
      "grad_norm": 0.0458400622010231,
      "learning_rate": 0.0002,
      "loss": 0.5802882313728333,
      "mean_token_accuracy": 0.7661796510219574,
      "num_tokens": 849741.0,
      "step": 52
    },
    {
      "entropy": 0.5494910776615143,
      "epoch": 0.19813084112149532,
      "grad_norm": 0.04727543145418167,
      "learning_rate": 0.0002,
      "loss": 0.554188072681427,
      "mean_token_accuracy": 0.7779219001531601,
      "num_tokens": 865884.0,
      "step": 53
    },
    {
      "entropy": 0.568273514509201,
      "epoch": 0.20186915887850468,
      "grad_norm": 0.052229855209589005,
      "learning_rate": 0.0002,
      "loss": 0.5752811431884766,
      "mean_token_accuracy": 0.7671186923980713,
      "num_tokens": 882348.0,
      "step": 54
    },
    {
      "entropy": 0.5694270133972168,
      "epoch": 0.205607476635514,
      "grad_norm": 0.04475817084312439,
      "learning_rate": 0.0002,
      "loss": 0.5706926584243774,
      "mean_token_accuracy": 0.7702507525682449,
      "num_tokens": 898544.0,
      "step": 55
    },
    {
      "entropy": 0.5677521079778671,
      "epoch": 0.20934579439252338,
      "grad_norm": 0.03592672944068909,
      "learning_rate": 0.0002,
      "loss": 0.5723967552185059,
      "mean_token_accuracy": 0.766302615404129,
      "num_tokens": 914946.0,
      "step": 56
    },
    {
      "entropy": 0.5698029845952988,
      "epoch": 0.2130841121495327,
      "grad_norm": 0.04732033982872963,
      "learning_rate": 0.0002,
      "loss": 0.5640438795089722,
      "mean_token_accuracy": 0.7732385843992233,
      "num_tokens": 931100.0,
      "step": 57
    },
    {
      "entropy": 0.5775126665830612,
      "epoch": 0.21682242990654205,
      "grad_norm": 0.04193758964538574,
      "learning_rate": 0.0002,
      "loss": 0.5704541802406311,
      "mean_token_accuracy": 0.7691217958927155,
      "num_tokens": 947448.0,
      "step": 58
    },
    {
      "entropy": 0.5770154148340225,
      "epoch": 0.2205607476635514,
      "grad_norm": 0.035865288227796555,
      "learning_rate": 0.0002,
      "loss": 0.5679229497909546,
      "mean_token_accuracy": 0.7680188864469528,
      "num_tokens": 963902.0,
      "step": 59
    },
    {
      "entropy": 0.5588070899248123,
      "epoch": 0.22429906542056074,
      "grad_norm": 0.04689257591962814,
      "learning_rate": 0.0002,
      "loss": 0.5615048408508301,
      "mean_token_accuracy": 0.7748474776744843,
      "num_tokens": 980180.0,
      "step": 60
    },
    {
      "entropy": 0.57504902780056,
      "epoch": 0.22803738317757008,
      "grad_norm": 0.04198114946484566,
      "learning_rate": 0.0002,
      "loss": 0.577617883682251,
      "mean_token_accuracy": 0.7648669481277466,
      "num_tokens": 996613.0,
      "step": 61
    },
    {
      "entropy": 0.5450393110513687,
      "epoch": 0.23177570093457944,
      "grad_norm": 0.040139347314834595,
      "learning_rate": 0.0002,
      "loss": 0.552120566368103,
      "mean_token_accuracy": 0.7774388641119003,
      "num_tokens": 1012686.0,
      "step": 62
    },
    {
      "entropy": 0.5609021335840225,
      "epoch": 0.23551401869158878,
      "grad_norm": 0.03753409534692764,
      "learning_rate": 0.0002,
      "loss": 0.5530397295951843,
      "mean_token_accuracy": 0.7765212655067444,
      "num_tokens": 1028835.0,
      "step": 63
    },
    {
      "entropy": 0.5794262290000916,
      "epoch": 0.23925233644859814,
      "grad_norm": 0.035354360938072205,
      "learning_rate": 0.0002,
      "loss": 0.5788048505783081,
      "mean_token_accuracy": 0.7663274556398392,
      "num_tokens": 1045176.0,
      "step": 64
    },
    {
      "entropy": 0.5655659288167953,
      "epoch": 0.24299065420560748,
      "grad_norm": 0.03588757663965225,
      "learning_rate": 0.0002,
      "loss": 0.5581645369529724,
      "mean_token_accuracy": 0.7732069790363312,
      "num_tokens": 1061452.0,
      "step": 65
    },
    {
      "entropy": 0.5672483444213867,
      "epoch": 0.2467289719626168,
      "grad_norm": 0.036772388964891434,
      "learning_rate": 0.0002,
      "loss": 0.5631874203681946,
      "mean_token_accuracy": 0.7695926129817963,
      "num_tokens": 1077997.0,
      "step": 66
    },
    {
      "entropy": 0.578306719660759,
      "epoch": 0.2504672897196262,
      "grad_norm": 0.039442483335733414,
      "learning_rate": 0.0002,
      "loss": 0.5765112638473511,
      "mean_token_accuracy": 0.7657738327980042,
      "num_tokens": 1094247.0,
      "step": 67
    },
    {
      "entropy": 0.5700875818729401,
      "epoch": 0.2542056074766355,
      "grad_norm": 0.0448731891810894,
      "learning_rate": 0.0002,
      "loss": 0.574236273765564,
      "mean_token_accuracy": 0.7669749855995178,
      "num_tokens": 1110470.0,
      "step": 68
    },
    {
      "entropy": 0.5609024912118912,
      "epoch": 0.25794392523364484,
      "grad_norm": 0.033255062997341156,
      "learning_rate": 0.0002,
      "loss": 0.5576102137565613,
      "mean_token_accuracy": 0.7776026874780655,
      "num_tokens": 1127050.0,
      "step": 69
    },
    {
      "entropy": 0.5673299431800842,
      "epoch": 0.2616822429906542,
      "grad_norm": 0.03715064004063606,
      "learning_rate": 0.0002,
      "loss": 0.5695099234580994,
      "mean_token_accuracy": 0.7701731324195862,
      "num_tokens": 1143383.0,
      "step": 70
    },
    {
      "entropy": 0.560445249080658,
      "epoch": 0.26542056074766357,
      "grad_norm": 0.04453396797180176,
      "learning_rate": 0.0002,
      "loss": 0.5644095540046692,
      "mean_token_accuracy": 0.7720398306846619,
      "num_tokens": 1159597.0,
      "step": 71
    },
    {
      "entropy": 0.5526476353406906,
      "epoch": 0.2691588785046729,
      "grad_norm": 0.039633698761463165,
      "learning_rate": 0.0002,
      "loss": 0.5499011874198914,
      "mean_token_accuracy": 0.7772456705570221,
      "num_tokens": 1175764.0,
      "step": 72
    },
    {
      "entropy": 0.5623870193958282,
      "epoch": 0.27289719626168224,
      "grad_norm": 0.036508623510599136,
      "learning_rate": 0.0002,
      "loss": 0.5721215009689331,
      "mean_token_accuracy": 0.7691169232130051,
      "num_tokens": 1192041.0,
      "step": 73
    },
    {
      "entropy": 0.5718335658311844,
      "epoch": 0.2766355140186916,
      "grad_norm": 0.044028230011463165,
      "learning_rate": 0.0002,
      "loss": 0.5752332806587219,
      "mean_token_accuracy": 0.7687042653560638,
      "num_tokens": 1208468.0,
      "step": 74
    },
    {
      "entropy": 0.5587927252054214,
      "epoch": 0.2803738317757009,
      "grad_norm": 0.04269316419959068,
      "learning_rate": 0.0002,
      "loss": 0.5531549453735352,
      "mean_token_accuracy": 0.7755036056041718,
      "num_tokens": 1224757.0,
      "step": 75
    },
    {
      "entropy": 0.5787914991378784,
      "epoch": 0.2841121495327103,
      "grad_norm": 0.040728773921728134,
      "learning_rate": 0.0002,
      "loss": 0.5694252252578735,
      "mean_token_accuracy": 0.7696126103401184,
      "num_tokens": 1241162.0,
      "step": 76
    },
    {
      "entropy": 0.5616230517625809,
      "epoch": 0.28785046728971964,
      "grad_norm": 0.037814315408468246,
      "learning_rate": 0.0002,
      "loss": 0.5627362728118896,
      "mean_token_accuracy": 0.7735611200332642,
      "num_tokens": 1257583.0,
      "step": 77
    },
    {
      "entropy": 0.567746564745903,
      "epoch": 0.29158878504672897,
      "grad_norm": 0.03843110799789429,
      "learning_rate": 0.0002,
      "loss": 0.5634809732437134,
      "mean_token_accuracy": 0.7711174041032791,
      "num_tokens": 1274115.0,
      "step": 78
    },
    {
      "entropy": 0.5585684925317764,
      "epoch": 0.2953271028037383,
      "grad_norm": 0.03358754143118858,
      "learning_rate": 0.0002,
      "loss": 0.5604900121688843,
      "mean_token_accuracy": 0.7713887989521027,
      "num_tokens": 1290371.0,
      "step": 79
    },
    {
      "entropy": 0.5650099366903305,
      "epoch": 0.29906542056074764,
      "grad_norm": 0.038185376673936844,
      "learning_rate": 0.0002,
      "loss": 0.5694409608840942,
      "mean_token_accuracy": 0.7706831693649292,
      "num_tokens": 1306602.0,
      "step": 80
    },
    {
      "entropy": 0.5573018193244934,
      "epoch": 0.30280373831775703,
      "grad_norm": 0.04070131108164787,
      "learning_rate": 0.0002,
      "loss": 0.5703440308570862,
      "mean_token_accuracy": 0.771970734000206,
      "num_tokens": 1322957.0,
      "step": 81
    },
    {
      "entropy": 0.545403316617012,
      "epoch": 0.30654205607476637,
      "grad_norm": 0.04340139031410217,
      "learning_rate": 0.0002,
      "loss": 0.5498678088188171,
      "mean_token_accuracy": 0.7774094045162201,
      "num_tokens": 1339233.0,
      "step": 82
    },
    {
      "entropy": 0.5381540507078171,
      "epoch": 0.3102803738317757,
      "grad_norm": 0.039635106921195984,
      "learning_rate": 0.0002,
      "loss": 0.542028546333313,
      "mean_token_accuracy": 0.7835624068975449,
      "num_tokens": 1355463.0,
      "step": 83
    },
    {
      "entropy": 0.5599908977746964,
      "epoch": 0.31401869158878504,
      "grad_norm": 0.039568379521369934,
      "learning_rate": 0.0002,
      "loss": 0.5559767484664917,
      "mean_token_accuracy": 0.7765284180641174,
      "num_tokens": 1371815.0,
      "step": 84
    },
    {
      "entropy": 0.5593477934598923,
      "epoch": 0.3177570093457944,
      "grad_norm": 0.039335861802101135,
      "learning_rate": 0.0002,
      "loss": 0.5506576895713806,
      "mean_token_accuracy": 0.7803503125905991,
      "num_tokens": 1388181.0,
      "step": 85
    },
    {
      "entropy": 0.5572251528501511,
      "epoch": 0.32149532710280376,
      "grad_norm": 0.03665383532643318,
      "learning_rate": 0.0002,
      "loss": 0.5480077862739563,
      "mean_token_accuracy": 0.7788248509168625,
      "num_tokens": 1404584.0,
      "step": 86
    },
    {
      "entropy": 0.5664831250905991,
      "epoch": 0.3252336448598131,
      "grad_norm": 0.040541525930166245,
      "learning_rate": 0.0002,
      "loss": 0.5769516229629517,
      "mean_token_accuracy": 0.7674112915992737,
      "num_tokens": 1420963.0,
      "step": 87
    },
    {
      "entropy": 0.5584649592638016,
      "epoch": 0.32897196261682243,
      "grad_norm": 0.033256057649850845,
      "learning_rate": 0.0002,
      "loss": 0.5648812651634216,
      "mean_token_accuracy": 0.7723092287778854,
      "num_tokens": 1437122.0,
      "step": 88
    },
    {
      "entropy": 0.5519673079252243,
      "epoch": 0.33271028037383177,
      "grad_norm": 0.031988468021154404,
      "learning_rate": 0.0002,
      "loss": 0.551476776599884,
      "mean_token_accuracy": 0.7795782834291458,
      "num_tokens": 1453481.0,
      "step": 89
    },
    {
      "entropy": 0.5844476372003555,
      "epoch": 0.3364485981308411,
      "grad_norm": 0.037734005600214005,
      "learning_rate": 0.0002,
      "loss": 0.5850376486778259,
      "mean_token_accuracy": 0.7618721723556519,
      "num_tokens": 1469968.0,
      "step": 90
    },
    {
      "entropy": 0.5527342259883881,
      "epoch": 0.3401869158878505,
      "grad_norm": 0.03733964264392853,
      "learning_rate": 0.0002,
      "loss": 0.5517382621765137,
      "mean_token_accuracy": 0.7791167348623276,
      "num_tokens": 1486410.0,
      "step": 91
    },
    {
      "entropy": 0.5490231364965439,
      "epoch": 0.34392523364485983,
      "grad_norm": 0.03796572983264923,
      "learning_rate": 0.0002,
      "loss": 0.5472099781036377,
      "mean_token_accuracy": 0.7787582278251648,
      "num_tokens": 1502827.0,
      "step": 92
    },
    {
      "entropy": 0.5654839426279068,
      "epoch": 0.34766355140186916,
      "grad_norm": 0.03400302678346634,
      "learning_rate": 0.0002,
      "loss": 0.5675226449966431,
      "mean_token_accuracy": 0.7715823501348495,
      "num_tokens": 1519035.0,
      "step": 93
    },
    {
      "entropy": 0.5789331346750259,
      "epoch": 0.3514018691588785,
      "grad_norm": 0.03300806134939194,
      "learning_rate": 0.0002,
      "loss": 0.5738787055015564,
      "mean_token_accuracy": 0.7701004296541214,
      "num_tokens": 1535776.0,
      "step": 94
    },
    {
      "entropy": 0.5546596646308899,
      "epoch": 0.35514018691588783,
      "grad_norm": 0.03256770223379135,
      "learning_rate": 0.0002,
      "loss": 0.5567547082901001,
      "mean_token_accuracy": 0.7791133224964142,
      "num_tokens": 1552013.0,
      "step": 95
    },
    {
      "entropy": 0.5764150321483612,
      "epoch": 0.35887850467289717,
      "grad_norm": 0.03291841968894005,
      "learning_rate": 0.0002,
      "loss": 0.5735791921615601,
      "mean_token_accuracy": 0.770502358675003,
      "num_tokens": 1568424.0,
      "step": 96
    },
    {
      "entropy": 0.5675235092639923,
      "epoch": 0.36261682242990656,
      "grad_norm": 0.03169221803545952,
      "learning_rate": 0.0002,
      "loss": 0.567868709564209,
      "mean_token_accuracy": 0.7711145430803299,
      "num_tokens": 1584887.0,
      "step": 97
    },
    {
      "entropy": 0.5626550316810608,
      "epoch": 0.3663551401869159,
      "grad_norm": 0.03811025619506836,
      "learning_rate": 0.0002,
      "loss": 0.5668138265609741,
      "mean_token_accuracy": 0.772192656993866,
      "num_tokens": 1601260.0,
      "step": 98
    },
    {
      "entropy": 0.5581237971782684,
      "epoch": 0.37009345794392523,
      "grad_norm": 0.03798513859510422,
      "learning_rate": 0.0002,
      "loss": 0.5674142241477966,
      "mean_token_accuracy": 0.7706556767225266,
      "num_tokens": 1617528.0,
      "step": 99
    },
    {
      "entropy": 0.5649739503860474,
      "epoch": 0.37383177570093457,
      "grad_norm": 0.03556443750858307,
      "learning_rate": 0.0002,
      "loss": 0.5644899606704712,
      "mean_token_accuracy": 0.7701123207807541,
      "num_tokens": 1633885.0,
      "step": 100
    },
    {
      "entropy": 0.5828528255224228,
      "epoch": 0.3775700934579439,
      "grad_norm": 0.03924545273184776,
      "learning_rate": 0.0002,
      "loss": 0.5804182291030884,
      "mean_token_accuracy": 0.7685290277004242,
      "num_tokens": 1650680.0,
      "step": 101
    },
    {
      "entropy": 0.5504215061664581,
      "epoch": 0.3813084112149533,
      "grad_norm": 0.03934217616915703,
      "learning_rate": 0.0002,
      "loss": 0.5463358163833618,
      "mean_token_accuracy": 0.7797124236822128,
      "num_tokens": 1666866.0,
      "step": 102
    },
    {
      "entropy": 0.5697780549526215,
      "epoch": 0.3850467289719626,
      "grad_norm": 0.03712291270494461,
      "learning_rate": 0.0002,
      "loss": 0.5653584599494934,
      "mean_token_accuracy": 0.7692228257656097,
      "num_tokens": 1683118.0,
      "step": 103
    },
    {
      "entropy": 0.5601143538951874,
      "epoch": 0.38878504672897196,
      "grad_norm": 0.033694274723529816,
      "learning_rate": 0.0002,
      "loss": 0.5663195848464966,
      "mean_token_accuracy": 0.7706973105669022,
      "num_tokens": 1699475.0,
      "step": 104
    },
    {
      "entropy": 0.5591333955526352,
      "epoch": 0.3925233644859813,
      "grad_norm": 0.03714451938867569,
      "learning_rate": 0.0002,
      "loss": 0.566075325012207,
      "mean_token_accuracy": 0.7697228640317917,
      "num_tokens": 1715853.0,
      "step": 105
    },
    {
      "entropy": 0.5509396642446518,
      "epoch": 0.39626168224299063,
      "grad_norm": 0.03486821800470352,
      "learning_rate": 0.0002,
      "loss": 0.5632879734039307,
      "mean_token_accuracy": 0.7730516046285629,
      "num_tokens": 1732170.0,
      "step": 106
    },
    {
      "entropy": 0.5652123540639877,
      "epoch": 0.4,
      "grad_norm": 0.041288331151008606,
      "learning_rate": 0.0002,
      "loss": 0.5604725480079651,
      "mean_token_accuracy": 0.7711915820837021,
      "num_tokens": 1748328.0,
      "step": 107
    },
    {
      "entropy": 0.5530835092067719,
      "epoch": 0.40373831775700936,
      "grad_norm": 0.0322246178984642,
      "learning_rate": 0.0002,
      "loss": 0.5545868277549744,
      "mean_token_accuracy": 0.7774576395750046,
      "num_tokens": 1764582.0,
      "step": 108
    },
    {
      "entropy": 0.574239119887352,
      "epoch": 0.4074766355140187,
      "grad_norm": 0.031295642256736755,
      "learning_rate": 0.0002,
      "loss": 0.5755724906921387,
      "mean_token_accuracy": 0.7669118195772171,
      "num_tokens": 1780985.0,
      "step": 109
    },
    {
      "entropy": 0.5714472681283951,
      "epoch": 0.411214953271028,
      "grad_norm": 0.034113939851522446,
      "learning_rate": 0.0002,
      "loss": 0.565799355506897,
      "mean_token_accuracy": 0.7719277888536453,
      "num_tokens": 1797483.0,
      "step": 110
    },
    {
      "entropy": 0.5522187203168869,
      "epoch": 0.41495327102803736,
      "grad_norm": 0.03207452967762947,
      "learning_rate": 0.0002,
      "loss": 0.5486649870872498,
      "mean_token_accuracy": 0.7786776423454285,
      "num_tokens": 1813763.0,
      "step": 111
    },
    {
      "entropy": 0.5560779720544815,
      "epoch": 0.41869158878504675,
      "grad_norm": 0.0334036760032177,
      "learning_rate": 0.0002,
      "loss": 0.5554910898208618,
      "mean_token_accuracy": 0.7745659798383713,
      "num_tokens": 1829937.0,
      "step": 112
    },
    {
      "entropy": 0.5375554114580154,
      "epoch": 0.4224299065420561,
      "grad_norm": 0.03380579128861427,
      "learning_rate": 0.0002,
      "loss": 0.5416814684867859,
      "mean_token_accuracy": 0.7802845388650894,
      "num_tokens": 1846164.0,
      "step": 113
    },
    {
      "entropy": 0.5589973330497742,
      "epoch": 0.4261682242990654,
      "grad_norm": 0.03403402864933014,
      "learning_rate": 0.0002,
      "loss": 0.5650242567062378,
      "mean_token_accuracy": 0.7712521702051163,
      "num_tokens": 1862080.0,
      "step": 114
    },
    {
      "entropy": 0.5673896223306656,
      "epoch": 0.42990654205607476,
      "grad_norm": 0.03260383754968643,
      "learning_rate": 0.0002,
      "loss": 0.5664341449737549,
      "mean_token_accuracy": 0.7702513486146927,
      "num_tokens": 1878608.0,
      "step": 115
    },
    {
      "entropy": 0.572798103094101,
      "epoch": 0.4336448598130841,
      "grad_norm": 0.03137151151895523,
      "learning_rate": 0.0002,
      "loss": 0.5731777548789978,
      "mean_token_accuracy": 0.7663247585296631,
      "num_tokens": 1895166.0,
      "step": 116
    },
    {
      "entropy": 0.5312000960111618,
      "epoch": 0.4373831775700935,
      "grad_norm": 0.031823012977838516,
      "learning_rate": 0.0002,
      "loss": 0.5382552742958069,
      "mean_token_accuracy": 0.7808444052934647,
      "num_tokens": 1911130.0,
      "step": 117
    },
    {
      "entropy": 0.5409984290599823,
      "epoch": 0.4411214953271028,
      "grad_norm": 0.03332378715276718,
      "learning_rate": 0.0002,
      "loss": 0.5410414934158325,
      "mean_token_accuracy": 0.7819060832262039,
      "num_tokens": 1927264.0,
      "step": 118
    },
    {
      "entropy": 0.5695091038942337,
      "epoch": 0.44485981308411215,
      "grad_norm": 0.03380680829286575,
      "learning_rate": 0.0002,
      "loss": 0.5648797154426575,
      "mean_token_accuracy": 0.7696678340435028,
      "num_tokens": 1943766.0,
      "step": 119
    },
    {
      "entropy": 0.5565821528434753,
      "epoch": 0.4485981308411215,
      "grad_norm": 0.02917688526213169,
      "learning_rate": 0.0002,
      "loss": 0.5566266179084778,
      "mean_token_accuracy": 0.7743457108736038,
      "num_tokens": 1959998.0,
      "step": 120
    },
    {
      "entropy": 0.5624082386493683,
      "epoch": 0.4523364485981308,
      "grad_norm": 0.03372650966048241,
      "learning_rate": 0.0002,
      "loss": 0.5673832297325134,
      "mean_token_accuracy": 0.7714631706476212,
      "num_tokens": 1976438.0,
      "step": 121
    },
    {
      "entropy": 0.5652057379484177,
      "epoch": 0.45607476635514016,
      "grad_norm": 0.031156128272414207,
      "learning_rate": 0.0002,
      "loss": 0.5634032487869263,
      "mean_token_accuracy": 0.7731290906667709,
      "num_tokens": 1992993.0,
      "step": 122
    },
    {
      "entropy": 0.5621330291032791,
      "epoch": 0.45981308411214955,
      "grad_norm": 0.03159690275788307,
      "learning_rate": 0.0002,
      "loss": 0.5597059726715088,
      "mean_token_accuracy": 0.7743693888187408,
      "num_tokens": 2009294.0,
      "step": 123
    },
    {
      "entropy": 0.558076485991478,
      "epoch": 0.4635514018691589,
      "grad_norm": 0.032280728220939636,
      "learning_rate": 0.0002,
      "loss": 0.561931312084198,
      "mean_token_accuracy": 0.7742635309696198,
      "num_tokens": 2025544.0,
      "step": 124
    },
    {
      "entropy": 0.5441709458827972,
      "epoch": 0.4672897196261682,
      "grad_norm": 0.03219074383378029,
      "learning_rate": 0.0002,
      "loss": 0.5506591200828552,
      "mean_token_accuracy": 0.7746744006872177,
      "num_tokens": 2041666.0,
      "step": 125
    },
    {
      "entropy": 0.5633633583784103,
      "epoch": 0.47102803738317756,
      "grad_norm": 0.03131939098238945,
      "learning_rate": 0.0002,
      "loss": 0.5623766183853149,
      "mean_token_accuracy": 0.7734539210796356,
      "num_tokens": 2057983.0,
      "step": 126
    },
    {
      "entropy": 0.5601471066474915,
      "epoch": 0.4747663551401869,
      "grad_norm": 0.03067948669195175,
      "learning_rate": 0.0002,
      "loss": 0.5621774196624756,
      "mean_token_accuracy": 0.7716772705316544,
      "num_tokens": 2074261.0,
      "step": 127
    },
    {
      "entropy": 0.5540204495191574,
      "epoch": 0.4785046728971963,
      "grad_norm": 0.03339416906237602,
      "learning_rate": 0.0002,
      "loss": 0.548160970211029,
      "mean_token_accuracy": 0.7764931470155716,
      "num_tokens": 2090516.0,
      "step": 128
    },
    {
      "entropy": 0.552289143204689,
      "epoch": 0.4822429906542056,
      "grad_norm": 0.031481482088565826,
      "learning_rate": 0.0002,
      "loss": 0.5535706877708435,
      "mean_token_accuracy": 0.7739048302173615,
      "num_tokens": 2106672.0,
      "step": 129
    },
    {
      "entropy": 0.5568640977144241,
      "epoch": 0.48598130841121495,
      "grad_norm": 0.028559116646647453,
      "learning_rate": 0.0002,
      "loss": 0.5580005645751953,
      "mean_token_accuracy": 0.7733460515737534,
      "num_tokens": 2123117.0,
      "step": 130
    },
    {
      "entropy": 0.5648922473192215,
      "epoch": 0.4897196261682243,
      "grad_norm": 0.029422340914607048,
      "learning_rate": 0.0002,
      "loss": 0.5628851056098938,
      "mean_token_accuracy": 0.7712086588144302,
      "num_tokens": 2139369.0,
      "step": 131
    },
    {
      "entropy": 0.5373547673225403,
      "epoch": 0.4934579439252336,
      "grad_norm": 0.030260303989052773,
      "learning_rate": 0.0002,
      "loss": 0.541597843170166,
      "mean_token_accuracy": 0.7806773632764816,
      "num_tokens": 2155734.0,
      "step": 132
    },
    {
      "entropy": 0.5263249725103378,
      "epoch": 0.497196261682243,
      "grad_norm": 0.03478972613811493,
      "learning_rate": 0.0002,
      "loss": 0.5312929153442383,
      "mean_token_accuracy": 0.7852403372526169,
      "num_tokens": 2171760.0,
      "step": 133
    },
    {
      "entropy": 0.5605382472276688,
      "epoch": 0.5009345794392523,
      "grad_norm": 0.033430542796850204,
      "learning_rate": 0.0002,
      "loss": 0.5653795599937439,
      "mean_token_accuracy": 0.7712585926055908,
      "num_tokens": 2188007.0,
      "step": 134
    },
    {
      "entropy": 0.5739341080188751,
      "epoch": 0.5046728971962616,
      "grad_norm": 0.030662760138511658,
      "learning_rate": 0.0002,
      "loss": 0.5707223415374756,
      "mean_token_accuracy": 0.7689347118139267,
      "num_tokens": 2204304.0,
      "step": 135
    },
    {
      "entropy": 0.5562440007925034,
      "epoch": 0.508411214953271,
      "grad_norm": 0.029425745829939842,
      "learning_rate": 0.0002,
      "loss": 0.5517452955245972,
      "mean_token_accuracy": 0.7767287492752075,
      "num_tokens": 2220312.0,
      "step": 136
    },
    {
      "entropy": 0.5788603723049164,
      "epoch": 0.5121495327102804,
      "grad_norm": 0.033554431051015854,
      "learning_rate": 0.0002,
      "loss": 0.5720421075820923,
      "mean_token_accuracy": 0.7664643228054047,
      "num_tokens": 2236563.0,
      "step": 137
    },
    {
      "entropy": 0.558774933218956,
      "epoch": 0.5158878504672897,
      "grad_norm": 0.035832736641168594,
      "learning_rate": 0.0002,
      "loss": 0.559954822063446,
      "mean_token_accuracy": 0.7725366801023483,
      "num_tokens": 2252830.0,
      "step": 138
    },
    {
      "entropy": 0.554543524980545,
      "epoch": 0.5196261682242991,
      "grad_norm": 0.03428984060883522,
      "learning_rate": 0.0002,
      "loss": 0.5592023730278015,
      "mean_token_accuracy": 0.772834375500679,
      "num_tokens": 2269287.0,
      "step": 139
    },
    {
      "entropy": 0.5500677078962326,
      "epoch": 0.5233644859813084,
      "grad_norm": 0.035624898970127106,
      "learning_rate": 0.0002,
      "loss": 0.5614656209945679,
      "mean_token_accuracy": 0.7710914462804794,
      "num_tokens": 2285456.0,
      "step": 140
    },
    {
      "entropy": 0.5587853938341141,
      "epoch": 0.5271028037383177,
      "grad_norm": 0.03407886624336243,
      "learning_rate": 0.0002,
      "loss": 0.5605294704437256,
      "mean_token_accuracy": 0.7720634043216705,
      "num_tokens": 2301539.0,
      "step": 141
    },
    {
      "entropy": 0.5649153292179108,
      "epoch": 0.5308411214953271,
      "grad_norm": 0.028877010568976402,
      "learning_rate": 0.0002,
      "loss": 0.5598087310791016,
      "mean_token_accuracy": 0.7749214172363281,
      "num_tokens": 2317846.0,
      "step": 142
    },
    {
      "entropy": 0.5670332461595535,
      "epoch": 0.5345794392523364,
      "grad_norm": 0.03278481960296631,
      "learning_rate": 0.0002,
      "loss": 0.5650190114974976,
      "mean_token_accuracy": 0.7726317644119263,
      "num_tokens": 2334166.0,
      "step": 143
    },
    {
      "entropy": 0.5582242161035538,
      "epoch": 0.5383177570093458,
      "grad_norm": 0.033217303454875946,
      "learning_rate": 0.0002,
      "loss": 0.56020587682724,
      "mean_token_accuracy": 0.7734358310699463,
      "num_tokens": 2350590.0,
      "step": 144
    },
    {
      "entropy": 0.5491778552532196,
      "epoch": 0.5420560747663551,
      "grad_norm": 0.030532008036971092,
      "learning_rate": 0.0002,
      "loss": 0.5535258650779724,
      "mean_token_accuracy": 0.7728464603424072,
      "num_tokens": 2367000.0,
      "step": 145
    },
    {
      "entropy": 0.5495235919952393,
      "epoch": 0.5457943925233645,
      "grad_norm": 0.03000551462173462,
      "learning_rate": 0.0002,
      "loss": 0.549593448638916,
      "mean_token_accuracy": 0.7776431441307068,
      "num_tokens": 2383493.0,
      "step": 146
    },
    {
      "entropy": 0.5404796749353409,
      "epoch": 0.5495327102803739,
      "grad_norm": 0.03362047299742699,
      "learning_rate": 0.0002,
      "loss": 0.5460700392723083,
      "mean_token_accuracy": 0.7808279991149902,
      "num_tokens": 2399803.0,
      "step": 147
    },
    {
      "entropy": 0.5644742697477341,
      "epoch": 0.5532710280373832,
      "grad_norm": 0.031069470569491386,
      "learning_rate": 0.0002,
      "loss": 0.5680921077728271,
      "mean_token_accuracy": 0.7682847529649734,
      "num_tokens": 2416029.0,
      "step": 148
    },
    {
      "entropy": 0.548800989985466,
      "epoch": 0.5570093457943925,
      "grad_norm": 0.027548154816031456,
      "learning_rate": 0.0002,
      "loss": 0.5483176708221436,
      "mean_token_accuracy": 0.7775937616825104,
      "num_tokens": 2432412.0,
      "step": 149
    },
    {
      "entropy": 0.5704467445611954,
      "epoch": 0.5607476635514018,
      "grad_norm": 0.032674722373485565,
      "learning_rate": 0.0002,
      "loss": 0.5650383830070496,
      "mean_token_accuracy": 0.7691423147916794,
      "num_tokens": 2448801.0,
      "step": 150
    },
    {
      "entropy": 0.5737617313861847,
      "epoch": 0.5644859813084112,
      "grad_norm": 0.02663569711148739,
      "learning_rate": 0.0002,
      "loss": 0.5644318461418152,
      "mean_token_accuracy": 0.7708285748958588,
      "num_tokens": 2465024.0,
      "step": 151
    },
    {
      "entropy": 0.5562496334314346,
      "epoch": 0.5682242990654206,
      "grad_norm": 0.03284625709056854,
      "learning_rate": 0.0002,
      "loss": 0.5537476539611816,
      "mean_token_accuracy": 0.7753592431545258,
      "num_tokens": 2481162.0,
      "step": 152
    },
    {
      "entropy": 0.5587188154459,
      "epoch": 0.5719626168224299,
      "grad_norm": 0.035413194447755814,
      "learning_rate": 0.0002,
      "loss": 0.5652291178703308,
      "mean_token_accuracy": 0.7711132764816284,
      "num_tokens": 2497543.0,
      "step": 153
    },
    {
      "entropy": 0.5715966671705246,
      "epoch": 0.5757009345794393,
      "grad_norm": 0.030816730111837387,
      "learning_rate": 0.0002,
      "loss": 0.5740691423416138,
      "mean_token_accuracy": 0.767062708735466,
      "num_tokens": 2513719.0,
      "step": 154
    },
    {
      "entropy": 0.5732139945030212,
      "epoch": 0.5794392523364486,
      "grad_norm": 0.031442996114492416,
      "learning_rate": 0.0002,
      "loss": 0.575890302658081,
      "mean_token_accuracy": 0.7688509374856949,
      "num_tokens": 2529964.0,
      "step": 155
    },
    {
      "entropy": 0.5707177966833115,
      "epoch": 0.5831775700934579,
      "grad_norm": 0.029468102380633354,
      "learning_rate": 0.0002,
      "loss": 0.5684511661529541,
      "mean_token_accuracy": 0.7719237357378006,
      "num_tokens": 2546476.0,
      "step": 156
    },
    {
      "entropy": 0.5587103515863419,
      "epoch": 0.5869158878504673,
      "grad_norm": 0.031475260853767395,
      "learning_rate": 0.0002,
      "loss": 0.5583993792533875,
      "mean_token_accuracy": 0.7759029716253281,
      "num_tokens": 2562728.0,
      "step": 157
    },
    {
      "entropy": 0.574567124247551,
      "epoch": 0.5906542056074766,
      "grad_norm": 0.03264502063393593,
      "learning_rate": 0.0002,
      "loss": 0.5683896541595459,
      "mean_token_accuracy": 0.7703035026788712,
      "num_tokens": 2578973.0,
      "step": 158
    },
    {
      "entropy": 0.5552074015140533,
      "epoch": 0.594392523364486,
      "grad_norm": 0.032595545053482056,
      "learning_rate": 0.0002,
      "loss": 0.5574095249176025,
      "mean_token_accuracy": 0.7743780612945557,
      "num_tokens": 2595151.0,
      "step": 159
    },
    {
      "entropy": 0.5568316876888275,
      "epoch": 0.5981308411214953,
      "grad_norm": 0.033984988927841187,
      "learning_rate": 0.0002,
      "loss": 0.5642867088317871,
      "mean_token_accuracy": 0.7713010758161545,
      "num_tokens": 2611492.0,
      "step": 160
    },
    {
      "entropy": 0.5599596947431564,
      "epoch": 0.6018691588785047,
      "grad_norm": 0.031165285035967827,
      "learning_rate": 0.0002,
      "loss": 0.5589022636413574,
      "mean_token_accuracy": 0.7745718359947205,
      "num_tokens": 2628012.0,
      "step": 161
    },
    {
      "entropy": 0.5476372390985489,
      "epoch": 0.6056074766355141,
      "grad_norm": 0.0300962645560503,
      "learning_rate": 0.0002,
      "loss": 0.5493466258049011,
      "mean_token_accuracy": 0.7759741544723511,
      "num_tokens": 2644335.0,
      "step": 162
    },
    {
      "entropy": 0.5408246964216232,
      "epoch": 0.6093457943925233,
      "grad_norm": 0.03227512910962105,
      "learning_rate": 0.0002,
      "loss": 0.5468109846115112,
      "mean_token_accuracy": 0.7807517051696777,
      "num_tokens": 2660464.0,
      "step": 163
    },
    {
      "entropy": 0.5610683709383011,
      "epoch": 0.6130841121495327,
      "grad_norm": 0.033202771097421646,
      "learning_rate": 0.0002,
      "loss": 0.5660794377326965,
      "mean_token_accuracy": 0.7704542577266693,
      "num_tokens": 2676703.0,
      "step": 164
    },
    {
      "entropy": 0.556282252073288,
      "epoch": 0.616822429906542,
      "grad_norm": 0.030140740796923637,
      "learning_rate": 0.0002,
      "loss": 0.5595802664756775,
      "mean_token_accuracy": 0.7701904326677322,
      "num_tokens": 2692980.0,
      "step": 165
    },
    {
      "entropy": 0.5742812305688858,
      "epoch": 0.6205607476635514,
      "grad_norm": 0.031175116077065468,
      "learning_rate": 0.0002,
      "loss": 0.5679398775100708,
      "mean_token_accuracy": 0.7715850621461868,
      "num_tokens": 2709458.0,
      "step": 166
    },
    {
      "entropy": 0.5686928480863571,
      "epoch": 0.6242990654205608,
      "grad_norm": 0.03218809515237808,
      "learning_rate": 0.0002,
      "loss": 0.570385217666626,
      "mean_token_accuracy": 0.7703390866518021,
      "num_tokens": 2725878.0,
      "step": 167
    },
    {
      "entropy": 0.5649634599685669,
      "epoch": 0.6280373831775701,
      "grad_norm": 0.03405897319316864,
      "learning_rate": 0.0002,
      "loss": 0.5623840093612671,
      "mean_token_accuracy": 0.7718164473772049,
      "num_tokens": 2742230.0,
      "step": 168
    },
    {
      "entropy": 0.54586461186409,
      "epoch": 0.6317757009345795,
      "grad_norm": 0.030788332223892212,
      "learning_rate": 0.0002,
      "loss": 0.5481584072113037,
      "mean_token_accuracy": 0.7789210081100464,
      "num_tokens": 2758288.0,
      "step": 169
    },
    {
      "entropy": 0.5519826114177704,
      "epoch": 0.6355140186915887,
      "grad_norm": 0.0393390953540802,
      "learning_rate": 0.0002,
      "loss": 0.5614264607429504,
      "mean_token_accuracy": 0.7715797126293182,
      "num_tokens": 2774621.0,
      "step": 170
    },
    {
      "entropy": 0.5494296550750732,
      "epoch": 0.6392523364485981,
      "grad_norm": 0.03524143248796463,
      "learning_rate": 0.0002,
      "loss": 0.5467370748519897,
      "mean_token_accuracy": 0.7793298810720444,
      "num_tokens": 2790715.0,
      "step": 171
    },
    {
      "entropy": 0.5330041199922562,
      "epoch": 0.6429906542056075,
      "grad_norm": 0.03651867434382439,
      "learning_rate": 0.0002,
      "loss": 0.539812445640564,
      "mean_token_accuracy": 0.7808443903923035,
      "num_tokens": 2806717.0,
      "step": 172
    },
    {
      "entropy": 0.5453702062368393,
      "epoch": 0.6467289719626168,
      "grad_norm": 0.03462547808885574,
      "learning_rate": 0.0002,
      "loss": 0.5413773655891418,
      "mean_token_accuracy": 0.7798687964677811,
      "num_tokens": 2823284.0,
      "step": 173
    },
    {
      "entropy": 0.5685944706201553,
      "epoch": 0.6504672897196262,
      "grad_norm": 0.028748901560902596,
      "learning_rate": 0.0002,
      "loss": 0.5659922361373901,
      "mean_token_accuracy": 0.7701825350522995,
      "num_tokens": 2839827.0,
      "step": 174
    },
    {
      "entropy": 0.5635224878787994,
      "epoch": 0.6542056074766355,
      "grad_norm": 0.02829919010400772,
      "learning_rate": 0.0002,
      "loss": 0.5650316476821899,
      "mean_token_accuracy": 0.7709458023309708,
      "num_tokens": 2856136.0,
      "step": 175
    },
    {
      "entropy": 0.5540378838777542,
      "epoch": 0.6579439252336449,
      "grad_norm": 0.033104948699474335,
      "learning_rate": 0.0002,
      "loss": 0.5580451488494873,
      "mean_token_accuracy": 0.7731391340494156,
      "num_tokens": 2872416.0,
      "step": 176
    },
    {
      "entropy": 0.5654754340648651,
      "epoch": 0.6616822429906543,
      "grad_norm": 0.03393986448645592,
      "learning_rate": 0.0002,
      "loss": 0.566604733467102,
      "mean_token_accuracy": 0.768456295132637,
      "num_tokens": 2888732.0,
      "step": 177
    },
    {
      "entropy": 0.538336843252182,
      "epoch": 0.6654205607476635,
      "grad_norm": 0.031724728643894196,
      "learning_rate": 0.0002,
      "loss": 0.5347487926483154,
      "mean_token_accuracy": 0.783712849020958,
      "num_tokens": 2904747.0,
      "step": 178
    },
    {
      "entropy": 0.563370868563652,
      "epoch": 0.6691588785046729,
      "grad_norm": 0.028497006744146347,
      "learning_rate": 0.0002,
      "loss": 0.5567288398742676,
      "mean_token_accuracy": 0.7762446701526642,
      "num_tokens": 2921642.0,
      "step": 179
    },
    {
      "entropy": 0.5554675310850143,
      "epoch": 0.6728971962616822,
      "grad_norm": 0.027588432654738426,
      "learning_rate": 0.0002,
      "loss": 0.5539284348487854,
      "mean_token_accuracy": 0.7720596343278885,
      "num_tokens": 2938231.0,
      "step": 180
    },
    {
      "entropy": 0.5351214110851288,
      "epoch": 0.6766355140186916,
      "grad_norm": 0.02989763207733631,
      "learning_rate": 0.0002,
      "loss": 0.5380938053131104,
      "mean_token_accuracy": 0.7797621339559555,
      "num_tokens": 2954651.0,
      "step": 181
    },
    {
      "entropy": 0.5512963533401489,
      "epoch": 0.680373831775701,
      "grad_norm": 0.031486768275499344,
      "learning_rate": 0.0002,
      "loss": 0.559045672416687,
      "mean_token_accuracy": 0.7730693370103836,
      "num_tokens": 2970900.0,
      "step": 182
    },
    {
      "entropy": 0.5643429905176163,
      "epoch": 0.6841121495327103,
      "grad_norm": 0.030211007222533226,
      "learning_rate": 0.0002,
      "loss": 0.5652138590812683,
      "mean_token_accuracy": 0.7722145467996597,
      "num_tokens": 2987276.0,
      "step": 183
    },
    {
      "entropy": 0.5449773222208023,
      "epoch": 0.6878504672897197,
      "grad_norm": 0.03100084885954857,
      "learning_rate": 0.0002,
      "loss": 0.5516652464866638,
      "mean_token_accuracy": 0.7781905680894852,
      "num_tokens": 3003582.0,
      "step": 184
    },
    {
      "entropy": 0.5534535795450211,
      "epoch": 0.6915887850467289,
      "grad_norm": 0.029445704072713852,
      "learning_rate": 0.0002,
      "loss": 0.549251914024353,
      "mean_token_accuracy": 0.7758228182792664,
      "num_tokens": 3019792.0,
      "step": 185
    },
    {
      "entropy": 0.5563573390245438,
      "epoch": 0.6953271028037383,
      "grad_norm": 0.03839804232120514,
      "learning_rate": 0.0002,
      "loss": 0.5603447556495667,
      "mean_token_accuracy": 0.7714342921972275,
      "num_tokens": 3035807.0,
      "step": 186
    },
    {
      "entropy": 0.538311779499054,
      "epoch": 0.6990654205607477,
      "grad_norm": 0.03146633878350258,
      "learning_rate": 0.0002,
      "loss": 0.5352146625518799,
      "mean_token_accuracy": 0.7827797681093216,
      "num_tokens": 3051838.0,
      "step": 187
    },
    {
      "entropy": 0.5633413791656494,
      "epoch": 0.702803738317757,
      "grad_norm": 0.02970045432448387,
      "learning_rate": 0.0002,
      "loss": 0.558843195438385,
      "mean_token_accuracy": 0.774773895740509,
      "num_tokens": 3068298.0,
      "step": 188
    },
    {
      "entropy": 0.5590213239192963,
      "epoch": 0.7065420560747664,
      "grad_norm": 0.030248312279582024,
      "learning_rate": 0.0002,
      "loss": 0.5594462156295776,
      "mean_token_accuracy": 0.7730938643217087,
      "num_tokens": 3084742.0,
      "step": 189
    },
    {
      "entropy": 0.5729488730430603,
      "epoch": 0.7102803738317757,
      "grad_norm": 0.02910761535167694,
      "learning_rate": 0.0002,
      "loss": 0.5710701942443848,
      "mean_token_accuracy": 0.7694995701313019,
      "num_tokens": 3101166.0,
      "step": 190
    },
    {
      "entropy": 0.5414529591798782,
      "epoch": 0.7140186915887851,
      "grad_norm": 0.030337564647197723,
      "learning_rate": 0.0002,
      "loss": 0.5447859168052673,
      "mean_token_accuracy": 0.7779805213212967,
      "num_tokens": 3117310.0,
      "step": 191
    },
    {
      "entropy": 0.5537209510803223,
      "epoch": 0.7177570093457943,
      "grad_norm": 0.03048059716820717,
      "learning_rate": 0.0002,
      "loss": 0.5590298771858215,
      "mean_token_accuracy": 0.7726654410362244,
      "num_tokens": 3133530.0,
      "step": 192
    },
    {
      "entropy": 0.5551200062036514,
      "epoch": 0.7214953271028037,
      "grad_norm": 0.03023671731352806,
      "learning_rate": 0.0002,
      "loss": 0.5620648860931396,
      "mean_token_accuracy": 0.7735067456960678,
      "num_tokens": 3149663.0,
      "step": 193
    },
    {
      "entropy": 0.5674590468406677,
      "epoch": 0.7252336448598131,
      "grad_norm": 0.0296547319740057,
      "learning_rate": 0.0002,
      "loss": 0.5588228702545166,
      "mean_token_accuracy": 0.7742174565792084,
      "num_tokens": 3166066.0,
      "step": 194
    },
    {
      "entropy": 0.5779262185096741,
      "epoch": 0.7289719626168224,
      "grad_norm": 0.028214752674102783,
      "learning_rate": 0.0002,
      "loss": 0.572249710559845,
      "mean_token_accuracy": 0.7688845992088318,
      "num_tokens": 3182640.0,
      "step": 195
    },
    {
      "entropy": 0.540147215127945,
      "epoch": 0.7327102803738318,
      "grad_norm": 0.027666175737977028,
      "learning_rate": 0.0002,
      "loss": 0.5338530540466309,
      "mean_token_accuracy": 0.7832302153110504,
      "num_tokens": 3198796.0,
      "step": 196
    },
    {
      "entropy": 0.5551275163888931,
      "epoch": 0.7364485981308411,
      "grad_norm": 0.034123752266168594,
      "learning_rate": 0.0002,
      "loss": 0.5622342824935913,
      "mean_token_accuracy": 0.7688822001218796,
      "num_tokens": 3214771.0,
      "step": 197
    },
    {
      "entropy": 0.5611921101808548,
      "epoch": 0.7401869158878505,
      "grad_norm": 0.02890852838754654,
      "learning_rate": 0.0002,
      "loss": 0.5630607604980469,
      "mean_token_accuracy": 0.7698909342288971,
      "num_tokens": 3231278.0,
      "step": 198
    },
    {
      "entropy": 0.5426182597875595,
      "epoch": 0.7439252336448599,
      "grad_norm": 0.029497232288122177,
      "learning_rate": 0.0002,
      "loss": 0.5449106097221375,
      "mean_token_accuracy": 0.7783599495887756,
      "num_tokens": 3247627.0,
      "step": 199
    },
    {
      "entropy": 0.5460454076528549,
      "epoch": 0.7476635514018691,
      "grad_norm": 0.03151922672986984,
      "learning_rate": 0.0002,
      "loss": 0.5513307452201843,
      "mean_token_accuracy": 0.7761969566345215,
      "num_tokens": 3263818.0,
      "step": 200
    },
    {
      "entropy": 0.5589698106050491,
      "epoch": 0.7514018691588785,
      "grad_norm": 0.028974369168281555,
      "learning_rate": 0.0002,
      "loss": 0.5579357147216797,
      "mean_token_accuracy": 0.7737255245447159,
      "num_tokens": 3279922.0,
      "step": 201
    },
    {
      "entropy": 0.553888663649559,
      "epoch": 0.7551401869158878,
      "grad_norm": 0.026153914630413055,
      "learning_rate": 0.0002,
      "loss": 0.550652027130127,
      "mean_token_accuracy": 0.7776264399290085,
      "num_tokens": 3296366.0,
      "step": 202
    },
    {
      "entropy": 0.5686471164226532,
      "epoch": 0.7588785046728972,
      "grad_norm": 0.028719555586576462,
      "learning_rate": 0.0002,
      "loss": 0.566332221031189,
      "mean_token_accuracy": 0.7694560885429382,
      "num_tokens": 3312940.0,
      "step": 203
    },
    {
      "entropy": 0.5482725948095322,
      "epoch": 0.7626168224299066,
      "grad_norm": 0.031571801751852036,
      "learning_rate": 0.0002,
      "loss": 0.5515249967575073,
      "mean_token_accuracy": 0.7790126353502274,
      "num_tokens": 3329137.0,
      "step": 204
    },
    {
      "entropy": 0.5548627823591232,
      "epoch": 0.7663551401869159,
      "grad_norm": 0.03189053386449814,
      "learning_rate": 0.0002,
      "loss": 0.5633711218833923,
      "mean_token_accuracy": 0.7717642784118652,
      "num_tokens": 3345223.0,
      "step": 205
    },
    {
      "entropy": 0.5403945446014404,
      "epoch": 0.7700934579439253,
      "grad_norm": 0.03444300964474678,
      "learning_rate": 0.0002,
      "loss": 0.5441574454307556,
      "mean_token_accuracy": 0.7791598290205002,
      "num_tokens": 3361512.0,
      "step": 206
    },
    {
      "entropy": 0.5523678362369537,
      "epoch": 0.7738317757009345,
      "grad_norm": 0.027761496603488922,
      "learning_rate": 0.0002,
      "loss": 0.5582634210586548,
      "mean_token_accuracy": 0.7723374962806702,
      "num_tokens": 3377859.0,
      "step": 207
    },
    {
      "entropy": 0.5723598301410675,
      "epoch": 0.7775700934579439,
      "grad_norm": 0.028997788205742836,
      "learning_rate": 0.0002,
      "loss": 0.5705980658531189,
      "mean_token_accuracy": 0.7668357789516449,
      "num_tokens": 3394399.0,
      "step": 208
    },
    {
      "entropy": 0.5796838849782944,
      "epoch": 0.7813084112149533,
      "grad_norm": 0.03271174803376198,
      "learning_rate": 0.0002,
      "loss": 0.5698305368423462,
      "mean_token_accuracy": 0.7698051035404205,
      "num_tokens": 3410824.0,
      "step": 209
    },
    {
      "entropy": 0.5651015788316727,
      "epoch": 0.7850467289719626,
      "grad_norm": 0.031869035214185715,
      "learning_rate": 0.0002,
      "loss": 0.5655361413955688,
      "mean_token_accuracy": 0.7697497308254242,
      "num_tokens": 3426955.0,
      "step": 210
    },
    {
      "entropy": 0.5639242976903915,
      "epoch": 0.788785046728972,
      "grad_norm": 0.026541458442807198,
      "learning_rate": 0.0002,
      "loss": 0.5636979341506958,
      "mean_token_accuracy": 0.7697752565145493,
      "num_tokens": 3443406.0,
      "step": 211
    },
    {
      "entropy": 0.5432985424995422,
      "epoch": 0.7925233644859813,
      "grad_norm": 0.032391466200351715,
      "learning_rate": 0.0002,
      "loss": 0.5466354489326477,
      "mean_token_accuracy": 0.7787620276212692,
      "num_tokens": 3459857.0,
      "step": 212
    },
    {
      "entropy": 0.546247586607933,
      "epoch": 0.7962616822429907,
      "grad_norm": 0.03624865412712097,
      "learning_rate": 0.0002,
      "loss": 0.5477287769317627,
      "mean_token_accuracy": 0.7784061878919601,
      "num_tokens": 3476064.0,
      "step": 213
    },
    {
      "entropy": 0.5712321698665619,
      "epoch": 0.8,
      "grad_norm": 0.027368342503905296,
      "learning_rate": 0.0002,
      "loss": 0.5628222823143005,
      "mean_token_accuracy": 0.7711902260780334,
      "num_tokens": 3492569.0,
      "step": 214
    },
    {
      "entropy": 0.5511522740125656,
      "epoch": 0.8037383177570093,
      "grad_norm": 0.0314224548637867,
      "learning_rate": 0.0002,
      "loss": 0.546245813369751,
      "mean_token_accuracy": 0.777819886803627,
      "num_tokens": 3508946.0,
      "step": 215
    },
    {
      "entropy": 0.5641316920518875,
      "epoch": 0.8074766355140187,
      "grad_norm": 0.02934875525534153,
      "learning_rate": 0.0002,
      "loss": 0.5656546354293823,
      "mean_token_accuracy": 0.7672451436519623,
      "num_tokens": 3525415.0,
      "step": 216
    },
    {
      "entropy": 0.5616082847118378,
      "epoch": 0.811214953271028,
      "grad_norm": 0.027262428775429726,
      "learning_rate": 0.0002,
      "loss": 0.5606979131698608,
      "mean_token_accuracy": 0.7726116627454758,
      "num_tokens": 3541513.0,
      "step": 217
    },
    {
      "entropy": 0.5319297313690186,
      "epoch": 0.8149532710280374,
      "grad_norm": 0.02967401221394539,
      "learning_rate": 0.0002,
      "loss": 0.5409149527549744,
      "mean_token_accuracy": 0.7806787341833115,
      "num_tokens": 3557840.0,
      "step": 218
    },
    {
      "entropy": 0.5461787581443787,
      "epoch": 0.8186915887850468,
      "grad_norm": 0.03170184791088104,
      "learning_rate": 0.0002,
      "loss": 0.5544174313545227,
      "mean_token_accuracy": 0.7753637731075287,
      "num_tokens": 3574334.0,
      "step": 219
    },
    {
      "entropy": 0.5393616706132889,
      "epoch": 0.822429906542056,
      "grad_norm": 0.02985682338476181,
      "learning_rate": 0.0002,
      "loss": 0.5457973480224609,
      "mean_token_accuracy": 0.7773662656545639,
      "num_tokens": 3590741.0,
      "step": 220
    },
    {
      "entropy": 0.5554001927375793,
      "epoch": 0.8261682242990654,
      "grad_norm": 0.02711213380098343,
      "learning_rate": 0.0002,
      "loss": 0.555370569229126,
      "mean_token_accuracy": 0.7716074883937836,
      "num_tokens": 3607018.0,
      "step": 221
    },
    {
      "entropy": 0.5483701378107071,
      "epoch": 0.8299065420560747,
      "grad_norm": 0.029320966452360153,
      "learning_rate": 0.0002,
      "loss": 0.5421203970909119,
      "mean_token_accuracy": 0.7806040942668915,
      "num_tokens": 3623209.0,
      "step": 222
    },
    {
      "entropy": 0.5777206718921661,
      "epoch": 0.8336448598130841,
      "grad_norm": 0.030610879883170128,
      "learning_rate": 0.0002,
      "loss": 0.5738532543182373,
      "mean_token_accuracy": 0.7664468586444855,
      "num_tokens": 3639406.0,
      "step": 223
    },
    {
      "entropy": 0.5567807406187057,
      "epoch": 0.8373831775700935,
      "grad_norm": 0.028399785980582237,
      "learning_rate": 0.0002,
      "loss": 0.5526878237724304,
      "mean_token_accuracy": 0.773535892367363,
      "num_tokens": 3655602.0,
      "step": 224
    },
    {
      "entropy": 0.530220165848732,
      "epoch": 0.8411214953271028,
      "grad_norm": 0.03518186882138252,
      "learning_rate": 0.0002,
      "loss": 0.5408585667610168,
      "mean_token_accuracy": 0.779409795999527,
      "num_tokens": 3671905.0,
      "step": 225
    },
    {
      "entropy": 0.5535659790039062,
      "epoch": 0.8448598130841122,
      "grad_norm": 0.03929230943322182,
      "learning_rate": 0.0002,
      "loss": 0.5663979053497314,
      "mean_token_accuracy": 0.7698138654232025,
      "num_tokens": 3688191.0,
      "step": 226
    },
    {
      "entropy": 0.569505363702774,
      "epoch": 0.8485981308411215,
      "grad_norm": 0.0272939745336771,
      "learning_rate": 0.0002,
      "loss": 0.5618590712547302,
      "mean_token_accuracy": 0.7725658267736435,
      "num_tokens": 3704751.0,
      "step": 227
    },
    {
      "entropy": 0.5644249469041824,
      "epoch": 0.8523364485981308,
      "grad_norm": 0.03415616601705551,
      "learning_rate": 0.0002,
      "loss": 0.5562848448753357,
      "mean_token_accuracy": 0.7748490273952484,
      "num_tokens": 3720710.0,
      "step": 228
    },
    {
      "entropy": 0.5773901343345642,
      "epoch": 0.8560747663551402,
      "grad_norm": 0.031880877912044525,
      "learning_rate": 0.0002,
      "loss": 0.5614221096038818,
      "mean_token_accuracy": 0.7720403522253036,
      "num_tokens": 3737054.0,
      "step": 229
    },
    {
      "entropy": 0.5547749698162079,
      "epoch": 0.8598130841121495,
      "grad_norm": 0.0324094183743,
      "learning_rate": 0.0002,
      "loss": 0.5520619750022888,
      "mean_token_accuracy": 0.7773038893938065,
      "num_tokens": 3753537.0,
      "step": 230
    },
    {
      "entropy": 0.5418203920125961,
      "epoch": 0.8635514018691589,
      "grad_norm": 0.03512468561530113,
      "learning_rate": 0.0002,
      "loss": 0.5538347959518433,
      "mean_token_accuracy": 0.7749911546707153,
      "num_tokens": 3769863.0,
      "step": 231
    },
    {
      "entropy": 0.5521644353866577,
      "epoch": 0.8672897196261682,
      "grad_norm": 0.02896721474826336,
      "learning_rate": 0.0002,
      "loss": 0.5608810186386108,
      "mean_token_accuracy": 0.7746408581733704,
      "num_tokens": 3786316.0,
      "step": 232
    },
    {
      "entropy": 0.543023481965065,
      "epoch": 0.8710280373831776,
      "grad_norm": 0.03712921962141991,
      "learning_rate": 0.0002,
      "loss": 0.5551246404647827,
      "mean_token_accuracy": 0.7738360315561295,
      "num_tokens": 3802441.0,
      "step": 233
    },
    {
      "entropy": 0.5672542154788971,
      "epoch": 0.874766355140187,
      "grad_norm": 0.026832984760403633,
      "learning_rate": 0.0002,
      "loss": 0.5662351846694946,
      "mean_token_accuracy": 0.7704236954450607,
      "num_tokens": 3818851.0,
      "step": 234
    },
    {
      "entropy": 0.5710914433002472,
      "epoch": 0.8785046728971962,
      "grad_norm": 0.036441151052713394,
      "learning_rate": 0.0002,
      "loss": 0.5647166967391968,
      "mean_token_accuracy": 0.7697651982307434,
      "num_tokens": 3835229.0,
      "step": 235
    },
    {
      "entropy": 0.5721132010221481,
      "epoch": 0.8822429906542056,
      "grad_norm": 0.031891413033008575,
      "learning_rate": 0.0002,
      "loss": 0.561801552772522,
      "mean_token_accuracy": 0.7740357220172882,
      "num_tokens": 3851634.0,
      "step": 236
    },
    {
      "entropy": 0.5430081784725189,
      "epoch": 0.8859813084112149,
      "grad_norm": 0.028133288025856018,
      "learning_rate": 0.0002,
      "loss": 0.5482598543167114,
      "mean_token_accuracy": 0.7780391424894333,
      "num_tokens": 3867818.0,
      "step": 237
    },
    {
      "entropy": 0.5531598627567291,
      "epoch": 0.8897196261682243,
      "grad_norm": 0.031570907682180405,
      "learning_rate": 0.0002,
      "loss": 0.5597803592681885,
      "mean_token_accuracy": 0.7725805789232254,
      "num_tokens": 3884128.0,
      "step": 238
    },
    {
      "entropy": 0.552057608962059,
      "epoch": 0.8934579439252337,
      "grad_norm": 0.03431302309036255,
      "learning_rate": 0.0002,
      "loss": 0.5592586398124695,
      "mean_token_accuracy": 0.7739444822072983,
      "num_tokens": 3900459.0,
      "step": 239
    },
    {
      "entropy": 0.552062600851059,
      "epoch": 0.897196261682243,
      "grad_norm": 0.029298607259988785,
      "learning_rate": 0.0002,
      "loss": 0.5525797009468079,
      "mean_token_accuracy": 0.7755719870328903,
      "num_tokens": 3916582.0,
      "step": 240
    },
    {
      "entropy": 0.571002647280693,
      "epoch": 0.9009345794392524,
      "grad_norm": 0.028903625905513763,
      "learning_rate": 0.0002,
      "loss": 0.5647273659706116,
      "mean_token_accuracy": 0.7697427272796631,
      "num_tokens": 3932989.0,
      "step": 241
    },
    {
      "entropy": 0.5607190132141113,
      "epoch": 0.9046728971962616,
      "grad_norm": 0.02721545286476612,
      "learning_rate": 0.0002,
      "loss": 0.5572564601898193,
      "mean_token_accuracy": 0.7735343724489212,
      "num_tokens": 3949591.0,
      "step": 242
    },
    {
      "entropy": 0.554363563656807,
      "epoch": 0.908411214953271,
      "grad_norm": 0.028853297233581543,
      "learning_rate": 0.0002,
      "loss": 0.5598585605621338,
      "mean_token_accuracy": 0.7746720314025879,
      "num_tokens": 3965977.0,
      "step": 243
    },
    {
      "entropy": 0.562399297952652,
      "epoch": 0.9121495327102803,
      "grad_norm": 0.031765274703502655,
      "learning_rate": 0.0002,
      "loss": 0.5609657764434814,
      "mean_token_accuracy": 0.7706955671310425,
      "num_tokens": 3982241.0,
      "step": 244
    },
    {
      "entropy": 0.5663948059082031,
      "epoch": 0.9158878504672897,
      "grad_norm": 0.02977531962096691,
      "learning_rate": 0.0002,
      "loss": 0.5600242018699646,
      "mean_token_accuracy": 0.7716616988182068,
      "num_tokens": 3998850.0,
      "step": 245
    },
    {
      "entropy": 0.5626737624406815,
      "epoch": 0.9196261682242991,
      "grad_norm": 0.03073737397789955,
      "learning_rate": 0.0002,
      "loss": 0.5680803656578064,
      "mean_token_accuracy": 0.7690348774194717,
      "num_tokens": 4015357.0,
      "step": 246
    },
    {
      "entropy": 0.5617063343524933,
      "epoch": 0.9233644859813084,
      "grad_norm": 0.03239826485514641,
      "learning_rate": 0.0002,
      "loss": 0.5647311210632324,
      "mean_token_accuracy": 0.7720029205083847,
      "num_tokens": 4031434.0,
      "step": 247
    },
    {
      "entropy": 0.5446989983320236,
      "epoch": 0.9271028037383178,
      "grad_norm": 0.026935769245028496,
      "learning_rate": 0.0002,
      "loss": 0.5423059463500977,
      "mean_token_accuracy": 0.7784274518489838,
      "num_tokens": 4047542.0,
      "step": 248
    },
    {
      "entropy": 0.5633901953697205,
      "epoch": 0.930841121495327,
      "grad_norm": 0.03004775382578373,
      "learning_rate": 0.0002,
      "loss": 0.5547890663146973,
      "mean_token_accuracy": 0.7750878036022186,
      "num_tokens": 4063671.0,
      "step": 249
    },
    {
      "entropy": 0.5641201138496399,
      "epoch": 0.9345794392523364,
      "grad_norm": 0.035040173679590225,
      "learning_rate": 0.0002,
      "loss": 0.560414731502533,
      "mean_token_accuracy": 0.7721855938434601,
      "num_tokens": 4080062.0,
      "step": 250
    },
    {
      "entropy": 0.5267122685909271,
      "epoch": 0.9383177570093458,
      "grad_norm": 0.026784395799040794,
      "learning_rate": 0.0002,
      "loss": 0.528884768486023,
      "mean_token_accuracy": 0.7842623591423035,
      "num_tokens": 4096314.0,
      "step": 251
    },
    {
      "entropy": 0.5412785857915878,
      "epoch": 0.9420560747663551,
      "grad_norm": 0.029483763501048088,
      "learning_rate": 0.0002,
      "loss": 0.5475237369537354,
      "mean_token_accuracy": 0.7779380232095718,
      "num_tokens": 4112543.0,
      "step": 252
    },
    {
      "entropy": 0.5688454955816269,
      "epoch": 0.9457943925233645,
      "grad_norm": 0.02722441591322422,
      "learning_rate": 0.0002,
      "loss": 0.5703037977218628,
      "mean_token_accuracy": 0.7700005024671555,
      "num_tokens": 4128880.0,
      "step": 253
    },
    {
      "entropy": 0.5569160729646683,
      "epoch": 0.9495327102803738,
      "grad_norm": 0.028683314099907875,
      "learning_rate": 0.0002,
      "loss": 0.5574289560317993,
      "mean_token_accuracy": 0.7722644209861755,
      "num_tokens": 4145417.0,
      "step": 254
    },
    {
      "entropy": 0.5437170565128326,
      "epoch": 0.9532710280373832,
      "grad_norm": 0.03323707729578018,
      "learning_rate": 0.0002,
      "loss": 0.5411959886550903,
      "mean_token_accuracy": 0.7814441025257111,
      "num_tokens": 4161528.0,
      "step": 255
    },
    {
      "entropy": 0.5666731148958206,
      "epoch": 0.9570093457943926,
      "grad_norm": 0.028484966605901718,
      "learning_rate": 0.0002,
      "loss": 0.5648545622825623,
      "mean_token_accuracy": 0.77223140001297,
      "num_tokens": 4177883.0,
      "step": 256
    },
    {
      "entropy": 0.5472739338874817,
      "epoch": 0.9607476635514018,
      "grad_norm": 0.032945599406957626,
      "learning_rate": 0.0002,
      "loss": 0.5465376377105713,
      "mean_token_accuracy": 0.7768394351005554,
      "num_tokens": 4194047.0,
      "step": 257
    },
    {
      "entropy": 0.5488951653242111,
      "epoch": 0.9644859813084112,
      "grad_norm": 0.030117738991975784,
      "learning_rate": 0.0002,
      "loss": 0.5551251769065857,
      "mean_token_accuracy": 0.7728994339704514,
      "num_tokens": 4210415.0,
      "step": 258
    },
    {
      "entropy": 0.5574130117893219,
      "epoch": 0.9682242990654205,
      "grad_norm": 0.028586212545633316,
      "learning_rate": 0.0002,
      "loss": 0.5596088171005249,
      "mean_token_accuracy": 0.7760643810033798,
      "num_tokens": 4226881.0,
      "step": 259
    },
    {
      "entropy": 0.5550301373004913,
      "epoch": 0.9719626168224299,
      "grad_norm": 0.035784922540187836,
      "learning_rate": 0.0002,
      "loss": 0.5660927891731262,
      "mean_token_accuracy": 0.7692493498325348,
      "num_tokens": 4243149.0,
      "step": 260
    },
    {
      "entropy": 0.5651994347572327,
      "epoch": 0.9757009345794393,
      "grad_norm": 0.03252053260803223,
      "learning_rate": 0.0002,
      "loss": 0.5599735379219055,
      "mean_token_accuracy": 0.7730003446340561,
      "num_tokens": 4259611.0,
      "step": 261
    },
    {
      "entropy": 0.5637697577476501,
      "epoch": 0.9794392523364486,
      "grad_norm": 0.047552503645420074,
      "learning_rate": 0.0002,
      "loss": 0.5568199157714844,
      "mean_token_accuracy": 0.7762705087661743,
      "num_tokens": 4275796.0,
      "step": 262
    },
    {
      "entropy": 0.567447230219841,
      "epoch": 0.983177570093458,
      "grad_norm": 0.027801062911748886,
      "learning_rate": 0.0002,
      "loss": 0.5698356032371521,
      "mean_token_accuracy": 0.7690239697694778,
      "num_tokens": 4292132.0,
      "step": 263
    },
    {
      "entropy": 0.5712171792984009,
      "epoch": 0.9869158878504672,
      "grad_norm": 0.11246822774410248,
      "learning_rate": 0.0002,
      "loss": 0.5811023116111755,
      "mean_token_accuracy": 0.7647420465946198,
      "num_tokens": 4308584.0,
      "step": 264
    },
    {
      "entropy": 0.5711934268474579,
      "epoch": 0.9906542056074766,
      "grad_norm": 0.06911394000053406,
      "learning_rate": 0.0002,
      "loss": 0.5809019804000854,
      "mean_token_accuracy": 0.7624327838420868,
      "num_tokens": 4324962.0,
      "step": 265
    },
    {
      "entropy": 0.5627400726079941,
      "epoch": 0.994392523364486,
      "grad_norm": 0.030455252155661583,
      "learning_rate": 0.0002,
      "loss": 0.5616910457611084,
      "mean_token_accuracy": 0.7730111479759216,
      "num_tokens": 4341120.0,
      "step": 266
    },
    {
      "entropy": 0.5654444992542267,
      "epoch": 0.9981308411214953,
      "grad_norm": 0.02772046998143196,
      "learning_rate": 0.0002,
      "loss": 0.5567201972007751,
      "mean_token_accuracy": 0.7720088213682175,
      "num_tokens": 4357574.0,
      "step": 267
    },
    {
      "entropy": 0.5589146912097931,
      "epoch": 1.0,
      "grad_norm": 0.04032747447490692,
      "learning_rate": 0.0002,
      "loss": 0.5460503101348877,
      "mean_token_accuracy": 0.779203861951828,
      "num_tokens": 4365546.0,
      "step": 268
    },
    {
      "entropy": 0.5703114420175552,
      "epoch": 1.0037383177570094,
      "grad_norm": 0.033491045236587524,
      "learning_rate": 0.0002,
      "loss": 0.5557507276535034,
      "mean_token_accuracy": 0.7745671570301056,
      "num_tokens": 4381699.0,
      "step": 269
    },
    {
      "entropy": 0.5609012693166733,
      "epoch": 1.0074766355140188,
      "grad_norm": 0.03252531215548515,
      "learning_rate": 0.0002,
      "loss": 0.5590213537216187,
      "mean_token_accuracy": 0.7752612829208374,
      "num_tokens": 4398284.0,
      "step": 270
    },
    {
      "entropy": 0.5300652086734772,
      "epoch": 1.011214953271028,
      "grad_norm": 0.036933887749910355,
      "learning_rate": 0.0002,
      "loss": 0.5396179556846619,
      "mean_token_accuracy": 0.7816686779260635,
      "num_tokens": 4414795.0,
      "step": 271
    },
    {
      "entropy": 0.5411953181028366,
      "epoch": 1.0149532710280373,
      "grad_norm": 0.035878736525774,
      "learning_rate": 0.0002,
      "loss": 0.5491203665733337,
      "mean_token_accuracy": 0.7742594629526138,
      "num_tokens": 4431190.0,
      "step": 272
    },
    {
      "entropy": 0.5370450466871262,
      "epoch": 1.0186915887850467,
      "grad_norm": 0.029914801940321922,
      "learning_rate": 0.0002,
      "loss": 0.5417315363883972,
      "mean_token_accuracy": 0.7806635499000549,
      "num_tokens": 4447475.0,
      "step": 273
    },
    {
      "entropy": 0.5567668229341507,
      "epoch": 1.0224299065420561,
      "grad_norm": 0.03265395388007164,
      "learning_rate": 0.0002,
      "loss": 0.5509355068206787,
      "mean_token_accuracy": 0.7730302512645721,
      "num_tokens": 4463734.0,
      "step": 274
    },
    {
      "entropy": 0.5656838417053223,
      "epoch": 1.0261682242990655,
      "grad_norm": 0.03136991336941719,
      "learning_rate": 0.0002,
      "loss": 0.5576434135437012,
      "mean_token_accuracy": 0.7703666239976883,
      "num_tokens": 4479995.0,
      "step": 275
    },
    {
      "entropy": 0.548493430018425,
      "epoch": 1.0299065420560747,
      "grad_norm": 0.033384647220373154,
      "learning_rate": 0.0002,
      "loss": 0.5452391505241394,
      "mean_token_accuracy": 0.7803221642971039,
      "num_tokens": 4496385.0,
      "step": 276
    },
    {
      "entropy": 0.547315925359726,
      "epoch": 1.033644859813084,
      "grad_norm": 0.02812100760638714,
      "learning_rate": 0.0002,
      "loss": 0.5515413284301758,
      "mean_token_accuracy": 0.7755024433135986,
      "num_tokens": 4512779.0,
      "step": 277
    },
    {
      "entropy": 0.5315467417240143,
      "epoch": 1.0373831775700935,
      "grad_norm": 0.041606683284044266,
      "learning_rate": 0.0002,
      "loss": 0.5446295738220215,
      "mean_token_accuracy": 0.7787878066301346,
      "num_tokens": 4529088.0,
      "step": 278
    },
    {
      "entropy": 0.5279169529676437,
      "epoch": 1.0411214953271029,
      "grad_norm": 0.031057002022862434,
      "learning_rate": 0.0002,
      "loss": 0.536575973033905,
      "mean_token_accuracy": 0.7812807857990265,
      "num_tokens": 4545377.0,
      "step": 279
    },
    {
      "entropy": 0.5590710490942001,
      "epoch": 1.0448598130841122,
      "grad_norm": 0.02644682675600052,
      "learning_rate": 0.0002,
      "loss": 0.554656982421875,
      "mean_token_accuracy": 0.7751928865909576,
      "num_tokens": 4561701.0,
      "step": 280
    },
    {
      "entropy": 0.5662561357021332,
      "epoch": 1.0485981308411214,
      "grad_norm": 0.029125280678272247,
      "learning_rate": 0.0002,
      "loss": 0.5619407892227173,
      "mean_token_accuracy": 0.7679703086614609,
      "num_tokens": 4578007.0,
      "step": 281
    },
    {
      "entropy": 0.5509714484214783,
      "epoch": 1.0523364485981308,
      "grad_norm": 0.03366995230317116,
      "learning_rate": 0.0002,
      "loss": 0.544794499874115,
      "mean_token_accuracy": 0.7797580361366272,
      "num_tokens": 4594260.0,
      "step": 282
    },
    {
      "entropy": 0.5634302496910095,
      "epoch": 1.0560747663551402,
      "grad_norm": 0.027832867577672005,
      "learning_rate": 0.0002,
      "loss": 0.5580713748931885,
      "mean_token_accuracy": 0.7739240676164627,
      "num_tokens": 4610748.0,
      "step": 283
    },
    {
      "entropy": 0.5439006388187408,
      "epoch": 1.0598130841121496,
      "grad_norm": 0.03045068122446537,
      "learning_rate": 0.0002,
      "loss": 0.5474724173545837,
      "mean_token_accuracy": 0.7765053659677505,
      "num_tokens": 4627116.0,
      "step": 284
    },
    {
      "entropy": 0.5238615572452545,
      "epoch": 1.063551401869159,
      "grad_norm": 0.03397069126367569,
      "learning_rate": 0.0002,
      "loss": 0.532546877861023,
      "mean_token_accuracy": 0.7858656197786331,
      "num_tokens": 4643480.0,
      "step": 285
    },
    {
      "entropy": 0.5387604683637619,
      "epoch": 1.0672897196261681,
      "grad_norm": 0.036734551191329956,
      "learning_rate": 0.0002,
      "loss": 0.5468651056289673,
      "mean_token_accuracy": 0.7797952890396118,
      "num_tokens": 4660303.0,
      "step": 286
    },
    {
      "entropy": 0.5558950453996658,
      "epoch": 1.0710280373831775,
      "grad_norm": 0.030276885256171227,
      "learning_rate": 0.0002,
      "loss": 0.5584522485733032,
      "mean_token_accuracy": 0.7732091248035431,
      "num_tokens": 4676839.0,
      "step": 287
    },
    {
      "entropy": 0.5617282688617706,
      "epoch": 1.074766355140187,
      "grad_norm": 0.033773574978113174,
      "learning_rate": 0.0002,
      "loss": 0.5567758679389954,
      "mean_token_accuracy": 0.7739396244287491,
      "num_tokens": 4692959.0,
      "step": 288
    },
    {
      "entropy": 0.5491297841072083,
      "epoch": 1.0785046728971963,
      "grad_norm": 0.0321025624871254,
      "learning_rate": 0.0002,
      "loss": 0.5414766073226929,
      "mean_token_accuracy": 0.7804555594921112,
      "num_tokens": 4709310.0,
      "step": 289
    },
    {
      "entropy": 0.5456965118646622,
      "epoch": 1.0822429906542057,
      "grad_norm": 0.029098015278577805,
      "learning_rate": 0.0002,
      "loss": 0.5451281070709229,
      "mean_token_accuracy": 0.7778134942054749,
      "num_tokens": 4725506.0,
      "step": 290
    },
    {
      "entropy": 0.5477775633335114,
      "epoch": 1.0859813084112149,
      "grad_norm": 0.02958570048213005,
      "learning_rate": 0.0002,
      "loss": 0.5455498695373535,
      "mean_token_accuracy": 0.7799811661243439,
      "num_tokens": 4741775.0,
      "step": 291
    },
    {
      "entropy": 0.5301359370350838,
      "epoch": 1.0897196261682243,
      "grad_norm": 0.03702852129936218,
      "learning_rate": 0.0002,
      "loss": 0.5398594737052917,
      "mean_token_accuracy": 0.7832937985658646,
      "num_tokens": 4758016.0,
      "step": 292
    },
    {
      "entropy": 0.5263582319021225,
      "epoch": 1.0934579439252337,
      "grad_norm": 0.0337018184363842,
      "learning_rate": 0.0002,
      "loss": 0.528889000415802,
      "mean_token_accuracy": 0.7862381190061569,
      "num_tokens": 4774331.0,
      "step": 293
    },
    {
      "entropy": 0.5430160015821457,
      "epoch": 1.097196261682243,
      "grad_norm": 0.036417651921510696,
      "learning_rate": 0.0002,
      "loss": 0.5521553158760071,
      "mean_token_accuracy": 0.7737599611282349,
      "num_tokens": 4790501.0,
      "step": 294
    },
    {
      "entropy": 0.5552934557199478,
      "epoch": 1.1009345794392524,
      "grad_norm": 0.03106369823217392,
      "learning_rate": 0.0002,
      "loss": 0.5559324622154236,
      "mean_token_accuracy": 0.7761313170194626,
      "num_tokens": 4806597.0,
      "step": 295
    },
    {
      "entropy": 0.5548459142446518,
      "epoch": 1.1046728971962616,
      "grad_norm": 0.031152816489338875,
      "learning_rate": 0.0002,
      "loss": 0.5504705905914307,
      "mean_token_accuracy": 0.7746731489896774,
      "num_tokens": 4822650.0,
      "step": 296
    },
    {
      "entropy": 0.5644493997097015,
      "epoch": 1.108411214953271,
      "grad_norm": 0.030590267851948738,
      "learning_rate": 0.0002,
      "loss": 0.5608450770378113,
      "mean_token_accuracy": 0.7722194045782089,
      "num_tokens": 4839117.0,
      "step": 297
    },
    {
      "entropy": 0.5444105267524719,
      "epoch": 1.1121495327102804,
      "grad_norm": 0.027887985110282898,
      "learning_rate": 0.0002,
      "loss": 0.5356480479240417,
      "mean_token_accuracy": 0.7835922837257385,
      "num_tokens": 4855616.0,
      "step": 298
    },
    {
      "entropy": 0.5529257953166962,
      "epoch": 1.1158878504672898,
      "grad_norm": 0.029403148218989372,
      "learning_rate": 0.0002,
      "loss": 0.5520183444023132,
      "mean_token_accuracy": 0.7763603180646896,
      "num_tokens": 4871877.0,
      "step": 299
    },
    {
      "entropy": 0.5645637214183807,
      "epoch": 1.1196261682242992,
      "grad_norm": 0.028178894892334938,
      "learning_rate": 0.0002,
      "loss": 0.5597948431968689,
      "mean_token_accuracy": 0.7721023112535477,
      "num_tokens": 4888211.0,
      "step": 300
    },
    {
      "entropy": 0.5288026034832001,
      "epoch": 1.1233644859813083,
      "grad_norm": 0.04107068479061127,
      "learning_rate": 0.0002,
      "loss": 0.5410320162773132,
      "mean_token_accuracy": 0.7809516042470932,
      "num_tokens": 4904621.0,
      "step": 301
    },
    {
      "entropy": 0.539900153875351,
      "epoch": 1.1271028037383177,
      "grad_norm": 0.029827676713466644,
      "learning_rate": 0.0002,
      "loss": 0.5402933955192566,
      "mean_token_accuracy": 0.7816860228776932,
      "num_tokens": 4921127.0,
      "step": 302
    },
    {
      "entropy": 0.5498250722885132,
      "epoch": 1.1308411214953271,
      "grad_norm": 0.026688000187277794,
      "learning_rate": 0.0002,
      "loss": 0.5489476323127747,
      "mean_token_accuracy": 0.7740818113088608,
      "num_tokens": 4937487.0,
      "step": 303
    },
    {
      "entropy": 0.5250164270401001,
      "epoch": 1.1345794392523365,
      "grad_norm": 0.02805374562740326,
      "learning_rate": 0.0002,
      "loss": 0.5292810797691345,
      "mean_token_accuracy": 0.7862300872802734,
      "num_tokens": 4953715.0,
      "step": 304
    },
    {
      "entropy": 0.5558099746704102,
      "epoch": 1.1383177570093457,
      "grad_norm": 0.028311913833022118,
      "learning_rate": 0.0002,
      "loss": 0.553642213344574,
      "mean_token_accuracy": 0.772954136133194,
      "num_tokens": 4970083.0,
      "step": 305
    },
    {
      "entropy": 0.552794486284256,
      "epoch": 1.142056074766355,
      "grad_norm": 0.02732912451028824,
      "learning_rate": 0.0002,
      "loss": 0.5542539358139038,
      "mean_token_accuracy": 0.7786157876253128,
      "num_tokens": 4986475.0,
      "step": 306
    },
    {
      "entropy": 0.541429802775383,
      "epoch": 1.1457943925233645,
      "grad_norm": 0.026043161749839783,
      "learning_rate": 0.0002,
      "loss": 0.54054194688797,
      "mean_token_accuracy": 0.779283881187439,
      "num_tokens": 5002946.0,
      "step": 307
    },
    {
      "entropy": 0.5385288000106812,
      "epoch": 1.1495327102803738,
      "grad_norm": 0.029000889509916306,
      "learning_rate": 0.0002,
      "loss": 0.5392960906028748,
      "mean_token_accuracy": 0.7790030539035797,
      "num_tokens": 5019257.0,
      "step": 308
    },
    {
      "entropy": 0.5650081187486649,
      "epoch": 1.1532710280373832,
      "grad_norm": 0.030966322869062424,
      "learning_rate": 0.0002,
      "loss": 0.5671533942222595,
      "mean_token_accuracy": 0.7687903195619583,
      "num_tokens": 5035694.0,
      "step": 309
    },
    {
      "entropy": 0.5269978791475296,
      "epoch": 1.1570093457943926,
      "grad_norm": 0.029498660936951637,
      "learning_rate": 0.0002,
      "loss": 0.5207559466362,
      "mean_token_accuracy": 0.789651021361351,
      "num_tokens": 5051896.0,
      "step": 310
    },
    {
      "entropy": 0.536905974149704,
      "epoch": 1.1607476635514018,
      "grad_norm": 0.030239341780543327,
      "learning_rate": 0.0002,
      "loss": 0.5469245910644531,
      "mean_token_accuracy": 0.7770659476518631,
      "num_tokens": 5068088.0,
      "step": 311
    },
    {
      "entropy": 0.5390781760215759,
      "epoch": 1.1644859813084112,
      "grad_norm": 0.03393058478832245,
      "learning_rate": 0.0002,
      "loss": 0.542595386505127,
      "mean_token_accuracy": 0.7818379998207092,
      "num_tokens": 5084518.0,
      "step": 312
    },
    {
      "entropy": 0.5539942681789398,
      "epoch": 1.1682242990654206,
      "grad_norm": 0.02896442450582981,
      "learning_rate": 0.0002,
      "loss": 0.5544940233230591,
      "mean_token_accuracy": 0.773167759180069,
      "num_tokens": 5101049.0,
      "step": 313
    },
    {
      "entropy": 0.5508127510547638,
      "epoch": 1.17196261682243,
      "grad_norm": 0.0290669035166502,
      "learning_rate": 0.0002,
      "loss": 0.5456743240356445,
      "mean_token_accuracy": 0.7797731012105942,
      "num_tokens": 5117401.0,
      "step": 314
    },
    {
      "entropy": 0.5471421480178833,
      "epoch": 1.1757009345794391,
      "grad_norm": 0.03175804764032364,
      "learning_rate": 0.0002,
      "loss": 0.547149658203125,
      "mean_token_accuracy": 0.7758717685937881,
      "num_tokens": 5133730.0,
      "step": 315
    },
    {
      "entropy": 0.5345856845378876,
      "epoch": 1.1794392523364485,
      "grad_norm": 0.030823305249214172,
      "learning_rate": 0.0002,
      "loss": 0.5330408215522766,
      "mean_token_accuracy": 0.784162163734436,
      "num_tokens": 5149933.0,
      "step": 316
    },
    {
      "entropy": 0.5622152835130692,
      "epoch": 1.183177570093458,
      "grad_norm": 0.035467732697725296,
      "learning_rate": 0.0002,
      "loss": 0.5626823902130127,
      "mean_token_accuracy": 0.7694768160581589,
      "num_tokens": 5166513.0,
      "step": 317
    },
    {
      "entropy": 0.5603054612874985,
      "epoch": 1.1869158878504673,
      "grad_norm": 0.03127942234277725,
      "learning_rate": 0.0002,
      "loss": 0.562260091304779,
      "mean_token_accuracy": 0.7705819606781006,
      "num_tokens": 5182789.0,
      "step": 318
    },
    {
      "entropy": 0.5313067883253098,
      "epoch": 1.1906542056074767,
      "grad_norm": 0.031915076076984406,
      "learning_rate": 0.0002,
      "loss": 0.535006046295166,
      "mean_token_accuracy": 0.7801574766635895,
      "num_tokens": 5198808.0,
      "step": 319
    },
    {
      "entropy": 0.5626082420349121,
      "epoch": 1.194392523364486,
      "grad_norm": 0.0270744226872921,
      "learning_rate": 0.0002,
      "loss": 0.5664738416671753,
      "mean_token_accuracy": 0.7685981392860413,
      "num_tokens": 5215173.0,
      "step": 320
    },
    {
      "entropy": 0.5448359251022339,
      "epoch": 1.1981308411214953,
      "grad_norm": 0.034068379551172256,
      "learning_rate": 0.0002,
      "loss": 0.5446659922599792,
      "mean_token_accuracy": 0.7786541432142258,
      "num_tokens": 5231488.0,
      "step": 321
    },
    {
      "entropy": 0.5552321374416351,
      "epoch": 1.2018691588785047,
      "grad_norm": 0.027504440397024155,
      "learning_rate": 0.0002,
      "loss": 0.5556068420410156,
      "mean_token_accuracy": 0.7737858295440674,
      "num_tokens": 5248043.0,
      "step": 322
    },
    {
      "entropy": 0.5611619353294373,
      "epoch": 1.205607476635514,
      "grad_norm": 0.0314825214445591,
      "learning_rate": 0.0002,
      "loss": 0.5585416555404663,
      "mean_token_accuracy": 0.7727329283952713,
      "num_tokens": 5264537.0,
      "step": 323
    },
    {
      "entropy": 0.539411261677742,
      "epoch": 1.2093457943925234,
      "grad_norm": 0.02891836315393448,
      "learning_rate": 0.0002,
      "loss": 0.542159378528595,
      "mean_token_accuracy": 0.7766279429197311,
      "num_tokens": 5280701.0,
      "step": 324
    },
    {
      "entropy": 0.5438771396875381,
      "epoch": 1.2130841121495326,
      "grad_norm": 0.030331527814269066,
      "learning_rate": 0.0002,
      "loss": 0.5439496040344238,
      "mean_token_accuracy": 0.7776656746864319,
      "num_tokens": 5297144.0,
      "step": 325
    },
    {
      "entropy": 0.5600438266992569,
      "epoch": 1.216822429906542,
      "grad_norm": 0.031427256762981415,
      "learning_rate": 0.0002,
      "loss": 0.5602800846099854,
      "mean_token_accuracy": 0.7731630206108093,
      "num_tokens": 5313519.0,
      "step": 326
    },
    {
      "entropy": 0.5613888651132584,
      "epoch": 1.2205607476635514,
      "grad_norm": 0.02703862637281418,
      "learning_rate": 0.0002,
      "loss": 0.5599865317344666,
      "mean_token_accuracy": 0.7733557522296906,
      "num_tokens": 5329856.0,
      "step": 327
    },
    {
      "entropy": 0.5237439274787903,
      "epoch": 1.2242990654205608,
      "grad_norm": 0.02758556418120861,
      "learning_rate": 0.0002,
      "loss": 0.5267841815948486,
      "mean_token_accuracy": 0.7867935001850128,
      "num_tokens": 5346177.0,
      "step": 328
    },
    {
      "entropy": 0.5669067651033401,
      "epoch": 1.2280373831775702,
      "grad_norm": 0.028242675587534904,
      "learning_rate": 0.0002,
      "loss": 0.5650265216827393,
      "mean_token_accuracy": 0.7703205198049545,
      "num_tokens": 5362512.0,
      "step": 329
    },
    {
      "entropy": 0.5509548783302307,
      "epoch": 1.2317757009345796,
      "grad_norm": 0.028802327811717987,
      "learning_rate": 0.0002,
      "loss": 0.5518352389335632,
      "mean_token_accuracy": 0.7750025242567062,
      "num_tokens": 5379024.0,
      "step": 330
    },
    {
      "entropy": 0.5300867408514023,
      "epoch": 1.2355140186915887,
      "grad_norm": 0.028508059680461884,
      "learning_rate": 0.0002,
      "loss": 0.5312294363975525,
      "mean_token_accuracy": 0.7825600951910019,
      "num_tokens": 5395474.0,
      "step": 331
    },
    {
      "entropy": 0.5559873282909393,
      "epoch": 1.2392523364485981,
      "grad_norm": 0.029974235221743584,
      "learning_rate": 0.0002,
      "loss": 0.5561782717704773,
      "mean_token_accuracy": 0.7731552422046661,
      "num_tokens": 5411674.0,
      "step": 332
    },
    {
      "entropy": 0.557199090719223,
      "epoch": 1.2429906542056075,
      "grad_norm": 0.03494254872202873,
      "learning_rate": 0.0002,
      "loss": 0.5579161643981934,
      "mean_token_accuracy": 0.7746251970529556,
      "num_tokens": 5428042.0,
      "step": 333
    },
    {
      "entropy": 0.5486237108707428,
      "epoch": 1.246728971962617,
      "grad_norm": 0.03307056799530983,
      "learning_rate": 0.0002,
      "loss": 0.547027587890625,
      "mean_token_accuracy": 0.7762673646211624,
      "num_tokens": 5444468.0,
      "step": 334
    },
    {
      "entropy": 0.5655098557472229,
      "epoch": 1.250467289719626,
      "grad_norm": 0.030658213421702385,
      "learning_rate": 0.0002,
      "loss": 0.5607244372367859,
      "mean_token_accuracy": 0.7719737142324448,
      "num_tokens": 5460943.0,
      "step": 335
    },
    {
      "entropy": 0.5550193935632706,
      "epoch": 1.2542056074766355,
      "grad_norm": 0.03245887532830238,
      "learning_rate": 0.0002,
      "loss": 0.558559775352478,
      "mean_token_accuracy": 0.7714462429285049,
      "num_tokens": 5477095.0,
      "step": 336
    },
    {
      "entropy": 0.5516159981489182,
      "epoch": 1.2579439252336448,
      "grad_norm": 0.029303548857569695,
      "learning_rate": 0.0002,
      "loss": 0.5509077310562134,
      "mean_token_accuracy": 0.7748865634202957,
      "num_tokens": 5493314.0,
      "step": 337
    },
    {
      "entropy": 0.5517037510871887,
      "epoch": 1.2616822429906542,
      "grad_norm": 0.030339522287249565,
      "learning_rate": 0.0002,
      "loss": 0.5531480312347412,
      "mean_token_accuracy": 0.7767991721630096,
      "num_tokens": 5509491.0,
      "step": 338
    },
    {
      "entropy": 0.5280565023422241,
      "epoch": 1.2654205607476636,
      "grad_norm": 0.031923625618219376,
      "learning_rate": 0.0002,
      "loss": 0.528035581111908,
      "mean_token_accuracy": 0.7852191030979156,
      "num_tokens": 5525691.0,
      "step": 339
    },
    {
      "entropy": 0.5340898633003235,
      "epoch": 1.269158878504673,
      "grad_norm": 0.029536927118897438,
      "learning_rate": 0.0002,
      "loss": 0.5422028303146362,
      "mean_token_accuracy": 0.7782081514596939,
      "num_tokens": 5541867.0,
      "step": 340
    },
    {
      "entropy": 0.5269799679517746,
      "epoch": 1.2728971962616822,
      "grad_norm": 0.028842000290751457,
      "learning_rate": 0.0002,
      "loss": 0.5262301564216614,
      "mean_token_accuracy": 0.7851875424385071,
      "num_tokens": 5558001.0,
      "step": 341
    },
    {
      "entropy": 0.5422883927822113,
      "epoch": 1.2766355140186916,
      "grad_norm": 0.03446980193257332,
      "learning_rate": 0.0002,
      "loss": 0.5427042245864868,
      "mean_token_accuracy": 0.7805773615837097,
      "num_tokens": 5574327.0,
      "step": 342
    },
    {
      "entropy": 0.5518148094415665,
      "epoch": 1.280373831775701,
      "grad_norm": 0.027705170214176178,
      "learning_rate": 0.0002,
      "loss": 0.5506993532180786,
      "mean_token_accuracy": 0.7755730003118515,
      "num_tokens": 5590749.0,
      "step": 343
    },
    {
      "entropy": 0.5408089458942413,
      "epoch": 1.2841121495327104,
      "grad_norm": 0.029695594683289528,
      "learning_rate": 0.0002,
      "loss": 0.5394558906555176,
      "mean_token_accuracy": 0.7792032957077026,
      "num_tokens": 5606965.0,
      "step": 344
    },
    {
      "entropy": 0.555278405547142,
      "epoch": 1.2878504672897195,
      "grad_norm": 0.03306727111339569,
      "learning_rate": 0.0002,
      "loss": 0.5528630018234253,
      "mean_token_accuracy": 0.7753221690654755,
      "num_tokens": 5623293.0,
      "step": 345
    },
    {
      "entropy": 0.5409073531627655,
      "epoch": 1.291588785046729,
      "grad_norm": 0.029820574447512627,
      "learning_rate": 0.0002,
      "loss": 0.5416831970214844,
      "mean_token_accuracy": 0.7789396792650223,
      "num_tokens": 5639449.0,
      "step": 346
    },
    {
      "entropy": 0.5428119450807571,
      "epoch": 1.2953271028037383,
      "grad_norm": 0.02653786540031433,
      "learning_rate": 0.0002,
      "loss": 0.5379306077957153,
      "mean_token_accuracy": 0.7808004468679428,
      "num_tokens": 5655647.0,
      "step": 347
    },
    {
      "entropy": 0.5534338802099228,
      "epoch": 1.2990654205607477,
      "grad_norm": 0.036522869020700455,
      "learning_rate": 0.0002,
      "loss": 0.5622379779815674,
      "mean_token_accuracy": 0.7683994024991989,
      "num_tokens": 5672013.0,
      "step": 348
    },
    {
      "entropy": 0.5302807092666626,
      "epoch": 1.302803738317757,
      "grad_norm": 0.029457183554768562,
      "learning_rate": 0.0002,
      "loss": 0.5294267535209656,
      "mean_token_accuracy": 0.7827122360467911,
      "num_tokens": 5688450.0,
      "step": 349
    },
    {
      "entropy": 0.5444758385419846,
      "epoch": 1.3065420560747665,
      "grad_norm": 0.029874974861741066,
      "learning_rate": 0.0002,
      "loss": 0.5353363752365112,
      "mean_token_accuracy": 0.7824759036302567,
      "num_tokens": 5705038.0,
      "step": 350
    },
    {
      "entropy": 0.5528301745653152,
      "epoch": 1.3102803738317756,
      "grad_norm": 0.029413780197501183,
      "learning_rate": 0.0002,
      "loss": 0.5467464923858643,
      "mean_token_accuracy": 0.7778250128030777,
      "num_tokens": 5721143.0,
      "step": 351
    },
    {
      "entropy": 0.5555091798305511,
      "epoch": 1.314018691588785,
      "grad_norm": 0.03153051435947418,
      "learning_rate": 0.0002,
      "loss": 0.5567013025283813,
      "mean_token_accuracy": 0.7745524048805237,
      "num_tokens": 5737899.0,
      "step": 352
    },
    {
      "entropy": 0.5499187856912613,
      "epoch": 1.3177570093457944,
      "grad_norm": 0.03486097231507301,
      "learning_rate": 0.0002,
      "loss": 0.5597171783447266,
      "mean_token_accuracy": 0.7737800478935242,
      "num_tokens": 5754281.0,
      "step": 353
    },
    {
      "entropy": 0.5655581057071686,
      "epoch": 1.3214953271028038,
      "grad_norm": 0.034320469945669174,
      "learning_rate": 0.0002,
      "loss": 0.5727288126945496,
      "mean_token_accuracy": 0.7656765133142471,
      "num_tokens": 5770770.0,
      "step": 354
    },
    {
      "entropy": 0.5538551807403564,
      "epoch": 1.325233644859813,
      "grad_norm": 0.03038712590932846,
      "learning_rate": 0.0002,
      "loss": 0.5568647384643555,
      "mean_token_accuracy": 0.7737635225057602,
      "num_tokens": 5787055.0,
      "step": 355
    },
    {
      "entropy": 0.5601113438606262,
      "epoch": 1.3289719626168224,
      "grad_norm": 0.02863963134586811,
      "learning_rate": 0.0002,
      "loss": 0.5530621409416199,
      "mean_token_accuracy": 0.7755090743303299,
      "num_tokens": 5803445.0,
      "step": 356
    },
    {
      "entropy": 0.5483526140451431,
      "epoch": 1.3327102803738318,
      "grad_norm": 0.03086850978434086,
      "learning_rate": 0.0002,
      "loss": 0.5400408506393433,
      "mean_token_accuracy": 0.7810002267360687,
      "num_tokens": 5819715.0,
      "step": 357
    },
    {
      "entropy": 0.5624817609786987,
      "epoch": 1.3364485981308412,
      "grad_norm": 0.027300981804728508,
      "learning_rate": 0.0002,
      "loss": 0.5635508894920349,
      "mean_token_accuracy": 0.768461674451828,
      "num_tokens": 5835943.0,
      "step": 358
    },
    {
      "entropy": 0.5395894348621368,
      "epoch": 1.3401869158878505,
      "grad_norm": 0.030900444835424423,
      "learning_rate": 0.0002,
      "loss": 0.544026255607605,
      "mean_token_accuracy": 0.7806333154439926,
      "num_tokens": 5852434.0,
      "step": 359
    },
    {
      "entropy": 0.5406174808740616,
      "epoch": 1.34392523364486,
      "grad_norm": 0.030813222751021385,
      "learning_rate": 0.0002,
      "loss": 0.545943021774292,
      "mean_token_accuracy": 0.7791963070631027,
      "num_tokens": 5868855.0,
      "step": 360
    },
    {
      "entropy": 0.5282687693834305,
      "epoch": 1.347663551401869,
      "grad_norm": 0.03219500184059143,
      "learning_rate": 0.0002,
      "loss": 0.5280976891517639,
      "mean_token_accuracy": 0.7882633060216904,
      "num_tokens": 5885162.0,
      "step": 361
    },
    {
      "entropy": 0.5588660687208176,
      "epoch": 1.3514018691588785,
      "grad_norm": 0.030664408579468727,
      "learning_rate": 0.0002,
      "loss": 0.5600679516792297,
      "mean_token_accuracy": 0.7683242410421371,
      "num_tokens": 5901397.0,
      "step": 362
    },
    {
      "entropy": 0.5558361262083054,
      "epoch": 1.355140186915888,
      "grad_norm": 0.029887903481721878,
      "learning_rate": 0.0002,
      "loss": 0.5512230396270752,
      "mean_token_accuracy": 0.7751856446266174,
      "num_tokens": 5917688.0,
      "step": 363
    },
    {
      "entropy": 0.5585273951292038,
      "epoch": 1.358878504672897,
      "grad_norm": 0.030291857197880745,
      "learning_rate": 0.0002,
      "loss": 0.5574408173561096,
      "mean_token_accuracy": 0.7735242694616318,
      "num_tokens": 5934252.0,
      "step": 364
    },
    {
      "entropy": 0.5426641255617142,
      "epoch": 1.3626168224299064,
      "grad_norm": 0.03163778409361839,
      "learning_rate": 0.0002,
      "loss": 0.5456237196922302,
      "mean_token_accuracy": 0.77604641020298,
      "num_tokens": 5950736.0,
      "step": 365
    },
    {
      "entropy": 0.5607275068759918,
      "epoch": 1.3663551401869158,
      "grad_norm": 0.02867417223751545,
      "learning_rate": 0.0002,
      "loss": 0.5595529079437256,
      "mean_token_accuracy": 0.773354560136795,
      "num_tokens": 5967130.0,
      "step": 366
    },
    {
      "entropy": 0.554174154996872,
      "epoch": 1.3700934579439252,
      "grad_norm": 0.03474622219800949,
      "learning_rate": 0.0002,
      "loss": 0.5513558387756348,
      "mean_token_accuracy": 0.7774477899074554,
      "num_tokens": 5983303.0,
      "step": 367
    },
    {
      "entropy": 0.5479168146848679,
      "epoch": 1.3738317757009346,
      "grad_norm": 0.03147226572036743,
      "learning_rate": 0.0002,
      "loss": 0.5468041300773621,
      "mean_token_accuracy": 0.7777006030082703,
      "num_tokens": 5999776.0,
      "step": 368
    },
    {
      "entropy": 0.5567852258682251,
      "epoch": 1.377570093457944,
      "grad_norm": 0.03519264608621597,
      "learning_rate": 0.0002,
      "loss": 0.5599963068962097,
      "mean_token_accuracy": 0.7709233462810516,
      "num_tokens": 6015938.0,
      "step": 369
    },
    {
      "entropy": 0.5587522089481354,
      "epoch": 1.3813084112149534,
      "grad_norm": 0.03433060646057129,
      "learning_rate": 0.0002,
      "loss": 0.5571247339248657,
      "mean_token_accuracy": 0.7718200087547302,
      "num_tokens": 6032196.0,
      "step": 370
    },
    {
      "entropy": 0.5337067395448685,
      "epoch": 1.3850467289719626,
      "grad_norm": 0.030834900215268135,
      "learning_rate": 0.0002,
      "loss": 0.5330364108085632,
      "mean_token_accuracy": 0.7854774743318558,
      "num_tokens": 6048415.0,
      "step": 371
    },
    {
      "entropy": 0.5485008955001831,
      "epoch": 1.388785046728972,
      "grad_norm": 0.038097940385341644,
      "learning_rate": 0.0002,
      "loss": 0.5500508546829224,
      "mean_token_accuracy": 0.775309219956398,
      "num_tokens": 6064562.0,
      "step": 372
    },
    {
      "entropy": 0.5520146042108536,
      "epoch": 1.3925233644859814,
      "grad_norm": 0.02676542103290558,
      "learning_rate": 0.0002,
      "loss": 0.546633243560791,
      "mean_token_accuracy": 0.7763903141021729,
      "num_tokens": 6080869.0,
      "step": 373
    },
    {
      "entropy": 0.5430674999952316,
      "epoch": 1.3962616822429905,
      "grad_norm": 0.0291767455637455,
      "learning_rate": 0.0002,
      "loss": 0.5384376049041748,
      "mean_token_accuracy": 0.7846493870019913,
      "num_tokens": 6096995.0,
      "step": 374
    },
    {
      "entropy": 0.543053463101387,
      "epoch": 1.4,
      "grad_norm": 0.031880684196949005,
      "learning_rate": 0.0002,
      "loss": 0.5416824817657471,
      "mean_token_accuracy": 0.7807471454143524,
      "num_tokens": 6113154.0,
      "step": 375
    },
    {
      "entropy": 0.555852085351944,
      "epoch": 1.4037383177570093,
      "grad_norm": 0.03215760365128517,
      "learning_rate": 0.0002,
      "loss": 0.5583543181419373,
      "mean_token_accuracy": 0.7724814862012863,
      "num_tokens": 6129602.0,
      "step": 376
    },
    {
      "entropy": 0.5323648005723953,
      "epoch": 1.4074766355140187,
      "grad_norm": 0.03375270590186119,
      "learning_rate": 0.0002,
      "loss": 0.5405369400978088,
      "mean_token_accuracy": 0.7804393470287323,
      "num_tokens": 6145766.0,
      "step": 377
    },
    {
      "entropy": 0.5550488829612732,
      "epoch": 1.411214953271028,
      "grad_norm": 0.029217012226581573,
      "learning_rate": 0.0002,
      "loss": 0.554684579372406,
      "mean_token_accuracy": 0.7745330631732941,
      "num_tokens": 6162201.0,
      "step": 378
    },
    {
      "entropy": 0.5482346266508102,
      "epoch": 1.4149532710280375,
      "grad_norm": 0.03129247948527336,
      "learning_rate": 0.0002,
      "loss": 0.5419821739196777,
      "mean_token_accuracy": 0.7780721634626389,
      "num_tokens": 6178420.0,
      "step": 379
    },
    {
      "entropy": 0.5605264604091644,
      "epoch": 1.4186915887850469,
      "grad_norm": 0.028088558465242386,
      "learning_rate": 0.0002,
      "loss": 0.5536739230155945,
      "mean_token_accuracy": 0.7760752588510513,
      "num_tokens": 6195017.0,
      "step": 380
    },
    {
      "entropy": 0.5308103561401367,
      "epoch": 1.422429906542056,
      "grad_norm": 0.03174047917127609,
      "learning_rate": 0.0002,
      "loss": 0.5348400473594666,
      "mean_token_accuracy": 0.7830243110656738,
      "num_tokens": 6211269.0,
      "step": 381
    },
    {
      "entropy": 0.5362233817577362,
      "epoch": 1.4261682242990654,
      "grad_norm": 0.03284025564789772,
      "learning_rate": 0.0002,
      "loss": 0.5401143431663513,
      "mean_token_accuracy": 0.7799562960863113,
      "num_tokens": 6227503.0,
      "step": 382
    },
    {
      "entropy": 0.5288970768451691,
      "epoch": 1.4299065420560748,
      "grad_norm": 0.03117184154689312,
      "learning_rate": 0.0002,
      "loss": 0.5347498655319214,
      "mean_token_accuracy": 0.7850797027349472,
      "num_tokens": 6243667.0,
      "step": 383
    },
    {
      "entropy": 0.5478838980197906,
      "epoch": 1.433644859813084,
      "grad_norm": 0.0355689711868763,
      "learning_rate": 0.0002,
      "loss": 0.5515888333320618,
      "mean_token_accuracy": 0.7750401347875595,
      "num_tokens": 6259958.0,
      "step": 384
    },
    {
      "entropy": 0.5556496828794479,
      "epoch": 1.4373831775700934,
      "grad_norm": 0.03252286836504936,
      "learning_rate": 0.0002,
      "loss": 0.5527741312980652,
      "mean_token_accuracy": 0.7747504711151123,
      "num_tokens": 6276256.0,
      "step": 385
    },
    {
      "entropy": 0.536173865199089,
      "epoch": 1.4411214953271028,
      "grad_norm": 0.03125045448541641,
      "learning_rate": 0.0002,
      "loss": 0.5389170050621033,
      "mean_token_accuracy": 0.7826138287782669,
      "num_tokens": 6292477.0,
      "step": 386
    },
    {
      "entropy": 0.5414228439331055,
      "epoch": 1.4448598130841122,
      "grad_norm": 0.029693089425563812,
      "learning_rate": 0.0002,
      "loss": 0.5456768870353699,
      "mean_token_accuracy": 0.7780184000730515,
      "num_tokens": 6308848.0,
      "step": 387
    },
    {
      "entropy": 0.5460960417985916,
      "epoch": 1.4485981308411215,
      "grad_norm": 0.028725288808345795,
      "learning_rate": 0.0002,
      "loss": 0.5453904867172241,
      "mean_token_accuracy": 0.7754503637552261,
      "num_tokens": 6325175.0,
      "step": 388
    },
    {
      "entropy": 0.5478474348783493,
      "epoch": 1.452336448598131,
      "grad_norm": 0.03158194199204445,
      "learning_rate": 0.0002,
      "loss": 0.5430905818939209,
      "mean_token_accuracy": 0.7789453864097595,
      "num_tokens": 6341307.0,
      "step": 389
    },
    {
      "entropy": 0.5458368062973022,
      "epoch": 1.45607476635514,
      "grad_norm": 0.02816491760313511,
      "learning_rate": 0.0002,
      "loss": 0.543704092502594,
      "mean_token_accuracy": 0.7792259007692337,
      "num_tokens": 6357858.0,
      "step": 390
    },
    {
      "entropy": 0.5392302572727203,
      "epoch": 1.4598130841121495,
      "grad_norm": 0.04157215729355812,
      "learning_rate": 0.0002,
      "loss": 0.544989287853241,
      "mean_token_accuracy": 0.7776051461696625,
      "num_tokens": 6373868.0,
      "step": 391
    },
    {
      "entropy": 0.5487792640924454,
      "epoch": 1.4635514018691589,
      "grad_norm": 0.03120332583785057,
      "learning_rate": 0.0002,
      "loss": 0.5500867962837219,
      "mean_token_accuracy": 0.7786511480808258,
      "num_tokens": 6390370.0,
      "step": 392
    },
    {
      "entropy": 0.5473900437355042,
      "epoch": 1.4672897196261683,
      "grad_norm": 0.03685331344604492,
      "learning_rate": 0.0002,
      "loss": 0.5516798496246338,
      "mean_token_accuracy": 0.7734636813402176,
      "num_tokens": 6406810.0,
      "step": 393
    },
    {
      "entropy": 0.5339369177818298,
      "epoch": 1.4710280373831774,
      "grad_norm": 0.031062059104442596,
      "learning_rate": 0.0002,
      "loss": 0.5277940034866333,
      "mean_token_accuracy": 0.7844891250133514,
      "num_tokens": 6423321.0,
      "step": 394
    },
    {
      "entropy": 0.5646286159753799,
      "epoch": 1.4747663551401868,
      "grad_norm": 0.03419705480337143,
      "learning_rate": 0.0002,
      "loss": 0.560526967048645,
      "mean_token_accuracy": 0.7742912471294403,
      "num_tokens": 6439751.0,
      "step": 395
    },
    {
      "entropy": 0.5566267520189285,
      "epoch": 1.4785046728971962,
      "grad_norm": 0.030112918466329575,
      "learning_rate": 0.0002,
      "loss": 0.551886796951294,
      "mean_token_accuracy": 0.7758849114179611,
      "num_tokens": 6456064.0,
      "step": 396
    },
    {
      "entropy": 0.5496308952569962,
      "epoch": 1.4822429906542056,
      "grad_norm": 0.029358550906181335,
      "learning_rate": 0.0002,
      "loss": 0.5503244400024414,
      "mean_token_accuracy": 0.779025211930275,
      "num_tokens": 6472168.0,
      "step": 397
    },
    {
      "entropy": 0.5490056574344635,
      "epoch": 1.485981308411215,
      "grad_norm": 0.03679414093494415,
      "learning_rate": 0.0002,
      "loss": 0.5532426834106445,
      "mean_token_accuracy": 0.77412910759449,
      "num_tokens": 6488701.0,
      "step": 398
    },
    {
      "entropy": 0.5552525818347931,
      "epoch": 1.4897196261682244,
      "grad_norm": 0.03460443392395973,
      "learning_rate": 0.0002,
      "loss": 0.5580930709838867,
      "mean_token_accuracy": 0.7725805938243866,
      "num_tokens": 6504913.0,
      "step": 399
    },
    {
      "entropy": 0.5486905574798584,
      "epoch": 1.4934579439252336,
      "grad_norm": 0.03757799416780472,
      "learning_rate": 0.0002,
      "loss": 0.5467075705528259,
      "mean_token_accuracy": 0.7737327963113785,
      "num_tokens": 6521159.0,
      "step": 400
    },
    {
      "entropy": 0.5667891502380371,
      "epoch": 1.497196261682243,
      "grad_norm": 0.0321633443236351,
      "learning_rate": 0.0002,
      "loss": 0.5584529042243958,
      "mean_token_accuracy": 0.7716430127620697,
      "num_tokens": 6537343.0,
      "step": 401
    },
    {
      "entropy": 0.560171589255333,
      "epoch": 1.5009345794392523,
      "grad_norm": 0.027958108112215996,
      "learning_rate": 0.0002,
      "loss": 0.5571039319038391,
      "mean_token_accuracy": 0.7695076316595078,
      "num_tokens": 6553654.0,
      "step": 402
    },
    {
      "entropy": 0.5325733348727226,
      "epoch": 1.5046728971962615,
      "grad_norm": 0.03109286166727543,
      "learning_rate": 0.0002,
      "loss": 0.5371490716934204,
      "mean_token_accuracy": 0.7818229347467422,
      "num_tokens": 6569830.0,
      "step": 403
    },
    {
      "entropy": 0.5464021414518356,
      "epoch": 1.508411214953271,
      "grad_norm": 0.033921979367733,
      "learning_rate": 0.0002,
      "loss": 0.5520694255828857,
      "mean_token_accuracy": 0.7737181484699249,
      "num_tokens": 6586181.0,
      "step": 404
    },
    {
      "entropy": 0.5360658913850784,
      "epoch": 1.5121495327102803,
      "grad_norm": 0.03216444328427315,
      "learning_rate": 0.0002,
      "loss": 0.539574921131134,
      "mean_token_accuracy": 0.7791631668806076,
      "num_tokens": 6602220.0,
      "step": 405
    },
    {
      "entropy": 0.5452992171049118,
      "epoch": 1.5158878504672897,
      "grad_norm": 0.02836962789297104,
      "learning_rate": 0.0002,
      "loss": 0.5482081174850464,
      "mean_token_accuracy": 0.7770387381315231,
      "num_tokens": 6618603.0,
      "step": 406
    },
    {
      "entropy": 0.5549522340297699,
      "epoch": 1.519626168224299,
      "grad_norm": 0.029138341546058655,
      "learning_rate": 0.0002,
      "loss": 0.5456300973892212,
      "mean_token_accuracy": 0.7779618352651596,
      "num_tokens": 6634957.0,
      "step": 407
    },
    {
      "entropy": 0.5506550967693329,
      "epoch": 1.5233644859813085,
      "grad_norm": 0.02889757789671421,
      "learning_rate": 0.0002,
      "loss": 0.5417683720588684,
      "mean_token_accuracy": 0.7772906571626663,
      "num_tokens": 6651192.0,
      "step": 408
    },
    {
      "entropy": 0.5641747862100601,
      "epoch": 1.5271028037383179,
      "grad_norm": 0.029291054233908653,
      "learning_rate": 0.0002,
      "loss": 0.5575106143951416,
      "mean_token_accuracy": 0.7736930400133133,
      "num_tokens": 6667351.0,
      "step": 409
    },
    {
      "entropy": 0.5569720417261124,
      "epoch": 1.5308411214953273,
      "grad_norm": 0.031217265874147415,
      "learning_rate": 0.0002,
      "loss": 0.5568684339523315,
      "mean_token_accuracy": 0.7742536216974258,
      "num_tokens": 6683766.0,
      "step": 410
    },
    {
      "entropy": 0.5555198639631271,
      "epoch": 1.5345794392523364,
      "grad_norm": 0.041470784693956375,
      "learning_rate": 0.0002,
      "loss": 0.5674223303794861,
      "mean_token_accuracy": 0.7700306624174118,
      "num_tokens": 6700296.0,
      "step": 411
    },
    {
      "entropy": 0.5609412640333176,
      "epoch": 1.5383177570093458,
      "grad_norm": 0.03198862448334694,
      "learning_rate": 0.0002,
      "loss": 0.5651755332946777,
      "mean_token_accuracy": 0.7717378437519073,
      "num_tokens": 6716475.0,
      "step": 412
    },
    {
      "entropy": 0.5559493005275726,
      "epoch": 1.542056074766355,
      "grad_norm": 0.029610617086291313,
      "learning_rate": 0.0002,
      "loss": 0.5465991497039795,
      "mean_token_accuracy": 0.7768793702125549,
      "num_tokens": 6732579.0,
      "step": 413
    },
    {
      "entropy": 0.5383591949939728,
      "epoch": 1.5457943925233644,
      "grad_norm": 0.03238457813858986,
      "learning_rate": 0.0002,
      "loss": 0.5351200699806213,
      "mean_token_accuracy": 0.7838361263275146,
      "num_tokens": 6748613.0,
      "step": 414
    },
    {
      "entropy": 0.5723170787096024,
      "epoch": 1.5495327102803738,
      "grad_norm": 0.03184224292635918,
      "learning_rate": 0.0002,
      "loss": 0.5706000328063965,
      "mean_token_accuracy": 0.7656203061342239,
      "num_tokens": 6764799.0,
      "step": 415
    },
    {
      "entropy": 0.5449900329113007,
      "epoch": 1.5532710280373832,
      "grad_norm": 0.03413036838173866,
      "learning_rate": 0.0002,
      "loss": 0.5444662570953369,
      "mean_token_accuracy": 0.7746504992246628,
      "num_tokens": 6781040.0,
      "step": 416
    },
    {
      "entropy": 0.5653754621744156,
      "epoch": 1.5570093457943925,
      "grad_norm": 0.03557061403989792,
      "learning_rate": 0.0002,
      "loss": 0.5661092400550842,
      "mean_token_accuracy": 0.7700045108795166,
      "num_tokens": 6797618.0,
      "step": 417
    },
    {
      "entropy": 0.5285668075084686,
      "epoch": 1.560747663551402,
      "grad_norm": 0.02898026816546917,
      "learning_rate": 0.0002,
      "loss": 0.5310862064361572,
      "mean_token_accuracy": 0.7867710143327713,
      "num_tokens": 6813889.0,
      "step": 418
    },
    {
      "entropy": 0.5591782182455063,
      "epoch": 1.5644859813084113,
      "grad_norm": 0.03489390015602112,
      "learning_rate": 0.0002,
      "loss": 0.559260368347168,
      "mean_token_accuracy": 0.7742950618267059,
      "num_tokens": 6830511.0,
      "step": 419
    },
    {
      "entropy": 0.5233039408922195,
      "epoch": 1.5682242990654207,
      "grad_norm": 0.031120121479034424,
      "learning_rate": 0.0002,
      "loss": 0.5304787158966064,
      "mean_token_accuracy": 0.7851588577032089,
      "num_tokens": 6846831.0,
      "step": 420
    },
    {
      "entropy": 0.5615075826644897,
      "epoch": 1.5719626168224299,
      "grad_norm": 0.032532718032598495,
      "learning_rate": 0.0002,
      "loss": 0.557915985584259,
      "mean_token_accuracy": 0.7756024897098541,
      "num_tokens": 6863482.0,
      "step": 421
    },
    {
      "entropy": 0.5608477592468262,
      "epoch": 1.5757009345794393,
      "grad_norm": 0.03193405270576477,
      "learning_rate": 0.0002,
      "loss": 0.5570778250694275,
      "mean_token_accuracy": 0.7736349552869797,
      "num_tokens": 6879744.0,
      "step": 422
    },
    {
      "entropy": 0.5420049726963043,
      "epoch": 1.5794392523364484,
      "grad_norm": 0.03341756388545036,
      "learning_rate": 0.0002,
      "loss": 0.5422099828720093,
      "mean_token_accuracy": 0.7786398679018021,
      "num_tokens": 6895998.0,
      "step": 423
    },
    {
      "entropy": 0.5501766800880432,
      "epoch": 1.5831775700934578,
      "grad_norm": 0.03080238774418831,
      "learning_rate": 0.0002,
      "loss": 0.543519139289856,
      "mean_token_accuracy": 0.779445543885231,
      "num_tokens": 6912350.0,
      "step": 424
    },
    {
      "entropy": 0.5548175424337387,
      "epoch": 1.5869158878504672,
      "grad_norm": 0.029699817299842834,
      "learning_rate": 0.0002,
      "loss": 0.554355263710022,
      "mean_token_accuracy": 0.7715099602937698,
      "num_tokens": 6928868.0,
      "step": 425
    },
    {
      "entropy": 0.5445838496088982,
      "epoch": 1.5906542056074766,
      "grad_norm": 0.03310444578528404,
      "learning_rate": 0.0002,
      "loss": 0.5509841442108154,
      "mean_token_accuracy": 0.7749770432710648,
      "num_tokens": 6945115.0,
      "step": 426
    },
    {
      "entropy": 0.5508389323949814,
      "epoch": 1.594392523364486,
      "grad_norm": 0.03343511372804642,
      "learning_rate": 0.0002,
      "loss": 0.5527422428131104,
      "mean_token_accuracy": 0.7760582268238068,
      "num_tokens": 6961606.0,
      "step": 427
    },
    {
      "entropy": 0.5455803871154785,
      "epoch": 1.5981308411214954,
      "grad_norm": 0.030003823339939117,
      "learning_rate": 0.0002,
      "loss": 0.5433002710342407,
      "mean_token_accuracy": 0.7772544771432877,
      "num_tokens": 6977721.0,
      "step": 428
    },
    {
      "entropy": 0.542354941368103,
      "epoch": 1.6018691588785048,
      "grad_norm": 0.02921188622713089,
      "learning_rate": 0.0002,
      "loss": 0.5396295785903931,
      "mean_token_accuracy": 0.7784738689661026,
      "num_tokens": 6994015.0,
      "step": 429
    },
    {
      "entropy": 0.5403562635183334,
      "epoch": 1.6056074766355142,
      "grad_norm": 0.03267091140151024,
      "learning_rate": 0.0002,
      "loss": 0.5412419438362122,
      "mean_token_accuracy": 0.7828981131315231,
      "num_tokens": 7010256.0,
      "step": 430
    },
    {
      "entropy": 0.5418384820222855,
      "epoch": 1.6093457943925233,
      "grad_norm": 0.03328794986009598,
      "learning_rate": 0.0002,
      "loss": 0.5415868163108826,
      "mean_token_accuracy": 0.7787100970745087,
      "num_tokens": 7026538.0,
      "step": 431
    },
    {
      "entropy": 0.5569044798612595,
      "epoch": 1.6130841121495327,
      "grad_norm": 0.03399523347616196,
      "learning_rate": 0.0002,
      "loss": 0.5610039830207825,
      "mean_token_accuracy": 0.7681904435157776,
      "num_tokens": 7042821.0,
      "step": 432
    },
    {
      "entropy": 0.5516158491373062,
      "epoch": 1.616822429906542,
      "grad_norm": 0.041675642132759094,
      "learning_rate": 0.0002,
      "loss": 0.5512884855270386,
      "mean_token_accuracy": 0.7792385816574097,
      "num_tokens": 7059278.0,
      "step": 433
    },
    {
      "entropy": 0.5493542701005936,
      "epoch": 1.6205607476635513,
      "grad_norm": 0.029840141534805298,
      "learning_rate": 0.0002,
      "loss": 0.5508259534835815,
      "mean_token_accuracy": 0.7764638513326645,
      "num_tokens": 7075675.0,
      "step": 434
    },
    {
      "entropy": 0.5415777564048767,
      "epoch": 1.6242990654205607,
      "grad_norm": 0.04138097167015076,
      "learning_rate": 0.0002,
      "loss": 0.540780246257782,
      "mean_token_accuracy": 0.7806251496076584,
      "num_tokens": 7091803.0,
      "step": 435
    },
    {
      "entropy": 0.5550828725099564,
      "epoch": 1.62803738317757,
      "grad_norm": 0.03500202298164368,
      "learning_rate": 0.0002,
      "loss": 0.5536463856697083,
      "mean_token_accuracy": 0.7767235636711121,
      "num_tokens": 7108257.0,
      "step": 436
    },
    {
      "entropy": 0.5612530559301376,
      "epoch": 1.6317757009345795,
      "grad_norm": 0.029145153239369392,
      "learning_rate": 0.0002,
      "loss": 0.5608190894126892,
      "mean_token_accuracy": 0.7731182426214218,
      "num_tokens": 7124785.0,
      "step": 437
    },
    {
      "entropy": 0.5527195036411285,
      "epoch": 1.6355140186915889,
      "grad_norm": 0.035749297589063644,
      "learning_rate": 0.0002,
      "loss": 0.5629845857620239,
      "mean_token_accuracy": 0.7721443176269531,
      "num_tokens": 7141265.0,
      "step": 438
    },
    {
      "entropy": 0.5614519417285919,
      "epoch": 1.6392523364485982,
      "grad_norm": 0.033001191914081573,
      "learning_rate": 0.0002,
      "loss": 0.5560024976730347,
      "mean_token_accuracy": 0.7749044448137283,
      "num_tokens": 7157859.0,
      "step": 439
    },
    {
      "entropy": 0.5537575930356979,
      "epoch": 1.6429906542056076,
      "grad_norm": 0.026474064216017723,
      "learning_rate": 0.0002,
      "loss": 0.5511392951011658,
      "mean_token_accuracy": 0.7752827405929565,
      "num_tokens": 7174159.0,
      "step": 440
    },
    {
      "entropy": 0.5490387231111526,
      "epoch": 1.6467289719626168,
      "grad_norm": 0.03137727826833725,
      "learning_rate": 0.0002,
      "loss": 0.5470349192619324,
      "mean_token_accuracy": 0.7756170034408569,
      "num_tokens": 7190518.0,
      "step": 441
    },
    {
      "entropy": 0.5602337867021561,
      "epoch": 1.6504672897196262,
      "grad_norm": 0.0327768549323082,
      "learning_rate": 0.0002,
      "loss": 0.5596269369125366,
      "mean_token_accuracy": 0.7712970525026321,
      "num_tokens": 7206832.0,
      "step": 442
    },
    {
      "entropy": 0.5407531261444092,
      "epoch": 1.6542056074766354,
      "grad_norm": 0.0337577648460865,
      "learning_rate": 0.0002,
      "loss": 0.5448312759399414,
      "mean_token_accuracy": 0.7795456647872925,
      "num_tokens": 7222967.0,
      "step": 443
    },
    {
      "entropy": 0.5409540086984634,
      "epoch": 1.6579439252336448,
      "grad_norm": 0.03192588686943054,
      "learning_rate": 0.0002,
      "loss": 0.5484352111816406,
      "mean_token_accuracy": 0.7764406651258469,
      "num_tokens": 7239342.0,
      "step": 444
    },
    {
      "entropy": 0.5369711667299271,
      "epoch": 1.6616822429906541,
      "grad_norm": 0.029282715171575546,
      "learning_rate": 0.0002,
      "loss": 0.5391625165939331,
      "mean_token_accuracy": 0.7777595669031143,
      "num_tokens": 7255685.0,
      "step": 445
    },
    {
      "entropy": 0.5320119112730026,
      "epoch": 1.6654205607476635,
      "grad_norm": 0.03132037818431854,
      "learning_rate": 0.0002,
      "loss": 0.5324081182479858,
      "mean_token_accuracy": 0.7831796556711197,
      "num_tokens": 7271873.0,
      "step": 446
    },
    {
      "entropy": 0.5473773181438446,
      "epoch": 1.669158878504673,
      "grad_norm": 0.029359478503465652,
      "learning_rate": 0.0002,
      "loss": 0.5430581569671631,
      "mean_token_accuracy": 0.780887171626091,
      "num_tokens": 7288229.0,
      "step": 447
    },
    {
      "entropy": 0.5577313005924225,
      "epoch": 1.6728971962616823,
      "grad_norm": 0.0312592051923275,
      "learning_rate": 0.0002,
      "loss": 0.5549578070640564,
      "mean_token_accuracy": 0.7755182534456253,
      "num_tokens": 7304562.0,
      "step": 448
    },
    {
      "entropy": 0.5430529564619064,
      "epoch": 1.6766355140186917,
      "grad_norm": 0.036848753690719604,
      "learning_rate": 0.0002,
      "loss": 0.5486578941345215,
      "mean_token_accuracy": 0.7793130427598953,
      "num_tokens": 7320789.0,
      "step": 449
    },
    {
      "entropy": 0.5367421358823776,
      "epoch": 1.680373831775701,
      "grad_norm": 0.03133554011583328,
      "learning_rate": 0.0002,
      "loss": 0.5428006649017334,
      "mean_token_accuracy": 0.7791069746017456,
      "num_tokens": 7336720.0,
      "step": 450
    },
    {
      "entropy": 0.5608862638473511,
      "epoch": 1.6841121495327103,
      "grad_norm": 0.033135656267404556,
      "learning_rate": 0.0002,
      "loss": 0.5513461828231812,
      "mean_token_accuracy": 0.7747347801923752,
      "num_tokens": 7353115.0,
      "step": 451
    },
    {
      "entropy": 0.5476694256067276,
      "epoch": 1.6878504672897197,
      "grad_norm": 0.02974470518529415,
      "learning_rate": 0.0002,
      "loss": 0.5473049879074097,
      "mean_token_accuracy": 0.7776686698198318,
      "num_tokens": 7369302.0,
      "step": 452
    },
    {
      "entropy": 0.5416230708360672,
      "epoch": 1.6915887850467288,
      "grad_norm": 0.0338185578584671,
      "learning_rate": 0.0002,
      "loss": 0.5420779585838318,
      "mean_token_accuracy": 0.7770841121673584,
      "num_tokens": 7385486.0,
      "step": 453
    },
    {
      "entropy": 0.5354430079460144,
      "epoch": 1.6953271028037382,
      "grad_norm": 0.04928300157189369,
      "learning_rate": 0.0002,
      "loss": 0.5383298397064209,
      "mean_token_accuracy": 0.7825010567903519,
      "num_tokens": 7401834.0,
      "step": 454
    },
    {
      "entropy": 0.5533457249403,
      "epoch": 1.6990654205607476,
      "grad_norm": 0.03868211433291435,
      "learning_rate": 0.0002,
      "loss": 0.5589519739151001,
      "mean_token_accuracy": 0.7741620242595673,
      "num_tokens": 7418328.0,
      "step": 455
    },
    {
      "entropy": 0.5337075442075729,
      "epoch": 1.702803738317757,
      "grad_norm": 0.03012922592461109,
      "learning_rate": 0.0002,
      "loss": 0.5302947163581848,
      "mean_token_accuracy": 0.7835781127214432,
      "num_tokens": 7434426.0,
      "step": 456
    },
    {
      "entropy": 0.5648263692855835,
      "epoch": 1.7065420560747664,
      "grad_norm": 0.028873439878225327,
      "learning_rate": 0.0002,
      "loss": 0.5585320591926575,
      "mean_token_accuracy": 0.7732219845056534,
      "num_tokens": 7451036.0,
      "step": 457
    },
    {
      "entropy": 0.5839773565530777,
      "epoch": 1.7102803738317758,
      "grad_norm": 0.033153235912323,
      "learning_rate": 0.0002,
      "loss": 0.5761073231697083,
      "mean_token_accuracy": 0.7669852823019028,
      "num_tokens": 7467359.0,
      "step": 458
    },
    {
      "entropy": 0.5488205403089523,
      "epoch": 1.7140186915887852,
      "grad_norm": 0.032065052539110184,
      "learning_rate": 0.0002,
      "loss": 0.5483813285827637,
      "mean_token_accuracy": 0.7763916105031967,
      "num_tokens": 7483649.0,
      "step": 459
    },
    {
      "entropy": 0.5411174297332764,
      "epoch": 1.7177570093457943,
      "grad_norm": 0.0323743000626564,
      "learning_rate": 0.0002,
      "loss": 0.5461615920066833,
      "mean_token_accuracy": 0.7778149843215942,
      "num_tokens": 7500070.0,
      "step": 460
    },
    {
      "entropy": 0.533783033490181,
      "epoch": 1.7214953271028037,
      "grad_norm": 0.03367235139012337,
      "learning_rate": 0.0002,
      "loss": 0.5427653193473816,
      "mean_token_accuracy": 0.7805494964122772,
      "num_tokens": 7516529.0,
      "step": 461
    },
    {
      "entropy": 0.5454732924699783,
      "epoch": 1.7252336448598131,
      "grad_norm": 0.034071460366249084,
      "learning_rate": 0.0002,
      "loss": 0.5546566247940063,
      "mean_token_accuracy": 0.7736624777317047,
      "num_tokens": 7533025.0,
      "step": 462
    },
    {
      "entropy": 0.5454118698835373,
      "epoch": 1.7289719626168223,
      "grad_norm": 0.03127819299697876,
      "learning_rate": 0.0002,
      "loss": 0.5452259182929993,
      "mean_token_accuracy": 0.7759493589401245,
      "num_tokens": 7549482.0,
      "step": 463
    },
    {
      "entropy": 0.5667081475257874,
      "epoch": 1.7327102803738317,
      "grad_norm": 0.0311261173337698,
      "learning_rate": 0.0002,
      "loss": 0.5610095858573914,
      "mean_token_accuracy": 0.772314265370369,
      "num_tokens": 7565748.0,
      "step": 464
    },
    {
      "entropy": 0.5310934036970139,
      "epoch": 1.736448598130841,
      "grad_norm": 0.03265678882598877,
      "learning_rate": 0.0002,
      "loss": 0.5214373469352722,
      "mean_token_accuracy": 0.7887950539588928,
      "num_tokens": 7582052.0,
      "step": 465
    },
    {
      "entropy": 0.5556392967700958,
      "epoch": 1.7401869158878505,
      "grad_norm": 0.03034058026969433,
      "learning_rate": 0.0002,
      "loss": 0.5505704283714294,
      "mean_token_accuracy": 0.7774366736412048,
      "num_tokens": 7598174.0,
      "step": 466
    },
    {
      "entropy": 0.5393192917108536,
      "epoch": 1.7439252336448599,
      "grad_norm": 0.0359746590256691,
      "learning_rate": 0.0002,
      "loss": 0.5477877259254456,
      "mean_token_accuracy": 0.7797855734825134,
      "num_tokens": 7614503.0,
      "step": 467
    },
    {
      "entropy": 0.551783487200737,
      "epoch": 1.7476635514018692,
      "grad_norm": 0.03548724204301834,
      "learning_rate": 0.0002,
      "loss": 0.5540840029716492,
      "mean_token_accuracy": 0.7747608870267868,
      "num_tokens": 7630814.0,
      "step": 468
    },
    {
      "entropy": 0.5413367450237274,
      "epoch": 1.7514018691588786,
      "grad_norm": 0.034123897552490234,
      "learning_rate": 0.0002,
      "loss": 0.5470243692398071,
      "mean_token_accuracy": 0.779376894235611,
      "num_tokens": 7647376.0,
      "step": 469
    },
    {
      "entropy": 0.5412023663520813,
      "epoch": 1.7551401869158878,
      "grad_norm": 0.03561440855264664,
      "learning_rate": 0.0002,
      "loss": 0.5472733378410339,
      "mean_token_accuracy": 0.7762201726436615,
      "num_tokens": 7663345.0,
      "step": 470
    },
    {
      "entropy": 0.549220860004425,
      "epoch": 1.7588785046728972,
      "grad_norm": 0.02905275858938694,
      "learning_rate": 0.0002,
      "loss": 0.541520893573761,
      "mean_token_accuracy": 0.7792876809835434,
      "num_tokens": 7679585.0,
      "step": 471
    },
    {
      "entropy": 0.5333058834075928,
      "epoch": 1.7626168224299066,
      "grad_norm": 0.03320024162530899,
      "learning_rate": 0.0002,
      "loss": 0.5264161229133606,
      "mean_token_accuracy": 0.7870939522981644,
      "num_tokens": 7695719.0,
      "step": 472
    },
    {
      "entropy": 0.5468353033065796,
      "epoch": 1.7663551401869158,
      "grad_norm": 0.03256339579820633,
      "learning_rate": 0.0002,
      "loss": 0.5458404421806335,
      "mean_token_accuracy": 0.778706505894661,
      "num_tokens": 7711803.0,
      "step": 473
    },
    {
      "entropy": 0.536187469959259,
      "epoch": 1.7700934579439251,
      "grad_norm": 0.03339603543281555,
      "learning_rate": 0.0002,
      "loss": 0.5392374992370605,
      "mean_token_accuracy": 0.7822528183460236,
      "num_tokens": 7728002.0,
      "step": 474
    },
    {
      "entropy": 0.5286234319210052,
      "epoch": 1.7738317757009345,
      "grad_norm": 0.033285900950431824,
      "learning_rate": 0.0002,
      "loss": 0.5358365774154663,
      "mean_token_accuracy": 0.7836114317178726,
      "num_tokens": 7744366.0,
      "step": 475
    },
    {
      "entropy": 0.5403973311185837,
      "epoch": 1.777570093457944,
      "grad_norm": 0.028936821967363358,
      "learning_rate": 0.0002,
      "loss": 0.5398406386375427,
      "mean_token_accuracy": 0.7814478874206543,
      "num_tokens": 7760549.0,
      "step": 476
    },
    {
      "entropy": 0.5419041812419891,
      "epoch": 1.7813084112149533,
      "grad_norm": 0.03836261108517647,
      "learning_rate": 0.0002,
      "loss": 0.5494267344474792,
      "mean_token_accuracy": 0.775143027305603,
      "num_tokens": 7776621.0,
      "step": 477
    },
    {
      "entropy": 0.5589816868305206,
      "epoch": 1.7850467289719627,
      "grad_norm": 0.03261716663837433,
      "learning_rate": 0.0002,
      "loss": 0.5496556758880615,
      "mean_token_accuracy": 0.775287851691246,
      "num_tokens": 7792949.0,
      "step": 478
    },
    {
      "entropy": 0.5772902369499207,
      "epoch": 1.788785046728972,
      "grad_norm": 0.03729069605469704,
      "learning_rate": 0.0002,
      "loss": 0.5730117559432983,
      "mean_token_accuracy": 0.7676824629306793,
      "num_tokens": 7809233.0,
      "step": 479
    },
    {
      "entropy": 0.5505616068840027,
      "epoch": 1.7925233644859813,
      "grad_norm": 0.0271653700619936,
      "learning_rate": 0.0002,
      "loss": 0.5481145977973938,
      "mean_token_accuracy": 0.7766467928886414,
      "num_tokens": 7825604.0,
      "step": 480
    },
    {
      "entropy": 0.5539548844099045,
      "epoch": 1.7962616822429907,
      "grad_norm": 0.035687919706106186,
      "learning_rate": 0.0002,
      "loss": 0.5536059737205505,
      "mean_token_accuracy": 0.7723885625600815,
      "num_tokens": 7841764.0,
      "step": 481
    },
    {
      "entropy": 0.548996701836586,
      "epoch": 1.8,
      "grad_norm": 0.03167950361967087,
      "learning_rate": 0.0002,
      "loss": 0.5525107383728027,
      "mean_token_accuracy": 0.7743307799100876,
      "num_tokens": 7857918.0,
      "step": 482
    },
    {
      "entropy": 0.5371337532997131,
      "epoch": 1.8037383177570092,
      "grad_norm": 0.03125729039311409,
      "learning_rate": 0.0002,
      "loss": 0.5431434512138367,
      "mean_token_accuracy": 0.7770611643791199,
      "num_tokens": 7874375.0,
      "step": 483
    },
    {
      "entropy": 0.5534856170415878,
      "epoch": 1.8074766355140186,
      "grad_norm": 0.03495310619473457,
      "learning_rate": 0.0002,
      "loss": 0.5606104731559753,
      "mean_token_accuracy": 0.7701490819454193,
      "num_tokens": 7890503.0,
      "step": 484
    },
    {
      "entropy": 0.5570873767137527,
      "epoch": 1.811214953271028,
      "grad_norm": 0.031059635803103447,
      "learning_rate": 0.0002,
      "loss": 0.5577523112297058,
      "mean_token_accuracy": 0.7766271531581879,
      "num_tokens": 7906740.0,
      "step": 485
    },
    {
      "entropy": 0.549734815955162,
      "epoch": 1.8149532710280374,
      "grad_norm": 0.029658785089850426,
      "learning_rate": 0.0002,
      "loss": 0.5459674000740051,
      "mean_token_accuracy": 0.778388187289238,
      "num_tokens": 7923366.0,
      "step": 486
    },
    {
      "entropy": 0.556487500667572,
      "epoch": 1.8186915887850468,
      "grad_norm": 0.03030308522284031,
      "learning_rate": 0.0002,
      "loss": 0.5487005710601807,
      "mean_token_accuracy": 0.7778837084770203,
      "num_tokens": 7939678.0,
      "step": 487
    },
    {
      "entropy": 0.5620574653148651,
      "epoch": 1.8224299065420562,
      "grad_norm": 0.03321143984794617,
      "learning_rate": 0.0002,
      "loss": 0.5632344484329224,
      "mean_token_accuracy": 0.771716520190239,
      "num_tokens": 7955824.0,
      "step": 488
    },
    {
      "entropy": 0.5325201749801636,
      "epoch": 1.8261682242990656,
      "grad_norm": 0.0296145249158144,
      "learning_rate": 0.0002,
      "loss": 0.5337831377983093,
      "mean_token_accuracy": 0.7806598991155624,
      "num_tokens": 7971945.0,
      "step": 489
    },
    {
      "entropy": 0.5530183613300323,
      "epoch": 1.8299065420560747,
      "grad_norm": 0.04490596428513527,
      "learning_rate": 0.0002,
      "loss": 0.5658998489379883,
      "mean_token_accuracy": 0.7682041078805923,
      "num_tokens": 7988395.0,
      "step": 490
    },
    {
      "entropy": 0.540508821606636,
      "epoch": 1.8336448598130841,
      "grad_norm": 0.03253109008073807,
      "learning_rate": 0.0002,
      "loss": 0.5402263402938843,
      "mean_token_accuracy": 0.7800282388925552,
      "num_tokens": 8004443.0,
      "step": 491
    },
    {
      "entropy": 0.5511161684989929,
      "epoch": 1.8373831775700935,
      "grad_norm": 0.030638035386800766,
      "learning_rate": 0.0002,
      "loss": 0.5421851277351379,
      "mean_token_accuracy": 0.7774636000394821,
      "num_tokens": 8020850.0,
      "step": 492
    },
    {
      "entropy": 0.5710225850343704,
      "epoch": 1.8411214953271027,
      "grad_norm": 0.029152031987905502,
      "learning_rate": 0.0002,
      "loss": 0.5603572130203247,
      "mean_token_accuracy": 0.7699873447418213,
      "num_tokens": 8037043.0,
      "step": 493
    },
    {
      "entropy": 0.5580283105373383,
      "epoch": 1.844859813084112,
      "grad_norm": 0.030489208176732063,
      "learning_rate": 0.0002,
      "loss": 0.5527392625808716,
      "mean_token_accuracy": 0.7742099016904831,
      "num_tokens": 8053631.0,
      "step": 494
    },
    {
      "entropy": 0.5568618625402451,
      "epoch": 1.8485981308411215,
      "grad_norm": 0.03116370178759098,
      "learning_rate": 0.0002,
      "loss": 0.557203471660614,
      "mean_token_accuracy": 0.7757259756326675,
      "num_tokens": 8069679.0,
      "step": 495
    },
    {
      "entropy": 0.5572323054075241,
      "epoch": 1.8523364485981308,
      "grad_norm": 0.03199765831232071,
      "learning_rate": 0.0002,
      "loss": 0.5623334646224976,
      "mean_token_accuracy": 0.7726736217737198,
      "num_tokens": 8086185.0,
      "step": 496
    },
    {
      "entropy": 0.5608405023813248,
      "epoch": 1.8560747663551402,
      "grad_norm": 0.03123069368302822,
      "learning_rate": 0.0002,
      "loss": 0.5668354630470276,
      "mean_token_accuracy": 0.7697951197624207,
      "num_tokens": 8102680.0,
      "step": 497
    },
    {
      "entropy": 0.5482483208179474,
      "epoch": 1.8598130841121496,
      "grad_norm": 0.03388088196516037,
      "learning_rate": 0.0002,
      "loss": 0.5544660091400146,
      "mean_token_accuracy": 0.7736243009567261,
      "num_tokens": 8119206.0,
      "step": 498
    },
    {
      "entropy": 0.5743024945259094,
      "epoch": 1.863551401869159,
      "grad_norm": 0.027546290308237076,
      "learning_rate": 0.0002,
      "loss": 0.5691558718681335,
      "mean_token_accuracy": 0.7669505923986435,
      "num_tokens": 8135686.0,
      "step": 499
    },
    {
      "entropy": 0.5571306794881821,
      "epoch": 1.8672897196261682,
      "grad_norm": 0.03095332719385624,
      "learning_rate": 0.0002,
      "loss": 0.5527883172035217,
      "mean_token_accuracy": 0.7751508802175522,
      "num_tokens": 8151938.0,
      "step": 500
    },
    {
      "entropy": 0.5444643199443817,
      "epoch": 1.8710280373831776,
      "grad_norm": 0.03176809847354889,
      "learning_rate": 0.0002,
      "loss": 0.5450653433799744,
      "mean_token_accuracy": 0.7778386175632477,
      "num_tokens": 8168369.0,
      "step": 501
    },
    {
      "entropy": 0.5318097025156021,
      "epoch": 1.874766355140187,
      "grad_norm": 0.03216860815882683,
      "learning_rate": 0.0002,
      "loss": 0.5350679159164429,
      "mean_token_accuracy": 0.7839819490909576,
      "num_tokens": 8184441.0,
      "step": 502
    },
    {
      "entropy": 0.5431730151176453,
      "epoch": 1.8785046728971961,
      "grad_norm": 0.031609971076250076,
      "learning_rate": 0.0002,
      "loss": 0.5454133152961731,
      "mean_token_accuracy": 0.7757967710494995,
      "num_tokens": 8200701.0,
      "step": 503
    },
    {
      "entropy": 0.5446748435497284,
      "epoch": 1.8822429906542055,
      "grad_norm": 0.03689466044306755,
      "learning_rate": 0.0002,
      "loss": 0.5491172075271606,
      "mean_token_accuracy": 0.7771103084087372,
      "num_tokens": 8216896.0,
      "step": 504
    },
    {
      "entropy": 0.5379506647586823,
      "epoch": 1.885981308411215,
      "grad_norm": 0.03774857521057129,
      "learning_rate": 0.0002,
      "loss": 0.5465993881225586,
      "mean_token_accuracy": 0.7745991945266724,
      "num_tokens": 8233119.0,
      "step": 505
    },
    {
      "entropy": 0.5524174273014069,
      "epoch": 1.8897196261682243,
      "grad_norm": 0.03127999231219292,
      "learning_rate": 0.0002,
      "loss": 0.552331268787384,
      "mean_token_accuracy": 0.7734175026416779,
      "num_tokens": 8249424.0,
      "step": 506
    },
    {
      "entropy": 0.5634707659482956,
      "epoch": 1.8934579439252337,
      "grad_norm": 0.03172188624739647,
      "learning_rate": 0.0002,
      "loss": 0.5552417039871216,
      "mean_token_accuracy": 0.7762156277894974,
      "num_tokens": 8265823.0,
      "step": 507
    },
    {
      "entropy": 0.5733916610479355,
      "epoch": 1.897196261682243,
      "grad_norm": 0.041391924023628235,
      "learning_rate": 0.0002,
      "loss": 0.5685185790061951,
      "mean_token_accuracy": 0.7656967639923096,
      "num_tokens": 8282150.0,
      "step": 508
    },
    {
      "entropy": 0.5633519440889359,
      "epoch": 1.9009345794392525,
      "grad_norm": 0.03210509195923805,
      "learning_rate": 0.0002,
      "loss": 0.5575313568115234,
      "mean_token_accuracy": 0.7736276984214783,
      "num_tokens": 8298545.0,
      "step": 509
    },
    {
      "entropy": 0.5282728672027588,
      "epoch": 1.9046728971962616,
      "grad_norm": 0.031000696122646332,
      "learning_rate": 0.0002,
      "loss": 0.5271653532981873,
      "mean_token_accuracy": 0.7857028245925903,
      "num_tokens": 8314750.0,
      "step": 510
    },
    {
      "entropy": 0.5598197877407074,
      "epoch": 1.908411214953271,
      "grad_norm": 0.03814297169446945,
      "learning_rate": 0.0002,
      "loss": 0.5556469559669495,
      "mean_token_accuracy": 0.7734071165323257,
      "num_tokens": 8331160.0,
      "step": 511
    },
    {
      "entropy": 0.5301484763622284,
      "epoch": 1.9121495327102802,
      "grad_norm": 0.03675490617752075,
      "learning_rate": 0.0002,
      "loss": 0.5384268760681152,
      "mean_token_accuracy": 0.7815950363874435,
      "num_tokens": 8347524.0,
      "step": 512
    },
    {
      "entropy": 0.556285485625267,
      "epoch": 1.9158878504672896,
      "grad_norm": 0.03204094246029854,
      "learning_rate": 0.0002,
      "loss": 0.5582637190818787,
      "mean_token_accuracy": 0.7725251466035843,
      "num_tokens": 8363738.0,
      "step": 513
    },
    {
      "entropy": 0.5535630583763123,
      "epoch": 1.919626168224299,
      "grad_norm": 0.030629510059952736,
      "learning_rate": 0.0002,
      "loss": 0.5578333735466003,
      "mean_token_accuracy": 0.7727056741714478,
      "num_tokens": 8380122.0,
      "step": 514
    },
    {
      "entropy": 0.5471296161413193,
      "epoch": 1.9233644859813084,
      "grad_norm": 0.03401264175772667,
      "learning_rate": 0.0002,
      "loss": 0.5535186529159546,
      "mean_token_accuracy": 0.7754651010036469,
      "num_tokens": 8396440.0,
      "step": 515
    },
    {
      "entropy": 0.5500332862138748,
      "epoch": 1.9271028037383178,
      "grad_norm": 0.03108939900994301,
      "learning_rate": 0.0002,
      "loss": 0.5485121607780457,
      "mean_token_accuracy": 0.7769151926040649,
      "num_tokens": 8412740.0,
      "step": 516
    },
    {
      "entropy": 0.5605651885271072,
      "epoch": 1.9308411214953272,
      "grad_norm": 0.028515921905636787,
      "learning_rate": 0.0002,
      "loss": 0.5516760349273682,
      "mean_token_accuracy": 0.7752381414175034,
      "num_tokens": 8429081.0,
      "step": 517
    },
    {
      "entropy": 0.5527090132236481,
      "epoch": 1.9345794392523366,
      "grad_norm": 0.032440509647130966,
      "learning_rate": 0.0002,
      "loss": 0.5482094883918762,
      "mean_token_accuracy": 0.776523694396019,
      "num_tokens": 8445459.0,
      "step": 518
    },
    {
      "entropy": 0.5639519840478897,
      "epoch": 1.938317757009346,
      "grad_norm": 0.03387531265616417,
      "learning_rate": 0.0002,
      "loss": 0.565314769744873,
      "mean_token_accuracy": 0.7686825692653656,
      "num_tokens": 8461834.0,
      "step": 519
    },
    {
      "entropy": 0.5390266180038452,
      "epoch": 1.9420560747663551,
      "grad_norm": 0.02882574312388897,
      "learning_rate": 0.0002,
      "loss": 0.5430452823638916,
      "mean_token_accuracy": 0.7774745523929596,
      "num_tokens": 8478272.0,
      "step": 520
    },
    {
      "entropy": 0.5343397557735443,
      "epoch": 1.9457943925233645,
      "grad_norm": 0.030860040336847305,
      "learning_rate": 0.0002,
      "loss": 0.5347194075584412,
      "mean_token_accuracy": 0.7817697376012802,
      "num_tokens": 8494437.0,
      "step": 521
    },
    {
      "entropy": 0.5492627769708633,
      "epoch": 1.9495327102803737,
      "grad_norm": 0.03405896574258804,
      "learning_rate": 0.0002,
      "loss": 0.5500932335853577,
      "mean_token_accuracy": 0.7765759974718094,
      "num_tokens": 8510975.0,
      "step": 522
    },
    {
      "entropy": 0.5563263446092606,
      "epoch": 1.953271028037383,
      "grad_norm": 0.03141237422823906,
      "learning_rate": 0.0002,
      "loss": 0.557966947555542,
      "mean_token_accuracy": 0.7717025876045227,
      "num_tokens": 8527347.0,
      "step": 523
    },
    {
      "entropy": 0.5636772364377975,
      "epoch": 1.9570093457943925,
      "grad_norm": 0.03168516606092453,
      "learning_rate": 0.0002,
      "loss": 0.5611008405685425,
      "mean_token_accuracy": 0.7714557945728302,
      "num_tokens": 8543551.0,
      "step": 524
    },
    {
      "entropy": 0.5489466190338135,
      "epoch": 1.9607476635514018,
      "grad_norm": 0.03355073928833008,
      "learning_rate": 0.0002,
      "loss": 0.5395604372024536,
      "mean_token_accuracy": 0.7807340919971466,
      "num_tokens": 8559955.0,
      "step": 525
    },
    {
      "entropy": 0.5399315655231476,
      "epoch": 1.9644859813084112,
      "grad_norm": 0.03453009948134422,
      "learning_rate": 0.0002,
      "loss": 0.5348931550979614,
      "mean_token_accuracy": 0.7806299477815628,
      "num_tokens": 8576469.0,
      "step": 526
    },
    {
      "entropy": 0.5491375476121902,
      "epoch": 1.9682242990654206,
      "grad_norm": 0.0316200815141201,
      "learning_rate": 0.0002,
      "loss": 0.5556234121322632,
      "mean_token_accuracy": 0.773221030831337,
      "num_tokens": 8592906.0,
      "step": 527
    },
    {
      "entropy": 0.5373014956712723,
      "epoch": 1.97196261682243,
      "grad_norm": 0.032452452927827835,
      "learning_rate": 0.0002,
      "loss": 0.5457467436790466,
      "mean_token_accuracy": 0.7758653908967972,
      "num_tokens": 8609100.0,
      "step": 528
    },
    {
      "entropy": 0.5414352118968964,
      "epoch": 1.9757009345794394,
      "grad_norm": 0.03351645544171333,
      "learning_rate": 0.0002,
      "loss": 0.5482410788536072,
      "mean_token_accuracy": 0.7752601951360703,
      "num_tokens": 8625316.0,
      "step": 529
    },
    {
      "entropy": 0.5407055169343948,
      "epoch": 1.9794392523364486,
      "grad_norm": 0.03003384917974472,
      "learning_rate": 0.0002,
      "loss": 0.5356785655021667,
      "mean_token_accuracy": 0.7822994440793991,
      "num_tokens": 8641716.0,
      "step": 530
    },
    {
      "entropy": 0.5463829636573792,
      "epoch": 1.983177570093458,
      "grad_norm": 0.028586186468601227,
      "learning_rate": 0.0002,
      "loss": 0.5386159420013428,
      "mean_token_accuracy": 0.7832934260368347,
      "num_tokens": 8658117.0,
      "step": 531
    },
    {
      "entropy": 0.52997986972332,
      "epoch": 1.9869158878504671,
      "grad_norm": 0.03231372311711311,
      "learning_rate": 0.0002,
      "loss": 0.5258426666259766,
      "mean_token_accuracy": 0.786494106054306,
      "num_tokens": 8674098.0,
      "step": 532
    },
    {
      "entropy": 0.5263413488864899,
      "epoch": 1.9906542056074765,
      "grad_norm": 0.029255473986268044,
      "learning_rate": 0.0002,
      "loss": 0.5267069935798645,
      "mean_token_accuracy": 0.784383550286293,
      "num_tokens": 8690474.0,
      "step": 533
    },
    {
      "entropy": 0.5337765663862228,
      "epoch": 1.994392523364486,
      "grad_norm": 0.03723280131816864,
      "learning_rate": 0.0002,
      "loss": 0.5434689521789551,
      "mean_token_accuracy": 0.7792166471481323,
      "num_tokens": 8706774.0,
      "step": 534
    },
    {
      "entropy": 0.5302833914756775,
      "epoch": 1.9981308411214953,
      "grad_norm": 0.03789842873811722,
      "learning_rate": 0.0002,
      "loss": 0.5390503406524658,
      "mean_token_accuracy": 0.7825159579515457,
      "num_tokens": 8722988.0,
      "step": 535
    },
    {
      "entropy": 0.5365387499332428,
      "epoch": 2.0,
      "grad_norm": 0.03994116187095642,
      "learning_rate": 0.0002,
      "loss": 0.5442785024642944,
      "mean_token_accuracy": 0.779285341501236,
      "num_tokens": 8731086.0,
      "step": 536
    },
    {
      "entropy": 0.5551358312368393,
      "epoch": 2.0037383177570094,
      "grad_norm": 0.03304925188422203,
      "learning_rate": 0.0002,
      "loss": 0.5366768836975098,
      "mean_token_accuracy": 0.7850453853607178,
      "num_tokens": 8747251.0,
      "step": 537
    },
    {
      "entropy": 0.5637228041887283,
      "epoch": 2.007476635514019,
      "grad_norm": 0.03504426032304764,
      "learning_rate": 0.0002,
      "loss": 0.5443665981292725,
      "mean_token_accuracy": 0.7774000763893127,
      "num_tokens": 8763427.0,
      "step": 538
    },
    {
      "entropy": 0.5427139699459076,
      "epoch": 2.011214953271028,
      "grad_norm": 0.03504855930805206,
      "learning_rate": 0.0002,
      "loss": 0.5313124656677246,
      "mean_token_accuracy": 0.7818376272916794,
      "num_tokens": 8779836.0,
      "step": 539
    },
    {
      "entropy": 0.5330108106136322,
      "epoch": 2.0149532710280376,
      "grad_norm": 0.03754406422376633,
      "learning_rate": 0.0002,
      "loss": 0.5421642661094666,
      "mean_token_accuracy": 0.7790561318397522,
      "num_tokens": 8796325.0,
      "step": 540
    },
    {
      "entropy": 0.512071430683136,
      "epoch": 2.0186915887850465,
      "grad_norm": 0.043662529438734055,
      "learning_rate": 0.0002,
      "loss": 0.5302350521087646,
      "mean_token_accuracy": 0.7863733917474747,
      "num_tokens": 8812606.0,
      "step": 541
    },
    {
      "entropy": 0.5129958391189575,
      "epoch": 2.022429906542056,
      "grad_norm": 0.04149031639099121,
      "learning_rate": 0.0002,
      "loss": 0.5309258699417114,
      "mean_token_accuracy": 0.7860198318958282,
      "num_tokens": 8828882.0,
      "step": 542
    },
    {
      "entropy": 0.5420234501361847,
      "epoch": 2.0261682242990653,
      "grad_norm": 0.03192834183573723,
      "learning_rate": 0.0002,
      "loss": 0.5397300124168396,
      "mean_token_accuracy": 0.7826980352401733,
      "num_tokens": 8845360.0,
      "step": 543
    },
    {
      "entropy": 0.5496412217617035,
      "epoch": 2.0299065420560747,
      "grad_norm": 0.03798922896385193,
      "learning_rate": 0.0002,
      "loss": 0.5328091979026794,
      "mean_token_accuracy": 0.7848182171583176,
      "num_tokens": 8861741.0,
      "step": 544
    },
    {
      "entropy": 0.5499916076660156,
      "epoch": 2.033644859813084,
      "grad_norm": 0.03497615084052086,
      "learning_rate": 0.0002,
      "loss": 0.5330801010131836,
      "mean_token_accuracy": 0.7823185920715332,
      "num_tokens": 8878099.0,
      "step": 545
    },
    {
      "entropy": 0.5397230982780457,
      "epoch": 2.0373831775700935,
      "grad_norm": 0.03805805742740631,
      "learning_rate": 0.0002,
      "loss": 0.5325009822845459,
      "mean_token_accuracy": 0.7835113406181335,
      "num_tokens": 8894613.0,
      "step": 546
    },
    {
      "entropy": 0.5198622792959213,
      "epoch": 2.041121495327103,
      "grad_norm": 0.03364388644695282,
      "learning_rate": 0.0002,
      "loss": 0.5222806334495544,
      "mean_token_accuracy": 0.7844293862581253,
      "num_tokens": 8910849.0,
      "step": 547
    },
    {
      "entropy": 0.5255338400602341,
      "epoch": 2.0448598130841122,
      "grad_norm": 0.047903481870889664,
      "learning_rate": 0.0002,
      "loss": 0.5388204455375671,
      "mean_token_accuracy": 0.7818868011236191,
      "num_tokens": 8927305.0,
      "step": 548
    },
    {
      "entropy": 0.5240660309791565,
      "epoch": 2.0485981308411216,
      "grad_norm": 0.04678136110305786,
      "learning_rate": 0.0002,
      "loss": 0.544981062412262,
      "mean_token_accuracy": 0.7767013013362885,
      "num_tokens": 8943628.0,
      "step": 549
    },
    {
      "entropy": 0.5418435484170914,
      "epoch": 2.052336448598131,
      "grad_norm": 0.04154983535408974,
      "learning_rate": 0.0002,
      "loss": 0.5431923866271973,
      "mean_token_accuracy": 0.7803478538990021,
      "num_tokens": 8959739.0,
      "step": 550
    },
    {
      "entropy": 0.5464048683643341,
      "epoch": 2.05607476635514,
      "grad_norm": 0.03621891885995865,
      "learning_rate": 0.0002,
      "loss": 0.5369123220443726,
      "mean_token_accuracy": 0.7831740379333496,
      "num_tokens": 8975834.0,
      "step": 551
    },
    {
      "entropy": 0.5625316351652145,
      "epoch": 2.0598130841121494,
      "grad_norm": 0.04116278514266014,
      "learning_rate": 0.0002,
      "loss": 0.5496330261230469,
      "mean_token_accuracy": 0.7770462930202484,
      "num_tokens": 8992265.0,
      "step": 552
    },
    {
      "entropy": 0.5488497316837311,
      "epoch": 2.0635514018691588,
      "grad_norm": 0.03322463855147362,
      "learning_rate": 0.0002,
      "loss": 0.5367662310600281,
      "mean_token_accuracy": 0.7818718105554581,
      "num_tokens": 9008719.0,
      "step": 553
    },
    {
      "entropy": 0.5378982275724411,
      "epoch": 2.067289719626168,
      "grad_norm": 0.034129269421100616,
      "learning_rate": 0.0002,
      "loss": 0.5418792963027954,
      "mean_token_accuracy": 0.7807257324457169,
      "num_tokens": 9025151.0,
      "step": 554
    },
    {
      "entropy": 0.5220974087715149,
      "epoch": 2.0710280373831775,
      "grad_norm": 0.045197054743766785,
      "learning_rate": 0.0002,
      "loss": 0.5300080180168152,
      "mean_token_accuracy": 0.7885446846485138,
      "num_tokens": 9041486.0,
      "step": 555
    },
    {
      "entropy": 0.515913613140583,
      "epoch": 2.074766355140187,
      "grad_norm": 0.04399452358484268,
      "learning_rate": 0.0002,
      "loss": 0.5253356099128723,
      "mean_token_accuracy": 0.787113681435585,
      "num_tokens": 9057792.0,
      "step": 556
    },
    {
      "entropy": 0.529649943113327,
      "epoch": 2.0785046728971963,
      "grad_norm": 0.0405830517411232,
      "learning_rate": 0.0002,
      "loss": 0.5332399010658264,
      "mean_token_accuracy": 0.7825795114040375,
      "num_tokens": 9073971.0,
      "step": 557
    },
    {
      "entropy": 0.5306390672922134,
      "epoch": 2.0822429906542057,
      "grad_norm": 0.04040224850177765,
      "learning_rate": 0.0002,
      "loss": 0.5270552039146423,
      "mean_token_accuracy": 0.7854219824075699,
      "num_tokens": 9090396.0,
      "step": 558
    },
    {
      "entropy": 0.540916696190834,
      "epoch": 2.085981308411215,
      "grad_norm": 0.039850566536188126,
      "learning_rate": 0.0002,
      "loss": 0.5330172181129456,
      "mean_token_accuracy": 0.7840156704187393,
      "num_tokens": 9106865.0,
      "step": 559
    },
    {
      "entropy": 0.5573539286851883,
      "epoch": 2.0897196261682245,
      "grad_norm": 0.039134591817855835,
      "learning_rate": 0.0002,
      "loss": 0.5492205023765564,
      "mean_token_accuracy": 0.7779581248760223,
      "num_tokens": 9123213.0,
      "step": 560
    },
    {
      "entropy": 0.5308785140514374,
      "epoch": 2.0934579439252334,
      "grad_norm": 0.033643938601017,
      "learning_rate": 0.0002,
      "loss": 0.5260533690452576,
      "mean_token_accuracy": 0.7881509810686111,
      "num_tokens": 9139334.0,
      "step": 561
    },
    {
      "entropy": 0.5462942272424698,
      "epoch": 2.097196261682243,
      "grad_norm": 0.0343049094080925,
      "learning_rate": 0.0002,
      "loss": 0.5453207492828369,
      "mean_token_accuracy": 0.7791396528482437,
      "num_tokens": 9155964.0,
      "step": 562
    },
    {
      "entropy": 0.5272018313407898,
      "epoch": 2.100934579439252,
      "grad_norm": 0.040583785623311996,
      "learning_rate": 0.0002,
      "loss": 0.5357244610786438,
      "mean_token_accuracy": 0.7829957753419876,
      "num_tokens": 9172409.0,
      "step": 563
    },
    {
      "entropy": 0.5276166945695877,
      "epoch": 2.1046728971962616,
      "grad_norm": 0.03636649623513222,
      "learning_rate": 0.0002,
      "loss": 0.5361207127571106,
      "mean_token_accuracy": 0.7831525951623917,
      "num_tokens": 9188524.0,
      "step": 564
    },
    {
      "entropy": 0.5464211106300354,
      "epoch": 2.108411214953271,
      "grad_norm": 0.0365222692489624,
      "learning_rate": 0.0002,
      "loss": 0.5448060035705566,
      "mean_token_accuracy": 0.7774559408426285,
      "num_tokens": 9204803.0,
      "step": 565
    },
    {
      "entropy": 0.5368735194206238,
      "epoch": 2.1121495327102804,
      "grad_norm": 0.04034702479839325,
      "learning_rate": 0.0002,
      "loss": 0.5308568477630615,
      "mean_token_accuracy": 0.784459188580513,
      "num_tokens": 9220931.0,
      "step": 566
    },
    {
      "entropy": 0.5340090990066528,
      "epoch": 2.1158878504672898,
      "grad_norm": 0.03558754175901413,
      "learning_rate": 0.0002,
      "loss": 0.5307760238647461,
      "mean_token_accuracy": 0.7841941863298416,
      "num_tokens": 9237402.0,
      "step": 567
    },
    {
      "entropy": 0.554409846663475,
      "epoch": 2.119626168224299,
      "grad_norm": 0.038797035813331604,
      "learning_rate": 0.0002,
      "loss": 0.5491658449172974,
      "mean_token_accuracy": 0.7782745659351349,
      "num_tokens": 9254002.0,
      "step": 568
    },
    {
      "entropy": 0.546349972486496,
      "epoch": 2.1233644859813086,
      "grad_norm": 0.04194206744432449,
      "learning_rate": 0.0002,
      "loss": 0.5519090294837952,
      "mean_token_accuracy": 0.7750387489795685,
      "num_tokens": 9270313.0,
      "step": 569
    },
    {
      "entropy": 0.5365971177816391,
      "epoch": 2.127102803738318,
      "grad_norm": 0.045358605682849884,
      "learning_rate": 0.0002,
      "loss": 0.5437461733818054,
      "mean_token_accuracy": 0.7794076204299927,
      "num_tokens": 9286712.0,
      "step": 570
    },
    {
      "entropy": 0.5360657125711441,
      "epoch": 2.130841121495327,
      "grad_norm": 0.04332416132092476,
      "learning_rate": 0.0002,
      "loss": 0.5378158688545227,
      "mean_token_accuracy": 0.7812185734510422,
      "num_tokens": 9302929.0,
      "step": 571
    },
    {
      "entropy": 0.5161439999938011,
      "epoch": 2.1345794392523363,
      "grad_norm": 0.03498893231153488,
      "learning_rate": 0.0002,
      "loss": 0.5166691541671753,
      "mean_token_accuracy": 0.7898645251989365,
      "num_tokens": 9318970.0,
      "step": 572
    },
    {
      "entropy": 0.5420155078172684,
      "epoch": 2.1383177570093457,
      "grad_norm": 0.059223148971796036,
      "learning_rate": 0.0002,
      "loss": 0.5398759841918945,
      "mean_token_accuracy": 0.7814654260873795,
      "num_tokens": 9335490.0,
      "step": 573
    },
    {
      "entropy": 0.5263395309448242,
      "epoch": 2.142056074766355,
      "grad_norm": 0.03245805576443672,
      "learning_rate": 0.0002,
      "loss": 0.5229323506355286,
      "mean_token_accuracy": 0.7877913564443588,
      "num_tokens": 9351959.0,
      "step": 574
    },
    {
      "entropy": 0.5362307131290436,
      "epoch": 2.1457943925233645,
      "grad_norm": 0.037454549223184586,
      "learning_rate": 0.0002,
      "loss": 0.5291175246238708,
      "mean_token_accuracy": 0.783667266368866,
      "num_tokens": 9368360.0,
      "step": 575
    },
    {
      "entropy": 0.527548685669899,
      "epoch": 2.149532710280374,
      "grad_norm": 0.043125126510858536,
      "learning_rate": 0.0002,
      "loss": 0.5279426574707031,
      "mean_token_accuracy": 0.7838954478502274,
      "num_tokens": 9384665.0,
      "step": 576
    },
    {
      "entropy": 0.543443351984024,
      "epoch": 2.1532710280373832,
      "grad_norm": 0.03840547800064087,
      "learning_rate": 0.0002,
      "loss": 0.5481908321380615,
      "mean_token_accuracy": 0.7762167900800705,
      "num_tokens": 9400994.0,
      "step": 577
    },
    {
      "entropy": 0.5402033478021622,
      "epoch": 2.1570093457943926,
      "grad_norm": 0.04524662345647812,
      "learning_rate": 0.0002,
      "loss": 0.5483248829841614,
      "mean_token_accuracy": 0.7753354609012604,
      "num_tokens": 9417287.0,
      "step": 578
    },
    {
      "entropy": 0.5183399319648743,
      "epoch": 2.160747663551402,
      "grad_norm": 0.033803943544626236,
      "learning_rate": 0.0002,
      "loss": 0.5152841210365295,
      "mean_token_accuracy": 0.7872842252254486,
      "num_tokens": 9433683.0,
      "step": 579
    },
    {
      "entropy": 0.5163632705807686,
      "epoch": 2.1644859813084114,
      "grad_norm": 0.036510877311229706,
      "learning_rate": 0.0002,
      "loss": 0.5149884223937988,
      "mean_token_accuracy": 0.7905207723379135,
      "num_tokens": 9450137.0,
      "step": 580
    },
    {
      "entropy": 0.5321061164140701,
      "epoch": 2.1682242990654204,
      "grad_norm": 0.0464416965842247,
      "learning_rate": 0.0002,
      "loss": 0.5351567268371582,
      "mean_token_accuracy": 0.7838670462369919,
      "num_tokens": 9466550.0,
      "step": 581
    },
    {
      "entropy": 0.5199630409479141,
      "epoch": 2.1719626168224297,
      "grad_norm": 0.04309747740626335,
      "learning_rate": 0.0002,
      "loss": 0.5278782844543457,
      "mean_token_accuracy": 0.7839005291461945,
      "num_tokens": 9482588.0,
      "step": 582
    },
    {
      "entropy": 0.5339600071310997,
      "epoch": 2.175700934579439,
      "grad_norm": 0.04095384106040001,
      "learning_rate": 0.0002,
      "loss": 0.5310637354850769,
      "mean_token_accuracy": 0.783690795302391,
      "num_tokens": 9498951.0,
      "step": 583
    },
    {
      "entropy": 0.5384320765733719,
      "epoch": 2.1794392523364485,
      "grad_norm": 0.03863927349448204,
      "learning_rate": 0.0002,
      "loss": 0.540824294090271,
      "mean_token_accuracy": 0.7791530042886734,
      "num_tokens": 9515132.0,
      "step": 584
    },
    {
      "entropy": 0.5549707859754562,
      "epoch": 2.183177570093458,
      "grad_norm": 0.03921306133270264,
      "learning_rate": 0.0002,
      "loss": 0.5536147356033325,
      "mean_token_accuracy": 0.7751126140356064,
      "num_tokens": 9531512.0,
      "step": 585
    },
    {
      "entropy": 0.5347359776496887,
      "epoch": 2.1869158878504673,
      "grad_norm": 0.037864800542593,
      "learning_rate": 0.0002,
      "loss": 0.5341432094573975,
      "mean_token_accuracy": 0.7835363298654556,
      "num_tokens": 9547534.0,
      "step": 586
    },
    {
      "entropy": 0.5516605377197266,
      "epoch": 2.1906542056074767,
      "grad_norm": 0.036846909672021866,
      "learning_rate": 0.0002,
      "loss": 0.5443211197853088,
      "mean_token_accuracy": 0.7788311243057251,
      "num_tokens": 9564040.0,
      "step": 587
    },
    {
      "entropy": 0.5391202419996262,
      "epoch": 2.194392523364486,
      "grad_norm": 0.03954128175973892,
      "learning_rate": 0.0002,
      "loss": 0.5309199094772339,
      "mean_token_accuracy": 0.783383384346962,
      "num_tokens": 9580289.0,
      "step": 588
    },
    {
      "entropy": 0.5318265110254288,
      "epoch": 2.1981308411214955,
      "grad_norm": 0.03327268362045288,
      "learning_rate": 0.0002,
      "loss": 0.5330622792243958,
      "mean_token_accuracy": 0.7819591611623764,
      "num_tokens": 9596500.0,
      "step": 589
    },
    {
      "entropy": 0.5139677748084068,
      "epoch": 2.201869158878505,
      "grad_norm": 0.039606738835573196,
      "learning_rate": 0.0002,
      "loss": 0.520559549331665,
      "mean_token_accuracy": 0.7877521514892578,
      "num_tokens": 9612675.0,
      "step": 590
    },
    {
      "entropy": 0.5283454358577728,
      "epoch": 2.205607476635514,
      "grad_norm": 0.03826924040913582,
      "learning_rate": 0.0002,
      "loss": 0.5321468710899353,
      "mean_token_accuracy": 0.7843296527862549,
      "num_tokens": 9629044.0,
      "step": 591
    },
    {
      "entropy": 0.5257805287837982,
      "epoch": 2.209345794392523,
      "grad_norm": 0.04099821671843529,
      "learning_rate": 0.0002,
      "loss": 0.5277660489082336,
      "mean_token_accuracy": 0.7833193689584732,
      "num_tokens": 9645271.0,
      "step": 592
    },
    {
      "entropy": 0.5350408107042313,
      "epoch": 2.2130841121495326,
      "grad_norm": 0.038267582654953,
      "learning_rate": 0.0002,
      "loss": 0.5255724787712097,
      "mean_token_accuracy": 0.7867475599050522,
      "num_tokens": 9661448.0,
      "step": 593
    },
    {
      "entropy": 0.5472716838121414,
      "epoch": 2.216822429906542,
      "grad_norm": 0.03405248373746872,
      "learning_rate": 0.0002,
      "loss": 0.5390135645866394,
      "mean_token_accuracy": 0.779327467083931,
      "num_tokens": 9677824.0,
      "step": 594
    },
    {
      "entropy": 0.5421159714460373,
      "epoch": 2.2205607476635514,
      "grad_norm": 0.041895944625139236,
      "learning_rate": 0.0002,
      "loss": 0.5395660400390625,
      "mean_token_accuracy": 0.7796223610639572,
      "num_tokens": 9694305.0,
      "step": 595
    },
    {
      "entropy": 0.5459330081939697,
      "epoch": 2.2242990654205608,
      "grad_norm": 0.036602918058633804,
      "learning_rate": 0.0002,
      "loss": 0.5457043647766113,
      "mean_token_accuracy": 0.7810876667499542,
      "num_tokens": 9710852.0,
      "step": 596
    },
    {
      "entropy": 0.5278807803988457,
      "epoch": 2.22803738317757,
      "grad_norm": 0.04418497160077095,
      "learning_rate": 0.0002,
      "loss": 0.5371560454368591,
      "mean_token_accuracy": 0.7824568003416061,
      "num_tokens": 9727075.0,
      "step": 597
    },
    {
      "entropy": 0.5311697870492935,
      "epoch": 2.2317757009345796,
      "grad_norm": 0.043200667947530746,
      "learning_rate": 0.0002,
      "loss": 0.5364136695861816,
      "mean_token_accuracy": 0.783041849732399,
      "num_tokens": 9743306.0,
      "step": 598
    },
    {
      "entropy": 0.5302419811487198,
      "epoch": 2.235514018691589,
      "grad_norm": 0.037720005959272385,
      "learning_rate": 0.0002,
      "loss": 0.5262041091918945,
      "mean_token_accuracy": 0.7870023250579834,
      "num_tokens": 9759403.0,
      "step": 599
    },
    {
      "entropy": 0.5483334362506866,
      "epoch": 2.2392523364485983,
      "grad_norm": 0.03560694679617882,
      "learning_rate": 0.0002,
      "loss": 0.5467509627342224,
      "mean_token_accuracy": 0.779225081205368,
      "num_tokens": 9775738.0,
      "step": 600
    },
    {
      "entropy": 0.5375639796257019,
      "epoch": 2.2429906542056073,
      "grad_norm": 0.03993435204029083,
      "learning_rate": 0.0002,
      "loss": 0.5336683988571167,
      "mean_token_accuracy": 0.7839321345090866,
      "num_tokens": 9792043.0,
      "step": 601
    },
    {
      "entropy": 0.544166311621666,
      "epoch": 2.2467289719626167,
      "grad_norm": 0.03602972254157066,
      "learning_rate": 0.0002,
      "loss": 0.5403839945793152,
      "mean_token_accuracy": 0.7812667638063431,
      "num_tokens": 9808431.0,
      "step": 602
    },
    {
      "entropy": 0.5295002460479736,
      "epoch": 2.250467289719626,
      "grad_norm": 0.041549984365701675,
      "learning_rate": 0.0002,
      "loss": 0.5339419841766357,
      "mean_token_accuracy": 0.7843643128871918,
      "num_tokens": 9824744.0,
      "step": 603
    },
    {
      "entropy": 0.5211731493473053,
      "epoch": 2.2542056074766355,
      "grad_norm": 0.04408840090036392,
      "learning_rate": 0.0002,
      "loss": 0.5288305878639221,
      "mean_token_accuracy": 0.7842673063278198,
      "num_tokens": 9841081.0,
      "step": 604
    },
    {
      "entropy": 0.5425246208906174,
      "epoch": 2.257943925233645,
      "grad_norm": 0.04026458412408829,
      "learning_rate": 0.0002,
      "loss": 0.5444083213806152,
      "mean_token_accuracy": 0.7781710475683212,
      "num_tokens": 9857545.0,
      "step": 605
    },
    {
      "entropy": 0.5519444048404694,
      "epoch": 2.2616822429906542,
      "grad_norm": 0.03973834961652756,
      "learning_rate": 0.0002,
      "loss": 0.547622799873352,
      "mean_token_accuracy": 0.7769842147827148,
      "num_tokens": 9873925.0,
      "step": 606
    },
    {
      "entropy": 0.5228262096643448,
      "epoch": 2.2654205607476636,
      "grad_norm": 0.041971541941165924,
      "learning_rate": 0.0002,
      "loss": 0.5222245454788208,
      "mean_token_accuracy": 0.7858153134584427,
      "num_tokens": 9890052.0,
      "step": 607
    },
    {
      "entropy": 0.5335221141576767,
      "epoch": 2.269158878504673,
      "grad_norm": 0.039673078805208206,
      "learning_rate": 0.0002,
      "loss": 0.5314098000526428,
      "mean_token_accuracy": 0.7840564250946045,
      "num_tokens": 9906259.0,
      "step": 608
    },
    {
      "entropy": 0.5426364839076996,
      "epoch": 2.2728971962616824,
      "grad_norm": 0.04128013923764229,
      "learning_rate": 0.0002,
      "loss": 0.5407010316848755,
      "mean_token_accuracy": 0.7802868187427521,
      "num_tokens": 9922434.0,
      "step": 609
    },
    {
      "entropy": 0.5306970030069351,
      "epoch": 2.2766355140186914,
      "grad_norm": 0.03684001415967941,
      "learning_rate": 0.0002,
      "loss": 0.5325096845626831,
      "mean_token_accuracy": 0.7816676050424576,
      "num_tokens": 9938715.0,
      "step": 610
    },
    {
      "entropy": 0.5312017947435379,
      "epoch": 2.2803738317757007,
      "grad_norm": 0.0396246500313282,
      "learning_rate": 0.0002,
      "loss": 0.5326136350631714,
      "mean_token_accuracy": 0.7833829969167709,
      "num_tokens": 9954795.0,
      "step": 611
    },
    {
      "entropy": 0.5242188572883606,
      "epoch": 2.28411214953271,
      "grad_norm": 0.03666768968105316,
      "learning_rate": 0.0002,
      "loss": 0.5254257321357727,
      "mean_token_accuracy": 0.785698264837265,
      "num_tokens": 9970976.0,
      "step": 612
    },
    {
      "entropy": 0.5251396894454956,
      "epoch": 2.2878504672897195,
      "grad_norm": 0.041744161397218704,
      "learning_rate": 0.0002,
      "loss": 0.5361155867576599,
      "mean_token_accuracy": 0.781558558344841,
      "num_tokens": 9987242.0,
      "step": 613
    },
    {
      "entropy": 0.5212117433547974,
      "epoch": 2.291588785046729,
      "grad_norm": 0.044306471943855286,
      "learning_rate": 0.0002,
      "loss": 0.5255172252655029,
      "mean_token_accuracy": 0.7819651514291763,
      "num_tokens": 10003383.0,
      "step": 614
    },
    {
      "entropy": 0.5342397391796112,
      "epoch": 2.2953271028037383,
      "grad_norm": 0.04804427549242973,
      "learning_rate": 0.0002,
      "loss": 0.5286440849304199,
      "mean_token_accuracy": 0.7870652973651886,
      "num_tokens": 10019705.0,
      "step": 615
    },
    {
      "entropy": 0.5513401627540588,
      "epoch": 2.2990654205607477,
      "grad_norm": 0.04101845622062683,
      "learning_rate": 0.0002,
      "loss": 0.5483744144439697,
      "mean_token_accuracy": 0.7755522131919861,
      "num_tokens": 10035997.0,
      "step": 616
    },
    {
      "entropy": 0.5434563606977463,
      "epoch": 2.302803738317757,
      "grad_norm": 0.036619942635297775,
      "learning_rate": 0.0002,
      "loss": 0.5326208472251892,
      "mean_token_accuracy": 0.782253697514534,
      "num_tokens": 10052253.0,
      "step": 617
    },
    {
      "entropy": 0.5315294414758682,
      "epoch": 2.3065420560747665,
      "grad_norm": 0.037794552743434906,
      "learning_rate": 0.0002,
      "loss": 0.5253270864486694,
      "mean_token_accuracy": 0.7854621708393097,
      "num_tokens": 10068502.0,
      "step": 618
    },
    {
      "entropy": 0.5264740660786629,
      "epoch": 2.310280373831776,
      "grad_norm": 0.05285142362117767,
      "learning_rate": 0.0002,
      "loss": 0.5347273349761963,
      "mean_token_accuracy": 0.7845266908407211,
      "num_tokens": 10084722.0,
      "step": 619
    },
    {
      "entropy": 0.5410954803228378,
      "epoch": 2.3140186915887853,
      "grad_norm": 0.036392901092767715,
      "learning_rate": 0.0002,
      "loss": 0.5492109060287476,
      "mean_token_accuracy": 0.775203213095665,
      "num_tokens": 10101110.0,
      "step": 620
    },
    {
      "entropy": 0.5478453040122986,
      "epoch": 2.317757009345794,
      "grad_norm": 0.0461491234600544,
      "learning_rate": 0.0002,
      "loss": 0.5482407808303833,
      "mean_token_accuracy": 0.7783631533384323,
      "num_tokens": 10117543.0,
      "step": 621
    },
    {
      "entropy": 0.515753298997879,
      "epoch": 2.3214953271028036,
      "grad_norm": 0.04075627774000168,
      "learning_rate": 0.0002,
      "loss": 0.5150102972984314,
      "mean_token_accuracy": 0.789474606513977,
      "num_tokens": 10133572.0,
      "step": 622
    },
    {
      "entropy": 0.5349336713552475,
      "epoch": 2.325233644859813,
      "grad_norm": 0.042154040187597275,
      "learning_rate": 0.0002,
      "loss": 0.526114821434021,
      "mean_token_accuracy": 0.7856980115175247,
      "num_tokens": 10150048.0,
      "step": 623
    },
    {
      "entropy": 0.5674707591533661,
      "epoch": 2.3289719626168224,
      "grad_norm": 0.04182770103216171,
      "learning_rate": 0.0002,
      "loss": 0.5611693859100342,
      "mean_token_accuracy": 0.7749929875135422,
      "num_tokens": 10166642.0,
      "step": 624
    },
    {
      "entropy": 0.5181543081998825,
      "epoch": 2.3327102803738318,
      "grad_norm": 0.038145892322063446,
      "learning_rate": 0.0002,
      "loss": 0.5206056833267212,
      "mean_token_accuracy": 0.788123145699501,
      "num_tokens": 10182897.0,
      "step": 625
    },
    {
      "entropy": 0.5357862561941147,
      "epoch": 2.336448598130841,
      "grad_norm": 0.04366487264633179,
      "learning_rate": 0.0002,
      "loss": 0.5423003435134888,
      "mean_token_accuracy": 0.7787369638681412,
      "num_tokens": 10199311.0,
      "step": 626
    },
    {
      "entropy": 0.5277369916439056,
      "epoch": 2.3401869158878505,
      "grad_norm": 0.05174623429775238,
      "learning_rate": 0.0002,
      "loss": 0.539736270904541,
      "mean_token_accuracy": 0.7798131704330444,
      "num_tokens": 10215707.0,
      "step": 627
    },
    {
      "entropy": 0.5540482401847839,
      "epoch": 2.34392523364486,
      "grad_norm": 0.03900719806551933,
      "learning_rate": 0.0002,
      "loss": 0.5546514391899109,
      "mean_token_accuracy": 0.7751745879650116,
      "num_tokens": 10232233.0,
      "step": 628
    },
    {
      "entropy": 0.5211993083357811,
      "epoch": 2.3476635514018693,
      "grad_norm": 0.044696055352687836,
      "learning_rate": 0.0002,
      "loss": 0.5210398435592651,
      "mean_token_accuracy": 0.7867566049098969,
      "num_tokens": 10248397.0,
      "step": 629
    },
    {
      "entropy": 0.5406811684370041,
      "epoch": 2.3514018691588783,
      "grad_norm": 0.04107234627008438,
      "learning_rate": 0.0002,
      "loss": 0.5430042147636414,
      "mean_token_accuracy": 0.7786548435688019,
      "num_tokens": 10264653.0,
      "step": 630
    },
    {
      "entropy": 0.538291797041893,
      "epoch": 2.3551401869158877,
      "grad_norm": 0.03656275197863579,
      "learning_rate": 0.0002,
      "loss": 0.534942090511322,
      "mean_token_accuracy": 0.7826343178749084,
      "num_tokens": 10280941.0,
      "step": 631
    },
    {
      "entropy": 0.5547115802764893,
      "epoch": 2.358878504672897,
      "grad_norm": 0.04424076899886131,
      "learning_rate": 0.0002,
      "loss": 0.5602344870567322,
      "mean_token_accuracy": 0.7771879583597183,
      "num_tokens": 10297564.0,
      "step": 632
    },
    {
      "entropy": 0.5327815413475037,
      "epoch": 2.3626168224299064,
      "grad_norm": 0.04512718692421913,
      "learning_rate": 0.0002,
      "loss": 0.529172420501709,
      "mean_token_accuracy": 0.7825805693864822,
      "num_tokens": 10313759.0,
      "step": 633
    },
    {
      "entropy": 0.5432299822568893,
      "epoch": 2.366355140186916,
      "grad_norm": 0.040462445467710495,
      "learning_rate": 0.0002,
      "loss": 0.5389863848686218,
      "mean_token_accuracy": 0.779638260602951,
      "num_tokens": 10330290.0,
      "step": 634
    },
    {
      "entropy": 0.5529568791389465,
      "epoch": 2.3700934579439252,
      "grad_norm": 0.04414237663149834,
      "learning_rate": 0.0002,
      "loss": 0.5526305437088013,
      "mean_token_accuracy": 0.7754997760057449,
      "num_tokens": 10346636.0,
      "step": 635
    },
    {
      "entropy": 0.5441652536392212,
      "epoch": 2.3738317757009346,
      "grad_norm": 0.037299707531929016,
      "learning_rate": 0.0002,
      "loss": 0.5382997393608093,
      "mean_token_accuracy": 0.7791097015142441,
      "num_tokens": 10362922.0,
      "step": 636
    },
    {
      "entropy": 0.5348048955202103,
      "epoch": 2.377570093457944,
      "grad_norm": 0.0446464829146862,
      "learning_rate": 0.0002,
      "loss": 0.5380210876464844,
      "mean_token_accuracy": 0.7818952798843384,
      "num_tokens": 10379134.0,
      "step": 637
    },
    {
      "entropy": 0.5187151804566383,
      "epoch": 2.3813084112149534,
      "grad_norm": 0.0778694897890091,
      "learning_rate": 0.0002,
      "loss": 0.5220566391944885,
      "mean_token_accuracy": 0.7889348715543747,
      "num_tokens": 10395255.0,
      "step": 638
    },
    {
      "entropy": 0.5462511032819748,
      "epoch": 2.385046728971963,
      "grad_norm": 0.04299847036600113,
      "learning_rate": 0.0002,
      "loss": 0.5423526167869568,
      "mean_token_accuracy": 0.7763472348451614,
      "num_tokens": 10411644.0,
      "step": 639
    },
    {
      "entropy": 0.5463699400424957,
      "epoch": 2.388785046728972,
      "grad_norm": 0.10935911536216736,
      "learning_rate": 0.0002,
      "loss": 0.554538369178772,
      "mean_token_accuracy": 0.7772965431213379,
      "num_tokens": 10427999.0,
      "step": 640
    },
    {
      "entropy": 0.5152165368199348,
      "epoch": 2.392523364485981,
      "grad_norm": 0.03762959688901901,
      "learning_rate": 0.0002,
      "loss": 0.508588969707489,
      "mean_token_accuracy": 0.7926003634929657,
      "num_tokens": 10444169.0,
      "step": 641
    },
    {
      "entropy": 0.529686912894249,
      "epoch": 2.3962616822429905,
      "grad_norm": 0.040958285331726074,
      "learning_rate": 0.0002,
      "loss": 0.5307521820068359,
      "mean_token_accuracy": 0.7849727272987366,
      "num_tokens": 10460506.0,
      "step": 642
    },
    {
      "entropy": 0.5430792719125748,
      "epoch": 2.4,
      "grad_norm": 0.059025488793849945,
      "learning_rate": 0.0002,
      "loss": 0.5434512495994568,
      "mean_token_accuracy": 0.7796961963176727,
      "num_tokens": 10476852.0,
      "step": 643
    },
    {
      "entropy": 0.5448063015937805,
      "epoch": 2.4037383177570093,
      "grad_norm": 0.040974777191877365,
      "learning_rate": 0.0002,
      "loss": 0.5473527312278748,
      "mean_token_accuracy": 0.7792296558618546,
      "num_tokens": 10493362.0,
      "step": 644
    },
    {
      "entropy": 0.5385838449001312,
      "epoch": 2.4074766355140187,
      "grad_norm": 0.03980987146496773,
      "learning_rate": 0.0002,
      "loss": 0.5398511290550232,
      "mean_token_accuracy": 0.7808338552713394,
      "num_tokens": 10509993.0,
      "step": 645
    },
    {
      "entropy": 0.5397947132587433,
      "epoch": 2.411214953271028,
      "grad_norm": 0.04422999173402786,
      "learning_rate": 0.0002,
      "loss": 0.5439976453781128,
      "mean_token_accuracy": 0.7772432416677475,
      "num_tokens": 10525999.0,
      "step": 646
    },
    {
      "entropy": 0.5487875193357468,
      "epoch": 2.4149532710280375,
      "grad_norm": 0.035030197352170944,
      "learning_rate": 0.0002,
      "loss": 0.5411213636398315,
      "mean_token_accuracy": 0.7808128446340561,
      "num_tokens": 10542385.0,
      "step": 647
    },
    {
      "entropy": 0.5536469519138336,
      "epoch": 2.418691588785047,
      "grad_norm": 0.03504094481468201,
      "learning_rate": 0.0002,
      "loss": 0.5501288771629333,
      "mean_token_accuracy": 0.7798037678003311,
      "num_tokens": 10558968.0,
      "step": 648
    },
    {
      "entropy": 0.542830765247345,
      "epoch": 2.4224299065420563,
      "grad_norm": 0.04252900928258896,
      "learning_rate": 0.0002,
      "loss": 0.5463917255401611,
      "mean_token_accuracy": 0.7780060321092606,
      "num_tokens": 10575204.0,
      "step": 649
    },
    {
      "entropy": 0.5445516556501389,
      "epoch": 2.426168224299065,
      "grad_norm": 0.03962906450033188,
      "learning_rate": 0.0002,
      "loss": 0.5398474335670471,
      "mean_token_accuracy": 0.7808130532503128,
      "num_tokens": 10591758.0,
      "step": 650
    },
    {
      "entropy": 0.5405502319335938,
      "epoch": 2.4299065420560746,
      "grad_norm": 0.0443168580532074,
      "learning_rate": 0.0002,
      "loss": 0.5365331172943115,
      "mean_token_accuracy": 0.7831508964300156,
      "num_tokens": 10608086.0,
      "step": 651
    },
    {
      "entropy": 0.5417730808258057,
      "epoch": 2.433644859813084,
      "grad_norm": 0.03887809067964554,
      "learning_rate": 0.0002,
      "loss": 0.5410832166671753,
      "mean_token_accuracy": 0.7785631865262985,
      "num_tokens": 10624498.0,
      "step": 652
    },
    {
      "entropy": 0.539076067507267,
      "epoch": 2.4373831775700934,
      "grad_norm": 0.03908571973443031,
      "learning_rate": 0.0002,
      "loss": 0.5387341976165771,
      "mean_token_accuracy": 0.781864196062088,
      "num_tokens": 10640880.0,
      "step": 653
    },
    {
      "entropy": 0.5390027314424515,
      "epoch": 2.4411214953271028,
      "grad_norm": 0.03712445870041847,
      "learning_rate": 0.0002,
      "loss": 0.5360729694366455,
      "mean_token_accuracy": 0.783073827624321,
      "num_tokens": 10657400.0,
      "step": 654
    },
    {
      "entropy": 0.5502242594957352,
      "epoch": 2.444859813084112,
      "grad_norm": 0.03870626538991928,
      "learning_rate": 0.0002,
      "loss": 0.5568853616714478,
      "mean_token_accuracy": 0.7743858247995377,
      "num_tokens": 10673826.0,
      "step": 655
    },
    {
      "entropy": 0.525546170771122,
      "epoch": 2.4485981308411215,
      "grad_norm": 0.05200404301285744,
      "learning_rate": 0.0002,
      "loss": 0.5247287154197693,
      "mean_token_accuracy": 0.787117063999176,
      "num_tokens": 10690101.0,
      "step": 656
    },
    {
      "entropy": 0.5489766597747803,
      "epoch": 2.452336448598131,
      "grad_norm": 0.03731005638837814,
      "learning_rate": 0.0002,
      "loss": 0.5479599833488464,
      "mean_token_accuracy": 0.7739788293838501,
      "num_tokens": 10706469.0,
      "step": 657
    },
    {
      "entropy": 0.5457844734191895,
      "epoch": 2.4560747663551403,
      "grad_norm": 0.03958994895219803,
      "learning_rate": 0.0002,
      "loss": 0.5466060638427734,
      "mean_token_accuracy": 0.776677593588829,
      "num_tokens": 10722827.0,
      "step": 658
    },
    {
      "entropy": 0.5301162749528885,
      "epoch": 2.4598130841121497,
      "grad_norm": 0.04651971161365509,
      "learning_rate": 0.0002,
      "loss": 0.5345625281333923,
      "mean_token_accuracy": 0.7808788865804672,
      "num_tokens": 10739136.0,
      "step": 659
    },
    {
      "entropy": 0.5545621961355209,
      "epoch": 2.463551401869159,
      "grad_norm": 0.04008018597960472,
      "learning_rate": 0.0002,
      "loss": 0.5584450960159302,
      "mean_token_accuracy": 0.7706544101238251,
      "num_tokens": 10755369.0,
      "step": 660
    },
    {
      "entropy": 0.5189358592033386,
      "epoch": 2.467289719626168,
      "grad_norm": 0.040387995541095734,
      "learning_rate": 0.0002,
      "loss": 0.5199939608573914,
      "mean_token_accuracy": 0.7878802865743637,
      "num_tokens": 10771408.0,
      "step": 661
    },
    {
      "entropy": 0.5370910465717316,
      "epoch": 2.4710280373831774,
      "grad_norm": 0.04395879805088043,
      "learning_rate": 0.0002,
      "loss": 0.534496545791626,
      "mean_token_accuracy": 0.7834903597831726,
      "num_tokens": 10787604.0,
      "step": 662
    },
    {
      "entropy": 0.5326719284057617,
      "epoch": 2.474766355140187,
      "grad_norm": 0.04668545350432396,
      "learning_rate": 0.0002,
      "loss": 0.5241788029670715,
      "mean_token_accuracy": 0.7905293852090836,
      "num_tokens": 10803945.0,
      "step": 663
    },
    {
      "entropy": 0.5368177741765976,
      "epoch": 2.4785046728971962,
      "grad_norm": 0.04925902187824249,
      "learning_rate": 0.0002,
      "loss": 0.5367681384086609,
      "mean_token_accuracy": 0.7809154391288757,
      "num_tokens": 10820178.0,
      "step": 664
    },
    {
      "entropy": 0.5293789505958557,
      "epoch": 2.4822429906542056,
      "grad_norm": 0.041696734726428986,
      "learning_rate": 0.0002,
      "loss": 0.5327548980712891,
      "mean_token_accuracy": 0.7873236238956451,
      "num_tokens": 10836561.0,
      "step": 665
    },
    {
      "entropy": 0.529408723115921,
      "epoch": 2.485981308411215,
      "grad_norm": 0.041212067008018494,
      "learning_rate": 0.0002,
      "loss": 0.5328470468521118,
      "mean_token_accuracy": 0.7832391858100891,
      "num_tokens": 10852980.0,
      "step": 666
    },
    {
      "entropy": 0.5545576214790344,
      "epoch": 2.4897196261682244,
      "grad_norm": 0.04478580132126808,
      "learning_rate": 0.0002,
      "loss": 0.5554249286651611,
      "mean_token_accuracy": 0.7741198241710663,
      "num_tokens": 10869321.0,
      "step": 667
    },
    {
      "entropy": 0.5539140552282333,
      "epoch": 2.493457943925234,
      "grad_norm": 0.04277152568101883,
      "learning_rate": 0.0002,
      "loss": 0.5493362545967102,
      "mean_token_accuracy": 0.7759024202823639,
      "num_tokens": 10885666.0,
      "step": 668
    },
    {
      "entropy": 0.5433756709098816,
      "epoch": 2.497196261682243,
      "grad_norm": 0.04360437020659447,
      "learning_rate": 0.0002,
      "loss": 0.5412634611129761,
      "mean_token_accuracy": 0.7808667570352554,
      "num_tokens": 10901903.0,
      "step": 669
    },
    {
      "entropy": 0.5487286895513535,
      "epoch": 2.500934579439252,
      "grad_norm": 0.03885580971837044,
      "learning_rate": 0.0002,
      "loss": 0.5431787371635437,
      "mean_token_accuracy": 0.7802725732326508,
      "num_tokens": 10918340.0,
      "step": 670
    },
    {
      "entropy": 0.5228707492351532,
      "epoch": 2.5046728971962615,
      "grad_norm": 0.053798187524080276,
      "learning_rate": 0.0002,
      "loss": 0.5311392545700073,
      "mean_token_accuracy": 0.7843292206525803,
      "num_tokens": 10934469.0,
      "step": 671
    },
    {
      "entropy": 0.5447903871536255,
      "epoch": 2.508411214953271,
      "grad_norm": 0.05324989929795265,
      "learning_rate": 0.0002,
      "loss": 0.5491751432418823,
      "mean_token_accuracy": 0.7752528339624405,
      "num_tokens": 10950837.0,
      "step": 672
    },
    {
      "entropy": 0.5308417528867722,
      "epoch": 2.5121495327102803,
      "grad_norm": 0.06228797510266304,
      "learning_rate": 0.0002,
      "loss": 0.5361084938049316,
      "mean_token_accuracy": 0.7828515321016312,
      "num_tokens": 10967098.0,
      "step": 673
    },
    {
      "entropy": 0.5403530299663544,
      "epoch": 2.5158878504672897,
      "grad_norm": 0.051257163286209106,
      "learning_rate": 0.0002,
      "loss": 0.542191207408905,
      "mean_token_accuracy": 0.7825300693511963,
      "num_tokens": 10983262.0,
      "step": 674
    },
    {
      "entropy": 0.5413467437028885,
      "epoch": 2.519626168224299,
      "grad_norm": 0.04910978302359581,
      "learning_rate": 0.0002,
      "loss": 0.5313704013824463,
      "mean_token_accuracy": 0.7851869165897369,
      "num_tokens": 10999552.0,
      "step": 675
    },
    {
      "entropy": 0.55167156457901,
      "epoch": 2.5233644859813085,
      "grad_norm": 0.033519063144922256,
      "learning_rate": 0.0002,
      "loss": 0.5438812971115112,
      "mean_token_accuracy": 0.7780154794454575,
      "num_tokens": 11016044.0,
      "step": 676
    },
    {
      "entropy": 0.5392196476459503,
      "epoch": 2.527102803738318,
      "grad_norm": 0.04278670251369476,
      "learning_rate": 0.0002,
      "loss": 0.5411216020584106,
      "mean_token_accuracy": 0.780839130282402,
      "num_tokens": 11032377.0,
      "step": 677
    },
    {
      "entropy": 0.5352826565504074,
      "epoch": 2.5308411214953273,
      "grad_norm": 0.04736237972974777,
      "learning_rate": 0.0002,
      "loss": 0.5446096658706665,
      "mean_token_accuracy": 0.7806870341300964,
      "num_tokens": 11048727.0,
      "step": 678
    },
    {
      "entropy": 0.5168470665812492,
      "epoch": 2.5345794392523366,
      "grad_norm": 0.03513955697417259,
      "learning_rate": 0.0002,
      "loss": 0.5200102925300598,
      "mean_token_accuracy": 0.7874528765678406,
      "num_tokens": 11064947.0,
      "step": 679
    },
    {
      "entropy": 0.5375211834907532,
      "epoch": 2.538317757009346,
      "grad_norm": 0.04709267243742943,
      "learning_rate": 0.0002,
      "loss": 0.5393041968345642,
      "mean_token_accuracy": 0.7837181091308594,
      "num_tokens": 11081532.0,
      "step": 680
    },
    {
      "entropy": 0.5512478798627853,
      "epoch": 2.542056074766355,
      "grad_norm": 0.04090959206223488,
      "learning_rate": 0.0002,
      "loss": 0.546190619468689,
      "mean_token_accuracy": 0.7762559801340103,
      "num_tokens": 11098073.0,
      "step": 681
    },
    {
      "entropy": 0.5283504128456116,
      "epoch": 2.5457943925233644,
      "grad_norm": 0.036959145218133926,
      "learning_rate": 0.0002,
      "loss": 0.5237979292869568,
      "mean_token_accuracy": 0.7874845713376999,
      "num_tokens": 11114315.0,
      "step": 682
    },
    {
      "entropy": 0.5489681363105774,
      "epoch": 2.5495327102803738,
      "grad_norm": 0.04488472267985344,
      "learning_rate": 0.0002,
      "loss": 0.5456336736679077,
      "mean_token_accuracy": 0.7797751575708389,
      "num_tokens": 11130665.0,
      "step": 683
    },
    {
      "entropy": 0.5317860543727875,
      "epoch": 2.553271028037383,
      "grad_norm": 0.04248347505927086,
      "learning_rate": 0.0002,
      "loss": 0.5382874011993408,
      "mean_token_accuracy": 0.77965147793293,
      "num_tokens": 11146874.0,
      "step": 684
    },
    {
      "entropy": 0.5419623553752899,
      "epoch": 2.5570093457943925,
      "grad_norm": 0.04522377625107765,
      "learning_rate": 0.0002,
      "loss": 0.5449318289756775,
      "mean_token_accuracy": 0.7786058634519577,
      "num_tokens": 11163427.0,
      "step": 685
    },
    {
      "entropy": 0.5241860747337341,
      "epoch": 2.560747663551402,
      "grad_norm": 0.04621601849794388,
      "learning_rate": 0.0002,
      "loss": 0.5267641544342041,
      "mean_token_accuracy": 0.7829258441925049,
      "num_tokens": 11179801.0,
      "step": 686
    },
    {
      "entropy": 0.5173597782850266,
      "epoch": 2.5644859813084113,
      "grad_norm": 0.043366726487874985,
      "learning_rate": 0.0002,
      "loss": 0.5181450843811035,
      "mean_token_accuracy": 0.7898700088262558,
      "num_tokens": 11196083.0,
      "step": 687
    },
    {
      "entropy": 0.538482740521431,
      "epoch": 2.5682242990654207,
      "grad_norm": 0.04418179765343666,
      "learning_rate": 0.0002,
      "loss": 0.5392533540725708,
      "mean_token_accuracy": 0.778387576341629,
      "num_tokens": 11212295.0,
      "step": 688
    },
    {
      "entropy": 0.540611207485199,
      "epoch": 2.5719626168224297,
      "grad_norm": 0.05271269753575325,
      "learning_rate": 0.0002,
      "loss": 0.5393270254135132,
      "mean_token_accuracy": 0.7812009155750275,
      "num_tokens": 11228565.0,
      "step": 689
    },
    {
      "entropy": 0.5282483994960785,
      "epoch": 2.575700934579439,
      "grad_norm": 0.04314183071255684,
      "learning_rate": 0.0002,
      "loss": 0.5224794149398804,
      "mean_token_accuracy": 0.7856594175100327,
      "num_tokens": 11244953.0,
      "step": 690
    },
    {
      "entropy": 0.5318177044391632,
      "epoch": 2.5794392523364484,
      "grad_norm": 0.05587287247180939,
      "learning_rate": 0.0002,
      "loss": 0.5358354449272156,
      "mean_token_accuracy": 0.7822671979665756,
      "num_tokens": 11261194.0,
      "step": 691
    },
    {
      "entropy": 0.5375986397266388,
      "epoch": 2.583177570093458,
      "grad_norm": 0.043386682868003845,
      "learning_rate": 0.0002,
      "loss": 0.5412317514419556,
      "mean_token_accuracy": 0.781296119093895,
      "num_tokens": 11277286.0,
      "step": 692
    },
    {
      "entropy": 0.5498186945915222,
      "epoch": 2.586915887850467,
      "grad_norm": 0.04709560051560402,
      "learning_rate": 0.0002,
      "loss": 0.5513982176780701,
      "mean_token_accuracy": 0.7768333256244659,
      "num_tokens": 11293799.0,
      "step": 693
    },
    {
      "entropy": 0.5409555584192276,
      "epoch": 2.5906542056074766,
      "grad_norm": 0.04518339782953262,
      "learning_rate": 0.0002,
      "loss": 0.5396868586540222,
      "mean_token_accuracy": 0.7791042476892471,
      "num_tokens": 11310089.0,
      "step": 694
    },
    {
      "entropy": 0.5236431509256363,
      "epoch": 2.594392523364486,
      "grad_norm": 0.03244040906429291,
      "learning_rate": 0.0002,
      "loss": 0.5155695676803589,
      "mean_token_accuracy": 0.7898247241973877,
      "num_tokens": 11326515.0,
      "step": 695
    },
    {
      "entropy": 0.5529845803976059,
      "epoch": 2.5981308411214954,
      "grad_norm": 0.04760007932782173,
      "learning_rate": 0.0002,
      "loss": 0.5487071871757507,
      "mean_token_accuracy": 0.7782804220914841,
      "num_tokens": 11342994.0,
      "step": 696
    },
    {
      "entropy": 0.5314944535493851,
      "epoch": 2.601869158878505,
      "grad_norm": 0.0422595851123333,
      "learning_rate": 0.0002,
      "loss": 0.5344254970550537,
      "mean_token_accuracy": 0.7827649861574173,
      "num_tokens": 11359320.0,
      "step": 697
    },
    {
      "entropy": 0.5296527296304703,
      "epoch": 2.605607476635514,
      "grad_norm": 0.04541509971022606,
      "learning_rate": 0.0002,
      "loss": 0.5399951338768005,
      "mean_token_accuracy": 0.7812868803739548,
      "num_tokens": 11375866.0,
      "step": 698
    },
    {
      "entropy": 0.5503706336021423,
      "epoch": 2.6093457943925236,
      "grad_norm": 0.04639806970953941,
      "learning_rate": 0.0002,
      "loss": 0.560705304145813,
      "mean_token_accuracy": 0.7734115719795227,
      "num_tokens": 11392189.0,
      "step": 699
    },
    {
      "entropy": 0.5334575325250626,
      "epoch": 2.613084112149533,
      "grad_norm": 0.03491205349564552,
      "learning_rate": 0.0002,
      "loss": 0.5285266637802124,
      "mean_token_accuracy": 0.786865234375,
      "num_tokens": 11408320.0,
      "step": 700
    },
    {
      "entropy": 0.5375584214925766,
      "epoch": 2.616822429906542,
      "grad_norm": 0.03665752336382866,
      "learning_rate": 0.0002,
      "loss": 0.5285854935646057,
      "mean_token_accuracy": 0.7843970507383347,
      "num_tokens": 11424696.0,
      "step": 701
    },
    {
      "entropy": 0.5432839095592499,
      "epoch": 2.6205607476635513,
      "grad_norm": 0.040845148265361786,
      "learning_rate": 0.0002,
      "loss": 0.5354432463645935,
      "mean_token_accuracy": 0.7819717228412628,
      "num_tokens": 11440921.0,
      "step": 702
    },
    {
      "entropy": 0.5447598993778229,
      "epoch": 2.6242990654205607,
      "grad_norm": 0.03317207470536232,
      "learning_rate": 0.0002,
      "loss": 0.5364579558372498,
      "mean_token_accuracy": 0.7815430164337158,
      "num_tokens": 11457136.0,
      "step": 703
    },
    {
      "entropy": 0.5318229794502258,
      "epoch": 2.62803738317757,
      "grad_norm": 0.04842844605445862,
      "learning_rate": 0.0002,
      "loss": 0.5381250381469727,
      "mean_token_accuracy": 0.7842467576265335,
      "num_tokens": 11473451.0,
      "step": 704
    },
    {
      "entropy": 0.53319051861763,
      "epoch": 2.6317757009345795,
      "grad_norm": 0.04995809122920036,
      "learning_rate": 0.0002,
      "loss": 0.5435810089111328,
      "mean_token_accuracy": 0.7806897163391113,
      "num_tokens": 11489778.0,
      "step": 705
    },
    {
      "entropy": 0.5205372422933578,
      "epoch": 2.635514018691589,
      "grad_norm": 0.043053507804870605,
      "learning_rate": 0.0002,
      "loss": 0.5225018858909607,
      "mean_token_accuracy": 0.7891059070825577,
      "num_tokens": 11506150.0,
      "step": 706
    },
    {
      "entropy": 0.5405721217393875,
      "epoch": 2.6392523364485982,
      "grad_norm": 0.047551702708005905,
      "learning_rate": 0.0002,
      "loss": 0.5341666340827942,
      "mean_token_accuracy": 0.7827833145856857,
      "num_tokens": 11522269.0,
      "step": 707
    },
    {
      "entropy": 0.555420309305191,
      "epoch": 2.6429906542056076,
      "grad_norm": 0.04240434989333153,
      "learning_rate": 0.0002,
      "loss": 0.5463941097259521,
      "mean_token_accuracy": 0.776122510433197,
      "num_tokens": 11538672.0,
      "step": 708
    },
    {
      "entropy": 0.5373465269804001,
      "epoch": 2.6467289719626166,
      "grad_norm": 0.04053036868572235,
      "learning_rate": 0.0002,
      "loss": 0.5378127694129944,
      "mean_token_accuracy": 0.7802188992500305,
      "num_tokens": 11554872.0,
      "step": 709
    },
    {
      "entropy": 0.554849311709404,
      "epoch": 2.650467289719626,
      "grad_norm": 0.03659540414810181,
      "learning_rate": 0.0002,
      "loss": 0.5495964288711548,
      "mean_token_accuracy": 0.7751747816801071,
      "num_tokens": 11571048.0,
      "step": 710
    },
    {
      "entropy": 0.5463902503252029,
      "epoch": 2.6542056074766354,
      "grad_norm": 0.04418041929602623,
      "learning_rate": 0.0002,
      "loss": 0.5471721887588501,
      "mean_token_accuracy": 0.7752395421266556,
      "num_tokens": 11587320.0,
      "step": 711
    },
    {
      "entropy": 0.5346667915582657,
      "epoch": 2.6579439252336448,
      "grad_norm": 0.03727971389889717,
      "learning_rate": 0.0002,
      "loss": 0.5335649847984314,
      "mean_token_accuracy": 0.7821184396743774,
      "num_tokens": 11603606.0,
      "step": 712
    },
    {
      "entropy": 0.5425343364477158,
      "epoch": 2.661682242990654,
      "grad_norm": 0.03725122660398483,
      "learning_rate": 0.0002,
      "loss": 0.5478883385658264,
      "mean_token_accuracy": 0.7786499708890915,
      "num_tokens": 11619898.0,
      "step": 713
    },
    {
      "entropy": 0.5213692635297775,
      "epoch": 2.6654205607476635,
      "grad_norm": 0.042857397347688675,
      "learning_rate": 0.0002,
      "loss": 0.5380342602729797,
      "mean_token_accuracy": 0.7818091064691544,
      "num_tokens": 11636325.0,
      "step": 714
    },
    {
      "entropy": 0.514741487801075,
      "epoch": 2.669158878504673,
      "grad_norm": 0.035097621381282806,
      "learning_rate": 0.0002,
      "loss": 0.5151344537734985,
      "mean_token_accuracy": 0.7884217798709869,
      "num_tokens": 11652621.0,
      "step": 715
    },
    {
      "entropy": 0.5442497134208679,
      "epoch": 2.6728971962616823,
      "grad_norm": 0.04381122440099716,
      "learning_rate": 0.0002,
      "loss": 0.5412749648094177,
      "mean_token_accuracy": 0.7799884676933289,
      "num_tokens": 11669129.0,
      "step": 716
    },
    {
      "entropy": 0.5303985998034477,
      "epoch": 2.6766355140186917,
      "grad_norm": 0.03387914225459099,
      "learning_rate": 0.0002,
      "loss": 0.5209308862686157,
      "mean_token_accuracy": 0.7879882901906967,
      "num_tokens": 11685246.0,
      "step": 717
    },
    {
      "entropy": 0.551127091050148,
      "epoch": 2.680373831775701,
      "grad_norm": 0.03922301158308983,
      "learning_rate": 0.0002,
      "loss": 0.5454061031341553,
      "mean_token_accuracy": 0.7784066051244736,
      "num_tokens": 11701476.0,
      "step": 718
    },
    {
      "entropy": 0.537367194890976,
      "epoch": 2.6841121495327105,
      "grad_norm": 0.038754355162382126,
      "learning_rate": 0.0002,
      "loss": 0.5407044887542725,
      "mean_token_accuracy": 0.7816831916570663,
      "num_tokens": 11717876.0,
      "step": 719
    },
    {
      "entropy": 0.5448082834482193,
      "epoch": 2.68785046728972,
      "grad_norm": 0.039220135658979416,
      "learning_rate": 0.0002,
      "loss": 0.5474362373352051,
      "mean_token_accuracy": 0.7776313573122025,
      "num_tokens": 11734335.0,
      "step": 720
    },
    {
      "entropy": 0.5400021821260452,
      "epoch": 2.691588785046729,
      "grad_norm": 0.04735405370593071,
      "learning_rate": 0.0002,
      "loss": 0.5481384992599487,
      "mean_token_accuracy": 0.7767128497362137,
      "num_tokens": 11750551.0,
      "step": 721
    },
    {
      "entropy": 0.5442029386758804,
      "epoch": 2.695327102803738,
      "grad_norm": 0.04216023534536362,
      "learning_rate": 0.0002,
      "loss": 0.5538774728775024,
      "mean_token_accuracy": 0.7767860740423203,
      "num_tokens": 11766874.0,
      "step": 722
    },
    {
      "entropy": 0.5446023046970367,
      "epoch": 2.6990654205607476,
      "grad_norm": 0.036887411028146744,
      "learning_rate": 0.0002,
      "loss": 0.5384114384651184,
      "mean_token_accuracy": 0.7818654030561447,
      "num_tokens": 11783153.0,
      "step": 723
    },
    {
      "entropy": 0.5451595932245255,
      "epoch": 2.702803738317757,
      "grad_norm": 0.03859608620405197,
      "learning_rate": 0.0002,
      "loss": 0.5347609519958496,
      "mean_token_accuracy": 0.781577005982399,
      "num_tokens": 11799221.0,
      "step": 724
    },
    {
      "entropy": 0.5464123338460922,
      "epoch": 2.7065420560747664,
      "grad_norm": 0.04104648903012276,
      "learning_rate": 0.0002,
      "loss": 0.531836986541748,
      "mean_token_accuracy": 0.7847746908664703,
      "num_tokens": 11815592.0,
      "step": 725
    },
    {
      "entropy": 0.5458803474903107,
      "epoch": 2.710280373831776,
      "grad_norm": 0.041141774505376816,
      "learning_rate": 0.0002,
      "loss": 0.5450369119644165,
      "mean_token_accuracy": 0.7772473990917206,
      "num_tokens": 11831810.0,
      "step": 726
    },
    {
      "entropy": 0.5207616165280342,
      "epoch": 2.714018691588785,
      "grad_norm": 0.039117299020290375,
      "learning_rate": 0.0002,
      "loss": 0.5268270969390869,
      "mean_token_accuracy": 0.7860666513442993,
      "num_tokens": 11848039.0,
      "step": 727
    },
    {
      "entropy": 0.5192839056253433,
      "epoch": 2.717757009345794,
      "grad_norm": 0.03917457163333893,
      "learning_rate": 0.0002,
      "loss": 0.5228926539421082,
      "mean_token_accuracy": 0.7870692610740662,
      "num_tokens": 11864185.0,
      "step": 728
    },
    {
      "entropy": 0.5525725483894348,
      "epoch": 2.7214953271028035,
      "grad_norm": 0.04475993663072586,
      "learning_rate": 0.0002,
      "loss": 0.5607837438583374,
      "mean_token_accuracy": 0.7710844576358795,
      "num_tokens": 11880885.0,
      "step": 729
    },
    {
      "entropy": 0.5314790159463882,
      "epoch": 2.725233644859813,
      "grad_norm": 0.03775126487016678,
      "learning_rate": 0.0002,
      "loss": 0.5314686298370361,
      "mean_token_accuracy": 0.7859503030776978,
      "num_tokens": 11897351.0,
      "step": 730
    },
    {
      "entropy": 0.5637041479349136,
      "epoch": 2.7289719626168223,
      "grad_norm": 0.045830611139535904,
      "learning_rate": 0.0002,
      "loss": 0.5615176558494568,
      "mean_token_accuracy": 0.7733500599861145,
      "num_tokens": 11913886.0,
      "step": 731
    },
    {
      "entropy": 0.5528976023197174,
      "epoch": 2.7327102803738317,
      "grad_norm": 0.0355507992208004,
      "learning_rate": 0.0002,
      "loss": 0.5482446551322937,
      "mean_token_accuracy": 0.7790254056453705,
      "num_tokens": 11930270.0,
      "step": 732
    },
    {
      "entropy": 0.521368145942688,
      "epoch": 2.736448598130841,
      "grad_norm": 0.040386781096458435,
      "learning_rate": 0.0002,
      "loss": 0.5189903974533081,
      "mean_token_accuracy": 0.7861309498548508,
      "num_tokens": 11946624.0,
      "step": 733
    },
    {
      "entropy": 0.5495569705963135,
      "epoch": 2.7401869158878505,
      "grad_norm": 0.04659309610724449,
      "learning_rate": 0.0002,
      "loss": 0.5496231913566589,
      "mean_token_accuracy": 0.7766851484775543,
      "num_tokens": 11963057.0,
      "step": 734
    },
    {
      "entropy": 0.5380824655294418,
      "epoch": 2.74392523364486,
      "grad_norm": 0.04431717097759247,
      "learning_rate": 0.0002,
      "loss": 0.5472241640090942,
      "mean_token_accuracy": 0.7799153625965118,
      "num_tokens": 11979414.0,
      "step": 735
    },
    {
      "entropy": 0.5362866371870041,
      "epoch": 2.7476635514018692,
      "grad_norm": 0.04207630082964897,
      "learning_rate": 0.0002,
      "loss": 0.5480789542198181,
      "mean_token_accuracy": 0.7744766473770142,
      "num_tokens": 11995788.0,
      "step": 736
    },
    {
      "entropy": 0.5203833281993866,
      "epoch": 2.7514018691588786,
      "grad_norm": 0.040439583361148834,
      "learning_rate": 0.0002,
      "loss": 0.5229013562202454,
      "mean_token_accuracy": 0.7877133041620255,
      "num_tokens": 12011768.0,
      "step": 737
    },
    {
      "entropy": 0.5442389398813248,
      "epoch": 2.755140186915888,
      "grad_norm": 0.036312710493803024,
      "learning_rate": 0.0002,
      "loss": 0.5421340465545654,
      "mean_token_accuracy": 0.7801235765218735,
      "num_tokens": 12027990.0,
      "step": 738
    },
    {
      "entropy": 0.540812149643898,
      "epoch": 2.7588785046728974,
      "grad_norm": 0.035805970430374146,
      "learning_rate": 0.0002,
      "loss": 0.5289261937141418,
      "mean_token_accuracy": 0.7858118265867233,
      "num_tokens": 12044016.0,
      "step": 739
    },
    {
      "entropy": 0.5561389774084091,
      "epoch": 2.762616822429907,
      "grad_norm": 0.03753306344151497,
      "learning_rate": 0.0002,
      "loss": 0.5497045516967773,
      "mean_token_accuracy": 0.7774728685617447,
      "num_tokens": 12060449.0,
      "step": 740
    },
    {
      "entropy": 0.5353166311979294,
      "epoch": 2.7663551401869158,
      "grad_norm": 0.04419036954641342,
      "learning_rate": 0.0002,
      "loss": 0.5267462134361267,
      "mean_token_accuracy": 0.7831297665834427,
      "num_tokens": 12076756.0,
      "step": 741
    },
    {
      "entropy": 0.5390448272228241,
      "epoch": 2.770093457943925,
      "grad_norm": 0.039156846702098846,
      "learning_rate": 0.0002,
      "loss": 0.5363330841064453,
      "mean_token_accuracy": 0.7822138518095016,
      "num_tokens": 12093231.0,
      "step": 742
    },
    {
      "entropy": 0.5334637314081192,
      "epoch": 2.7738317757009345,
      "grad_norm": 0.03978954628109932,
      "learning_rate": 0.0002,
      "loss": 0.5416637659072876,
      "mean_token_accuracy": 0.782222107052803,
      "num_tokens": 12109520.0,
      "step": 743
    },
    {
      "entropy": 0.5362211316823959,
      "epoch": 2.777570093457944,
      "grad_norm": 0.04728684201836586,
      "learning_rate": 0.0002,
      "loss": 0.5461055040359497,
      "mean_token_accuracy": 0.7771897614002228,
      "num_tokens": 12125527.0,
      "step": 744
    },
    {
      "entropy": 0.5383228212594986,
      "epoch": 2.7813084112149533,
      "grad_norm": 0.03740681707859039,
      "learning_rate": 0.0002,
      "loss": 0.5361698269844055,
      "mean_token_accuracy": 0.7826491445302963,
      "num_tokens": 12141826.0,
      "step": 745
    },
    {
      "entropy": 0.5330131649971008,
      "epoch": 2.7850467289719627,
      "grad_norm": 0.03758367896080017,
      "learning_rate": 0.0002,
      "loss": 0.5265568494796753,
      "mean_token_accuracy": 0.7877195477485657,
      "num_tokens": 12157984.0,
      "step": 746
    },
    {
      "entropy": 0.5397753864526749,
      "epoch": 2.788785046728972,
      "grad_norm": 0.042070865631103516,
      "learning_rate": 0.0002,
      "loss": 0.5313206911087036,
      "mean_token_accuracy": 0.7845780104398727,
      "num_tokens": 12174529.0,
      "step": 747
    },
    {
      "entropy": 0.5600686222314835,
      "epoch": 2.792523364485981,
      "grad_norm": 0.0377703532576561,
      "learning_rate": 0.0002,
      "loss": 0.5598015189170837,
      "mean_token_accuracy": 0.7710230052471161,
      "num_tokens": 12190857.0,
      "step": 748
    },
    {
      "entropy": 0.5242457091808319,
      "epoch": 2.7962616822429904,
      "grad_norm": 0.036673370748758316,
      "learning_rate": 0.0002,
      "loss": 0.5266134738922119,
      "mean_token_accuracy": 0.7835761904716492,
      "num_tokens": 12207046.0,
      "step": 749
    },
    {
      "entropy": 0.5196694731712341,
      "epoch": 2.8,
      "grad_norm": 0.04529178887605667,
      "learning_rate": 0.0002,
      "loss": 0.5295214653015137,
      "mean_token_accuracy": 0.7850393652915955,
      "num_tokens": 12223323.0,
      "step": 750
    },
    {
      "entropy": 0.5278067588806152,
      "epoch": 2.803738317757009,
      "grad_norm": 0.04078579694032669,
      "learning_rate": 0.0002,
      "loss": 0.5326597094535828,
      "mean_token_accuracy": 0.7830272614955902,
      "num_tokens": 12239416.0,
      "step": 751
    },
    {
      "entropy": 0.5326859503984451,
      "epoch": 2.8074766355140186,
      "grad_norm": 0.04164998233318329,
      "learning_rate": 0.0002,
      "loss": 0.5332698225975037,
      "mean_token_accuracy": 0.7816595435142517,
      "num_tokens": 12255780.0,
      "step": 752
    },
    {
      "entropy": 0.5238984450697899,
      "epoch": 2.811214953271028,
      "grad_norm": 0.03843814134597778,
      "learning_rate": 0.0002,
      "loss": 0.5195130109786987,
      "mean_token_accuracy": 0.7881060838699341,
      "num_tokens": 12272157.0,
      "step": 753
    },
    {
      "entropy": 0.5336880385875702,
      "epoch": 2.8149532710280374,
      "grad_norm": 0.039413440972566605,
      "learning_rate": 0.0002,
      "loss": 0.531658411026001,
      "mean_token_accuracy": 0.7836297303438187,
      "num_tokens": 12288500.0,
      "step": 754
    },
    {
      "entropy": 0.5406560152769089,
      "epoch": 2.8186915887850468,
      "grad_norm": 0.044693466275930405,
      "learning_rate": 0.0002,
      "loss": 0.541545033454895,
      "mean_token_accuracy": 0.7807977646589279,
      "num_tokens": 12304864.0,
      "step": 755
    },
    {
      "entropy": 0.538055032491684,
      "epoch": 2.822429906542056,
      "grad_norm": 0.03888081759214401,
      "learning_rate": 0.0002,
      "loss": 0.5337695479393005,
      "mean_token_accuracy": 0.7844773530960083,
      "num_tokens": 12321170.0,
      "step": 756
    },
    {
      "entropy": 0.527722030878067,
      "epoch": 2.8261682242990656,
      "grad_norm": 0.04188257455825806,
      "learning_rate": 0.0002,
      "loss": 0.5265190005302429,
      "mean_token_accuracy": 0.7878826707601547,
      "num_tokens": 12337523.0,
      "step": 757
    },
    {
      "entropy": 0.5507965534925461,
      "epoch": 2.829906542056075,
      "grad_norm": 0.03817446902394295,
      "learning_rate": 0.0002,
      "loss": 0.5500692129135132,
      "mean_token_accuracy": 0.7806660830974579,
      "num_tokens": 12354118.0,
      "step": 758
    },
    {
      "entropy": 0.5407035946846008,
      "epoch": 2.8336448598130843,
      "grad_norm": 0.042875856161117554,
      "learning_rate": 0.0002,
      "loss": 0.5405147671699524,
      "mean_token_accuracy": 0.7810708433389664,
      "num_tokens": 12370434.0,
      "step": 759
    },
    {
      "entropy": 0.5315204411745071,
      "epoch": 2.8373831775700937,
      "grad_norm": 0.042397141456604004,
      "learning_rate": 0.0002,
      "loss": 0.538346529006958,
      "mean_token_accuracy": 0.7821339964866638,
      "num_tokens": 12386428.0,
      "step": 760
    },
    {
      "entropy": 0.5520299524068832,
      "epoch": 2.8411214953271027,
      "grad_norm": 0.04137783497571945,
      "learning_rate": 0.0002,
      "loss": 0.5512533187866211,
      "mean_token_accuracy": 0.7781175673007965,
      "num_tokens": 12402867.0,
      "step": 761
    },
    {
      "entropy": 0.5510706156492233,
      "epoch": 2.844859813084112,
      "grad_norm": 0.04001981019973755,
      "learning_rate": 0.0002,
      "loss": 0.5554083585739136,
      "mean_token_accuracy": 0.7719452530145645,
      "num_tokens": 12419054.0,
      "step": 762
    },
    {
      "entropy": 0.5559884458780289,
      "epoch": 2.8485981308411215,
      "grad_norm": 0.035403911024332047,
      "learning_rate": 0.0002,
      "loss": 0.5523775815963745,
      "mean_token_accuracy": 0.7766276150941849,
      "num_tokens": 12435351.0,
      "step": 763
    },
    {
      "entropy": 0.5434874594211578,
      "epoch": 2.852336448598131,
      "grad_norm": 0.03929636627435684,
      "learning_rate": 0.0002,
      "loss": 0.537907063961029,
      "mean_token_accuracy": 0.7796172052621841,
      "num_tokens": 12451647.0,
      "step": 764
    },
    {
      "entropy": 0.5497813075780869,
      "epoch": 2.8560747663551402,
      "grad_norm": 0.03768793120980263,
      "learning_rate": 0.0002,
      "loss": 0.5450780391693115,
      "mean_token_accuracy": 0.7810264527797699,
      "num_tokens": 12468063.0,
      "step": 765
    },
    {
      "entropy": 0.5202910378575325,
      "epoch": 2.8598130841121496,
      "grad_norm": 0.03793422132730484,
      "learning_rate": 0.0002,
      "loss": 0.5197356343269348,
      "mean_token_accuracy": 0.7887470573186874,
      "num_tokens": 12484329.0,
      "step": 766
    },
    {
      "entropy": 0.5339359492063522,
      "epoch": 2.863551401869159,
      "grad_norm": 0.04222627729177475,
      "learning_rate": 0.0002,
      "loss": 0.5416290760040283,
      "mean_token_accuracy": 0.7798094302415848,
      "num_tokens": 12500522.0,
      "step": 767
    },
    {
      "entropy": 0.5492495894432068,
      "epoch": 2.867289719626168,
      "grad_norm": 0.043936122208833694,
      "learning_rate": 0.0002,
      "loss": 0.556658148765564,
      "mean_token_accuracy": 0.7760462909936905,
      "num_tokens": 12516877.0,
      "step": 768
    },
    {
      "entropy": 0.534624308347702,
      "epoch": 2.8710280373831774,
      "grad_norm": 0.042372506111860275,
      "learning_rate": 0.0002,
      "loss": 0.5317083597183228,
      "mean_token_accuracy": 0.7851851731538773,
      "num_tokens": 12533180.0,
      "step": 769
    },
    {
      "entropy": 0.5446592271327972,
      "epoch": 2.8747663551401867,
      "grad_norm": 0.037292055785655975,
      "learning_rate": 0.0002,
      "loss": 0.5379966497421265,
      "mean_token_accuracy": 0.7800319492816925,
      "num_tokens": 12549532.0,
      "step": 770
    },
    {
      "entropy": 0.5482804775238037,
      "epoch": 2.878504672897196,
      "grad_norm": 0.038804132491350174,
      "learning_rate": 0.0002,
      "loss": 0.5504724383354187,
      "mean_token_accuracy": 0.7738227695226669,
      "num_tokens": 12565943.0,
      "step": 771
    },
    {
      "entropy": 0.5368440747261047,
      "epoch": 2.8822429906542055,
      "grad_norm": 0.04019741341471672,
      "learning_rate": 0.0002,
      "loss": 0.5410951375961304,
      "mean_token_accuracy": 0.7783905565738678,
      "num_tokens": 12582258.0,
      "step": 772
    },
    {
      "entropy": 0.5336288064718246,
      "epoch": 2.885981308411215,
      "grad_norm": 0.034321509301662445,
      "learning_rate": 0.0002,
      "loss": 0.5328375101089478,
      "mean_token_accuracy": 0.784157395362854,
      "num_tokens": 12598555.0,
      "step": 773
    },
    {
      "entropy": 0.5653717815876007,
      "epoch": 2.8897196261682243,
      "grad_norm": 0.03593064844608307,
      "learning_rate": 0.0002,
      "loss": 0.5628952383995056,
      "mean_token_accuracy": 0.7731250822544098,
      "num_tokens": 12614684.0,
      "step": 774
    },
    {
      "entropy": 0.5388960689306259,
      "epoch": 2.8934579439252337,
      "grad_norm": 0.03794105350971222,
      "learning_rate": 0.0002,
      "loss": 0.5317496061325073,
      "mean_token_accuracy": 0.7814508825540543,
      "num_tokens": 12631301.0,
      "step": 775
    },
    {
      "entropy": 0.5498441606760025,
      "epoch": 2.897196261682243,
      "grad_norm": 0.03615562617778778,
      "learning_rate": 0.0002,
      "loss": 0.5489410161972046,
      "mean_token_accuracy": 0.7768700569868088,
      "num_tokens": 12647948.0,
      "step": 776
    },
    {
      "entropy": 0.5340896248817444,
      "epoch": 2.9009345794392525,
      "grad_norm": 0.038868315517902374,
      "learning_rate": 0.0002,
      "loss": 0.5335500836372375,
      "mean_token_accuracy": 0.7818741798400879,
      "num_tokens": 12664189.0,
      "step": 777
    },
    {
      "entropy": 0.5473947077989578,
      "epoch": 2.904672897196262,
      "grad_norm": 0.04030415788292885,
      "learning_rate": 0.0002,
      "loss": 0.547685980796814,
      "mean_token_accuracy": 0.7762889117002487,
      "num_tokens": 12680521.0,
      "step": 778
    },
    {
      "entropy": 0.5354717969894409,
      "epoch": 2.9084112149532713,
      "grad_norm": 0.03963444381952286,
      "learning_rate": 0.0002,
      "loss": 0.5363295078277588,
      "mean_token_accuracy": 0.7828177064657211,
      "num_tokens": 12696847.0,
      "step": 779
    },
    {
      "entropy": 0.5292405933141708,
      "epoch": 2.91214953271028,
      "grad_norm": 0.044744838029146194,
      "learning_rate": 0.0002,
      "loss": 0.5327066779136658,
      "mean_token_accuracy": 0.7849072515964508,
      "num_tokens": 12713036.0,
      "step": 780
    },
    {
      "entropy": 0.52642522752285,
      "epoch": 2.9158878504672896,
      "grad_norm": 0.04283163696527481,
      "learning_rate": 0.0002,
      "loss": 0.5329762697219849,
      "mean_token_accuracy": 0.7837288975715637,
      "num_tokens": 12729209.0,
      "step": 781
    },
    {
      "entropy": 0.527685210108757,
      "epoch": 2.919626168224299,
      "grad_norm": 0.041390661150217056,
      "learning_rate": 0.0002,
      "loss": 0.5320221185684204,
      "mean_token_accuracy": 0.783889576792717,
      "num_tokens": 12745655.0,
      "step": 782
    },
    {
      "entropy": 0.5404015928506851,
      "epoch": 2.9233644859813084,
      "grad_norm": 0.040262214839458466,
      "learning_rate": 0.0002,
      "loss": 0.5304533243179321,
      "mean_token_accuracy": 0.7833625972270966,
      "num_tokens": 12762029.0,
      "step": 783
    },
    {
      "entropy": 0.5551902800798416,
      "epoch": 2.9271028037383178,
      "grad_norm": 0.0381385013461113,
      "learning_rate": 0.0002,
      "loss": 0.5540827512741089,
      "mean_token_accuracy": 0.774557501077652,
      "num_tokens": 12778129.0,
      "step": 784
    },
    {
      "entropy": 0.5423577576875687,
      "epoch": 2.930841121495327,
      "grad_norm": 0.04024689272046089,
      "learning_rate": 0.0002,
      "loss": 0.5434139370918274,
      "mean_token_accuracy": 0.7793742418289185,
      "num_tokens": 12794167.0,
      "step": 785
    },
    {
      "entropy": 0.5381026417016983,
      "epoch": 2.9345794392523366,
      "grad_norm": 0.03909367695450783,
      "learning_rate": 0.0002,
      "loss": 0.540184736251831,
      "mean_token_accuracy": 0.7813534885644913,
      "num_tokens": 12810454.0,
      "step": 786
    },
    {
      "entropy": 0.5301714539527893,
      "epoch": 2.938317757009346,
      "grad_norm": 0.039717331528663635,
      "learning_rate": 0.0002,
      "loss": 0.528195858001709,
      "mean_token_accuracy": 0.7839880138635635,
      "num_tokens": 12826792.0,
      "step": 787
    },
    {
      "entropy": 0.5483011454343796,
      "epoch": 2.942056074766355,
      "grad_norm": 0.04299187660217285,
      "learning_rate": 0.0002,
      "loss": 0.5469069480895996,
      "mean_token_accuracy": 0.7784111201763153,
      "num_tokens": 12843156.0,
      "step": 788
    },
    {
      "entropy": 0.5493280291557312,
      "epoch": 2.9457943925233643,
      "grad_norm": 0.03909771516919136,
      "learning_rate": 0.0002,
      "loss": 0.5475714206695557,
      "mean_token_accuracy": 0.7802032381296158,
      "num_tokens": 12859513.0,
      "step": 789
    },
    {
      "entropy": 0.545919269323349,
      "epoch": 2.9495327102803737,
      "grad_norm": 0.03977775201201439,
      "learning_rate": 0.0002,
      "loss": 0.5396496057510376,
      "mean_token_accuracy": 0.7824081033468246,
      "num_tokens": 12875944.0,
      "step": 790
    },
    {
      "entropy": 0.5471485257148743,
      "epoch": 2.953271028037383,
      "grad_norm": 0.04360375925898552,
      "learning_rate": 0.0002,
      "loss": 0.546139657497406,
      "mean_token_accuracy": 0.7795716971158981,
      "num_tokens": 12892408.0,
      "step": 791
    },
    {
      "entropy": 0.5483593940734863,
      "epoch": 2.9570093457943925,
      "grad_norm": 0.03873739019036293,
      "learning_rate": 0.0002,
      "loss": 0.5458930134773254,
      "mean_token_accuracy": 0.7784797698259354,
      "num_tokens": 12908878.0,
      "step": 792
    },
    {
      "entropy": 0.5327412039041519,
      "epoch": 2.960747663551402,
      "grad_norm": 0.04030138626694679,
      "learning_rate": 0.0002,
      "loss": 0.531423032283783,
      "mean_token_accuracy": 0.7864594012498856,
      "num_tokens": 12925328.0,
      "step": 793
    },
    {
      "entropy": 0.5355861634016037,
      "epoch": 2.9644859813084112,
      "grad_norm": 0.03622936084866524,
      "learning_rate": 0.0002,
      "loss": 0.5347930192947388,
      "mean_token_accuracy": 0.7837072014808655,
      "num_tokens": 12941525.0,
      "step": 794
    },
    {
      "entropy": 0.5421173870563507,
      "epoch": 2.9682242990654206,
      "grad_norm": 0.04139631241559982,
      "learning_rate": 0.0002,
      "loss": 0.5441262125968933,
      "mean_token_accuracy": 0.7780770361423492,
      "num_tokens": 12957883.0,
      "step": 795
    },
    {
      "entropy": 0.5358422696590424,
      "epoch": 2.97196261682243,
      "grad_norm": 0.04235566407442093,
      "learning_rate": 0.0002,
      "loss": 0.5453042984008789,
      "mean_token_accuracy": 0.780327558517456,
      "num_tokens": 12974226.0,
      "step": 796
    },
    {
      "entropy": 0.5261758118867874,
      "epoch": 2.9757009345794394,
      "grad_norm": 0.038478292524814606,
      "learning_rate": 0.0002,
      "loss": 0.5281113386154175,
      "mean_token_accuracy": 0.7872153073549271,
      "num_tokens": 12990610.0,
      "step": 797
    },
    {
      "entropy": 0.555643692612648,
      "epoch": 2.979439252336449,
      "grad_norm": 0.03554081916809082,
      "learning_rate": 0.0002,
      "loss": 0.5489306449890137,
      "mean_token_accuracy": 0.7791497707366943,
      "num_tokens": 13007012.0,
      "step": 798
    },
    {
      "entropy": 0.5474710315465927,
      "epoch": 2.983177570093458,
      "grad_norm": 0.04082915186882019,
      "learning_rate": 0.0002,
      "loss": 0.5414685606956482,
      "mean_token_accuracy": 0.7802593261003494,
      "num_tokens": 13023273.0,
      "step": 799
    },
    {
      "entropy": 0.551795169711113,
      "epoch": 2.986915887850467,
      "grad_norm": 0.03786645457148552,
      "learning_rate": 0.0002,
      "loss": 0.5478507280349731,
      "mean_token_accuracy": 0.7769146114587784,
      "num_tokens": 13039409.0,
      "step": 800
    },
    {
      "entropy": 0.5366168767213821,
      "epoch": 2.9906542056074765,
      "grad_norm": 0.04365032911300659,
      "learning_rate": 0.0002,
      "loss": 0.5442554354667664,
      "mean_token_accuracy": 0.7847046703100204,
      "num_tokens": 13055837.0,
      "step": 801
    },
    {
      "entropy": 0.528346061706543,
      "epoch": 2.994392523364486,
      "grad_norm": 0.05227791890501976,
      "learning_rate": 0.0002,
      "loss": 0.5428685545921326,
      "mean_token_accuracy": 0.7789010256528854,
      "num_tokens": 13072216.0,
      "step": 802
    },
    {
      "entropy": 0.5396917909383774,
      "epoch": 2.9981308411214953,
      "grad_norm": 0.03931191936135292,
      "learning_rate": 0.0002,
      "loss": 0.5454744696617126,
      "mean_token_accuracy": 0.7764900475740433,
      "num_tokens": 13088462.0,
      "step": 803
    },
    {
      "entropy": 0.5376738607883453,
      "epoch": 3.0,
      "grad_norm": 0.04954347386956215,
      "learning_rate": 0.0002,
      "loss": 0.5307910442352295,
      "mean_token_accuracy": 0.7855222225189209,
      "num_tokens": 13096612.0,
      "step": 804
    }
  ],
  "logging_steps": 1,
  "max_steps": 804,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.2194419027224822e+18,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}