{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 804,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "entropy": 1.12656632065773,
      "epoch": 0.003738317757009346,
      "grad_norm": 0.4271441102027893,
      "learning_rate": 0.0002,
      "loss": 2.4663805961608887,
      "mean_token_accuracy": 0.543229952454567,
      "num_tokens": 16235.0,
      "step": 1
    },
    {
      "entropy": 1.2336603701114655,
      "epoch": 0.007476635514018692,
      "grad_norm": 0.38558802008628845,
      "learning_rate": 0.0002,
      "loss": 2.1421403884887695,
      "mean_token_accuracy": 0.5718609094619751,
      "num_tokens": 32508.0,
      "step": 2
    },
    {
      "entropy": 1.3997833728790283,
      "epoch": 0.011214953271028037,
      "grad_norm": 0.2918585538864136,
      "learning_rate": 0.0002,
      "loss": 1.7201573848724365,
      "mean_token_accuracy": 0.5951470136642456,
      "num_tokens": 48740.0,
      "step": 3
    },
    {
      "entropy": 1.3798432350158691,
      "epoch": 0.014953271028037384,
      "grad_norm": 0.22533445060253143,
      "learning_rate": 0.0002,
      "loss": 1.409985899925232,
      "mean_token_accuracy": 0.6346195936203003,
      "num_tokens": 65174.0,
      "step": 4
    },
    {
      "entropy": 1.3409797251224518,
      "epoch": 0.018691588785046728,
      "grad_norm": 0.3003067374229431,
      "learning_rate": 0.0002,
      "loss": 1.28883695602417,
      "mean_token_accuracy": 0.6407334357500076,
      "num_tokens": 81213.0,
      "step": 5
    },
    {
      "entropy": 1.2644231617450714,
      "epoch": 0.022429906542056073,
      "grad_norm": 0.1622222661972046,
      "learning_rate": 0.0002,
      "loss": 1.1853853464126587,
      "mean_token_accuracy": 0.6605143547058105,
      "num_tokens": 97766.0,
      "step": 6
    },
    {
      "entropy": 1.208539754152298,
      "epoch": 0.026168224299065422,
      "grad_norm": 0.10511886328458786,
      "learning_rate": 0.0002,
      "loss": 1.1084699630737305,
      "mean_token_accuracy": 0.6641467809677124,
      "num_tokens": 114186.0,
      "step": 7
    },
    {
      "entropy": 1.1391400694847107,
      "epoch": 0.029906542056074768,
      "grad_norm": 0.10200454294681549,
      "learning_rate": 0.0002,
      "loss": 1.0516071319580078,
      "mean_token_accuracy": 0.6707163900136948,
      "num_tokens": 130305.0,
      "step": 8
    },
    {
      "entropy": 1.0563430190086365,
      "epoch": 0.03364485981308411,
      "grad_norm": 0.1273493468761444,
      "learning_rate": 0.0002,
      "loss": 0.992067813873291,
      "mean_token_accuracy": 0.6933889836072922,
      "num_tokens": 146652.0,
      "step": 9
    },
    {
      "entropy": 0.9964777082204819,
      "epoch": 0.037383177570093455,
      "grad_norm": 0.1289750188589096,
      "learning_rate": 0.0002,
      "loss": 0.9485647082328796,
      "mean_token_accuracy": 0.6941430121660233,
      "num_tokens": 162967.0,
      "step": 10
    },
    {
      "entropy": 0.9659603089094162,
      "epoch": 0.041121495327102804,
      "grad_norm": 0.10667150467634201,
      "learning_rate": 0.0002,
      "loss": 0.8798340559005737,
      "mean_token_accuracy": 0.7052389085292816,
      "num_tokens": 179255.0,
      "step": 11
    },
    {
      "entropy": 0.9392479658126831,
      "epoch": 0.044859813084112146,
      "grad_norm": 0.11929332464933395,
      "learning_rate": 0.0002,
      "loss": 0.8541638851165771,
      "mean_token_accuracy": 0.7038426250219345,
      "num_tokens": 195430.0,
      "step": 12
    },
    {
      "entropy": 0.863442063331604,
      "epoch": 0.048598130841121495,
      "grad_norm": 1.4121192693710327,
      "learning_rate": 0.0002,
      "loss": 0.8078625202178955,
      "mean_token_accuracy": 0.7139769345521927,
      "num_tokens": 211424.0,
      "step": 13
    },
    {
      "entropy": 0.8306129276752472,
      "epoch": 0.052336448598130844,
      "grad_norm": 0.10941090434789658,
      "learning_rate": 0.0002,
      "loss": 0.7781446576118469,
      "mean_token_accuracy": 0.7239344716072083,
      "num_tokens": 227810.0,
      "step": 14
    },
    {
      "entropy": 0.7757371664047241,
      "epoch": 0.056074766355140186,
      "grad_norm": 0.10486897826194763,
      "learning_rate": 0.0002,
      "loss": 0.7468726634979248,
      "mean_token_accuracy": 0.7250657230615616,
      "num_tokens": 243991.0,
      "step": 15
    },
    {
      "entropy": 0.7809797525405884,
      "epoch": 0.059813084112149535,
      "grad_norm": 0.8654316663742065,
      "learning_rate": 0.0002,
      "loss": 0.7594712376594543,
      "mean_token_accuracy": 0.7155007421970367,
      "num_tokens": 260281.0,
      "step": 16
    },
    {
      "entropy": 0.7353586554527283,
      "epoch": 0.06355140186915888,
      "grad_norm": 0.0876963660120964,
      "learning_rate": 0.0002,
      "loss": 0.7153522372245789,
      "mean_token_accuracy": 0.7296042591333389,
      "num_tokens": 276669.0,
      "step": 17
    },
    {
      "entropy": 0.6980300098657608,
      "epoch": 0.06728971962616823,
      "grad_norm": 0.07835765182971954,
      "learning_rate": 0.0002,
      "loss": 0.6894713640213013,
      "mean_token_accuracy": 0.7386218756437302,
      "num_tokens": 292849.0,
      "step": 18
    },
    {
      "entropy": 0.6726928502321243,
      "epoch": 0.07102803738317758,
      "grad_norm": 0.08941305428743362,
      "learning_rate": 0.0002,
      "loss": 0.6766728162765503,
      "mean_token_accuracy": 0.7433070838451385,
      "num_tokens": 309145.0,
      "step": 19
    },
    {
      "entropy": 0.6663309931755066,
      "epoch": 0.07476635514018691,
      "grad_norm": 0.08141425251960754,
      "learning_rate": 0.0002,
      "loss": 0.6594260334968567,
      "mean_token_accuracy": 0.7467465251684189,
      "num_tokens": 325653.0,
      "step": 20
    },
    {
      "entropy": 0.6754828691482544,
      "epoch": 0.07850467289719626,
      "grad_norm": 0.08411722630262375,
      "learning_rate": 0.0002,
      "loss": 0.661962628364563,
      "mean_token_accuracy": 0.7418759763240814,
      "num_tokens": 341884.0,
      "step": 21
    },
    {
      "entropy": 0.6487417817115784,
      "epoch": 0.08224299065420561,
      "grad_norm": 0.08564816415309906,
      "learning_rate": 0.0002,
      "loss": 0.6224545240402222,
      "mean_token_accuracy": 0.7568920999765396,
      "num_tokens": 358367.0,
      "step": 22
    },
    {
      "entropy": 0.6594859212636948,
      "epoch": 0.08598130841121496,
      "grad_norm": 0.08242395520210266,
      "learning_rate": 0.0002,
      "loss": 0.6353108882904053,
      "mean_token_accuracy": 0.748349204659462,
      "num_tokens": 374461.0,
      "step": 23
    },
    {
      "entropy": 0.6361121833324432,
      "epoch": 0.08971962616822429,
      "grad_norm": 0.06784524023532867,
      "learning_rate": 0.0002,
      "loss": 0.6177537441253662,
      "mean_token_accuracy": 0.7591407150030136,
      "num_tokens": 390663.0,
      "step": 24
    },
    {
      "entropy": 0.633724257349968,
      "epoch": 0.09345794392523364,
      "grad_norm": 0.06730605661869049,
      "learning_rate": 0.0002,
      "loss": 0.6257245540618896,
      "mean_token_accuracy": 0.7586156576871872,
      "num_tokens": 407000.0,
      "step": 25
    },
    {
      "entropy": 0.6177336722612381,
      "epoch": 0.09719626168224299,
      "grad_norm": 0.07131887227296829,
      "learning_rate": 0.0002,
      "loss": 0.6150547862052917,
      "mean_token_accuracy": 0.7589291036128998,
      "num_tokens": 423358.0,
      "step": 26
    },
    {
      "entropy": 0.6160949915647507,
      "epoch": 0.10093457943925234,
      "grad_norm": 0.06616901606321335,
      "learning_rate": 0.0002,
      "loss": 0.6125935316085815,
      "mean_token_accuracy": 0.7595443874597549,
      "num_tokens": 439799.0,
      "step": 27
    },
    {
      "entropy": 0.6129452586174011,
      "epoch": 0.10467289719626169,
      "grad_norm": 0.05841955915093422,
      "learning_rate": 0.0002,
      "loss": 0.608031153678894,
      "mean_token_accuracy": 0.7601521760225296,
      "num_tokens": 456163.0,
      "step": 28
    },
    {
      "entropy": 0.5918006747961044,
      "epoch": 0.10841121495327102,
      "grad_norm": 0.06275882571935654,
      "learning_rate": 0.0002,
      "loss": 0.5862717628479004,
      "mean_token_accuracy": 0.7687633484601974,
      "num_tokens": 472127.0,
      "step": 29
    },
    {
      "entropy": 0.6155861914157867,
      "epoch": 0.11214953271028037,
      "grad_norm": 0.06225947290658951,
      "learning_rate": 0.0002,
      "loss": 0.6084246635437012,
      "mean_token_accuracy": 0.7598295211791992,
      "num_tokens": 488332.0,
      "step": 30
    },
    {
      "entropy": 0.6035004556179047,
      "epoch": 0.11588785046728972,
      "grad_norm": 0.06444618105888367,
      "learning_rate": 0.0002,
      "loss": 0.5935206413269043,
      "mean_token_accuracy": 0.7651257067918777,
      "num_tokens": 504710.0,
      "step": 31
    },
    {
      "entropy": 0.6106846928596497,
      "epoch": 0.11962616822429907,
      "grad_norm": 0.0602172389626503,
      "learning_rate": 0.0002,
      "loss": 0.5996757745742798,
      "mean_token_accuracy": 0.760893777012825,
      "num_tokens": 521082.0,
      "step": 32
    },
    {
      "entropy": 0.5945021361112595,
      "epoch": 0.1233644859813084,
      "grad_norm": 0.06356704980134964,
      "learning_rate": 0.0002,
      "loss": 0.5945574045181274,
      "mean_token_accuracy": 0.765913113951683,
      "num_tokens": 537475.0,
      "step": 33
    },
    {
      "entropy": 0.5772300958633423,
      "epoch": 0.12710280373831775,
      "grad_norm": 0.06089172512292862,
      "learning_rate": 0.0002,
      "loss": 0.5904273986816406,
      "mean_token_accuracy": 0.76410873234272,
      "num_tokens": 553508.0,
      "step": 34
    },
    {
      "entropy": 0.550044596195221,
      "epoch": 0.1308411214953271,
      "grad_norm": 0.06109277158975601,
      "learning_rate": 0.0002,
      "loss": 0.5613641142845154,
      "mean_token_accuracy": 0.7737480998039246,
      "num_tokens": 569417.0,
      "step": 35
    },
    {
      "entropy": 0.5723532140254974,
      "epoch": 0.13457943925233645,
      "grad_norm": 0.05618736520409584,
      "learning_rate": 0.0002,
      "loss": 0.5777797698974609,
      "mean_token_accuracy": 0.7723707407712936,
      "num_tokens": 585786.0,
      "step": 36
    },
    {
      "entropy": 0.580461397767067,
      "epoch": 0.1383177570093458,
      "grad_norm": 0.05472671613097191,
      "learning_rate": 0.0002,
      "loss": 0.5808417201042175,
      "mean_token_accuracy": 0.7668861597776413,
      "num_tokens": 602132.0,
      "step": 37
    },
    {
      "entropy": 0.5738302320241928,
      "epoch": 0.14205607476635515,
      "grad_norm": 0.06117068976163864,
      "learning_rate": 0.0002,
      "loss": 0.57148277759552,
      "mean_token_accuracy": 0.774108350276947,
      "num_tokens": 618157.0,
      "step": 38
    },
    {
      "entropy": 0.5823365598917007,
      "epoch": 0.14579439252336449,
      "grad_norm": 0.05150913447141647,
      "learning_rate": 0.0002,
      "loss": 0.5758525729179382,
      "mean_token_accuracy": 0.7670020014047623,
      "num_tokens": 634401.0,
      "step": 39
    },
    {
      "entropy": 0.5688591003417969,
      "epoch": 0.14953271028037382,
      "grad_norm": 0.054129600524902344,
      "learning_rate": 0.0002,
      "loss": 0.5642731189727783,
      "mean_token_accuracy": 0.7723482251167297,
      "num_tokens": 650471.0,
      "step": 40
    },
    {
      "entropy": 0.5930688679218292,
      "epoch": 0.15327102803738318,
      "grad_norm": 0.04651381075382233,
      "learning_rate": 0.0002,
      "loss": 0.5882899761199951,
      "mean_token_accuracy": 0.7660222053527832,
      "num_tokens": 667141.0,
      "step": 41
    },
    {
      "entropy": 0.5680070519447327,
      "epoch": 0.15700934579439252,
      "grad_norm": 0.04372819885611534,
      "learning_rate": 0.0002,
      "loss": 0.5683910846710205,
      "mean_token_accuracy": 0.7714007496833801,
      "num_tokens": 683716.0,
      "step": 42
    },
    {
      "entropy": 0.577846348285675,
      "epoch": 0.16074766355140188,
      "grad_norm": 0.050794582813978195,
      "learning_rate": 0.0002,
      "loss": 0.5828132033348083,
      "mean_token_accuracy": 0.7683440744876862,
      "num_tokens": 700166.0,
      "step": 43
    },
    {
      "entropy": 0.5514896064996719,
      "epoch": 0.16448598130841122,
      "grad_norm": 0.05992089584469795,
      "learning_rate": 0.0002,
      "loss": 0.563271701335907,
      "mean_token_accuracy": 0.7739104330539703,
      "num_tokens": 716342.0,
      "step": 44
    },
    {
      "entropy": 0.575609490275383,
      "epoch": 0.16822429906542055,
      "grad_norm": 0.05013341084122658,
      "learning_rate": 0.0002,
      "loss": 0.5849894285202026,
      "mean_token_accuracy": 0.7635113149881363,
      "num_tokens": 732893.0,
      "step": 45
    },
    {
      "entropy": 0.5762993842363358,
      "epoch": 0.17196261682242991,
      "grad_norm": 0.048744700849056244,
      "learning_rate": 0.0002,
      "loss": 0.574410080909729,
      "mean_token_accuracy": 0.7676838040351868,
      "num_tokens": 749295.0,
      "step": 46
    },
    {
      "entropy": 0.5723859369754791,
      "epoch": 0.17570093457943925,
      "grad_norm": 0.05009591579437256,
      "learning_rate": 0.0002,
      "loss": 0.5668792128562927,
      "mean_token_accuracy": 0.7715302407741547,
      "num_tokens": 765549.0,
      "step": 47
    },
    {
      "entropy": 0.5764475762844086,
      "epoch": 0.17943925233644858,
      "grad_norm": 0.04878581687808037,
      "learning_rate": 0.0002,
      "loss": 0.5665475130081177,
      "mean_token_accuracy": 0.7720314264297485,
      "num_tokens": 781843.0,
      "step": 48
    },
    {
      "entropy": 0.5845135897397995,
      "epoch": 0.18317757009345795,
      "grad_norm": 0.04589271917939186,
      "learning_rate": 0.0002,
      "loss": 0.5771698951721191,
      "mean_token_accuracy": 0.7694474011659622,
      "num_tokens": 798405.0,
      "step": 49
    },
    {
      "entropy": 0.569475919008255,
      "epoch": 0.18691588785046728,
      "grad_norm": 0.04119531437754631,
      "learning_rate": 0.0002,
      "loss": 0.5674958229064941,
      "mean_token_accuracy": 0.7736699432134628,
      "num_tokens": 814777.0,
      "step": 50
    },
    {
      "entropy": 0.5692360401153564,
      "epoch": 0.19065420560747665,
      "grad_norm": 0.0399826280772686,
      "learning_rate": 0.0002,
      "loss": 0.5702151656150818,
      "mean_token_accuracy": 0.7684639543294907,
      "num_tokens": 831134.0,
      "step": 51
    },
    {
      "entropy": 0.5498989522457123,
      "epoch": 0.19439252336448598,
      "grad_norm": 0.05800061300396919,
      "learning_rate": 0.0002,
      "loss": 0.5609486699104309,
      "mean_token_accuracy": 0.7740016728639603,
      "num_tokens": 847344.0,
      "step": 52
    },
    {
      "entropy": 0.5662340968847275,
      "epoch": 0.19813084112149532,
      "grad_norm": 0.047494642436504364,
      "learning_rate": 0.0002,
      "loss": 0.5766743421554565,
      "mean_token_accuracy": 0.7678139507770538,
      "num_tokens": 863618.0,
      "step": 53
    },
    {
      "entropy": 0.5752062201499939,
      "epoch": 0.20186915887850468,
      "grad_norm": 0.05196239426732063,
      "learning_rate": 0.0002,
      "loss": 0.5726749300956726,
      "mean_token_accuracy": 0.7699306309223175,
      "num_tokens": 879844.0,
      "step": 54
    },
    {
      "entropy": 0.5600160509347916,
      "epoch": 0.205607476635514,
      "grad_norm": 0.04689890146255493,
      "learning_rate": 0.0002,
      "loss": 0.5549072623252869,
      "mean_token_accuracy": 0.7740037143230438,
      "num_tokens": 896085.0,
      "step": 55
    },
    {
      "entropy": 0.5731441378593445,
      "epoch": 0.20934579439252338,
      "grad_norm": 0.04465720057487488,
      "learning_rate": 0.0002,
      "loss": 0.5675906538963318,
      "mean_token_accuracy": 0.7729700356721878,
      "num_tokens": 912450.0,
      "step": 56
    },
    {
      "entropy": 0.5865043848752975,
      "epoch": 0.2130841121495327,
      "grad_norm": 0.03869406878948212,
      "learning_rate": 0.0002,
      "loss": 0.5814957022666931,
      "mean_token_accuracy": 0.7672637850046158,
      "num_tokens": 928895.0,
      "step": 57
    },
    {
      "entropy": 0.5643806457519531,
      "epoch": 0.21682242990654205,
      "grad_norm": 0.03822167217731476,
      "learning_rate": 0.0002,
      "loss": 0.5589677691459656,
      "mean_token_accuracy": 0.7748006731271744,
      "num_tokens": 945239.0,
      "step": 58
    },
    {
      "entropy": 0.5692119598388672,
      "epoch": 0.2205607476635514,
      "grad_norm": 0.042791273444890976,
      "learning_rate": 0.0002,
      "loss": 0.5735809206962585,
      "mean_token_accuracy": 0.7694528251886368,
      "num_tokens": 961363.0,
      "step": 59
    },
    {
      "entropy": 0.5709938555955887,
      "epoch": 0.22429906542056074,
      "grad_norm": 0.04215843975543976,
      "learning_rate": 0.0002,
      "loss": 0.5765149593353271,
      "mean_token_accuracy": 0.7663712352514267,
      "num_tokens": 977455.0,
      "step": 60
    },
    {
      "entropy": 0.5535417348146439,
      "epoch": 0.22803738317757008,
      "grad_norm": 0.046243466436862946,
      "learning_rate": 0.0002,
      "loss": 0.5625483989715576,
      "mean_token_accuracy": 0.7734335362911224,
      "num_tokens": 993620.0,
      "step": 61
    },
    {
      "entropy": 0.5543283224105835,
      "epoch": 0.23177570093457944,
      "grad_norm": 0.0379357784986496,
      "learning_rate": 0.0002,
      "loss": 0.5572807788848877,
      "mean_token_accuracy": 0.7759047746658325,
      "num_tokens": 1009834.0,
      "step": 62
    },
    {
      "entropy": 0.5534257739782333,
      "epoch": 0.23551401869158878,
      "grad_norm": 0.03617486730217934,
      "learning_rate": 0.0002,
      "loss": 0.5538501739501953,
      "mean_token_accuracy": 0.7762316316366196,
      "num_tokens": 1025981.0,
      "step": 63
    },
    {
      "entropy": 0.5688228756189346,
      "epoch": 0.23925233644859814,
      "grad_norm": 0.03479798510670662,
      "learning_rate": 0.0002,
      "loss": 0.5626167058944702,
      "mean_token_accuracy": 0.7745891660451889,
      "num_tokens": 1042596.0,
      "step": 64
    },
    {
      "entropy": 0.5704841166734695,
      "epoch": 0.24299065420560748,
      "grad_norm": 0.04157167300581932,
      "learning_rate": 0.0002,
      "loss": 0.568891704082489,
      "mean_token_accuracy": 0.7680116444826126,
      "num_tokens": 1058884.0,
      "step": 65
    },
    {
      "entropy": 0.5743043571710587,
      "epoch": 0.2467289719626168,
      "grad_norm": 0.03632580116391182,
      "learning_rate": 0.0002,
      "loss": 0.5711199045181274,
      "mean_token_accuracy": 0.769555926322937,
      "num_tokens": 1075319.0,
      "step": 66
    },
    {
      "entropy": 0.559576690196991,
      "epoch": 0.2504672897196262,
      "grad_norm": 0.038374125957489014,
      "learning_rate": 0.0002,
      "loss": 0.5629530549049377,
      "mean_token_accuracy": 0.771178126335144,
      "num_tokens": 1091451.0,
      "step": 67
    },
    {
      "entropy": 0.5548212379217148,
      "epoch": 0.2542056074766355,
      "grad_norm": 0.03802485764026642,
      "learning_rate": 0.0002,
      "loss": 0.5578069686889648,
      "mean_token_accuracy": 0.7767467051744461,
      "num_tokens": 1107549.0,
      "step": 68
    },
    {
      "entropy": 0.5731668472290039,
      "epoch": 0.25794392523364484,
      "grad_norm": 0.03902502730488777,
      "learning_rate": 0.0002,
      "loss": 0.5750908255577087,
      "mean_token_accuracy": 0.7706117182970047,
      "num_tokens": 1123904.0,
      "step": 69
    },
    {
      "entropy": 0.5669015496969223,
      "epoch": 0.2616822429906542,
      "grad_norm": 0.03905792534351349,
      "learning_rate": 0.0002,
      "loss": 0.5693663358688354,
      "mean_token_accuracy": 0.7708643227815628,
      "num_tokens": 1139931.0,
      "step": 70
    },
    {
      "entropy": 0.5661756098270416,
      "epoch": 0.26542056074766357,
      "grad_norm": 0.04826045408844948,
      "learning_rate": 0.0002,
      "loss": 0.5717936754226685,
      "mean_token_accuracy": 0.7682332992553711,
      "num_tokens": 1156090.0,
      "step": 71
    },
    {
      "entropy": 0.568753570318222,
      "epoch": 0.2691588785046729,
      "grad_norm": 0.03873279318213463,
      "learning_rate": 0.0002,
      "loss": 0.5717485547065735,
      "mean_token_accuracy": 0.7686503529548645,
      "num_tokens": 1172312.0,
      "step": 72
    },
    {
      "entropy": 0.5719727724790573,
      "epoch": 0.27289719626168224,
      "grad_norm": 0.039684589952230453,
      "learning_rate": 0.0002,
      "loss": 0.565541684627533,
      "mean_token_accuracy": 0.769890546798706,
      "num_tokens": 1188846.0,
      "step": 73
    },
    {
      "entropy": 0.5802080780267715,
      "epoch": 0.2766355140186916,
      "grad_norm": 0.03692556545138359,
      "learning_rate": 0.0002,
      "loss": 0.5813108682632446,
      "mean_token_accuracy": 0.7652633637189865,
      "num_tokens": 1205115.0,
      "step": 74
    },
    {
      "entropy": 0.5709390044212341,
      "epoch": 0.2803738317757009,
      "grad_norm": 0.03715148940682411,
      "learning_rate": 0.0002,
      "loss": 0.5739152431488037,
      "mean_token_accuracy": 0.7695163637399673,
      "num_tokens": 1221457.0,
      "step": 75
    },
    {
      "entropy": 0.5634023249149323,
      "epoch": 0.2841121495327103,
      "grad_norm": 0.035052694380283356,
      "learning_rate": 0.0002,
      "loss": 0.5634779334068298,
      "mean_token_accuracy": 0.7735425382852554,
      "num_tokens": 1237852.0,
      "step": 76
    },
    {
      "entropy": 0.5770431756973267,
      "epoch": 0.28785046728971964,
      "grad_norm": 0.04037750884890556,
      "learning_rate": 0.0002,
      "loss": 0.5792219042778015,
      "mean_token_accuracy": 0.7656148821115494,
      "num_tokens": 1253991.0,
      "step": 77
    },
    {
      "entropy": 0.5483120232820511,
      "epoch": 0.29158878504672897,
      "grad_norm": 0.04199967905879021,
      "learning_rate": 0.0002,
      "loss": 0.5473575592041016,
      "mean_token_accuracy": 0.7797968685626984,
      "num_tokens": 1270154.0,
      "step": 78
    },
    {
      "entropy": 0.5623519718647003,
      "epoch": 0.2953271028037383,
      "grad_norm": 0.04001434147357941,
      "learning_rate": 0.0002,
      "loss": 0.5669924020767212,
      "mean_token_accuracy": 0.7740958780050278,
      "num_tokens": 1286373.0,
      "step": 79
    },
    {
      "entropy": 0.5505794137716293,
      "epoch": 0.29906542056074764,
      "grad_norm": 0.039846453815698624,
      "learning_rate": 0.0002,
      "loss": 0.5637381076812744,
      "mean_token_accuracy": 0.7710813283920288,
      "num_tokens": 1302910.0,
      "step": 80
    },
    {
      "entropy": 0.573449894785881,
      "epoch": 0.30280373831775703,
      "grad_norm": 0.03970034047961235,
      "learning_rate": 0.0002,
      "loss": 0.5817972421646118,
      "mean_token_accuracy": 0.767284482717514,
      "num_tokens": 1319105.0,
      "step": 81
    },
    {
      "entropy": 0.5815064907073975,
      "epoch": 0.30654205607476637,
      "grad_norm": 0.036917295306921005,
      "learning_rate": 0.0002,
      "loss": 0.5764390826225281,
      "mean_token_accuracy": 0.7660059034824371,
      "num_tokens": 1335418.0,
      "step": 82
    },
    {
      "entropy": 0.5537111163139343,
      "epoch": 0.3102803738317757,
      "grad_norm": 0.038016658276319504,
      "learning_rate": 0.0002,
      "loss": 0.544030487537384,
      "mean_token_accuracy": 0.780098170042038,
      "num_tokens": 1351471.0,
      "step": 83
    },
    {
      "entropy": 0.5532083511352539,
      "epoch": 0.31401869158878504,
      "grad_norm": 0.03766188770532608,
      "learning_rate": 0.0002,
      "loss": 0.543038010597229,
      "mean_token_accuracy": 0.7815051227807999,
      "num_tokens": 1367729.0,
      "step": 84
    },
    {
      "entropy": 0.569915771484375,
      "epoch": 0.3177570093457944,
      "grad_norm": 0.03935057669878006,
      "learning_rate": 0.0002,
      "loss": 0.5673943758010864,
      "mean_token_accuracy": 0.7705481499433517,
      "num_tokens": 1384218.0,
      "step": 85
    },
    {
      "entropy": 0.5557460188865662,
      "epoch": 0.32149532710280376,
      "grad_norm": 0.0382615365087986,
      "learning_rate": 0.0002,
      "loss": 0.5650104284286499,
      "mean_token_accuracy": 0.7701956182718277,
      "num_tokens": 1400496.0,
      "step": 86
    },
    {
      "entropy": 0.5529367923736572,
      "epoch": 0.3252336448598131,
      "grad_norm": 0.03607897832989693,
      "learning_rate": 0.0002,
      "loss": 0.5612208843231201,
      "mean_token_accuracy": 0.773573562502861,
      "num_tokens": 1416728.0,
      "step": 87
    },
    {
      "entropy": 0.5617222934961319,
      "epoch": 0.32897196261682243,
      "grad_norm": 0.0373239666223526,
      "learning_rate": 0.0002,
      "loss": 0.5661642551422119,
      "mean_token_accuracy": 0.7711510807275772,
      "num_tokens": 1433091.0,
      "step": 88
    },
    {
      "entropy": 0.55742546916008,
      "epoch": 0.33271028037383177,
      "grad_norm": 0.03938078507781029,
      "learning_rate": 0.0002,
      "loss": 0.5600550770759583,
      "mean_token_accuracy": 0.7730235010385513,
      "num_tokens": 1449246.0,
      "step": 89
    },
    {
      "entropy": 0.5685389190912247,
      "epoch": 0.3364485981308411,
      "grad_norm": 0.040714140981435776,
      "learning_rate": 0.0002,
      "loss": 0.5676398873329163,
      "mean_token_accuracy": 0.7700921297073364,
      "num_tokens": 1465805.0,
      "step": 90
    },
    {
      "entropy": 0.5774114727973938,
      "epoch": 0.3401869158878505,
      "grad_norm": 0.03398137167096138,
      "learning_rate": 0.0002,
      "loss": 0.5775306224822998,
      "mean_token_accuracy": 0.7659128755331039,
      "num_tokens": 1482298.0,
      "step": 91
    },
    {
      "entropy": 0.5467455387115479,
      "epoch": 0.34392523364485983,
      "grad_norm": 0.032925065606832504,
      "learning_rate": 0.0002,
      "loss": 0.5481046438217163,
      "mean_token_accuracy": 0.7773325145244598,
      "num_tokens": 1498536.0,
      "step": 92
    },
    {
      "entropy": 0.5445878356695175,
      "epoch": 0.34766355140186916,
      "grad_norm": 0.03473861888051033,
      "learning_rate": 0.0002,
      "loss": 0.5424526929855347,
      "mean_token_accuracy": 0.7816839218139648,
      "num_tokens": 1514823.0,
      "step": 93
    },
    {
      "entropy": 0.5637122839689255,
      "epoch": 0.3514018691588785,
      "grad_norm": 0.03804982081055641,
      "learning_rate": 0.0002,
      "loss": 0.5646781325340271,
      "mean_token_accuracy": 0.7692969292402267,
      "num_tokens": 1531148.0,
      "step": 94
    },
    {
      "entropy": 0.5571535974740982,
      "epoch": 0.35514018691588783,
      "grad_norm": 0.03457267954945564,
      "learning_rate": 0.0002,
      "loss": 0.5619444251060486,
      "mean_token_accuracy": 0.7773198187351227,
      "num_tokens": 1547476.0,
      "step": 95
    },
    {
      "entropy": 0.5707617700099945,
      "epoch": 0.35887850467289717,
      "grad_norm": 0.03933979198336601,
      "learning_rate": 0.0002,
      "loss": 0.572324275970459,
      "mean_token_accuracy": 0.7692963778972626,
      "num_tokens": 1563979.0,
      "step": 96
    },
    {
      "entropy": 0.556370198726654,
      "epoch": 0.36261682242990656,
      "grad_norm": 0.03271894529461861,
      "learning_rate": 0.0002,
      "loss": 0.5558284521102905,
      "mean_token_accuracy": 0.7744213789701462,
      "num_tokens": 1580311.0,
      "step": 97
    },
    {
      "entropy": 0.5528354942798615,
      "epoch": 0.3663551401869159,
      "grad_norm": 0.03302107751369476,
      "learning_rate": 0.0002,
      "loss": 0.5553282499313354,
      "mean_token_accuracy": 0.77690689265728,
      "num_tokens": 1596402.0,
      "step": 98
    },
    {
      "entropy": 0.5531659126281738,
      "epoch": 0.37009345794392523,
      "grad_norm": 0.03468908742070198,
      "learning_rate": 0.0002,
      "loss": 0.5576953887939453,
      "mean_token_accuracy": 0.7762762904167175,
      "num_tokens": 1612430.0,
      "step": 99
    },
    {
      "entropy": 0.5810890346765518,
      "epoch": 0.37383177570093457,
      "grad_norm": 0.03342665359377861,
      "learning_rate": 0.0002,
      "loss": 0.5769139528274536,
      "mean_token_accuracy": 0.7672095000743866,
      "num_tokens": 1628891.0,
      "step": 100
    },
    {
      "entropy": 0.5750298053026199,
      "epoch": 0.3775700934579439,
      "grad_norm": 0.03441772237420082,
      "learning_rate": 0.0002,
      "loss": 0.5772010087966919,
      "mean_token_accuracy": 0.7646144926548004,
      "num_tokens": 1645047.0,
      "step": 101
    },
    {
      "entropy": 0.5650183409452438,
      "epoch": 0.3813084112149533,
      "grad_norm": 0.03096170350909233,
      "learning_rate": 0.0002,
      "loss": 0.5606149435043335,
      "mean_token_accuracy": 0.7738576829433441,
      "num_tokens": 1661380.0,
      "step": 102
    },
    {
      "entropy": 0.5494536608457565,
      "epoch": 0.3850467289719626,
      "grad_norm": 0.03677360713481903,
      "learning_rate": 0.0002,
      "loss": 0.5568496584892273,
      "mean_token_accuracy": 0.775225818157196,
      "num_tokens": 1677541.0,
      "step": 103
    },
    {
      "entropy": 0.5550926774740219,
      "epoch": 0.38878504672897196,
      "grad_norm": 0.03032948076725006,
      "learning_rate": 0.0002,
      "loss": 0.558656632900238,
      "mean_token_accuracy": 0.7753722071647644,
      "num_tokens": 1693849.0,
      "step": 104
    },
    {
      "entropy": 0.5538856834173203,
      "epoch": 0.3925233644859813,
      "grad_norm": 0.033197011798620224,
      "learning_rate": 0.0002,
      "loss": 0.5585562586784363,
      "mean_token_accuracy": 0.7750265747308731,
      "num_tokens": 1710410.0,
      "step": 105
    },
    {
      "entropy": 0.557091012597084,
      "epoch": 0.39626168224299063,
      "grad_norm": 0.03343191742897034,
      "learning_rate": 0.0002,
      "loss": 0.5658184885978699,
      "mean_token_accuracy": 0.7713737785816193,
      "num_tokens": 1726519.0,
      "step": 106
    },
    {
      "entropy": 0.573070839047432,
      "epoch": 0.4,
      "grad_norm": 0.03520960360765457,
      "learning_rate": 0.0002,
      "loss": 0.5683936476707458,
      "mean_token_accuracy": 0.7706228792667389,
      "num_tokens": 1742802.0,
      "step": 107
    },
    {
      "entropy": 0.5730053037405014,
      "epoch": 0.40373831775700936,
      "grad_norm": 0.032127268612384796,
      "learning_rate": 0.0002,
      "loss": 0.5697438716888428,
      "mean_token_accuracy": 0.7664725631475449,
      "num_tokens": 1759059.0,
      "step": 108
    },
    {
      "entropy": 0.5633453279733658,
      "epoch": 0.4074766355140187,
      "grad_norm": 0.03088793158531189,
      "learning_rate": 0.0002,
      "loss": 0.5599843263626099,
      "mean_token_accuracy": 0.7760611772537231,
      "num_tokens": 1775536.0,
      "step": 109
    },
    {
      "entropy": 0.550876572728157,
      "epoch": 0.411214953271028,
      "grad_norm": 0.032173894345760345,
      "learning_rate": 0.0002,
      "loss": 0.552717387676239,
      "mean_token_accuracy": 0.7752785235643387,
      "num_tokens": 1792019.0,
      "step": 110
    },
    {
      "entropy": 0.5721830427646637,
      "epoch": 0.41495327102803736,
      "grad_norm": 0.033584315329790115,
      "learning_rate": 0.0002,
      "loss": 0.5759853720664978,
      "mean_token_accuracy": 0.7664880454540253,
      "num_tokens": 1808419.0,
      "step": 111
    },
    {
      "entropy": 0.5759546905755997,
      "epoch": 0.41869158878504675,
      "grad_norm": 0.03846940025687218,
      "learning_rate": 0.0002,
      "loss": 0.5841522216796875,
      "mean_token_accuracy": 0.7626957893371582,
      "num_tokens": 1824543.0,
      "step": 112
    },
    {
      "entropy": 0.5635320693254471,
      "epoch": 0.4224299065420561,
      "grad_norm": 0.03328083083033562,
      "learning_rate": 0.0002,
      "loss": 0.5629671812057495,
      "mean_token_accuracy": 0.7737283408641815,
      "num_tokens": 1840757.0,
      "step": 113
    },
    {
      "entropy": 0.5591580420732498,
      "epoch": 0.4261682242990654,
      "grad_norm": 0.0327068492770195,
      "learning_rate": 0.0002,
      "loss": 0.551184356212616,
      "mean_token_accuracy": 0.7753513604402542,
      "num_tokens": 1857132.0,
      "step": 114
    },
    {
      "entropy": 0.5579714924097061,
      "epoch": 0.42990654205607476,
      "grad_norm": 0.0334380678832531,
      "learning_rate": 0.0002,
      "loss": 0.5555400252342224,
      "mean_token_accuracy": 0.7759147882461548,
      "num_tokens": 1873360.0,
      "step": 115
    },
    {
      "entropy": 0.5697025954723358,
      "epoch": 0.4336448598130841,
      "grad_norm": 0.03651506081223488,
      "learning_rate": 0.0002,
      "loss": 0.568575382232666,
      "mean_token_accuracy": 0.7692690938711166,
      "num_tokens": 1889933.0,
      "step": 116
    },
    {
      "entropy": 0.5710670948028564,
      "epoch": 0.4373831775700935,
      "grad_norm": 0.03260137885808945,
      "learning_rate": 0.0002,
      "loss": 0.5754102468490601,
      "mean_token_accuracy": 0.7645916491746902,
      "num_tokens": 1906415.0,
      "step": 117
    },
    {
      "entropy": 0.5612241625785828,
      "epoch": 0.4411214953271028,
      "grad_norm": 0.030186068266630173,
      "learning_rate": 0.0002,
      "loss": 0.5625964403152466,
      "mean_token_accuracy": 0.7733658254146576,
      "num_tokens": 1922692.0,
      "step": 118
    },
    {
      "entropy": 0.5558670610189438,
      "epoch": 0.44485981308411215,
      "grad_norm": 0.0367811918258667,
      "learning_rate": 0.0002,
      "loss": 0.5577695965766907,
      "mean_token_accuracy": 0.772549107670784,
      "num_tokens": 1939001.0,
      "step": 119
    },
    {
      "entropy": 0.5691811889410019,
      "epoch": 0.4485981308411215,
      "grad_norm": 0.03843454644083977,
      "learning_rate": 0.0002,
      "loss": 0.5703588128089905,
      "mean_token_accuracy": 0.7689766734838486,
      "num_tokens": 1955537.0,
      "step": 120
    },
    {
      "entropy": 0.5652327984571457,
      "epoch": 0.4523364485981308,
      "grad_norm": 0.032110750675201416,
      "learning_rate": 0.0002,
      "loss": 0.5627662539482117,
      "mean_token_accuracy": 0.7731665819883347,
      "num_tokens": 1971820.0,
      "step": 121
    },
    {
      "entropy": 0.5414326637983322,
      "epoch": 0.45607476635514016,
      "grad_norm": 0.031934358179569244,
      "learning_rate": 0.0002,
      "loss": 0.5432534217834473,
      "mean_token_accuracy": 0.7791064232587814,
      "num_tokens": 1988118.0,
      "step": 122
    },
    {
      "entropy": 0.5502553433179855,
      "epoch": 0.45981308411214955,
      "grad_norm": 0.035253144800662994,
      "learning_rate": 0.0002,
      "loss": 0.5521403551101685,
      "mean_token_accuracy": 0.7760459184646606,
      "num_tokens": 2004642.0,
      "step": 123
    },
    {
      "entropy": 0.5582242012023926,
      "epoch": 0.4635514018691589,
      "grad_norm": 0.035558655858039856,
      "learning_rate": 0.0002,
      "loss": 0.5682451725006104,
      "mean_token_accuracy": 0.7699540108442307,
      "num_tokens": 2020965.0,
      "step": 124
    },
    {
      "entropy": 0.5626089125871658,
      "epoch": 0.4672897196261682,
      "grad_norm": 0.028148163110017776,
      "learning_rate": 0.0002,
      "loss": 0.5638797283172607,
      "mean_token_accuracy": 0.7697459608316422,
      "num_tokens": 2037202.0,
      "step": 125
    },
    {
      "entropy": 0.5653271377086639,
      "epoch": 0.47102803738317756,
      "grad_norm": 0.03597045689821243,
      "learning_rate": 0.0002,
      "loss": 0.5635451078414917,
      "mean_token_accuracy": 0.7696232795715332,
      "num_tokens": 2053309.0,
      "step": 126
    },
    {
      "entropy": 0.560562789440155,
      "epoch": 0.4747663551401869,
      "grad_norm": 0.03047817200422287,
      "learning_rate": 0.0002,
      "loss": 0.5625080466270447,
      "mean_token_accuracy": 0.7718035280704498,
      "num_tokens": 2069535.0,
      "step": 127
    },
    {
      "entropy": 0.5554249584674835,
      "epoch": 0.4785046728971963,
      "grad_norm": 0.028741145506501198,
      "learning_rate": 0.0002,
      "loss": 0.5504335165023804,
      "mean_token_accuracy": 0.7771810442209244,
      "num_tokens": 2085763.0,
      "step": 128
    },
    {
      "entropy": 0.5567069947719574,
      "epoch": 0.4822429906542056,
      "grad_norm": 0.031639862805604935,
      "learning_rate": 0.0002,
      "loss": 0.5562032461166382,
      "mean_token_accuracy": 0.7760691046714783,
      "num_tokens": 2102046.0,
      "step": 129
    },
    {
      "entropy": 0.5418022572994232,
      "epoch": 0.48598130841121495,
      "grad_norm": 0.03434485197067261,
      "learning_rate": 0.0002,
      "loss": 0.5446175932884216,
      "mean_token_accuracy": 0.7789350152015686,
      "num_tokens": 2118239.0,
      "step": 130
    },
    {
      "entropy": 0.5367967188358307,
      "epoch": 0.4897196261682243,
      "grad_norm": 0.03757743164896965,
      "learning_rate": 0.0002,
      "loss": 0.5414644479751587,
      "mean_token_accuracy": 0.7816939055919647,
      "num_tokens": 2134627.0,
      "step": 131
    },
    {
      "entropy": 0.5399434715509415,
      "epoch": 0.4934579439252336,
      "grad_norm": 0.03444533050060272,
      "learning_rate": 0.0002,
      "loss": 0.5489372611045837,
      "mean_token_accuracy": 0.7746081054210663,
      "num_tokens": 2150944.0,
      "step": 132
    },
    {
      "entropy": 0.5634311139583588,
      "epoch": 0.497196261682243,
      "grad_norm": 0.028091201558709145,
      "learning_rate": 0.0002,
      "loss": 0.5653581619262695,
      "mean_token_accuracy": 0.7713855057954788,
      "num_tokens": 2167218.0,
      "step": 133
    },
    {
      "entropy": 0.5568374693393707,
      "epoch": 0.5009345794392523,
      "grad_norm": 0.029833409935235977,
      "learning_rate": 0.0002,
      "loss": 0.5585245490074158,
      "mean_token_accuracy": 0.7745143622159958,
      "num_tokens": 2183449.0,
      "step": 134
    },
    {
      "entropy": 0.5839870423078537,
      "epoch": 0.5046728971962616,
      "grad_norm": 0.03770853579044342,
      "learning_rate": 0.0002,
      "loss": 0.5719978213310242,
      "mean_token_accuracy": 0.7675238102674484,
      "num_tokens": 2199875.0,
      "step": 135
    },
    {
      "entropy": 0.5689375847578049,
      "epoch": 0.508411214953271,
      "grad_norm": 0.03635553643107414,
      "learning_rate": 0.0002,
      "loss": 0.5626992583274841,
      "mean_token_accuracy": 0.7723798751831055,
      "num_tokens": 2216163.0,
      "step": 136
    },
    {
      "entropy": 0.5507294833660126,
      "epoch": 0.5121495327102804,
      "grad_norm": 0.03596559911966324,
      "learning_rate": 0.0002,
      "loss": 0.5608267188072205,
      "mean_token_accuracy": 0.7710549086332321,
      "num_tokens": 2232636.0,
      "step": 137
    },
    {
      "entropy": 0.5623424351215363,
      "epoch": 0.5158878504672897,
      "grad_norm": 0.033818867057561874,
      "learning_rate": 0.0002,
      "loss": 0.5718593597412109,
      "mean_token_accuracy": 0.7696182578802109,
      "num_tokens": 2248825.0,
      "step": 138
    },
    {
      "entropy": 0.5675409585237503,
      "epoch": 0.5196261682242991,
      "grad_norm": 0.03331133350729942,
      "learning_rate": 0.0002,
      "loss": 0.5714356899261475,
      "mean_token_accuracy": 0.7693182229995728,
      "num_tokens": 2265359.0,
      "step": 139
    },
    {
      "entropy": 0.5522013902664185,
      "epoch": 0.5233644859813084,
      "grad_norm": 0.03208749741315842,
      "learning_rate": 0.0002,
      "loss": 0.5529259443283081,
      "mean_token_accuracy": 0.7765516042709351,
      "num_tokens": 2281629.0,
      "step": 140
    },
    {
      "entropy": 0.5493837893009186,
      "epoch": 0.5271028037383177,
      "grad_norm": 0.0305814016610384,
      "learning_rate": 0.0002,
      "loss": 0.5490883588790894,
      "mean_token_accuracy": 0.7763204425573349,
      "num_tokens": 2297908.0,
      "step": 141
    },
    {
      "entropy": 0.5564678907394409,
      "epoch": 0.5308411214953271,
      "grad_norm": 0.034225739538669586,
      "learning_rate": 0.0002,
      "loss": 0.5602461099624634,
      "mean_token_accuracy": 0.7709554880857468,
      "num_tokens": 2314115.0,
      "step": 142
    },
    {
      "entropy": 0.5697164833545685,
      "epoch": 0.5345794392523364,
      "grad_norm": 0.03395864740014076,
      "learning_rate": 0.0002,
      "loss": 0.5692602396011353,
      "mean_token_accuracy": 0.766906350851059,
      "num_tokens": 2330462.0,
      "step": 143
    },
    {
      "entropy": 0.5691278576850891,
      "epoch": 0.5383177570093458,
      "grad_norm": 0.03194013983011246,
      "learning_rate": 0.0002,
      "loss": 0.562545657157898,
      "mean_token_accuracy": 0.7723768651485443,
      "num_tokens": 2346630.0,
      "step": 144
    },
    {
      "entropy": 0.558807983994484,
      "epoch": 0.5420560747663551,
      "grad_norm": 0.036789294332265854,
      "learning_rate": 0.0002,
      "loss": 0.5632457733154297,
      "mean_token_accuracy": 0.772635355591774,
      "num_tokens": 2362732.0,
      "step": 145
    },
    {
      "entropy": 0.5582777112722397,
      "epoch": 0.5457943925233645,
      "grad_norm": 0.02997492626309395,
      "learning_rate": 0.0002,
      "loss": 0.5614091753959656,
      "mean_token_accuracy": 0.7702963054180145,
      "num_tokens": 2379199.0,
      "step": 146
    },
    {
      "entropy": 0.5584180504083633,
      "epoch": 0.5495327102803739,
      "grad_norm": 0.033580392599105835,
      "learning_rate": 0.0002,
      "loss": 0.5605478286743164,
      "mean_token_accuracy": 0.7730905264616013,
      "num_tokens": 2395497.0,
      "step": 147
    },
    {
      "entropy": 0.5477179437875748,
      "epoch": 0.5532710280373832,
      "grad_norm": 0.03941367194056511,
      "learning_rate": 0.0002,
      "loss": 0.5504173636436462,
      "mean_token_accuracy": 0.77938412129879,
      "num_tokens": 2411648.0,
      "step": 148
    },
    {
      "entropy": 0.5601572096347809,
      "epoch": 0.5570093457943925,
      "grad_norm": 0.030582338571548462,
      "learning_rate": 0.0002,
      "loss": 0.5634943246841431,
      "mean_token_accuracy": 0.7728341221809387,
      "num_tokens": 2427925.0,
      "step": 149
    },
    {
      "entropy": 0.5869706571102142,
      "epoch": 0.5607476635514018,
      "grad_norm": 0.036973923444747925,
      "learning_rate": 0.0002,
      "loss": 0.5785589218139648,
      "mean_token_accuracy": 0.765045240521431,
      "num_tokens": 2444416.0,
      "step": 150
    },
    {
      "entropy": 0.5624907165765762,
      "epoch": 0.5644859813084112,
      "grad_norm": 0.036355964839458466,
      "learning_rate": 0.0002,
      "loss": 0.5561196208000183,
      "mean_token_accuracy": 0.7752401679754257,
      "num_tokens": 2460808.0,
      "step": 151
    },
    {
      "entropy": 0.5570034384727478,
      "epoch": 0.5682242990654206,
      "grad_norm": 0.027923110872507095,
      "learning_rate": 0.0002,
      "loss": 0.5550441145896912,
      "mean_token_accuracy": 0.7757884711027145,
      "num_tokens": 2477437.0,
      "step": 152
    },
    {
      "entropy": 0.5643865615129471,
      "epoch": 0.5719626168224299,
      "grad_norm": 0.0321192592382431,
      "learning_rate": 0.0002,
      "loss": 0.5707546472549438,
      "mean_token_accuracy": 0.7692134529352188,
      "num_tokens": 2493966.0,
      "step": 153
    },
    {
      "entropy": 0.5535547733306885,
      "epoch": 0.5757009345794393,
      "grad_norm": 0.03465733677148819,
      "learning_rate": 0.0002,
      "loss": 0.5610126256942749,
      "mean_token_accuracy": 0.7733882069587708,
      "num_tokens": 2510442.0,
      "step": 154
    },
    {
      "entropy": 0.5411207228899002,
      "epoch": 0.5794392523364486,
      "grad_norm": 0.03268473595380783,
      "learning_rate": 0.0002,
      "loss": 0.5444988012313843,
      "mean_token_accuracy": 0.7791947424411774,
      "num_tokens": 2526738.0,
      "step": 155
    },
    {
      "entropy": 0.5539679378271103,
      "epoch": 0.5831775700934579,
      "grad_norm": 0.03345946595072746,
      "learning_rate": 0.0002,
      "loss": 0.5571167469024658,
      "mean_token_accuracy": 0.7733618319034576,
      "num_tokens": 2543004.0,
      "step": 156
    },
    {
      "entropy": 0.547135517001152,
      "epoch": 0.5869158878504673,
      "grad_norm": 0.03414901718497276,
      "learning_rate": 0.0002,
      "loss": 0.5551236867904663,
      "mean_token_accuracy": 0.7734578996896744,
      "num_tokens": 2559150.0,
      "step": 157
    },
    {
      "entropy": 0.5595978051424026,
      "epoch": 0.5906542056074766,
      "grad_norm": 0.03502917289733887,
      "learning_rate": 0.0002,
      "loss": 0.5722506046295166,
      "mean_token_accuracy": 0.7680937796831131,
      "num_tokens": 2575360.0,
      "step": 158
    },
    {
      "entropy": 0.56221604347229,
      "epoch": 0.594392523364486,
      "grad_norm": 0.036693476140499115,
      "learning_rate": 0.0002,
      "loss": 0.5663124918937683,
      "mean_token_accuracy": 0.7699347287416458,
      "num_tokens": 2591749.0,
      "step": 159
    },
    {
      "entropy": 0.5489411354064941,
      "epoch": 0.5981308411214953,
      "grad_norm": 0.029823357239365578,
      "learning_rate": 0.0002,
      "loss": 0.5525665879249573,
      "mean_token_accuracy": 0.7778102308511734,
      "num_tokens": 2608011.0,
      "step": 160
    },
    {
      "entropy": 0.5679098963737488,
      "epoch": 0.6018691588785047,
      "grad_norm": 0.03129269927740097,
      "learning_rate": 0.0002,
      "loss": 0.5632325410842896,
      "mean_token_accuracy": 0.7711086720228195,
      "num_tokens": 2624110.0,
      "step": 161
    },
    {
      "entropy": 0.5759385228157043,
      "epoch": 0.6056074766355141,
      "grad_norm": 0.03027232177555561,
      "learning_rate": 0.0002,
      "loss": 0.566430926322937,
      "mean_token_accuracy": 0.7684105038642883,
      "num_tokens": 2640619.0,
      "step": 162
    },
    {
      "entropy": 0.5755711048841476,
      "epoch": 0.6093457943925233,
      "grad_norm": 0.02997921220958233,
      "learning_rate": 0.0002,
      "loss": 0.5693614482879639,
      "mean_token_accuracy": 0.7678638249635696,
      "num_tokens": 2656816.0,
      "step": 163
    },
    {
      "entropy": 0.5675656646490097,
      "epoch": 0.6130841121495327,
      "grad_norm": 0.02925792895257473,
      "learning_rate": 0.0002,
      "loss": 0.5620183348655701,
      "mean_token_accuracy": 0.7710973769426346,
      "num_tokens": 2673238.0,
      "step": 164
    },
    {
      "entropy": 0.5436252653598785,
      "epoch": 0.616822429906542,
      "grad_norm": 0.030324436724185944,
      "learning_rate": 0.0002,
      "loss": 0.5462444424629211,
      "mean_token_accuracy": 0.779330775141716,
      "num_tokens": 2689740.0,
      "step": 165
    },
    {
      "entropy": 0.5572406202554703,
      "epoch": 0.6205607476635514,
      "grad_norm": 0.03400828689336777,
      "learning_rate": 0.0002,
      "loss": 0.5641958713531494,
      "mean_token_accuracy": 0.7692032605409622,
      "num_tokens": 2706162.0,
      "step": 166
    },
    {
      "entropy": 0.554596871137619,
      "epoch": 0.6242990654205608,
      "grad_norm": 0.03054538182914257,
      "learning_rate": 0.0002,
      "loss": 0.556669294834137,
      "mean_token_accuracy": 0.7765887379646301,
      "num_tokens": 2722464.0,
      "step": 167
    },
    {
      "entropy": 0.5644665658473969,
      "epoch": 0.6280373831775701,
      "grad_norm": 0.03194966912269592,
      "learning_rate": 0.0002,
      "loss": 0.5671694278717041,
      "mean_token_accuracy": 0.7694765031337738,
      "num_tokens": 2738958.0,
      "step": 168
    },
    {
      "entropy": 0.5491771847009659,
      "epoch": 0.6317757009345795,
      "grad_norm": 0.03178941458463669,
      "learning_rate": 0.0002,
      "loss": 0.5497304797172546,
      "mean_token_accuracy": 0.7750105261802673,
      "num_tokens": 2755355.0,
      "step": 169
    },
    {
      "entropy": 0.5742185562849045,
      "epoch": 0.6355140186915887,
      "grad_norm": 0.027454091235995293,
      "learning_rate": 0.0002,
      "loss": 0.5754401683807373,
      "mean_token_accuracy": 0.7658552527427673,
      "num_tokens": 2771556.0,
      "step": 170
    },
    {
      "entropy": 0.5589788407087326,
      "epoch": 0.6392523364485981,
      "grad_norm": 0.029149651527404785,
      "learning_rate": 0.0002,
      "loss": 0.554992139339447,
      "mean_token_accuracy": 0.7758396863937378,
      "num_tokens": 2787760.0,
      "step": 171
    },
    {
      "entropy": 0.5677189081907272,
      "epoch": 0.6429906542056075,
      "grad_norm": 0.03037264011800289,
      "learning_rate": 0.0002,
      "loss": 0.5637961626052856,
      "mean_token_accuracy": 0.7705356478691101,
      "num_tokens": 2803802.0,
      "step": 172
    },
    {
      "entropy": 0.5565283447504044,
      "epoch": 0.6467289719626168,
      "grad_norm": 0.03331301361322403,
      "learning_rate": 0.0002,
      "loss": 0.5568943023681641,
      "mean_token_accuracy": 0.77414271235466,
      "num_tokens": 2820371.0,
      "step": 173
    },
    {
      "entropy": 0.5312813073396683,
      "epoch": 0.6504672897196262,
      "grad_norm": 0.03152315691113472,
      "learning_rate": 0.0002,
      "loss": 0.5355879664421082,
      "mean_token_accuracy": 0.785700336098671,
      "num_tokens": 2836694.0,
      "step": 174
    },
    {
      "entropy": 0.5379063338041306,
      "epoch": 0.6542056074766355,
      "grad_norm": 0.037841469049453735,
      "learning_rate": 0.0002,
      "loss": 0.5525423288345337,
      "mean_token_accuracy": 0.7756439745426178,
      "num_tokens": 2852864.0,
      "step": 175
    },
    {
      "entropy": 0.5613906681537628,
      "epoch": 0.6579439252336449,
      "grad_norm": 0.035853054374456406,
      "learning_rate": 0.0002,
      "loss": 0.5655968189239502,
      "mean_token_accuracy": 0.7716417163610458,
      "num_tokens": 2869313.0,
      "step": 176
    },
    {
      "entropy": 0.5639201551675797,
      "epoch": 0.6616822429906543,
      "grad_norm": 0.026397736743092537,
      "learning_rate": 0.0002,
      "loss": 0.5627295970916748,
      "mean_token_accuracy": 0.7704634070396423,
      "num_tokens": 2885495.0,
      "step": 177
    },
    {
      "entropy": 0.5702281445264816,
      "epoch": 0.6654205607476635,
      "grad_norm": 0.03206147998571396,
      "learning_rate": 0.0002,
      "loss": 0.5647550821304321,
      "mean_token_accuracy": 0.7702795714139938,
      "num_tokens": 2901765.0,
      "step": 178
    },
    {
      "entropy": 0.5528819262981415,
      "epoch": 0.6691588785046729,
      "grad_norm": 0.03629858419299126,
      "learning_rate": 0.0002,
      "loss": 0.5473611950874329,
      "mean_token_accuracy": 0.7778798639774323,
      "num_tokens": 2918124.0,
      "step": 179
    },
    {
      "entropy": 0.5617557764053345,
      "epoch": 0.6728971962616822,
      "grad_norm": 0.03116736188530922,
      "learning_rate": 0.0002,
      "loss": 0.5709046721458435,
      "mean_token_accuracy": 0.7677187621593475,
      "num_tokens": 2934418.0,
      "step": 180
    },
    {
      "entropy": 0.544835090637207,
      "epoch": 0.6766355140186916,
      "grad_norm": 0.03548549860715866,
      "learning_rate": 0.0002,
      "loss": 0.5551706552505493,
      "mean_token_accuracy": 0.7762557417154312,
      "num_tokens": 2951100.0,
      "step": 181
    },
    {
      "entropy": 0.5660403668880463,
      "epoch": 0.680373831775701,
      "grad_norm": 0.03100365214049816,
      "learning_rate": 0.0002,
      "loss": 0.5729965567588806,
      "mean_token_accuracy": 0.7690318375825882,
      "num_tokens": 2967440.0,
      "step": 182
    },
    {
      "entropy": 0.5780525356531143,
      "epoch": 0.6841121495327103,
      "grad_norm": 0.03490225970745087,
      "learning_rate": 0.0002,
      "loss": 0.5734487771987915,
      "mean_token_accuracy": 0.7699766159057617,
      "num_tokens": 2983954.0,
      "step": 183
    },
    {
      "entropy": 0.5722559094429016,
      "epoch": 0.6878504672897197,
      "grad_norm": 0.031209329143166542,
      "learning_rate": 0.0002,
      "loss": 0.5663836002349854,
      "mean_token_accuracy": 0.7720828950405121,
      "num_tokens": 3000256.0,
      "step": 184
    },
    {
      "entropy": 0.5506948530673981,
      "epoch": 0.6915887850467289,
      "grad_norm": 0.029818221926689148,
      "learning_rate": 0.0002,
      "loss": 0.5445064306259155,
      "mean_token_accuracy": 0.7804610878229141,
      "num_tokens": 3016740.0,
      "step": 185
    },
    {
      "entropy": 0.5661566108465195,
      "epoch": 0.6953271028037383,
      "grad_norm": 0.03627892956137657,
      "learning_rate": 0.0002,
      "loss": 0.5731881260871887,
      "mean_token_accuracy": 0.7681418061256409,
      "num_tokens": 3033200.0,
      "step": 186
    },
    {
      "entropy": 0.5561655461788177,
      "epoch": 0.6990654205607477,
      "grad_norm": 0.028912672773003578,
      "learning_rate": 0.0002,
      "loss": 0.559117317199707,
      "mean_token_accuracy": 0.7737248986959457,
      "num_tokens": 3049728.0,
      "step": 187
    },
    {
      "entropy": 0.5450099408626556,
      "epoch": 0.702803738317757,
      "grad_norm": 0.03303583338856697,
      "learning_rate": 0.0002,
      "loss": 0.5467768907546997,
      "mean_token_accuracy": 0.7775131165981293,
      "num_tokens": 3066007.0,
      "step": 188
    },
    {
      "entropy": 0.5617918968200684,
      "epoch": 0.7065420560747664,
      "grad_norm": 0.035768017172813416,
      "learning_rate": 0.0002,
      "loss": 0.563019871711731,
      "mean_token_accuracy": 0.770862489938736,
      "num_tokens": 3082324.0,
      "step": 189
    },
    {
      "entropy": 0.5339331775903702,
      "epoch": 0.7102803738317757,
      "grad_norm": 0.031208420172333717,
      "learning_rate": 0.0002,
      "loss": 0.547924280166626,
      "mean_token_accuracy": 0.7771021723747253,
      "num_tokens": 3098546.0,
      "step": 190
    },
    {
      "entropy": 0.5686406493186951,
      "epoch": 0.7140186915887851,
      "grad_norm": 0.028388923034071922,
      "learning_rate": 0.0002,
      "loss": 0.5657324194908142,
      "mean_token_accuracy": 0.772287517786026,
      "num_tokens": 3114868.0,
      "step": 191
    },
    {
      "entropy": 0.5583553314208984,
      "epoch": 0.7177570093457943,
      "grad_norm": 0.027447570115327835,
      "learning_rate": 0.0002,
      "loss": 0.5535703897476196,
      "mean_token_accuracy": 0.7759178727865219,
      "num_tokens": 3131210.0,
      "step": 192
    },
    {
      "entropy": 0.5578874051570892,
      "epoch": 0.7214953271028037,
      "grad_norm": 0.033130839467048645,
      "learning_rate": 0.0002,
      "loss": 0.5513507723808289,
      "mean_token_accuracy": 0.7747978419065475,
      "num_tokens": 3147445.0,
      "step": 193
    },
    {
      "entropy": 0.5491522252559662,
      "epoch": 0.7252336448598131,
      "grad_norm": 0.030513031408190727,
      "learning_rate": 0.0002,
      "loss": 0.5503372550010681,
      "mean_token_accuracy": 0.7780584990978241,
      "num_tokens": 3163723.0,
      "step": 194
    },
    {
      "entropy": 0.5677588433027267,
      "epoch": 0.7289719626168224,
      "grad_norm": 0.030064091086387634,
      "learning_rate": 0.0002,
      "loss": 0.5684211850166321,
      "mean_token_accuracy": 0.7694611251354218,
      "num_tokens": 3180127.0,
      "step": 195
    },
    {
      "entropy": 0.5523021966218948,
      "epoch": 0.7327102803738318,
      "grad_norm": 0.028454501181840897,
      "learning_rate": 0.0002,
      "loss": 0.5564773082733154,
      "mean_token_accuracy": 0.7736252546310425,
      "num_tokens": 3196384.0,
      "step": 196
    },
    {
      "entropy": 0.5594403147697449,
      "epoch": 0.7364485981308411,
      "grad_norm": 0.031159594655036926,
      "learning_rate": 0.0002,
      "loss": 0.5678831934928894,
      "mean_token_accuracy": 0.7687141001224518,
      "num_tokens": 3212579.0,
      "step": 197
    },
    {
      "entropy": 0.5670231431722641,
      "epoch": 0.7401869158878505,
      "grad_norm": 0.026576390489935875,
      "learning_rate": 0.0002,
      "loss": 0.5695415735244751,
      "mean_token_accuracy": 0.7709443867206573,
      "num_tokens": 3229005.0,
      "step": 198
    },
    {
      "entropy": 0.5550480484962463,
      "epoch": 0.7439252336448599,
      "grad_norm": 0.030606523156166077,
      "learning_rate": 0.0002,
      "loss": 0.5502464771270752,
      "mean_token_accuracy": 0.7791616022586823,
      "num_tokens": 3245287.0,
      "step": 199
    },
    {
      "entropy": 0.5619281828403473,
      "epoch": 0.7476635514018691,
      "grad_norm": 0.030474133789539337,
      "learning_rate": 0.0002,
      "loss": 0.5586714148521423,
      "mean_token_accuracy": 0.7734764218330383,
      "num_tokens": 3261691.0,
      "step": 200
    },
    {
      "entropy": 0.5405223369598389,
      "epoch": 0.7514018691588785,
      "grad_norm": 0.032003577798604965,
      "learning_rate": 0.0002,
      "loss": 0.5496760010719299,
      "mean_token_accuracy": 0.7761346995830536,
      "num_tokens": 3277743.0,
      "step": 201
    },
    {
      "entropy": 0.5539799779653549,
      "epoch": 0.7551401869158878,
      "grad_norm": 0.026676569133996964,
      "learning_rate": 0.0002,
      "loss": 0.5552941560745239,
      "mean_token_accuracy": 0.7729017436504364,
      "num_tokens": 3293921.0,
      "step": 202
    },
    {
      "entropy": 0.5504231303930283,
      "epoch": 0.7588785046728972,
      "grad_norm": 0.02650677040219307,
      "learning_rate": 0.0002,
      "loss": 0.5463041663169861,
      "mean_token_accuracy": 0.7773067653179169,
      "num_tokens": 3310038.0,
      "step": 203
    },
    {
      "entropy": 0.5567349493503571,
      "epoch": 0.7626168224299066,
      "grad_norm": 0.028487270697951317,
      "learning_rate": 0.0002,
      "loss": 0.5550260543823242,
      "mean_token_accuracy": 0.7747003883123398,
      "num_tokens": 3326542.0,
      "step": 204
    },
    {
      "entropy": 0.5515165776014328,
      "epoch": 0.7663551401869159,
      "grad_norm": 0.02944660186767578,
      "learning_rate": 0.0002,
      "loss": 0.5483176708221436,
      "mean_token_accuracy": 0.7772196680307388,
      "num_tokens": 3342960.0,
      "step": 205
    },
    {
      "entropy": 0.5516369044780731,
      "epoch": 0.7700934579439253,
      "grad_norm": 0.02446347288787365,
      "learning_rate": 0.0002,
      "loss": 0.5510342121124268,
      "mean_token_accuracy": 0.7753156870603561,
      "num_tokens": 3359361.0,
      "step": 206
    },
    {
      "entropy": 0.562598317861557,
      "epoch": 0.7738317757009345,
      "grad_norm": 0.032002996653318405,
      "learning_rate": 0.0002,
      "loss": 0.5551044344902039,
      "mean_token_accuracy": 0.7748953849077225,
      "num_tokens": 3375695.0,
      "step": 207
    },
    {
      "entropy": 0.5636338144540787,
      "epoch": 0.7775700934579439,
      "grad_norm": 0.032179221510887146,
      "learning_rate": 0.0002,
      "loss": 0.564883291721344,
      "mean_token_accuracy": 0.7722733914852142,
      "num_tokens": 3391711.0,
      "step": 208
    },
    {
      "entropy": 0.5475672632455826,
      "epoch": 0.7813084112149533,
      "grad_norm": 0.03206668421626091,
      "learning_rate": 0.0002,
      "loss": 0.5551382899284363,
      "mean_token_accuracy": 0.7726904302835464,
      "num_tokens": 3407951.0,
      "step": 209
    },
    {
      "entropy": 0.540259450674057,
      "epoch": 0.7850467289719626,
      "grad_norm": 0.02936564013361931,
      "learning_rate": 0.0002,
      "loss": 0.5508178472518921,
      "mean_token_accuracy": 0.7771763801574707,
      "num_tokens": 3424278.0,
      "step": 210
    },
    {
      "entropy": 0.5564334988594055,
      "epoch": 0.788785046728972,
      "grad_norm": 0.03052506223320961,
      "learning_rate": 0.0002,
      "loss": 0.5652161240577698,
      "mean_token_accuracy": 0.770373746752739,
      "num_tokens": 3440796.0,
      "step": 211
    },
    {
      "entropy": 0.5524326264858246,
      "epoch": 0.7925233644859813,
      "grad_norm": 0.025716882199048996,
      "learning_rate": 0.0002,
      "loss": 0.5483862161636353,
      "mean_token_accuracy": 0.778383657336235,
      "num_tokens": 3457162.0,
      "step": 212
    },
    {
      "entropy": 0.5574807077646255,
      "epoch": 0.7962616822429907,
      "grad_norm": 0.026924515143036842,
      "learning_rate": 0.0002,
      "loss": 0.5535562634468079,
      "mean_token_accuracy": 0.7756220400333405,
      "num_tokens": 3473707.0,
      "step": 213
    },
    {
      "entropy": 0.558317020535469,
      "epoch": 0.8,
      "grad_norm": 0.025764374062418938,
      "learning_rate": 0.0002,
      "loss": 0.560704231262207,
      "mean_token_accuracy": 0.7712857127189636,
      "num_tokens": 3490125.0,
      "step": 214
    },
    {
      "entropy": 0.5554333925247192,
      "epoch": 0.8037383177570093,
      "grad_norm": 0.028298519551753998,
      "learning_rate": 0.0002,
      "loss": 0.5522173643112183,
      "mean_token_accuracy": 0.7743871361017227,
      "num_tokens": 3506505.0,
      "step": 215
    },
    {
      "entropy": 0.5587067157030106,
      "epoch": 0.8074766355140187,
      "grad_norm": 0.02431626431643963,
      "learning_rate": 0.0002,
      "loss": 0.5544553995132446,
      "mean_token_accuracy": 0.7743324339389801,
      "num_tokens": 3522958.0,
      "step": 216
    },
    {
      "entropy": 0.5645765364170074,
      "epoch": 0.811214953271028,
      "grad_norm": 0.02611798420548439,
      "learning_rate": 0.0002,
      "loss": 0.5644361972808838,
      "mean_token_accuracy": 0.7711465507745743,
      "num_tokens": 3539490.0,
      "step": 217
    },
    {
      "entropy": 0.5525356978178024,
      "epoch": 0.8149532710280374,
      "grad_norm": 0.03383297845721245,
      "learning_rate": 0.0002,
      "loss": 0.5598211884498596,
      "mean_token_accuracy": 0.7742004096508026,
      "num_tokens": 3555746.0,
      "step": 218
    },
    {
      "entropy": 0.5621150583028793,
      "epoch": 0.8186915887850468,
      "grad_norm": 0.030269736424088478,
      "learning_rate": 0.0002,
      "loss": 0.5634778738021851,
      "mean_token_accuracy": 0.7692747861146927,
      "num_tokens": 3572256.0,
      "step": 219
    },
    {
      "entropy": 0.5514157265424728,
      "epoch": 0.822429906542056,
      "grad_norm": 0.028750412166118622,
      "learning_rate": 0.0002,
      "loss": 0.5467870831489563,
      "mean_token_accuracy": 0.7769519984722137,
      "num_tokens": 3588550.0,
      "step": 220
    },
    {
      "entropy": 0.5368104577064514,
      "epoch": 0.8261682242990654,
      "grad_norm": 0.03091045655310154,
      "learning_rate": 0.0002,
      "loss": 0.5372405648231506,
      "mean_token_accuracy": 0.7840253859758377,
      "num_tokens": 3604659.0,
      "step": 221
    },
    {
      "entropy": 0.5409716814756393,
      "epoch": 0.8299065420560747,
      "grad_norm": 0.03386515751481056,
      "learning_rate": 0.0002,
      "loss": 0.548212468624115,
      "mean_token_accuracy": 0.7736510932445526,
      "num_tokens": 3620843.0,
      "step": 222
    },
    {
      "entropy": 0.5629084706306458,
      "epoch": 0.8336448598130841,
      "grad_norm": 0.040728501975536346,
      "learning_rate": 0.0002,
      "loss": 0.5746021270751953,
      "mean_token_accuracy": 0.7647373080253601,
      "num_tokens": 3637324.0,
      "step": 223
    },
    {
      "entropy": 0.5369234085083008,
      "epoch": 0.8373831775700935,
      "grad_norm": 0.029392162337899208,
      "learning_rate": 0.0002,
      "loss": 0.5397970080375671,
      "mean_token_accuracy": 0.7819121479988098,
      "num_tokens": 3653633.0,
      "step": 224
    },
    {
      "entropy": 0.5768532902002335,
      "epoch": 0.8411214953271028,
      "grad_norm": 0.033986181020736694,
      "learning_rate": 0.0002,
      "loss": 0.5701450109481812,
      "mean_token_accuracy": 0.7669256031513214,
      "num_tokens": 3670158.0,
      "step": 225
    },
    {
      "entropy": 0.5465534925460815,
      "epoch": 0.8448598130841122,
      "grad_norm": 0.034689608961343765,
      "learning_rate": 0.0002,
      "loss": 0.539010226726532,
      "mean_token_accuracy": 0.7829751968383789,
      "num_tokens": 3686415.0,
      "step": 226
    },
    {
      "entropy": 0.5669656842947006,
      "epoch": 0.8485981308411215,
      "grad_norm": 0.029157601296901703,
      "learning_rate": 0.0002,
      "loss": 0.5645594596862793,
      "mean_token_accuracy": 0.7721282690763474,
      "num_tokens": 3702620.0,
      "step": 227
    },
    {
      "entropy": 0.5713803917169571,
      "epoch": 0.8523364485981308,
      "grad_norm": 0.032975275069475174,
      "learning_rate": 0.0002,
      "loss": 0.5758609771728516,
      "mean_token_accuracy": 0.7657817453145981,
      "num_tokens": 3719219.0,
      "step": 228
    },
    {
      "entropy": 0.5463247001171112,
      "epoch": 0.8560747663551402,
      "grad_norm": 0.039444658905267715,
      "learning_rate": 0.0002,
      "loss": 0.5534209609031677,
      "mean_token_accuracy": 0.7726487815380096,
      "num_tokens": 3735438.0,
      "step": 229
    },
    {
      "entropy": 0.556586429476738,
      "epoch": 0.8598130841121495,
      "grad_norm": 0.02616702765226364,
      "learning_rate": 0.0002,
      "loss": 0.5549170970916748,
      "mean_token_accuracy": 0.7752689123153687,
      "num_tokens": 3751785.0,
      "step": 230
    },
    {
      "entropy": 0.5389135032892227,
      "epoch": 0.8635514018691589,
      "grad_norm": 0.03276278078556061,
      "learning_rate": 0.0002,
      "loss": 0.5399537086486816,
      "mean_token_accuracy": 0.781702533364296,
      "num_tokens": 3767826.0,
      "step": 231
    },
    {
      "entropy": 0.5364359021186829,
      "epoch": 0.8672897196261682,
      "grad_norm": 0.026118800044059753,
      "learning_rate": 0.0002,
      "loss": 0.5382952094078064,
      "mean_token_accuracy": 0.780514121055603,
      "num_tokens": 3783919.0,
      "step": 232
    },
    {
      "entropy": 0.5687360912561417,
      "epoch": 0.8710280373831776,
      "grad_norm": 0.03209976479411125,
      "learning_rate": 0.0002,
      "loss": 0.5756676197052002,
      "mean_token_accuracy": 0.7664439678192139,
      "num_tokens": 3800454.0,
      "step": 233
    },
    {
      "entropy": 0.5679410099983215,
      "epoch": 0.874766355140187,
      "grad_norm": 0.025931114330887794,
      "learning_rate": 0.0002,
      "loss": 0.5656247138977051,
      "mean_token_accuracy": 0.7693636864423752,
      "num_tokens": 3816747.0,
      "step": 234
    },
    {
      "entropy": 0.557420089840889,
      "epoch": 0.8785046728971962,
      "grad_norm": 0.02894972637295723,
      "learning_rate": 0.0002,
      "loss": 0.5490383505821228,
      "mean_token_accuracy": 0.7750599384307861,
      "num_tokens": 3833058.0,
      "step": 235
    },
    {
      "entropy": 0.560372844338417,
      "epoch": 0.8822429906542056,
      "grad_norm": 0.03646957501769066,
      "learning_rate": 0.0002,
      "loss": 0.5596282482147217,
      "mean_token_accuracy": 0.7726272940635681,
      "num_tokens": 3849415.0,
      "step": 236
    },
    {
      "entropy": 0.5550010055303574,
      "epoch": 0.8859813084112149,
      "grad_norm": 0.026594942435622215,
      "learning_rate": 0.0002,
      "loss": 0.5539083480834961,
      "mean_token_accuracy": 0.7734427750110626,
      "num_tokens": 3865776.0,
      "step": 237
    },
    {
      "entropy": 0.5347648710012436,
      "epoch": 0.8897196261682243,
      "grad_norm": 0.03385410085320473,
      "learning_rate": 0.0002,
      "loss": 0.5472573041915894,
      "mean_token_accuracy": 0.7766564786434174,
      "num_tokens": 3882018.0,
      "step": 238
    },
    {
      "entropy": 0.5376404300332069,
      "epoch": 0.8934579439252337,
      "grad_norm": 0.040597062557935715,
      "learning_rate": 0.0002,
      "loss": 0.5544540286064148,
      "mean_token_accuracy": 0.7728734314441681,
      "num_tokens": 3898287.0,
      "step": 239
    },
    {
      "entropy": 0.5667798519134521,
      "epoch": 0.897196261682243,
      "grad_norm": 0.027665674686431885,
      "learning_rate": 0.0002,
      "loss": 0.5663026571273804,
      "mean_token_accuracy": 0.770405575633049,
      "num_tokens": 3914775.0,
      "step": 240
    },
    {
      "entropy": 0.550272524356842,
      "epoch": 0.9009345794392524,
      "grad_norm": 0.029484877362847328,
      "learning_rate": 0.0002,
      "loss": 0.5427078008651733,
      "mean_token_accuracy": 0.7818168848752975,
      "num_tokens": 3930889.0,
      "step": 241
    },
    {
      "entropy": 0.5710694193840027,
      "epoch": 0.9046728971962616,
      "grad_norm": 0.027631685137748718,
      "learning_rate": 0.0002,
      "loss": 0.561673641204834,
      "mean_token_accuracy": 0.7728846818208694,
      "num_tokens": 3947233.0,
      "step": 242
    },
    {
      "entropy": 0.5513755828142166,
      "epoch": 0.908411214953271,
      "grad_norm": 0.030272630974650383,
      "learning_rate": 0.0002,
      "loss": 0.5467454195022583,
      "mean_token_accuracy": 0.7779553532600403,
      "num_tokens": 3963468.0,
      "step": 243
    },
    {
      "entropy": 0.5469895005226135,
      "epoch": 0.9121495327102803,
      "grad_norm": 0.03090892918407917,
      "learning_rate": 0.0002,
      "loss": 0.5560286045074463,
      "mean_token_accuracy": 0.7723891735076904,
      "num_tokens": 3979910.0,
      "step": 244
    },
    {
      "entropy": 0.5544413626194,
      "epoch": 0.9158878504672897,
      "grad_norm": 0.041499219834804535,
      "learning_rate": 0.0002,
      "loss": 0.5768874883651733,
      "mean_token_accuracy": 0.7659346610307693,
      "num_tokens": 3996196.0,
      "step": 245
    },
    {
      "entropy": 0.5447600036859512,
      "epoch": 0.9196261682242991,
      "grad_norm": 0.03076878748834133,
      "learning_rate": 0.0002,
      "loss": 0.5456743836402893,
      "mean_token_accuracy": 0.7770105451345444,
      "num_tokens": 4012511.0,
      "step": 246
    },
    {
      "entropy": 0.5538895577192307,
      "epoch": 0.9233644859813084,
      "grad_norm": 0.03173721581697464,
      "learning_rate": 0.0002,
      "loss": 0.5483969449996948,
      "mean_token_accuracy": 0.7781166434288025,
      "num_tokens": 4028651.0,
      "step": 247
    },
    {
      "entropy": 0.5794132798910141,
      "epoch": 0.9271028037383178,
      "grad_norm": 0.0297909714281559,
      "learning_rate": 0.0002,
      "loss": 0.5648066401481628,
      "mean_token_accuracy": 0.7718619257211685,
      "num_tokens": 4045251.0,
      "step": 248
    },
    {
      "entropy": 0.5547907501459122,
      "epoch": 0.930841121495327,
      "grad_norm": 0.03679649531841278,
      "learning_rate": 0.0002,
      "loss": 0.5462634563446045,
      "mean_token_accuracy": 0.7801699191331863,
      "num_tokens": 4061348.0,
      "step": 249
    },
    {
      "entropy": 0.5539078116416931,
      "epoch": 0.9345794392523364,
      "grad_norm": 0.02851703390479088,
      "learning_rate": 0.0002,
      "loss": 0.5593677163124084,
      "mean_token_accuracy": 0.7756806910037994,
      "num_tokens": 4077453.0,
      "step": 250
    },
    {
      "entropy": 0.5443865954875946,
      "epoch": 0.9383177570093458,
      "grad_norm": 0.030135581269860268,
      "learning_rate": 0.0002,
      "loss": 0.5505210161209106,
      "mean_token_accuracy": 0.7767539322376251,
      "num_tokens": 4093944.0,
      "step": 251
    },
    {
      "entropy": 0.5541698932647705,
      "epoch": 0.9420560747663551,
      "grad_norm": 0.03800193592905998,
      "learning_rate": 0.0002,
      "loss": 0.5603746175765991,
      "mean_token_accuracy": 0.7716375887393951,
      "num_tokens": 4110397.0,
      "step": 252
    },
    {
      "entropy": 0.5497024953365326,
      "epoch": 0.9457943925233645,
      "grad_norm": 0.030841615051031113,
      "learning_rate": 0.0002,
      "loss": 0.5577483177185059,
      "mean_token_accuracy": 0.776105210185051,
      "num_tokens": 4126788.0,
      "step": 253
    },
    {
      "entropy": 0.5452855974435806,
      "epoch": 0.9495327102803738,
      "grad_norm": 0.027110353112220764,
      "learning_rate": 0.0002,
      "loss": 0.5468145608901978,
      "mean_token_accuracy": 0.7746452689170837,
      "num_tokens": 4143252.0,
      "step": 254
    },
    {
      "entropy": 0.5483012199401855,
      "epoch": 0.9532710280373832,
      "grad_norm": 0.02763090282678604,
      "learning_rate": 0.0002,
      "loss": 0.542940616607666,
      "mean_token_accuracy": 0.7776369601488113,
      "num_tokens": 4159556.0,
      "step": 255
    },
    {
      "entropy": 0.5598485320806503,
      "epoch": 0.9570093457943926,
      "grad_norm": 0.02750120870769024,
      "learning_rate": 0.0002,
      "loss": 0.5518869161605835,
      "mean_token_accuracy": 0.7762151658535004,
      "num_tokens": 4175947.0,
      "step": 256
    },
    {
      "entropy": 0.5783872008323669,
      "epoch": 0.9607476635514018,
      "grad_norm": 0.03151006996631622,
      "learning_rate": 0.0002,
      "loss": 0.5734107494354248,
      "mean_token_accuracy": 0.7695904821157455,
      "num_tokens": 4192348.0,
      "step": 257
    },
    {
      "entropy": 0.5653168857097626,
      "epoch": 0.9644859813084112,
      "grad_norm": 0.03166348114609718,
      "learning_rate": 0.0002,
      "loss": 0.5732910633087158,
      "mean_token_accuracy": 0.7679464519023895,
      "num_tokens": 4208898.0,
      "step": 258
    },
    {
      "entropy": 0.5390284806489944,
      "epoch": 0.9682242990654205,
      "grad_norm": 0.026950784027576447,
      "learning_rate": 0.0002,
      "loss": 0.5455009937286377,
      "mean_token_accuracy": 0.7775461375713348,
      "num_tokens": 4225149.0,
      "step": 259
    },
    {
      "entropy": 0.565416008234024,
      "epoch": 0.9719626168224299,
      "grad_norm": 0.030768675729632378,
      "learning_rate": 0.0002,
      "loss": 0.5689860582351685,
      "mean_token_accuracy": 0.7684348970651627,
      "num_tokens": 4241389.0,
      "step": 260
    },
    {
      "entropy": 0.5577588826417923,
      "epoch": 0.9757009345794393,
      "grad_norm": 0.02680326998233795,
      "learning_rate": 0.0002,
      "loss": 0.5625928640365601,
      "mean_token_accuracy": 0.7695075571537018,
      "num_tokens": 4257979.0,
      "step": 261
    },
    {
      "entropy": 0.55104960501194,
      "epoch": 0.9794392523364486,
      "grad_norm": 0.027646353468298912,
      "learning_rate": 0.0002,
      "loss": 0.5484559535980225,
      "mean_token_accuracy": 0.7766857743263245,
      "num_tokens": 4274290.0,
      "step": 262
    },
    {
      "entropy": 0.5638265609741211,
      "epoch": 0.983177570093458,
      "grad_norm": 0.02871805429458618,
      "learning_rate": 0.0002,
      "loss": 0.5657901167869568,
      "mean_token_accuracy": 0.7715673297643661,
      "num_tokens": 4290725.0,
      "step": 263
    },
    {
      "entropy": 0.547324076294899,
      "epoch": 0.9869158878504672,
      "grad_norm": 0.02937854453921318,
      "learning_rate": 0.0002,
      "loss": 0.55534827709198,
      "mean_token_accuracy": 0.7751762270927429,
      "num_tokens": 4307326.0,
      "step": 264
    },
    {
      "entropy": 0.5487106442451477,
      "epoch": 0.9906542056074766,
      "grad_norm": 0.02548016607761383,
      "learning_rate": 0.0002,
      "loss": 0.5505661964416504,
      "mean_token_accuracy": 0.7752106785774231,
      "num_tokens": 4323823.0,
      "step": 265
    },
    {
      "entropy": 0.5634673833847046,
      "epoch": 0.994392523364486,
      "grad_norm": 0.026015356183052063,
      "learning_rate": 0.0002,
      "loss": 0.5634418725967407,
      "mean_token_accuracy": 0.7709382921457291,
      "num_tokens": 4340138.0,
      "step": 266
    },
    {
      "entropy": 0.5507746189832687,
      "epoch": 0.9981308411214953,
      "grad_norm": 0.026798918843269348,
      "learning_rate": 0.0002,
      "loss": 0.5513297915458679,
      "mean_token_accuracy": 0.7769380956888199,
      "num_tokens": 4356482.0,
      "step": 267
    },
    {
      "entropy": 0.5597052276134491,
      "epoch": 1.0,
      "grad_norm": 0.0342809222638607,
      "learning_rate": 0.0002,
      "loss": 0.5571821331977844,
      "mean_token_accuracy": 0.774641364812851,
      "num_tokens": 4364744.0,
      "step": 268
    },
    {
      "entropy": 0.557921290397644,
      "epoch": 1.0037383177570094,
      "grad_norm": 0.029891351237893105,
      "learning_rate": 0.0002,
      "loss": 0.5539438128471375,
      "mean_token_accuracy": 0.7773818224668503,
      "num_tokens": 4380930.0,
      "step": 269
    },
    {
      "entropy": 0.5416439026594162,
      "epoch": 1.0074766355140188,
      "grad_norm": 0.02803446725010872,
      "learning_rate": 0.0002,
      "loss": 0.5438423752784729,
      "mean_token_accuracy": 0.7798180431127548,
      "num_tokens": 4397244.0,
      "step": 270
    },
    {
      "entropy": 0.5285164415836334,
      "epoch": 1.011214953271028,
      "grad_norm": 0.03023347444832325,
      "learning_rate": 0.0002,
      "loss": 0.5358922481536865,
      "mean_token_accuracy": 0.7807245850563049,
      "num_tokens": 4413671.0,
      "step": 271
    },
    {
      "entropy": 0.5514080822467804,
      "epoch": 1.0149532710280373,
      "grad_norm": 0.027458516880869865,
      "learning_rate": 0.0002,
      "loss": 0.552421510219574,
      "mean_token_accuracy": 0.7761755585670471,
      "num_tokens": 4430035.0,
      "step": 272
    },
    {
      "entropy": 0.5706226229667664,
      "epoch": 1.0186915887850467,
      "grad_norm": 0.030846886336803436,
      "learning_rate": 0.0002,
      "loss": 0.5667564272880554,
      "mean_token_accuracy": 0.7689130008220673,
      "num_tokens": 4446382.0,
      "step": 273
    },
    {
      "entropy": 0.5511225461959839,
      "epoch": 1.0224299065420561,
      "grad_norm": 0.029439929872751236,
      "learning_rate": 0.0002,
      "loss": 0.5465920567512512,
      "mean_token_accuracy": 0.7808292508125305,
      "num_tokens": 4462677.0,
      "step": 274
    },
    {
      "entropy": 0.5416547358036041,
      "epoch": 1.0261682242990655,
      "grad_norm": 0.02822115644812584,
      "learning_rate": 0.0002,
      "loss": 0.5419396758079529,
      "mean_token_accuracy": 0.7816834002733231,
      "num_tokens": 4479083.0,
      "step": 275
    },
    {
      "entropy": 0.5574266612529755,
      "epoch": 1.0299065420560747,
      "grad_norm": 0.0327095128595829,
      "learning_rate": 0.0002,
      "loss": 0.5565608739852905,
      "mean_token_accuracy": 0.7745349258184433,
      "num_tokens": 4495797.0,
      "step": 276
    },
    {
      "entropy": 0.5387104451656342,
      "epoch": 1.033644859813084,
      "grad_norm": 0.03164896368980408,
      "learning_rate": 0.0002,
      "loss": 0.5406032800674438,
      "mean_token_accuracy": 0.7823146730661392,
      "num_tokens": 4512262.0,
      "step": 277
    },
    {
      "entropy": 0.5471370071172714,
      "epoch": 1.0373831775700935,
      "grad_norm": 0.03483380377292633,
      "learning_rate": 0.0002,
      "loss": 0.5550093054771423,
      "mean_token_accuracy": 0.7783246338367462,
      "num_tokens": 4528616.0,
      "step": 278
    },
    {
      "entropy": 0.5368807017803192,
      "epoch": 1.0411214953271029,
      "grad_norm": 0.03120633400976658,
      "learning_rate": 0.0002,
      "loss": 0.5417410731315613,
      "mean_token_accuracy": 0.7802102267742157,
      "num_tokens": 4544882.0,
      "step": 279
    },
    {
      "entropy": 0.5481929332017899,
      "epoch": 1.0448598130841122,
      "grad_norm": 0.029517389833927155,
      "learning_rate": 0.0002,
      "loss": 0.5472978353500366,
      "mean_token_accuracy": 0.7788140177726746,
      "num_tokens": 4561427.0,
      "step": 280
    },
    {
      "entropy": 0.5531918853521347,
      "epoch": 1.0485981308411214,
      "grad_norm": 0.03256995975971222,
      "learning_rate": 0.0002,
      "loss": 0.5502868890762329,
      "mean_token_accuracy": 0.7784827798604965,
      "num_tokens": 4577723.0,
      "step": 281
    },
    {
      "entropy": 0.5540415197610855,
      "epoch": 1.0523364485981308,
      "grad_norm": 0.026578353717923164,
      "learning_rate": 0.0002,
      "loss": 0.555966854095459,
      "mean_token_accuracy": 0.775706946849823,
      "num_tokens": 4594128.0,
      "step": 282
    },
    {
      "entropy": 0.5517027229070663,
      "epoch": 1.0560747663551402,
      "grad_norm": 0.030103787779808044,
      "learning_rate": 0.0002,
      "loss": 0.5502108931541443,
      "mean_token_accuracy": 0.7753856778144836,
      "num_tokens": 4610255.0,
      "step": 283
    },
    {
      "entropy": 0.5304621160030365,
      "epoch": 1.0598130841121496,
      "grad_norm": 0.029368899762630463,
      "learning_rate": 0.0002,
      "loss": 0.5297666788101196,
      "mean_token_accuracy": 0.7840214222669601,
      "num_tokens": 4626599.0,
      "step": 284
    },
    {
      "entropy": 0.5305260270833969,
      "epoch": 1.063551401869159,
      "grad_norm": 0.029124870896339417,
      "learning_rate": 0.0002,
      "loss": 0.5363407135009766,
      "mean_token_accuracy": 0.7847000658512115,
      "num_tokens": 4642927.0,
      "step": 285
    },
    {
      "entropy": 0.5300263911485672,
      "epoch": 1.0672897196261681,
      "grad_norm": 0.028800450265407562,
      "learning_rate": 0.0002,
      "loss": 0.52923583984375,
      "mean_token_accuracy": 0.7828178703784943,
      "num_tokens": 4659455.0,
      "step": 286
    },
    {
      "entropy": 0.5497115254402161,
      "epoch": 1.0710280373831775,
      "grad_norm": 0.03032800555229187,
      "learning_rate": 0.0002,
      "loss": 0.5526697039604187,
      "mean_token_accuracy": 0.7718490660190582,
      "num_tokens": 4675747.0,
      "step": 287
    },
    {
      "entropy": 0.5266695320606232,
      "epoch": 1.074766355140187,
      "grad_norm": 0.02653171867132187,
      "learning_rate": 0.0002,
      "loss": 0.5255345702171326,
      "mean_token_accuracy": 0.7853638082742691,
      "num_tokens": 4691992.0,
      "step": 288
    },
    {
      "entropy": 0.5461495667695999,
      "epoch": 1.0785046728971963,
      "grad_norm": 0.025956284254789352,
      "learning_rate": 0.0002,
      "loss": 0.5439239740371704,
      "mean_token_accuracy": 0.7808811217546463,
      "num_tokens": 4708487.0,
      "step": 289
    },
    {
      "entropy": 0.5421788841485977,
      "epoch": 1.0822429906542057,
      "grad_norm": 0.02735847234725952,
      "learning_rate": 0.0002,
      "loss": 0.5411931872367859,
      "mean_token_accuracy": 0.7771425247192383,
      "num_tokens": 4724824.0,
      "step": 290
    },
    {
      "entropy": 0.5556438118219376,
      "epoch": 1.0859813084112149,
      "grad_norm": 0.026816118508577347,
      "learning_rate": 0.0002,
      "loss": 0.5484311580657959,
      "mean_token_accuracy": 0.7775956392288208,
      "num_tokens": 4741264.0,
      "step": 291
    },
    {
      "entropy": 0.5614602714776993,
      "epoch": 1.0897196261682243,
      "grad_norm": 0.03428835794329643,
      "learning_rate": 0.0002,
      "loss": 0.5635286569595337,
      "mean_token_accuracy": 0.7734779864549637,
      "num_tokens": 4757630.0,
      "step": 292
    },
    {
      "entropy": 0.5510146170854568,
      "epoch": 1.0934579439252337,
      "grad_norm": 0.030845943838357925,
      "learning_rate": 0.0002,
      "loss": 0.5562302470207214,
      "mean_token_accuracy": 0.773259237408638,
      "num_tokens": 4773723.0,
      "step": 293
    },
    {
      "entropy": 0.5555125325918198,
      "epoch": 1.097196261682243,
      "grad_norm": 0.028586354106664658,
      "learning_rate": 0.0002,
      "loss": 0.5588027834892273,
      "mean_token_accuracy": 0.7723042815923691,
      "num_tokens": 4790204.0,
      "step": 294
    },
    {
      "entropy": 0.53548863530159,
      "epoch": 1.1009345794392524,
      "grad_norm": 0.032421719282865524,
      "learning_rate": 0.0002,
      "loss": 0.5428792238235474,
      "mean_token_accuracy": 0.780792623758316,
      "num_tokens": 4806715.0,
      "step": 295
    },
    {
      "entropy": 0.5266362577676773,
      "epoch": 1.1046728971962616,
      "grad_norm": 0.044794633984565735,
      "learning_rate": 0.0002,
      "loss": 0.5296044945716858,
      "mean_token_accuracy": 0.7850557416677475,
      "num_tokens": 4822693.0,
      "step": 296
    },
    {
      "entropy": 0.547786682844162,
      "epoch": 1.108411214953271,
      "grad_norm": 0.03065192885696888,
      "learning_rate": 0.0002,
      "loss": 0.545957088470459,
      "mean_token_accuracy": 0.7773084342479706,
      "num_tokens": 4838834.0,
      "step": 297
    },
    {
      "entropy": 0.5526397377252579,
      "epoch": 1.1121495327102804,
      "grad_norm": 0.03121815249323845,
      "learning_rate": 0.0002,
      "loss": 0.5505586862564087,
      "mean_token_accuracy": 0.7751570343971252,
      "num_tokens": 4854891.0,
      "step": 298
    },
    {
      "entropy": 0.556088924407959,
      "epoch": 1.1158878504672898,
      "grad_norm": 0.03519770875573158,
      "learning_rate": 0.0002,
      "loss": 0.5572479367256165,
      "mean_token_accuracy": 0.7747550010681152,
      "num_tokens": 4871140.0,
      "step": 299
    },
    {
      "entropy": 0.5376470685005188,
      "epoch": 1.1196261682242992,
      "grad_norm": 0.03193943575024605,
      "learning_rate": 0.0002,
      "loss": 0.5455138087272644,
      "mean_token_accuracy": 0.7797031998634338,
      "num_tokens": 4887274.0,
      "step": 300
    },
    {
      "entropy": 0.5635453760623932,
      "epoch": 1.1233644859813083,
      "grad_norm": 0.041273750364780426,
      "learning_rate": 0.0002,
      "loss": 0.5696390867233276,
      "mean_token_accuracy": 0.76914082467556,
      "num_tokens": 4903573.0,
      "step": 301
    },
    {
      "entropy": 0.5702975988388062,
      "epoch": 1.1271028037383177,
      "grad_norm": 0.03010556660592556,
      "learning_rate": 0.0002,
      "loss": 0.5622550845146179,
      "mean_token_accuracy": 0.7727158814668655,
      "num_tokens": 4919926.0,
      "step": 302
    },
    {
      "entropy": 0.5415271073579788,
      "epoch": 1.1308411214953271,
      "grad_norm": 0.0310966819524765,
      "learning_rate": 0.0002,
      "loss": 0.5458844900131226,
      "mean_token_accuracy": 0.776058241724968,
      "num_tokens": 4936123.0,
      "step": 303
    },
    {
      "entropy": 0.5403020679950714,
      "epoch": 1.1345794392523365,
      "grad_norm": 0.04535767808556557,
      "learning_rate": 0.0002,
      "loss": 0.5387758612632751,
      "mean_token_accuracy": 0.7784536480903625,
      "num_tokens": 4952502.0,
      "step": 304
    },
    {
      "entropy": 0.5479062646627426,
      "epoch": 1.1383177570093457,
      "grad_norm": 0.028153905645012856,
      "learning_rate": 0.0002,
      "loss": 0.5478588938713074,
      "mean_token_accuracy": 0.7770532369613647,
      "num_tokens": 4968823.0,
      "step": 305
    },
    {
      "entropy": 0.5423109382390976,
      "epoch": 1.142056074766355,
      "grad_norm": 0.03606940805912018,
      "learning_rate": 0.0002,
      "loss": 0.5508921146392822,
      "mean_token_accuracy": 0.7769752442836761,
      "num_tokens": 4985183.0,
      "step": 306
    },
    {
      "entropy": 0.5484813451766968,
      "epoch": 1.1457943925233645,
      "grad_norm": 0.02960861474275589,
      "learning_rate": 0.0002,
      "loss": 0.5549089312553406,
      "mean_token_accuracy": 0.7753880023956299,
      "num_tokens": 5001335.0,
      "step": 307
    },
    {
      "entropy": 0.5498395711183548,
      "epoch": 1.1495327102803738,
      "grad_norm": 0.036366142332553864,
      "learning_rate": 0.0002,
      "loss": 0.5471988916397095,
      "mean_token_accuracy": 0.7787120938301086,
      "num_tokens": 5017387.0,
      "step": 308
    },
    {
      "entropy": 0.5530393719673157,
      "epoch": 1.1532710280373832,
      "grad_norm": 0.029028775170445442,
      "learning_rate": 0.0002,
      "loss": 0.5492241978645325,
      "mean_token_accuracy": 0.7761663198471069,
      "num_tokens": 5033567.0,
      "step": 309
    },
    {
      "entropy": 0.5492727905511856,
      "epoch": 1.1570093457943926,
      "grad_norm": 0.03352445736527443,
      "learning_rate": 0.0002,
      "loss": 0.5540640354156494,
      "mean_token_accuracy": 0.7749823033809662,
      "num_tokens": 5049801.0,
      "step": 310
    },
    {
      "entropy": 0.5666168481111526,
      "epoch": 1.1607476635514018,
      "grad_norm": 0.035840339958667755,
      "learning_rate": 0.0002,
      "loss": 0.5706231594085693,
      "mean_token_accuracy": 0.7669289708137512,
      "num_tokens": 5066204.0,
      "step": 311
    },
    {
      "entropy": 0.5425457805395126,
      "epoch": 1.1644859813084112,
      "grad_norm": 0.03181692957878113,
      "learning_rate": 0.0002,
      "loss": 0.5458914041519165,
      "mean_token_accuracy": 0.7774879634380341,
      "num_tokens": 5082493.0,
      "step": 312
    },
    {
      "entropy": 0.5557267963886261,
      "epoch": 1.1682242990654206,
      "grad_norm": 0.035230670124292374,
      "learning_rate": 0.0002,
      "loss": 0.5475496053695679,
      "mean_token_accuracy": 0.7787989675998688,
      "num_tokens": 5098639.0,
      "step": 313
    },
    {
      "entropy": 0.5714587569236755,
      "epoch": 1.17196261682243,
      "grad_norm": 0.03392059728503227,
      "learning_rate": 0.0002,
      "loss": 0.5622156262397766,
      "mean_token_accuracy": 0.7719752937555313,
      "num_tokens": 5114831.0,
      "step": 314
    },
    {
      "entropy": 0.5439812690019608,
      "epoch": 1.1757009345794391,
      "grad_norm": 0.027537284418940544,
      "learning_rate": 0.0002,
      "loss": 0.5427182912826538,
      "mean_token_accuracy": 0.7786365002393723,
      "num_tokens": 5131121.0,
      "step": 315
    },
    {
      "entropy": 0.5388712882995605,
      "epoch": 1.1794392523364485,
      "grad_norm": 0.03216094896197319,
      "learning_rate": 0.0002,
      "loss": 0.5446818470954895,
      "mean_token_accuracy": 0.7791234254837036,
      "num_tokens": 5147422.0,
      "step": 316
    },
    {
      "entropy": 0.53206005692482,
      "epoch": 1.183177570093458,
      "grad_norm": 0.032054752111434937,
      "learning_rate": 0.0002,
      "loss": 0.5439627170562744,
      "mean_token_accuracy": 0.7801449149847031,
      "num_tokens": 5163884.0,
      "step": 317
    },
    {
      "entropy": 0.5308776497840881,
      "epoch": 1.1869158878504673,
      "grad_norm": 0.032574739307165146,
      "learning_rate": 0.0002,
      "loss": 0.5392112731933594,
      "mean_token_accuracy": 0.777498260140419,
      "num_tokens": 5180398.0,
      "step": 318
    },
    {
      "entropy": 0.5427455455064774,
      "epoch": 1.1906542056074767,
      "grad_norm": 0.03152874857187271,
      "learning_rate": 0.0002,
      "loss": 0.5452929139137268,
      "mean_token_accuracy": 0.7787911593914032,
      "num_tokens": 5196640.0,
      "step": 319
    },
    {
      "entropy": 0.570340633392334,
      "epoch": 1.194392523364486,
      "grad_norm": 0.03098403289914131,
      "learning_rate": 0.0002,
      "loss": 0.5688466429710388,
      "mean_token_accuracy": 0.7672817558050156,
      "num_tokens": 5212767.0,
      "step": 320
    },
    {
      "entropy": 0.5646504908800125,
      "epoch": 1.1981308411214953,
      "grad_norm": 0.032602474093437195,
      "learning_rate": 0.0002,
      "loss": 0.5595831274986267,
      "mean_token_accuracy": 0.7738354504108429,
      "num_tokens": 5229143.0,
      "step": 321
    },
    {
      "entropy": 0.541440024971962,
      "epoch": 1.2018691588785047,
      "grad_norm": 0.0346127450466156,
      "learning_rate": 0.0002,
      "loss": 0.5328572988510132,
      "mean_token_accuracy": 0.7842471748590469,
      "num_tokens": 5245349.0,
      "step": 322
    },
    {
      "entropy": 0.5371421873569489,
      "epoch": 1.205607476635514,
      "grad_norm": 0.030524473637342453,
      "learning_rate": 0.0002,
      "loss": 0.5316073894500732,
      "mean_token_accuracy": 0.7839267402887344,
      "num_tokens": 5261740.0,
      "step": 323
    },
    {
      "entropy": 0.5501479953527451,
      "epoch": 1.2093457943925234,
      "grad_norm": 0.04006117209792137,
      "learning_rate": 0.0002,
      "loss": 0.5546258687973022,
      "mean_token_accuracy": 0.7740581333637238,
      "num_tokens": 5278402.0,
      "step": 324
    },
    {
      "entropy": 0.5427927225828171,
      "epoch": 1.2130841121495326,
      "grad_norm": 0.028997933492064476,
      "learning_rate": 0.0002,
      "loss": 0.546272873878479,
      "mean_token_accuracy": 0.77626071870327,
      "num_tokens": 5295096.0,
      "step": 325
    },
    {
      "entropy": 0.5374629199504852,
      "epoch": 1.216822429906542,
      "grad_norm": 0.031449392437934875,
      "learning_rate": 0.0002,
      "loss": 0.5484204292297363,
      "mean_token_accuracy": 0.7783177495002747,
      "num_tokens": 5311451.0,
      "step": 326
    },
    {
      "entropy": 0.5593861639499664,
      "epoch": 1.2205607476635514,
      "grad_norm": 0.033892612904310226,
      "learning_rate": 0.0002,
      "loss": 0.5527151823043823,
      "mean_token_accuracy": 0.7769543379545212,
      "num_tokens": 5327705.0,
      "step": 327
    },
    {
      "entropy": 0.5403755158185959,
      "epoch": 1.2242990654205608,
      "grad_norm": 0.029873648658394814,
      "learning_rate": 0.0002,
      "loss": 0.5416997075080872,
      "mean_token_accuracy": 0.7783119082450867,
      "num_tokens": 5344110.0,
      "step": 328
    },
    {
      "entropy": 0.5473423600196838,
      "epoch": 1.2280373831775702,
      "grad_norm": 0.028266677632927895,
      "learning_rate": 0.0002,
      "loss": 0.5524438619613647,
      "mean_token_accuracy": 0.7769231647253036,
      "num_tokens": 5360378.0,
      "step": 329
    },
    {
      "entropy": 0.5364970713853836,
      "epoch": 1.2317757009345796,
      "grad_norm": 0.03534099832177162,
      "learning_rate": 0.0002,
      "loss": 0.5341481566429138,
      "mean_token_accuracy": 0.783685103058815,
      "num_tokens": 5376600.0,
      "step": 330
    },
    {
      "entropy": 0.5472245216369629,
      "epoch": 1.2355140186915887,
      "grad_norm": 0.030261849984526634,
      "learning_rate": 0.0002,
      "loss": 0.5478684306144714,
      "mean_token_accuracy": 0.7797873020172119,
      "num_tokens": 5392761.0,
      "step": 331
    },
    {
      "entropy": 0.545607790350914,
      "epoch": 1.2392523364485981,
      "grad_norm": 0.029436452314257622,
      "learning_rate": 0.0002,
      "loss": 0.546855628490448,
      "mean_token_accuracy": 0.7786357402801514,
      "num_tokens": 5409133.0,
      "step": 332
    },
    {
      "entropy": 0.5291889756917953,
      "epoch": 1.2429906542056075,
      "grad_norm": 0.03353505581617355,
      "learning_rate": 0.0002,
      "loss": 0.5353861451148987,
      "mean_token_accuracy": 0.7811570167541504,
      "num_tokens": 5425384.0,
      "step": 333
    },
    {
      "entropy": 0.5578002631664276,
      "epoch": 1.246728971962617,
      "grad_norm": 0.03168244659900665,
      "learning_rate": 0.0002,
      "loss": 0.5618013143539429,
      "mean_token_accuracy": 0.7705619186162949,
      "num_tokens": 5441708.0,
      "step": 334
    },
    {
      "entropy": 0.555315688252449,
      "epoch": 1.250467289719626,
      "grad_norm": 0.03206615522503853,
      "learning_rate": 0.0002,
      "loss": 0.5600447654724121,
      "mean_token_accuracy": 0.7714688628911972,
      "num_tokens": 5457884.0,
      "step": 335
    },
    {
      "entropy": 0.5601648688316345,
      "epoch": 1.2542056074766355,
      "grad_norm": 0.03804044798016548,
      "learning_rate": 0.0002,
      "loss": 0.5550276637077332,
      "mean_token_accuracy": 0.7733457237482071,
      "num_tokens": 5474231.0,
      "step": 336
    },
    {
      "entropy": 0.542451411485672,
      "epoch": 1.2579439252336448,
      "grad_norm": 0.029554393142461777,
      "learning_rate": 0.0002,
      "loss": 0.5353547930717468,
      "mean_token_accuracy": 0.7827602028846741,
      "num_tokens": 5490557.0,
      "step": 337
    },
    {
      "entropy": 0.5396464318037033,
      "epoch": 1.2616822429906542,
      "grad_norm": 0.02930438332259655,
      "learning_rate": 0.0002,
      "loss": 0.5352525115013123,
      "mean_token_accuracy": 0.782452329993248,
      "num_tokens": 5506827.0,
      "step": 338
    },
    {
      "entropy": 0.551433265209198,
      "epoch": 1.2654205607476636,
      "grad_norm": 0.03803868591785431,
      "learning_rate": 0.0002,
      "loss": 0.5564743280410767,
      "mean_token_accuracy": 0.7742451429367065,
      "num_tokens": 5523197.0,
      "step": 339
    },
    {
      "entropy": 0.5405130237340927,
      "epoch": 1.269158878504673,
      "grad_norm": 0.03335575759410858,
      "learning_rate": 0.0002,
      "loss": 0.5447483062744141,
      "mean_token_accuracy": 0.777386024594307,
      "num_tokens": 5539570.0,
      "step": 340
    },
    {
      "entropy": 0.5281671732664108,
      "epoch": 1.2728971962616822,
      "grad_norm": 0.03668655455112457,
      "learning_rate": 0.0002,
      "loss": 0.5369662642478943,
      "mean_token_accuracy": 0.7818697243928909,
      "num_tokens": 5556018.0,
      "step": 341
    },
    {
      "entropy": 0.5445946455001831,
      "epoch": 1.2766355140186916,
      "grad_norm": 0.03418565168976784,
      "learning_rate": 0.0002,
      "loss": 0.5481922626495361,
      "mean_token_accuracy": 0.7817248553037643,
      "num_tokens": 5571921.0,
      "step": 342
    },
    {
      "entropy": 0.5692614763975143,
      "epoch": 1.280373831775701,
      "grad_norm": 0.032861191779375076,
      "learning_rate": 0.0002,
      "loss": 0.5536470413208008,
      "mean_token_accuracy": 0.7768330574035645,
      "num_tokens": 5588242.0,
      "step": 343
    },
    {
      "entropy": 0.5534744560718536,
      "epoch": 1.2841121495327104,
      "grad_norm": 0.02994309738278389,
      "learning_rate": 0.0002,
      "loss": 0.5490615367889404,
      "mean_token_accuracy": 0.7776058167219162,
      "num_tokens": 5604646.0,
      "step": 344
    },
    {
      "entropy": 0.5477103441953659,
      "epoch": 1.2878504672897195,
      "grad_norm": 0.0329648032784462,
      "learning_rate": 0.0002,
      "loss": 0.5608856678009033,
      "mean_token_accuracy": 0.769044816493988,
      "num_tokens": 5620822.0,
      "step": 345
    },
    {
      "entropy": 0.5447603911161423,
      "epoch": 1.291588785046729,
      "grad_norm": 0.038630835711956024,
      "learning_rate": 0.0002,
      "loss": 0.5517427921295166,
      "mean_token_accuracy": 0.776050254702568,
      "num_tokens": 5637254.0,
      "step": 346
    },
    {
      "entropy": 0.5543326735496521,
      "epoch": 1.2953271028037383,
      "grad_norm": 0.03234436735510826,
      "learning_rate": 0.0002,
      "loss": 0.5605747103691101,
      "mean_token_accuracy": 0.7735925763845444,
      "num_tokens": 5653687.0,
      "step": 347
    },
    {
      "entropy": 0.5351574122905731,
      "epoch": 1.2990654205607477,
      "grad_norm": 0.03387833759188652,
      "learning_rate": 0.0002,
      "loss": 0.5403937697410583,
      "mean_token_accuracy": 0.7819892168045044,
      "num_tokens": 5670152.0,
      "step": 348
    },
    {
      "entropy": 0.5567533820867538,
      "epoch": 1.302803738317757,
      "grad_norm": 0.0311372522264719,
      "learning_rate": 0.0002,
      "loss": 0.5512552261352539,
      "mean_token_accuracy": 0.7762364596128464,
      "num_tokens": 5686422.0,
      "step": 349
    },
    {
      "entropy": 0.5508190989494324,
      "epoch": 1.3065420560747665,
      "grad_norm": 0.027689168229699135,
      "learning_rate": 0.0002,
      "loss": 0.5455954074859619,
      "mean_token_accuracy": 0.7787918448448181,
      "num_tokens": 5702832.0,
      "step": 350
    },
    {
      "entropy": 0.5493623167276382,
      "epoch": 1.3102803738317756,
      "grad_norm": 0.03188028931617737,
      "learning_rate": 0.0002,
      "loss": 0.5508118867874146,
      "mean_token_accuracy": 0.7741293609142303,
      "num_tokens": 5719201.0,
      "step": 351
    },
    {
      "entropy": 0.5517994910478592,
      "epoch": 1.314018691588785,
      "grad_norm": 0.03255178779363632,
      "learning_rate": 0.0002,
      "loss": 0.5581218004226685,
      "mean_token_accuracy": 0.7717841118574142,
      "num_tokens": 5735507.0,
      "step": 352
    },
    {
      "entropy": 0.5363009721040726,
      "epoch": 1.3177570093457944,
      "grad_norm": 0.0318707600235939,
      "learning_rate": 0.0002,
      "loss": 0.5422943234443665,
      "mean_token_accuracy": 0.7783725261688232,
      "num_tokens": 5751653.0,
      "step": 353
    },
    {
      "entropy": 0.5449318736791611,
      "epoch": 1.3214953271028038,
      "grad_norm": 0.028741504997015,
      "learning_rate": 0.0002,
      "loss": 0.539950966835022,
      "mean_token_accuracy": 0.7803268283605576,
      "num_tokens": 5768167.0,
      "step": 354
    },
    {
      "entropy": 0.5602855980396271,
      "epoch": 1.325233644859813,
      "grad_norm": 0.030420802533626556,
      "learning_rate": 0.0002,
      "loss": 0.554990291595459,
      "mean_token_accuracy": 0.7761643081903458,
      "num_tokens": 5784542.0,
      "step": 355
    },
    {
      "entropy": 0.56887586414814,
      "epoch": 1.3289719626168224,
      "grad_norm": 0.03126989305019379,
      "learning_rate": 0.0002,
      "loss": 0.5672231912612915,
      "mean_token_accuracy": 0.7678193151950836,
      "num_tokens": 5801095.0,
      "step": 356
    },
    {
      "entropy": 0.5738541036844254,
      "epoch": 1.3327102803738318,
      "grad_norm": 0.03625823184847832,
      "learning_rate": 0.0002,
      "loss": 0.5728395581245422,
      "mean_token_accuracy": 0.7666806429624557,
      "num_tokens": 5817738.0,
      "step": 357
    },
    {
      "entropy": 0.5436241179704666,
      "epoch": 1.3364485981308412,
      "grad_norm": 0.03443320468068123,
      "learning_rate": 0.0002,
      "loss": 0.5367251634597778,
      "mean_token_accuracy": 0.7828597128391266,
      "num_tokens": 5834159.0,
      "step": 358
    },
    {
      "entropy": 0.5450441539287567,
      "epoch": 1.3401869158878505,
      "grad_norm": 0.02960045635700226,
      "learning_rate": 0.0002,
      "loss": 0.5478132963180542,
      "mean_token_accuracy": 0.7773353010416031,
      "num_tokens": 5850353.0,
      "step": 359
    },
    {
      "entropy": 0.559371218085289,
      "epoch": 1.34392523364486,
      "grad_norm": 0.043439071625471115,
      "learning_rate": 0.0002,
      "loss": 0.5704307556152344,
      "mean_token_accuracy": 0.7674223929643631,
      "num_tokens": 5866661.0,
      "step": 360
    },
    {
      "entropy": 0.5383078157901764,
      "epoch": 1.347663551401869,
      "grad_norm": 0.031151141971349716,
      "learning_rate": 0.0002,
      "loss": 0.5475639700889587,
      "mean_token_accuracy": 0.7764850705862045,
      "num_tokens": 5883147.0,
      "step": 361
    },
    {
      "entropy": 0.5361460000276566,
      "epoch": 1.3514018691588785,
      "grad_norm": 0.0367986336350441,
      "learning_rate": 0.0002,
      "loss": 0.5413030385971069,
      "mean_token_accuracy": 0.7792898863554001,
      "num_tokens": 5899337.0,
      "step": 362
    },
    {
      "entropy": 0.5393686443567276,
      "epoch": 1.355140186915888,
      "grad_norm": 0.032062407582998276,
      "learning_rate": 0.0002,
      "loss": 0.5485578775405884,
      "mean_token_accuracy": 0.7746371626853943,
      "num_tokens": 5915592.0,
      "step": 363
    },
    {
      "entropy": 0.5442528575658798,
      "epoch": 1.358878504672897,
      "grad_norm": 0.030468052253127098,
      "learning_rate": 0.0002,
      "loss": 0.5427553653717041,
      "mean_token_accuracy": 0.7785662263631821,
      "num_tokens": 5931951.0,
      "step": 364
    },
    {
      "entropy": 0.5824908316135406,
      "epoch": 1.3626168224299064,
      "grad_norm": 0.037210624665021896,
      "learning_rate": 0.0002,
      "loss": 0.5697020292282104,
      "mean_token_accuracy": 0.7692236304283142,
      "num_tokens": 5948490.0,
      "step": 365
    },
    {
      "entropy": 0.5620522499084473,
      "epoch": 1.3663551401869158,
      "grad_norm": 0.0335218720138073,
      "learning_rate": 0.0002,
      "loss": 0.5542594194412231,
      "mean_token_accuracy": 0.7753977477550507,
      "num_tokens": 5964660.0,
      "step": 366
    },
    {
      "entropy": 0.5603572577238083,
      "epoch": 1.3700934579439252,
      "grad_norm": 0.031322672963142395,
      "learning_rate": 0.0002,
      "loss": 0.5575450658798218,
      "mean_token_accuracy": 0.7735055536031723,
      "num_tokens": 5981101.0,
      "step": 367
    },
    {
      "entropy": 0.5505388826131821,
      "epoch": 1.3738317757009346,
      "grad_norm": 0.030650589615106583,
      "learning_rate": 0.0002,
      "loss": 0.5557997822761536,
      "mean_token_accuracy": 0.7740475237369537,
      "num_tokens": 5997642.0,
      "step": 368
    },
    {
      "entropy": 0.5392187088727951,
      "epoch": 1.377570093457944,
      "grad_norm": 0.030460603535175323,
      "learning_rate": 0.0002,
      "loss": 0.5474120378494263,
      "mean_token_accuracy": 0.7756936997175217,
      "num_tokens": 6013826.0,
      "step": 369
    },
    {
      "entropy": 0.5465079843997955,
      "epoch": 1.3813084112149534,
      "grad_norm": 0.03873775899410248,
      "learning_rate": 0.0002,
      "loss": 0.5496590733528137,
      "mean_token_accuracy": 0.7778041809797287,
      "num_tokens": 6030111.0,
      "step": 370
    },
    {
      "entropy": 0.5502425879240036,
      "epoch": 1.3850467289719626,
      "grad_norm": 0.027835069224238396,
      "learning_rate": 0.0002,
      "loss": 0.5515455007553101,
      "mean_token_accuracy": 0.7742271274328232,
      "num_tokens": 6046613.0,
      "step": 371
    },
    {
      "entropy": 0.5496622025966644,
      "epoch": 1.388785046728972,
      "grad_norm": 0.02913137525320053,
      "learning_rate": 0.0002,
      "loss": 0.5523219108581543,
      "mean_token_accuracy": 0.7767279595136642,
      "num_tokens": 6062935.0,
      "step": 372
    },
    {
      "entropy": 0.5480591654777527,
      "epoch": 1.3925233644859814,
      "grad_norm": 0.028895994648337364,
      "learning_rate": 0.0002,
      "loss": 0.5464932918548584,
      "mean_token_accuracy": 0.7779257446527481,
      "num_tokens": 6079276.0,
      "step": 373
    },
    {
      "entropy": 0.5592564791440964,
      "epoch": 1.3962616822429905,
      "grad_norm": 0.030813386663794518,
      "learning_rate": 0.0002,
      "loss": 0.5641001462936401,
      "mean_token_accuracy": 0.7706102132797241,
      "num_tokens": 6095477.0,
      "step": 374
    },
    {
      "entropy": 0.5482244938611984,
      "epoch": 1.4,
      "grad_norm": 0.034681808203458786,
      "learning_rate": 0.0002,
      "loss": 0.5535820722579956,
      "mean_token_accuracy": 0.7740350067615509,
      "num_tokens": 6111503.0,
      "step": 375
    },
    {
      "entropy": 0.5437954962253571,
      "epoch": 1.4037383177570093,
      "grad_norm": 0.029899772256612778,
      "learning_rate": 0.0002,
      "loss": 0.5384761691093445,
      "mean_token_accuracy": 0.7813697308301926,
      "num_tokens": 6127666.0,
      "step": 376
    },
    {
      "entropy": 0.5516242235898972,
      "epoch": 1.4074766355140187,
      "grad_norm": 0.03098697029054165,
      "learning_rate": 0.0002,
      "loss": 0.5510317087173462,
      "mean_token_accuracy": 0.7748206406831741,
      "num_tokens": 6143974.0,
      "step": 377
    },
    {
      "entropy": 0.5456867665052414,
      "epoch": 1.411214953271028,
      "grad_norm": 0.03481059893965721,
      "learning_rate": 0.0002,
      "loss": 0.5417442917823792,
      "mean_token_accuracy": 0.7805673629045486,
      "num_tokens": 6160284.0,
      "step": 378
    },
    {
      "entropy": 0.5566543191671371,
      "epoch": 1.4149532710280375,
      "grad_norm": 0.03302835300564766,
      "learning_rate": 0.0002,
      "loss": 0.5596388578414917,
      "mean_token_accuracy": 0.7757162600755692,
      "num_tokens": 6176900.0,
      "step": 379
    },
    {
      "entropy": 0.5518665462732315,
      "epoch": 1.4186915887850469,
      "grad_norm": 0.042512837797403336,
      "learning_rate": 0.0002,
      "loss": 0.554313600063324,
      "mean_token_accuracy": 0.7725758254528046,
      "num_tokens": 6193295.0,
      "step": 380
    },
    {
      "entropy": 0.5387768298387527,
      "epoch": 1.422429906542056,
      "grad_norm": 0.031335704028606415,
      "learning_rate": 0.0002,
      "loss": 0.5456656813621521,
      "mean_token_accuracy": 0.7767685800790787,
      "num_tokens": 6209473.0,
      "step": 381
    },
    {
      "entropy": 0.552179217338562,
      "epoch": 1.4261682242990654,
      "grad_norm": 0.03560006618499756,
      "learning_rate": 0.0002,
      "loss": 0.5536052584648132,
      "mean_token_accuracy": 0.7741381675004959,
      "num_tokens": 6225795.0,
      "step": 382
    },
    {
      "entropy": 0.5529111623764038,
      "epoch": 1.4299065420560748,
      "grad_norm": 0.03298206627368927,
      "learning_rate": 0.0002,
      "loss": 0.5456759929656982,
      "mean_token_accuracy": 0.7785012274980545,
      "num_tokens": 6241738.0,
      "step": 383
    },
    {
      "entropy": 0.5528014451265335,
      "epoch": 1.433644859813084,
      "grad_norm": 0.02689899317920208,
      "learning_rate": 0.0002,
      "loss": 0.5489047765731812,
      "mean_token_accuracy": 0.7755105197429657,
      "num_tokens": 6258266.0,
      "step": 384
    },
    {
      "entropy": 0.5488691926002502,
      "epoch": 1.4373831775700934,
      "grad_norm": 0.03345772624015808,
      "learning_rate": 0.0002,
      "loss": 0.5473658442497253,
      "mean_token_accuracy": 0.776367112994194,
      "num_tokens": 6274629.0,
      "step": 385
    },
    {
      "entropy": 0.5326814502477646,
      "epoch": 1.4411214953271028,
      "grad_norm": 0.0327431820333004,
      "learning_rate": 0.0002,
      "loss": 0.5437192916870117,
      "mean_token_accuracy": 0.7790791392326355,
      "num_tokens": 6290843.0,
      "step": 386
    },
    {
      "entropy": 0.5463947802782059,
      "epoch": 1.4448598130841122,
      "grad_norm": 0.029317917302250862,
      "learning_rate": 0.0002,
      "loss": 0.5482510924339294,
      "mean_token_accuracy": 0.7787915766239166,
      "num_tokens": 6307390.0,
      "step": 387
    },
    {
      "entropy": 0.5279744416475296,
      "epoch": 1.4485981308411215,
      "grad_norm": 0.032164428383111954,
      "learning_rate": 0.0002,
      "loss": 0.5396722555160522,
      "mean_token_accuracy": 0.7793098241090775,
      "num_tokens": 6323780.0,
      "step": 388
    },
    {
      "entropy": 0.5401588678359985,
      "epoch": 1.452336448598131,
      "grad_norm": 0.029884206131100655,
      "learning_rate": 0.0002,
      "loss": 0.5457247495651245,
      "mean_token_accuracy": 0.7772396057844162,
      "num_tokens": 6340075.0,
      "step": 389
    },
    {
      "entropy": 0.5614192336797714,
      "epoch": 1.45607476635514,
      "grad_norm": 0.031751908361911774,
      "learning_rate": 0.0002,
      "loss": 0.5567028522491455,
      "mean_token_accuracy": 0.7716124802827835,
      "num_tokens": 6356186.0,
      "step": 390
    },
    {
      "entropy": 0.5345210433006287,
      "epoch": 1.4598130841121495,
      "grad_norm": 0.030872350558638573,
      "learning_rate": 0.0002,
      "loss": 0.5334336757659912,
      "mean_token_accuracy": 0.7826623171567917,
      "num_tokens": 6372159.0,
      "step": 391
    },
    {
      "entropy": 0.5622972398996353,
      "epoch": 1.4635514018691589,
      "grad_norm": 0.0314875952899456,
      "learning_rate": 0.0002,
      "loss": 0.5557999610900879,
      "mean_token_accuracy": 0.7731751799583435,
      "num_tokens": 6388490.0,
      "step": 392
    },
    {
      "entropy": 0.5456393212080002,
      "epoch": 1.4672897196261683,
      "grad_norm": 0.030306922271847725,
      "learning_rate": 0.0002,
      "loss": 0.5478385090827942,
      "mean_token_accuracy": 0.7785396575927734,
      "num_tokens": 6404875.0,
      "step": 393
    },
    {
      "entropy": 0.553615927696228,
      "epoch": 1.4710280373831774,
      "grad_norm": 0.03159041702747345,
      "learning_rate": 0.0002,
      "loss": 0.5525414347648621,
      "mean_token_accuracy": 0.7762843668460846,
      "num_tokens": 6421373.0,
      "step": 394
    },
    {
      "entropy": 0.54654960334301,
      "epoch": 1.4747663551401868,
      "grad_norm": 0.041343770921230316,
      "learning_rate": 0.0002,
      "loss": 0.5578322410583496,
      "mean_token_accuracy": 0.7733658850193024,
      "num_tokens": 6437609.0,
      "step": 395
    },
    {
      "entropy": 0.531049445271492,
      "epoch": 1.4785046728971962,
      "grad_norm": 0.029535705223679543,
      "learning_rate": 0.0002,
      "loss": 0.5336673855781555,
      "mean_token_accuracy": 0.7787897735834122,
      "num_tokens": 6453830.0,
      "step": 396
    },
    {
      "entropy": 0.5598567724227905,
      "epoch": 1.4822429906542056,
      "grad_norm": 0.030157895758748055,
      "learning_rate": 0.0002,
      "loss": 0.558460533618927,
      "mean_token_accuracy": 0.7739997208118439,
      "num_tokens": 6469831.0,
      "step": 397
    },
    {
      "entropy": 0.5455051362514496,
      "epoch": 1.485981308411215,
      "grad_norm": 0.02824362926185131,
      "learning_rate": 0.0002,
      "loss": 0.5309131145477295,
      "mean_token_accuracy": 0.7840657532215118,
      "num_tokens": 6485983.0,
      "step": 398
    },
    {
      "entropy": 0.5548417568206787,
      "epoch": 1.4897196261682244,
      "grad_norm": 0.028244182467460632,
      "learning_rate": 0.0002,
      "loss": 0.5448263883590698,
      "mean_token_accuracy": 0.7788312286138535,
      "num_tokens": 6502375.0,
      "step": 399
    },
    {
      "entropy": 0.5614428222179413,
      "epoch": 1.4934579439252336,
      "grad_norm": 0.029092902317643166,
      "learning_rate": 0.0002,
      "loss": 0.5640357732772827,
      "mean_token_accuracy": 0.7694920003414154,
      "num_tokens": 6518515.0,
      "step": 400
    },
    {
      "entropy": 0.5202381461858749,
      "epoch": 1.497196261682243,
      "grad_norm": 0.0347515270113945,
      "learning_rate": 0.0002,
      "loss": 0.5334154963493347,
      "mean_token_accuracy": 0.7812663912773132,
      "num_tokens": 6534874.0,
      "step": 401
    },
    {
      "entropy": 0.5337788164615631,
      "epoch": 1.5009345794392523,
      "grad_norm": 0.036383189260959625,
      "learning_rate": 0.0002,
      "loss": 0.5497745871543884,
      "mean_token_accuracy": 0.778416782617569,
      "num_tokens": 6551531.0,
      "step": 402
    },
    {
      "entropy": 0.5441624820232391,
      "epoch": 1.5046728971962615,
      "grad_norm": 0.029430663213133812,
      "learning_rate": 0.0002,
      "loss": 0.5452989935874939,
      "mean_token_accuracy": 0.7810618728399277,
      "num_tokens": 6568009.0,
      "step": 403
    },
    {
      "entropy": 0.5418661385774612,
      "epoch": 1.508411214953271,
      "grad_norm": 0.030562201514840126,
      "learning_rate": 0.0002,
      "loss": 0.5342137813568115,
      "mean_token_accuracy": 0.7829063683748245,
      "num_tokens": 6584207.0,
      "step": 404
    },
    {
      "entropy": 0.5485459864139557,
      "epoch": 1.5121495327102803,
      "grad_norm": 0.03423624485731125,
      "learning_rate": 0.0002,
      "loss": 0.5410490036010742,
      "mean_token_accuracy": 0.7787354588508606,
      "num_tokens": 6600370.0,
      "step": 405
    },
    {
      "entropy": 0.5426456183195114,
      "epoch": 1.5158878504672897,
      "grad_norm": 0.02885623089969158,
      "learning_rate": 0.0002,
      "loss": 0.5436002612113953,
      "mean_token_accuracy": 0.7796245515346527,
      "num_tokens": 6616756.0,
      "step": 406
    },
    {
      "entropy": 0.5356003642082214,
      "epoch": 1.519626168224299,
      "grad_norm": 0.03115919418632984,
      "learning_rate": 0.0002,
      "loss": 0.5386699438095093,
      "mean_token_accuracy": 0.7803057432174683,
      "num_tokens": 6632844.0,
      "step": 407
    },
    {
      "entropy": 0.5387707352638245,
      "epoch": 1.5233644859813085,
      "grad_norm": 0.039791349321603775,
      "learning_rate": 0.0002,
      "loss": 0.5529868006706238,
      "mean_token_accuracy": 0.7759213447570801,
      "num_tokens": 6649378.0,
      "step": 408
    },
    {
      "entropy": 0.5559847801923752,
      "epoch": 1.5271028037383179,
      "grad_norm": 0.02880096808075905,
      "learning_rate": 0.0002,
      "loss": 0.5526622533798218,
      "mean_token_accuracy": 0.7757584452629089,
      "num_tokens": 6665680.0,
      "step": 409
    },
    {
      "entropy": 0.5568434447050095,
      "epoch": 1.5308411214953273,
      "grad_norm": 0.03131592646241188,
      "learning_rate": 0.0002,
      "loss": 0.5511536002159119,
      "mean_token_accuracy": 0.7751762717962265,
      "num_tokens": 6682037.0,
      "step": 410
    },
    {
      "entropy": 0.5535785406827927,
      "epoch": 1.5345794392523364,
      "grad_norm": 0.027654770761728287,
      "learning_rate": 0.0002,
      "loss": 0.5505651831626892,
      "mean_token_accuracy": 0.7777209877967834,
      "num_tokens": 6698293.0,
      "step": 411
    },
    {
      "entropy": 0.5670723766088486,
      "epoch": 1.5383177570093458,
      "grad_norm": 0.028583014383912086,
      "learning_rate": 0.0002,
      "loss": 0.562312662601471,
      "mean_token_accuracy": 0.7695807963609695,
      "num_tokens": 6714701.0,
      "step": 412
    },
    {
      "entropy": 0.5622154772281647,
      "epoch": 1.542056074766355,
      "grad_norm": 0.02976270206272602,
      "learning_rate": 0.0002,
      "loss": 0.5625367164611816,
      "mean_token_accuracy": 0.7716499269008636,
      "num_tokens": 6731185.0,
      "step": 413
    },
    {
      "entropy": 0.5430750995874405,
      "epoch": 1.5457943925233644,
      "grad_norm": 0.033997952938079834,
      "learning_rate": 0.0002,
      "loss": 0.5533574819564819,
      "mean_token_accuracy": 0.7739907056093216,
      "num_tokens": 6747611.0,
      "step": 414
    },
    {
      "entropy": 0.5383965522050858,
      "epoch": 1.5495327102803738,
      "grad_norm": 0.030417680740356445,
      "learning_rate": 0.0002,
      "loss": 0.5392584204673767,
      "mean_token_accuracy": 0.781003326177597,
      "num_tokens": 6764041.0,
      "step": 415
    },
    {
      "entropy": 0.5423173159360886,
      "epoch": 1.5532710280373832,
      "grad_norm": 0.03076282888650894,
      "learning_rate": 0.0002,
      "loss": 0.5466949343681335,
      "mean_token_accuracy": 0.7772891670465469,
      "num_tokens": 6780355.0,
      "step": 416
    },
    {
      "entropy": 0.5329848676919937,
      "epoch": 1.5570093457943925,
      "grad_norm": 0.031416404992341995,
      "learning_rate": 0.0002,
      "loss": 0.5372002720832825,
      "mean_token_accuracy": 0.7831790894269943,
      "num_tokens": 6796818.0,
      "step": 417
    },
    {
      "entropy": 0.5694616734981537,
      "epoch": 1.560747663551402,
      "grad_norm": 0.03140864148736,
      "learning_rate": 0.0002,
      "loss": 0.5736896395683289,
      "mean_token_accuracy": 0.7680276483297348,
      "num_tokens": 6813313.0,
      "step": 418
    },
    {
      "entropy": 0.5422861874103546,
      "epoch": 1.5644859813084113,
      "grad_norm": 0.029503118246793747,
      "learning_rate": 0.0002,
      "loss": 0.5412414073944092,
      "mean_token_accuracy": 0.7787739634513855,
      "num_tokens": 6829806.0,
      "step": 419
    },
    {
      "entropy": 0.5583456158638,
      "epoch": 1.5682242990654207,
      "grad_norm": 0.02907589264214039,
      "learning_rate": 0.0002,
      "loss": 0.5538471937179565,
      "mean_token_accuracy": 0.7733865231275558,
      "num_tokens": 6846001.0,
      "step": 420
    },
    {
      "entropy": 0.541300505399704,
      "epoch": 1.5719626168224299,
      "grad_norm": 0.030364159494638443,
      "learning_rate": 0.0002,
      "loss": 0.5440077781677246,
      "mean_token_accuracy": 0.7778935730457306,
      "num_tokens": 6862199.0,
      "step": 421
    },
    {
      "entropy": 0.5432893335819244,
      "epoch": 1.5757009345794393,
      "grad_norm": 0.030575595796108246,
      "learning_rate": 0.0002,
      "loss": 0.5458940267562866,
      "mean_token_accuracy": 0.7759649753570557,
      "num_tokens": 6878579.0,
      "step": 422
    },
    {
      "entropy": 0.5597539693117142,
      "epoch": 1.5794392523364484,
      "grad_norm": 0.03023570403456688,
      "learning_rate": 0.0002,
      "loss": 0.5611036419868469,
      "mean_token_accuracy": 0.771359458565712,
      "num_tokens": 6895118.0,
      "step": 423
    },
    {
      "entropy": 0.5647385269403458,
      "epoch": 1.5831775700934578,
      "grad_norm": 0.03682006523013115,
      "learning_rate": 0.0002,
      "loss": 0.5706467032432556,
      "mean_token_accuracy": 0.7648251056671143,
      "num_tokens": 6911258.0,
      "step": 424
    },
    {
      "entropy": 0.5421442538499832,
      "epoch": 1.5869158878504672,
      "grad_norm": 0.02758963778614998,
      "learning_rate": 0.0002,
      "loss": 0.540165364742279,
      "mean_token_accuracy": 0.7803500890731812,
      "num_tokens": 6927685.0,
      "step": 425
    },
    {
      "entropy": 0.529248058795929,
      "epoch": 1.5906542056074766,
      "grad_norm": 0.03153234347701073,
      "learning_rate": 0.0002,
      "loss": 0.5238373875617981,
      "mean_token_accuracy": 0.7865803390741348,
      "num_tokens": 6944032.0,
      "step": 426
    },
    {
      "entropy": 0.575338825583458,
      "epoch": 1.594392523364486,
      "grad_norm": 0.038368549197912216,
      "learning_rate": 0.0002,
      "loss": 0.5686851739883423,
      "mean_token_accuracy": 0.7687085419893265,
      "num_tokens": 6960292.0,
      "step": 427
    },
    {
      "entropy": 0.5576592534780502,
      "epoch": 1.5981308411214954,
      "grad_norm": 0.028228625655174255,
      "learning_rate": 0.0002,
      "loss": 0.5487405061721802,
      "mean_token_accuracy": 0.7753542214632034,
      "num_tokens": 6976714.0,
      "step": 428
    },
    {
      "entropy": 0.5344701558351517,
      "epoch": 1.6018691588785048,
      "grad_norm": 0.04058045893907547,
      "learning_rate": 0.0002,
      "loss": 0.5446043014526367,
      "mean_token_accuracy": 0.7796988487243652,
      "num_tokens": 6993050.0,
      "step": 429
    },
    {
      "entropy": 0.5357878655195236,
      "epoch": 1.6056074766355142,
      "grad_norm": 0.03584378957748413,
      "learning_rate": 0.0002,
      "loss": 0.5503512620925903,
      "mean_token_accuracy": 0.7766520529985428,
      "num_tokens": 7009209.0,
      "step": 430
    },
    {
      "entropy": 0.5416888147592545,
      "epoch": 1.6093457943925233,
      "grad_norm": 0.035834796726703644,
      "learning_rate": 0.0002,
      "loss": 0.5537422895431519,
      "mean_token_accuracy": 0.7721364051103592,
      "num_tokens": 7025449.0,
      "step": 431
    },
    {
      "entropy": 0.5495986640453339,
      "epoch": 1.6130841121495327,
      "grad_norm": 0.032027650624513626,
      "learning_rate": 0.0002,
      "loss": 0.5545753836631775,
      "mean_token_accuracy": 0.7711912095546722,
      "num_tokens": 7041746.0,
      "step": 432
    },
    {
      "entropy": 0.545868456363678,
      "epoch": 1.616822429906542,
      "grad_norm": 0.03172159940004349,
      "learning_rate": 0.0002,
      "loss": 0.5401636958122253,
      "mean_token_accuracy": 0.7796500027179718,
      "num_tokens": 7057795.0,
      "step": 433
    },
    {
      "entropy": 0.5575663447380066,
      "epoch": 1.6205607476635513,
      "grad_norm": 0.033373311161994934,
      "learning_rate": 0.0002,
      "loss": 0.5508802533149719,
      "mean_token_accuracy": 0.776265561580658,
      "num_tokens": 7074106.0,
      "step": 434
    },
    {
      "entropy": 0.552743598818779,
      "epoch": 1.6242990654205607,
      "grad_norm": 0.028903203085064888,
      "learning_rate": 0.0002,
      "loss": 0.5493654012680054,
      "mean_token_accuracy": 0.7769621759653091,
      "num_tokens": 7090537.0,
      "step": 435
    },
    {
      "entropy": 0.5319768935441971,
      "epoch": 1.62803738317757,
      "grad_norm": 0.034539636224508286,
      "learning_rate": 0.0002,
      "loss": 0.5467936396598816,
      "mean_token_accuracy": 0.7773739099502563,
      "num_tokens": 7106864.0,
      "step": 436
    },
    {
      "entropy": 0.5451867878437042,
      "epoch": 1.6317757009345795,
      "grad_norm": 0.03423994407057762,
      "learning_rate": 0.0002,
      "loss": 0.5547507405281067,
      "mean_token_accuracy": 0.7716930210590363,
      "num_tokens": 7123027.0,
      "step": 437
    },
    {
      "entropy": 0.5614334046840668,
      "epoch": 1.6355140186915889,
      "grad_norm": 0.030570637434720993,
      "learning_rate": 0.0002,
      "loss": 0.5614769458770752,
      "mean_token_accuracy": 0.772892951965332,
      "num_tokens": 7139089.0,
      "step": 438
    },
    {
      "entropy": 0.5780467242002487,
      "epoch": 1.6392523364485982,
      "grad_norm": 0.028702719137072563,
      "learning_rate": 0.0002,
      "loss": 0.5703617334365845,
      "mean_token_accuracy": 0.7703514397144318,
      "num_tokens": 7155613.0,
      "step": 439
    },
    {
      "entropy": 0.5620117634534836,
      "epoch": 1.6429906542056076,
      "grad_norm": 0.032911110669374466,
      "learning_rate": 0.0002,
      "loss": 0.5519667863845825,
      "mean_token_accuracy": 0.776491329073906,
      "num_tokens": 7171940.0,
      "step": 440
    },
    {
      "entropy": 0.5613545030355453,
      "epoch": 1.6467289719626168,
      "grad_norm": 0.02767273783683777,
      "learning_rate": 0.0002,
      "loss": 0.5548912286758423,
      "mean_token_accuracy": 0.7774568051099777,
      "num_tokens": 7188459.0,
      "step": 441
    },
    {
      "entropy": 0.5349740386009216,
      "epoch": 1.6504672897196262,
      "grad_norm": 0.03398311510682106,
      "learning_rate": 0.0002,
      "loss": 0.5359267592430115,
      "mean_token_accuracy": 0.7792400866746902,
      "num_tokens": 7204742.0,
      "step": 442
    },
    {
      "entropy": 0.5435358434915543,
      "epoch": 1.6542056074766354,
      "grad_norm": 0.03121669590473175,
      "learning_rate": 0.0002,
      "loss": 0.5480291247367859,
      "mean_token_accuracy": 0.7757425308227539,
      "num_tokens": 7220970.0,
      "step": 443
    },
    {
      "entropy": 0.5408525168895721,
      "epoch": 1.6579439252336448,
      "grad_norm": 0.03187638521194458,
      "learning_rate": 0.0002,
      "loss": 0.5458962321281433,
      "mean_token_accuracy": 0.7777377218008041,
      "num_tokens": 7237303.0,
      "step": 444
    },
    {
      "entropy": 0.5296604186296463,
      "epoch": 1.6616822429906541,
      "grad_norm": 0.033922888338565826,
      "learning_rate": 0.0002,
      "loss": 0.5350003242492676,
      "mean_token_accuracy": 0.7817184776067734,
      "num_tokens": 7253313.0,
      "step": 445
    },
    {
      "entropy": 0.5386542528867722,
      "epoch": 1.6654205607476635,
      "grad_norm": 0.03487584367394447,
      "learning_rate": 0.0002,
      "loss": 0.5504403710365295,
      "mean_token_accuracy": 0.7764954715967178,
      "num_tokens": 7269689.0,
      "step": 446
    },
    {
      "entropy": 0.5447485446929932,
      "epoch": 1.669158878504673,
      "grad_norm": 0.028691545128822327,
      "learning_rate": 0.0002,
      "loss": 0.5440992712974548,
      "mean_token_accuracy": 0.7813538759946823,
      "num_tokens": 7286072.0,
      "step": 447
    },
    {
      "entropy": 0.5479656606912613,
      "epoch": 1.6728971962616823,
      "grad_norm": 0.02881709486246109,
      "learning_rate": 0.0002,
      "loss": 0.5415880084037781,
      "mean_token_accuracy": 0.7795199900865555,
      "num_tokens": 7302255.0,
      "step": 448
    },
    {
      "entropy": 0.5570111870765686,
      "epoch": 1.6766355140186917,
      "grad_norm": 0.028915997594594955,
      "learning_rate": 0.0002,
      "loss": 0.5533952713012695,
      "mean_token_accuracy": 0.7753083109855652,
      "num_tokens": 7318517.0,
      "step": 449
    },
    {
      "entropy": 0.5548125952482224,
      "epoch": 1.680373831775701,
      "grad_norm": 0.029765961691737175,
      "learning_rate": 0.0002,
      "loss": 0.5539486408233643,
      "mean_token_accuracy": 0.7759220153093338,
      "num_tokens": 7334708.0,
      "step": 450
    },
    {
      "entropy": 0.5474168807268143,
      "epoch": 1.6841121495327103,
      "grad_norm": 0.028495540842413902,
      "learning_rate": 0.0002,
      "loss": 0.542155921459198,
      "mean_token_accuracy": 0.7810131311416626,
      "num_tokens": 7351081.0,
      "step": 451
    },
    {
      "entropy": 0.5660932809114456,
      "epoch": 1.6878504672897197,
      "grad_norm": 0.029109494760632515,
      "learning_rate": 0.0002,
      "loss": 0.5608826279640198,
      "mean_token_accuracy": 0.7715775072574615,
      "num_tokens": 7367731.0,
      "step": 452
    },
    {
      "entropy": 0.5341303050518036,
      "epoch": 1.6915887850467288,
      "grad_norm": 0.0320415273308754,
      "learning_rate": 0.0002,
      "loss": 0.5458233952522278,
      "mean_token_accuracy": 0.7763672173023224,
      "num_tokens": 7383855.0,
      "step": 453
    },
    {
      "entropy": 0.5321396738290787,
      "epoch": 1.6953271028037382,
      "grad_norm": 0.02727021649479866,
      "learning_rate": 0.0002,
      "loss": 0.5336453318595886,
      "mean_token_accuracy": 0.7841753661632538,
      "num_tokens": 7400413.0,
      "step": 454
    },
    {
      "entropy": 0.5274764150381088,
      "epoch": 1.6990654205607476,
      "grad_norm": 0.03324299305677414,
      "learning_rate": 0.0002,
      "loss": 0.5358706116676331,
      "mean_token_accuracy": 0.7782862633466721,
      "num_tokens": 7416652.0,
      "step": 455
    },
    {
      "entropy": 0.5659113973379135,
      "epoch": 1.702803738317757,
      "grad_norm": 0.02792423591017723,
      "learning_rate": 0.0002,
      "loss": 0.5652596354484558,
      "mean_token_accuracy": 0.7699151486158371,
      "num_tokens": 7433182.0,
      "step": 456
    },
    {
      "entropy": 0.5379252284765244,
      "epoch": 1.7065420560747664,
      "grad_norm": 0.029364224523305893,
      "learning_rate": 0.0002,
      "loss": 0.5403070449829102,
      "mean_token_accuracy": 0.780923143029213,
      "num_tokens": 7449489.0,
      "step": 457
    },
    {
      "entropy": 0.5333061218261719,
      "epoch": 1.7102803738317758,
      "grad_norm": 0.03605153039097786,
      "learning_rate": 0.0002,
      "loss": 0.5397148728370667,
      "mean_token_accuracy": 0.7807264924049377,
      "num_tokens": 7465639.0,
      "step": 458
    },
    {
      "entropy": 0.5705498605966568,
      "epoch": 1.7140186915887852,
      "grad_norm": 0.03089967370033264,
      "learning_rate": 0.0002,
      "loss": 0.5634230375289917,
      "mean_token_accuracy": 0.770861804485321,
      "num_tokens": 7482026.0,
      "step": 459
    },
    {
      "entropy": 0.5468743443489075,
      "epoch": 1.7177570093457943,
      "grad_norm": 0.030453559011220932,
      "learning_rate": 0.0002,
      "loss": 0.545179545879364,
      "mean_token_accuracy": 0.7774305045604706,
      "num_tokens": 7498135.0,
      "step": 460
    },
    {
      "entropy": 0.5617033839225769,
      "epoch": 1.7214953271028037,
      "grad_norm": 0.03324849158525467,
      "learning_rate": 0.0002,
      "loss": 0.5638455748558044,
      "mean_token_accuracy": 0.7687248736619949,
      "num_tokens": 7514525.0,
      "step": 461
    },
    {
      "entropy": 0.5581229031085968,
      "epoch": 1.7252336448598131,
      "grad_norm": 0.03176411613821983,
      "learning_rate": 0.0002,
      "loss": 0.5653245449066162,
      "mean_token_accuracy": 0.7685625553131104,
      "num_tokens": 7530775.0,
      "step": 462
    },
    {
      "entropy": 0.5476332157850266,
      "epoch": 1.7289719626168223,
      "grad_norm": 0.02840348146855831,
      "learning_rate": 0.0002,
      "loss": 0.5459728240966797,
      "mean_token_accuracy": 0.7803480625152588,
      "num_tokens": 7547133.0,
      "step": 463
    },
    {
      "entropy": 0.5295307040214539,
      "epoch": 1.7327102803738317,
      "grad_norm": 0.03073256090283394,
      "learning_rate": 0.0002,
      "loss": 0.5271958708763123,
      "mean_token_accuracy": 0.7856812626123428,
      "num_tokens": 7563202.0,
      "step": 464
    },
    {
      "entropy": 0.5600748807191849,
      "epoch": 1.736448598130841,
      "grad_norm": 0.02645997144281864,
      "learning_rate": 0.0002,
      "loss": 0.5613283514976501,
      "mean_token_accuracy": 0.7728501409292221,
      "num_tokens": 7579316.0,
      "step": 465
    },
    {
      "entropy": 0.5520564913749695,
      "epoch": 1.7401869158878505,
      "grad_norm": 0.03572427108883858,
      "learning_rate": 0.0002,
      "loss": 0.5537987947463989,
      "mean_token_accuracy": 0.7724860310554504,
      "num_tokens": 7595641.0,
      "step": 466
    },
    {
      "entropy": 0.5529971420764923,
      "epoch": 1.7439252336448599,
      "grad_norm": 0.03125125169754028,
      "learning_rate": 0.0002,
      "loss": 0.5582661628723145,
      "mean_token_accuracy": 0.7737809270620346,
      "num_tokens": 7611643.0,
      "step": 467
    },
    {
      "entropy": 0.5647894889116287,
      "epoch": 1.7476635514018692,
      "grad_norm": 0.029365174472332,
      "learning_rate": 0.0002,
      "loss": 0.5628995895385742,
      "mean_token_accuracy": 0.770697221159935,
      "num_tokens": 7628011.0,
      "step": 468
    },
    {
      "entropy": 0.554974377155304,
      "epoch": 1.7514018691588786,
      "grad_norm": 0.03162689507007599,
      "learning_rate": 0.0002,
      "loss": 0.5540342330932617,
      "mean_token_accuracy": 0.7753277122974396,
      "num_tokens": 7644033.0,
      "step": 469
    },
    {
      "entropy": 0.5500662177801132,
      "epoch": 1.7551401869158878,
      "grad_norm": 0.03005298413336277,
      "learning_rate": 0.0002,
      "loss": 0.5444310307502747,
      "mean_token_accuracy": 0.7801364362239838,
      "num_tokens": 7660280.0,
      "step": 470
    },
    {
      "entropy": 0.5447323620319366,
      "epoch": 1.7588785046728972,
      "grad_norm": 0.03137346729636192,
      "learning_rate": 0.0002,
      "loss": 0.5573670864105225,
      "mean_token_accuracy": 0.7713485956192017,
      "num_tokens": 7676463.0,
      "step": 471
    },
    {
      "entropy": 0.5369779318571091,
      "epoch": 1.7626168224299066,
      "grad_norm": 0.03314938396215439,
      "learning_rate": 0.0002,
      "loss": 0.5444561839103699,
      "mean_token_accuracy": 0.7770639657974243,
      "num_tokens": 7692602.0,
      "step": 472
    },
    {
      "entropy": 0.5475834012031555,
      "epoch": 1.7663551401869158,
      "grad_norm": 0.02887626923620701,
      "learning_rate": 0.0002,
      "loss": 0.548475980758667,
      "mean_token_accuracy": 0.7783610373735428,
      "num_tokens": 7708846.0,
      "step": 473
    },
    {
      "entropy": 0.5512323975563049,
      "epoch": 1.7700934579439251,
      "grad_norm": 0.029940130189061165,
      "learning_rate": 0.0002,
      "loss": 0.5473303198814392,
      "mean_token_accuracy": 0.7762128710746765,
      "num_tokens": 7725069.0,
      "step": 474
    },
    {
      "entropy": 0.553005576133728,
      "epoch": 1.7738317757009345,
      "grad_norm": 0.030464377254247665,
      "learning_rate": 0.0002,
      "loss": 0.5503718852996826,
      "mean_token_accuracy": 0.774563655257225,
      "num_tokens": 7741245.0,
      "step": 475
    },
    {
      "entropy": 0.5530129075050354,
      "epoch": 1.777570093457944,
      "grad_norm": 0.03166594356298447,
      "learning_rate": 0.0002,
      "loss": 0.5523677468299866,
      "mean_token_accuracy": 0.7772203087806702,
      "num_tokens": 7757438.0,
      "step": 476
    },
    {
      "entropy": 0.5589546114206314,
      "epoch": 1.7813084112149533,
      "grad_norm": 0.031029848381876945,
      "learning_rate": 0.0002,
      "loss": 0.562568724155426,
      "mean_token_accuracy": 0.7697692364454269,
      "num_tokens": 7773613.0,
      "step": 477
    },
    {
      "entropy": 0.5485216081142426,
      "epoch": 1.7850467289719627,
      "grad_norm": 0.03148766979575157,
      "learning_rate": 0.0002,
      "loss": 0.5566563010215759,
      "mean_token_accuracy": 0.7735153138637543,
      "num_tokens": 7790250.0,
      "step": 478
    },
    {
      "entropy": 0.5454483330249786,
      "epoch": 1.788785046728972,
      "grad_norm": 0.02934390679001808,
      "learning_rate": 0.0002,
      "loss": 0.5470514297485352,
      "mean_token_accuracy": 0.777851864695549,
      "num_tokens": 7806794.0,
      "step": 479
    },
    {
      "entropy": 0.5577091723680496,
      "epoch": 1.7925233644859813,
      "grad_norm": 0.032060954719781876,
      "learning_rate": 0.0002,
      "loss": 0.5573920011520386,
      "mean_token_accuracy": 0.7715256214141846,
      "num_tokens": 7823378.0,
      "step": 480
    },
    {
      "entropy": 0.5442305952310562,
      "epoch": 1.7962616822429907,
      "grad_norm": 0.027305442839860916,
      "learning_rate": 0.0002,
      "loss": 0.5404268503189087,
      "mean_token_accuracy": 0.7780007869005203,
      "num_tokens": 7839749.0,
      "step": 481
    },
    {
      "entropy": 0.5555779784917831,
      "epoch": 1.8,
      "grad_norm": 0.03287232294678688,
      "learning_rate": 0.0002,
      "loss": 0.5462092161178589,
      "mean_token_accuracy": 0.7763689607381821,
      "num_tokens": 7855947.0,
      "step": 482
    },
    {
      "entropy": 0.5372089967131615,
      "epoch": 1.8037383177570092,
      "grad_norm": 0.031652286648750305,
      "learning_rate": 0.0002,
      "loss": 0.5363561511039734,
      "mean_token_accuracy": 0.7853012979030609,
      "num_tokens": 7872142.0,
      "step": 483
    },
    {
      "entropy": 0.5340928807854652,
      "epoch": 1.8074766355140186,
      "grad_norm": 0.031619228422641754,
      "learning_rate": 0.0002,
      "loss": 0.5403937697410583,
      "mean_token_accuracy": 0.7826676219701767,
      "num_tokens": 7888470.0,
      "step": 484
    },
    {
      "entropy": 0.5592721551656723,
      "epoch": 1.811214953271028,
      "grad_norm": 0.03946106135845184,
      "learning_rate": 0.0002,
      "loss": 0.5722806453704834,
      "mean_token_accuracy": 0.7665584683418274,
      "num_tokens": 7904942.0,
      "step": 485
    },
    {
      "entropy": 0.5392829775810242,
      "epoch": 1.8149532710280374,
      "grad_norm": 0.04261912405490875,
      "learning_rate": 0.0002,
      "loss": 0.5484760999679565,
      "mean_token_accuracy": 0.7759799510240555,
      "num_tokens": 7921095.0,
      "step": 486
    },
    {
      "entropy": 0.5537964701652527,
      "epoch": 1.8186915887850468,
      "grad_norm": 0.029489269480109215,
      "learning_rate": 0.0002,
      "loss": 0.5515441298484802,
      "mean_token_accuracy": 0.7770739942789078,
      "num_tokens": 7937493.0,
      "step": 487
    },
    {
      "entropy": 0.5820317566394806,
      "epoch": 1.8224299065420562,
      "grad_norm": 0.032789647579193115,
      "learning_rate": 0.0002,
      "loss": 0.5696999430656433,
      "mean_token_accuracy": 0.766129344701767,
      "num_tokens": 7953872.0,
      "step": 488
    },
    {
      "entropy": 0.5591157823801041,
      "epoch": 1.8261682242990656,
      "grad_norm": 0.03274792060256004,
      "learning_rate": 0.0002,
      "loss": 0.5492164492607117,
      "mean_token_accuracy": 0.7776104360818863,
      "num_tokens": 7970399.0,
      "step": 489
    },
    {
      "entropy": 0.5613900125026703,
      "epoch": 1.8299065420560747,
      "grad_norm": 0.03268195316195488,
      "learning_rate": 0.0002,
      "loss": 0.5613545179367065,
      "mean_token_accuracy": 0.7726269513368607,
      "num_tokens": 7986663.0,
      "step": 490
    },
    {
      "entropy": 0.540773555636406,
      "epoch": 1.8336448598130841,
      "grad_norm": 0.031849462538957596,
      "learning_rate": 0.0002,
      "loss": 0.5427927374839783,
      "mean_token_accuracy": 0.7795483022928238,
      "num_tokens": 8002949.0,
      "step": 491
    },
    {
      "entropy": 0.5281448513269424,
      "epoch": 1.8373831775700935,
      "grad_norm": 0.037760283797979355,
      "learning_rate": 0.0002,
      "loss": 0.5398802161216736,
      "mean_token_accuracy": 0.7793932110071182,
      "num_tokens": 8018924.0,
      "step": 492
    },
    {
      "entropy": 0.5640152990818024,
      "epoch": 1.8411214953271027,
      "grad_norm": 0.03318220004439354,
      "learning_rate": 0.0002,
      "loss": 0.5651699900627136,
      "mean_token_accuracy": 0.7711258381605148,
      "num_tokens": 8035544.0,
      "step": 493
    },
    {
      "entropy": 0.5498005002737045,
      "epoch": 1.844859813084112,
      "grad_norm": 0.0300876684486866,
      "learning_rate": 0.0002,
      "loss": 0.5483426451683044,
      "mean_token_accuracy": 0.777212604880333,
      "num_tokens": 8051604.0,
      "step": 494
    },
    {
      "entropy": 0.5553054213523865,
      "epoch": 1.8485981308411215,
      "grad_norm": 0.03142329677939415,
      "learning_rate": 0.0002,
      "loss": 0.5571571588516235,
      "mean_token_accuracy": 0.7740218490362167,
      "num_tokens": 8067812.0,
      "step": 495
    },
    {
      "entropy": 0.5580199360847473,
      "epoch": 1.8523364485981308,
      "grad_norm": 0.03293558582663536,
      "learning_rate": 0.0002,
      "loss": 0.5583306550979614,
      "mean_token_accuracy": 0.7746147364377975,
      "num_tokens": 8083966.0,
      "step": 496
    },
    {
      "entropy": 0.5503615736961365,
      "epoch": 1.8560747663551402,
      "grad_norm": 0.031184855848550797,
      "learning_rate": 0.0002,
      "loss": 0.5509845614433289,
      "mean_token_accuracy": 0.7762554883956909,
      "num_tokens": 8100276.0,
      "step": 497
    },
    {
      "entropy": 0.5609902739524841,
      "epoch": 1.8598130841121496,
      "grad_norm": 0.03478863090276718,
      "learning_rate": 0.0002,
      "loss": 0.5611089468002319,
      "mean_token_accuracy": 0.7710845172405243,
      "num_tokens": 8116579.0,
      "step": 498
    },
    {
      "entropy": 0.5358163863420486,
      "epoch": 1.863551401869159,
      "grad_norm": 0.03343072161078453,
      "learning_rate": 0.0002,
      "loss": 0.5352976322174072,
      "mean_token_accuracy": 0.7815191894769669,
      "num_tokens": 8132938.0,
      "step": 499
    },
    {
      "entropy": 0.5323279201984406,
      "epoch": 1.8672897196261682,
      "grad_norm": 0.030239535495638847,
      "learning_rate": 0.0002,
      "loss": 0.5383006930351257,
      "mean_token_accuracy": 0.7808633744716644,
      "num_tokens": 8149182.0,
      "step": 500
    },
    {
      "entropy": 0.557625338435173,
      "epoch": 1.8710280373831776,
      "grad_norm": 0.031314413994550705,
      "learning_rate": 0.0002,
      "loss": 0.5607120990753174,
      "mean_token_accuracy": 0.7726259678602219,
      "num_tokens": 8165713.0,
      "step": 501
    },
    {
      "entropy": 0.5501556247472763,
      "epoch": 1.874766355140187,
      "grad_norm": 0.029330939054489136,
      "learning_rate": 0.0002,
      "loss": 0.5527728796005249,
      "mean_token_accuracy": 0.7722220122814178,
      "num_tokens": 8182157.0,
      "step": 502
    },
    {
      "entropy": 0.5571380257606506,
      "epoch": 1.8785046728971961,
      "grad_norm": 0.027965383604168892,
      "learning_rate": 0.0002,
      "loss": 0.5537632703781128,
      "mean_token_accuracy": 0.7755916863679886,
      "num_tokens": 8198641.0,
      "step": 503
    },
    {
      "entropy": 0.5457630455493927,
      "epoch": 1.8822429906542055,
      "grad_norm": 0.030688611790537834,
      "learning_rate": 0.0002,
      "loss": 0.5442954897880554,
      "mean_token_accuracy": 0.7765072137117386,
      "num_tokens": 8214799.0,
      "step": 504
    },
    {
      "entropy": 0.5432839095592499,
      "epoch": 1.885981308411215,
      "grad_norm": 0.0319070965051651,
      "learning_rate": 0.0002,
      "loss": 0.5535275936126709,
      "mean_token_accuracy": 0.7709672451019287,
      "num_tokens": 8230973.0,
      "step": 505
    },
    {
      "entropy": 0.5594919174909592,
      "epoch": 1.8897196261682243,
      "grad_norm": 0.04258793592453003,
      "learning_rate": 0.0002,
      "loss": 0.5607203841209412,
      "mean_token_accuracy": 0.7712259739637375,
      "num_tokens": 8247156.0,
      "step": 506
    },
    {
      "entropy": 0.5589391887187958,
      "epoch": 1.8934579439252337,
      "grad_norm": 0.033864762634038925,
      "learning_rate": 0.0002,
      "loss": 0.5650033950805664,
      "mean_token_accuracy": 0.7718524932861328,
      "num_tokens": 8263441.0,
      "step": 507
    },
    {
      "entropy": 0.5569577813148499,
      "epoch": 1.897196261682243,
      "grad_norm": 0.03338006138801575,
      "learning_rate": 0.0002,
      "loss": 0.5555600523948669,
      "mean_token_accuracy": 0.7759018540382385,
      "num_tokens": 8279848.0,
      "step": 508
    },
    {
      "entropy": 0.5524785667657852,
      "epoch": 1.9009345794392525,
      "grad_norm": 0.034291088581085205,
      "learning_rate": 0.0002,
      "loss": 0.554389238357544,
      "mean_token_accuracy": 0.7732797265052795,
      "num_tokens": 8296286.0,
      "step": 509
    },
    {
      "entropy": 0.5341912508010864,
      "epoch": 1.9046728971962616,
      "grad_norm": 0.03332460671663284,
      "learning_rate": 0.0002,
      "loss": 0.5296705365180969,
      "mean_token_accuracy": 0.7850336581468582,
      "num_tokens": 8312462.0,
      "step": 510
    },
    {
      "entropy": 0.5374017357826233,
      "epoch": 1.908411214953271,
      "grad_norm": 0.029762303456664085,
      "learning_rate": 0.0002,
      "loss": 0.5377117395401001,
      "mean_token_accuracy": 0.7782561480998993,
      "num_tokens": 8328514.0,
      "step": 511
    },
    {
      "entropy": 0.5621481090784073,
      "epoch": 1.9121495327102802,
      "grad_norm": 0.02770383097231388,
      "learning_rate": 0.0002,
      "loss": 0.556929349899292,
      "mean_token_accuracy": 0.7750183939933777,
      "num_tokens": 8345018.0,
      "step": 512
    },
    {
      "entropy": 0.5308145210146904,
      "epoch": 1.9158878504672896,
      "grad_norm": 0.031799450516700745,
      "learning_rate": 0.0002,
      "loss": 0.5367879867553711,
      "mean_token_accuracy": 0.7811458259820938,
      "num_tokens": 8361450.0,
      "step": 513
    },
    {
      "entropy": 0.5505598485469818,
      "epoch": 1.919626168224299,
      "grad_norm": 0.030035199597477913,
      "learning_rate": 0.0002,
      "loss": 0.55583256483078,
      "mean_token_accuracy": 0.7735087871551514,
      "num_tokens": 8378205.0,
      "step": 514
    },
    {
      "entropy": 0.5498997569084167,
      "epoch": 1.9233644859813084,
      "grad_norm": 0.031478267163038254,
      "learning_rate": 0.0002,
      "loss": 0.554360568523407,
      "mean_token_accuracy": 0.7755851894617081,
      "num_tokens": 8394730.0,
      "step": 515
    },
    {
      "entropy": 0.5447141826152802,
      "epoch": 1.9271028037383178,
      "grad_norm": 0.034256696701049805,
      "learning_rate": 0.0002,
      "loss": 0.5524182915687561,
      "mean_token_accuracy": 0.7743232250213623,
      "num_tokens": 8410799.0,
      "step": 516
    },
    {
      "entropy": 0.5548212677240372,
      "epoch": 1.9308411214953272,
      "grad_norm": 0.0296107679605484,
      "learning_rate": 0.0002,
      "loss": 0.5498183965682983,
      "mean_token_accuracy": 0.7740313857793808,
      "num_tokens": 8427372.0,
      "step": 517
    },
    {
      "entropy": 0.5684213787317276,
      "epoch": 1.9345794392523366,
      "grad_norm": 0.03422481194138527,
      "learning_rate": 0.0002,
      "loss": 0.5559389591217041,
      "mean_token_accuracy": 0.7754881531000137,
      "num_tokens": 8443822.0,
      "step": 518
    },
    {
      "entropy": 0.5545912981033325,
      "epoch": 1.938317757009346,
      "grad_norm": 0.031684234738349915,
      "learning_rate": 0.0002,
      "loss": 0.5498573780059814,
      "mean_token_accuracy": 0.7783227860927582,
      "num_tokens": 8460032.0,
      "step": 519
    },
    {
      "entropy": 0.5595797300338745,
      "epoch": 1.9420560747663551,
      "grad_norm": 0.02719406597316265,
      "learning_rate": 0.0002,
      "loss": 0.5614221096038818,
      "mean_token_accuracy": 0.7715103030204773,
      "num_tokens": 8476297.0,
      "step": 520
    },
    {
      "entropy": 0.5345963835716248,
      "epoch": 1.9457943925233645,
      "grad_norm": 0.03023097850382328,
      "learning_rate": 0.0002,
      "loss": 0.5425735116004944,
      "mean_token_accuracy": 0.7805851995944977,
      "num_tokens": 8492637.0,
      "step": 521
    },
    {
      "entropy": 0.5391188263893127,
      "epoch": 1.9495327102803737,
      "grad_norm": 0.05476713180541992,
      "learning_rate": 0.0002,
      "loss": 0.5556075572967529,
      "mean_token_accuracy": 0.7749961167573929,
      "num_tokens": 8509129.0,
      "step": 522
    },
    {
      "entropy": 0.5553655624389648,
      "epoch": 1.953271028037383,
      "grad_norm": 0.03542236238718033,
      "learning_rate": 0.0002,
      "loss": 0.5655393004417419,
      "mean_token_accuracy": 0.7717009782791138,
      "num_tokens": 8525641.0,
      "step": 523
    },
    {
      "entropy": 0.5613285005092621,
      "epoch": 1.9570093457943925,
      "grad_norm": 0.06946822255849838,
      "learning_rate": 0.0002,
      "loss": 0.5717962384223938,
      "mean_token_accuracy": 0.7724136412143707,
      "num_tokens": 8542275.0,
      "step": 524
    },
    {
      "entropy": 0.5575561076402664,
      "epoch": 1.9607476635514018,
      "grad_norm": 0.03460278734564781,
      "learning_rate": 0.0002,
      "loss": 0.5417395830154419,
      "mean_token_accuracy": 0.7819567322731018,
      "num_tokens": 8558373.0,
      "step": 525
    },
    {
      "entropy": 0.5704021006822586,
      "epoch": 1.9644859813084112,
      "grad_norm": 0.030037706717848778,
      "learning_rate": 0.0002,
      "loss": 0.5573901534080505,
      "mean_token_accuracy": 0.7713392674922943,
      "num_tokens": 8574839.0,
      "step": 526
    },
    {
      "entropy": 0.5286285877227783,
      "epoch": 1.9682242990654206,
      "grad_norm": 0.032038215547800064,
      "learning_rate": 0.0002,
      "loss": 0.5231573581695557,
      "mean_token_accuracy": 0.7873097807168961,
      "num_tokens": 8591063.0,
      "step": 527
    },
    {
      "entropy": 0.535316064953804,
      "epoch": 1.97196261682243,
      "grad_norm": 0.04137961193919182,
      "learning_rate": 0.0002,
      "loss": 0.5491993427276611,
      "mean_token_accuracy": 0.7760031670331955,
      "num_tokens": 8607354.0,
      "step": 528
    },
    {
      "entropy": 0.5287620276212692,
      "epoch": 1.9757009345794394,
      "grad_norm": 0.03144775703549385,
      "learning_rate": 0.0002,
      "loss": 0.5313848853111267,
      "mean_token_accuracy": 0.784307450056076,
      "num_tokens": 8623542.0,
      "step": 529
    },
    {
      "entropy": 0.5521504878997803,
      "epoch": 1.9794392523364486,
      "grad_norm": 0.03497127816081047,
      "learning_rate": 0.0002,
      "loss": 0.5516395568847656,
      "mean_token_accuracy": 0.7736653387546539,
      "num_tokens": 8639626.0,
      "step": 530
    },
    {
      "entropy": 0.5580714792013168,
      "epoch": 1.983177570093458,
      "grad_norm": 0.030566083267331123,
      "learning_rate": 0.0002,
      "loss": 0.5535013675689697,
      "mean_token_accuracy": 0.7748955637216568,
      "num_tokens": 8655957.0,
      "step": 531
    },
    {
      "entropy": 0.5411636233329773,
      "epoch": 1.9869158878504671,
      "grad_norm": 0.03356699272990227,
      "learning_rate": 0.0002,
      "loss": 0.5376905202865601,
      "mean_token_accuracy": 0.7788012474775314,
      "num_tokens": 8672109.0,
      "step": 532
    },
    {
      "entropy": 0.5470294207334518,
      "epoch": 1.9906542056074765,
      "grad_norm": 0.0316782146692276,
      "learning_rate": 0.0002,
      "loss": 0.5445536971092224,
      "mean_token_accuracy": 0.7801567167043686,
      "num_tokens": 8688512.0,
      "step": 533
    },
    {
      "entropy": 0.5573801398277283,
      "epoch": 1.994392523364486,
      "grad_norm": 0.0308368057012558,
      "learning_rate": 0.0002,
      "loss": 0.5613093376159668,
      "mean_token_accuracy": 0.7755008339881897,
      "num_tokens": 8704882.0,
      "step": 534
    },
    {
      "entropy": 0.5606262683868408,
      "epoch": 1.9981308411214953,
      "grad_norm": 0.033759523183107376,
      "learning_rate": 0.0002,
      "loss": 0.5673450827598572,
      "mean_token_accuracy": 0.7693974524736404,
      "num_tokens": 8721476.0,
      "step": 535
    },
    {
      "entropy": 0.5470572412014008,
      "epoch": 2.0,
      "grad_norm": 0.045990657061338425,
      "learning_rate": 0.0002,
      "loss": 0.5525597333908081,
      "mean_token_accuracy": 0.7788615226745605,
      "num_tokens": 8729601.0,
      "step": 536
    },
    {
      "entropy": 0.5381215959787369,
      "epoch": 2.0037383177570094,
      "grad_norm": 0.03212118148803711,
      "learning_rate": 0.0002,
      "loss": 0.5325874090194702,
      "mean_token_accuracy": 0.7825482040643692,
      "num_tokens": 8745950.0,
      "step": 537
    },
    {
      "entropy": 0.5637937486171722,
      "epoch": 2.007476635514019,
      "grad_norm": 0.036541201174259186,
      "learning_rate": 0.0002,
      "loss": 0.5618294477462769,
      "mean_token_accuracy": 0.773602232336998,
      "num_tokens": 8762499.0,
      "step": 538
    },
    {
      "entropy": 0.5491923093795776,
      "epoch": 2.011214953271028,
      "grad_norm": 0.033549197018146515,
      "learning_rate": 0.0002,
      "loss": 0.548430323600769,
      "mean_token_accuracy": 0.7764875292778015,
      "num_tokens": 8778855.0,
      "step": 539
    },
    {
      "entropy": 0.5251094102859497,
      "epoch": 2.0149532710280376,
      "grad_norm": 0.036079153418540955,
      "learning_rate": 0.0002,
      "loss": 0.5315405130386353,
      "mean_token_accuracy": 0.7840714603662491,
      "num_tokens": 8794810.0,
      "step": 540
    },
    {
      "entropy": 0.5423221588134766,
      "epoch": 2.0186915887850465,
      "grad_norm": 0.03329861909151077,
      "learning_rate": 0.0002,
      "loss": 0.5420343279838562,
      "mean_token_accuracy": 0.7797907888889313,
      "num_tokens": 8811426.0,
      "step": 541
    },
    {
      "entropy": 0.5213563144207001,
      "epoch": 2.022429906542056,
      "grad_norm": 0.03049337863922119,
      "learning_rate": 0.0002,
      "loss": 0.5193029642105103,
      "mean_token_accuracy": 0.7878206521272659,
      "num_tokens": 8827505.0,
      "step": 542
    },
    {
      "entropy": 0.5485236346721649,
      "epoch": 2.0261682242990653,
      "grad_norm": 0.038072168827056885,
      "learning_rate": 0.0002,
      "loss": 0.5403975248336792,
      "mean_token_accuracy": 0.7787782251834869,
      "num_tokens": 8843789.0,
      "step": 543
    },
    {
      "entropy": 0.5497236847877502,
      "epoch": 2.0299065420560747,
      "grad_norm": 0.037746790796518326,
      "learning_rate": 0.0002,
      "loss": 0.5424782037734985,
      "mean_token_accuracy": 0.7821084409952164,
      "num_tokens": 8860524.0,
      "step": 544
    },
    {
      "entropy": 0.5128878131508827,
      "epoch": 2.033644859813084,
      "grad_norm": 0.03184136748313904,
      "learning_rate": 0.0002,
      "loss": 0.5119982957839966,
      "mean_token_accuracy": 0.7925940603017807,
      "num_tokens": 8876520.0,
      "step": 545
    },
    {
      "entropy": 0.53415547311306,
      "epoch": 2.0373831775700935,
      "grad_norm": 0.04230194166302681,
      "learning_rate": 0.0002,
      "loss": 0.5436858534812927,
      "mean_token_accuracy": 0.7798719555139542,
      "num_tokens": 8892800.0,
      "step": 546
    },
    {
      "entropy": 0.527920126914978,
      "epoch": 2.041121495327103,
      "grad_norm": 0.035794876515865326,
      "learning_rate": 0.0002,
      "loss": 0.537831723690033,
      "mean_token_accuracy": 0.7832628786563873,
      "num_tokens": 8908779.0,
      "step": 547
    },
    {
      "entropy": 0.528620719909668,
      "epoch": 2.0448598130841122,
      "grad_norm": 0.043260980397462845,
      "learning_rate": 0.0002,
      "loss": 0.5385839343070984,
      "mean_token_accuracy": 0.7800839692354202,
      "num_tokens": 8925225.0,
      "step": 548
    },
    {
      "entropy": 0.5344889611005783,
      "epoch": 2.0485981308411216,
      "grad_norm": 0.03616830334067345,
      "learning_rate": 0.0002,
      "loss": 0.5279685258865356,
      "mean_token_accuracy": 0.7877432852983475,
      "num_tokens": 8941370.0,
      "step": 549
    },
    {
      "entropy": 0.5505447387695312,
      "epoch": 2.052336448598131,
      "grad_norm": 0.03392447903752327,
      "learning_rate": 0.0002,
      "loss": 0.5464667081832886,
      "mean_token_accuracy": 0.778993234038353,
      "num_tokens": 8957759.0,
      "step": 550
    },
    {
      "entropy": 0.537495419383049,
      "epoch": 2.05607476635514,
      "grad_norm": 0.03487386927008629,
      "learning_rate": 0.0002,
      "loss": 0.5327776074409485,
      "mean_token_accuracy": 0.7819164842367172,
      "num_tokens": 8974120.0,
      "step": 551
    },
    {
      "entropy": 0.5181033089756966,
      "epoch": 2.0598130841121494,
      "grad_norm": 0.03655601665377617,
      "learning_rate": 0.0002,
      "loss": 0.5197772979736328,
      "mean_token_accuracy": 0.7876780480146408,
      "num_tokens": 8990084.0,
      "step": 552
    },
    {
      "entropy": 0.5097288861870766,
      "epoch": 2.0635514018691588,
      "grad_norm": 0.04094317555427551,
      "learning_rate": 0.0002,
      "loss": 0.5214163661003113,
      "mean_token_accuracy": 0.7877646237611771,
      "num_tokens": 9006115.0,
      "step": 553
    },
    {
      "entropy": 0.5392448753118515,
      "epoch": 2.067289719626168,
      "grad_norm": 0.042336490005254745,
      "learning_rate": 0.0002,
      "loss": 0.5487770438194275,
      "mean_token_accuracy": 0.7746841162443161,
      "num_tokens": 9022503.0,
      "step": 554
    },
    {
      "entropy": 0.5353204905986786,
      "epoch": 2.0710280373831775,
      "grad_norm": 0.04751956835389137,
      "learning_rate": 0.0002,
      "loss": 0.5423939824104309,
      "mean_token_accuracy": 0.7819565683603287,
      "num_tokens": 9038587.0,
      "step": 555
    },
    {
      "entropy": 0.5576211661100388,
      "epoch": 2.074766355140187,
      "grad_norm": 0.034248773008584976,
      "learning_rate": 0.0002,
      "loss": 0.5450438261032104,
      "mean_token_accuracy": 0.7806050181388855,
      "num_tokens": 9054978.0,
      "step": 556
    },
    {
      "entropy": 0.5164358094334602,
      "epoch": 2.0785046728971963,
      "grad_norm": 0.03642895817756653,
      "learning_rate": 0.0002,
      "loss": 0.5048035979270935,
      "mean_token_accuracy": 0.7946237772703171,
      "num_tokens": 9071189.0,
      "step": 557
    },
    {
      "entropy": 0.5479462146759033,
      "epoch": 2.0822429906542057,
      "grad_norm": 0.03524266555905342,
      "learning_rate": 0.0002,
      "loss": 0.5424850583076477,
      "mean_token_accuracy": 0.7782812714576721,
      "num_tokens": 9087453.0,
      "step": 558
    },
    {
      "entropy": 0.5207670480012894,
      "epoch": 2.085981308411215,
      "grad_norm": 0.04086553677916527,
      "learning_rate": 0.0002,
      "loss": 0.5275461673736572,
      "mean_token_accuracy": 0.7870053201913834,
      "num_tokens": 9103538.0,
      "step": 559
    },
    {
      "entropy": 0.5350566729903221,
      "epoch": 2.0897196261682245,
      "grad_norm": 0.036386121064424515,
      "learning_rate": 0.0002,
      "loss": 0.5380175113677979,
      "mean_token_accuracy": 0.7814048826694489,
      "num_tokens": 9119858.0,
      "step": 560
    },
    {
      "entropy": 0.5368697345256805,
      "epoch": 2.0934579439252334,
      "grad_norm": 0.039366140961647034,
      "learning_rate": 0.0002,
      "loss": 0.5444531440734863,
      "mean_token_accuracy": 0.7792541682720184,
      "num_tokens": 9136204.0,
      "step": 561
    },
    {
      "entropy": 0.5295629873871803,
      "epoch": 2.097196261682243,
      "grad_norm": 0.03559441864490509,
      "learning_rate": 0.0002,
      "loss": 0.5286230444908142,
      "mean_token_accuracy": 0.784547358751297,
      "num_tokens": 9152718.0,
      "step": 562
    },
    {
      "entropy": 0.5568843930959702,
      "epoch": 2.100934579439252,
      "grad_norm": 0.034528154879808426,
      "learning_rate": 0.0002,
      "loss": 0.5466718077659607,
      "mean_token_accuracy": 0.7782703340053558,
      "num_tokens": 9168840.0,
      "step": 563
    },
    {
      "entropy": 0.5514650642871857,
      "epoch": 2.1046728971962616,
      "grad_norm": 0.034620221704244614,
      "learning_rate": 0.0002,
      "loss": 0.5481366515159607,
      "mean_token_accuracy": 0.7774865627288818,
      "num_tokens": 9185012.0,
      "step": 564
    },
    {
      "entropy": 0.5468508899211884,
      "epoch": 2.108411214953271,
      "grad_norm": 0.038367778062820435,
      "learning_rate": 0.0002,
      "loss": 0.5465208888053894,
      "mean_token_accuracy": 0.7787877917289734,
      "num_tokens": 9201579.0,
      "step": 565
    },
    {
      "entropy": 0.5365718752145767,
      "epoch": 2.1121495327102804,
      "grad_norm": 0.033649299293756485,
      "learning_rate": 0.0002,
      "loss": 0.5394605398178101,
      "mean_token_accuracy": 0.7824818789958954,
      "num_tokens": 9217958.0,
      "step": 566
    },
    {
      "entropy": 0.5342001020908356,
      "epoch": 2.1158878504672898,
      "grad_norm": 0.04148790240287781,
      "learning_rate": 0.0002,
      "loss": 0.541080892086029,
      "mean_token_accuracy": 0.7807753682136536,
      "num_tokens": 9234182.0,
      "step": 567
    },
    {
      "entropy": 0.5269056260585785,
      "epoch": 2.119626168224299,
      "grad_norm": 0.031905628740787506,
      "learning_rate": 0.0002,
      "loss": 0.529283881187439,
      "mean_token_accuracy": 0.7837703377008438,
      "num_tokens": 9250712.0,
      "step": 568
    },
    {
      "entropy": 0.5335036367177963,
      "epoch": 2.1233644859813086,
      "grad_norm": 0.041321150958538055,
      "learning_rate": 0.0002,
      "loss": 0.5374078154563904,
      "mean_token_accuracy": 0.782123014330864,
      "num_tokens": 9266961.0,
      "step": 569
    },
    {
      "entropy": 0.5442205667495728,
      "epoch": 2.127102803738318,
      "grad_norm": 0.034318044781684875,
      "learning_rate": 0.0002,
      "loss": 0.5429351329803467,
      "mean_token_accuracy": 0.7788351625204086,
      "num_tokens": 9283528.0,
      "step": 570
    },
    {
      "entropy": 0.5432394444942474,
      "epoch": 2.130841121495327,
      "grad_norm": 0.047397077083587646,
      "learning_rate": 0.0002,
      "loss": 0.5424203276634216,
      "mean_token_accuracy": 0.7810939103364944,
      "num_tokens": 9299837.0,
      "step": 571
    },
    {
      "entropy": 0.5400207340717316,
      "epoch": 2.1345794392523363,
      "grad_norm": 0.03500756248831749,
      "learning_rate": 0.0002,
      "loss": 0.5377690196037292,
      "mean_token_accuracy": 0.783811166882515,
      "num_tokens": 9315959.0,
      "step": 572
    },
    {
      "entropy": 0.5296697020530701,
      "epoch": 2.1383177570093457,
      "grad_norm": 0.03790782764554024,
      "learning_rate": 0.0002,
      "loss": 0.5289957523345947,
      "mean_token_accuracy": 0.7867159694433212,
      "num_tokens": 9332370.0,
      "step": 573
    },
    {
      "entropy": 0.5078830569982529,
      "epoch": 2.142056074766355,
      "grad_norm": 0.045958928763866425,
      "learning_rate": 0.0002,
      "loss": 0.5104236006736755,
      "mean_token_accuracy": 0.7909017950296402,
      "num_tokens": 9348594.0,
      "step": 574
    },
    {
      "entropy": 0.5188925862312317,
      "epoch": 2.1457943925233645,
      "grad_norm": 0.03916464373469353,
      "learning_rate": 0.0002,
      "loss": 0.5316386818885803,
      "mean_token_accuracy": 0.7828120291233063,
      "num_tokens": 9365046.0,
      "step": 575
    },
    {
      "entropy": 0.5045325607061386,
      "epoch": 2.149532710280374,
      "grad_norm": 0.04434382542967796,
      "learning_rate": 0.0002,
      "loss": 0.5116738080978394,
      "mean_token_accuracy": 0.7905466854572296,
      "num_tokens": 9381007.0,
      "step": 576
    },
    {
      "entropy": 0.5541563183069229,
      "epoch": 2.1532710280373832,
      "grad_norm": 0.038000430911779404,
      "learning_rate": 0.0002,
      "loss": 0.5551270842552185,
      "mean_token_accuracy": 0.7762157022953033,
      "num_tokens": 9397394.0,
      "step": 577
    },
    {
      "entropy": 0.5460502356290817,
      "epoch": 2.1570093457943926,
      "grad_norm": 0.038676705211400986,
      "learning_rate": 0.0002,
      "loss": 0.5363121032714844,
      "mean_token_accuracy": 0.7802022695541382,
      "num_tokens": 9413810.0,
      "step": 578
    },
    {
      "entropy": 0.5573510080575943,
      "epoch": 2.160747663551402,
      "grad_norm": 0.03721381351351738,
      "learning_rate": 0.0002,
      "loss": 0.5444300174713135,
      "mean_token_accuracy": 0.7804805636405945,
      "num_tokens": 9430091.0,
      "step": 579
    },
    {
      "entropy": 0.5371396392583847,
      "epoch": 2.1644859813084114,
      "grad_norm": 0.04258019104599953,
      "learning_rate": 0.0002,
      "loss": 0.5351753234863281,
      "mean_token_accuracy": 0.7820869237184525,
      "num_tokens": 9446665.0,
      "step": 580
    },
    {
      "entropy": 0.5393694788217545,
      "epoch": 2.1682242990654204,
      "grad_norm": 0.0406467579305172,
      "learning_rate": 0.0002,
      "loss": 0.5430103540420532,
      "mean_token_accuracy": 0.7779065668582916,
      "num_tokens": 9463118.0,
      "step": 581
    },
    {
      "entropy": 0.5272447615861893,
      "epoch": 2.1719626168224297,
      "grad_norm": 0.04435638338327408,
      "learning_rate": 0.0002,
      "loss": 0.5354752540588379,
      "mean_token_accuracy": 0.7838975638151169,
      "num_tokens": 9479432.0,
      "step": 582
    },
    {
      "entropy": 0.5255759209394455,
      "epoch": 2.175700934579439,
      "grad_norm": 0.03574801981449127,
      "learning_rate": 0.0002,
      "loss": 0.531680703163147,
      "mean_token_accuracy": 0.7842760384082794,
      "num_tokens": 9495707.0,
      "step": 583
    },
    {
      "entropy": 0.5348410457372665,
      "epoch": 2.1794392523364485,
      "grad_norm": 0.03383009880781174,
      "learning_rate": 0.0002,
      "loss": 0.5284703373908997,
      "mean_token_accuracy": 0.7889558225870132,
      "num_tokens": 9512236.0,
      "step": 584
    },
    {
      "entropy": 0.5311737060546875,
      "epoch": 2.183177570093458,
      "grad_norm": 0.035349104553461075,
      "learning_rate": 0.0002,
      "loss": 0.5332157611846924,
      "mean_token_accuracy": 0.7814211249351501,
      "num_tokens": 9528589.0,
      "step": 585
    },
    {
      "entropy": 0.5255388617515564,
      "epoch": 2.1869158878504673,
      "grad_norm": 0.043005745857954025,
      "learning_rate": 0.0002,
      "loss": 0.5251577496528625,
      "mean_token_accuracy": 0.7884248644113541,
      "num_tokens": 9544965.0,
      "step": 586
    },
    {
      "entropy": 0.5347089469432831,
      "epoch": 2.1906542056074767,
      "grad_norm": 0.03752923756837845,
      "learning_rate": 0.0002,
      "loss": 0.5362472534179688,
      "mean_token_accuracy": 0.7811613231897354,
      "num_tokens": 9561276.0,
      "step": 587
    },
    {
      "entropy": 0.5310826078057289,
      "epoch": 2.194392523364486,
      "grad_norm": 0.05228811874985695,
      "learning_rate": 0.0002,
      "loss": 0.5329592227935791,
      "mean_token_accuracy": 0.7827970087528229,
      "num_tokens": 9577509.0,
      "step": 588
    },
    {
      "entropy": 0.5254483968019485,
      "epoch": 2.1981308411214955,
      "grad_norm": 0.03692999482154846,
      "learning_rate": 0.0002,
      "loss": 0.5311483144760132,
      "mean_token_accuracy": 0.7830882370471954,
      "num_tokens": 9593982.0,
      "step": 589
    },
    {
      "entropy": 0.5360620766878128,
      "epoch": 2.201869158878505,
      "grad_norm": 0.04609117656946182,
      "learning_rate": 0.0002,
      "loss": 0.5386216640472412,
      "mean_token_accuracy": 0.7802708595991135,
      "num_tokens": 9610311.0,
      "step": 590
    },
    {
      "entropy": 0.5463242679834366,
      "epoch": 2.205607476635514,
      "grad_norm": 0.03901510685682297,
      "learning_rate": 0.0002,
      "loss": 0.5447873473167419,
      "mean_token_accuracy": 0.7785727232694626,
      "num_tokens": 9626678.0,
      "step": 591
    },
    {
      "entropy": 0.5129301249980927,
      "epoch": 2.209345794392523,
      "grad_norm": 0.043117035180330276,
      "learning_rate": 0.0002,
      "loss": 0.5128067135810852,
      "mean_token_accuracy": 0.7911233007907867,
      "num_tokens": 9642843.0,
      "step": 592
    },
    {
      "entropy": 0.5312749594449997,
      "epoch": 2.2130841121495326,
      "grad_norm": 0.03675411641597748,
      "learning_rate": 0.0002,
      "loss": 0.5329593420028687,
      "mean_token_accuracy": 0.7832809239625931,
      "num_tokens": 9659218.0,
      "step": 593
    },
    {
      "entropy": 0.5422542840242386,
      "epoch": 2.216822429906542,
      "grad_norm": 0.036754533648490906,
      "learning_rate": 0.0002,
      "loss": 0.5398430824279785,
      "mean_token_accuracy": 0.7803453654050827,
      "num_tokens": 9675649.0,
      "step": 594
    },
    {
      "entropy": 0.5472271293401718,
      "epoch": 2.2205607476635514,
      "grad_norm": 0.043753694742918015,
      "learning_rate": 0.0002,
      "loss": 0.5421810150146484,
      "mean_token_accuracy": 0.7812557965517044,
      "num_tokens": 9691932.0,
      "step": 595
    },
    {
      "entropy": 0.5446718335151672,
      "epoch": 2.2242990654205608,
      "grad_norm": 0.0450102761387825,
      "learning_rate": 0.0002,
      "loss": 0.5450670719146729,
      "mean_token_accuracy": 0.7795027941465378,
      "num_tokens": 9708243.0,
      "step": 596
    },
    {
      "entropy": 0.5422708988189697,
      "epoch": 2.22803738317757,
      "grad_norm": 0.042899005115032196,
      "learning_rate": 0.0002,
      "loss": 0.5427168011665344,
      "mean_token_accuracy": 0.7769834697246552,
      "num_tokens": 9724620.0,
      "step": 597
    },
    {
      "entropy": 0.5316948816180229,
      "epoch": 2.2317757009345796,
      "grad_norm": 0.0438719242811203,
      "learning_rate": 0.0002,
      "loss": 0.5369054675102234,
      "mean_token_accuracy": 0.7818674147129059,
      "num_tokens": 9740813.0,
      "step": 598
    },
    {
      "entropy": 0.5353083610534668,
      "epoch": 2.235514018691589,
      "grad_norm": 0.045174483209848404,
      "learning_rate": 0.0002,
      "loss": 0.535564124584198,
      "mean_token_accuracy": 0.7826817184686661,
      "num_tokens": 9757081.0,
      "step": 599
    },
    {
      "entropy": 0.53409144282341,
      "epoch": 2.2392523364485983,
      "grad_norm": 0.046971406787633896,
      "learning_rate": 0.0002,
      "loss": 0.5388940572738647,
      "mean_token_accuracy": 0.7797097563743591,
      "num_tokens": 9773286.0,
      "step": 600
    },
    {
      "entropy": 0.5229181125760078,
      "epoch": 2.2429906542056073,
      "grad_norm": 0.04818117991089821,
      "learning_rate": 0.0002,
      "loss": 0.5283955931663513,
      "mean_token_accuracy": 0.7855319827795029,
      "num_tokens": 9789231.0,
      "step": 601
    },
    {
      "entropy": 0.5502548068761826,
      "epoch": 2.2467289719626167,
      "grad_norm": 0.041451770812273026,
      "learning_rate": 0.0002,
      "loss": 0.5441420078277588,
      "mean_token_accuracy": 0.7805446833372116,
      "num_tokens": 9805737.0,
      "step": 602
    },
    {
      "entropy": 0.5555277764797211,
      "epoch": 2.250467289719626,
      "grad_norm": 0.03888588771224022,
      "learning_rate": 0.0002,
      "loss": 0.5571548938751221,
      "mean_token_accuracy": 0.7741208076477051,
      "num_tokens": 9822370.0,
      "step": 603
    },
    {
      "entropy": 0.5331219285726547,
      "epoch": 2.2542056074766355,
      "grad_norm": 0.050726499408483505,
      "learning_rate": 0.0002,
      "loss": 0.5355172157287598,
      "mean_token_accuracy": 0.7803194671869278,
      "num_tokens": 9838846.0,
      "step": 604
    },
    {
      "entropy": 0.5391329601407051,
      "epoch": 2.257943925233645,
      "grad_norm": 0.03473533317446709,
      "learning_rate": 0.0002,
      "loss": 0.5380818843841553,
      "mean_token_accuracy": 0.7837731093168259,
      "num_tokens": 9855269.0,
      "step": 605
    },
    {
      "entropy": 0.5419459789991379,
      "epoch": 2.2616822429906542,
      "grad_norm": 0.04428257793188095,
      "learning_rate": 0.0002,
      "loss": 0.5402700304985046,
      "mean_token_accuracy": 0.7803330719470978,
      "num_tokens": 9871498.0,
      "step": 606
    },
    {
      "entropy": 0.5475794821977615,
      "epoch": 2.2654205607476636,
      "grad_norm": 0.03847254440188408,
      "learning_rate": 0.0002,
      "loss": 0.5443584322929382,
      "mean_token_accuracy": 0.7776888459920883,
      "num_tokens": 9887880.0,
      "step": 607
    },
    {
      "entropy": 0.5413693785667419,
      "epoch": 2.269158878504673,
      "grad_norm": 0.03769246116280556,
      "learning_rate": 0.0002,
      "loss": 0.5448262095451355,
      "mean_token_accuracy": 0.7788306772708893,
      "num_tokens": 9904482.0,
      "step": 608
    },
    {
      "entropy": 0.5233470648527145,
      "epoch": 2.2728971962616824,
      "grad_norm": 0.041845668107271194,
      "learning_rate": 0.0002,
      "loss": 0.5302014946937561,
      "mean_token_accuracy": 0.7834525555372238,
      "num_tokens": 9920720.0,
      "step": 609
    },
    {
      "entropy": 0.526485301554203,
      "epoch": 2.2766355140186914,
      "grad_norm": 0.04298217222094536,
      "learning_rate": 0.0002,
      "loss": 0.5376767516136169,
      "mean_token_accuracy": 0.7815933078527451,
      "num_tokens": 9936855.0,
      "step": 610
    },
    {
      "entropy": 0.5407330542802811,
      "epoch": 2.2803738317757007,
      "grad_norm": 0.03829406201839447,
      "learning_rate": 0.0002,
      "loss": 0.5375736951828003,
      "mean_token_accuracy": 0.7817153483629227,
      "num_tokens": 9953359.0,
      "step": 611
    },
    {
      "entropy": 0.557465985417366,
      "epoch": 2.28411214953271,
      "grad_norm": 0.0430569127202034,
      "learning_rate": 0.0002,
      "loss": 0.5485789775848389,
      "mean_token_accuracy": 0.7774669080972672,
      "num_tokens": 9969809.0,
      "step": 612
    },
    {
      "entropy": 0.5491045266389847,
      "epoch": 2.2878504672897195,
      "grad_norm": 0.04154661297798157,
      "learning_rate": 0.0002,
      "loss": 0.5452516078948975,
      "mean_token_accuracy": 0.7782464772462845,
      "num_tokens": 9986122.0,
      "step": 613
    },
    {
      "entropy": 0.5396340191364288,
      "epoch": 2.291588785046729,
      "grad_norm": 0.03867339715361595,
      "learning_rate": 0.0002,
      "loss": 0.5436422228813171,
      "mean_token_accuracy": 0.7793163359165192,
      "num_tokens": 10002373.0,
      "step": 614
    },
    {
      "entropy": 0.5227179303765297,
      "epoch": 2.2953271028037383,
      "grad_norm": 0.055158648639917374,
      "learning_rate": 0.0002,
      "loss": 0.5356475710868835,
      "mean_token_accuracy": 0.7828944474458694,
      "num_tokens": 10018532.0,
      "step": 615
    },
    {
      "entropy": 0.5101833418011665,
      "epoch": 2.2990654205607477,
      "grad_norm": 0.04139378294348717,
      "learning_rate": 0.0002,
      "loss": 0.5111054182052612,
      "mean_token_accuracy": 0.7948217988014221,
      "num_tokens": 10034449.0,
      "step": 616
    },
    {
      "entropy": 0.5332518517971039,
      "epoch": 2.302803738317757,
      "grad_norm": 0.042138371616601944,
      "learning_rate": 0.0002,
      "loss": 0.5291332602500916,
      "mean_token_accuracy": 0.7875723540782928,
      "num_tokens": 10050791.0,
      "step": 617
    },
    {
      "entropy": 0.5545465350151062,
      "epoch": 2.3065420560747665,
      "grad_norm": 0.04594315588474274,
      "learning_rate": 0.0002,
      "loss": 0.5547114610671997,
      "mean_token_accuracy": 0.7752625793218613,
      "num_tokens": 10067160.0,
      "step": 618
    },
    {
      "entropy": 0.538428008556366,
      "epoch": 2.310280373831776,
      "grad_norm": 0.038197144865989685,
      "learning_rate": 0.0002,
      "loss": 0.5356147885322571,
      "mean_token_accuracy": 0.7812609076499939,
      "num_tokens": 10083623.0,
      "step": 619
    },
    {
      "entropy": 0.515357218682766,
      "epoch": 2.3140186915887853,
      "grad_norm": 0.04305245727300644,
      "learning_rate": 0.0002,
      "loss": 0.5182097554206848,
      "mean_token_accuracy": 0.7897254973649979,
      "num_tokens": 10099734.0,
      "step": 620
    },
    {
      "entropy": 0.5176303833723068,
      "epoch": 2.317757009345794,
      "grad_norm": 0.040814559906721115,
      "learning_rate": 0.0002,
      "loss": 0.5241186618804932,
      "mean_token_accuracy": 0.7862492203712463,
      "num_tokens": 10115923.0,
      "step": 621
    },
    {
      "entropy": 0.5319753438234329,
      "epoch": 2.3214953271028036,
      "grad_norm": 0.038612622767686844,
      "learning_rate": 0.0002,
      "loss": 0.5332948565483093,
      "mean_token_accuracy": 0.7826831489801407,
      "num_tokens": 10132186.0,
      "step": 622
    },
    {
      "entropy": 0.5231878906488419,
      "epoch": 2.325233644859813,
      "grad_norm": 0.04399793595075607,
      "learning_rate": 0.0002,
      "loss": 0.5220815539360046,
      "mean_token_accuracy": 0.7883405387401581,
      "num_tokens": 10148176.0,
      "step": 623
    },
    {
      "entropy": 0.5503655076026917,
      "epoch": 2.3289719626168224,
      "grad_norm": 0.03310840204358101,
      "learning_rate": 0.0002,
      "loss": 0.5424314737319946,
      "mean_token_accuracy": 0.7791298031806946,
      "num_tokens": 10164602.0,
      "step": 624
    },
    {
      "entropy": 0.5562791079282761,
      "epoch": 2.3327102803738318,
      "grad_norm": 0.046219419687986374,
      "learning_rate": 0.0002,
      "loss": 0.5487840175628662,
      "mean_token_accuracy": 0.7803521156311035,
      "num_tokens": 10180910.0,
      "step": 625
    },
    {
      "entropy": 0.536386102437973,
      "epoch": 2.336448598130841,
      "grad_norm": 0.038521721959114075,
      "learning_rate": 0.0002,
      "loss": 0.5320638418197632,
      "mean_token_accuracy": 0.7856791615486145,
      "num_tokens": 10197138.0,
      "step": 626
    },
    {
      "entropy": 0.5220321416854858,
      "epoch": 2.3401869158878505,
      "grad_norm": 0.046215180307626724,
      "learning_rate": 0.0002,
      "loss": 0.5289742946624756,
      "mean_token_accuracy": 0.784678503870964,
      "num_tokens": 10213246.0,
      "step": 627
    },
    {
      "entropy": 0.5178990513086319,
      "epoch": 2.34392523364486,
      "grad_norm": 0.04778464511036873,
      "learning_rate": 0.0002,
      "loss": 0.522329568862915,
      "mean_token_accuracy": 0.7881183475255966,
      "num_tokens": 10229431.0,
      "step": 628
    },
    {
      "entropy": 0.5353438407182693,
      "epoch": 2.3476635514018693,
      "grad_norm": 0.04080234467983246,
      "learning_rate": 0.0002,
      "loss": 0.5433787107467651,
      "mean_token_accuracy": 0.7780589759349823,
      "num_tokens": 10245684.0,
      "step": 629
    },
    {
      "entropy": 0.5368916243314743,
      "epoch": 2.3514018691588783,
      "grad_norm": 0.043697554618120193,
      "learning_rate": 0.0002,
      "loss": 0.541444718837738,
      "mean_token_accuracy": 0.7807413637638092,
      "num_tokens": 10262210.0,
      "step": 630
    },
    {
      "entropy": 0.5506647378206253,
      "epoch": 2.3551401869158877,
      "grad_norm": 0.038478951901197433,
      "learning_rate": 0.0002,
      "loss": 0.5461610555648804,
      "mean_token_accuracy": 0.7788456082344055,
      "num_tokens": 10278611.0,
      "step": 631
    },
    {
      "entropy": 0.5395764261484146,
      "epoch": 2.358878504672897,
      "grad_norm": 0.03904217854142189,
      "learning_rate": 0.0002,
      "loss": 0.5317508578300476,
      "mean_token_accuracy": 0.7833081781864166,
      "num_tokens": 10294800.0,
      "step": 632
    },
    {
      "entropy": 0.5478651374578476,
      "epoch": 2.3626168224299064,
      "grad_norm": 0.048824410885572433,
      "learning_rate": 0.0002,
      "loss": 0.5395293831825256,
      "mean_token_accuracy": 0.783235713839531,
      "num_tokens": 10311090.0,
      "step": 633
    },
    {
      "entropy": 0.5332029610872269,
      "epoch": 2.366355140186916,
      "grad_norm": 0.04313044250011444,
      "learning_rate": 0.0002,
      "loss": 0.5401085615158081,
      "mean_token_accuracy": 0.778812825679779,
      "num_tokens": 10327348.0,
      "step": 634
    },
    {
      "entropy": 0.5406146496534348,
      "epoch": 2.3700934579439252,
      "grad_norm": 0.04600725322961807,
      "learning_rate": 0.0002,
      "loss": 0.5516705513000488,
      "mean_token_accuracy": 0.7761097699403763,
      "num_tokens": 10343800.0,
      "step": 635
    },
    {
      "entropy": 0.5261052846908569,
      "epoch": 2.3738317757009346,
      "grad_norm": 0.045134712010622025,
      "learning_rate": 0.0002,
      "loss": 0.5412300825119019,
      "mean_token_accuracy": 0.7802619636058807,
      "num_tokens": 10360082.0,
      "step": 636
    },
    {
      "entropy": 0.5589279979467392,
      "epoch": 2.377570093457944,
      "grad_norm": 0.041725922375917435,
      "learning_rate": 0.0002,
      "loss": 0.5517748594284058,
      "mean_token_accuracy": 0.778441995382309,
      "num_tokens": 10376345.0,
      "step": 637
    },
    {
      "entropy": 0.5504082888364792,
      "epoch": 2.3813084112149534,
      "grad_norm": 0.03725145012140274,
      "learning_rate": 0.0002,
      "loss": 0.5404931306838989,
      "mean_token_accuracy": 0.7776447534561157,
      "num_tokens": 10392870.0,
      "step": 638
    },
    {
      "entropy": 0.5359382033348083,
      "epoch": 2.385046728971963,
      "grad_norm": 0.0364760085940361,
      "learning_rate": 0.0002,
      "loss": 0.533162534236908,
      "mean_token_accuracy": 0.7851890027523041,
      "num_tokens": 10409256.0,
      "step": 639
    },
    {
      "entropy": 0.5336398631334305,
      "epoch": 2.388785046728972,
      "grad_norm": 0.036078356206417084,
      "learning_rate": 0.0002,
      "loss": 0.5374175906181335,
      "mean_token_accuracy": 0.7814856320619583,
      "num_tokens": 10425831.0,
      "step": 640
    },
    {
      "entropy": 0.5284569710493088,
      "epoch": 2.392523364485981,
      "grad_norm": 0.04704172909259796,
      "learning_rate": 0.0002,
      "loss": 0.5387214422225952,
      "mean_token_accuracy": 0.7815752625465393,
      "num_tokens": 10442382.0,
      "step": 641
    },
    {
      "entropy": 0.5344073623418808,
      "epoch": 2.3962616822429905,
      "grad_norm": 0.0398792028427124,
      "learning_rate": 0.0002,
      "loss": 0.5398225784301758,
      "mean_token_accuracy": 0.7818136066198349,
      "num_tokens": 10458810.0,
      "step": 642
    },
    {
      "entropy": 0.5323895663022995,
      "epoch": 2.4,
      "grad_norm": 0.037454817444086075,
      "learning_rate": 0.0002,
      "loss": 0.5368887782096863,
      "mean_token_accuracy": 0.7800801247358322,
      "num_tokens": 10474692.0,
      "step": 643
    },
    {
      "entropy": 0.5394662618637085,
      "epoch": 2.4037383177570093,
      "grad_norm": 0.03576047718524933,
      "learning_rate": 0.0002,
      "loss": 0.5351858735084534,
      "mean_token_accuracy": 0.7815855145454407,
      "num_tokens": 10491015.0,
      "step": 644
    },
    {
      "entropy": 0.547369509935379,
      "epoch": 2.4074766355140187,
      "grad_norm": 0.0398087315261364,
      "learning_rate": 0.0002,
      "loss": 0.5397285223007202,
      "mean_token_accuracy": 0.7805114239454269,
      "num_tokens": 10507366.0,
      "step": 645
    },
    {
      "entropy": 0.5508280843496323,
      "epoch": 2.411214953271028,
      "grad_norm": 0.03709566593170166,
      "learning_rate": 0.0002,
      "loss": 0.5448777675628662,
      "mean_token_accuracy": 0.7763405591249466,
      "num_tokens": 10523374.0,
      "step": 646
    },
    {
      "entropy": 0.5248509049415588,
      "epoch": 2.4149532710280375,
      "grad_norm": 0.03418833017349243,
      "learning_rate": 0.0002,
      "loss": 0.5208706855773926,
      "mean_token_accuracy": 0.7874817848205566,
      "num_tokens": 10539624.0,
      "step": 647
    },
    {
      "entropy": 0.5466809421777725,
      "epoch": 2.418691588785047,
      "grad_norm": 0.039764732122421265,
      "learning_rate": 0.0002,
      "loss": 0.5513855218887329,
      "mean_token_accuracy": 0.776073694229126,
      "num_tokens": 10556212.0,
      "step": 648
    },
    {
      "entropy": 0.5117013603448868,
      "epoch": 2.4224299065420563,
      "grad_norm": 0.04086057096719742,
      "learning_rate": 0.0002,
      "loss": 0.5219972729682922,
      "mean_token_accuracy": 0.7889275252819061,
      "num_tokens": 10572323.0,
      "step": 649
    },
    {
      "entropy": 0.5393745452165604,
      "epoch": 2.426168224299065,
      "grad_norm": 0.037193622440099716,
      "learning_rate": 0.0002,
      "loss": 0.5456075668334961,
      "mean_token_accuracy": 0.7753270417451859,
      "num_tokens": 10588533.0,
      "step": 650
    },
    {
      "entropy": 0.5517471730709076,
      "epoch": 2.4299065420560746,
      "grad_norm": 0.04061353579163551,
      "learning_rate": 0.0002,
      "loss": 0.5480504035949707,
      "mean_token_accuracy": 0.7777185589075089,
      "num_tokens": 10604736.0,
      "step": 651
    },
    {
      "entropy": 0.5332285165786743,
      "epoch": 2.433644859813084,
      "grad_norm": 0.037262339144945145,
      "learning_rate": 0.0002,
      "loss": 0.52723628282547,
      "mean_token_accuracy": 0.7820963263511658,
      "num_tokens": 10621005.0,
      "step": 652
    },
    {
      "entropy": 0.5427125096321106,
      "epoch": 2.4373831775700934,
      "grad_norm": 0.038290560245513916,
      "learning_rate": 0.0002,
      "loss": 0.5433245897293091,
      "mean_token_accuracy": 0.7764440774917603,
      "num_tokens": 10637274.0,
      "step": 653
    },
    {
      "entropy": 0.515294149518013,
      "epoch": 2.4411214953271028,
      "grad_norm": 0.07859813421964645,
      "learning_rate": 0.0002,
      "loss": 0.5192139744758606,
      "mean_token_accuracy": 0.7903406471014023,
      "num_tokens": 10653571.0,
      "step": 654
    },
    {
      "entropy": 0.5411062091588974,
      "epoch": 2.444859813084112,
      "grad_norm": 0.04054918885231018,
      "learning_rate": 0.0002,
      "loss": 0.5439664721488953,
      "mean_token_accuracy": 0.7815183401107788,
      "num_tokens": 10670139.0,
      "step": 655
    },
    {
      "entropy": 0.5487605780363083,
      "epoch": 2.4485981308411215,
      "grad_norm": 0.04026317596435547,
      "learning_rate": 0.0002,
      "loss": 0.5495845675468445,
      "mean_token_accuracy": 0.7765460163354874,
      "num_tokens": 10686846.0,
      "step": 656
    },
    {
      "entropy": 0.5351516157388687,
      "epoch": 2.452336448598131,
      "grad_norm": 0.040862392634153366,
      "learning_rate": 0.0002,
      "loss": 0.5336912870407104,
      "mean_token_accuracy": 0.7818685173988342,
      "num_tokens": 10703200.0,
      "step": 657
    },
    {
      "entropy": 0.5463723838329315,
      "epoch": 2.4560747663551403,
      "grad_norm": 0.03873393312096596,
      "learning_rate": 0.0002,
      "loss": 0.5465680360794067,
      "mean_token_accuracy": 0.7760122418403625,
      "num_tokens": 10719561.0,
      "step": 658
    },
    {
      "entropy": 0.5416133552789688,
      "epoch": 2.4598130841121497,
      "grad_norm": 0.044795434921979904,
      "learning_rate": 0.0002,
      "loss": 0.5411824584007263,
      "mean_token_accuracy": 0.7804904133081436,
      "num_tokens": 10735767.0,
      "step": 659
    },
    {
      "entropy": 0.5494029372930527,
      "epoch": 2.463551401869159,
      "grad_norm": 0.04379895702004433,
      "learning_rate": 0.0002,
      "loss": 0.5456870198249817,
      "mean_token_accuracy": 0.7755402028560638,
      "num_tokens": 10751886.0,
      "step": 660
    },
    {
      "entropy": 0.5367189347743988,
      "epoch": 2.467289719626168,
      "grad_norm": 0.03852448984980583,
      "learning_rate": 0.0002,
      "loss": 0.5393000841140747,
      "mean_token_accuracy": 0.7800532579421997,
      "num_tokens": 10768210.0,
      "step": 661
    },
    {
      "entropy": 0.5270116031169891,
      "epoch": 2.4710280373831774,
      "grad_norm": 0.03792192041873932,
      "learning_rate": 0.0002,
      "loss": 0.5289605259895325,
      "mean_token_accuracy": 0.7838020473718643,
      "num_tokens": 10784434.0,
      "step": 662
    },
    {
      "entropy": 0.5338448286056519,
      "epoch": 2.474766355140187,
      "grad_norm": 0.0350453220307827,
      "learning_rate": 0.0002,
      "loss": 0.5380920767784119,
      "mean_token_accuracy": 0.7818057388067245,
      "num_tokens": 10800619.0,
      "step": 663
    },
    {
      "entropy": 0.5228566378355026,
      "epoch": 2.4785046728971962,
      "grad_norm": 0.046152058988809586,
      "learning_rate": 0.0002,
      "loss": 0.5300622582435608,
      "mean_token_accuracy": 0.7793385684490204,
      "num_tokens": 10816801.0,
      "step": 664
    },
    {
      "entropy": 0.5290849655866623,
      "epoch": 2.4822429906542056,
      "grad_norm": 0.03659910336136818,
      "learning_rate": 0.0002,
      "loss": 0.5329374074935913,
      "mean_token_accuracy": 0.7838267683982849,
      "num_tokens": 10833095.0,
      "step": 665
    },
    {
      "entropy": 0.545561358332634,
      "epoch": 2.485981308411215,
      "grad_norm": 0.04097100347280502,
      "learning_rate": 0.0002,
      "loss": 0.5479649901390076,
      "mean_token_accuracy": 0.7784263789653778,
      "num_tokens": 10849473.0,
      "step": 666
    },
    {
      "entropy": 0.5502291470766068,
      "epoch": 2.4897196261682244,
      "grad_norm": 0.04253846034407616,
      "learning_rate": 0.0002,
      "loss": 0.5466883182525635,
      "mean_token_accuracy": 0.7778628617525101,
      "num_tokens": 10865837.0,
      "step": 667
    },
    {
      "entropy": 0.5474338084459305,
      "epoch": 2.493457943925234,
      "grad_norm": 0.037734732031822205,
      "learning_rate": 0.0002,
      "loss": 0.5415964126586914,
      "mean_token_accuracy": 0.7777974009513855,
      "num_tokens": 10882273.0,
      "step": 668
    },
    {
      "entropy": 0.5401993542909622,
      "epoch": 2.497196261682243,
      "grad_norm": 0.039542876183986664,
      "learning_rate": 0.0002,
      "loss": 0.5339391231536865,
      "mean_token_accuracy": 0.784349262714386,
      "num_tokens": 10898780.0,
      "step": 669
    },
    {
      "entropy": 0.5420306771993637,
      "epoch": 2.500934579439252,
      "grad_norm": 0.049927666783332825,
      "learning_rate": 0.0002,
      "loss": 0.5389054417610168,
      "mean_token_accuracy": 0.7841761559247971,
      "num_tokens": 10915059.0,
      "step": 670
    },
    {
      "entropy": 0.5333422720432281,
      "epoch": 2.5046728971962615,
      "grad_norm": 0.042702775448560715,
      "learning_rate": 0.0002,
      "loss": 0.5403023958206177,
      "mean_token_accuracy": 0.7792320251464844,
      "num_tokens": 10931718.0,
      "step": 671
    },
    {
      "entropy": 0.5289912968873978,
      "epoch": 2.508411214953271,
      "grad_norm": 0.050530027598142624,
      "learning_rate": 0.0002,
      "loss": 0.5404794216156006,
      "mean_token_accuracy": 0.7815851122140884,
      "num_tokens": 10948084.0,
      "step": 672
    },
    {
      "entropy": 0.5341697633266449,
      "epoch": 2.5121495327102803,
      "grad_norm": 0.04310121387243271,
      "learning_rate": 0.0002,
      "loss": 0.5389139652252197,
      "mean_token_accuracy": 0.778786912560463,
      "num_tokens": 10964373.0,
      "step": 673
    },
    {
      "entropy": 0.5569636076688766,
      "epoch": 2.5158878504672897,
      "grad_norm": 0.03820215165615082,
      "learning_rate": 0.0002,
      "loss": 0.5578426122665405,
      "mean_token_accuracy": 0.7730483710765839,
      "num_tokens": 10980732.0,
      "step": 674
    },
    {
      "entropy": 0.5347766578197479,
      "epoch": 2.519626168224299,
      "grad_norm": 0.04349920526146889,
      "learning_rate": 0.0002,
      "loss": 0.5336275100708008,
      "mean_token_accuracy": 0.7815207839012146,
      "num_tokens": 10997005.0,
      "step": 675
    },
    {
      "entropy": 0.5299794673919678,
      "epoch": 2.5233644859813085,
      "grad_norm": 0.04003509134054184,
      "learning_rate": 0.0002,
      "loss": 0.5294742584228516,
      "mean_token_accuracy": 0.7869250029325485,
      "num_tokens": 11013055.0,
      "step": 676
    },
    {
      "entropy": 0.5352783799171448,
      "epoch": 2.527102803738318,
      "grad_norm": 0.054121218621730804,
      "learning_rate": 0.0002,
      "loss": 0.5448738932609558,
      "mean_token_accuracy": 0.7791888117790222,
      "num_tokens": 11029266.0,
      "step": 677
    },
    {
      "entropy": 0.5354646146297455,
      "epoch": 2.5308411214953273,
      "grad_norm": 0.03573855757713318,
      "learning_rate": 0.0002,
      "loss": 0.5352723002433777,
      "mean_token_accuracy": 0.7825258523225784,
      "num_tokens": 11045806.0,
      "step": 678
    },
    {
      "entropy": 0.556391716003418,
      "epoch": 2.5345794392523366,
      "grad_norm": 0.04871753975749016,
      "learning_rate": 0.0002,
      "loss": 0.5602859258651733,
      "mean_token_accuracy": 0.7722157090902328,
      "num_tokens": 11062035.0,
      "step": 679
    },
    {
      "entropy": 0.5508870929479599,
      "epoch": 2.538317757009346,
      "grad_norm": 0.03932088986039162,
      "learning_rate": 0.0002,
      "loss": 0.5469393730163574,
      "mean_token_accuracy": 0.7782620638608932,
      "num_tokens": 11078375.0,
      "step": 680
    },
    {
      "entropy": 0.5481788516044617,
      "epoch": 2.542056074766355,
      "grad_norm": 0.04463294520974159,
      "learning_rate": 0.0002,
      "loss": 0.5469505190849304,
      "mean_token_accuracy": 0.7766976356506348,
      "num_tokens": 11094977.0,
      "step": 681
    },
    {
      "entropy": 0.5154567137360573,
      "epoch": 2.5457943925233644,
      "grad_norm": 0.044517725706100464,
      "learning_rate": 0.0002,
      "loss": 0.5210436582565308,
      "mean_token_accuracy": 0.7881979048252106,
      "num_tokens": 11110907.0,
      "step": 682
    },
    {
      "entropy": 0.5250661969184875,
      "epoch": 2.5495327102803738,
      "grad_norm": 0.03574059158563614,
      "learning_rate": 0.0002,
      "loss": 0.5239285826683044,
      "mean_token_accuracy": 0.7901371419429779,
      "num_tokens": 11127432.0,
      "step": 683
    },
    {
      "entropy": 0.541177287697792,
      "epoch": 2.553271028037383,
      "grad_norm": 0.03583724424242973,
      "learning_rate": 0.0002,
      "loss": 0.5399287343025208,
      "mean_token_accuracy": 0.7795550227165222,
      "num_tokens": 11143788.0,
      "step": 684
    },
    {
      "entropy": 0.5319067388772964,
      "epoch": 2.5570093457943925,
      "grad_norm": 0.038700610399246216,
      "learning_rate": 0.0002,
      "loss": 0.5372647047042847,
      "mean_token_accuracy": 0.7816288769245148,
      "num_tokens": 11160145.0,
      "step": 685
    },
    {
      "entropy": 0.5243031531572342,
      "epoch": 2.560747663551402,
      "grad_norm": 0.0457780659198761,
      "learning_rate": 0.0002,
      "loss": 0.5248138308525085,
      "mean_token_accuracy": 0.7840212136507034,
      "num_tokens": 11176075.0,
      "step": 686
    },
    {
      "entropy": 0.5483701825141907,
      "epoch": 2.5644859813084113,
      "grad_norm": 0.0399782694876194,
      "learning_rate": 0.0002,
      "loss": 0.5485758185386658,
      "mean_token_accuracy": 0.7779590934514999,
      "num_tokens": 11192293.0,
      "step": 687
    },
    {
      "entropy": 0.5290739685297012,
      "epoch": 2.5682242990654207,
      "grad_norm": 0.056546278297901154,
      "learning_rate": 0.0002,
      "loss": 0.5325236320495605,
      "mean_token_accuracy": 0.7835103422403336,
      "num_tokens": 11208542.0,
      "step": 688
    },
    {
      "entropy": 0.5161010921001434,
      "epoch": 2.5719626168224297,
      "grad_norm": 0.042589396238327026,
      "learning_rate": 0.0002,
      "loss": 0.5185222625732422,
      "mean_token_accuracy": 0.7873405963182449,
      "num_tokens": 11224578.0,
      "step": 689
    },
    {
      "entropy": 0.5410270541906357,
      "epoch": 2.575700934579439,
      "grad_norm": 0.05106229707598686,
      "learning_rate": 0.0002,
      "loss": 0.5452054142951965,
      "mean_token_accuracy": 0.7787328362464905,
      "num_tokens": 11240887.0,
      "step": 690
    },
    {
      "entropy": 0.5375277251005173,
      "epoch": 2.5794392523364484,
      "grad_norm": 0.03891480341553688,
      "learning_rate": 0.0002,
      "loss": 0.5347110033035278,
      "mean_token_accuracy": 0.7833239287137985,
      "num_tokens": 11256921.0,
      "step": 691
    },
    {
      "entropy": 0.5428935289382935,
      "epoch": 2.583177570093458,
      "grad_norm": 0.04642964154481888,
      "learning_rate": 0.0002,
      "loss": 0.5380253195762634,
      "mean_token_accuracy": 0.7818872332572937,
      "num_tokens": 11273253.0,
      "step": 692
    },
    {
      "entropy": 0.5503559708595276,
      "epoch": 2.586915887850467,
      "grad_norm": 0.04631572589278221,
      "learning_rate": 0.0002,
      "loss": 0.5499509572982788,
      "mean_token_accuracy": 0.7778131514787674,
      "num_tokens": 11289524.0,
      "step": 693
    },
    {
      "entropy": 0.5296535789966583,
      "epoch": 2.5906542056074766,
      "grad_norm": 0.04232152923941612,
      "learning_rate": 0.0002,
      "loss": 0.5292780995368958,
      "mean_token_accuracy": 0.7848498374223709,
      "num_tokens": 11305878.0,
      "step": 694
    },
    {
      "entropy": 0.5324369296431541,
      "epoch": 2.594392523364486,
      "grad_norm": 0.04305447265505791,
      "learning_rate": 0.0002,
      "loss": 0.5328658223152161,
      "mean_token_accuracy": 0.7839655876159668,
      "num_tokens": 11322266.0,
      "step": 695
    },
    {
      "entropy": 0.5353843569755554,
      "epoch": 2.5981308411214954,
      "grad_norm": 0.04098288714885712,
      "learning_rate": 0.0002,
      "loss": 0.5361748933792114,
      "mean_token_accuracy": 0.7821073234081268,
      "num_tokens": 11338684.0,
      "step": 696
    },
    {
      "entropy": 0.5268280059099197,
      "epoch": 2.601869158878505,
      "grad_norm": 0.05113406851887703,
      "learning_rate": 0.0002,
      "loss": 0.5360528230667114,
      "mean_token_accuracy": 0.7813736945390701,
      "num_tokens": 11354924.0,
      "step": 697
    },
    {
      "entropy": 0.5334519147872925,
      "epoch": 2.605607476635514,
      "grad_norm": 0.036048226058483124,
      "learning_rate": 0.0002,
      "loss": 0.5367494225502014,
      "mean_token_accuracy": 0.782368615269661,
      "num_tokens": 11371138.0,
      "step": 698
    },
    {
      "entropy": 0.5625623911619186,
      "epoch": 2.6093457943925236,
      "grad_norm": 0.04338160157203674,
      "learning_rate": 0.0002,
      "loss": 0.5562830567359924,
      "mean_token_accuracy": 0.7749900668859482,
      "num_tokens": 11387674.0,
      "step": 699
    },
    {
      "entropy": 0.5387382507324219,
      "epoch": 2.613084112149533,
      "grad_norm": 0.04549875482916832,
      "learning_rate": 0.0002,
      "loss": 0.5360974073410034,
      "mean_token_accuracy": 0.781986802816391,
      "num_tokens": 11403934.0,
      "step": 700
    },
    {
      "entropy": 0.5418427735567093,
      "epoch": 2.616822429906542,
      "grad_norm": 0.04425078630447388,
      "learning_rate": 0.0002,
      "loss": 0.5500712990760803,
      "mean_token_accuracy": 0.7762207537889481,
      "num_tokens": 11420207.0,
      "step": 701
    },
    {
      "entropy": 0.5345925241708755,
      "epoch": 2.6205607476635513,
      "grad_norm": 0.0503389798104763,
      "learning_rate": 0.0002,
      "loss": 0.5410506129264832,
      "mean_token_accuracy": 0.7824158221483231,
      "num_tokens": 11436366.0,
      "step": 702
    },
    {
      "entropy": 0.5293083861470222,
      "epoch": 2.6242990654205607,
      "grad_norm": 0.03849806264042854,
      "learning_rate": 0.0002,
      "loss": 0.5313189625740051,
      "mean_token_accuracy": 0.7851823717355728,
      "num_tokens": 11452692.0,
      "step": 703
    },
    {
      "entropy": 0.5381535738706589,
      "epoch": 2.62803738317757,
      "grad_norm": 0.04830117151141167,
      "learning_rate": 0.0002,
      "loss": 0.5306882262229919,
      "mean_token_accuracy": 0.7875523120164871,
      "num_tokens": 11468948.0,
      "step": 704
    },
    {
      "entropy": 0.5537677556276321,
      "epoch": 2.6317757009345795,
      "grad_norm": 0.03648355230689049,
      "learning_rate": 0.0002,
      "loss": 0.549413800239563,
      "mean_token_accuracy": 0.7742456942796707,
      "num_tokens": 11485304.0,
      "step": 705
    },
    {
      "entropy": 0.5376065969467163,
      "epoch": 2.635514018691589,
      "grad_norm": 0.03775647282600403,
      "learning_rate": 0.0002,
      "loss": 0.5347313284873962,
      "mean_token_accuracy": 0.7820166647434235,
      "num_tokens": 11501515.0,
      "step": 706
    },
    {
      "entropy": 0.5389592945575714,
      "epoch": 2.6392523364485982,
      "grad_norm": 0.03849456459283829,
      "learning_rate": 0.0002,
      "loss": 0.542040228843689,
      "mean_token_accuracy": 0.7777668088674545,
      "num_tokens": 11517823.0,
      "step": 707
    },
    {
      "entropy": 0.5297961235046387,
      "epoch": 2.6429906542056076,
      "grad_norm": 0.03884672373533249,
      "learning_rate": 0.0002,
      "loss": 0.5295203924179077,
      "mean_token_accuracy": 0.7848687022924423,
      "num_tokens": 11534089.0,
      "step": 708
    },
    {
      "entropy": 0.5374749451875687,
      "epoch": 2.6467289719626166,
      "grad_norm": 0.040985025465488434,
      "learning_rate": 0.0002,
      "loss": 0.5486632585525513,
      "mean_token_accuracy": 0.7780227363109589,
      "num_tokens": 11550404.0,
      "step": 709
    },
    {
      "entropy": 0.5216163545846939,
      "epoch": 2.650467289719626,
      "grad_norm": 0.041445303708314896,
      "learning_rate": 0.0002,
      "loss": 0.5271479487419128,
      "mean_token_accuracy": 0.7851904779672623,
      "num_tokens": 11566700.0,
      "step": 710
    },
    {
      "entropy": 0.548863023519516,
      "epoch": 2.6542056074766354,
      "grad_norm": 0.03768117353320122,
      "learning_rate": 0.0002,
      "loss": 0.5421991944313049,
      "mean_token_accuracy": 0.7786275446414948,
      "num_tokens": 11583296.0,
      "step": 711
    },
    {
      "entropy": 0.5540084540843964,
      "epoch": 2.6579439252336448,
      "grad_norm": 0.03594231605529785,
      "learning_rate": 0.0002,
      "loss": 0.5558887720108032,
      "mean_token_accuracy": 0.775081142783165,
      "num_tokens": 11599637.0,
      "step": 712
    },
    {
      "entropy": 0.528472974896431,
      "epoch": 2.661682242990654,
      "grad_norm": 0.03718520700931549,
      "learning_rate": 0.0002,
      "loss": 0.5246076583862305,
      "mean_token_accuracy": 0.7852199673652649,
      "num_tokens": 11615767.0,
      "step": 713
    },
    {
      "entropy": 0.546594500541687,
      "epoch": 2.6654205607476635,
      "grad_norm": 0.042944129556417465,
      "learning_rate": 0.0002,
      "loss": 0.5401133298873901,
      "mean_token_accuracy": 0.7802519649267197,
      "num_tokens": 11632056.0,
      "step": 714
    },
    {
      "entropy": 0.5382472574710846,
      "epoch": 2.669158878504673,
      "grad_norm": 0.04242360591888428,
      "learning_rate": 0.0002,
      "loss": 0.5468363761901855,
      "mean_token_accuracy": 0.7763016223907471,
      "num_tokens": 11648587.0,
      "step": 715
    },
    {
      "entropy": 0.5384316891431808,
      "epoch": 2.6728971962616823,
      "grad_norm": 0.04231888800859451,
      "learning_rate": 0.0002,
      "loss": 0.5447696447372437,
      "mean_token_accuracy": 0.7771705389022827,
      "num_tokens": 11665216.0,
      "step": 716
    },
    {
      "entropy": 0.536566972732544,
      "epoch": 2.6766355140186917,
      "grad_norm": 0.051330000162124634,
      "learning_rate": 0.0002,
      "loss": 0.5337138175964355,
      "mean_token_accuracy": 0.7841814905405045,
      "num_tokens": 11681565.0,
      "step": 717
    },
    {
      "entropy": 0.5605298280715942,
      "epoch": 2.680373831775701,
      "grad_norm": 0.04393962025642395,
      "learning_rate": 0.0002,
      "loss": 0.5522550344467163,
      "mean_token_accuracy": 0.7745645940303802,
      "num_tokens": 11697734.0,
      "step": 718
    },
    {
      "entropy": 0.5421400368213654,
      "epoch": 2.6841121495327105,
      "grad_norm": 0.04087737947702408,
      "learning_rate": 0.0002,
      "loss": 0.5356095433235168,
      "mean_token_accuracy": 0.7823581695556641,
      "num_tokens": 11714256.0,
      "step": 719
    },
    {
      "entropy": 0.5455932766199112,
      "epoch": 2.68785046728972,
      "grad_norm": 0.04586983844637871,
      "learning_rate": 0.0002,
      "loss": 0.5500515699386597,
      "mean_token_accuracy": 0.7770348936319351,
      "num_tokens": 11730670.0,
      "step": 720
    },
    {
      "entropy": 0.521054208278656,
      "epoch": 2.691588785046729,
      "grad_norm": 0.04511021822690964,
      "learning_rate": 0.0002,
      "loss": 0.5274732112884521,
      "mean_token_accuracy": 0.7863785922527313,
      "num_tokens": 11747011.0,
      "step": 721
    },
    {
      "entropy": 0.5369152277708054,
      "epoch": 2.695327102803738,
      "grad_norm": 0.04111414775252342,
      "learning_rate": 0.0002,
      "loss": 0.5466327667236328,
      "mean_token_accuracy": 0.7800845950841904,
      "num_tokens": 11763325.0,
      "step": 722
    },
    {
      "entropy": 0.5467284768819809,
      "epoch": 2.6990654205607476,
      "grad_norm": 0.04847726225852966,
      "learning_rate": 0.0002,
      "loss": 0.5574571490287781,
      "mean_token_accuracy": 0.7709622234106064,
      "num_tokens": 11779629.0,
      "step": 723
    },
    {
      "entropy": 0.556825578212738,
      "epoch": 2.702803738317757,
      "grad_norm": 0.04135042428970337,
      "learning_rate": 0.0002,
      "loss": 0.5567163228988647,
      "mean_token_accuracy": 0.773699164390564,
      "num_tokens": 11795735.0,
      "step": 724
    },
    {
      "entropy": 0.5429602861404419,
      "epoch": 2.7065420560747664,
      "grad_norm": 0.0402897410094738,
      "learning_rate": 0.0002,
      "loss": 0.5313383936882019,
      "mean_token_accuracy": 0.7854284048080444,
      "num_tokens": 11812127.0,
      "step": 725
    },
    {
      "entropy": 0.5411138385534286,
      "epoch": 2.710280373831776,
      "grad_norm": 0.04476531967520714,
      "learning_rate": 0.0002,
      "loss": 0.5395961403846741,
      "mean_token_accuracy": 0.7811660319566727,
      "num_tokens": 11828424.0,
      "step": 726
    },
    {
      "entropy": 0.5500029474496841,
      "epoch": 2.714018691588785,
      "grad_norm": 0.03904065489768982,
      "learning_rate": 0.0002,
      "loss": 0.5481054186820984,
      "mean_token_accuracy": 0.7797027230262756,
      "num_tokens": 11844904.0,
      "step": 727
    },
    {
      "entropy": 0.5594752728939056,
      "epoch": 2.717757009345794,
      "grad_norm": 0.04920347407460213,
      "learning_rate": 0.0002,
      "loss": 0.5654065012931824,
      "mean_token_accuracy": 0.7703305035829544,
      "num_tokens": 11861341.0,
      "step": 728
    },
    {
      "entropy": 0.5409399420022964,
      "epoch": 2.7214953271028035,
      "grad_norm": 0.04093843698501587,
      "learning_rate": 0.0002,
      "loss": 0.5432956218719482,
      "mean_token_accuracy": 0.7790299355983734,
      "num_tokens": 11877689.0,
      "step": 729
    },
    {
      "entropy": 0.5429576933383942,
      "epoch": 2.725233644859813,
      "grad_norm": 0.049346111714839935,
      "learning_rate": 0.0002,
      "loss": 0.55011385679245,
      "mean_token_accuracy": 0.77861687541008,
      "num_tokens": 11893814.0,
      "step": 730
    },
    {
      "entropy": 0.5407661944627762,
      "epoch": 2.7289719626168223,
      "grad_norm": 0.0420721061527729,
      "learning_rate": 0.0002,
      "loss": 0.5426504015922546,
      "mean_token_accuracy": 0.7803787589073181,
      "num_tokens": 11910096.0,
      "step": 731
    },
    {
      "entropy": 0.5468227863311768,
      "epoch": 2.7327102803738317,
      "grad_norm": 0.0373503714799881,
      "learning_rate": 0.0002,
      "loss": 0.5417306423187256,
      "mean_token_accuracy": 0.782159686088562,
      "num_tokens": 11926285.0,
      "step": 732
    },
    {
      "entropy": 0.5427874177694321,
      "epoch": 2.736448598130841,
      "grad_norm": 0.041012153029441833,
      "learning_rate": 0.0002,
      "loss": 0.5334447622299194,
      "mean_token_accuracy": 0.7827651649713516,
      "num_tokens": 11942656.0,
      "step": 733
    },
    {
      "entropy": 0.5550535768270493,
      "epoch": 2.7401869158878505,
      "grad_norm": 0.03842266649007797,
      "learning_rate": 0.0002,
      "loss": 0.5497796535491943,
      "mean_token_accuracy": 0.7729970514774323,
      "num_tokens": 11959059.0,
      "step": 734
    },
    {
      "entropy": 0.5359070003032684,
      "epoch": 2.74392523364486,
      "grad_norm": 0.039268966764211655,
      "learning_rate": 0.0002,
      "loss": 0.5411967039108276,
      "mean_token_accuracy": 0.7831978797912598,
      "num_tokens": 11975265.0,
      "step": 735
    },
    {
      "entropy": 0.5536347031593323,
      "epoch": 2.7476635514018692,
      "grad_norm": 0.045411862432956696,
      "learning_rate": 0.0002,
      "loss": 0.5618187189102173,
      "mean_token_accuracy": 0.7741181403398514,
      "num_tokens": 11991498.0,
      "step": 736
    },
    {
      "entropy": 0.5233520418405533,
      "epoch": 2.7514018691588786,
      "grad_norm": 0.040144748985767365,
      "learning_rate": 0.0002,
      "loss": 0.5300607681274414,
      "mean_token_accuracy": 0.7847813218832016,
      "num_tokens": 12007487.0,
      "step": 737
    },
    {
      "entropy": 0.5281567052006721,
      "epoch": 2.755140186915888,
      "grad_norm": 0.04088376462459564,
      "learning_rate": 0.0002,
      "loss": 0.5294374823570251,
      "mean_token_accuracy": 0.7852809429168701,
      "num_tokens": 12023900.0,
      "step": 738
    },
    {
      "entropy": 0.5510239601135254,
      "epoch": 2.7588785046728974,
      "grad_norm": 0.04011458903551102,
      "learning_rate": 0.0002,
      "loss": 0.5465855002403259,
      "mean_token_accuracy": 0.7779260277748108,
      "num_tokens": 12040338.0,
      "step": 739
    },
    {
      "entropy": 0.57439024746418,
      "epoch": 2.762616822429907,
      "grad_norm": 0.036590199917554855,
      "learning_rate": 0.0002,
      "loss": 0.5653122663497925,
      "mean_token_accuracy": 0.7694305032491684,
      "num_tokens": 12056958.0,
      "step": 740
    },
    {
      "entropy": 0.5615127831697464,
      "epoch": 2.7663551401869158,
      "grad_norm": 0.036815449595451355,
      "learning_rate": 0.0002,
      "loss": 0.550983190536499,
      "mean_token_accuracy": 0.7743483930826187,
      "num_tokens": 12073644.0,
      "step": 741
    },
    {
      "entropy": 0.5349987298250198,
      "epoch": 2.770093457943925,
      "grad_norm": 0.03783464804291725,
      "learning_rate": 0.0002,
      "loss": 0.5378219485282898,
      "mean_token_accuracy": 0.7834212332963943,
      "num_tokens": 12090085.0,
      "step": 742
    },
    {
      "entropy": 0.5288607105612755,
      "epoch": 2.7738317757009345,
      "grad_norm": 0.047371115535497665,
      "learning_rate": 0.0002,
      "loss": 0.5444093346595764,
      "mean_token_accuracy": 0.7794700562953949,
      "num_tokens": 12106341.0,
      "step": 743
    },
    {
      "entropy": 0.5414262413978577,
      "epoch": 2.777570093457944,
      "grad_norm": 0.04306622967123985,
      "learning_rate": 0.0002,
      "loss": 0.548575222492218,
      "mean_token_accuracy": 0.7780982106924057,
      "num_tokens": 12122689.0,
      "step": 744
    },
    {
      "entropy": 0.5265444070100784,
      "epoch": 2.7813084112149533,
      "grad_norm": 0.038641780614852905,
      "learning_rate": 0.0002,
      "loss": 0.5287938117980957,
      "mean_token_accuracy": 0.7837643325328827,
      "num_tokens": 12138802.0,
      "step": 745
    },
    {
      "entropy": 0.5466189384460449,
      "epoch": 2.7850467289719627,
      "grad_norm": 0.0338594987988472,
      "learning_rate": 0.0002,
      "loss": 0.5439702272415161,
      "mean_token_accuracy": 0.7782793641090393,
      "num_tokens": 12154981.0,
      "step": 746
    },
    {
      "entropy": 0.5158288925886154,
      "epoch": 2.788785046728972,
      "grad_norm": 0.040148280560970306,
      "learning_rate": 0.0002,
      "loss": 0.5098775625228882,
      "mean_token_accuracy": 0.7936903238296509,
      "num_tokens": 12171278.0,
      "step": 747
    },
    {
      "entropy": 0.5605306029319763,
      "epoch": 2.792523364485981,
      "grad_norm": 0.03989556431770325,
      "learning_rate": 0.0002,
      "loss": 0.5507832169532776,
      "mean_token_accuracy": 0.7760983258485794,
      "num_tokens": 12187732.0,
      "step": 748
    },
    {
      "entropy": 0.561933159828186,
      "epoch": 2.7962616822429904,
      "grad_norm": 0.04341628775000572,
      "learning_rate": 0.0002,
      "loss": 0.5628443956375122,
      "mean_token_accuracy": 0.7725982367992401,
      "num_tokens": 12204073.0,
      "step": 749
    },
    {
      "entropy": 0.5275013446807861,
      "epoch": 2.8,
      "grad_norm": 0.04758904501795769,
      "learning_rate": 0.0002,
      "loss": 0.5401396751403809,
      "mean_token_accuracy": 0.7802035212516785,
      "num_tokens": 12220319.0,
      "step": 750
    },
    {
      "entropy": 0.5415465384721756,
      "epoch": 2.803738317757009,
      "grad_norm": 0.04323052614927292,
      "learning_rate": 0.0002,
      "loss": 0.5467565059661865,
      "mean_token_accuracy": 0.7801296561956406,
      "num_tokens": 12236798.0,
      "step": 751
    },
    {
      "entropy": 0.5384011566638947,
      "epoch": 2.8074766355140186,
      "grad_norm": 0.04094940423965454,
      "learning_rate": 0.0002,
      "loss": 0.5408844947814941,
      "mean_token_accuracy": 0.7790292948484421,
      "num_tokens": 12253226.0,
      "step": 752
    },
    {
      "entropy": 0.5556510388851166,
      "epoch": 2.811214953271028,
      "grad_norm": 0.037975817918777466,
      "learning_rate": 0.0002,
      "loss": 0.5480787754058838,
      "mean_token_accuracy": 0.7771931290626526,
      "num_tokens": 12269489.0,
      "step": 753
    },
    {
      "entropy": 0.5475790053606033,
      "epoch": 2.8149532710280374,
      "grad_norm": 0.041421882808208466,
      "learning_rate": 0.0002,
      "loss": 0.5383135676383972,
      "mean_token_accuracy": 0.7827092558145523,
      "num_tokens": 12285892.0,
      "step": 754
    },
    {
      "entropy": 0.5555797815322876,
      "epoch": 2.8186915887850468,
      "grad_norm": 0.03941413015127182,
      "learning_rate": 0.0002,
      "loss": 0.552151083946228,
      "mean_token_accuracy": 0.7751595675945282,
      "num_tokens": 12302269.0,
      "step": 755
    },
    {
      "entropy": 0.5256431847810745,
      "epoch": 2.822429906542056,
      "grad_norm": 0.040782686322927475,
      "learning_rate": 0.0002,
      "loss": 0.5262829661369324,
      "mean_token_accuracy": 0.7846409976482391,
      "num_tokens": 12318521.0,
      "step": 756
    },
    {
      "entropy": 0.538894459605217,
      "epoch": 2.8261682242990656,
      "grad_norm": 0.052266813814640045,
      "learning_rate": 0.0002,
      "loss": 0.5539013147354126,
      "mean_token_accuracy": 0.7756392508745193,
      "num_tokens": 12334819.0,
      "step": 757
    },
    {
      "entropy": 0.5483682453632355,
      "epoch": 2.829906542056075,
      "grad_norm": 0.04095127433538437,
      "learning_rate": 0.0002,
      "loss": 0.5520408749580383,
      "mean_token_accuracy": 0.7747367471456528,
      "num_tokens": 12351218.0,
      "step": 758
    },
    {
      "entropy": 0.5276503935456276,
      "epoch": 2.8336448598130843,
      "grad_norm": 0.04603305831551552,
      "learning_rate": 0.0002,
      "loss": 0.5317422151565552,
      "mean_token_accuracy": 0.780977338552475,
      "num_tokens": 12367390.0,
      "step": 759
    },
    {
      "entropy": 0.5502448529005051,
      "epoch": 2.8373831775700937,
      "grad_norm": 0.04640703275799751,
      "learning_rate": 0.0002,
      "loss": 0.5535072684288025,
      "mean_token_accuracy": 0.7761691957712173,
      "num_tokens": 12383960.0,
      "step": 760
    },
    {
      "entropy": 0.547056645154953,
      "epoch": 2.8411214953271027,
      "grad_norm": 0.033438824117183685,
      "learning_rate": 0.0002,
      "loss": 0.5412831902503967,
      "mean_token_accuracy": 0.7795712947845459,
      "num_tokens": 12400550.0,
      "step": 761
    },
    {
      "entropy": 0.5364657193422318,
      "epoch": 2.844859813084112,
      "grad_norm": 0.04271340370178223,
      "learning_rate": 0.0002,
      "loss": 0.5346530079841614,
      "mean_token_accuracy": 0.7835509330034256,
      "num_tokens": 12417061.0,
      "step": 762
    },
    {
      "entropy": 0.5455985963344574,
      "epoch": 2.8485981308411215,
      "grad_norm": 0.03856063261628151,
      "learning_rate": 0.0002,
      "loss": 0.5402116179466248,
      "mean_token_accuracy": 0.7816472351551056,
      "num_tokens": 12433548.0,
      "step": 763
    },
    {
      "entropy": 0.532633364200592,
      "epoch": 2.852336448598131,
      "grad_norm": 0.039442550390958786,
      "learning_rate": 0.0002,
      "loss": 0.5322520732879639,
      "mean_token_accuracy": 0.783360943198204,
      "num_tokens": 12449702.0,
      "step": 764
    },
    {
      "entropy": 0.5533113479614258,
      "epoch": 2.8560747663551402,
      "grad_norm": 0.03981044888496399,
      "learning_rate": 0.0002,
      "loss": 0.5526716113090515,
      "mean_token_accuracy": 0.7752720266580582,
      "num_tokens": 12465797.0,
      "step": 765
    },
    {
      "entropy": 0.5458943992853165,
      "epoch": 2.8598130841121496,
      "grad_norm": 0.043415430933237076,
      "learning_rate": 0.0002,
      "loss": 0.5514388084411621,
      "mean_token_accuracy": 0.7782578617334366,
      "num_tokens": 12482100.0,
      "step": 766
    },
    {
      "entropy": 0.5316417217254639,
      "epoch": 2.863551401869159,
      "grad_norm": 0.03658653050661087,
      "learning_rate": 0.0002,
      "loss": 0.5376189947128296,
      "mean_token_accuracy": 0.7812371999025345,
      "num_tokens": 12498442.0,
      "step": 767
    },
    {
      "entropy": 0.5365964025259018,
      "epoch": 2.867289719626168,
      "grad_norm": 0.04015335068106651,
      "learning_rate": 0.0002,
      "loss": 0.5381023287773132,
      "mean_token_accuracy": 0.7802128046751022,
      "num_tokens": 12514722.0,
      "step": 768
    },
    {
      "entropy": 0.5392501503229141,
      "epoch": 2.8710280373831774,
      "grad_norm": 0.04526032134890556,
      "learning_rate": 0.0002,
      "loss": 0.5440354347229004,
      "mean_token_accuracy": 0.7788137197494507,
      "num_tokens": 12531173.0,
      "step": 769
    },
    {
      "entropy": 0.5416650772094727,
      "epoch": 2.8747663551401867,
      "grad_norm": 0.03573603555560112,
      "learning_rate": 0.0002,
      "loss": 0.5344440340995789,
      "mean_token_accuracy": 0.782467320561409,
      "num_tokens": 12547297.0,
      "step": 770
    },
    {
      "entropy": 0.537946805357933,
      "epoch": 2.878504672897196,
      "grad_norm": 0.043754760175943375,
      "learning_rate": 0.0002,
      "loss": 0.5369762778282166,
      "mean_token_accuracy": 0.7813331335783005,
      "num_tokens": 12563639.0,
      "step": 771
    },
    {
      "entropy": 0.5417525321245193,
      "epoch": 2.8822429906542055,
      "grad_norm": 0.03892975300550461,
      "learning_rate": 0.0002,
      "loss": 0.5408830642700195,
      "mean_token_accuracy": 0.7807131111621857,
      "num_tokens": 12579951.0,
      "step": 772
    },
    {
      "entropy": 0.5286070853471756,
      "epoch": 2.885981308411215,
      "grad_norm": 0.041709210723638535,
      "learning_rate": 0.0002,
      "loss": 0.5315775275230408,
      "mean_token_accuracy": 0.7836516797542572,
      "num_tokens": 12596427.0,
      "step": 773
    },
    {
      "entropy": 0.5347200036048889,
      "epoch": 2.8897196261682243,
      "grad_norm": 0.04162106290459633,
      "learning_rate": 0.0002,
      "loss": 0.5488803386688232,
      "mean_token_accuracy": 0.7781624644994736,
      "num_tokens": 12612693.0,
      "step": 774
    },
    {
      "entropy": 0.5630818009376526,
      "epoch": 2.8934579439252337,
      "grad_norm": 0.03779264912009239,
      "learning_rate": 0.0002,
      "loss": 0.5618957281112671,
      "mean_token_accuracy": 0.7714088261127472,
      "num_tokens": 12629093.0,
      "step": 775
    },
    {
      "entropy": 0.5579015165567398,
      "epoch": 2.897196261682243,
      "grad_norm": 0.04071388393640518,
      "learning_rate": 0.0002,
      "loss": 0.5509809255599976,
      "mean_token_accuracy": 0.7759078145027161,
      "num_tokens": 12645440.0,
      "step": 776
    },
    {
      "entropy": 0.5593527257442474,
      "epoch": 2.9009345794392525,
      "grad_norm": 0.041921358555555344,
      "learning_rate": 0.0002,
      "loss": 0.5505045056343079,
      "mean_token_accuracy": 0.7758798003196716,
      "num_tokens": 12661819.0,
      "step": 777
    },
    {
      "entropy": 0.5402603298425674,
      "epoch": 2.904672897196262,
      "grad_norm": 0.03740124776959419,
      "learning_rate": 0.0002,
      "loss": 0.5350624322891235,
      "mean_token_accuracy": 0.7829450070858002,
      "num_tokens": 12678029.0,
      "step": 778
    },
    {
      "entropy": 0.5501836538314819,
      "epoch": 2.9084112149532713,
      "grad_norm": 0.03699700906872749,
      "learning_rate": 0.0002,
      "loss": 0.5496166944503784,
      "mean_token_accuracy": 0.7787871360778809,
      "num_tokens": 12694566.0,
      "step": 779
    },
    {
      "entropy": 0.5449737459421158,
      "epoch": 2.91214953271028,
      "grad_norm": 0.03947729989886284,
      "learning_rate": 0.0002,
      "loss": 0.5487996935844421,
      "mean_token_accuracy": 0.7771195471286774,
      "num_tokens": 12711096.0,
      "step": 780
    },
    {
      "entropy": 0.509773313999176,
      "epoch": 2.9158878504672896,
      "grad_norm": 0.04015858471393585,
      "learning_rate": 0.0002,
      "loss": 0.5180044174194336,
      "mean_token_accuracy": 0.7871870398521423,
      "num_tokens": 12727181.0,
      "step": 781
    },
    {
      "entropy": 0.5145790874958038,
      "epoch": 2.919626168224299,
      "grad_norm": 0.04480452463030815,
      "learning_rate": 0.0002,
      "loss": 0.517657995223999,
      "mean_token_accuracy": 0.7905906438827515,
      "num_tokens": 12743263.0,
      "step": 782
    },
    {
      "entropy": 0.536189079284668,
      "epoch": 2.9233644859813084,
      "grad_norm": 0.0368233323097229,
      "learning_rate": 0.0002,
      "loss": 0.5374237895011902,
      "mean_token_accuracy": 0.7814907878637314,
      "num_tokens": 12759582.0,
      "step": 783
    },
    {
      "entropy": 0.5301052629947662,
      "epoch": 2.9271028037383178,
      "grad_norm": 0.036369625478982925,
      "learning_rate": 0.0002,
      "loss": 0.5254780054092407,
      "mean_token_accuracy": 0.7876885831356049,
      "num_tokens": 12775680.0,
      "step": 784
    },
    {
      "entropy": 0.5395437628030777,
      "epoch": 2.930841121495327,
      "grad_norm": 0.037106823176145554,
      "learning_rate": 0.0002,
      "loss": 0.5353831648826599,
      "mean_token_accuracy": 0.7856823652982712,
      "num_tokens": 12791849.0,
      "step": 785
    },
    {
      "entropy": 0.5460378974676132,
      "epoch": 2.9345794392523366,
      "grad_norm": 0.0374838188290596,
      "learning_rate": 0.0002,
      "loss": 0.5441444516181946,
      "mean_token_accuracy": 0.7800013571977615,
      "num_tokens": 12808470.0,
      "step": 786
    },
    {
      "entropy": 0.5510992407798767,
      "epoch": 2.938317757009346,
      "grad_norm": 0.03663073852658272,
      "learning_rate": 0.0002,
      "loss": 0.5466246604919434,
      "mean_token_accuracy": 0.7789618521928787,
      "num_tokens": 12824709.0,
      "step": 787
    },
    {
      "entropy": 0.5445446521043777,
      "epoch": 2.942056074766355,
      "grad_norm": 0.03850307688117027,
      "learning_rate": 0.0002,
      "loss": 0.5457326769828796,
      "mean_token_accuracy": 0.779052123427391,
      "num_tokens": 12841079.0,
      "step": 788
    },
    {
      "entropy": 0.5365033894777298,
      "epoch": 2.9457943925233643,
      "grad_norm": 0.04035929962992668,
      "learning_rate": 0.0002,
      "loss": 0.5459482073783875,
      "mean_token_accuracy": 0.7797062546014786,
      "num_tokens": 12857523.0,
      "step": 789
    },
    {
      "entropy": 0.535067155957222,
      "epoch": 2.9495327102803737,
      "grad_norm": 0.04887193441390991,
      "learning_rate": 0.0002,
      "loss": 0.5398947596549988,
      "mean_token_accuracy": 0.7823842316865921,
      "num_tokens": 12874241.0,
      "step": 790
    },
    {
      "entropy": 0.5346145331859589,
      "epoch": 2.953271028037383,
      "grad_norm": 0.03713555634021759,
      "learning_rate": 0.0002,
      "loss": 0.5383285880088806,
      "mean_token_accuracy": 0.7822743952274323,
      "num_tokens": 12890347.0,
      "step": 791
    },
    {
      "entropy": 0.5538973659276962,
      "epoch": 2.9570093457943925,
      "grad_norm": 0.042103007435798645,
      "learning_rate": 0.0002,
      "loss": 0.5548110604286194,
      "mean_token_accuracy": 0.7737681418657303,
      "num_tokens": 12906728.0,
      "step": 792
    },
    {
      "entropy": 0.5500922650098801,
      "epoch": 2.960747663551402,
      "grad_norm": 0.03705638647079468,
      "learning_rate": 0.0002,
      "loss": 0.5455094575881958,
      "mean_token_accuracy": 0.7803948670625687,
      "num_tokens": 12923166.0,
      "step": 793
    },
    {
      "entropy": 0.562080979347229,
      "epoch": 2.9644859813084112,
      "grad_norm": 0.045153554528951645,
      "learning_rate": 0.0002,
      "loss": 0.5568199157714844,
      "mean_token_accuracy": 0.7736331224441528,
      "num_tokens": 12939504.0,
      "step": 794
    },
    {
      "entropy": 0.5559557229280472,
      "epoch": 2.9682242990654206,
      "grad_norm": 0.04255378246307373,
      "learning_rate": 0.0002,
      "loss": 0.5531718134880066,
      "mean_token_accuracy": 0.7762871235609055,
      "num_tokens": 12955898.0,
      "step": 795
    },
    {
      "entropy": 0.5435759872198105,
      "epoch": 2.97196261682243,
      "grad_norm": 0.03799128159880638,
      "learning_rate": 0.0002,
      "loss": 0.5441620349884033,
      "mean_token_accuracy": 0.7793318778276443,
      "num_tokens": 12972346.0,
      "step": 796
    },
    {
      "entropy": 0.5359157919883728,
      "epoch": 2.9757009345794394,
      "grad_norm": 0.05715997889637947,
      "learning_rate": 0.0002,
      "loss": 0.5515891909599304,
      "mean_token_accuracy": 0.7771831452846527,
      "num_tokens": 12988848.0,
      "step": 797
    },
    {
      "entropy": 0.5230652317404747,
      "epoch": 2.979439252336449,
      "grad_norm": 0.04036436975002289,
      "learning_rate": 0.0002,
      "loss": 0.5234889388084412,
      "mean_token_accuracy": 0.7856348752975464,
      "num_tokens": 13004832.0,
      "step": 798
    },
    {
      "entropy": 0.5457260459661484,
      "epoch": 2.983177570093458,
      "grad_norm": 0.04120893031358719,
      "learning_rate": 0.0002,
      "loss": 0.5378625392913818,
      "mean_token_accuracy": 0.7840824872255325,
      "num_tokens": 13021226.0,
      "step": 799
    },
    {
      "entropy": 0.5480275601148605,
      "epoch": 2.986915887850467,
      "grad_norm": 0.050067413598299026,
      "learning_rate": 0.0002,
      "loss": 0.5414943099021912,
      "mean_token_accuracy": 0.7796735763549805,
      "num_tokens": 13037664.0,
      "step": 800
    },
    {
      "entropy": 0.5385295897722244,
      "epoch": 2.9906542056074765,
      "grad_norm": 0.03477542847394943,
      "learning_rate": 0.0002,
      "loss": 0.5353237390518188,
      "mean_token_accuracy": 0.7814339101314545,
      "num_tokens": 13053836.0,
      "step": 801
    },
    {
      "entropy": 0.5408166199922562,
      "epoch": 2.994392523364486,
      "grad_norm": 0.038822371512651443,
      "learning_rate": 0.0002,
      "loss": 0.5407392382621765,
      "mean_token_accuracy": 0.7796344310045242,
      "num_tokens": 13070132.0,
      "step": 802
    },
    {
      "entropy": 0.533338338136673,
      "epoch": 2.9981308411214953,
      "grad_norm": 0.04834038019180298,
      "learning_rate": 0.0002,
      "loss": 0.5456323027610779,
      "mean_token_accuracy": 0.7770627439022064,
      "num_tokens": 13086317.0,
      "step": 803
    },
    {
      "entropy": 0.520211398601532,
      "epoch": 3.0,
      "grad_norm": 0.04815197363495827,
      "learning_rate": 0.0002,
      "loss": 0.5207195281982422,
      "mean_token_accuracy": 0.7871742844581604,
      "num_tokens": 13094581.0,
      "step": 804
    }
  ],
  "logging_steps": 1,
  "max_steps": 804,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.2192829660484076e+18,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}