{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 460,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "entropy": 0.991020917892456,
      "epoch": 0.002177463255307567,
      "grad_norm": 1.7277425527572632,
      "learning_rate": 0.0,
      "loss": 2.1366,
      "mean_token_accuracy": 0.628267303109169,
      "num_tokens": 3878.0,
      "step": 1
    },
    {
      "entropy": 0.957662433385849,
      "epoch": 0.004354926510615134,
      "grad_norm": 2.072942018508911,
      "learning_rate": 1.4285714285714285e-05,
      "loss": 2.1489,
      "mean_token_accuracy": 0.6321403831243515,
      "num_tokens": 7754.0,
      "step": 2
    },
    {
      "entropy": 0.9688078463077545,
      "epoch": 0.0065323897659227,
      "grad_norm": 1.712500810623169,
      "learning_rate": 2.857142857142857e-05,
      "loss": 2.1006,
      "mean_token_accuracy": 0.6395954489707947,
      "num_tokens": 11724.0,
      "step": 3
    },
    {
      "entropy": 0.9446051567792892,
      "epoch": 0.008709853021230268,
      "grad_norm": 1.6249885559082031,
      "learning_rate": 4.2857142857142856e-05,
      "loss": 1.8636,
      "mean_token_accuracy": 0.6592330932617188,
      "num_tokens": 15998.0,
      "step": 4
    },
    {
      "entropy": 0.9482486844062805,
      "epoch": 0.010887316276537834,
      "grad_norm": 1.2645702362060547,
      "learning_rate": 5.714285714285714e-05,
      "loss": 1.6381,
      "mean_token_accuracy": 0.6715894490480423,
      "num_tokens": 20034.0,
      "step": 5
    },
    {
      "entropy": 0.8820638656616211,
      "epoch": 0.0130647795318454,
      "grad_norm": 0.9111854434013367,
      "learning_rate": 7.142857142857143e-05,
      "loss": 1.256,
      "mean_token_accuracy": 0.7338996976613998,
      "num_tokens": 24592.0,
      "step": 6
    },
    {
      "entropy": 0.866950273513794,
      "epoch": 0.015242242787152967,
      "grad_norm": 0.6964920163154602,
      "learning_rate": 8.571428571428571e-05,
      "loss": 1.0385,
      "mean_token_accuracy": 0.7606792002916336,
      "num_tokens": 29247.0,
      "step": 7
    },
    {
      "entropy": 0.9245865046977997,
      "epoch": 0.017419706042460535,
      "grad_norm": 0.6615565419197083,
      "learning_rate": 0.0001,
      "loss": 0.9594,
      "mean_token_accuracy": 0.7808533608913422,
      "num_tokens": 33561.0,
      "step": 8
    },
    {
      "entropy": 0.8866463452577591,
      "epoch": 0.0195971692977681,
      "grad_norm": 0.5024364590644836,
      "learning_rate": 0.00011428571428571428,
      "loss": 0.8709,
      "mean_token_accuracy": 0.7967555373907089,
      "num_tokens": 37956.0,
      "step": 9
    },
    {
      "entropy": 0.8838604241609573,
      "epoch": 0.021774632553075667,
      "grad_norm": 0.637697696685791,
      "learning_rate": 0.00012857142857142858,
      "loss": 0.8448,
      "mean_token_accuracy": 0.7953355461359024,
      "num_tokens": 41607.0,
      "step": 10
    },
    {
      "entropy": 0.8180341869592667,
      "epoch": 0.023952095808383235,
      "grad_norm": 0.5411834120750427,
      "learning_rate": 0.00014285714285714287,
      "loss": 0.7641,
      "mean_token_accuracy": 0.8057558983564377,
      "num_tokens": 45872.0,
      "step": 11
    },
    {
      "entropy": 0.6423389464616776,
      "epoch": 0.0261295590636908,
      "grad_norm": 0.5807392597198486,
      "learning_rate": 0.00015714285714285716,
      "loss": 0.6364,
      "mean_token_accuracy": 0.8353168815374374,
      "num_tokens": 50197.0,
      "step": 12
    },
    {
      "entropy": 0.7770279943943024,
      "epoch": 0.028307022318998367,
      "grad_norm": 0.602966845035553,
      "learning_rate": 0.00017142857142857143,
      "loss": 0.911,
      "mean_token_accuracy": 0.8115980476140976,
      "num_tokens": 55436.0,
      "step": 13
    },
    {
      "entropy": 0.6030550897121429,
      "epoch": 0.030484485574305935,
      "grad_norm": 0.471264511346817,
      "learning_rate": 0.00018571428571428572,
      "loss": 0.6506,
      "mean_token_accuracy": 0.8220222592353821,
      "num_tokens": 59509.0,
      "step": 14
    },
    {
      "entropy": 0.5797188133001328,
      "epoch": 0.0326619488296135,
      "grad_norm": 0.3981204628944397,
      "learning_rate": 0.0002,
      "loss": 0.6439,
      "mean_token_accuracy": 0.8296175897121429,
      "num_tokens": 63811.0,
      "step": 15
    },
    {
      "entropy": 0.5227785632014275,
      "epoch": 0.03483941208492107,
      "grad_norm": 0.3803451955318451,
      "learning_rate": 0.00019999776724666853,
      "loss": 0.5614,
      "mean_token_accuracy": 0.8536529093980789,
      "num_tokens": 67933.0,
      "step": 16
    },
    {
      "entropy": 0.5339454486966133,
      "epoch": 0.037016875340228635,
      "grad_norm": 0.4023122489452362,
      "learning_rate": 0.00019999106909745614,
      "loss": 0.5768,
      "mean_token_accuracy": 0.8468181490898132,
      "num_tokens": 71929.0,
      "step": 17
    },
    {
      "entropy": 0.5080433636903763,
      "epoch": 0.0391943385955362,
      "grad_norm": 0.359109103679657,
      "learning_rate": 0.0001999799058847031,
      "loss": 0.5158,
      "mean_token_accuracy": 0.8626691251993179,
      "num_tokens": 76116.0,
      "step": 18
    },
    {
      "entropy": 0.49260225892066956,
      "epoch": 0.04137180185084377,
      "grad_norm": 0.34172919392585754,
      "learning_rate": 0.00019996427816229171,
      "loss": 0.5121,
      "mean_token_accuracy": 0.8724553287029266,
      "num_tokens": 80000.0,
      "step": 19
    },
    {
      "entropy": 0.5065008923411369,
      "epoch": 0.043549265106151334,
      "grad_norm": 0.4033750295639038,
      "learning_rate": 0.00019994418670561857,
      "loss": 0.5636,
      "mean_token_accuracy": 0.8592322468757629,
      "num_tokens": 83682.0,
      "step": 20
    },
    {
      "entropy": 0.54892348498106,
      "epoch": 0.0457267283614589,
      "grad_norm": 0.41379520297050476,
      "learning_rate": 0.00019991963251155627,
      "loss": 0.5693,
      "mean_token_accuracy": 0.8495212495326996,
      "num_tokens": 87684.0,
      "step": 21
    },
    {
      "entropy": 0.4928950071334839,
      "epoch": 0.04790419161676647,
      "grad_norm": 0.3717893362045288,
      "learning_rate": 0.00019989061679840392,
      "loss": 0.523,
      "mean_token_accuracy": 0.8606368601322174,
      "num_tokens": 91550.0,
      "step": 22
    },
    {
      "entropy": 0.5253347381949425,
      "epoch": 0.050081654872074034,
      "grad_norm": 0.3741125166416168,
      "learning_rate": 0.0001998571410058266,
      "loss": 0.5433,
      "mean_token_accuracy": 0.8630485236644745,
      "num_tokens": 95625.0,
      "step": 23
    },
    {
      "entropy": 0.5028375387191772,
      "epoch": 0.0522591181273816,
      "grad_norm": 1.8555870056152344,
      "learning_rate": 0.00019981920679478407,
      "loss": 0.5296,
      "mean_token_accuracy": 0.8609876334667206,
      "num_tokens": 99517.0,
      "step": 24
    },
    {
      "entropy": 0.5414893701672554,
      "epoch": 0.05443658138268917,
      "grad_norm": 0.44715237617492676,
      "learning_rate": 0.00019977681604744824,
      "loss": 0.5782,
      "mean_token_accuracy": 0.8441034108400345,
      "num_tokens": 103204.0,
      "step": 25
    },
    {
      "entropy": 0.48021427541971207,
      "epoch": 0.056614044637996734,
      "grad_norm": 0.31098225712776184,
      "learning_rate": 0.0001997299708671098,
      "loss": 0.4932,
      "mean_token_accuracy": 0.8744789958000183,
      "num_tokens": 107327.0,
      "step": 26
    },
    {
      "entropy": 0.46857017278671265,
      "epoch": 0.0587915078933043,
      "grad_norm": 0.3036307692527771,
      "learning_rate": 0.00019967867357807391,
      "loss": 0.4791,
      "mean_token_accuracy": 0.8786111921072006,
      "num_tokens": 111453.0,
      "step": 27
    },
    {
      "entropy": 0.49031493067741394,
      "epoch": 0.06096897114861187,
      "grad_norm": 0.3337958753108978,
      "learning_rate": 0.00019962292672554493,
      "loss": 0.5018,
      "mean_token_accuracy": 0.8619510382413864,
      "num_tokens": 115266.0,
      "step": 28
    },
    {
      "entropy": 0.4807809889316559,
      "epoch": 0.06314643440391943,
      "grad_norm": 0.35365355014801025,
      "learning_rate": 0.00019956273307549988,
      "loss": 0.4877,
      "mean_token_accuracy": 0.8618622571229935,
      "num_tokens": 118928.0,
      "step": 29
    },
    {
      "entropy": 0.40949247032403946,
      "epoch": 0.065323897659227,
      "grad_norm": 0.3226538300514221,
      "learning_rate": 0.00019949809561455156,
      "loss": 0.4133,
      "mean_token_accuracy": 0.8882981538772583,
      "num_tokens": 122893.0,
      "step": 30
    },
    {
      "entropy": 0.49030745029449463,
      "epoch": 0.06750136091453457,
      "grad_norm": 0.33420825004577637,
      "learning_rate": 0.0001994290175498001,
      "loss": 0.503,
      "mean_token_accuracy": 0.8634953200817108,
      "num_tokens": 127132.0,
      "step": 31
    },
    {
      "entropy": 0.49527500569820404,
      "epoch": 0.06967882416984214,
      "grad_norm": 0.4112333655357361,
      "learning_rate": 0.00019935550230867392,
      "loss": 0.5067,
      "mean_token_accuracy": 0.8607686161994934,
      "num_tokens": 131100.0,
      "step": 32
    },
    {
      "entropy": 0.5203969404101372,
      "epoch": 0.0718562874251497,
      "grad_norm": 1.3927068710327148,
      "learning_rate": 0.00019927755353875965,
      "loss": 0.5942,
      "mean_token_accuracy": 0.8566101640462875,
      "num_tokens": 135503.0,
      "step": 33
    },
    {
      "entropy": 0.5023058727383614,
      "epoch": 0.07403375068045727,
      "grad_norm": 0.4079550802707672,
      "learning_rate": 0.00019919517510762124,
      "loss": 0.4961,
      "mean_token_accuracy": 0.8630523085594177,
      "num_tokens": 139771.0,
      "step": 34
    },
    {
      "entropy": 0.4864235520362854,
      "epoch": 0.07621121393576484,
      "grad_norm": 0.39264485239982605,
      "learning_rate": 0.0001991083711026079,
      "loss": 0.5009,
      "mean_token_accuracy": 0.871365949511528,
      "num_tokens": 143980.0,
      "step": 35
    },
    {
      "entropy": 0.525127612054348,
      "epoch": 0.0783886771910724,
      "grad_norm": 0.4305553734302521,
      "learning_rate": 0.00019901714583065152,
      "loss": 0.4872,
      "mean_token_accuracy": 0.8670255392789841,
      "num_tokens": 148059.0,
      "step": 36
    },
    {
      "entropy": 0.5707878470420837,
      "epoch": 0.08056614044637997,
      "grad_norm": 0.44129130244255066,
      "learning_rate": 0.00019892150381805267,
      "loss": 0.581,
      "mean_token_accuracy": 0.844414696097374,
      "num_tokens": 152230.0,
      "step": 37
    },
    {
      "entropy": 0.5001106485724449,
      "epoch": 0.08274360370168754,
      "grad_norm": 0.5918931365013123,
      "learning_rate": 0.00019882144981025633,
      "loss": 0.4751,
      "mean_token_accuracy": 0.8649907559156418,
      "num_tokens": 156252.0,
      "step": 38
    },
    {
      "entropy": 0.5312293991446495,
      "epoch": 0.0849210669569951,
      "grad_norm": 0.4835371971130371,
      "learning_rate": 0.00019871698877161627,
      "loss": 0.5091,
      "mean_token_accuracy": 0.871647521853447,
      "num_tokens": 160171.0,
      "step": 39
    },
    {
      "entropy": 0.4701843932271004,
      "epoch": 0.08709853021230267,
      "grad_norm": 0.48571643233299255,
      "learning_rate": 0.0001986081258851487,
      "loss": 0.4495,
      "mean_token_accuracy": 0.8771228045225143,
      "num_tokens": 163975.0,
      "step": 40
    },
    {
      "entropy": 0.4694196283817291,
      "epoch": 0.08927599346761024,
      "grad_norm": 0.4216046929359436,
      "learning_rate": 0.00019849486655227532,
      "loss": 0.4158,
      "mean_token_accuracy": 0.8735549598932266,
      "num_tokens": 168421.0,
      "step": 41
    },
    {
      "entropy": 0.4697120413184166,
      "epoch": 0.0914534567229178,
      "grad_norm": 0.3664827346801758,
      "learning_rate": 0.000198377216392555,
      "loss": 0.4231,
      "mean_token_accuracy": 0.8784957528114319,
      "num_tokens": 172395.0,
      "step": 42
    },
    {
      "entropy": 0.44586674869060516,
      "epoch": 0.09363091997822537,
      "grad_norm": 0.39455050230026245,
      "learning_rate": 0.00019825518124340529,
      "loss": 0.4166,
      "mean_token_accuracy": 0.8799059689044952,
      "num_tokens": 175967.0,
      "step": 43
    },
    {
      "entropy": 0.4293370470404625,
      "epoch": 0.09580838323353294,
      "grad_norm": 0.39706796407699585,
      "learning_rate": 0.00019812876715981248,
      "loss": 0.4522,
      "mean_token_accuracy": 0.8723510503768921,
      "num_tokens": 180153.0,
      "step": 44
    },
    {
      "entropy": 0.41641899943351746,
      "epoch": 0.0979858464888405,
      "grad_norm": 0.41735970973968506,
      "learning_rate": 0.00019799798041403137,
      "loss": 0.4436,
      "mean_token_accuracy": 0.8725763112306595,
      "num_tokens": 184161.0,
      "step": 45
    },
    {
      "entropy": 0.40215710550546646,
      "epoch": 0.10016330974414807,
      "grad_norm": 0.44639289379119873,
      "learning_rate": 0.00019786282749527406,
      "loss": 0.4289,
      "mean_token_accuracy": 0.8803199082612991,
      "num_tokens": 187869.0,
      "step": 46
    },
    {
      "entropy": 0.48222628980875015,
      "epoch": 0.10234077299945564,
      "grad_norm": 0.4197250306606293,
      "learning_rate": 0.00019772331510938782,
      "loss": 0.4861,
      "mean_token_accuracy": 0.8618861585855484,
      "num_tokens": 192020.0,
      "step": 47
    },
    {
      "entropy": 0.49629800766706467,
      "epoch": 0.1045182362547632,
      "grad_norm": 0.5031387209892273,
      "learning_rate": 0.00019757945017852258,
      "loss": 0.4775,
      "mean_token_accuracy": 0.8681423515081406,
      "num_tokens": 195514.0,
      "step": 48
    },
    {
      "entropy": 0.3977178856730461,
      "epoch": 0.10669569951007077,
      "grad_norm": 0.4578983783721924,
      "learning_rate": 0.0001974312398407873,
      "loss": 0.3673,
      "mean_token_accuracy": 0.8914825022220612,
      "num_tokens": 199234.0,
      "step": 49
    },
    {
      "entropy": 0.3965229466557503,
      "epoch": 0.10887316276537834,
      "grad_norm": 0.37602174282073975,
      "learning_rate": 0.0001972786914498958,
      "loss": 0.3953,
      "mean_token_accuracy": 0.8783656060695648,
      "num_tokens": 203760.0,
      "step": 50
    },
    {
      "entropy": 0.42161373794078827,
      "epoch": 0.1110506260206859,
      "grad_norm": 0.3125810921192169,
      "learning_rate": 0.00019712181257480212,
      "loss": 0.3754,
      "mean_token_accuracy": 0.8832796663045883,
      "num_tokens": 207439.0,
      "step": 51
    },
    {
      "entropy": 0.4191659912467003,
      "epoch": 0.11322808927599347,
      "grad_norm": 0.32242998480796814,
      "learning_rate": 0.00019696061099932471,
      "loss": 0.3861,
      "mean_token_accuracy": 0.8820012956857681,
      "num_tokens": 211708.0,
      "step": 52
    },
    {
      "entropy": 0.464703693985939,
      "epoch": 0.11540555253130104,
      "grad_norm": 0.4021685719490051,
      "learning_rate": 0.00019679509472176032,
      "loss": 0.4384,
      "mean_token_accuracy": 0.8743875622749329,
      "num_tokens": 215763.0,
      "step": 53
    },
    {
      "entropy": 0.4165603965520859,
      "epoch": 0.1175830157866086,
      "grad_norm": 0.3444255590438843,
      "learning_rate": 0.00019662527195448722,
      "loss": 0.3991,
      "mean_token_accuracy": 0.88118776679039,
      "num_tokens": 220090.0,
      "step": 54
    },
    {
      "entropy": 0.4068721905350685,
      "epoch": 0.11976047904191617,
      "grad_norm": 0.3705560564994812,
      "learning_rate": 0.00019645115112355754,
      "loss": 0.3707,
      "mean_token_accuracy": 0.882274329662323,
      "num_tokens": 223672.0,
      "step": 55
    },
    {
      "entropy": 0.3627975210547447,
      "epoch": 0.12193794229722374,
      "grad_norm": 0.37365177273750305,
      "learning_rate": 0.00019627274086827948,
      "loss": 0.36,
      "mean_token_accuracy": 0.8874702304601669,
      "num_tokens": 227497.0,
      "step": 56
    },
    {
      "entropy": 0.40359440445899963,
      "epoch": 0.1241154055525313,
      "grad_norm": 0.33996060490608215,
      "learning_rate": 0.00019609005004078838,
      "loss": 0.4253,
      "mean_token_accuracy": 0.8732311725616455,
      "num_tokens": 231293.0,
      "step": 57
    },
    {
      "entropy": 0.36641839146614075,
      "epoch": 0.12629286880783885,
      "grad_norm": 0.2762836515903473,
      "learning_rate": 0.00019590308770560763,
      "loss": 0.3485,
      "mean_token_accuracy": 0.8926344960927963,
      "num_tokens": 236001.0,
      "step": 58
    },
    {
      "entropy": 0.4077141284942627,
      "epoch": 0.12847033206314643,
      "grad_norm": 0.2915239930152893,
      "learning_rate": 0.00019571186313919895,
      "loss": 0.3942,
      "mean_token_accuracy": 0.8783977180719376,
      "num_tokens": 240264.0,
      "step": 59
    },
    {
      "entropy": 0.4022030830383301,
      "epoch": 0.130647795318454,
      "grad_norm": 0.3684654235839844,
      "learning_rate": 0.00019551638582950213,
      "loss": 0.412,
      "mean_token_accuracy": 0.8735997825860977,
      "num_tokens": 243854.0,
      "step": 60
    },
    {
      "entropy": 0.41812095791101456,
      "epoch": 0.13282525857376157,
      "grad_norm": 0.3383813500404358,
      "learning_rate": 0.00019531666547546403,
      "loss": 0.4302,
      "mean_token_accuracy": 0.8795482665300369,
      "num_tokens": 247268.0,
      "step": 61
    },
    {
      "entropy": 0.38665496557950974,
      "epoch": 0.13500272182906914,
      "grad_norm": 0.31561279296875,
      "learning_rate": 0.0001951127119865578,
      "loss": 0.3844,
      "mean_token_accuracy": 0.8816228210926056,
      "num_tokens": 251256.0,
      "step": 62
    },
    {
      "entropy": 0.4358583614230156,
      "epoch": 0.1371801850843767,
      "grad_norm": 0.3552601933479309,
      "learning_rate": 0.00019490453548229075,
      "loss": 0.4193,
      "mean_token_accuracy": 0.8728261440992355,
      "num_tokens": 255350.0,
      "step": 63
    },
    {
      "entropy": 0.40031400322914124,
      "epoch": 0.13935764833968428,
      "grad_norm": 0.30350831151008606,
      "learning_rate": 0.00019469214629170246,
      "loss": 0.4005,
      "mean_token_accuracy": 0.8818740844726562,
      "num_tokens": 259391.0,
      "step": 64
    },
    {
      "entropy": 0.3782212808728218,
      "epoch": 0.14153511159499182,
      "grad_norm": 0.2870739996433258,
      "learning_rate": 0.00019447555495285247,
      "loss": 0.3396,
      "mean_token_accuracy": 0.8948279619216919,
      "num_tokens": 263599.0,
      "step": 65
    },
    {
      "entropy": 0.41549866646528244,
      "epoch": 0.1437125748502994,
      "grad_norm": 0.2995204031467438,
      "learning_rate": 0.00019425477221229694,
      "loss": 0.394,
      "mean_token_accuracy": 0.8853535056114197,
      "num_tokens": 267514.0,
      "step": 66
    },
    {
      "entropy": 0.40607404708862305,
      "epoch": 0.14589003810560697,
      "grad_norm": 0.3016026020050049,
      "learning_rate": 0.00019402980902455592,
      "loss": 0.4006,
      "mean_token_accuracy": 0.8783000707626343,
      "num_tokens": 271156.0,
      "step": 67
    },
    {
      "entropy": 0.3719393089413643,
      "epoch": 0.14806750136091454,
      "grad_norm": 0.26128438115119934,
      "learning_rate": 0.00019380067655156956,
      "loss": 0.3537,
      "mean_token_accuracy": 0.8965920209884644,
      "num_tokens": 275317.0,
      "step": 68
    },
    {
      "entropy": 0.42157839983701706,
      "epoch": 0.1502449646162221,
      "grad_norm": 0.3250483572483063,
      "learning_rate": 0.00019356738616214435,
      "loss": 0.4115,
      "mean_token_accuracy": 0.8846541047096252,
      "num_tokens": 279424.0,
      "step": 69
    },
    {
      "entropy": 0.4183052033185959,
      "epoch": 0.15242242787152968,
      "grad_norm": 0.315361887216568,
      "learning_rate": 0.00019332994943138906,
      "loss": 0.4148,
      "mean_token_accuracy": 0.8700041323900223,
      "num_tokens": 283564.0,
      "step": 70
    },
    {
      "entropy": 0.40483858436346054,
      "epoch": 0.15459989112683722,
      "grad_norm": 0.31096142530441284,
      "learning_rate": 0.00019308837814014038,
      "loss": 0.3835,
      "mean_token_accuracy": 0.8849562704563141,
      "num_tokens": 287357.0,
      "step": 71
    },
    {
      "entropy": 0.39035435765981674,
      "epoch": 0.1567773543821448,
      "grad_norm": 0.3067997097969055,
      "learning_rate": 0.0001928426842743784,
      "loss": 0.3846,
      "mean_token_accuracy": 0.8829791098833084,
      "num_tokens": 291390.0,
      "step": 72
    },
    {
      "entropy": 0.3541962653398514,
      "epoch": 0.15895481763745237,
      "grad_norm": 0.27743661403656006,
      "learning_rate": 0.000192592880024632,
      "loss": 0.3279,
      "mean_token_accuracy": 0.8986150324344635,
      "num_tokens": 295446.0,
      "step": 73
    },
    {
      "entropy": 0.4067593812942505,
      "epoch": 0.16113228089275994,
      "grad_norm": 0.2917785346508026,
      "learning_rate": 0.00019233897778537387,
      "loss": 0.4056,
      "mean_token_accuracy": 0.8775222897529602,
      "num_tokens": 299884.0,
      "step": 74
    },
    {
      "entropy": 0.3865869492292404,
      "epoch": 0.1633097441480675,
      "grad_norm": 0.3175944685935974,
      "learning_rate": 0.00019208099015440553,
      "loss": 0.3947,
      "mean_token_accuracy": 0.8831316977739334,
      "num_tokens": 303679.0,
      "step": 75
    },
    {
      "entropy": 0.42061641067266464,
      "epoch": 0.16548720740337508,
      "grad_norm": 0.29020923376083374,
      "learning_rate": 0.00019181892993223241,
      "loss": 0.424,
      "mean_token_accuracy": 0.8717161864042282,
      "num_tokens": 308028.0,
      "step": 76
    },
    {
      "entropy": 0.3790237084031105,
      "epoch": 0.16766467065868262,
      "grad_norm": 0.28459441661834717,
      "learning_rate": 0.00019155281012142857,
      "loss": 0.3669,
      "mean_token_accuracy": 0.8902580589056015,
      "num_tokens": 312280.0,
      "step": 77
    },
    {
      "entropy": 0.4007532522082329,
      "epoch": 0.1698421339139902,
      "grad_norm": 0.2907998263835907,
      "learning_rate": 0.00019128264392599166,
      "loss": 0.421,
      "mean_token_accuracy": 0.8734158575534821,
      "num_tokens": 316050.0,
      "step": 78
    },
    {
      "entropy": 0.38431502133607864,
      "epoch": 0.17201959716929777,
      "grad_norm": 0.2705579102039337,
      "learning_rate": 0.00019100844475068777,
      "loss": 0.3687,
      "mean_token_accuracy": 0.8934948295354843,
      "num_tokens": 319866.0,
      "step": 79
    },
    {
      "entropy": 0.4128147065639496,
      "epoch": 0.17419706042460534,
      "grad_norm": 0.3151399493217468,
      "learning_rate": 0.0001907302262003863,
      "loss": 0.3829,
      "mean_token_accuracy": 0.8834633827209473,
      "num_tokens": 323982.0,
      "step": 80
    },
    {
      "entropy": 0.4086031913757324,
      "epoch": 0.1763745236799129,
      "grad_norm": 0.3054238557815552,
      "learning_rate": 0.00019044800207938483,
      "loss": 0.3987,
      "mean_token_accuracy": 0.8847066015005112,
      "num_tokens": 327984.0,
      "step": 81
    },
    {
      "entropy": 0.3883258253335953,
      "epoch": 0.17855198693522048,
      "grad_norm": 0.29092952609062195,
      "learning_rate": 0.00019016178639072448,
      "loss": 0.3799,
      "mean_token_accuracy": 0.8958835899829865,
      "num_tokens": 331502.0,
      "step": 82
    },
    {
      "entropy": 0.41453375667333603,
      "epoch": 0.18072945019052802,
      "grad_norm": 0.279079407453537,
      "learning_rate": 0.0001898715933354948,
      "loss": 0.4303,
      "mean_token_accuracy": 0.879971370100975,
      "num_tokens": 335369.0,
      "step": 83
    },
    {
      "entropy": 0.395871065557003,
      "epoch": 0.1829069134458356,
      "grad_norm": 0.2992061972618103,
      "learning_rate": 0.0001895774373121294,
      "loss": 0.3933,
      "mean_token_accuracy": 0.8855740427970886,
      "num_tokens": 339407.0,
      "step": 84
    },
    {
      "entropy": 0.352156363427639,
      "epoch": 0.18508437670114317,
      "grad_norm": 0.29319193959236145,
      "learning_rate": 0.00018927933291569142,
      "loss": 0.3458,
      "mean_token_accuracy": 0.8971658796072006,
      "num_tokens": 343524.0,
      "step": 85
    },
    {
      "entropy": 0.3487248420715332,
      "epoch": 0.18726183995645074,
      "grad_norm": 0.2763819694519043,
      "learning_rate": 0.00018897729493714936,
      "loss": 0.3259,
      "mean_token_accuracy": 0.8960808515548706,
      "num_tokens": 347925.0,
      "step": 86
    },
    {
      "entropy": 0.4102029874920845,
      "epoch": 0.1894393032117583,
      "grad_norm": 0.2646510601043701,
      "learning_rate": 0.00018867133836264333,
      "loss": 0.3945,
      "mean_token_accuracy": 0.8839164674282074,
      "num_tokens": 352250.0,
      "step": 87
    },
    {
      "entropy": 0.3762153908610344,
      "epoch": 0.19161676646706588,
      "grad_norm": 0.3275756239891052,
      "learning_rate": 0.00018836147837274128,
      "loss": 0.3588,
      "mean_token_accuracy": 0.893315777182579,
      "num_tokens": 356538.0,
      "step": 88
    },
    {
      "entropy": 0.3680166006088257,
      "epoch": 0.19379422972237342,
      "grad_norm": 0.3026663362979889,
      "learning_rate": 0.00018804773034168605,
      "loss": 0.346,
      "mean_token_accuracy": 0.8997195810079575,
      "num_tokens": 360352.0,
      "step": 89
    },
    {
      "entropy": 0.3681929111480713,
      "epoch": 0.195971692977681,
      "grad_norm": 0.27409690618515015,
      "learning_rate": 0.00018773010983663235,
      "loss": 0.3619,
      "mean_token_accuracy": 0.8918221592903137,
      "num_tokens": 364359.0,
      "step": 90
    },
    {
      "entropy": 0.41026338934898376,
      "epoch": 0.19814915623298857,
      "grad_norm": 0.27450209856033325,
      "learning_rate": 0.00018740863261687438,
      "loss": 0.3772,
      "mean_token_accuracy": 0.885251596570015,
      "num_tokens": 368184.0,
      "step": 91
    },
    {
      "entropy": 0.41991668939590454,
      "epoch": 0.20032661948829614,
      "grad_norm": 0.3204193413257599,
      "learning_rate": 0.000187083314633064,
      "loss": 0.4387,
      "mean_token_accuracy": 0.877353847026825,
      "num_tokens": 372188.0,
      "step": 92
    },
    {
      "entropy": 0.3829573169350624,
      "epoch": 0.2025040827436037,
      "grad_norm": 0.2948894500732422,
      "learning_rate": 0.00018675417202641928,
      "loss": 0.3713,
      "mean_token_accuracy": 0.8871684223413467,
      "num_tokens": 376175.0,
      "step": 93
    },
    {
      "entropy": 0.37284964323043823,
      "epoch": 0.20468154599891128,
      "grad_norm": 0.3094096779823303,
      "learning_rate": 0.00018642122112792352,
      "loss": 0.3704,
      "mean_token_accuracy": 0.8872140049934387,
      "num_tokens": 380212.0,
      "step": 94
    },
    {
      "entropy": 0.3658677488565445,
      "epoch": 0.20685900925421882,
      "grad_norm": 0.2979802191257477,
      "learning_rate": 0.00018608447845751521,
      "loss": 0.3491,
      "mean_token_accuracy": 0.8897504657506943,
      "num_tokens": 384295.0,
      "step": 95
    },
    {
      "entropy": 0.36876438558101654,
      "epoch": 0.2090364725095264,
      "grad_norm": 0.2677754759788513,
      "learning_rate": 0.00018574396072326807,
      "loss": 0.3441,
      "mean_token_accuracy": 0.894922137260437,
      "num_tokens": 388732.0,
      "step": 96
    },
    {
      "entropy": 0.3612924814224243,
      "epoch": 0.21121393576483397,
      "grad_norm": 0.2736094892024994,
      "learning_rate": 0.0001853996848205622,
      "loss": 0.3723,
      "mean_token_accuracy": 0.8909705579280853,
      "num_tokens": 392764.0,
      "step": 97
    },
    {
      "entropy": 0.3905804604291916,
      "epoch": 0.21339139902014154,
      "grad_norm": 0.2624414265155792,
      "learning_rate": 0.0001850516678312458,
      "loss": 0.3891,
      "mean_token_accuracy": 0.8835895210504532,
      "num_tokens": 397014.0,
      "step": 98
    },
    {
      "entropy": 0.3591335415840149,
      "epoch": 0.2155688622754491,
      "grad_norm": 0.27455052733421326,
      "learning_rate": 0.0001846999270227876,
      "loss": 0.3285,
      "mean_token_accuracy": 0.9014366716146469,
      "num_tokens": 400931.0,
      "step": 99
    },
    {
      "entropy": 0.3889941945672035,
      "epoch": 0.21774632553075668,
      "grad_norm": 0.3075306713581085,
      "learning_rate": 0.00018434447984742012,
      "loss": 0.3748,
      "mean_token_accuracy": 0.8902212232351303,
      "num_tokens": 404953.0,
      "step": 100
    },
    {
      "entropy": 0.40706127136945724,
      "epoch": 0.21992378878606422,
      "grad_norm": 0.291089802980423,
      "learning_rate": 0.00018398534394127366,
      "loss": 0.3842,
      "mean_token_accuracy": 0.8786927759647369,
      "num_tokens": 408846.0,
      "step": 101
    },
    {
      "entropy": 0.3662910833954811,
      "epoch": 0.2221012520413718,
      "grad_norm": 0.2830312252044678,
      "learning_rate": 0.00018362253712350131,
      "loss": 0.3651,
      "mean_token_accuracy": 0.8856998383998871,
      "num_tokens": 413058.0,
      "step": 102
    },
    {
      "entropy": 0.3981722518801689,
      "epoch": 0.22427871529667937,
      "grad_norm": 0.26717105507850647,
      "learning_rate": 0.00018325607739539497,
      "loss": 0.4013,
      "mean_token_accuracy": 0.881842851638794,
      "num_tokens": 417404.0,
      "step": 103
    },
    {
      "entropy": 0.38402143120765686,
      "epoch": 0.22645617855198694,
      "grad_norm": 0.26284581422805786,
      "learning_rate": 0.00018288598293949185,
      "loss": 0.3933,
      "mean_token_accuracy": 0.8858134895563126,
      "num_tokens": 421886.0,
      "step": 104
    },
    {
      "entropy": 0.35189586132764816,
      "epoch": 0.2286336418072945,
      "grad_norm": 0.2981458604335785,
      "learning_rate": 0.00018251227211867264,
      "loss": 0.3779,
      "mean_token_accuracy": 0.8904144316911697,
      "num_tokens": 426069.0,
      "step": 105
    },
    {
      "entropy": 0.3991141989827156,
      "epoch": 0.23081110506260208,
      "grad_norm": 0.30855289101600647,
      "learning_rate": 0.0001821349634752502,
      "loss": 0.4118,
      "mean_token_accuracy": 0.875004380941391,
      "num_tokens": 430019.0,
      "step": 106
    },
    {
      "entropy": 0.3846806064248085,
      "epoch": 0.23298856831790962,
      "grad_norm": 0.25153040885925293,
      "learning_rate": 0.00018175407573004974,
      "loss": 0.3944,
      "mean_token_accuracy": 0.8794781714677811,
      "num_tokens": 434787.0,
      "step": 107
    },
    {
      "entropy": 0.38610684871673584,
      "epoch": 0.2351660315732172,
      "grad_norm": 0.25855541229248047,
      "learning_rate": 0.00018136962778147965,
      "loss": 0.3625,
      "mean_token_accuracy": 0.895257756114006,
      "num_tokens": 438762.0,
      "step": 108
    },
    {
      "entropy": 0.38023480772972107,
      "epoch": 0.23734349482852476,
      "grad_norm": 0.26064959168434143,
      "learning_rate": 0.00018098163870459419,
      "loss": 0.3508,
      "mean_token_accuracy": 0.8982452154159546,
      "num_tokens": 442358.0,
      "step": 109
    },
    {
      "entropy": 0.38109494745731354,
      "epoch": 0.23952095808383234,
      "grad_norm": 0.2560478746891022,
      "learning_rate": 0.00018059012775014673,
      "loss": 0.3316,
      "mean_token_accuracy": 0.8920884728431702,
      "num_tokens": 446375.0,
      "step": 110
    },
    {
      "entropy": 0.40175357460975647,
      "epoch": 0.2416984213391399,
      "grad_norm": 0.2690741717815399,
      "learning_rate": 0.00018019511434363479,
      "loss": 0.3694,
      "mean_token_accuracy": 0.8843608647584915,
      "num_tokens": 450240.0,
      "step": 111
    },
    {
      "entropy": 0.4437231123447418,
      "epoch": 0.24387588459444748,
      "grad_norm": 0.3393898606300354,
      "learning_rate": 0.00017979661808433615,
      "loss": 0.4375,
      "mean_token_accuracy": 0.8717398643493652,
      "num_tokens": 454162.0,
      "step": 112
    },
    {
      "entropy": 0.39301927387714386,
      "epoch": 0.24605334784975502,
      "grad_norm": 0.26305022835731506,
      "learning_rate": 0.00017939465874433633,
      "loss": 0.3915,
      "mean_token_accuracy": 0.8859032839536667,
      "num_tokens": 458075.0,
      "step": 113
    },
    {
      "entropy": 0.37585896253585815,
      "epoch": 0.2482308111050626,
      "grad_norm": 0.2808936536312103,
      "learning_rate": 0.0001789892562675477,
      "loss": 0.3808,
      "mean_token_accuracy": 0.8814007937908173,
      "num_tokens": 462440.0,
      "step": 114
    },
    {
      "entropy": 0.35389212518930435,
      "epoch": 0.25040827436037016,
      "grad_norm": 0.2638992667198181,
      "learning_rate": 0.0001785804307687199,
      "loss": 0.3669,
      "mean_token_accuracy": 0.8885058760643005,
      "num_tokens": 466896.0,
      "step": 115
    },
    {
      "entropy": 0.32084520161151886,
      "epoch": 0.2525857376156777,
      "grad_norm": 0.2875458896160126,
      "learning_rate": 0.00017816820253244156,
      "loss": 0.3393,
      "mean_token_accuracy": 0.8992051929235458,
      "num_tokens": 470737.0,
      "step": 116
    },
    {
      "entropy": 0.37875620275735855,
      "epoch": 0.2547632008709853,
      "grad_norm": 0.3010421693325043,
      "learning_rate": 0.0001777525920121343,
      "loss": 0.3771,
      "mean_token_accuracy": 0.8866951763629913,
      "num_tokens": 474704.0,
      "step": 117
    },
    {
      "entropy": 0.3695053979754448,
      "epoch": 0.25694066412629285,
      "grad_norm": 0.28365740180015564,
      "learning_rate": 0.0001773336198290375,
      "loss": 0.3606,
      "mean_token_accuracy": 0.8899102210998535,
      "num_tokens": 478684.0,
      "step": 118
    },
    {
      "entropy": 0.37022798508405685,
      "epoch": 0.25911812738160045,
      "grad_norm": 0.2810768187046051,
      "learning_rate": 0.00017691130677118533,
      "loss": 0.371,
      "mean_token_accuracy": 0.8898769170045853,
      "num_tokens": 482795.0,
      "step": 119
    },
    {
      "entropy": 0.3846744894981384,
      "epoch": 0.261295590636908,
      "grad_norm": 0.2767440974712372,
      "learning_rate": 0.00017648567379237524,
      "loss": 0.3858,
      "mean_token_accuracy": 0.8894098848104477,
      "num_tokens": 486910.0,
      "step": 120
    },
    {
      "entropy": 0.36647915840148926,
      "epoch": 0.2634730538922156,
      "grad_norm": 0.29192766547203064,
      "learning_rate": 0.00017605674201112844,
      "loss": 0.3532,
      "mean_token_accuracy": 0.8931601047515869,
      "num_tokens": 490909.0,
      "step": 121
    },
    {
      "entropy": 0.3607020005583763,
      "epoch": 0.26565051714752314,
      "grad_norm": 0.27455756068229675,
      "learning_rate": 0.00017562453270964184,
      "loss": 0.3376,
      "mean_token_accuracy": 0.8977847099304199,
      "num_tokens": 494900.0,
      "step": 122
    },
    {
      "entropy": 0.39875783771276474,
      "epoch": 0.2678279804028307,
      "grad_norm": 0.29144948720932007,
      "learning_rate": 0.0001751890673327323,
      "loss": 0.3625,
      "mean_token_accuracy": 0.8899316191673279,
      "num_tokens": 498621.0,
      "step": 123
    },
    {
      "entropy": 0.388169527053833,
      "epoch": 0.2700054436581383,
      "grad_norm": 0.28327831625938416,
      "learning_rate": 0.00017475036748677253,
      "loss": 0.368,
      "mean_token_accuracy": 0.8881956189870834,
      "num_tokens": 502604.0,
      "step": 124
    },
    {
      "entropy": 0.42279627174139023,
      "epoch": 0.2721829069134458,
      "grad_norm": 0.2637234330177307,
      "learning_rate": 0.00017430845493861903,
      "loss": 0.4163,
      "mean_token_accuracy": 0.8793482929468155,
      "num_tokens": 506851.0,
      "step": 125
    },
    {
      "entropy": 0.3659377843141556,
      "epoch": 0.2743603701687534,
      "grad_norm": 0.2649920582771301,
      "learning_rate": 0.00017386335161453204,
      "loss": 0.3592,
      "mean_token_accuracy": 0.8870955407619476,
      "num_tokens": 511029.0,
      "step": 126
    },
    {
      "entropy": 0.3424355015158653,
      "epoch": 0.27653783342406096,
      "grad_norm": 0.24584396183490753,
      "learning_rate": 0.00017341507959908788,
      "loss": 0.3212,
      "mean_token_accuracy": 0.8989846706390381,
      "num_tokens": 514975.0,
      "step": 127
    },
    {
      "entropy": 0.38080035150051117,
      "epoch": 0.27871529667936856,
      "grad_norm": 0.2918618321418762,
      "learning_rate": 0.00017296366113408283,
      "loss": 0.3836,
      "mean_token_accuracy": 0.8840546309947968,
      "num_tokens": 518603.0,
      "step": 128
    },
    {
      "entropy": 0.37054024636745453,
      "epoch": 0.2808927599346761,
      "grad_norm": 0.2792854309082031,
      "learning_rate": 0.00017250911861742984,
      "loss": 0.383,
      "mean_token_accuracy": 0.8847608417272568,
      "num_tokens": 522974.0,
      "step": 129
    },
    {
      "entropy": 0.4149508401751518,
      "epoch": 0.28307022318998365,
      "grad_norm": 0.2900242805480957,
      "learning_rate": 0.00017205147460204708,
      "loss": 0.4176,
      "mean_token_accuracy": 0.8743131309747696,
      "num_tokens": 527053.0,
      "step": 130
    },
    {
      "entropy": 0.3568470776081085,
      "epoch": 0.28524768644529125,
      "grad_norm": 0.2806275188922882,
      "learning_rate": 0.00017159075179473904,
      "loss": 0.3506,
      "mean_token_accuracy": 0.8944987952709198,
      "num_tokens": 531165.0,
      "step": 131
    },
    {
      "entropy": 0.3553621917963028,
      "epoch": 0.2874251497005988,
      "grad_norm": 0.25992849469184875,
      "learning_rate": 0.00017112697305506972,
      "loss": 0.3473,
      "mean_token_accuracy": 0.8974603414535522,
      "num_tokens": 535268.0,
      "step": 132
    },
    {
      "entropy": 0.350556381046772,
      "epoch": 0.2896026129559064,
      "grad_norm": 0.255686491727829,
      "learning_rate": 0.00017066016139422868,
      "loss": 0.3428,
      "mean_token_accuracy": 0.8938136249780655,
      "num_tokens": 539608.0,
      "step": 133
    },
    {
      "entropy": 0.3975898027420044,
      "epoch": 0.29178007621121393,
      "grad_norm": 0.2862681746482849,
      "learning_rate": 0.00017019033997388893,
      "loss": 0.3852,
      "mean_token_accuracy": 0.8919837325811386,
      "num_tokens": 543509.0,
      "step": 134
    },
    {
      "entropy": 0.3602987751364708,
      "epoch": 0.2939575394665215,
      "grad_norm": 0.2506209909915924,
      "learning_rate": 0.00016971753210505815,
      "loss": 0.3512,
      "mean_token_accuracy": 0.8999500423669815,
      "num_tokens": 548201.0,
      "step": 135
    },
    {
      "entropy": 0.36172477155923843,
      "epoch": 0.2961350027218291,
      "grad_norm": 0.24992506206035614,
      "learning_rate": 0.00016924176124692171,
      "loss": 0.3296,
      "mean_token_accuracy": 0.9002155065536499,
      "num_tokens": 552588.0,
      "step": 136
    },
    {
      "entropy": 0.39114704728126526,
      "epoch": 0.2983124659771366,
      "grad_norm": 0.26535582542419434,
      "learning_rate": 0.00016876305100567898,
      "loss": 0.3606,
      "mean_token_accuracy": 0.8913624733686447,
      "num_tokens": 556684.0,
      "step": 137
    },
    {
      "entropy": 0.3595954030752182,
      "epoch": 0.3004899292324442,
      "grad_norm": 0.2526366114616394,
      "learning_rate": 0.0001682814251333718,
      "loss": 0.3524,
      "mean_token_accuracy": 0.8964285999536514,
      "num_tokens": 560872.0,
      "step": 138
    },
    {
      "entropy": 0.3456057384610176,
      "epoch": 0.30266739248775176,
      "grad_norm": 0.2838667631149292,
      "learning_rate": 0.0001677969075267062,
      "loss": 0.3598,
      "mean_token_accuracy": 0.8893538117408752,
      "num_tokens": 565414.0,
      "step": 139
    },
    {
      "entropy": 0.3304522782564163,
      "epoch": 0.30484485574305936,
      "grad_norm": 0.2537218928337097,
      "learning_rate": 0.00016730952222586672,
      "loss": 0.3252,
      "mean_token_accuracy": 0.9008310884237289,
      "num_tokens": 569961.0,
      "step": 140
    },
    {
      "entropy": 0.37971338629722595,
      "epoch": 0.3070223189983669,
      "grad_norm": 0.2846769392490387,
      "learning_rate": 0.00016681929341332333,
      "loss": 0.3812,
      "mean_token_accuracy": 0.8877308219671249,
      "num_tokens": 573882.0,
      "step": 141
    },
    {
      "entropy": 0.32383736968040466,
      "epoch": 0.30919978225367445,
      "grad_norm": 0.30265504121780396,
      "learning_rate": 0.00016632624541263193,
      "loss": 0.3259,
      "mean_token_accuracy": 0.8970090597867966,
      "num_tokens": 577860.0,
      "step": 142
    },
    {
      "entropy": 0.4320111721754074,
      "epoch": 0.31137724550898205,
      "grad_norm": 0.2903831899166107,
      "learning_rate": 0.0001658304026872274,
      "loss": 0.4118,
      "mean_token_accuracy": 0.8787370920181274,
      "num_tokens": 581333.0,
      "step": 143
    },
    {
      "entropy": 0.372535839676857,
      "epoch": 0.3135547087642896,
      "grad_norm": 0.26929277181625366,
      "learning_rate": 0.00016533178983920964,
      "loss": 0.3555,
      "mean_token_accuracy": 0.8883365392684937,
      "num_tokens": 585459.0,
      "step": 144
    },
    {
      "entropy": 0.38039466738700867,
      "epoch": 0.3157321720195972,
      "grad_norm": 0.2679445743560791,
      "learning_rate": 0.00016483043160812295,
      "loss": 0.3633,
      "mean_token_accuracy": 0.8902519345283508,
      "num_tokens": 589257.0,
      "step": 145
    },
    {
      "entropy": 0.42324574291706085,
      "epoch": 0.31790963527490473,
      "grad_norm": 0.2745194137096405,
      "learning_rate": 0.0001643263528697288,
      "loss": 0.4154,
      "mean_token_accuracy": 0.878746971487999,
      "num_tokens": 593457.0,
      "step": 146
    },
    {
      "entropy": 0.46310587227344513,
      "epoch": 0.3200870985302123,
      "grad_norm": 0.2937363088130951,
      "learning_rate": 0.0001638195786347712,
      "loss": 0.4564,
      "mean_token_accuracy": 0.8730504065752029,
      "num_tokens": 596979.0,
      "step": 147
    },
    {
      "entropy": 0.3750259429216385,
      "epoch": 0.3222645617855199,
      "grad_norm": 0.24124816060066223,
      "learning_rate": 0.00016331013404773597,
      "loss": 0.3568,
      "mean_token_accuracy": 0.8933057188987732,
      "num_tokens": 601388.0,
      "step": 148
    },
    {
      "entropy": 0.37991973757743835,
      "epoch": 0.3244420250408274,
      "grad_norm": 0.27898603677749634,
      "learning_rate": 0.00016279804438560304,
      "loss": 0.3518,
      "mean_token_accuracy": 0.8888091742992401,
      "num_tokens": 605267.0,
      "step": 149
    },
    {
      "entropy": 0.38875921070575714,
      "epoch": 0.326619488296135,
      "grad_norm": 0.2823559641838074,
      "learning_rate": 0.00016228333505659246,
      "loss": 0.376,
      "mean_token_accuracy": 0.8856324106454849,
      "num_tokens": 609434.0,
      "step": 150
    },
    {
      "entropy": 0.3876258060336113,
      "epoch": 0.32879695155144256,
      "grad_norm": 0.2898506224155426,
      "learning_rate": 0.00016176603159890346,
      "loss": 0.376,
      "mean_token_accuracy": 0.8831023424863815,
      "num_tokens": 613396.0,
      "step": 151
    },
    {
      "entropy": 0.3707014173269272,
      "epoch": 0.33097441480675016,
      "grad_norm": 0.2642916142940521,
      "learning_rate": 0.00016124615967944762,
      "loss": 0.3752,
      "mean_token_accuracy": 0.8911104500293732,
      "num_tokens": 617399.0,
      "step": 152
    },
    {
      "entropy": 0.3736526593565941,
      "epoch": 0.3331518780620577,
      "grad_norm": 0.3004290461540222,
      "learning_rate": 0.00016072374509257516,
      "loss": 0.3808,
      "mean_token_accuracy": 0.8887975662946701,
      "num_tokens": 621104.0,
      "step": 153
    },
    {
      "entropy": 0.35118088871240616,
      "epoch": 0.33532934131736525,
      "grad_norm": 0.26038020849227905,
      "learning_rate": 0.0001601988137587952,
      "loss": 0.3382,
      "mean_token_accuracy": 0.8998311161994934,
      "num_tokens": 625151.0,
      "step": 154
    },
    {
      "entropy": 0.38535889238119125,
      "epoch": 0.33750680457267285,
      "grad_norm": 0.2737407088279724,
      "learning_rate": 0.00015967139172348954,
      "loss": 0.3913,
      "mean_token_accuracy": 0.8854628801345825,
      "num_tokens": 628964.0,
      "step": 155
    },
    {
      "entropy": 0.38133371621370316,
      "epoch": 0.3396842678279804,
      "grad_norm": 0.27977254986763,
      "learning_rate": 0.00015914150515562055,
      "loss": 0.3794,
      "mean_token_accuracy": 0.8869093209505081,
      "num_tokens": 632846.0,
      "step": 156
    },
    {
      "entropy": 0.37492088973522186,
      "epoch": 0.341861731083288,
      "grad_norm": 0.2831854224205017,
      "learning_rate": 0.00015860918034643276,
      "loss": 0.355,
      "mean_token_accuracy": 0.8947048038244247,
      "num_tokens": 636601.0,
      "step": 157
    },
    {
      "entropy": 0.4035057872533798,
      "epoch": 0.34403919433859553,
      "grad_norm": 0.37472277879714966,
      "learning_rate": 0.00015807444370814815,
      "loss": 0.3954,
      "mean_token_accuracy": 0.8825927823781967,
      "num_tokens": 640518.0,
      "step": 158
    },
    {
      "entropy": 0.34154055267572403,
      "epoch": 0.3462166575939031,
      "grad_norm": 0.27869144082069397,
      "learning_rate": 0.00015753732177265582,
      "loss": 0.3376,
      "mean_token_accuracy": 0.8913106769323349,
      "num_tokens": 644858.0,
      "step": 159
    },
    {
      "entropy": 0.41696153581142426,
      "epoch": 0.3483941208492107,
      "grad_norm": 0.291029155254364,
      "learning_rate": 0.00015699784119019554,
      "loss": 0.3964,
      "mean_token_accuracy": 0.8756668865680695,
      "num_tokens": 648735.0,
      "step": 160
    },
    {
      "entropy": 0.3924735262989998,
      "epoch": 0.3505715841045182,
      "grad_norm": 0.28552576899528503,
      "learning_rate": 0.00015645602872803554,
      "loss": 0.3852,
      "mean_token_accuracy": 0.8868783414363861,
      "num_tokens": 652408.0,
      "step": 161
    },
    {
      "entropy": 0.34768833965063095,
      "epoch": 0.3527490473598258,
      "grad_norm": 0.2506498098373413,
      "learning_rate": 0.00015591191126914424,
      "loss": 0.3351,
      "mean_token_accuracy": 0.8980260044336319,
      "num_tokens": 656844.0,
      "step": 162
    },
    {
      "entropy": 0.3891329765319824,
      "epoch": 0.35492651061513336,
      "grad_norm": 0.30480027198791504,
      "learning_rate": 0.0001553655158108565,
      "loss": 0.4034,
      "mean_token_accuracy": 0.8790914118289948,
      "num_tokens": 661184.0,
      "step": 163
    },
    {
      "entropy": 0.4067026600241661,
      "epoch": 0.35710397387044096,
      "grad_norm": 0.27617979049682617,
      "learning_rate": 0.00015481686946353413,
      "loss": 0.4081,
      "mean_token_accuracy": 0.8769482225179672,
      "num_tokens": 665163.0,
      "step": 164
    },
    {
      "entropy": 0.4310021921992302,
      "epoch": 0.3592814371257485,
      "grad_norm": 0.2954219877719879,
      "learning_rate": 0.00015426599944922062,
      "loss": 0.4193,
      "mean_token_accuracy": 0.8807303011417389,
      "num_tokens": 669177.0,
      "step": 165
    },
    {
      "entropy": 0.37181543558835983,
      "epoch": 0.36145890038105605,
      "grad_norm": 0.2674584984779358,
      "learning_rate": 0.0001537129331002907,
      "loss": 0.3423,
      "mean_token_accuracy": 0.8933178037405014,
      "num_tokens": 672660.0,
      "step": 166
    },
    {
      "entropy": 0.36294087767601013,
      "epoch": 0.36363636363636365,
      "grad_norm": 0.2539677321910858,
      "learning_rate": 0.00015315769785809394,
      "loss": 0.3419,
      "mean_token_accuracy": 0.8953043073415756,
      "num_tokens": 676937.0,
      "step": 167
    },
    {
      "entropy": 0.36527111381292343,
      "epoch": 0.3658138268916712,
      "grad_norm": 0.279691219329834,
      "learning_rate": 0.0001526003212715934,
      "loss": 0.3689,
      "mean_token_accuracy": 0.8915591537952423,
      "num_tokens": 680798.0,
      "step": 168
    },
    {
      "entropy": 0.32713668793439865,
      "epoch": 0.3679912901469788,
      "grad_norm": 0.2610296308994293,
      "learning_rate": 0.00015204083099599862,
      "loss": 0.3398,
      "mean_token_accuracy": 0.8963142186403275,
      "num_tokens": 685386.0,
      "step": 169
    },
    {
      "entropy": 0.35941240191459656,
      "epoch": 0.37016875340228633,
      "grad_norm": 0.26744726300239563,
      "learning_rate": 0.00015147925479139357,
      "loss": 0.3543,
      "mean_token_accuracy": 0.8914755284786224,
      "num_tokens": 689455.0,
      "step": 170
    },
    {
      "entropy": 0.3640653118491173,
      "epoch": 0.3723462166575939,
      "grad_norm": 0.2773352861404419,
      "learning_rate": 0.00015091562052135912,
      "loss": 0.3822,
      "mean_token_accuracy": 0.8882244229316711,
      "num_tokens": 693956.0,
      "step": 171
    },
    {
      "entropy": 0.37736089527606964,
      "epoch": 0.3745236799129015,
      "grad_norm": 0.2925175130367279,
      "learning_rate": 0.00015034995615159074,
      "loss": 0.3628,
      "mean_token_accuracy": 0.889089897274971,
      "num_tokens": 697863.0,
      "step": 172
    },
    {
      "entropy": 0.37925824522972107,
      "epoch": 0.376701143168209,
      "grad_norm": 0.2618020474910736,
      "learning_rate": 0.00014978228974851077,
      "loss": 0.3624,
      "mean_token_accuracy": 0.8942320197820663,
      "num_tokens": 701537.0,
      "step": 173
    },
    {
      "entropy": 0.34706228971481323,
      "epoch": 0.3788786064235166,
      "grad_norm": 0.2923741340637207,
      "learning_rate": 0.000149212649477876,
      "loss": 0.3541,
      "mean_token_accuracy": 0.8954867422580719,
      "num_tokens": 705253.0,
      "step": 174
    },
    {
      "entropy": 0.3569258749485016,
      "epoch": 0.38105606967882416,
      "grad_norm": 0.2816322147846222,
      "learning_rate": 0.00014864106360337992,
      "loss": 0.357,
      "mean_token_accuracy": 0.8935216814279556,
      "num_tokens": 709276.0,
      "step": 175
    },
    {
      "entropy": 0.35546237230300903,
      "epoch": 0.38323353293413176,
      "grad_norm": 0.2701316773891449,
      "learning_rate": 0.00014806756048525073,
      "loss": 0.3423,
      "mean_token_accuracy": 0.9047370553016663,
      "num_tokens": 713489.0,
      "step": 176
    },
    {
      "entropy": 0.38647014647722244,
      "epoch": 0.3854109961894393,
      "grad_norm": 0.2974873185157776,
      "learning_rate": 0.00014749216857884388,
      "loss": 0.3698,
      "mean_token_accuracy": 0.8884487450122833,
      "num_tokens": 717582.0,
      "step": 177
    },
    {
      "entropy": 0.41117021441459656,
      "epoch": 0.38758845944474685,
      "grad_norm": 0.46910688281059265,
      "learning_rate": 0.0001469149164332304,
      "loss": 0.3913,
      "mean_token_accuracy": 0.8818454891443253,
      "num_tokens": 721522.0,
      "step": 178
    },
    {
      "entropy": 0.3503909111022949,
      "epoch": 0.38976592270005445,
      "grad_norm": 0.24447594583034515,
      "learning_rate": 0.00014633583268978037,
      "loss": 0.3159,
      "mean_token_accuracy": 0.9022247046232224,
      "num_tokens": 725345.0,
      "step": 179
    },
    {
      "entropy": 0.34674597531557083,
      "epoch": 0.391943385955362,
      "grad_norm": 0.25831112265586853,
      "learning_rate": 0.00014575494608074166,
      "loss": 0.3403,
      "mean_token_accuracy": 0.8952628076076508,
      "num_tokens": 729377.0,
      "step": 180
    },
    {
      "entropy": 0.32907338812947273,
      "epoch": 0.3941208492106696,
      "grad_norm": 0.25881391763687134,
      "learning_rate": 0.0001451722854278146,
      "loss": 0.3039,
      "mean_token_accuracy": 0.9026439040899277,
      "num_tokens": 733265.0,
      "step": 181
    },
    {
      "entropy": 0.35795633494853973,
      "epoch": 0.39629831246597713,
      "grad_norm": 0.28063708543777466,
      "learning_rate": 0.00014458787964072165,
      "loss": 0.3381,
      "mean_token_accuracy": 0.8983410447835922,
      "num_tokens": 737131.0,
      "step": 182
    },
    {
      "entropy": 0.33193762600421906,
      "epoch": 0.39847577572128473,
      "grad_norm": 0.29431116580963135,
      "learning_rate": 0.00014400175771577326,
      "loss": 0.3225,
      "mean_token_accuracy": 0.9057250618934631,
      "num_tokens": 740821.0,
      "step": 183
    },
    {
      "entropy": 0.31135137379169464,
      "epoch": 0.4006532389765923,
      "grad_norm": 0.29750552773475647,
      "learning_rate": 0.00014341394873442897,
      "loss": 0.3264,
      "mean_token_accuracy": 0.8973560929298401,
      "num_tokens": 744896.0,
      "step": 184
    },
    {
      "entropy": 0.3354290798306465,
      "epoch": 0.4028307022318998,
      "grad_norm": 0.27261385321617126,
      "learning_rate": 0.0001428244818618546,
      "loss": 0.3427,
      "mean_token_accuracy": 0.8985736221075058,
      "num_tokens": 748839.0,
      "step": 185
    },
    {
      "entropy": 0.3166900649666786,
      "epoch": 0.4050081654872074,
      "grad_norm": 0.27092301845550537,
      "learning_rate": 0.0001422333863454751,
      "loss": 0.3087,
      "mean_token_accuracy": 0.9003172963857651,
      "num_tokens": 752819.0,
      "step": 186
    },
    {
      "entropy": 0.3550329655408859,
      "epoch": 0.40718562874251496,
      "grad_norm": 0.27660685777664185,
      "learning_rate": 0.0001416406915135235,
      "loss": 0.3544,
      "mean_token_accuracy": 0.8941550552845001,
      "num_tokens": 756769.0,
      "step": 187
    },
    {
      "entropy": 0.3845446854829788,
      "epoch": 0.40936309199782256,
      "grad_norm": 0.3029703199863434,
      "learning_rate": 0.00014104642677358547,
      "loss": 0.3864,
      "mean_token_accuracy": 0.8840687274932861,
      "num_tokens": 760466.0,
      "step": 188
    },
    {
      "entropy": 0.3692278042435646,
      "epoch": 0.4115405552531301,
      "grad_norm": 0.2795009911060333,
      "learning_rate": 0.00014045062161114065,
      "loss": 0.3618,
      "mean_token_accuracy": 0.8954125195741653,
      "num_tokens": 764627.0,
      "step": 189
    },
    {
      "entropy": 0.34045620262622833,
      "epoch": 0.41371801850843765,
      "grad_norm": 0.2698828876018524,
      "learning_rate": 0.00013985330558809918,
      "loss": 0.3225,
      "mean_token_accuracy": 0.8965429812669754,
      "num_tokens": 768901.0,
      "step": 190
    },
    {
      "entropy": 0.3410160765051842,
      "epoch": 0.41589548176374525,
      "grad_norm": 0.25038790702819824,
      "learning_rate": 0.00013925450834133542,
      "loss": 0.3253,
      "mean_token_accuracy": 0.9037521332502365,
      "num_tokens": 773052.0,
      "step": 191
    },
    {
      "entropy": 0.36402270942926407,
      "epoch": 0.4180729450190528,
      "grad_norm": 0.2695653736591339,
      "learning_rate": 0.00013865425958121697,
      "loss": 0.3614,
      "mean_token_accuracy": 0.8942222446203232,
      "num_tokens": 776826.0,
      "step": 192
    },
    {
      "entropy": 0.31327100098133087,
      "epoch": 0.4202504082743604,
      "grad_norm": 0.2406344711780548,
      "learning_rate": 0.00013805258909013095,
      "loss": 0.2927,
      "mean_token_accuracy": 0.9095935225486755,
      "num_tokens": 781250.0,
      "step": 193
    },
    {
      "entropy": 0.37202536314725876,
      "epoch": 0.42242787152966793,
      "grad_norm": 0.30606889724731445,
      "learning_rate": 0.00013744952672100613,
      "loss": 0.3924,
      "mean_token_accuracy": 0.8838685899972916,
      "num_tokens": 785238.0,
      "step": 194
    },
    {
      "entropy": 0.3558414503931999,
      "epoch": 0.42460533478497553,
      "grad_norm": 0.24589793384075165,
      "learning_rate": 0.00013684510239583166,
      "loss": 0.344,
      "mean_token_accuracy": 0.896059587597847,
      "num_tokens": 789796.0,
      "step": 195
    },
    {
      "entropy": 0.37479735910892487,
      "epoch": 0.4267827980402831,
      "grad_norm": 0.25714266300201416,
      "learning_rate": 0.0001362393461041726,
      "loss": 0.3708,
      "mean_token_accuracy": 0.8902730643749237,
      "num_tokens": 794040.0,
      "step": 196
    },
    {
      "entropy": 0.356051467359066,
      "epoch": 0.4289602612955906,
      "grad_norm": 0.27870944142341614,
      "learning_rate": 0.00013563228790168178,
      "loss": 0.3551,
      "mean_token_accuracy": 0.8951977044343948,
      "num_tokens": 798230.0,
      "step": 197
    },
    {
      "entropy": 0.3533203676342964,
      "epoch": 0.4311377245508982,
      "grad_norm": 0.2748214602470398,
      "learning_rate": 0.00013502395790860862,
      "loss": 0.3345,
      "mean_token_accuracy": 0.8976791948080063,
      "num_tokens": 802137.0,
      "step": 198
    },
    {
      "entropy": 0.404046893119812,
      "epoch": 0.43331518780620576,
      "grad_norm": 0.2737223505973816,
      "learning_rate": 0.00013441438630830464,
      "loss": 0.4053,
      "mean_token_accuracy": 0.8848972916603088,
      "num_tokens": 806240.0,
      "step": 199
    },
    {
      "entropy": 0.3257349133491516,
      "epoch": 0.43549265106151336,
      "grad_norm": 0.28284040093421936,
      "learning_rate": 0.0001338036033457259,
      "loss": 0.3047,
      "mean_token_accuracy": 0.9047138094902039,
      "num_tokens": 809920.0,
      "step": 200
    },
    {
      "entropy": 0.3515155389904976,
      "epoch": 0.4376701143168209,
      "grad_norm": 0.2601410746574402,
      "learning_rate": 0.00013319163932593226,
      "loss": 0.3389,
      "mean_token_accuracy": 0.8959746956825256,
      "num_tokens": 813888.0,
      "step": 201
    },
    {
      "entropy": 0.35355835407972336,
      "epoch": 0.43984757757212845,
      "grad_norm": 0.28591784834861755,
      "learning_rate": 0.0001325785246125838,
      "loss": 0.3629,
      "mean_token_accuracy": 0.8906663358211517,
      "num_tokens": 817940.0,
      "step": 202
    },
    {
      "entropy": 0.36141665279865265,
      "epoch": 0.44202504082743604,
      "grad_norm": 0.27857449650764465,
      "learning_rate": 0.00013196428962643426,
      "loss": 0.3418,
      "mean_token_accuracy": 0.8927578181028366,
      "num_tokens": 822014.0,
      "step": 203
    },
    {
      "entropy": 0.4061436876654625,
      "epoch": 0.4442025040827436,
      "grad_norm": 0.2518883943557739,
      "learning_rate": 0.0001313489648438217,
      "loss": 0.4024,
      "mean_token_accuracy": 0.8816352039575577,
      "num_tokens": 826422.0,
      "step": 204
    },
    {
      "entropy": 0.3674250468611717,
      "epoch": 0.4463799673380512,
      "grad_norm": 0.2753954231739044,
      "learning_rate": 0.00013073258079515632,
      "loss": 0.3508,
      "mean_token_accuracy": 0.8967752158641815,
      "num_tokens": 830085.0,
      "step": 205
    },
    {
      "entropy": 0.35362084209918976,
      "epoch": 0.44855743059335873,
      "grad_norm": 0.2868417203426361,
      "learning_rate": 0.00013011516806340557,
      "loss": 0.3743,
      "mean_token_accuracy": 0.8918885141611099,
      "num_tokens": 834548.0,
      "step": 206
    },
    {
      "entropy": 0.39741218090057373,
      "epoch": 0.45073489384866633,
      "grad_norm": 0.2914039194583893,
      "learning_rate": 0.0001294967572825769,
      "loss": 0.3976,
      "mean_token_accuracy": 0.8822353929281235,
      "num_tokens": 838029.0,
      "step": 207
    },
    {
      "entropy": 0.31900452077388763,
      "epoch": 0.4529123571039739,
      "grad_norm": 0.24336911737918854,
      "learning_rate": 0.0001288773791361977,
      "loss": 0.3179,
      "mean_token_accuracy": 0.9089991301298141,
      "num_tokens": 842500.0,
      "step": 208
    },
    {
      "entropy": 0.3548683598637581,
      "epoch": 0.4550898203592814,
      "grad_norm": 0.24573664367198944,
      "learning_rate": 0.0001282570643557928,
      "loss": 0.3332,
      "mean_token_accuracy": 0.8994109332561493,
      "num_tokens": 846504.0,
      "step": 209
    },
    {
      "entropy": 0.4130469933152199,
      "epoch": 0.457267283614589,
      "grad_norm": 0.22916413843631744,
      "learning_rate": 0.00012763584371935986,
      "loss": 0.3935,
      "mean_token_accuracy": 0.8888524770736694,
      "num_tokens": 850825.0,
      "step": 210
    },
    {
      "entropy": 0.39430346339941025,
      "epoch": 0.45944474686989656,
      "grad_norm": 0.24899472296237946,
      "learning_rate": 0.00012701374804984205,
      "loss": 0.3623,
      "mean_token_accuracy": 0.8868012726306915,
      "num_tokens": 854995.0,
      "step": 211
    },
    {
      "entropy": 0.3773266300559044,
      "epoch": 0.46162221012520416,
      "grad_norm": 0.282216340303421,
      "learning_rate": 0.00012639080821359898,
      "loss": 0.3786,
      "mean_token_accuracy": 0.8827318847179413,
      "num_tokens": 858988.0,
      "step": 212
    },
    {
      "entropy": 0.3632218912243843,
      "epoch": 0.4637996733805117,
      "grad_norm": 0.2573084235191345,
      "learning_rate": 0.00012576705511887492,
      "loss": 0.3624,
      "mean_token_accuracy": 0.8912414461374283,
      "num_tokens": 863081.0,
      "step": 213
    },
    {
      "entropy": 0.35169900953769684,
      "epoch": 0.46597713663581924,
      "grad_norm": 0.2548096477985382,
      "learning_rate": 0.00012514251971426545,
      "loss": 0.3325,
      "mean_token_accuracy": 0.9051143527030945,
      "num_tokens": 867052.0,
      "step": 214
    },
    {
      "entropy": 0.36711084097623825,
      "epoch": 0.46815459989112684,
      "grad_norm": 0.2645510733127594,
      "learning_rate": 0.00012451723298718175,
      "loss": 0.3774,
      "mean_token_accuracy": 0.8909319043159485,
      "num_tokens": 871119.0,
      "step": 215
    },
    {
      "entropy": 0.35685280710458755,
      "epoch": 0.4703320631464344,
      "grad_norm": 0.3010730445384979,
      "learning_rate": 0.0001238912259623133,
      "loss": 0.3435,
      "mean_token_accuracy": 0.8955214470624924,
      "num_tokens": 874529.0,
      "step": 216
    },
    {
      "entropy": 0.3657463937997818,
      "epoch": 0.472509526401742,
      "grad_norm": 0.2753501534461975,
      "learning_rate": 0.0001232645297000883,
      "loss": 0.356,
      "mean_token_accuracy": 0.8999243825674057,
      "num_tokens": 878518.0,
      "step": 217
    },
    {
      "entropy": 0.3516548126935959,
      "epoch": 0.47468698965704953,
      "grad_norm": 0.2859194576740265,
      "learning_rate": 0.00012263717529513267,
      "loss": 0.3561,
      "mean_token_accuracy": 0.8952623754739761,
      "num_tokens": 882202.0,
      "step": 218
    },
    {
      "entropy": 0.3554818853735924,
      "epoch": 0.47686445291235713,
      "grad_norm": 0.2630636394023895,
      "learning_rate": 0.00012200919387472723,
      "loss": 0.3454,
      "mean_token_accuracy": 0.8877929896116257,
      "num_tokens": 886781.0,
      "step": 219
    },
    {
      "entropy": 0.35459691286087036,
      "epoch": 0.47904191616766467,
      "grad_norm": 0.28057464957237244,
      "learning_rate": 0.0001213806165972633,
      "loss": 0.3597,
      "mean_token_accuracy": 0.8925827890634537,
      "num_tokens": 890846.0,
      "step": 220
    },
    {
      "entropy": 0.3253984898328781,
      "epoch": 0.4812193794229722,
      "grad_norm": 0.2502402067184448,
      "learning_rate": 0.00012075147465069667,
      "loss": 0.3183,
      "mean_token_accuracy": 0.9015309363603592,
      "num_tokens": 895392.0,
      "step": 221
    },
    {
      "entropy": 0.3588094562292099,
      "epoch": 0.4833968426782798,
      "grad_norm": 0.24630582332611084,
      "learning_rate": 0.0001201217992510002,
      "loss": 0.3361,
      "mean_token_accuracy": 0.9005966037511826,
      "num_tokens": 899490.0,
      "step": 222
    },
    {
      "entropy": 0.3819248303771019,
      "epoch": 0.48557430593358736,
      "grad_norm": 0.24468845129013062,
      "learning_rate": 0.00011949162164061486,
      "loss": 0.3661,
      "mean_token_accuracy": 0.8975157290697098,
      "num_tokens": 903478.0,
      "step": 223
    },
    {
      "entropy": 0.4134289547801018,
      "epoch": 0.48775176918889496,
      "grad_norm": 0.27261775732040405,
      "learning_rate": 0.0001188609730868998,
      "loss": 0.4087,
      "mean_token_accuracy": 0.8844785243272781,
      "num_tokens": 907286.0,
      "step": 224
    },
    {
      "entropy": 0.3919166326522827,
      "epoch": 0.4899292324442025,
      "grad_norm": 0.2661035358905792,
      "learning_rate": 0.00011822988488058071,
      "loss": 0.3575,
      "mean_token_accuracy": 0.8900353014469147,
      "num_tokens": 911300.0,
      "step": 225
    },
    {
      "entropy": 0.34307558089494705,
      "epoch": 0.49210669569951004,
      "grad_norm": 0.2561405301094055,
      "learning_rate": 0.00011759838833419754,
      "loss": 0.3052,
      "mean_token_accuracy": 0.90419901907444,
      "num_tokens": 915659.0,
      "step": 226
    },
    {
      "entropy": 0.35558557510375977,
      "epoch": 0.49428415895481764,
      "grad_norm": 0.24936646223068237,
      "learning_rate": 0.00011696651478055067,
      "loss": 0.3531,
      "mean_token_accuracy": 0.8979819416999817,
      "num_tokens": 919483.0,
      "step": 227
    },
    {
      "entropy": 0.35391464084386826,
      "epoch": 0.4964616222101252,
      "grad_norm": 0.2600042521953583,
      "learning_rate": 0.00011633429557114635,
      "loss": 0.3565,
      "mean_token_accuracy": 0.889078825712204,
      "num_tokens": 923394.0,
      "step": 228
    },
    {
      "entropy": 0.37007713317871094,
      "epoch": 0.4986390854654328,
      "grad_norm": 0.25796735286712646,
      "learning_rate": 0.00011570176207464114,
      "loss": 0.3369,
      "mean_token_accuracy": 0.8971839994192123,
      "num_tokens": 927293.0,
      "step": 229
    },
    {
      "entropy": 0.38342171162366867,
      "epoch": 0.5008165487207403,
      "grad_norm": 0.27563533186912537,
      "learning_rate": 0.00011506894567528556,
      "loss": 0.3546,
      "mean_token_accuracy": 0.8875249475240707,
      "num_tokens": 931453.0,
      "step": 230
    },
    {
      "entropy": 0.3373766243457794,
      "epoch": 0.5029940119760479,
      "grad_norm": 0.24225658178329468,
      "learning_rate": 0.00011443587777136679,
      "loss": 0.3411,
      "mean_token_accuracy": 0.9000124335289001,
      "num_tokens": 936010.0,
      "step": 231
    },
    {
      "entropy": 0.33466411381959915,
      "epoch": 0.5051714752313554,
      "grad_norm": 0.2858439087867737,
      "learning_rate": 0.0001138025897736509,
      "loss": 0.3343,
      "mean_token_accuracy": 0.8957197666168213,
      "num_tokens": 939926.0,
      "step": 232
    },
    {
      "entropy": 0.3573242276906967,
      "epoch": 0.5073489384866631,
      "grad_norm": 0.30942314863204956,
      "learning_rate": 0.00011316911310382416,
      "loss": 0.3597,
      "mean_token_accuracy": 0.8864942044019699,
      "num_tokens": 944087.0,
      "step": 233
    },
    {
      "entropy": 0.3710939437150955,
      "epoch": 0.5095264017419706,
      "grad_norm": 0.2737363278865814,
      "learning_rate": 0.00011253547919293439,
      "loss": 0.3577,
      "mean_token_accuracy": 0.8874527662992477,
      "num_tokens": 948518.0,
      "step": 234
    },
    {
      "entropy": 0.33612143993377686,
      "epoch": 0.5117038649972782,
      "grad_norm": 0.24085883796215057,
      "learning_rate": 0.00011190171947983091,
      "loss": 0.3161,
      "mean_token_accuracy": 0.902932345867157,
      "num_tokens": 952833.0,
      "step": 235
    },
    {
      "entropy": 0.353444904088974,
      "epoch": 0.5138813282525857,
      "grad_norm": 0.28172338008880615,
      "learning_rate": 0.00011126786540960512,
      "loss": 0.3562,
      "mean_token_accuracy": 0.8990496397018433,
      "num_tokens": 956824.0,
      "step": 236
    },
    {
      "entropy": 0.33875197917222977,
      "epoch": 0.5160587915078934,
      "grad_norm": 0.2717280387878418,
      "learning_rate": 0.00011063394843203004,
      "loss": 0.3117,
      "mean_token_accuracy": 0.9031887650489807,
      "num_tokens": 960613.0,
      "step": 237
    },
    {
      "entropy": 0.3543147072196007,
      "epoch": 0.5182362547632009,
      "grad_norm": 0.2418098896741867,
      "learning_rate": 0.00011000000000000002,
      "loss": 0.3577,
      "mean_token_accuracy": 0.8868001103401184,
      "num_tokens": 965072.0,
      "step": 238
    },
    {
      "entropy": 0.3672889471054077,
      "epoch": 0.5204137180185084,
      "grad_norm": 0.27860227227211,
      "learning_rate": 0.00010936605156797,
      "loss": 0.3616,
      "mean_token_accuracy": 0.8912352472543716,
      "num_tokens": 969185.0,
      "step": 239
    },
    {
      "entropy": 0.3546944558620453,
      "epoch": 0.522591181273816,
      "grad_norm": 0.27250248193740845,
      "learning_rate": 0.0001087321345903949,
      "loss": 0.34,
      "mean_token_accuracy": 0.8949205875396729,
      "num_tokens": 972955.0,
      "step": 240
    },
    {
      "entropy": 0.4006873667240143,
      "epoch": 0.5247686445291235,
      "grad_norm": 0.28049609065055847,
      "learning_rate": 0.00010809828052016913,
      "loss": 0.3895,
      "mean_token_accuracy": 0.878919780254364,
      "num_tokens": 976759.0,
      "step": 241
    },
    {
      "entropy": 0.34407609701156616,
      "epoch": 0.5269461077844312,
      "grad_norm": 0.22804318368434906,
      "learning_rate": 0.00010746452080706563,
      "loss": 0.3046,
      "mean_token_accuracy": 0.9041478931903839,
      "num_tokens": 981169.0,
      "step": 242
    },
    {
      "entropy": 0.34020114690065384,
      "epoch": 0.5291235710397387,
      "grad_norm": 0.25987792015075684,
      "learning_rate": 0.00010683088689617582,
      "loss": 0.3175,
      "mean_token_accuracy": 0.9022326022386551,
      "num_tokens": 984838.0,
      "step": 243
    },
    {
      "entropy": 0.35350754112005234,
      "epoch": 0.5313010342950463,
      "grad_norm": 0.2573815584182739,
      "learning_rate": 0.00010619741022634912,
      "loss": 0.3525,
      "mean_token_accuracy": 0.8904687911272049,
      "num_tokens": 988767.0,
      "step": 244
    },
    {
      "entropy": 0.319248978048563,
      "epoch": 0.5334784975503538,
      "grad_norm": 0.21112677454948425,
      "learning_rate": 0.00010556412222863321,
      "loss": 0.3022,
      "mean_token_accuracy": 0.9129808992147446,
      "num_tokens": 993209.0,
      "step": 245
    },
    {
      "entropy": 0.3874542936682701,
      "epoch": 0.5356559608056614,
      "grad_norm": 0.2539237439632416,
      "learning_rate": 0.00010493105432471443,
      "loss": 0.3908,
      "mean_token_accuracy": 0.8874447643756866,
      "num_tokens": 997348.0,
      "step": 246
    },
    {
      "entropy": 0.3753085806965828,
      "epoch": 0.537833424060969,
      "grad_norm": 0.242266446352005,
      "learning_rate": 0.00010429823792535891,
      "loss": 0.3721,
      "mean_token_accuracy": 0.8896859586238861,
      "num_tokens": 1001182.0,
      "step": 247
    },
    {
      "entropy": 0.326670840382576,
      "epoch": 0.5400108873162766,
      "grad_norm": 0.24620375037193298,
      "learning_rate": 0.00010366570442885373,
      "loss": 0.3195,
      "mean_token_accuracy": 0.9036577641963959,
      "num_tokens": 1005310.0,
      "step": 248
    },
    {
      "entropy": 0.36552029848098755,
      "epoch": 0.5421883505715841,
      "grad_norm": 0.24721576273441315,
      "learning_rate": 0.00010303348521944938,
      "loss": 0.3665,
      "mean_token_accuracy": 0.892762616276741,
      "num_tokens": 1009657.0,
      "step": 249
    },
    {
      "entropy": 0.34408629685640335,
      "epoch": 0.5443658138268916,
      "grad_norm": 0.23724570870399475,
      "learning_rate": 0.0001024016116658025,
      "loss": 0.3347,
      "mean_token_accuracy": 0.9008950591087341,
      "num_tokens": 1014240.0,
      "step": 250
    },
    {
      "entropy": 0.33717598021030426,
      "epoch": 0.5465432770821992,
      "grad_norm": 0.25629547238349915,
      "learning_rate": 0.0001017701151194193,
      "loss": 0.3434,
      "mean_token_accuracy": 0.9011830985546112,
      "num_tokens": 1018254.0,
      "step": 251
    },
    {
      "entropy": 0.36749306321144104,
      "epoch": 0.5487207403375068,
      "grad_norm": 0.2619577944278717,
      "learning_rate": 0.00010113902691310024,
      "loss": 0.3551,
      "mean_token_accuracy": 0.8974686414003372,
      "num_tokens": 1022155.0,
      "step": 252
    },
    {
      "entropy": 0.4006720781326294,
      "epoch": 0.5508982035928144,
      "grad_norm": 0.2916308343410492,
      "learning_rate": 0.00010050837835938516,
      "loss": 0.3901,
      "mean_token_accuracy": 0.884143054485321,
      "num_tokens": 1026011.0,
      "step": 253
    },
    {
      "entropy": 0.3434867560863495,
      "epoch": 0.5530756668481219,
      "grad_norm": 0.24261599779129028,
      "learning_rate": 9.98782007489998e-05,
      "loss": 0.3447,
      "mean_token_accuracy": 0.8931203186511993,
      "num_tokens": 1029811.0,
      "step": 254
    },
    {
      "entropy": 0.33298294991254807,
      "epoch": 0.5552531301034295,
      "grad_norm": 0.24710261821746826,
      "learning_rate": 9.924852534930333e-05,
      "loss": 0.3163,
      "mean_token_accuracy": 0.8988287448883057,
      "num_tokens": 1033838.0,
      "step": 255
    },
    {
      "entropy": 0.36351051926612854,
      "epoch": 0.5574305933587371,
      "grad_norm": 0.22865501046180725,
      "learning_rate": 9.861938340273671e-05,
      "loss": 0.3537,
      "mean_token_accuracy": 0.8958317637443542,
      "num_tokens": 1038890.0,
      "step": 256
    },
    {
      "entropy": 0.34496162831783295,
      "epoch": 0.5596080566140447,
      "grad_norm": 0.27052974700927734,
      "learning_rate": 9.79908061252728e-05,
      "loss": 0.3422,
      "mean_token_accuracy": 0.8985669314861298,
      "num_tokens": 1042344.0,
      "step": 257
    },
    {
      "entropy": 0.3629255071282387,
      "epoch": 0.5617855198693522,
      "grad_norm": 0.27112752199172974,
      "learning_rate": 9.736282470486739e-05,
      "loss": 0.36,
      "mean_token_accuracy": 0.8962416350841522,
      "num_tokens": 1046638.0,
      "step": 258
    },
    {
      "entropy": 0.3592648208141327,
      "epoch": 0.5639629831246598,
      "grad_norm": 0.23911136388778687,
      "learning_rate": 9.673547029991173e-05,
      "loss": 0.3398,
      "mean_token_accuracy": 0.8957805782556534,
      "num_tokens": 1050963.0,
      "step": 259
    },
    {
      "entropy": 0.41059066355228424,
      "epoch": 0.5661404463799673,
      "grad_norm": 0.2601061463356018,
      "learning_rate": 9.61087740376867e-05,
      "loss": 0.413,
      "mean_token_accuracy": 0.875213697552681,
      "num_tokens": 1055077.0,
      "step": 260
    },
    {
      "entropy": 0.33156271278858185,
      "epoch": 0.568317909635275,
      "grad_norm": 0.2332238405942917,
      "learning_rate": 9.548276701281821e-05,
      "loss": 0.3202,
      "mean_token_accuracy": 0.9033721536397934,
      "num_tokens": 1059270.0,
      "step": 261
    },
    {
      "entropy": 0.38206638395786285,
      "epoch": 0.5704953728905825,
      "grad_norm": 0.2890869677066803,
      "learning_rate": 9.485748028573455e-05,
      "loss": 0.3721,
      "mean_token_accuracy": 0.8858179748058319,
      "num_tokens": 1063429.0,
      "step": 262
    },
    {
      "entropy": 0.3339729979634285,
      "epoch": 0.57267283614589,
      "grad_norm": 0.23651231825351715,
      "learning_rate": 9.423294488112509e-05,
      "loss": 0.3376,
      "mean_token_accuracy": 0.9060862809419632,
      "num_tokens": 1067575.0,
      "step": 263
    },
    {
      "entropy": 0.36243191361427307,
      "epoch": 0.5748502994011976,
      "grad_norm": 0.2469407469034195,
      "learning_rate": 9.360919178640104e-05,
      "loss": 0.3313,
      "mean_token_accuracy": 0.9048342257738113,
      "num_tokens": 1071393.0,
      "step": 264
    },
    {
      "entropy": 0.3420562148094177,
      "epoch": 0.5770277626565051,
      "grad_norm": 0.24036115407943726,
      "learning_rate": 9.298625195015796e-05,
      "loss": 0.3464,
      "mean_token_accuracy": 0.900355190038681,
      "num_tokens": 1076079.0,
      "step": 265
    },
    {
      "entropy": 0.39919717609882355,
      "epoch": 0.5792052259118128,
      "grad_norm": 0.2509303390979767,
      "learning_rate": 9.236415628064017e-05,
      "loss": 0.3731,
      "mean_token_accuracy": 0.8862645626068115,
      "num_tokens": 1079989.0,
      "step": 266
    },
    {
      "entropy": 0.3894932344555855,
      "epoch": 0.5813826891671203,
      "grad_norm": 0.25672271847724915,
      "learning_rate": 9.174293564420724e-05,
      "loss": 0.3749,
      "mean_token_accuracy": 0.8905623853206635,
      "num_tokens": 1083957.0,
      "step": 267
    },
    {
      "entropy": 0.37751832604408264,
      "epoch": 0.5835601524224279,
      "grad_norm": 0.2643100321292877,
      "learning_rate": 9.112262086380234e-05,
      "loss": 0.371,
      "mean_token_accuracy": 0.8892365545034409,
      "num_tokens": 1087639.0,
      "step": 268
    },
    {
      "entropy": 0.35557425767183304,
      "epoch": 0.5857376156777354,
      "grad_norm": 0.2569376230239868,
      "learning_rate": 9.050324271742312e-05,
      "loss": 0.3369,
      "mean_token_accuracy": 0.8985206633806229,
      "num_tokens": 1091448.0,
      "step": 269
    },
    {
      "entropy": 0.3663223683834076,
      "epoch": 0.587915078933043,
      "grad_norm": 0.28307580947875977,
      "learning_rate": 8.988483193659447e-05,
      "loss": 0.3379,
      "mean_token_accuracy": 0.8939681947231293,
      "num_tokens": 1095282.0,
      "step": 270
    },
    {
      "entropy": 0.35191214829683304,
      "epoch": 0.5900925421883506,
      "grad_norm": 0.241379514336586,
      "learning_rate": 8.926741920484374e-05,
      "loss": 0.3447,
      "mean_token_accuracy": 0.8967802226543427,
      "num_tokens": 1099519.0,
      "step": 271
    },
    {
      "entropy": 0.33553165942430496,
      "epoch": 0.5922700054436582,
      "grad_norm": 0.26522010564804077,
      "learning_rate": 8.865103515617834e-05,
      "loss": 0.3126,
      "mean_token_accuracy": 0.9028987288475037,
      "num_tokens": 1103293.0,
      "step": 272
    },
    {
      "entropy": 0.321424663066864,
      "epoch": 0.5944474686989657,
      "grad_norm": 0.23075014352798462,
      "learning_rate": 8.803571037356575e-05,
      "loss": 0.3204,
      "mean_token_accuracy": 0.9045960456132889,
      "num_tokens": 1107725.0,
      "step": 273
    },
    {
      "entropy": 0.3491132855415344,
      "epoch": 0.5966249319542732,
      "grad_norm": 0.26291459798812866,
      "learning_rate": 8.742147538741623e-05,
      "loss": 0.3178,
      "mean_token_accuracy": 0.9050692319869995,
      "num_tokens": 1111448.0,
      "step": 274
    },
    {
      "entropy": 0.3245581164956093,
      "epoch": 0.5988023952095808,
      "grad_norm": 0.2527916729450226,
      "learning_rate": 8.680836067406775e-05,
      "loss": 0.3164,
      "mean_token_accuracy": 0.9089783430099487,
      "num_tokens": 1115353.0,
      "step": 275
    },
    {
      "entropy": 0.3509984761476517,
      "epoch": 0.6009798584648884,
      "grad_norm": 0.2409028708934784,
      "learning_rate": 8.619639665427411e-05,
      "loss": 0.3205,
      "mean_token_accuracy": 0.901856929063797,
      "num_tokens": 1119037.0,
      "step": 276
    },
    {
      "entropy": 0.41339434683322906,
      "epoch": 0.603157321720196,
      "grad_norm": 0.2666266858577728,
      "learning_rate": 8.558561369169535e-05,
      "loss": 0.4118,
      "mean_token_accuracy": 0.8851277679204941,
      "num_tokens": 1122815.0,
      "step": 277
    },
    {
      "entropy": 0.355926550924778,
      "epoch": 0.6053347849755035,
      "grad_norm": 0.2666811943054199,
      "learning_rate": 8.497604209139139e-05,
      "loss": 0.3598,
      "mean_token_accuracy": 0.8959801942110062,
      "num_tokens": 1126942.0,
      "step": 278
    },
    {
      "entropy": 0.33385297656059265,
      "epoch": 0.6075122482308111,
      "grad_norm": 0.26262858510017395,
      "learning_rate": 8.436771209831825e-05,
      "loss": 0.356,
      "mean_token_accuracy": 0.8975410759449005,
      "num_tokens": 1130948.0,
      "step": 279
    },
    {
      "entropy": 0.3468668982386589,
      "epoch": 0.6096897114861187,
      "grad_norm": 0.2627294659614563,
      "learning_rate": 8.376065389582739e-05,
      "loss": 0.3453,
      "mean_token_accuracy": 0.8972453325986862,
      "num_tokens": 1135319.0,
      "step": 280
    },
    {
      "entropy": 0.34889067709445953,
      "epoch": 0.6118671747414263,
      "grad_norm": 0.2477421760559082,
      "learning_rate": 8.315489760416839e-05,
      "loss": 0.3221,
      "mean_token_accuracy": 0.9074793308973312,
      "num_tokens": 1138864.0,
      "step": 281
    },
    {
      "entropy": 0.3540688380599022,
      "epoch": 0.6140446379967338,
      "grad_norm": 0.2644377052783966,
      "learning_rate": 8.255047327899392e-05,
      "loss": 0.3697,
      "mean_token_accuracy": 0.8973688334226608,
      "num_tokens": 1142749.0,
      "step": 282
    },
    {
      "entropy": 0.3112604096531868,
      "epoch": 0.6162221012520414,
      "grad_norm": 0.24608677625656128,
      "learning_rate": 8.19474109098691e-05,
      "loss": 0.3115,
      "mean_token_accuracy": 0.9069450497627258,
      "num_tokens": 1146891.0,
      "step": 283
    },
    {
      "entropy": 0.3105768784880638,
      "epoch": 0.6183995645073489,
      "grad_norm": 0.2628800868988037,
      "learning_rate": 8.134574041878306e-05,
      "loss": 0.3144,
      "mean_token_accuracy": 0.9045025259256363,
      "num_tokens": 1151024.0,
      "step": 284
    },
    {
      "entropy": 0.3061619848012924,
      "epoch": 0.6205770277626566,
      "grad_norm": 0.2500765919685364,
      "learning_rate": 8.074549165866463e-05,
      "loss": 0.2996,
      "mean_token_accuracy": 0.9090612530708313,
      "num_tokens": 1155564.0,
      "step": 285
    },
    {
      "entropy": 0.34363674372434616,
      "epoch": 0.6227544910179641,
      "grad_norm": 0.2619493305683136,
      "learning_rate": 8.014669441190081e-05,
      "loss": 0.3196,
      "mean_token_accuracy": 0.8998923152685165,
      "num_tokens": 1159454.0,
      "step": 286
    },
    {
      "entropy": 0.3449995443224907,
      "epoch": 0.6249319542732716,
      "grad_norm": 0.2670820355415344,
      "learning_rate": 7.954937838885937e-05,
      "loss": 0.3517,
      "mean_token_accuracy": 0.8967305719852448,
      "num_tokens": 1163267.0,
      "step": 287
    },
    {
      "entropy": 0.3603576719760895,
      "epoch": 0.6271094175285792,
      "grad_norm": 0.24100132286548615,
      "learning_rate": 7.895357322641452e-05,
      "loss": 0.3508,
      "mean_token_accuracy": 0.8935562521219254,
      "num_tokens": 1167581.0,
      "step": 288
    },
    {
      "entropy": 0.3160111829638481,
      "epoch": 0.6292868807838867,
      "grad_norm": 0.2645825445652008,
      "learning_rate": 7.835930848647653e-05,
      "loss": 0.3045,
      "mean_token_accuracy": 0.9113835692405701,
      "num_tokens": 1171514.0,
      "step": 289
    },
    {
      "entropy": 0.33360420912504196,
      "epoch": 0.6314643440391944,
      "grad_norm": 0.22924089431762695,
      "learning_rate": 7.776661365452491e-05,
      "loss": 0.3087,
      "mean_token_accuracy": 0.9061863869428635,
      "num_tokens": 1175361.0,
      "step": 290
    },
    {
      "entropy": 0.3485657498240471,
      "epoch": 0.6336418072945019,
      "grad_norm": 0.24018257856369019,
      "learning_rate": 7.717551813814543e-05,
      "loss": 0.3087,
      "mean_token_accuracy": 0.903602659702301,
      "num_tokens": 1179132.0,
      "step": 291
    },
    {
      "entropy": 0.342680849134922,
      "epoch": 0.6358192705498095,
      "grad_norm": 0.22566929459571838,
      "learning_rate": 7.658605126557105e-05,
      "loss": 0.3183,
      "mean_token_accuracy": 0.9066330194473267,
      "num_tokens": 1183571.0,
      "step": 292
    },
    {
      "entropy": 0.3731561452150345,
      "epoch": 0.637996733805117,
      "grad_norm": 0.2820538580417633,
      "learning_rate": 7.599824228422677e-05,
      "loss": 0.371,
      "mean_token_accuracy": 0.8894180357456207,
      "num_tokens": 1187179.0,
      "step": 293
    },
    {
      "entropy": 0.32869182527065277,
      "epoch": 0.6401741970604246,
      "grad_norm": 0.2502634823322296,
      "learning_rate": 7.541212035927839e-05,
      "loss": 0.2968,
      "mean_token_accuracy": 0.9134543687105179,
      "num_tokens": 1191246.0,
      "step": 294
    },
    {
      "entropy": 0.37562160193920135,
      "epoch": 0.6423516603157322,
      "grad_norm": 0.2863782048225403,
      "learning_rate": 7.482771457218542e-05,
      "loss": 0.3717,
      "mean_token_accuracy": 0.8882504254579544,
      "num_tokens": 1195149.0,
      "step": 295
    },
    {
      "entropy": 0.33977876603603363,
      "epoch": 0.6445291235710398,
      "grad_norm": 0.24794067442417145,
      "learning_rate": 7.424505391925833e-05,
      "loss": 0.3122,
      "mean_token_accuracy": 0.9125866144895554,
      "num_tokens": 1198886.0,
      "step": 296
    },
    {
      "entropy": 0.3772798329591751,
      "epoch": 0.6467065868263473,
      "grad_norm": 0.23983165621757507,
      "learning_rate": 7.366416731021964e-05,
      "loss": 0.362,
      "mean_token_accuracy": 0.8952146172523499,
      "num_tokens": 1202933.0,
      "step": 297
    },
    {
      "entropy": 0.3076706826686859,
      "epoch": 0.6488840500816548,
      "grad_norm": 0.2429223656654358,
      "learning_rate": 7.30850835667696e-05,
      "loss": 0.3008,
      "mean_token_accuracy": 0.909699097275734,
      "num_tokens": 1206978.0,
      "step": 298
    },
    {
      "entropy": 0.3360467702150345,
      "epoch": 0.6510615133369625,
      "grad_norm": 0.25572511553764343,
      "learning_rate": 7.250783142115615e-05,
      "loss": 0.341,
      "mean_token_accuracy": 0.9028728753328323,
      "num_tokens": 1210951.0,
      "step": 299
    },
    {
      "entropy": 0.305056668817997,
      "epoch": 0.65323897659227,
      "grad_norm": 0.24135318398475647,
      "learning_rate": 7.193243951474933e-05,
      "loss": 0.3122,
      "mean_token_accuracy": 0.908637598156929,
      "num_tokens": 1215517.0,
      "step": 300
    },
    {
      "entropy": 0.337252639234066,
      "epoch": 0.6554164398475776,
      "grad_norm": 0.27407306432724,
      "learning_rate": 7.135893639662012e-05,
      "loss": 0.3226,
      "mean_token_accuracy": 0.9033920913934708,
      "num_tokens": 1219456.0,
      "step": 301
    },
    {
      "entropy": 0.3444167599081993,
      "epoch": 0.6575939031028851,
      "grad_norm": 0.2554808557033539,
      "learning_rate": 7.078735052212402e-05,
      "loss": 0.3405,
      "mean_token_accuracy": 0.8994651138782501,
      "num_tokens": 1223440.0,
      "step": 302
    },
    {
      "entropy": 0.3203364834189415,
      "epoch": 0.6597713663581927,
      "grad_norm": 0.2498241364955902,
      "learning_rate": 7.021771025148922e-05,
      "loss": 0.2994,
      "mean_token_accuracy": 0.9104214161634445,
      "num_tokens": 1227205.0,
      "step": 303
    },
    {
      "entropy": 0.3659024015069008,
      "epoch": 0.6619488296135003,
      "grad_norm": 0.24576182663440704,
      "learning_rate": 6.965004384840928e-05,
      "loss": 0.3434,
      "mean_token_accuracy": 0.8974325805902481,
      "num_tokens": 1231062.0,
      "step": 304
    },
    {
      "entropy": 0.35433361679315567,
      "epoch": 0.6641262928688079,
      "grad_norm": 0.2348756641149521,
      "learning_rate": 6.90843794786409e-05,
      "loss": 0.3326,
      "mean_token_accuracy": 0.8999007195234299,
      "num_tokens": 1235210.0,
      "step": 305
    },
    {
      "entropy": 0.3522880747914314,
      "epoch": 0.6663037561241154,
      "grad_norm": 0.24180057644844055,
      "learning_rate": 6.852074520860648e-05,
      "loss": 0.3286,
      "mean_token_accuracy": 0.9014742374420166,
      "num_tokens": 1238954.0,
      "step": 306
    },
    {
      "entropy": 0.35235612094402313,
      "epoch": 0.668481219379423,
      "grad_norm": 0.24760101735591888,
      "learning_rate": 6.795916900400138e-05,
      "loss": 0.3262,
      "mean_token_accuracy": 0.9001569449901581,
      "num_tokens": 1242691.0,
      "step": 307
    },
    {
      "entropy": 0.35372819751501083,
      "epoch": 0.6706586826347305,
      "grad_norm": 0.2558618485927582,
      "learning_rate": 6.739967872840662e-05,
      "loss": 0.3389,
      "mean_token_accuracy": 0.9027666747570038,
      "num_tokens": 1246355.0,
      "step": 308
    },
    {
      "entropy": 0.32674338668584824,
      "epoch": 0.6728361458900382,
      "grad_norm": 0.2397354543209076,
      "learning_rate": 6.684230214190608e-05,
      "loss": 0.3026,
      "mean_token_accuracy": 0.9039190113544464,
      "num_tokens": 1251017.0,
      "step": 309
    },
    {
      "entropy": 0.3184630870819092,
      "epoch": 0.6750136091453457,
      "grad_norm": 0.2725917100906372,
      "learning_rate": 6.628706689970932e-05,
      "loss": 0.3305,
      "mean_token_accuracy": 0.8989760279655457,
      "num_tokens": 1255024.0,
      "step": 310
    },
    {
      "entropy": 0.35561081022024155,
      "epoch": 0.6771910724006532,
      "grad_norm": 0.24204087257385254,
      "learning_rate": 6.573400055077938e-05,
      "loss": 0.3393,
      "mean_token_accuracy": 0.8942540436983109,
      "num_tokens": 1259033.0,
      "step": 311
    },
    {
      "entropy": 0.3308749422430992,
      "epoch": 0.6793685356559608,
      "grad_norm": 0.23772156238555908,
      "learning_rate": 6.518313053646586e-05,
      "loss": 0.3264,
      "mean_token_accuracy": 0.9023979008197784,
      "num_tokens": 1263455.0,
      "step": 312
    },
    {
      "entropy": 0.3347730040550232,
      "epoch": 0.6815459989112683,
      "grad_norm": 0.2505793571472168,
      "learning_rate": 6.463448418914348e-05,
      "loss": 0.3392,
      "mean_token_accuracy": 0.9027709066867828,
      "num_tokens": 1267335.0,
      "step": 313
    },
    {
      "entropy": 0.3568695932626724,
      "epoch": 0.683723462166576,
      "grad_norm": 0.24569235742092133,
      "learning_rate": 6.408808873085577e-05,
      "loss": 0.3399,
      "mean_token_accuracy": 0.8940989226102829,
      "num_tokens": 1271810.0,
      "step": 314
    },
    {
      "entropy": 0.33151426911354065,
      "epoch": 0.6859009254218835,
      "grad_norm": 0.28417110443115234,
      "learning_rate": 6.354397127196448e-05,
      "loss": 0.3196,
      "mean_token_accuracy": 0.9016236513853073,
      "num_tokens": 1275575.0,
      "step": 315
    },
    {
      "entropy": 0.31233637779951096,
      "epoch": 0.6880783886771911,
      "grad_norm": 0.23522846400737762,
      "learning_rate": 6.300215880980446e-05,
      "loss": 0.2954,
      "mean_token_accuracy": 0.9116706401109695,
      "num_tokens": 1280034.0,
      "step": 316
    },
    {
      "entropy": 0.35172613710165024,
      "epoch": 0.6902558519324986,
      "grad_norm": 0.25289177894592285,
      "learning_rate": 6.246267822734421e-05,
      "loss": 0.3253,
      "mean_token_accuracy": 0.8971187770366669,
      "num_tokens": 1283664.0,
      "step": 317
    },
    {
      "entropy": 0.3484005257487297,
      "epoch": 0.6924333151878062,
      "grad_norm": 0.2565121054649353,
      "learning_rate": 6.192555629185189e-05,
      "loss": 0.3408,
      "mean_token_accuracy": 0.8945488780736923,
      "num_tokens": 1287685.0,
      "step": 318
    },
    {
      "entropy": 0.3195461556315422,
      "epoch": 0.6946107784431138,
      "grad_norm": 0.24285030364990234,
      "learning_rate": 6.139081965356725e-05,
      "loss": 0.3188,
      "mean_token_accuracy": 0.9035038352012634,
      "num_tokens": 1291337.0,
      "step": 319
    },
    {
      "entropy": 0.33748240023851395,
      "epoch": 0.6967882416984214,
      "grad_norm": 0.24630972743034363,
      "learning_rate": 6.085849484437944e-05,
      "loss": 0.3411,
      "mean_token_accuracy": 0.9040576815605164,
      "num_tokens": 1295196.0,
      "step": 320
    },
    {
      "entropy": 0.3222072795033455,
      "epoch": 0.6989657049537289,
      "grad_norm": 0.23582881689071655,
      "learning_rate": 6.0328608276510476e-05,
      "loss": 0.3193,
      "mean_token_accuracy": 0.900396928191185,
      "num_tokens": 1299276.0,
      "step": 321
    },
    {
      "entropy": 0.34793104976415634,
      "epoch": 0.7011431682090364,
      "grad_norm": 0.28013235330581665,
      "learning_rate": 5.980118624120483e-05,
      "loss": 0.3234,
      "mean_token_accuracy": 0.8983870148658752,
      "num_tokens": 1302970.0,
      "step": 322
    },
    {
      "entropy": 0.3033921644091606,
      "epoch": 0.7033206314643441,
      "grad_norm": 0.23157738149166107,
      "learning_rate": 5.9276254907424846e-05,
      "loss": 0.2927,
      "mean_token_accuracy": 0.9108779579401016,
      "num_tokens": 1307008.0,
      "step": 323
    },
    {
      "entropy": 0.36583440005779266,
      "epoch": 0.7054980947196516,
      "grad_norm": 0.2319372296333313,
      "learning_rate": 5.875384032055239e-05,
      "loss": 0.371,
      "mean_token_accuracy": 0.897381991147995,
      "num_tokens": 1311263.0,
      "step": 324
    },
    {
      "entropy": 0.3215944245457649,
      "epoch": 0.7076755579749592,
      "grad_norm": 0.23082365095615387,
      "learning_rate": 5.823396840109657e-05,
      "loss": 0.3094,
      "mean_token_accuracy": 0.903637707233429,
      "num_tokens": 1315823.0,
      "step": 325
    },
    {
      "entropy": 0.34219200164079666,
      "epoch": 0.7098530212302667,
      "grad_norm": 0.23884856700897217,
      "learning_rate": 5.771666494340756e-05,
      "loss": 0.3289,
      "mean_token_accuracy": 0.9032928794622421,
      "num_tokens": 1319955.0,
      "step": 326
    },
    {
      "entropy": 0.2886577844619751,
      "epoch": 0.7120304844855743,
      "grad_norm": 0.22707660496234894,
      "learning_rate": 5.7201955614396964e-05,
      "loss": 0.2839,
      "mean_token_accuracy": 0.9143697619438171,
      "num_tokens": 1324096.0,
      "step": 327
    },
    {
      "entropy": 0.3365718871355057,
      "epoch": 0.7142079477408819,
      "grad_norm": 0.21789753437042236,
      "learning_rate": 5.668986595226404e-05,
      "loss": 0.3316,
      "mean_token_accuracy": 0.9025033861398697,
      "num_tokens": 1328868.0,
      "step": 328
    },
    {
      "entropy": 0.313778854906559,
      "epoch": 0.7163854109961895,
      "grad_norm": 0.24393050372600555,
      "learning_rate": 5.618042136522881e-05,
      "loss": 0.3212,
      "mean_token_accuracy": 0.9037179052829742,
      "num_tokens": 1333087.0,
      "step": 329
    },
    {
      "entropy": 0.3029978275299072,
      "epoch": 0.718562874251497,
      "grad_norm": 0.24070705473423004,
      "learning_rate": 5.567364713027121e-05,
      "loss": 0.306,
      "mean_token_accuracy": 0.9108355790376663,
      "num_tokens": 1337351.0,
      "step": 330
    },
    {
      "entropy": 0.36839231103658676,
      "epoch": 0.7207403375068046,
      "grad_norm": 0.25364482402801514,
      "learning_rate": 5.5169568391877035e-05,
      "loss": 0.3493,
      "mean_token_accuracy": 0.89275161921978,
      "num_tokens": 1341499.0,
      "step": 331
    },
    {
      "entropy": 0.37619777768850327,
      "epoch": 0.7229178007621121,
      "grad_norm": 0.24351854622364044,
      "learning_rate": 5.46682101607904e-05,
      "loss": 0.3816,
      "mean_token_accuracy": 0.8932196348905563,
      "num_tokens": 1345295.0,
      "step": 332
    },
    {
      "entropy": 0.30273835361003876,
      "epoch": 0.7250952640174197,
      "grad_norm": 0.2297053039073944,
      "learning_rate": 5.416959731277264e-05,
      "loss": 0.2852,
      "mean_token_accuracy": 0.9142936319112778,
      "num_tokens": 1349605.0,
      "step": 333
    },
    {
      "entropy": 0.3630438446998596,
      "epoch": 0.7272727272727273,
      "grad_norm": 0.2559914290904999,
      "learning_rate": 5.3673754587368094e-05,
      "loss": 0.3791,
      "mean_token_accuracy": 0.8942387253046036,
      "num_tokens": 1353706.0,
      "step": 334
    },
    {
      "entropy": 0.32199136167764664,
      "epoch": 0.7294501905280348,
      "grad_norm": 0.25669071078300476,
      "learning_rate": 5.318070658667671e-05,
      "loss": 0.3123,
      "mean_token_accuracy": 0.9080253690481186,
      "num_tokens": 1357558.0,
      "step": 335
    },
    {
      "entropy": 0.35776887834072113,
      "epoch": 0.7316276537833424,
      "grad_norm": 0.2596750855445862,
      "learning_rate": 5.269047777413333e-05,
      "loss": 0.3436,
      "mean_token_accuracy": 0.8997514098882675,
      "num_tokens": 1361340.0,
      "step": 336
    },
    {
      "entropy": 0.34765905141830444,
      "epoch": 0.7338051170386499,
      "grad_norm": 0.21836940944194794,
      "learning_rate": 5.22030924732938e-05,
      "loss": 0.3277,
      "mean_token_accuracy": 0.9053044319152832,
      "num_tokens": 1365153.0,
      "step": 337
    },
    {
      "entropy": 0.34295450896024704,
      "epoch": 0.7359825802939576,
      "grad_norm": 0.2738622725009918,
      "learning_rate": 5.171857486662823e-05,
      "loss": 0.3336,
      "mean_token_accuracy": 0.8998141139745712,
      "num_tokens": 1368896.0,
      "step": 338
    },
    {
      "entropy": 0.32134611159563065,
      "epoch": 0.7381600435492651,
      "grad_norm": 0.22107118368148804,
      "learning_rate": 5.1236948994321055e-05,
      "loss": 0.2999,
      "mean_token_accuracy": 0.908054381608963,
      "num_tokens": 1373609.0,
      "step": 339
    },
    {
      "entropy": 0.3105727434158325,
      "epoch": 0.7403375068045727,
      "grad_norm": 0.23407259583473206,
      "learning_rate": 5.075823875307828e-05,
      "loss": 0.2947,
      "mean_token_accuracy": 0.9088436663150787,
      "num_tokens": 1377893.0,
      "step": 340
    },
    {
      "entropy": 0.3235616162419319,
      "epoch": 0.7425149700598802,
      "grad_norm": 0.2505863606929779,
      "learning_rate": 5.0282467894941864e-05,
      "loss": 0.3338,
      "mean_token_accuracy": 0.9098049253225327,
      "num_tokens": 1381665.0,
      "step": 341
    },
    {
      "entropy": 0.30407993495464325,
      "epoch": 0.7446924333151878,
      "grad_norm": 0.23674152791500092,
      "learning_rate": 4.980966002611108e-05,
      "loss": 0.2939,
      "mean_token_accuracy": 0.9113668948411942,
      "num_tokens": 1386000.0,
      "step": 342
    },
    {
      "entropy": 0.29837000370025635,
      "epoch": 0.7468698965704954,
      "grad_norm": 0.24069277942180634,
      "learning_rate": 4.933983860577136e-05,
      "loss": 0.2801,
      "mean_token_accuracy": 0.9147733300924301,
      "num_tokens": 1389768.0,
      "step": 343
    },
    {
      "entropy": 0.5488722026348114,
      "epoch": 0.749047359825803,
      "grad_norm": 0.23018239438533783,
      "learning_rate": 4.887302694493029e-05,
      "loss": 0.6326,
      "mean_token_accuracy": 0.8503530323505402,
      "num_tokens": 1394588.0,
      "step": 344
    },
    {
      "entropy": 0.3708427771925926,
      "epoch": 0.7512248230811105,
      "grad_norm": 0.28215181827545166,
      "learning_rate": 4.840924820526096e-05,
      "loss": 0.3952,
      "mean_token_accuracy": 0.8861146718263626,
      "num_tokens": 1398304.0,
      "step": 345
    },
    {
      "entropy": 0.34193163365125656,
      "epoch": 0.753402286336418,
      "grad_norm": 0.2342662215232849,
      "learning_rate": 4.794852539795291e-05,
      "loss": 0.3495,
      "mean_token_accuracy": 0.903597891330719,
      "num_tokens": 1402505.0,
      "step": 346
    },
    {
      "entropy": 0.3103507123887539,
      "epoch": 0.7555797495917257,
      "grad_norm": 0.23902368545532227,
      "learning_rate": 4.749088138257017e-05,
      "loss": 0.3078,
      "mean_token_accuracy": 0.9087391942739487,
      "num_tokens": 1406703.0,
      "step": 347
    },
    {
      "entropy": 0.3236440420150757,
      "epoch": 0.7577572128470332,
      "grad_norm": 0.22265306115150452,
      "learning_rate": 4.703633886591719e-05,
      "loss": 0.3387,
      "mean_token_accuracy": 0.9036975800991058,
      "num_tokens": 1410765.0,
      "step": 348
    },
    {
      "entropy": 0.31991977244615555,
      "epoch": 0.7599346761023408,
      "grad_norm": 0.2397955358028412,
      "learning_rate": 4.6584920400912156e-05,
      "loss": 0.3056,
      "mean_token_accuracy": 0.9113240092992783,
      "num_tokens": 1414804.0,
      "step": 349
    },
    {
      "entropy": 0.28877923637628555,
      "epoch": 0.7621121393576483,
      "grad_norm": 0.2253178060054779,
      "learning_rate": 4.6136648385467977e-05,
      "loss": 0.2649,
      "mean_token_accuracy": 0.9233576655387878,
      "num_tokens": 1419025.0,
      "step": 350
    },
    {
      "entropy": 0.35838521271944046,
      "epoch": 0.7642896026129559,
      "grad_norm": 0.2513080835342407,
      "learning_rate": 4.5691545061381026e-05,
      "loss": 0.3413,
      "mean_token_accuracy": 0.8982634395360947,
      "num_tokens": 1423031.0,
      "step": 351
    },
    {
      "entropy": 0.371716171503067,
      "epoch": 0.7664670658682635,
      "grad_norm": 0.23435106873512268,
      "learning_rate": 4.5249632513227504e-05,
      "loss": 0.3457,
      "mean_token_accuracy": 0.9014202654361725,
      "num_tokens": 1427232.0,
      "step": 352
    },
    {
      "entropy": 0.32540784031152725,
      "epoch": 0.7686445291235711,
      "grad_norm": 0.2637276351451874,
      "learning_rate": 4.481093266726772e-05,
      "loss": 0.2913,
      "mean_token_accuracy": 0.9063924849033356,
      "num_tokens": 1431135.0,
      "step": 353
    },
    {
      "entropy": 0.35406405478715897,
      "epoch": 0.7708219923788786,
      "grad_norm": 0.24304324388504028,
      "learning_rate": 4.43754672903582e-05,
      "loss": 0.3232,
      "mean_token_accuracy": 0.9024296700954437,
      "num_tokens": 1435499.0,
      "step": 354
    },
    {
      "entropy": 0.32546380907297134,
      "epoch": 0.7729994556341862,
      "grad_norm": 0.22986435890197754,
      "learning_rate": 4.394325798887158e-05,
      "loss": 0.31,
      "mean_token_accuracy": 0.9013588130474091,
      "num_tokens": 1439833.0,
      "step": 355
    },
    {
      "entropy": 0.38513386994600296,
      "epoch": 0.7751769188894937,
      "grad_norm": 0.27596256136894226,
      "learning_rate": 4.351432620762478e-05,
      "loss": 0.346,
      "mean_token_accuracy": 0.8986889123916626,
      "num_tokens": 1443460.0,
      "step": 356
    },
    {
      "entropy": 0.3382200300693512,
      "epoch": 0.7773543821448013,
      "grad_norm": 0.24578897655010223,
      "learning_rate": 4.30886932288147e-05,
      "loss": 0.3229,
      "mean_token_accuracy": 0.9034900367259979,
      "num_tokens": 1447099.0,
      "step": 357
    },
    {
      "entropy": 0.3409022316336632,
      "epoch": 0.7795318454001089,
      "grad_norm": 0.2280901074409485,
      "learning_rate": 4.266638017096252e-05,
      "loss": 0.3411,
      "mean_token_accuracy": 0.9012559950351715,
      "num_tokens": 1451312.0,
      "step": 358
    },
    {
      "entropy": 0.32152481377124786,
      "epoch": 0.7817093086554164,
      "grad_norm": 0.24760432541370392,
      "learning_rate": 4.224740798786573e-05,
      "loss": 0.3204,
      "mean_token_accuracy": 0.9076259434223175,
      "num_tokens": 1455523.0,
      "step": 359
    },
    {
      "entropy": 0.31170132011175156,
      "epoch": 0.783886771910724,
      "grad_norm": 0.2510303258895874,
      "learning_rate": 4.183179746755844e-05,
      "loss": 0.3126,
      "mean_token_accuracy": 0.9090617448091507,
      "num_tokens": 1459544.0,
      "step": 360
    },
    {
      "entropy": 0.3523375913500786,
      "epoch": 0.7860642351660315,
      "grad_norm": 0.26667118072509766,
      "learning_rate": 4.141956923128013e-05,
      "loss": 0.3492,
      "mean_token_accuracy": 0.8998522162437439,
      "num_tokens": 1463315.0,
      "step": 361
    },
    {
      "entropy": 0.3598644956946373,
      "epoch": 0.7882416984213392,
      "grad_norm": 0.2440025806427002,
      "learning_rate": 4.1010743732452294e-05,
      "loss": 0.3544,
      "mean_token_accuracy": 0.8947449177503586,
      "num_tokens": 1467647.0,
      "step": 362
    },
    {
      "entropy": 0.395267553627491,
      "epoch": 0.7904191616766467,
      "grad_norm": 0.24411144852638245,
      "learning_rate": 4.0605341255663696e-05,
      "loss": 0.4317,
      "mean_token_accuracy": 0.8864284604787827,
      "num_tokens": 1471972.0,
      "step": 363
    },
    {
      "entropy": 0.33659572899341583,
      "epoch": 0.7925966249319543,
      "grad_norm": 0.26458773016929626,
      "learning_rate": 4.02033819156639e-05,
      "loss": 0.3298,
      "mean_token_accuracy": 0.9003510624170303,
      "num_tokens": 1475826.0,
      "step": 364
    },
    {
      "entropy": 0.29316914454102516,
      "epoch": 0.7947740881872618,
      "grad_norm": 0.25398463010787964,
      "learning_rate": 3.980488565636522e-05,
      "loss": 0.2772,
      "mean_token_accuracy": 0.9137367159128189,
      "num_tokens": 1480107.0,
      "step": 365
    },
    {
      "entropy": 0.3080258443951607,
      "epoch": 0.7969515514425695,
      "grad_norm": 0.26426613330841064,
      "learning_rate": 3.9409872249853286e-05,
      "loss": 0.3046,
      "mean_token_accuracy": 0.9098687618970871,
      "num_tokens": 1484069.0,
      "step": 366
    },
    {
      "entropy": 0.34426791220903397,
      "epoch": 0.799129014697877,
      "grad_norm": 0.2809188663959503,
      "learning_rate": 3.9018361295405856e-05,
      "loss": 0.3592,
      "mean_token_accuracy": 0.9000663906335831,
      "num_tokens": 1487840.0,
      "step": 367
    },
    {
      "entropy": 0.33940157294273376,
      "epoch": 0.8013064779531845,
      "grad_norm": 0.2272171825170517,
      "learning_rate": 3.8630372218520384e-05,
      "loss": 0.3417,
      "mean_token_accuracy": 0.9024456739425659,
      "num_tokens": 1491938.0,
      "step": 368
    },
    {
      "entropy": 0.33219510316848755,
      "epoch": 0.8034839412084921,
      "grad_norm": 0.2192796915769577,
      "learning_rate": 3.824592426995029e-05,
      "loss": 0.3221,
      "mean_token_accuracy": 0.9031501561403275,
      "num_tokens": 1496386.0,
      "step": 369
    },
    {
      "entropy": 0.3439122289419174,
      "epoch": 0.8056614044637996,
      "grad_norm": 0.229109987616539,
      "learning_rate": 3.786503652474982e-05,
      "loss": 0.3427,
      "mean_token_accuracy": 0.9062491357326508,
      "num_tokens": 1500938.0,
      "step": 370
    },
    {
      "entropy": 0.3725889101624489,
      "epoch": 0.8078388677191073,
      "grad_norm": 0.2585630714893341,
      "learning_rate": 3.7487727881327405e-05,
      "loss": 0.3704,
      "mean_token_accuracy": 0.8960603177547455,
      "num_tokens": 1504742.0,
      "step": 371
    },
    {
      "entropy": 0.3037722408771515,
      "epoch": 0.8100163309744148,
      "grad_norm": 0.23759490251541138,
      "learning_rate": 3.711401706050821e-05,
      "loss": 0.2939,
      "mean_token_accuracy": 0.9124279767274857,
      "num_tokens": 1508512.0,
      "step": 372
    },
    {
      "entropy": 0.3051731139421463,
      "epoch": 0.8121937942297224,
      "grad_norm": 0.22473642230033875,
      "learning_rate": 3.674392260460509e-05,
      "loss": 0.3036,
      "mean_token_accuracy": 0.9092454463243484,
      "num_tokens": 1513083.0,
      "step": 373
    },
    {
      "entropy": 0.3145020753145218,
      "epoch": 0.8143712574850299,
      "grad_norm": 0.2272917479276657,
      "learning_rate": 3.6377462876498694e-05,
      "loss": 0.2858,
      "mean_token_accuracy": 0.9174733906984329,
      "num_tokens": 1516960.0,
      "step": 374
    },
    {
      "entropy": 0.33495523035526276,
      "epoch": 0.8165487207403375,
      "grad_norm": 0.24096311628818512,
      "learning_rate": 3.601465605872636e-05,
      "loss": 0.3004,
      "mean_token_accuracy": 0.9126247465610504,
      "num_tokens": 1520583.0,
      "step": 375
    },
    {
      "entropy": 0.3524938374757767,
      "epoch": 0.8187261839956451,
      "grad_norm": 0.23482073843479156,
      "learning_rate": 3.565552015257989e-05,
      "loss": 0.3596,
      "mean_token_accuracy": 0.894221231341362,
      "num_tokens": 1525126.0,
      "step": 376
    },
    {
      "entropy": 0.3637235388159752,
      "epoch": 0.8209036472509527,
      "grad_norm": 0.2486315220594406,
      "learning_rate": 3.530007297721239e-05,
      "loss": 0.3518,
      "mean_token_accuracy": 0.8981701731681824,
      "num_tokens": 1528846.0,
      "step": 377
    },
    {
      "entropy": 0.327960979193449,
      "epoch": 0.8230811105062602,
      "grad_norm": 0.21721476316452026,
      "learning_rate": 3.494833216875421e-05,
      "loss": 0.2854,
      "mean_token_accuracy": 0.915936678647995,
      "num_tokens": 1532720.0,
      "step": 378
    },
    {
      "entropy": 0.3281715139746666,
      "epoch": 0.8252585737615677,
      "grad_norm": 0.27801278233528137,
      "learning_rate": 3.4600315179437807e-05,
      "loss": 0.3094,
      "mean_token_accuracy": 0.9122365713119507,
      "num_tokens": 1536770.0,
      "step": 379
    },
    {
      "entropy": 0.319459468126297,
      "epoch": 0.8274360370168753,
      "grad_norm": 0.24818798899650574,
      "learning_rate": 3.425603927673195e-05,
      "loss": 0.2909,
      "mean_token_accuracy": 0.9143448621034622,
      "num_tokens": 1540543.0,
      "step": 380
    },
    {
      "entropy": 0.29846663028001785,
      "epoch": 0.829613500272183,
      "grad_norm": 0.2553517520427704,
      "learning_rate": 3.3915521542484794e-05,
      "loss": 0.2984,
      "mean_token_accuracy": 0.9117088168859482,
      "num_tokens": 1544682.0,
      "step": 381
    },
    {
      "entropy": 0.3208995833992958,
      "epoch": 0.8317909635274905,
      "grad_norm": 0.23631241917610168,
      "learning_rate": 3.357877887207648e-05,
      "loss": 0.3218,
      "mean_token_accuracy": 0.9085069596767426,
      "num_tokens": 1548933.0,
      "step": 382
    },
    {
      "entropy": 0.3497694879770279,
      "epoch": 0.833968426782798,
      "grad_norm": 0.26314374804496765,
      "learning_rate": 3.3245827973580754e-05,
      "loss": 0.3651,
      "mean_token_accuracy": 0.8973031789064407,
      "num_tokens": 1553109.0,
      "step": 383
    },
    {
      "entropy": 0.36065296083688736,
      "epoch": 0.8361458900381056,
      "grad_norm": 0.2554258704185486,
      "learning_rate": 3.2916685366936016e-05,
      "loss": 0.3572,
      "mean_token_accuracy": 0.8984216153621674,
      "num_tokens": 1557199.0,
      "step": 384
    },
    {
      "entropy": 0.3203965201973915,
      "epoch": 0.8383233532934131,
      "grad_norm": 0.2560184597969055,
      "learning_rate": 3.259136738312565e-05,
      "loss": 0.3107,
      "mean_token_accuracy": 0.9113545119762421,
      "num_tokens": 1560942.0,
      "step": 385
    },
    {
      "entropy": 0.3545750603079796,
      "epoch": 0.8405008165487208,
      "grad_norm": 0.23520711064338684,
      "learning_rate": 3.226989016336767e-05,
      "loss": 0.3295,
      "mean_token_accuracy": 0.8977851718664169,
      "num_tokens": 1565528.0,
      "step": 386
    },
    {
      "entropy": 0.27805931866168976,
      "epoch": 0.8426782798040283,
      "grad_norm": 0.22847194969654083,
      "learning_rate": 3.1952269658313963e-05,
      "loss": 0.2647,
      "mean_token_accuracy": 0.9223105758428574,
      "num_tokens": 1569618.0,
      "step": 387
    },
    {
      "entropy": 0.36420372873544693,
      "epoch": 0.8448557430593359,
      "grad_norm": 0.2458695024251938,
      "learning_rate": 3.163852162725872e-05,
      "loss": 0.349,
      "mean_token_accuracy": 0.8980138152837753,
      "num_tokens": 1573505.0,
      "step": 388
    },
    {
      "entropy": 0.3188191279768944,
      "epoch": 0.8470332063146434,
      "grad_norm": 0.245536670088768,
      "learning_rate": 3.1328661637356714e-05,
      "loss": 0.3177,
      "mean_token_accuracy": 0.907622441649437,
      "num_tokens": 1577568.0,
      "step": 389
    },
    {
      "entropy": 0.3238792344927788,
      "epoch": 0.8492106695699511,
      "grad_norm": 0.24584944546222687,
      "learning_rate": 3.102270506285067e-05,
      "loss": 0.3085,
      "mean_token_accuracy": 0.9090628027915955,
      "num_tokens": 1581202.0,
      "step": 390
    },
    {
      "entropy": 0.34554795920848846,
      "epoch": 0.8513881328252586,
      "grad_norm": 0.24180692434310913,
      "learning_rate": 3.072066708430862e-05,
      "loss": 0.3203,
      "mean_token_accuracy": 0.9024082869291306,
      "num_tokens": 1585340.0,
      "step": 391
    },
    {
      "entropy": 0.31679805368185043,
      "epoch": 0.8535655960805661,
      "grad_norm": 0.23670694231987,
      "learning_rate": 3.042256268787063e-05,
      "loss": 0.2891,
      "mean_token_accuracy": 0.9171215295791626,
      "num_tokens": 1589570.0,
      "step": 392
    },
    {
      "entropy": 0.316896952688694,
      "epoch": 0.8557430593358737,
      "grad_norm": 0.26047396659851074,
      "learning_rate": 3.0128406664505215e-05,
      "loss": 0.3237,
      "mean_token_accuracy": 0.9058733284473419,
      "num_tokens": 1593421.0,
      "step": 393
    },
    {
      "entropy": 0.3199731484055519,
      "epoch": 0.8579205225911812,
      "grad_norm": 0.2323935478925705,
      "learning_rate": 2.9838213609275546e-05,
      "loss": 0.3018,
      "mean_token_accuracy": 0.9120573252439499,
      "num_tokens": 1597598.0,
      "step": 394
    },
    {
      "entropy": 0.29843273013830185,
      "epoch": 0.8600979858464889,
      "grad_norm": 0.2387438267469406,
      "learning_rate": 2.9551997920615187e-05,
      "loss": 0.2862,
      "mean_token_accuracy": 0.9175356030464172,
      "num_tokens": 1601591.0,
      "step": 395
    },
    {
      "entropy": 0.31333109736442566,
      "epoch": 0.8622754491017964,
      "grad_norm": 0.23580299317836761,
      "learning_rate": 2.926977379961374e-05,
      "loss": 0.3098,
      "mean_token_accuracy": 0.911782830953598,
      "num_tokens": 1606156.0,
      "step": 396
    },
    {
      "entropy": 0.32873860746622086,
      "epoch": 0.864452912357104,
      "grad_norm": 0.23804928362369537,
      "learning_rate": 2.899155524931224e-05,
      "loss": 0.3171,
      "mean_token_accuracy": 0.9060818552970886,
      "num_tokens": 1610215.0,
      "step": 397
    },
    {
      "entropy": 0.331471748650074,
      "epoch": 0.8666303756124115,
      "grad_norm": 0.22940973937511444,
      "learning_rate": 2.8717356074008345e-05,
      "loss": 0.3201,
      "mean_token_accuracy": 0.905473530292511,
      "num_tokens": 1614427.0,
      "step": 398
    },
    {
      "entropy": 0.33943046629428864,
      "epoch": 0.8688078388677191,
      "grad_norm": 0.24828903377056122,
      "learning_rate": 2.844718987857145e-05,
      "loss": 0.3408,
      "mean_token_accuracy": 0.8990557938814163,
      "num_tokens": 1618891.0,
      "step": 399
    },
    {
      "entropy": 0.33763300627470016,
      "epoch": 0.8709853021230267,
      "grad_norm": 0.25826534628868103,
      "learning_rate": 2.818107006776761e-05,
      "loss": 0.3195,
      "mean_token_accuracy": 0.9027258008718491,
      "num_tokens": 1622659.0,
      "step": 400
    },
    {
      "entropy": 0.29499682784080505,
      "epoch": 0.8731627653783343,
      "grad_norm": 0.22961440682411194,
      "learning_rate": 2.7919009845594502e-05,
      "loss": 0.2923,
      "mean_token_accuracy": 0.9152926355600357,
      "num_tokens": 1626858.0,
      "step": 401
    },
    {
      "entropy": 0.3353520557284355,
      "epoch": 0.8753402286336418,
      "grad_norm": 0.25194504857063293,
      "learning_rate": 2.7661022214626153e-05,
      "loss": 0.3207,
      "mean_token_accuracy": 0.9085413068532944,
      "num_tokens": 1630448.0,
      "step": 402
    },
    {
      "entropy": 0.29210612177848816,
      "epoch": 0.8775176918889493,
      "grad_norm": 0.2511427402496338,
      "learning_rate": 2.7407119975368006e-05,
      "loss": 0.2815,
      "mean_token_accuracy": 0.9171009808778763,
      "num_tokens": 1634411.0,
      "step": 403
    },
    {
      "entropy": 0.35340818017721176,
      "epoch": 0.8796951551442569,
      "grad_norm": 0.24676676094532013,
      "learning_rate": 2.7157315725621612e-05,
      "loss": 0.3692,
      "mean_token_accuracy": 0.905316099524498,
      "num_tokens": 1638404.0,
      "step": 404
    },
    {
      "entropy": 0.3412262871861458,
      "epoch": 0.8818726183995645,
      "grad_norm": 0.27478235960006714,
      "learning_rate": 2.6911621859859658e-05,
      "loss": 0.3472,
      "mean_token_accuracy": 0.90118607878685,
      "num_tokens": 1642162.0,
      "step": 405
    },
    {
      "entropy": 0.33481264114379883,
      "epoch": 0.8840500816548721,
      "grad_norm": 0.2933956980705261,
      "learning_rate": 2.6670050568610972e-05,
      "loss": 0.3248,
      "mean_token_accuracy": 0.9072499722242355,
      "num_tokens": 1646171.0,
      "step": 406
    },
    {
      "entropy": 0.3591442406177521,
      "epoch": 0.8862275449101796,
      "grad_norm": 0.21709908545017242,
      "learning_rate": 2.6432613837855658e-05,
      "loss": 0.3407,
      "mean_token_accuracy": 0.9071426689624786,
      "num_tokens": 1650504.0,
      "step": 407
    },
    {
      "entropy": 0.32970624417066574,
      "epoch": 0.8884050081654872,
      "grad_norm": 0.23687736690044403,
      "learning_rate": 2.6199323448430458e-05,
      "loss": 0.3135,
      "mean_token_accuracy": 0.903979942202568,
      "num_tokens": 1654507.0,
      "step": 408
    },
    {
      "entropy": 0.3415728807449341,
      "epoch": 0.8905824714207947,
      "grad_norm": 0.2553468644618988,
      "learning_rate": 2.597019097544409e-05,
      "loss": 0.3039,
      "mean_token_accuracy": 0.9025170505046844,
      "num_tokens": 1658421.0,
      "step": 409
    },
    {
      "entropy": 0.29549212008714676,
      "epoch": 0.8927599346761024,
      "grad_norm": 0.21464505791664124,
      "learning_rate": 2.574522778770308e-05,
      "loss": 0.2634,
      "mean_token_accuracy": 0.9200884401798248,
      "num_tokens": 1662809.0,
      "step": 410
    },
    {
      "entropy": 0.3326757438480854,
      "epoch": 0.8949373979314099,
      "grad_norm": 0.23331218957901,
      "learning_rate": 2.5524445047147567e-05,
      "loss": 0.319,
      "mean_token_accuracy": 0.900556892156601,
      "num_tokens": 1667221.0,
      "step": 411
    },
    {
      "entropy": 0.31935854256153107,
      "epoch": 0.8971148611867175,
      "grad_norm": 0.23457299172878265,
      "learning_rate": 2.5307853708297523e-05,
      "loss": 0.3045,
      "mean_token_accuracy": 0.9045213311910629,
      "num_tokens": 1671381.0,
      "step": 412
    },
    {
      "entropy": 0.3340509235858917,
      "epoch": 0.899292324442025,
      "grad_norm": 0.23886168003082275,
      "learning_rate": 2.5095464517709277e-05,
      "loss": 0.3264,
      "mean_token_accuracy": 0.899304986000061,
      "num_tokens": 1675656.0,
      "step": 413
    },
    {
      "entropy": 0.3181797042489052,
      "epoch": 0.9014697876973327,
      "grad_norm": 0.24742458760738373,
      "learning_rate": 2.4887288013442218e-05,
      "loss": 0.2988,
      "mean_token_accuracy": 0.9066351801156998,
      "num_tokens": 1679259.0,
      "step": 414
    },
    {
      "entropy": 0.3163676857948303,
      "epoch": 0.9036472509526402,
      "grad_norm": 0.25340980291366577,
      "learning_rate": 2.468333452453597e-05,
      "loss": 0.2979,
      "mean_token_accuracy": 0.9118978530168533,
      "num_tokens": 1683245.0,
      "step": 415
    },
    {
      "entropy": 0.30397678166627884,
      "epoch": 0.9058247142079477,
      "grad_norm": 0.2358277142047882,
      "learning_rate": 2.4483614170497916e-05,
      "loss": 0.2955,
      "mean_token_accuracy": 0.9145314395427704,
      "num_tokens": 1687531.0,
      "step": 416
    },
    {
      "entropy": 0.34245041757822037,
      "epoch": 0.9080021774632553,
      "grad_norm": 0.23215466737747192,
      "learning_rate": 2.4288136860801048e-05,
      "loss": 0.326,
      "mean_token_accuracy": 0.9006476998329163,
      "num_tokens": 1692172.0,
      "step": 417
    },
    {
      "entropy": 0.3470025435090065,
      "epoch": 0.9101796407185628,
      "grad_norm": 0.26786699891090393,
      "learning_rate": 2.409691229439239e-05,
      "loss": 0.3668,
      "mean_token_accuracy": 0.8918263465166092,
      "num_tokens": 1696141.0,
      "step": 418
    },
    {
      "entropy": 0.30502913892269135,
      "epoch": 0.9123571039738705,
      "grad_norm": 0.23780497908592224,
      "learning_rate": 2.3909949959211657e-05,
      "loss": 0.2906,
      "mean_token_accuracy": 0.9070711433887482,
      "num_tokens": 1700408.0,
      "step": 419
    },
    {
      "entropy": 0.3096166178584099,
      "epoch": 0.914534567229178,
      "grad_norm": 0.21969804167747498,
      "learning_rate": 2.372725913172055e-05,
      "loss": 0.32,
      "mean_token_accuracy": 0.9115228056907654,
      "num_tokens": 1704797.0,
      "step": 420
    },
    {
      "entropy": 0.30217302590608597,
      "epoch": 0.9167120304844856,
      "grad_norm": 0.23517285287380219,
      "learning_rate": 2.3548848876442465e-05,
      "loss": 0.2789,
      "mean_token_accuracy": 0.9120800346136093,
      "num_tokens": 1708762.0,
      "step": 421
    },
    {
      "entropy": 0.27675122022628784,
      "epoch": 0.9188894937397931,
      "grad_norm": 0.2593907415866852,
      "learning_rate": 2.337472804551281e-05,
      "loss": 0.2552,
      "mean_token_accuracy": 0.9166678935289383,
      "num_tokens": 1712763.0,
      "step": 422
    },
    {
      "entropy": 0.31945841014385223,
      "epoch": 0.9210669569951007,
      "grad_norm": 0.22665663063526154,
      "learning_rate": 2.320490527823968e-05,
      "loss": 0.322,
      "mean_token_accuracy": 0.9008611887693405,
      "num_tokens": 1717586.0,
      "step": 423
    },
    {
      "entropy": 0.28783877938985825,
      "epoch": 0.9232444202504083,
      "grad_norm": 0.2106105536222458,
      "learning_rate": 2.303938900067531e-05,
      "loss": 0.2571,
      "mean_token_accuracy": 0.9197226613759995,
      "num_tokens": 1722046.0,
      "step": 424
    },
    {
      "entropy": 0.31481262296438217,
      "epoch": 0.9254218835057159,
      "grad_norm": 0.24338746070861816,
      "learning_rate": 2.2878187425197893e-05,
      "loss": 0.3072,
      "mean_token_accuracy": 0.9047886729240417,
      "num_tokens": 1726207.0,
      "step": 425
    },
    {
      "entropy": 0.35147786885499954,
      "epoch": 0.9275993467610234,
      "grad_norm": 0.2515200078487396,
      "learning_rate": 2.272130855010421e-05,
      "loss": 0.3496,
      "mean_token_accuracy": 0.8965179175138474,
      "num_tokens": 1730155.0,
      "step": 426
    },
    {
      "entropy": 0.36182061582803726,
      "epoch": 0.929776810016331,
      "grad_norm": 0.2628372609615326,
      "learning_rate": 2.2568760159212745e-05,
      "loss": 0.3187,
      "mean_token_accuracy": 0.9001797884702682,
      "num_tokens": 1733927.0,
      "step": 427
    },
    {
      "entropy": 0.32963769882917404,
      "epoch": 0.9319542732716385,
      "grad_norm": 0.26346680521965027,
      "learning_rate": 2.2420549821477435e-05,
      "loss": 0.311,
      "mean_token_accuracy": 0.9040227830410004,
      "num_tokens": 1737774.0,
      "step": 428
    },
    {
      "entropy": 0.37061919271945953,
      "epoch": 0.9341317365269461,
      "grad_norm": 0.2579784691333771,
      "learning_rate": 2.227668489061219e-05,
      "loss": 0.3676,
      "mean_token_accuracy": 0.8960554301738739,
      "num_tokens": 1741942.0,
      "step": 429
    },
    {
      "entropy": 0.3078198730945587,
      "epoch": 0.9363091997822537,
      "grad_norm": 0.24415822327136993,
      "learning_rate": 2.2137172504725956e-05,
      "loss": 0.2881,
      "mean_token_accuracy": 0.912653386592865,
      "num_tokens": 1745914.0,
      "step": 430
    },
    {
      "entropy": 0.3296479806303978,
      "epoch": 0.9384866630375612,
      "grad_norm": 0.25575825572013855,
      "learning_rate": 2.2002019585968637e-05,
      "loss": 0.3096,
      "mean_token_accuracy": 0.9089950323104858,
      "num_tokens": 1749929.0,
      "step": 431
    },
    {
      "entropy": 0.3241398259997368,
      "epoch": 0.9406641262928688,
      "grad_norm": 0.2516978085041046,
      "learning_rate": 2.187123284018753e-05,
      "loss": 0.3186,
      "mean_token_accuracy": 0.9034547358751297,
      "num_tokens": 1753992.0,
      "step": 432
    },
    {
      "entropy": 0.3980755880475044,
      "epoch": 0.9428415895481764,
      "grad_norm": 0.24856629967689514,
      "learning_rate": 2.174481875659472e-05,
      "loss": 0.3749,
      "mean_token_accuracy": 0.8908516466617584,
      "num_tokens": 1758062.0,
      "step": 433
    },
    {
      "entropy": 0.3143734037876129,
      "epoch": 0.945019052803484,
      "grad_norm": 0.25844618678092957,
      "learning_rate": 2.1622783607444988e-05,
      "loss": 0.2784,
      "mean_token_accuracy": 0.922119140625,
      "num_tokens": 1761689.0,
      "step": 434
    },
    {
      "entropy": 0.3378266841173172,
      "epoch": 0.9471965160587915,
      "grad_norm": 0.24213889241218567,
      "learning_rate": 2.150513344772469e-05,
      "loss": 0.3155,
      "mean_token_accuracy": 0.9061428606510162,
      "num_tokens": 1766010.0,
      "step": 435
    },
    {
      "entropy": 0.35330820083618164,
      "epoch": 0.9493739793140991,
      "grad_norm": 0.2620498836040497,
      "learning_rate": 2.1391874114851294e-05,
      "loss": 0.3583,
      "mean_token_accuracy": 0.9004585295915604,
      "num_tokens": 1769801.0,
      "step": 436
    },
    {
      "entropy": 0.2881145551800728,
      "epoch": 0.9515514425694066,
      "grad_norm": 0.24421681463718414,
      "learning_rate": 2.128301122838377e-05,
      "loss": 0.3026,
      "mean_token_accuracy": 0.9104648381471634,
      "num_tokens": 1774342.0,
      "step": 437
    },
    {
      "entropy": 0.3526333123445511,
      "epoch": 0.9537289058247143,
      "grad_norm": 0.2302054911851883,
      "learning_rate": 2.117855018974369e-05,
      "loss": 0.3199,
      "mean_token_accuracy": 0.9067949205636978,
      "num_tokens": 1778412.0,
      "step": 438
    },
    {
      "entropy": 0.32418397441506386,
      "epoch": 0.9559063690800218,
      "grad_norm": 0.21741004288196564,
      "learning_rate": 2.107849618194735e-05,
      "loss": 0.3114,
      "mean_token_accuracy": 0.9031261652708054,
      "num_tokens": 1782995.0,
      "step": 439
    },
    {
      "entropy": 0.30877869576215744,
      "epoch": 0.9580838323353293,
      "grad_norm": 0.23063865303993225,
      "learning_rate": 2.0982854169348503e-05,
      "loss": 0.2949,
      "mean_token_accuracy": 0.9094719737768173,
      "num_tokens": 1787537.0,
      "step": 440
    },
    {
      "entropy": 0.3279525935649872,
      "epoch": 0.9602612955906369,
      "grad_norm": 0.2691234350204468,
      "learning_rate": 2.0891628897392087e-05,
      "loss": 0.345,
      "mean_token_accuracy": 0.8982786238193512,
      "num_tokens": 1791355.0,
      "step": 441
    },
    {
      "entropy": 0.3470368981361389,
      "epoch": 0.9624387588459444,
      "grad_norm": 0.26819464564323425,
      "learning_rate": 2.0804824892378765e-05,
      "loss": 0.3414,
      "mean_token_accuracy": 0.9030001610517502,
      "num_tokens": 1795467.0,
      "step": 442
    },
    {
      "entropy": 0.3493390902876854,
      "epoch": 0.9646162221012521,
      "grad_norm": 0.23444399237632751,
      "learning_rate": 2.0722446461240352e-05,
      "loss": 0.3442,
      "mean_token_accuracy": 0.8999157398939133,
      "num_tokens": 1800109.0,
      "step": 443
    },
    {
      "entropy": 0.3092813342809677,
      "epoch": 0.9667936853565596,
      "grad_norm": 0.23800377547740936,
      "learning_rate": 2.0644497691326106e-05,
      "loss": 0.2999,
      "mean_token_accuracy": 0.9111448973417282,
      "num_tokens": 1804018.0,
      "step": 444
    },
    {
      "entropy": 0.29666490107774734,
      "epoch": 0.9689711486118672,
      "grad_norm": 0.22874487936496735,
      "learning_rate": 2.0570982450199913e-05,
      "loss": 0.2858,
      "mean_token_accuracy": 0.9175421446561813,
      "num_tokens": 1808059.0,
      "step": 445
    },
    {
      "entropy": 0.3779358044266701,
      "epoch": 0.9711486118671747,
      "grad_norm": 0.2360084503889084,
      "learning_rate": 2.0501904385448447e-05,
      "loss": 0.3668,
      "mean_token_accuracy": 0.9037110358476639,
      "num_tokens": 1812165.0,
      "step": 446
    },
    {
      "entropy": 0.3430086299777031,
      "epoch": 0.9733260751224823,
      "grad_norm": 0.2596234679222107,
      "learning_rate": 2.043726692450014e-05,
      "loss": 0.3233,
      "mean_token_accuracy": 0.9003089815378189,
      "num_tokens": 1815708.0,
      "step": 447
    },
    {
      "entropy": 0.3329969719052315,
      "epoch": 0.9755035383777899,
      "grad_norm": 0.25411558151245117,
      "learning_rate": 2.037707327445511e-05,
      "loss": 0.3299,
      "mean_token_accuracy": 0.9008579254150391,
      "num_tokens": 1819635.0,
      "step": 448
    },
    {
      "entropy": 0.3378527835011482,
      "epoch": 0.9776810016330975,
      "grad_norm": 0.2512282431125641,
      "learning_rate": 2.0321326421926097e-05,
      "loss": 0.3325,
      "mean_token_accuracy": 0.9022142142057419,
      "num_tokens": 1823694.0,
      "step": 449
    },
    {
      "entropy": 0.34048717468976974,
      "epoch": 0.979858464888405,
      "grad_norm": 0.24113033711910248,
      "learning_rate": 2.0270029132890223e-05,
      "loss": 0.344,
      "mean_token_accuracy": 0.9008767306804657,
      "num_tokens": 1827735.0,
      "step": 450
    },
    {
      "entropy": 0.3050212487578392,
      "epoch": 0.9820359281437125,
      "grad_norm": 0.21851961314678192,
      "learning_rate": 2.0223183952551785e-05,
      "loss": 0.2795,
      "mean_token_accuracy": 0.917202040553093,
      "num_tokens": 1831884.0,
      "step": 451
    },
    {
      "entropy": 0.3319382965564728,
      "epoch": 0.9842133913990201,
      "grad_norm": 0.24525989592075348,
      "learning_rate": 2.018079320521593e-05,
      "loss": 0.3079,
      "mean_token_accuracy": 0.9144886583089828,
      "num_tokens": 1835507.0,
      "step": 452
    },
    {
      "entropy": 0.34535887837409973,
      "epoch": 0.9863908546543277,
      "grad_norm": 0.2506140172481537,
      "learning_rate": 2.0142858994173404e-05,
      "loss": 0.3436,
      "mean_token_accuracy": 0.9002240151166916,
      "num_tokens": 1839606.0,
      "step": 453
    },
    {
      "entropy": 0.3276618719100952,
      "epoch": 0.9885683179096353,
      "grad_norm": 0.2481948435306549,
      "learning_rate": 2.0109383201596102e-05,
      "loss": 0.3105,
      "mean_token_accuracy": 0.9108982384204865,
      "num_tokens": 1843500.0,
      "step": 454
    },
    {
      "entropy": 0.3270680084824562,
      "epoch": 0.9907457811649428,
      "grad_norm": 0.2625768780708313,
      "learning_rate": 2.0080367488443743e-05,
      "loss": 0.328,
      "mean_token_accuracy": 0.9026461988687515,
      "num_tokens": 1847739.0,
      "step": 455
    },
    {
      "entropy": 0.34614715725183487,
      "epoch": 0.9929232444202504,
      "grad_norm": 0.2605029046535492,
      "learning_rate": 2.0055813294381443e-05,
      "loss": 0.3467,
      "mean_token_accuracy": 0.9046141803264618,
      "num_tokens": 1851928.0,
      "step": 456
    },
    {
      "entropy": 0.284773550927639,
      "epoch": 0.995100707675558,
      "grad_norm": 0.22357277572155,
      "learning_rate": 2.00357218377083e-05,
      "loss": 0.2689,
      "mean_token_accuracy": 0.9219858795404434,
      "num_tokens": 1856283.0,
      "step": 457
    },
    {
      "entropy": 0.356322281062603,
      "epoch": 0.9972781709308656,
      "grad_norm": 0.23450958728790283,
      "learning_rate": 2.0020094115296876e-05,
      "loss": 0.3562,
      "mean_token_accuracy": 0.9017274230718613,
      "num_tokens": 1861007.0,
      "step": 458
    },
    {
      "entropy": 0.2814597636461258,
      "epoch": 0.9994556341861731,
      "grad_norm": 0.2359769642353058,
      "learning_rate": 2.0008930902543854e-05,
      "loss": 0.2653,
      "mean_token_accuracy": 0.9179674088954926,
      "num_tokens": 1865010.0,
      "step": 459
    },
    {
      "entropy": 0.42821022868156433,
      "epoch": 1.0,
      "grad_norm": 0.8799027800559998,
      "learning_rate": 2.0002232753331453e-05,
      "loss": 0.4353,
      "mean_token_accuracy": 0.8921568393707275,
      "num_tokens": 1865318.0,
      "step": 460
    }
  ],
  "logging_steps": 1,
  "max_steps": 460,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.0112748518481592e+18,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}