{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 804,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "entropy": 1.1245547831058502,
      "epoch": 0.0037313432835820895,
      "grad_norm": 1.6273682117462158,
      "learning_rate": 0.0002,
      "loss": 2.482689619064331,
      "mean_token_accuracy": 0.5370704382658005,
      "num_tokens": 16322.0,
      "step": 1
    },
    {
      "entropy": 1.2366806268692017,
      "epoch": 0.007462686567164179,
      "grad_norm": 1.4647141695022583,
      "learning_rate": 0.0002,
      "loss": 2.1726250648498535,
      "mean_token_accuracy": 0.5635550767183304,
      "num_tokens": 32624.0,
      "step": 2
    },
    {
      "entropy": 1.3885400295257568,
      "epoch": 0.011194029850746268,
      "grad_norm": 1.1605029106140137,
      "learning_rate": 0.0002,
      "loss": 1.7200348377227783,
      "mean_token_accuracy": 0.596715897321701,
      "num_tokens": 48781.0,
      "step": 3
    },
    {
      "entropy": 1.3746764063835144,
      "epoch": 0.014925373134328358,
      "grad_norm": 0.932724118232727,
      "learning_rate": 0.0002,
      "loss": 1.4033262729644775,
      "mean_token_accuracy": 0.6351611912250519,
      "num_tokens": 65119.0,
      "step": 4
    },
    {
      "entropy": 1.3346630930900574,
      "epoch": 0.018656716417910446,
      "grad_norm": 1.0168325901031494,
      "learning_rate": 0.0002,
      "loss": 1.2731056213378906,
      "mean_token_accuracy": 0.6540397107601166,
      "num_tokens": 81735.0,
      "step": 5
    },
    {
      "entropy": 1.2580328285694122,
      "epoch": 0.022388059701492536,
      "grad_norm": 0.5265628695487976,
      "learning_rate": 0.0002,
      "loss": 1.1689575910568237,
      "mean_token_accuracy": 0.6603054255247116,
      "num_tokens": 98081.0,
      "step": 6
    },
    {
      "entropy": 1.1583980917930603,
      "epoch": 0.026119402985074626,
      "grad_norm": 0.4118923842906952,
      "learning_rate": 0.0002,
      "loss": 1.078832983970642,
      "mean_token_accuracy": 0.6707835346460342,
      "num_tokens": 114185.0,
      "step": 7
    },
    {
      "entropy": 1.0589762330055237,
      "epoch": 0.029850746268656716,
      "grad_norm": 0.41156867146492004,
      "learning_rate": 0.0002,
      "loss": 1.0044282674789429,
      "mean_token_accuracy": 0.6823764145374298,
      "num_tokens": 130498.0,
      "step": 8
    },
    {
      "entropy": 0.9924780577421188,
      "epoch": 0.033582089552238806,
      "grad_norm": 0.5590541362762451,
      "learning_rate": 0.0002,
      "loss": 0.9619787931442261,
      "mean_token_accuracy": 0.6892934292554855,
      "num_tokens": 146820.0,
      "step": 9
    },
    {
      "entropy": 0.9725948423147202,
      "epoch": 0.03731343283582089,
      "grad_norm": 0.4368315637111664,
      "learning_rate": 0.0002,
      "loss": 0.8887773752212524,
      "mean_token_accuracy": 0.7022321075201035,
      "num_tokens": 163228.0,
      "step": 10
    },
    {
      "entropy": 0.9371236711740494,
      "epoch": 0.041044776119402986,
      "grad_norm": 0.43285107612609863,
      "learning_rate": 0.0002,
      "loss": 0.8475317358970642,
      "mean_token_accuracy": 0.706597164273262,
      "num_tokens": 179681.0,
      "step": 11
    },
    {
      "entropy": 0.8875125199556351,
      "epoch": 0.04477611940298507,
      "grad_norm": 6.3542633056640625,
      "learning_rate": 0.0002,
      "loss": 0.8327640295028687,
      "mean_token_accuracy": 0.7034512162208557,
      "num_tokens": 196348.0,
      "step": 12
    },
    {
      "entropy": 0.8179645836353302,
      "epoch": 0.048507462686567165,
      "grad_norm": 0.44303053617477417,
      "learning_rate": 0.0002,
      "loss": 0.7809244394302368,
      "mean_token_accuracy": 0.7242531627416611,
      "num_tokens": 213052.0,
      "step": 13
    },
    {
      "entropy": 0.7955248355865479,
      "epoch": 0.05223880597014925,
      "grad_norm": 0.8472722172737122,
      "learning_rate": 0.0002,
      "loss": 0.7439039945602417,
      "mean_token_accuracy": 0.7328712791204453,
      "num_tokens": 229644.0,
      "step": 14
    },
    {
      "entropy": 0.7496374696493149,
      "epoch": 0.055970149253731345,
      "grad_norm": 2.1060233116149902,
      "learning_rate": 0.0002,
      "loss": 0.7229201793670654,
      "mean_token_accuracy": 0.7347650229930878,
      "num_tokens": 246138.0,
      "step": 15
    },
    {
      "entropy": 0.6943426132202148,
      "epoch": 0.05970149253731343,
      "grad_norm": 0.4210701882839203,
      "learning_rate": 0.0002,
      "loss": 0.6997749209403992,
      "mean_token_accuracy": 0.7390953898429871,
      "num_tokens": 262489.0,
      "step": 16
    },
    {
      "entropy": 0.689127504825592,
      "epoch": 0.06343283582089553,
      "grad_norm": 0.3434777855873108,
      "learning_rate": 0.0002,
      "loss": 0.6818345189094543,
      "mean_token_accuracy": 0.7421105057001114,
      "num_tokens": 278800.0,
      "step": 17
    },
    {
      "entropy": 0.6688047796487808,
      "epoch": 0.06716417910447761,
      "grad_norm": 0.43096405267715454,
      "learning_rate": 0.0002,
      "loss": 0.65822833776474,
      "mean_token_accuracy": 0.7513366043567657,
      "num_tokens": 295153.0,
      "step": 18
    },
    {
      "entropy": 0.6683900207281113,
      "epoch": 0.0708955223880597,
      "grad_norm": 0.2875062823295593,
      "learning_rate": 0.0002,
      "loss": 0.6513902544975281,
      "mean_token_accuracy": 0.7488225400447845,
      "num_tokens": 311631.0,
      "step": 19
    },
    {
      "entropy": 0.6681984066963196,
      "epoch": 0.07462686567164178,
      "grad_norm": 0.34322109818458557,
      "learning_rate": 0.0002,
      "loss": 0.6516908407211304,
      "mean_token_accuracy": 0.7477276474237442,
      "num_tokens": 327810.0,
      "step": 20
    },
    {
      "entropy": 0.657578319311142,
      "epoch": 0.07835820895522388,
      "grad_norm": 0.3035106360912323,
      "learning_rate": 0.0002,
      "loss": 0.6391871571540833,
      "mean_token_accuracy": 0.7518605440855026,
      "num_tokens": 344148.0,
      "step": 21
    },
    {
      "entropy": 0.6416258066892624,
      "epoch": 0.08208955223880597,
      "grad_norm": 0.2896852493286133,
      "learning_rate": 0.0002,
      "loss": 0.6108838319778442,
      "mean_token_accuracy": 0.7639093101024628,
      "num_tokens": 360467.0,
      "step": 22
    },
    {
      "entropy": 0.6126270890235901,
      "epoch": 0.08582089552238806,
      "grad_norm": 0.28889304399490356,
      "learning_rate": 0.0002,
      "loss": 0.5967156887054443,
      "mean_token_accuracy": 0.7673086673021317,
      "num_tokens": 376740.0,
      "step": 23
    },
    {
      "entropy": 0.607315257191658,
      "epoch": 0.08955223880597014,
      "grad_norm": 0.26258257031440735,
      "learning_rate": 0.0002,
      "loss": 0.5931278467178345,
      "mean_token_accuracy": 0.7683079540729523,
      "num_tokens": 393035.0,
      "step": 24
    },
    {
      "entropy": 0.6071023941040039,
      "epoch": 0.09328358208955224,
      "grad_norm": 0.2627218961715698,
      "learning_rate": 0.0002,
      "loss": 0.5975178480148315,
      "mean_token_accuracy": 0.7655056416988373,
      "num_tokens": 409513.0,
      "step": 25
    },
    {
      "entropy": 0.6166605055332184,
      "epoch": 0.09701492537313433,
      "grad_norm": 0.2591419517993927,
      "learning_rate": 0.0002,
      "loss": 0.6048401594161987,
      "mean_token_accuracy": 0.7606765776872635,
      "num_tokens": 425838.0,
      "step": 26
    },
    {
      "entropy": 0.5888677388429642,
      "epoch": 0.10074626865671642,
      "grad_norm": 0.23267361521720886,
      "learning_rate": 0.0002,
      "loss": 0.5792773365974426,
      "mean_token_accuracy": 0.7714710682630539,
      "num_tokens": 442275.0,
      "step": 27
    },
    {
      "entropy": 0.6097696423530579,
      "epoch": 0.1044776119402985,
      "grad_norm": 0.25834810733795166,
      "learning_rate": 0.0002,
      "loss": 0.6025165915489197,
      "mean_token_accuracy": 0.7594742327928543,
      "num_tokens": 458633.0,
      "step": 28
    },
    {
      "entropy": 0.5876014679670334,
      "epoch": 0.10820895522388059,
      "grad_norm": 0.24802696704864502,
      "learning_rate": 0.0002,
      "loss": 0.577584445476532,
      "mean_token_accuracy": 0.7709765136241913,
      "num_tokens": 475114.0,
      "step": 29
    },
    {
      "entropy": 0.577396959066391,
      "epoch": 0.11194029850746269,
      "grad_norm": 0.24076423048973083,
      "learning_rate": 0.0002,
      "loss": 0.5727118849754333,
      "mean_token_accuracy": 0.7744314223527908,
      "num_tokens": 491389.0,
      "step": 30
    },
    {
      "entropy": 0.5895106196403503,
      "epoch": 0.11567164179104478,
      "grad_norm": 0.21412523090839386,
      "learning_rate": 0.0002,
      "loss": 0.5863120555877686,
      "mean_token_accuracy": 0.7693659514188766,
      "num_tokens": 507969.0,
      "step": 31
    },
    {
      "entropy": 0.5717187374830246,
      "epoch": 0.11940298507462686,
      "grad_norm": 0.1944267749786377,
      "learning_rate": 0.0002,
      "loss": 0.568047046661377,
      "mean_token_accuracy": 0.7752875536680222,
      "num_tokens": 524169.0,
      "step": 32
    },
    {
      "entropy": 0.5736564546823502,
      "epoch": 0.12313432835820895,
      "grad_norm": 0.23050418496131897,
      "learning_rate": 0.0002,
      "loss": 0.5761005282402039,
      "mean_token_accuracy": 0.7727629542350769,
      "num_tokens": 540463.0,
      "step": 33
    },
    {
      "entropy": 0.589300200343132,
      "epoch": 0.12686567164179105,
      "grad_norm": 0.21381224691867828,
      "learning_rate": 0.0002,
      "loss": 0.5865699052810669,
      "mean_token_accuracy": 0.7672912329435349,
      "num_tokens": 557025.0,
      "step": 34
    },
    {
      "entropy": 0.5663471221923828,
      "epoch": 0.13059701492537312,
      "grad_norm": 0.21070359647274017,
      "learning_rate": 0.0002,
      "loss": 0.5665886998176575,
      "mean_token_accuracy": 0.7742704451084137,
      "num_tokens": 573346.0,
      "step": 35
    },
    {
      "entropy": 0.5744731575250626,
      "epoch": 0.13432835820895522,
      "grad_norm": 0.2001814991235733,
      "learning_rate": 0.0002,
      "loss": 0.5742104649543762,
      "mean_token_accuracy": 0.7708545625209808,
      "num_tokens": 589678.0,
      "step": 36
    },
    {
      "entropy": 0.5785809606313705,
      "epoch": 0.13805970149253732,
      "grad_norm": 0.1615011990070343,
      "learning_rate": 0.0002,
      "loss": 0.5697225332260132,
      "mean_token_accuracy": 0.7719135135412216,
      "num_tokens": 606081.0,
      "step": 37
    },
    {
      "entropy": 0.5571976453065872,
      "epoch": 0.1417910447761194,
      "grad_norm": 0.1849016547203064,
      "learning_rate": 0.0002,
      "loss": 0.5493215322494507,
      "mean_token_accuracy": 0.7809059321880341,
      "num_tokens": 622168.0,
      "step": 38
    },
    {
      "entropy": 0.5916045606136322,
      "epoch": 0.1455223880597015,
      "grad_norm": 0.19314663112163544,
      "learning_rate": 0.0002,
      "loss": 0.5800106525421143,
      "mean_token_accuracy": 0.7677847892045975,
      "num_tokens": 638480.0,
      "step": 39
    },
    {
      "entropy": 0.5791963338851929,
      "epoch": 0.14925373134328357,
      "grad_norm": 0.18138627707958221,
      "learning_rate": 0.0002,
      "loss": 0.5779139399528503,
      "mean_token_accuracy": 0.767883911728859,
      "num_tokens": 654651.0,
      "step": 40
    },
    {
      "entropy": 0.5743307769298553,
      "epoch": 0.15298507462686567,
      "grad_norm": 0.17246870696544647,
      "learning_rate": 0.0002,
      "loss": 0.5706084370613098,
      "mean_token_accuracy": 0.7700994461774826,
      "num_tokens": 670948.0,
      "step": 41
    },
    {
      "entropy": 0.5432448089122772,
      "epoch": 0.15671641791044777,
      "grad_norm": 0.19110122323036194,
      "learning_rate": 0.0002,
      "loss": 0.5484994649887085,
      "mean_token_accuracy": 0.7811570912599564,
      "num_tokens": 687540.0,
      "step": 42
    },
    {
      "entropy": 0.5750848650932312,
      "epoch": 0.16044776119402984,
      "grad_norm": 0.1716981679201126,
      "learning_rate": 0.0002,
      "loss": 0.579657793045044,
      "mean_token_accuracy": 0.7663937658071518,
      "num_tokens": 704015.0,
      "step": 43
    },
    {
      "entropy": 0.561103492975235,
      "epoch": 0.16417910447761194,
      "grad_norm": 0.1821409910917282,
      "learning_rate": 0.0002,
      "loss": 0.5600441098213196,
      "mean_token_accuracy": 0.774185299873352,
      "num_tokens": 720451.0,
      "step": 44
    },
    {
      "entropy": 0.5737239718437195,
      "epoch": 0.16791044776119404,
      "grad_norm": 0.174806609749794,
      "learning_rate": 0.0002,
      "loss": 0.5676751732826233,
      "mean_token_accuracy": 0.770918071269989,
      "num_tokens": 736682.0,
      "step": 45
    },
    {
      "entropy": 0.5712144523859024,
      "epoch": 0.17164179104477612,
      "grad_norm": 0.18145714700222015,
      "learning_rate": 0.0002,
      "loss": 0.5659744143486023,
      "mean_token_accuracy": 0.7729035317897797,
      "num_tokens": 753217.0,
      "step": 46
    },
    {
      "entropy": 0.5745559930801392,
      "epoch": 0.17537313432835822,
      "grad_norm": 0.1639634072780609,
      "learning_rate": 0.0002,
      "loss": 0.5735749006271362,
      "mean_token_accuracy": 0.770696684718132,
      "num_tokens": 769822.0,
      "step": 47
    },
    {
      "entropy": 0.5605441480875015,
      "epoch": 0.1791044776119403,
      "grad_norm": 0.18234604597091675,
      "learning_rate": 0.0002,
      "loss": 0.5633875131607056,
      "mean_token_accuracy": 0.7749416828155518,
      "num_tokens": 786359.0,
      "step": 48
    },
    {
      "entropy": 0.5490550547838211,
      "epoch": 0.1828358208955224,
      "grad_norm": 0.18433044850826263,
      "learning_rate": 0.0002,
      "loss": 0.5567543506622314,
      "mean_token_accuracy": 0.7788835614919662,
      "num_tokens": 802963.0,
      "step": 49
    },
    {
      "entropy": 0.5616811364889145,
      "epoch": 0.1865671641791045,
      "grad_norm": 0.15450991690158844,
      "learning_rate": 0.0002,
      "loss": 0.5657309889793396,
      "mean_token_accuracy": 0.774708479642868,
      "num_tokens": 819668.0,
      "step": 50
    },
    {
      "entropy": 0.5582916140556335,
      "epoch": 0.19029850746268656,
      "grad_norm": 0.14035002887248993,
      "learning_rate": 0.0002,
      "loss": 0.551848828792572,
      "mean_token_accuracy": 0.7806462794542313,
      "num_tokens": 835858.0,
      "step": 51
    },
    {
      "entropy": 0.5508538037538528,
      "epoch": 0.19402985074626866,
      "grad_norm": 0.17560449242591858,
      "learning_rate": 0.0002,
      "loss": 0.5406010150909424,
      "mean_token_accuracy": 0.7840944528579712,
      "num_tokens": 852146.0,
      "step": 52
    },
    {
      "entropy": 0.5527998208999634,
      "epoch": 0.19776119402985073,
      "grad_norm": 0.15798722207546234,
      "learning_rate": 0.0002,
      "loss": 0.5423352718353271,
      "mean_token_accuracy": 0.782536968588829,
      "num_tokens": 868660.0,
      "step": 53
    },
    {
      "entropy": 0.5586383640766144,
      "epoch": 0.20149253731343283,
      "grad_norm": 0.15477648377418518,
      "learning_rate": 0.0002,
      "loss": 0.5521284937858582,
      "mean_token_accuracy": 0.7778433710336685,
      "num_tokens": 885133.0,
      "step": 54
    },
    {
      "entropy": 0.5694690942764282,
      "epoch": 0.20522388059701493,
      "grad_norm": 0.16944538056850433,
      "learning_rate": 0.0002,
      "loss": 0.5759178400039673,
      "mean_token_accuracy": 0.7684573978185654,
      "num_tokens": 901816.0,
      "step": 55
    },
    {
      "entropy": 0.5426557958126068,
      "epoch": 0.208955223880597,
      "grad_norm": 0.16989077627658844,
      "learning_rate": 0.0002,
      "loss": 0.5477243661880493,
      "mean_token_accuracy": 0.7811359614133835,
      "num_tokens": 918275.0,
      "step": 56
    },
    {
      "entropy": 0.5754421502351761,
      "epoch": 0.2126865671641791,
      "grad_norm": 0.15350034832954407,
      "learning_rate": 0.0002,
      "loss": 0.5865313410758972,
      "mean_token_accuracy": 0.7631517648696899,
      "num_tokens": 934630.0,
      "step": 57
    },
    {
      "entropy": 0.5742448717355728,
      "epoch": 0.21641791044776118,
      "grad_norm": 0.18639785051345825,
      "learning_rate": 0.0002,
      "loss": 0.575249433517456,
      "mean_token_accuracy": 0.7669856697320938,
      "num_tokens": 950844.0,
      "step": 58
    },
    {
      "entropy": 0.5708972364664078,
      "epoch": 0.22014925373134328,
      "grad_norm": 0.15229687094688416,
      "learning_rate": 0.0002,
      "loss": 0.5669128894805908,
      "mean_token_accuracy": 0.7711773067712784,
      "num_tokens": 966973.0,
      "step": 59
    },
    {
      "entropy": 0.5682551562786102,
      "epoch": 0.22388059701492538,
      "grad_norm": 0.1677161157131195,
      "learning_rate": 0.0002,
      "loss": 0.5593635439872742,
      "mean_token_accuracy": 0.7725416421890259,
      "num_tokens": 983221.0,
      "step": 60
    },
    {
      "entropy": 0.5679890364408493,
      "epoch": 0.22761194029850745,
      "grad_norm": 0.18057392537593842,
      "learning_rate": 0.0002,
      "loss": 0.5580260753631592,
      "mean_token_accuracy": 0.7754660546779633,
      "num_tokens": 999424.0,
      "step": 61
    },
    {
      "entropy": 0.5804609507322311,
      "epoch": 0.23134328358208955,
      "grad_norm": 0.143987238407135,
      "learning_rate": 0.0002,
      "loss": 0.570034384727478,
      "mean_token_accuracy": 0.7708772122859955,
      "num_tokens": 1015903.0,
      "step": 62
    },
    {
      "entropy": 0.5699467211961746,
      "epoch": 0.23507462686567165,
      "grad_norm": 0.15400487184524536,
      "learning_rate": 0.0002,
      "loss": 0.5733590126037598,
      "mean_token_accuracy": 0.7680967003107071,
      "num_tokens": 1032549.0,
      "step": 63
    },
    {
      "entropy": 0.5582360923290253,
      "epoch": 0.23880597014925373,
      "grad_norm": 0.17451652884483337,
      "learning_rate": 0.0002,
      "loss": 0.5732641220092773,
      "mean_token_accuracy": 0.7692582160234451,
      "num_tokens": 1048935.0,
      "step": 64
    },
    {
      "entropy": 0.5475955605506897,
      "epoch": 0.24253731343283583,
      "grad_norm": 0.1549489051103592,
      "learning_rate": 0.0002,
      "loss": 0.5526400804519653,
      "mean_token_accuracy": 0.7788676619529724,
      "num_tokens": 1065104.0,
      "step": 65
    },
    {
      "entropy": 0.5664391964673996,
      "epoch": 0.2462686567164179,
      "grad_norm": 0.14476634562015533,
      "learning_rate": 0.0002,
      "loss": 0.5617241263389587,
      "mean_token_accuracy": 0.7786661833524704,
      "num_tokens": 1081393.0,
      "step": 66
    },
    {
      "entropy": 0.5560042560100555,
      "epoch": 0.25,
      "grad_norm": 0.16752755641937256,
      "learning_rate": 0.0002,
      "loss": 0.5503427982330322,
      "mean_token_accuracy": 0.7781690061092377,
      "num_tokens": 1097575.0,
      "step": 67
    },
    {
      "entropy": 0.5609089732170105,
      "epoch": 0.2537313432835821,
      "grad_norm": 0.17903153598308563,
      "learning_rate": 0.0002,
      "loss": 0.5497362017631531,
      "mean_token_accuracy": 0.7771856188774109,
      "num_tokens": 1113937.0,
      "step": 68
    },
    {
      "entropy": 0.5642896294593811,
      "epoch": 0.2574626865671642,
      "grad_norm": 0.16974171996116638,
      "learning_rate": 0.0002,
      "loss": 0.563960611820221,
      "mean_token_accuracy": 0.7738614976406097,
      "num_tokens": 1130103.0,
      "step": 69
    },
    {
      "entropy": 0.5726548284292221,
      "epoch": 0.26119402985074625,
      "grad_norm": 0.14435403048992157,
      "learning_rate": 0.0002,
      "loss": 0.5712643265724182,
      "mean_token_accuracy": 0.7692683339118958,
      "num_tokens": 1146423.0,
      "step": 70
    },
    {
      "entropy": 0.5441250950098038,
      "epoch": 0.26492537313432835,
      "grad_norm": 0.14253664016723633,
      "learning_rate": 0.0002,
      "loss": 0.544674813747406,
      "mean_token_accuracy": 0.7780104726552963,
      "num_tokens": 1162733.0,
      "step": 71
    },
    {
      "entropy": 0.5444895774126053,
      "epoch": 0.26865671641791045,
      "grad_norm": 0.14379332959651947,
      "learning_rate": 0.0002,
      "loss": 0.5479044318199158,
      "mean_token_accuracy": 0.7788853794336319,
      "num_tokens": 1178848.0,
      "step": 72
    },
    {
      "entropy": 0.5541743487119675,
      "epoch": 0.27238805970149255,
      "grad_norm": 0.1346455216407776,
      "learning_rate": 0.0002,
      "loss": 0.5573484897613525,
      "mean_token_accuracy": 0.7779737412929535,
      "num_tokens": 1195357.0,
      "step": 73
    },
    {
      "entropy": 0.5649544596672058,
      "epoch": 0.27611940298507465,
      "grad_norm": 0.136294886469841,
      "learning_rate": 0.0002,
      "loss": 0.5603638291358948,
      "mean_token_accuracy": 0.7719381302595139,
      "num_tokens": 1211921.0,
      "step": 74
    },
    {
      "entropy": 0.5381972342729568,
      "epoch": 0.2798507462686567,
      "grad_norm": 0.12611278891563416,
      "learning_rate": 0.0002,
      "loss": 0.533305287361145,
      "mean_token_accuracy": 0.7839507907629013,
      "num_tokens": 1228381.0,
      "step": 75
    },
    {
      "entropy": 0.5607545524835587,
      "epoch": 0.2835820895522388,
      "grad_norm": 0.1318938434123993,
      "learning_rate": 0.0002,
      "loss": 0.5617884397506714,
      "mean_token_accuracy": 0.7753878086805344,
      "num_tokens": 1244769.0,
      "step": 76
    },
    {
      "entropy": 0.5631186813116074,
      "epoch": 0.2873134328358209,
      "grad_norm": 0.1374509632587433,
      "learning_rate": 0.0002,
      "loss": 0.5608174204826355,
      "mean_token_accuracy": 0.7753797173500061,
      "num_tokens": 1261197.0,
      "step": 77
    },
    {
      "entropy": 0.5789693742990494,
      "epoch": 0.291044776119403,
      "grad_norm": 0.1388232558965683,
      "learning_rate": 0.0002,
      "loss": 0.5779432058334351,
      "mean_token_accuracy": 0.7658645212650299,
      "num_tokens": 1277998.0,
      "step": 78
    },
    {
      "entropy": 0.5439933687448502,
      "epoch": 0.2947761194029851,
      "grad_norm": 0.15839162468910217,
      "learning_rate": 0.0002,
      "loss": 0.5506725311279297,
      "mean_token_accuracy": 0.7786760181188583,
      "num_tokens": 1294293.0,
      "step": 79
    },
    {
      "entropy": 0.5581207424402237,
      "epoch": 0.29850746268656714,
      "grad_norm": 0.16782821714878082,
      "learning_rate": 0.0002,
      "loss": 0.56475830078125,
      "mean_token_accuracy": 0.7746179699897766,
      "num_tokens": 1310588.0,
      "step": 80
    },
    {
      "entropy": 0.588770255446434,
      "epoch": 0.30223880597014924,
      "grad_norm": 0.17123626172542572,
      "learning_rate": 0.0002,
      "loss": 0.5832362174987793,
      "mean_token_accuracy": 0.7644577324390411,
      "num_tokens": 1327129.0,
      "step": 81
    },
    {
      "entropy": 0.5512869954109192,
      "epoch": 0.30597014925373134,
      "grad_norm": 0.12713028490543365,
      "learning_rate": 0.0002,
      "loss": 0.538611888885498,
      "mean_token_accuracy": 0.7855131775140762,
      "num_tokens": 1343481.0,
      "step": 82
    },
    {
      "entropy": 0.5826849788427353,
      "epoch": 0.30970149253731344,
      "grad_norm": 0.15148760378360748,
      "learning_rate": 0.0002,
      "loss": 0.580060601234436,
      "mean_token_accuracy": 0.7675654888153076,
      "num_tokens": 1359709.0,
      "step": 83
    },
    {
      "entropy": 0.581380233168602,
      "epoch": 0.31343283582089554,
      "grad_norm": 0.1486639529466629,
      "learning_rate": 0.0002,
      "loss": 0.5737113952636719,
      "mean_token_accuracy": 0.7694955766201019,
      "num_tokens": 1376209.0,
      "step": 84
    },
    {
      "entropy": 0.5577070415019989,
      "epoch": 0.31716417910447764,
      "grad_norm": 0.14268359541893005,
      "learning_rate": 0.0002,
      "loss": 0.5592327117919922,
      "mean_token_accuracy": 0.7741715162992477,
      "num_tokens": 1392271.0,
      "step": 85
    },
    {
      "entropy": 0.5519531518220901,
      "epoch": 0.3208955223880597,
      "grad_norm": 0.19115421175956726,
      "learning_rate": 0.0002,
      "loss": 0.5649857521057129,
      "mean_token_accuracy": 0.7735026627779007,
      "num_tokens": 1408680.0,
      "step": 86
    },
    {
      "entropy": 0.5389833152294159,
      "epoch": 0.3246268656716418,
      "grad_norm": 0.1511470526456833,
      "learning_rate": 0.0002,
      "loss": 0.5499240159988403,
      "mean_token_accuracy": 0.7795019447803497,
      "num_tokens": 1425241.0,
      "step": 87
    },
    {
      "entropy": 0.5535243153572083,
      "epoch": 0.3283582089552239,
      "grad_norm": 0.13003994524478912,
      "learning_rate": 0.0002,
      "loss": 0.5464329123497009,
      "mean_token_accuracy": 0.7804087400436401,
      "num_tokens": 1441530.0,
      "step": 88
    },
    {
      "entropy": 0.5626068562269211,
      "epoch": 0.332089552238806,
      "grad_norm": 0.1472884714603424,
      "learning_rate": 0.0002,
      "loss": 0.5579521656036377,
      "mean_token_accuracy": 0.7757730484008789,
      "num_tokens": 1457843.0,
      "step": 89
    },
    {
      "entropy": 0.5722664147615433,
      "epoch": 0.3358208955223881,
      "grad_norm": 0.14036864042282104,
      "learning_rate": 0.0002,
      "loss": 0.5636782050132751,
      "mean_token_accuracy": 0.7743526548147202,
      "num_tokens": 1474209.0,
      "step": 90
    },
    {
      "entropy": 0.5577493757009506,
      "epoch": 0.33955223880597013,
      "grad_norm": 0.12171963602304459,
      "learning_rate": 0.0002,
      "loss": 0.5502208471298218,
      "mean_token_accuracy": 0.7802051454782486,
      "num_tokens": 1490390.0,
      "step": 91
    },
    {
      "entropy": 0.547787681221962,
      "epoch": 0.34328358208955223,
      "grad_norm": 0.1525270640850067,
      "learning_rate": 0.0002,
      "loss": 0.5497896075248718,
      "mean_token_accuracy": 0.7809301018714905,
      "num_tokens": 1506675.0,
      "step": 92
    },
    {
      "entropy": 0.5554802119731903,
      "epoch": 0.34701492537313433,
      "grad_norm": 0.1502194106578827,
      "learning_rate": 0.0002,
      "loss": 0.5645507574081421,
      "mean_token_accuracy": 0.7722718119621277,
      "num_tokens": 1523263.0,
      "step": 93
    },
    {
      "entropy": 0.5594951659440994,
      "epoch": 0.35074626865671643,
      "grad_norm": 0.13331742584705353,
      "learning_rate": 0.0002,
      "loss": 0.5637622475624084,
      "mean_token_accuracy": 0.7736085057258606,
      "num_tokens": 1540004.0,
      "step": 94
    },
    {
      "entropy": 0.5551023185253143,
      "epoch": 0.35447761194029853,
      "grad_norm": 0.1213943138718605,
      "learning_rate": 0.0002,
      "loss": 0.5518482327461243,
      "mean_token_accuracy": 0.7777320593595505,
      "num_tokens": 1556547.0,
      "step": 95
    },
    {
      "entropy": 0.557207852602005,
      "epoch": 0.3582089552238806,
      "grad_norm": 0.1314304620027542,
      "learning_rate": 0.0002,
      "loss": 0.5546322464942932,
      "mean_token_accuracy": 0.7763337790966034,
      "num_tokens": 1572997.0,
      "step": 96
    },
    {
      "entropy": 0.556539997458458,
      "epoch": 0.3619402985074627,
      "grad_norm": 0.14363965392112732,
      "learning_rate": 0.0002,
      "loss": 0.5549654364585876,
      "mean_token_accuracy": 0.7731640189886093,
      "num_tokens": 1589289.0,
      "step": 97
    },
    {
      "entropy": 0.568042978644371,
      "epoch": 0.3656716417910448,
      "grad_norm": 0.11934816092252731,
      "learning_rate": 0.0002,
      "loss": 0.5679082274436951,
      "mean_token_accuracy": 0.768884465098381,
      "num_tokens": 1605516.0,
      "step": 98
    },
    {
      "entropy": 0.5484860688447952,
      "epoch": 0.3694029850746269,
      "grad_norm": 0.16246412694454193,
      "learning_rate": 0.0002,
      "loss": 0.5522934794425964,
      "mean_token_accuracy": 0.776402086019516,
      "num_tokens": 1622108.0,
      "step": 99
    },
    {
      "entropy": 0.5548600405454636,
      "epoch": 0.373134328358209,
      "grad_norm": 0.12589918076992035,
      "learning_rate": 0.0002,
      "loss": 0.5544294714927673,
      "mean_token_accuracy": 0.7768803536891937,
      "num_tokens": 1638659.0,
      "step": 100
    },
    {
      "entropy": 0.5692953765392303,
      "epoch": 0.376865671641791,
      "grad_norm": 0.12726213037967682,
      "learning_rate": 0.0002,
      "loss": 0.5662153363227844,
      "mean_token_accuracy": 0.7698657661676407,
      "num_tokens": 1654877.0,
      "step": 101
    },
    {
      "entropy": 0.560271605849266,
      "epoch": 0.3805970149253731,
      "grad_norm": 0.13260267674922943,
      "learning_rate": 0.0002,
      "loss": 0.5487651824951172,
      "mean_token_accuracy": 0.7778149247169495,
      "num_tokens": 1671436.0,
      "step": 102
    },
    {
      "entropy": 0.5644612163305283,
      "epoch": 0.3843283582089552,
      "grad_norm": 0.13504348695278168,
      "learning_rate": 0.0002,
      "loss": 0.5573433041572571,
      "mean_token_accuracy": 0.7781724482774734,
      "num_tokens": 1687817.0,
      "step": 103
    },
    {
      "entropy": 0.55845807492733,
      "epoch": 0.3880597014925373,
      "grad_norm": 0.1202038824558258,
      "learning_rate": 0.0002,
      "loss": 0.5552661418914795,
      "mean_token_accuracy": 0.7772795557975769,
      "num_tokens": 1704568.0,
      "step": 104
    },
    {
      "entropy": 0.5440086871385574,
      "epoch": 0.3917910447761194,
      "grad_norm": 0.12728044390678406,
      "learning_rate": 0.0002,
      "loss": 0.5538181662559509,
      "mean_token_accuracy": 0.7744371294975281,
      "num_tokens": 1720774.0,
      "step": 105
    },
    {
      "entropy": 0.5394178926944733,
      "epoch": 0.39552238805970147,
      "grad_norm": 0.14098908007144928,
      "learning_rate": 0.0002,
      "loss": 0.552955150604248,
      "mean_token_accuracy": 0.776681050658226,
      "num_tokens": 1737050.0,
      "step": 106
    },
    {
      "entropy": 0.5602739453315735,
      "epoch": 0.39925373134328357,
      "grad_norm": 0.1373777687549591,
      "learning_rate": 0.0002,
      "loss": 0.5666458010673523,
      "mean_token_accuracy": 0.7684379816055298,
      "num_tokens": 1753616.0,
      "step": 107
    },
    {
      "entropy": 0.5688735842704773,
      "epoch": 0.40298507462686567,
      "grad_norm": 0.12947675585746765,
      "learning_rate": 0.0002,
      "loss": 0.5618643760681152,
      "mean_token_accuracy": 0.7724806815385818,
      "num_tokens": 1770077.0,
      "step": 108
    },
    {
      "entropy": 0.569103866815567,
      "epoch": 0.40671641791044777,
      "grad_norm": 0.1482311338186264,
      "learning_rate": 0.0002,
      "loss": 0.5661442875862122,
      "mean_token_accuracy": 0.7717588543891907,
      "num_tokens": 1786557.0,
      "step": 109
    },
    {
      "entropy": 0.5550140291452408,
      "epoch": 0.41044776119402987,
      "grad_norm": 0.13066281378269196,
      "learning_rate": 0.0002,
      "loss": 0.5546547770500183,
      "mean_token_accuracy": 0.7755738943815231,
      "num_tokens": 1803029.0,
      "step": 110
    },
    {
      "entropy": 0.5526944696903229,
      "epoch": 0.4141791044776119,
      "grad_norm": 0.11755255609750748,
      "learning_rate": 0.0002,
      "loss": 0.5436115860939026,
      "mean_token_accuracy": 0.779561460018158,
      "num_tokens": 1819561.0,
      "step": 111
    },
    {
      "entropy": 0.5528556704521179,
      "epoch": 0.417910447761194,
      "grad_norm": 0.14607787132263184,
      "learning_rate": 0.0002,
      "loss": 0.5589385032653809,
      "mean_token_accuracy": 0.7751224488019943,
      "num_tokens": 1835992.0,
      "step": 112
    },
    {
      "entropy": 0.5393927693367004,
      "epoch": 0.4216417910447761,
      "grad_norm": 0.12512564659118652,
      "learning_rate": 0.0002,
      "loss": 0.5430585741996765,
      "mean_token_accuracy": 0.7801438719034195,
      "num_tokens": 1852545.0,
      "step": 113
    },
    {
      "entropy": 0.5346394777297974,
      "epoch": 0.4253731343283582,
      "grad_norm": 0.13879786431789398,
      "learning_rate": 0.0002,
      "loss": 0.5470178723335266,
      "mean_token_accuracy": 0.7800125926733017,
      "num_tokens": 1868767.0,
      "step": 114
    },
    {
      "entropy": 0.552959531545639,
      "epoch": 0.4291044776119403,
      "grad_norm": 0.13570789992809296,
      "learning_rate": 0.0002,
      "loss": 0.5606270432472229,
      "mean_token_accuracy": 0.7728203237056732,
      "num_tokens": 1885207.0,
      "step": 115
    },
    {
      "entropy": 0.5681584924459457,
      "epoch": 0.43283582089552236,
      "grad_norm": 0.13311345875263214,
      "learning_rate": 0.0002,
      "loss": 0.561408519744873,
      "mean_token_accuracy": 0.7729704976081848,
      "num_tokens": 1901670.0,
      "step": 116
    },
    {
      "entropy": 0.580392524600029,
      "epoch": 0.43656716417910446,
      "grad_norm": 0.15006045997142792,
      "learning_rate": 0.0002,
      "loss": 0.5710599422454834,
      "mean_token_accuracy": 0.7692873626947403,
      "num_tokens": 1918297.0,
      "step": 117
    },
    {
      "entropy": 0.5402243435382843,
      "epoch": 0.44029850746268656,
      "grad_norm": 0.13022655248641968,
      "learning_rate": 0.0002,
      "loss": 0.5290783047676086,
      "mean_token_accuracy": 0.7855078428983688,
      "num_tokens": 1934811.0,
      "step": 118
    },
    {
      "entropy": 0.5673187673091888,
      "epoch": 0.44402985074626866,
      "grad_norm": 0.1210206151008606,
      "learning_rate": 0.0002,
      "loss": 0.5625845193862915,
      "mean_token_accuracy": 0.771060049533844,
      "num_tokens": 1951276.0,
      "step": 119
    },
    {
      "entropy": 0.5444270074367523,
      "epoch": 0.44776119402985076,
      "grad_norm": 0.14453133940696716,
      "learning_rate": 0.0002,
      "loss": 0.5478600263595581,
      "mean_token_accuracy": 0.7782215029001236,
      "num_tokens": 1967851.0,
      "step": 120
    },
    {
      "entropy": 0.5516166985034943,
      "epoch": 0.45149253731343286,
      "grad_norm": 0.15330393612384796,
      "learning_rate": 0.0002,
      "loss": 0.5627217292785645,
      "mean_token_accuracy": 0.7735389173030853,
      "num_tokens": 1984175.0,
      "step": 121
    },
    {
      "entropy": 0.5447670072317123,
      "epoch": 0.4552238805970149,
      "grad_norm": 0.11896508932113647,
      "learning_rate": 0.0002,
      "loss": 0.5453386306762695,
      "mean_token_accuracy": 0.7792693227529526,
      "num_tokens": 2000419.0,
      "step": 122
    },
    {
      "entropy": 0.5593693852424622,
      "epoch": 0.458955223880597,
      "grad_norm": 0.14641404151916504,
      "learning_rate": 0.0002,
      "loss": 0.5527093410491943,
      "mean_token_accuracy": 0.7784133702516556,
      "num_tokens": 2016812.0,
      "step": 123
    },
    {
      "entropy": 0.5516424775123596,
      "epoch": 0.4626865671641791,
      "grad_norm": 0.13001076877117157,
      "learning_rate": 0.0002,
      "loss": 0.5495356917381287,
      "mean_token_accuracy": 0.7777290046215057,
      "num_tokens": 2032898.0,
      "step": 124
    },
    {
      "entropy": 0.5469458252191544,
      "epoch": 0.4664179104477612,
      "grad_norm": 0.12713271379470825,
      "learning_rate": 0.0002,
      "loss": 0.5466877222061157,
      "mean_token_accuracy": 0.7783260345458984,
      "num_tokens": 2049023.0,
      "step": 125
    },
    {
      "entropy": 0.5528912246227264,
      "epoch": 0.4701492537313433,
      "grad_norm": 0.13111256062984467,
      "learning_rate": 0.0002,
      "loss": 0.5582880973815918,
      "mean_token_accuracy": 0.7739576250314713,
      "num_tokens": 2065421.0,
      "step": 126
    },
    {
      "entropy": 0.536289632320404,
      "epoch": 0.47388059701492535,
      "grad_norm": 0.1449650228023529,
      "learning_rate": 0.0002,
      "loss": 0.5477018356323242,
      "mean_token_accuracy": 0.7764868587255478,
      "num_tokens": 2081738.0,
      "step": 127
    },
    {
      "entropy": 0.5412490218877792,
      "epoch": 0.47761194029850745,
      "grad_norm": 0.12087342143058777,
      "learning_rate": 0.0002,
      "loss": 0.5445610880851746,
      "mean_token_accuracy": 0.7799812257289886,
      "num_tokens": 2098128.0,
      "step": 128
    },
    {
      "entropy": 0.5749060362577438,
      "epoch": 0.48134328358208955,
      "grad_norm": 0.13593946397304535,
      "learning_rate": 0.0002,
      "loss": 0.5713242292404175,
      "mean_token_accuracy": 0.7683141082525253,
      "num_tokens": 2114660.0,
      "step": 129
    },
    {
      "entropy": 0.5624695718288422,
      "epoch": 0.48507462686567165,
      "grad_norm": 0.13926997780799866,
      "learning_rate": 0.0002,
      "loss": 0.5603138208389282,
      "mean_token_accuracy": 0.7724832147359848,
      "num_tokens": 2130850.0,
      "step": 130
    },
    {
      "entropy": 0.564590647816658,
      "epoch": 0.48880597014925375,
      "grad_norm": 0.1541988104581833,
      "learning_rate": 0.0002,
      "loss": 0.5548843145370483,
      "mean_token_accuracy": 0.7774635404348373,
      "num_tokens": 2147198.0,
      "step": 131
    },
    {
      "entropy": 0.5638516694307327,
      "epoch": 0.4925373134328358,
      "grad_norm": 0.14475074410438538,
      "learning_rate": 0.0002,
      "loss": 0.559626579284668,
      "mean_token_accuracy": 0.7742670625448227,
      "num_tokens": 2163592.0,
      "step": 132
    },
    {
      "entropy": 0.546675980091095,
      "epoch": 0.4962686567164179,
      "grad_norm": 0.14459353685379028,
      "learning_rate": 0.0002,
      "loss": 0.5525697469711304,
      "mean_token_accuracy": 0.7782329767942429,
      "num_tokens": 2179735.0,
      "step": 133
    },
    {
      "entropy": 0.5720339864492416,
      "epoch": 0.5,
      "grad_norm": 0.16138529777526855,
      "learning_rate": 0.0002,
      "loss": 0.5745345950126648,
      "mean_token_accuracy": 0.7678724527359009,
      "num_tokens": 2196300.0,
      "step": 134
    },
    {
      "entropy": 0.5302732288837433,
      "epoch": 0.503731343283582,
      "grad_norm": 0.13007810711860657,
      "learning_rate": 0.0002,
      "loss": 0.5221583843231201,
      "mean_token_accuracy": 0.786575123667717,
      "num_tokens": 2212703.0,
      "step": 135
    },
    {
      "entropy": 0.5611361563205719,
      "epoch": 0.5074626865671642,
      "grad_norm": 0.16084182262420654,
      "learning_rate": 0.0002,
      "loss": 0.557313084602356,
      "mean_token_accuracy": 0.7753567546606064,
      "num_tokens": 2229364.0,
      "step": 136
    },
    {
      "entropy": 0.5539422780275345,
      "epoch": 0.5111940298507462,
      "grad_norm": 0.1412162035703659,
      "learning_rate": 0.0002,
      "loss": 0.559614896774292,
      "mean_token_accuracy": 0.7726200222969055,
      "num_tokens": 2245576.0,
      "step": 137
    },
    {
      "entropy": 0.562326043844223,
      "epoch": 0.5149253731343284,
      "grad_norm": 0.12138223648071289,
      "learning_rate": 0.0002,
      "loss": 0.5638246536254883,
      "mean_token_accuracy": 0.7736532688140869,
      "num_tokens": 2261877.0,
      "step": 138
    },
    {
      "entropy": 0.5490357279777527,
      "epoch": 0.5186567164179104,
      "grad_norm": 0.13067315518856049,
      "learning_rate": 0.0002,
      "loss": 0.5565229654312134,
      "mean_token_accuracy": 0.7710774689912796,
      "num_tokens": 2278167.0,
      "step": 139
    },
    {
      "entropy": 0.5594187080860138,
      "epoch": 0.5223880597014925,
      "grad_norm": 0.15731613337993622,
      "learning_rate": 0.0002,
      "loss": 0.5585336089134216,
      "mean_token_accuracy": 0.7744586318731308,
      "num_tokens": 2294498.0,
      "step": 140
    },
    {
      "entropy": 0.5464736074209213,
      "epoch": 0.5261194029850746,
      "grad_norm": 0.11038337647914886,
      "learning_rate": 0.0002,
      "loss": 0.538608968257904,
      "mean_token_accuracy": 0.7829599231481552,
      "num_tokens": 2311130.0,
      "step": 141
    },
    {
      "entropy": 0.5605999529361725,
      "epoch": 0.5298507462686567,
      "grad_norm": 0.14088644087314606,
      "learning_rate": 0.0002,
      "loss": 0.552900493144989,
      "mean_token_accuracy": 0.7778186202049255,
      "num_tokens": 2327728.0,
      "step": 142
    },
    {
      "entropy": 0.5528270900249481,
      "epoch": 0.5335820895522388,
      "grad_norm": 0.1425020396709442,
      "learning_rate": 0.0002,
      "loss": 0.5515353083610535,
      "mean_token_accuracy": 0.7752819806337357,
      "num_tokens": 2343709.0,
      "step": 143
    },
    {
      "entropy": 0.548284262418747,
      "epoch": 0.5373134328358209,
      "grad_norm": 0.11753518134355545,
      "learning_rate": 0.0002,
      "loss": 0.5451334118843079,
      "mean_token_accuracy": 0.778195932507515,
      "num_tokens": 2360064.0,
      "step": 144
    },
    {
      "entropy": 0.5573805719614029,
      "epoch": 0.5410447761194029,
      "grad_norm": 0.16544298827648163,
      "learning_rate": 0.0002,
      "loss": 0.5645371675491333,
      "mean_token_accuracy": 0.774710014462471,
      "num_tokens": 2376625.0,
      "step": 145
    },
    {
      "entropy": 0.5539259165525436,
      "epoch": 0.5447761194029851,
      "grad_norm": 0.13032706081867218,
      "learning_rate": 0.0002,
      "loss": 0.5533608198165894,
      "mean_token_accuracy": 0.7761502712965012,
      "num_tokens": 2393124.0,
      "step": 146
    },
    {
      "entropy": 0.5611738562583923,
      "epoch": 0.5485074626865671,
      "grad_norm": 0.11081252992153168,
      "learning_rate": 0.0002,
      "loss": 0.5593815445899963,
      "mean_token_accuracy": 0.7766542136669159,
      "num_tokens": 2409745.0,
      "step": 147
    },
    {
      "entropy": 0.5696390718221664,
      "epoch": 0.5522388059701493,
      "grad_norm": 0.15060319006443024,
      "learning_rate": 0.0002,
      "loss": 0.5638480186462402,
      "mean_token_accuracy": 0.7716973423957825,
      "num_tokens": 2426282.0,
      "step": 148
    },
    {
      "entropy": 0.5485384464263916,
      "epoch": 0.5559701492537313,
      "grad_norm": 0.1222362369298935,
      "learning_rate": 0.0002,
      "loss": 0.5475510954856873,
      "mean_token_accuracy": 0.7770865708589554,
      "num_tokens": 2442853.0,
      "step": 149
    },
    {
      "entropy": 0.5401834696531296,
      "epoch": 0.5597014925373134,
      "grad_norm": 0.1280064433813095,
      "learning_rate": 0.0002,
      "loss": 0.546281099319458,
      "mean_token_accuracy": 0.777226597070694,
      "num_tokens": 2459134.0,
      "step": 150
    },
    {
      "entropy": 0.5523836761713028,
      "epoch": 0.5634328358208955,
      "grad_norm": 0.13370104134082794,
      "learning_rate": 0.0002,
      "loss": 0.5567190647125244,
      "mean_token_accuracy": 0.7742304503917694,
      "num_tokens": 2475612.0,
      "step": 151
    },
    {
      "entropy": 0.5323238670825958,
      "epoch": 0.5671641791044776,
      "grad_norm": 0.13501204550266266,
      "learning_rate": 0.0002,
      "loss": 0.5404109358787537,
      "mean_token_accuracy": 0.7807471007108688,
      "num_tokens": 2492038.0,
      "step": 152
    },
    {
      "entropy": 0.5367552191019058,
      "epoch": 0.5708955223880597,
      "grad_norm": 0.11861642450094223,
      "learning_rate": 0.0002,
      "loss": 0.5417584180831909,
      "mean_token_accuracy": 0.7794559895992279,
      "num_tokens": 2508568.0,
      "step": 153
    },
    {
      "entropy": 0.5438606441020966,
      "epoch": 0.5746268656716418,
      "grad_norm": 0.14000006020069122,
      "learning_rate": 0.0002,
      "loss": 0.5418928861618042,
      "mean_token_accuracy": 0.7817023396492004,
      "num_tokens": 2524812.0,
      "step": 154
    },
    {
      "entropy": 0.5425677746534348,
      "epoch": 0.5783582089552238,
      "grad_norm": 0.12695865333080292,
      "learning_rate": 0.0002,
      "loss": 0.5364310145378113,
      "mean_token_accuracy": 0.7822788208723068,
      "num_tokens": 2540971.0,
      "step": 155
    },
    {
      "entropy": 0.5774415135383606,
      "epoch": 0.582089552238806,
      "grad_norm": 0.13525983691215515,
      "learning_rate": 0.0002,
      "loss": 0.5755460858345032,
      "mean_token_accuracy": 0.7673929333686829,
      "num_tokens": 2557582.0,
      "step": 156
    },
    {
      "entropy": 0.5472007393836975,
      "epoch": 0.585820895522388,
      "grad_norm": 0.14802482724189758,
      "learning_rate": 0.0002,
      "loss": 0.5489597320556641,
      "mean_token_accuracy": 0.777190089225769,
      "num_tokens": 2573624.0,
      "step": 157
    },
    {
      "entropy": 0.5569610297679901,
      "epoch": 0.5895522388059702,
      "grad_norm": 0.12167536467313766,
      "learning_rate": 0.0002,
      "loss": 0.5526796579360962,
      "mean_token_accuracy": 0.7753524631261826,
      "num_tokens": 2590085.0,
      "step": 158
    },
    {
      "entropy": 0.5524294823408127,
      "epoch": 0.5932835820895522,
      "grad_norm": 0.11966220289468765,
      "learning_rate": 0.0002,
      "loss": 0.5499304533004761,
      "mean_token_accuracy": 0.7759323716163635,
      "num_tokens": 2606611.0,
      "step": 159
    },
    {
      "entropy": 0.5380967259407043,
      "epoch": 0.5970149253731343,
      "grad_norm": 0.12815536558628082,
      "learning_rate": 0.0002,
      "loss": 0.5423661470413208,
      "mean_token_accuracy": 0.7792660146951675,
      "num_tokens": 2623057.0,
      "step": 160
    },
    {
      "entropy": 0.5472327321767807,
      "epoch": 0.6007462686567164,
      "grad_norm": 0.1232324093580246,
      "learning_rate": 0.0002,
      "loss": 0.5512628555297852,
      "mean_token_accuracy": 0.7756103277206421,
      "num_tokens": 2639412.0,
      "step": 161
    },
    {
      "entropy": 0.53459233045578,
      "epoch": 0.6044776119402985,
      "grad_norm": 0.1279020607471466,
      "learning_rate": 0.0002,
      "loss": 0.530642569065094,
      "mean_token_accuracy": 0.784668356180191,
      "num_tokens": 2655725.0,
      "step": 162
    },
    {
      "entropy": 0.5487090200185776,
      "epoch": 0.6082089552238806,
      "grad_norm": 0.11489348113536835,
      "learning_rate": 0.0002,
      "loss": 0.5467615127563477,
      "mean_token_accuracy": 0.7774748206138611,
      "num_tokens": 2671780.0,
      "step": 163
    },
    {
      "entropy": 0.5611004680395126,
      "epoch": 0.6119402985074627,
      "grad_norm": 0.12106446921825409,
      "learning_rate": 0.0002,
      "loss": 0.5621192455291748,
      "mean_token_accuracy": 0.7757818549871445,
      "num_tokens": 2688187.0,
      "step": 164
    },
    {
      "entropy": 0.5655875951051712,
      "epoch": 0.6156716417910447,
      "grad_norm": 0.11722180247306824,
      "learning_rate": 0.0002,
      "loss": 0.5597223043441772,
      "mean_token_accuracy": 0.7729662656784058,
      "num_tokens": 2704679.0,
      "step": 165
    },
    {
      "entropy": 0.5630869567394257,
      "epoch": 0.6194029850746269,
      "grad_norm": 0.1220882460474968,
      "learning_rate": 0.0002,
      "loss": 0.5666179060935974,
      "mean_token_accuracy": 0.7716799974441528,
      "num_tokens": 2721384.0,
      "step": 166
    },
    {
      "entropy": 0.5498328506946564,
      "epoch": 0.6231343283582089,
      "grad_norm": 0.12011860311031342,
      "learning_rate": 0.0002,
      "loss": 0.5489162802696228,
      "mean_token_accuracy": 0.7789698839187622,
      "num_tokens": 2737648.0,
      "step": 167
    },
    {
      "entropy": 0.5477638095617294,
      "epoch": 0.6268656716417911,
      "grad_norm": 0.11750344932079315,
      "learning_rate": 0.0002,
      "loss": 0.5432245135307312,
      "mean_token_accuracy": 0.7796685546636581,
      "num_tokens": 2753735.0,
      "step": 168
    },
    {
      "entropy": 0.5453169494867325,
      "epoch": 0.6305970149253731,
      "grad_norm": 0.11574184149503708,
      "learning_rate": 0.0002,
      "loss": 0.5411070585250854,
      "mean_token_accuracy": 0.779533714056015,
      "num_tokens": 2770229.0,
      "step": 169
    },
    {
      "entropy": 0.545142874121666,
      "epoch": 0.6343283582089553,
      "grad_norm": 0.13359719514846802,
      "learning_rate": 0.0002,
      "loss": 0.5482118129730225,
      "mean_token_accuracy": 0.7763011008501053,
      "num_tokens": 2786644.0,
      "step": 170
    },
    {
      "entropy": 0.5370890945196152,
      "epoch": 0.6380597014925373,
      "grad_norm": 0.14816807210445404,
      "learning_rate": 0.0002,
      "loss": 0.5420677661895752,
      "mean_token_accuracy": 0.7803799211978912,
      "num_tokens": 2802914.0,
      "step": 171
    },
    {
      "entropy": 0.5518854707479477,
      "epoch": 0.6417910447761194,
      "grad_norm": 0.1388852596282959,
      "learning_rate": 0.0002,
      "loss": 0.5512416958808899,
      "mean_token_accuracy": 0.7771147638559341,
      "num_tokens": 2819398.0,
      "step": 172
    },
    {
      "entropy": 0.5400035530328751,
      "epoch": 0.6455223880597015,
      "grad_norm": 0.1363624781370163,
      "learning_rate": 0.0002,
      "loss": 0.5326176881790161,
      "mean_token_accuracy": 0.7852664589881897,
      "num_tokens": 2835742.0,
      "step": 173
    },
    {
      "entropy": 0.5528566986322403,
      "epoch": 0.6492537313432836,
      "grad_norm": 0.13000693917274475,
      "learning_rate": 0.0002,
      "loss": 0.5492731928825378,
      "mean_token_accuracy": 0.7760010659694672,
      "num_tokens": 2852099.0,
      "step": 174
    },
    {
      "entropy": 0.5556752383708954,
      "epoch": 0.6529850746268657,
      "grad_norm": 0.11847010999917984,
      "learning_rate": 0.0002,
      "loss": 0.5595160722732544,
      "mean_token_accuracy": 0.7731318473815918,
      "num_tokens": 2868521.0,
      "step": 175
    },
    {
      "entropy": 0.5382126122713089,
      "epoch": 0.6567164179104478,
      "grad_norm": 0.13996672630310059,
      "learning_rate": 0.0002,
      "loss": 0.5406076312065125,
      "mean_token_accuracy": 0.7809479385614395,
      "num_tokens": 2884940.0,
      "step": 176
    },
    {
      "entropy": 0.5601803660392761,
      "epoch": 0.6604477611940298,
      "grad_norm": 0.17110760509967804,
      "learning_rate": 0.0002,
      "loss": 0.5693113207817078,
      "mean_token_accuracy": 0.7711411267518997,
      "num_tokens": 2901255.0,
      "step": 177
    },
    {
      "entropy": 0.5570882558822632,
      "epoch": 0.664179104477612,
      "grad_norm": 0.13338999450206757,
      "learning_rate": 0.0002,
      "loss": 0.5597653388977051,
      "mean_token_accuracy": 0.7734159678220749,
      "num_tokens": 2917815.0,
      "step": 178
    },
    {
      "entropy": 0.5541604459285736,
      "epoch": 0.667910447761194,
      "grad_norm": 0.15003007650375366,
      "learning_rate": 0.0002,
      "loss": 0.550830066204071,
      "mean_token_accuracy": 0.773952454328537,
      "num_tokens": 2934029.0,
      "step": 179
    },
    {
      "entropy": 0.5483301132917404,
      "epoch": 0.6716417910447762,
      "grad_norm": 0.13809660077095032,
      "learning_rate": 0.0002,
      "loss": 0.544836163520813,
      "mean_token_accuracy": 0.7802225351333618,
      "num_tokens": 2950186.0,
      "step": 180
    },
    {
      "entropy": 0.563317745923996,
      "epoch": 0.6753731343283582,
      "grad_norm": 0.11954832822084427,
      "learning_rate": 0.0002,
      "loss": 0.5579479932785034,
      "mean_token_accuracy": 0.7754767686128616,
      "num_tokens": 2966696.0,
      "step": 181
    },
    {
      "entropy": 0.5388910472393036,
      "epoch": 0.6791044776119403,
      "grad_norm": 0.1495479792356491,
      "learning_rate": 0.0002,
      "loss": 0.5441924929618835,
      "mean_token_accuracy": 0.7800770252943039,
      "num_tokens": 2982704.0,
      "step": 182
    },
    {
      "entropy": 0.5419297218322754,
      "epoch": 0.6828358208955224,
      "grad_norm": 0.13201352953910828,
      "learning_rate": 0.0002,
      "loss": 0.5452746152877808,
      "mean_token_accuracy": 0.7787511199712753,
      "num_tokens": 2998931.0,
      "step": 183
    },
    {
      "entropy": 0.5475537180900574,
      "epoch": 0.6865671641791045,
      "grad_norm": 0.11876624077558517,
      "learning_rate": 0.0002,
      "loss": 0.5537864565849304,
      "mean_token_accuracy": 0.77639339864254,
      "num_tokens": 3015465.0,
      "step": 184
    },
    {
      "entropy": 0.5443734228610992,
      "epoch": 0.6902985074626866,
      "grad_norm": 0.142917662858963,
      "learning_rate": 0.0002,
      "loss": 0.5402485728263855,
      "mean_token_accuracy": 0.7805273532867432,
      "num_tokens": 3031848.0,
      "step": 185
    },
    {
      "entropy": 0.5626855194568634,
      "epoch": 0.6940298507462687,
      "grad_norm": 0.12896916270256042,
      "learning_rate": 0.0002,
      "loss": 0.5567379593849182,
      "mean_token_accuracy": 0.7732013463973999,
      "num_tokens": 3048160.0,
      "step": 186
    },
    {
      "entropy": 0.5523503571748734,
      "epoch": 0.6977611940298507,
      "grad_norm": 0.13464562594890594,
      "learning_rate": 0.0002,
      "loss": 0.5460264086723328,
      "mean_token_accuracy": 0.7796957343816757,
      "num_tokens": 3064378.0,
      "step": 187
    },
    {
      "entropy": 0.5515571534633636,
      "epoch": 0.7014925373134329,
      "grad_norm": 0.1277887523174286,
      "learning_rate": 0.0002,
      "loss": 0.5548107028007507,
      "mean_token_accuracy": 0.773384153842926,
      "num_tokens": 3080909.0,
      "step": 188
    },
    {
      "entropy": 0.5496191382408142,
      "epoch": 0.7052238805970149,
      "grad_norm": 0.1543433964252472,
      "learning_rate": 0.0002,
      "loss": 0.5634362101554871,
      "mean_token_accuracy": 0.7713208198547363,
      "num_tokens": 3097164.0,
      "step": 189
    },
    {
      "entropy": 0.533801332116127,
      "epoch": 0.7089552238805971,
      "grad_norm": 0.1185467317700386,
      "learning_rate": 0.0002,
      "loss": 0.5395026206970215,
      "mean_token_accuracy": 0.7796055674552917,
      "num_tokens": 3113434.0,
      "step": 190
    },
    {
      "entropy": 0.5635387450456619,
      "epoch": 0.7126865671641791,
      "grad_norm": 0.12236445397138596,
      "learning_rate": 0.0002,
      "loss": 0.5628854632377625,
      "mean_token_accuracy": 0.7733010798692703,
      "num_tokens": 3129906.0,
      "step": 191
    },
    {
      "entropy": 0.5444195717573166,
      "epoch": 0.7164179104477612,
      "grad_norm": 0.1353861391544342,
      "learning_rate": 0.0002,
      "loss": 0.5396167039871216,
      "mean_token_accuracy": 0.7793399095535278,
      "num_tokens": 3145901.0,
      "step": 192
    },
    {
      "entropy": 0.5682615637779236,
      "epoch": 0.7201492537313433,
      "grad_norm": 0.11948243528604507,
      "learning_rate": 0.0002,
      "loss": 0.5587157011032104,
      "mean_token_accuracy": 0.774067297577858,
      "num_tokens": 3162257.0,
      "step": 193
    },
    {
      "entropy": 0.5397479832172394,
      "epoch": 0.7238805970149254,
      "grad_norm": 0.14794877171516418,
      "learning_rate": 0.0002,
      "loss": 0.5473200678825378,
      "mean_token_accuracy": 0.7760735005140305,
      "num_tokens": 3178362.0,
      "step": 194
    },
    {
      "entropy": 0.5612514019012451,
      "epoch": 0.7276119402985075,
      "grad_norm": 0.12478621304035187,
      "learning_rate": 0.0002,
      "loss": 0.5709495544433594,
      "mean_token_accuracy": 0.771531730890274,
      "num_tokens": 3195003.0,
      "step": 195
    },
    {
      "entropy": 0.5640581250190735,
      "epoch": 0.7313432835820896,
      "grad_norm": 0.13103285431861877,
      "learning_rate": 0.0002,
      "loss": 0.5633752942085266,
      "mean_token_accuracy": 0.7763072997331619,
      "num_tokens": 3211488.0,
      "step": 196
    },
    {
      "entropy": 0.5409631133079529,
      "epoch": 0.7350746268656716,
      "grad_norm": 0.11954586207866669,
      "learning_rate": 0.0002,
      "loss": 0.5412945747375488,
      "mean_token_accuracy": 0.7807609885931015,
      "num_tokens": 3227872.0,
      "step": 197
    },
    {
      "entropy": 0.5516713857650757,
      "epoch": 0.7388059701492538,
      "grad_norm": 0.1291007399559021,
      "learning_rate": 0.0002,
      "loss": 0.5551599264144897,
      "mean_token_accuracy": 0.776901364326477,
      "num_tokens": 3244275.0,
      "step": 198
    },
    {
      "entropy": 0.5520838648080826,
      "epoch": 0.7425373134328358,
      "grad_norm": 0.1325356811285019,
      "learning_rate": 0.0002,
      "loss": 0.5542269945144653,
      "mean_token_accuracy": 0.7749388813972473,
      "num_tokens": 3260730.0,
      "step": 199
    },
    {
      "entropy": 0.5531659871339798,
      "epoch": 0.746268656716418,
      "grad_norm": 0.11382137984037399,
      "learning_rate": 0.0002,
      "loss": 0.5500154495239258,
      "mean_token_accuracy": 0.7769201993942261,
      "num_tokens": 3277054.0,
      "step": 200
    },
    {
      "entropy": 0.5739943087100983,
      "epoch": 0.75,
      "grad_norm": 0.116433285176754,
      "learning_rate": 0.0002,
      "loss": 0.5693427920341492,
      "mean_token_accuracy": 0.7700029015541077,
      "num_tokens": 3293536.0,
      "step": 201
    },
    {
      "entropy": 0.5410773009061813,
      "epoch": 0.753731343283582,
      "grad_norm": 0.12128517776727676,
      "learning_rate": 0.0002,
      "loss": 0.5383925437927246,
      "mean_token_accuracy": 0.7806861847639084,
      "num_tokens": 3310044.0,
      "step": 202
    },
    {
      "entropy": 0.5345109105110168,
      "epoch": 0.7574626865671642,
      "grad_norm": 0.11475860327482224,
      "learning_rate": 0.0002,
      "loss": 0.5396114587783813,
      "mean_token_accuracy": 0.7786486446857452,
      "num_tokens": 3326424.0,
      "step": 203
    },
    {
      "entropy": 0.5596074312925339,
      "epoch": 0.7611940298507462,
      "grad_norm": 0.1144401878118515,
      "learning_rate": 0.0002,
      "loss": 0.559008777141571,
      "mean_token_accuracy": 0.7744818329811096,
      "num_tokens": 3342803.0,
      "step": 204
    },
    {
      "entropy": 0.5440013706684113,
      "epoch": 0.7649253731343284,
      "grad_norm": 0.117170050740242,
      "learning_rate": 0.0002,
      "loss": 0.5520018935203552,
      "mean_token_accuracy": 0.7764452546834946,
      "num_tokens": 3359289.0,
      "step": 205
    },
    {
      "entropy": 0.5440059304237366,
      "epoch": 0.7686567164179104,
      "grad_norm": 0.12146680057048798,
      "learning_rate": 0.0002,
      "loss": 0.543918251991272,
      "mean_token_accuracy": 0.7812443971633911,
      "num_tokens": 3375680.0,
      "step": 206
    },
    {
      "entropy": 0.559204563498497,
      "epoch": 0.7723880597014925,
      "grad_norm": 0.11677462607622147,
      "learning_rate": 0.0002,
      "loss": 0.5479013323783875,
      "mean_token_accuracy": 0.7783834487199783,
      "num_tokens": 3392230.0,
      "step": 207
    },
    {
      "entropy": 0.5695496201515198,
      "epoch": 0.7761194029850746,
      "grad_norm": 0.12663210928440094,
      "learning_rate": 0.0002,
      "loss": 0.5560157895088196,
      "mean_token_accuracy": 0.7768621742725372,
      "num_tokens": 3408667.0,
      "step": 208
    },
    {
      "entropy": 0.5218568593263626,
      "epoch": 0.7798507462686567,
      "grad_norm": 0.13396473228931427,
      "learning_rate": 0.0002,
      "loss": 0.5200244784355164,
      "mean_token_accuracy": 0.7892128974199295,
      "num_tokens": 3424766.0,
      "step": 209
    },
    {
      "entropy": 0.5524403154850006,
      "epoch": 0.7835820895522388,
      "grad_norm": 0.11780054867267609,
      "learning_rate": 0.0002,
      "loss": 0.5549524426460266,
      "mean_token_accuracy": 0.7762513756752014,
      "num_tokens": 3441010.0,
      "step": 210
    },
    {
      "entropy": 0.5339344441890717,
      "epoch": 0.7873134328358209,
      "grad_norm": 0.13986989855766296,
      "learning_rate": 0.0002,
      "loss": 0.5432649254798889,
      "mean_token_accuracy": 0.7810570001602173,
      "num_tokens": 3457051.0,
      "step": 211
    },
    {
      "entropy": 0.5393660813570023,
      "epoch": 0.7910447761194029,
      "grad_norm": 0.14846238493919373,
      "learning_rate": 0.0002,
      "loss": 0.5462239980697632,
      "mean_token_accuracy": 0.7770469635725021,
      "num_tokens": 3473237.0,
      "step": 212
    },
    {
      "entropy": 0.5482676774263382,
      "epoch": 0.7947761194029851,
      "grad_norm": 0.1279968023300171,
      "learning_rate": 0.0002,
      "loss": 0.5470429062843323,
      "mean_token_accuracy": 0.7772368937730789,
      "num_tokens": 3489557.0,
      "step": 213
    },
    {
      "entropy": 0.5750377625226974,
      "epoch": 0.7985074626865671,
      "grad_norm": 0.1574614942073822,
      "learning_rate": 0.0002,
      "loss": 0.5681816339492798,
      "mean_token_accuracy": 0.7696330845355988,
      "num_tokens": 3506111.0,
      "step": 214
    },
    {
      "entropy": 0.5552468150854111,
      "epoch": 0.8022388059701493,
      "grad_norm": 0.11573337018489838,
      "learning_rate": 0.0002,
      "loss": 0.5513306260108948,
      "mean_token_accuracy": 0.7750436067581177,
      "num_tokens": 3522546.0,
      "step": 215
    },
    {
      "entropy": 0.5544361621141434,
      "epoch": 0.8059701492537313,
      "grad_norm": 0.11837700754404068,
      "learning_rate": 0.0002,
      "loss": 0.553516685962677,
      "mean_token_accuracy": 0.7765354365110397,
      "num_tokens": 3539207.0,
      "step": 216
    },
    {
      "entropy": 0.5567323267459869,
      "epoch": 0.8097014925373134,
      "grad_norm": 0.15473680198192596,
      "learning_rate": 0.0002,
      "loss": 0.5699406862258911,
      "mean_token_accuracy": 0.769306480884552,
      "num_tokens": 3555606.0,
      "step": 217
    },
    {
      "entropy": 0.55356065928936,
      "epoch": 0.8134328358208955,
      "grad_norm": 0.10959180444478989,
      "learning_rate": 0.0002,
      "loss": 0.5509120225906372,
      "mean_token_accuracy": 0.7775351405143738,
      "num_tokens": 3571937.0,
      "step": 218
    },
    {
      "entropy": 0.5506166815757751,
      "epoch": 0.8171641791044776,
      "grad_norm": 0.1107836365699768,
      "learning_rate": 0.0002,
      "loss": 0.5498772859573364,
      "mean_token_accuracy": 0.7781967967748642,
      "num_tokens": 3588147.0,
      "step": 219
    },
    {
      "entropy": 0.5483623296022415,
      "epoch": 0.8208955223880597,
      "grad_norm": 0.12760840356349945,
      "learning_rate": 0.0002,
      "loss": 0.5440163016319275,
      "mean_token_accuracy": 0.7794655859470367,
      "num_tokens": 3604413.0,
      "step": 220
    },
    {
      "entropy": 0.5516934990882874,
      "epoch": 0.8246268656716418,
      "grad_norm": 0.13432522118091583,
      "learning_rate": 0.0002,
      "loss": 0.5498266220092773,
      "mean_token_accuracy": 0.7779892683029175,
      "num_tokens": 3620667.0,
      "step": 221
    },
    {
      "entropy": 0.5583075881004333,
      "epoch": 0.8283582089552238,
      "grad_norm": 0.1205005794763565,
      "learning_rate": 0.0002,
      "loss": 0.5606446266174316,
      "mean_token_accuracy": 0.7730143070220947,
      "num_tokens": 3637160.0,
      "step": 222
    },
    {
      "entropy": 0.5281430184841156,
      "epoch": 0.832089552238806,
      "grad_norm": 0.11834297329187393,
      "learning_rate": 0.0002,
      "loss": 0.5331573486328125,
      "mean_token_accuracy": 0.7839753329753876,
      "num_tokens": 3653562.0,
      "step": 223
    },
    {
      "entropy": 0.5474057644605637,
      "epoch": 0.835820895522388,
      "grad_norm": 0.12258574366569519,
      "learning_rate": 0.0002,
      "loss": 0.5449813604354858,
      "mean_token_accuracy": 0.780377060174942,
      "num_tokens": 3669951.0,
      "step": 224
    },
    {
      "entropy": 0.5545710325241089,
      "epoch": 0.8395522388059702,
      "grad_norm": 0.1338793784379959,
      "learning_rate": 0.0002,
      "loss": 0.5493278503417969,
      "mean_token_accuracy": 0.7759524881839752,
      "num_tokens": 3686193.0,
      "step": 225
    },
    {
      "entropy": 0.5437184125185013,
      "epoch": 0.8432835820895522,
      "grad_norm": 0.11655160784721375,
      "learning_rate": 0.0002,
      "loss": 0.5418398380279541,
      "mean_token_accuracy": 0.7775491774082184,
      "num_tokens": 3702353.0,
      "step": 226
    },
    {
      "entropy": 0.5532678067684174,
      "epoch": 0.8470149253731343,
      "grad_norm": 0.1549050509929657,
      "learning_rate": 0.0002,
      "loss": 0.5550553798675537,
      "mean_token_accuracy": 0.7763772308826447,
      "num_tokens": 3719232.0,
      "step": 227
    },
    {
      "entropy": 0.5559423863887787,
      "epoch": 0.8507462686567164,
      "grad_norm": 0.14761976897716522,
      "learning_rate": 0.0002,
      "loss": 0.5570894479751587,
      "mean_token_accuracy": 0.772933155298233,
      "num_tokens": 3735537.0,
      "step": 228
    },
    {
      "entropy": 0.5467868000268936,
      "epoch": 0.8544776119402985,
      "grad_norm": 0.1289997398853302,
      "learning_rate": 0.0002,
      "loss": 0.5503818988800049,
      "mean_token_accuracy": 0.7735268622636795,
      "num_tokens": 3751761.0,
      "step": 229
    },
    {
      "entropy": 0.5500779002904892,
      "epoch": 0.8582089552238806,
      "grad_norm": 0.1492077112197876,
      "learning_rate": 0.0002,
      "loss": 0.5505205392837524,
      "mean_token_accuracy": 0.777638703584671,
      "num_tokens": 3768182.0,
      "step": 230
    },
    {
      "entropy": 0.539194718003273,
      "epoch": 0.8619402985074627,
      "grad_norm": 0.11280067265033722,
      "learning_rate": 0.0002,
      "loss": 0.5417665243148804,
      "mean_token_accuracy": 0.7794284075498581,
      "num_tokens": 3784647.0,
      "step": 231
    },
    {
      "entropy": 0.5511510968208313,
      "epoch": 0.8656716417910447,
      "grad_norm": 0.13110041618347168,
      "learning_rate": 0.0002,
      "loss": 0.5588247776031494,
      "mean_token_accuracy": 0.7747578173875809,
      "num_tokens": 3801072.0,
      "step": 232
    },
    {
      "entropy": 0.5328868925571442,
      "epoch": 0.8694029850746269,
      "grad_norm": 0.11132191121578217,
      "learning_rate": 0.0002,
      "loss": 0.5321682095527649,
      "mean_token_accuracy": 0.785084918141365,
      "num_tokens": 3817270.0,
      "step": 233
    },
    {
      "entropy": 0.5497525930404663,
      "epoch": 0.8731343283582089,
      "grad_norm": 0.12497328221797943,
      "learning_rate": 0.0002,
      "loss": 0.5490625500679016,
      "mean_token_accuracy": 0.7780804187059402,
      "num_tokens": 3833650.0,
      "step": 234
    },
    {
      "entropy": 0.5649874210357666,
      "epoch": 0.8768656716417911,
      "grad_norm": 0.10820397734642029,
      "learning_rate": 0.0002,
      "loss": 0.5612732172012329,
      "mean_token_accuracy": 0.7699918150901794,
      "num_tokens": 3849965.0,
      "step": 235
    },
    {
      "entropy": 0.5564968436956406,
      "epoch": 0.8805970149253731,
      "grad_norm": 0.11200150102376938,
      "learning_rate": 0.0002,
      "loss": 0.5574247241020203,
      "mean_token_accuracy": 0.7737843245267868,
      "num_tokens": 3866325.0,
      "step": 236
    },
    {
      "entropy": 0.5345783978700638,
      "epoch": 0.8843283582089553,
      "grad_norm": 0.11046700924634933,
      "learning_rate": 0.0002,
      "loss": 0.5353702902793884,
      "mean_token_accuracy": 0.7825029641389847,
      "num_tokens": 3882836.0,
      "step": 237
    },
    {
      "entropy": 0.5462570339441299,
      "epoch": 0.8880597014925373,
      "grad_norm": 0.13713142275810242,
      "learning_rate": 0.0002,
      "loss": 0.5531303286552429,
      "mean_token_accuracy": 0.775889053940773,
      "num_tokens": 3899019.0,
      "step": 238
    },
    {
      "entropy": 0.5346651673316956,
      "epoch": 0.8917910447761194,
      "grad_norm": 0.11298073828220367,
      "learning_rate": 0.0002,
      "loss": 0.5383750796318054,
      "mean_token_accuracy": 0.780723512172699,
      "num_tokens": 3915451.0,
      "step": 239
    },
    {
      "entropy": 0.5661043077707291,
      "epoch": 0.8955223880597015,
      "grad_norm": 0.12630173563957214,
      "learning_rate": 0.0002,
      "loss": 0.5633317232131958,
      "mean_token_accuracy": 0.7725178003311157,
      "num_tokens": 3931857.0,
      "step": 240
    },
    {
      "entropy": 0.5499769002199173,
      "epoch": 0.8992537313432836,
      "grad_norm": 0.10539573431015015,
      "learning_rate": 0.0002,
      "loss": 0.5443609356880188,
      "mean_token_accuracy": 0.7807674556970596,
      "num_tokens": 3948251.0,
      "step": 241
    },
    {
      "entropy": 0.5542334765195847,
      "epoch": 0.9029850746268657,
      "grad_norm": 0.10860421508550644,
      "learning_rate": 0.0002,
      "loss": 0.5467254519462585,
      "mean_token_accuracy": 0.7777283936738968,
      "num_tokens": 3964506.0,
      "step": 242
    },
    {
      "entropy": 0.5593715906143188,
      "epoch": 0.9067164179104478,
      "grad_norm": 0.11269830167293549,
      "learning_rate": 0.0002,
      "loss": 0.5568402409553528,
      "mean_token_accuracy": 0.7743813842535019,
      "num_tokens": 3980991.0,
      "step": 243
    },
    {
      "entropy": 0.5386274456977844,
      "epoch": 0.9104477611940298,
      "grad_norm": 0.12022864073514938,
      "learning_rate": 0.0002,
      "loss": 0.538654088973999,
      "mean_token_accuracy": 0.7814032137393951,
      "num_tokens": 3997541.0,
      "step": 244
    },
    {
      "entropy": 0.5274675115942955,
      "epoch": 0.914179104477612,
      "grad_norm": 0.14818064868450165,
      "learning_rate": 0.0002,
      "loss": 0.5381026268005371,
      "mean_token_accuracy": 0.7816068381071091,
      "num_tokens": 4013664.0,
      "step": 245
    },
    {
      "entropy": 0.5379235744476318,
      "epoch": 0.917910447761194,
      "grad_norm": 0.1228220984339714,
      "learning_rate": 0.0002,
      "loss": 0.5409340858459473,
      "mean_token_accuracy": 0.7790304571390152,
      "num_tokens": 4029963.0,
      "step": 246
    },
    {
      "entropy": 0.5446107536554337,
      "epoch": 0.9216417910447762,
      "grad_norm": 0.12891873717308044,
      "learning_rate": 0.0002,
      "loss": 0.5515777468681335,
      "mean_token_accuracy": 0.7764184921979904,
      "num_tokens": 4046258.0,
      "step": 247
    },
    {
      "entropy": 0.5525491833686829,
      "epoch": 0.9253731343283582,
      "grad_norm": 0.1355786919593811,
      "learning_rate": 0.0002,
      "loss": 0.5416724681854248,
      "mean_token_accuracy": 0.7802292257547379,
      "num_tokens": 4062506.0,
      "step": 248
    },
    {
      "entropy": 0.536956250667572,
      "epoch": 0.9291044776119403,
      "grad_norm": 0.12736709415912628,
      "learning_rate": 0.0002,
      "loss": 0.5312113761901855,
      "mean_token_accuracy": 0.783654510974884,
      "num_tokens": 4078661.0,
      "step": 249
    },
    {
      "entropy": 0.5549832433462143,
      "epoch": 0.9328358208955224,
      "grad_norm": 0.12017148733139038,
      "learning_rate": 0.0002,
      "loss": 0.5565866827964783,
      "mean_token_accuracy": 0.773817777633667,
      "num_tokens": 4095022.0,
      "step": 250
    },
    {
      "entropy": 0.5422243773937225,
      "epoch": 0.9365671641791045,
      "grad_norm": 0.13573786616325378,
      "learning_rate": 0.0002,
      "loss": 0.5521195530891418,
      "mean_token_accuracy": 0.7785970866680145,
      "num_tokens": 4111402.0,
      "step": 251
    },
    {
      "entropy": 0.5538443177938461,
      "epoch": 0.9402985074626866,
      "grad_norm": 0.11428782343864441,
      "learning_rate": 0.0002,
      "loss": 0.5559377670288086,
      "mean_token_accuracy": 0.7728682309389114,
      "num_tokens": 4127625.0,
      "step": 252
    },
    {
      "entropy": 0.5606874525547028,
      "epoch": 0.9440298507462687,
      "grad_norm": 0.11228293180465698,
      "learning_rate": 0.0002,
      "loss": 0.5537079572677612,
      "mean_token_accuracy": 0.7777886986732483,
      "num_tokens": 4144209.0,
      "step": 253
    },
    {
      "entropy": 0.5587089955806732,
      "epoch": 0.9477611940298507,
      "grad_norm": 0.11430441588163376,
      "learning_rate": 0.0002,
      "loss": 0.5511766672134399,
      "mean_token_accuracy": 0.7764836251735687,
      "num_tokens": 4160587.0,
      "step": 254
    },
    {
      "entropy": 0.5543984770774841,
      "epoch": 0.9514925373134329,
      "grad_norm": 0.11914564669132233,
      "learning_rate": 0.0002,
      "loss": 0.5457825064659119,
      "mean_token_accuracy": 0.7772367298603058,
      "num_tokens": 4177078.0,
      "step": 255
    },
    {
      "entropy": 0.5496934354305267,
      "epoch": 0.9552238805970149,
      "grad_norm": 0.11808159202337265,
      "learning_rate": 0.0002,
      "loss": 0.5523373484611511,
      "mean_token_accuracy": 0.7758414000272751,
      "num_tokens": 4193671.0,
      "step": 256
    },
    {
      "entropy": 0.5323416441679001,
      "epoch": 0.9589552238805971,
      "grad_norm": 0.12709033489227295,
      "learning_rate": 0.0002,
      "loss": 0.5384759902954102,
      "mean_token_accuracy": 0.7808651477098465,
      "num_tokens": 4210085.0,
      "step": 257
    },
    {
      "entropy": 0.5338983610272408,
      "epoch": 0.9626865671641791,
      "grad_norm": 0.13908886909484863,
      "learning_rate": 0.0002,
      "loss": 0.5462735891342163,
      "mean_token_accuracy": 0.7780435681343079,
      "num_tokens": 4226494.0,
      "step": 258
    },
    {
      "entropy": 0.5453044772148132,
      "epoch": 0.9664179104477612,
      "grad_norm": 0.12644866108894348,
      "learning_rate": 0.0002,
      "loss": 0.551929235458374,
      "mean_token_accuracy": 0.775839775800705,
      "num_tokens": 4242785.0,
      "step": 259
    },
    {
      "entropy": 0.5603075176477432,
      "epoch": 0.9701492537313433,
      "grad_norm": 0.12755440175533295,
      "learning_rate": 0.0002,
      "loss": 0.5524581670761108,
      "mean_token_accuracy": 0.7771914452314377,
      "num_tokens": 4259299.0,
      "step": 260
    },
    {
      "entropy": 0.5615698993206024,
      "epoch": 0.9738805970149254,
      "grad_norm": 0.12908904254436493,
      "learning_rate": 0.0002,
      "loss": 0.5537154078483582,
      "mean_token_accuracy": 0.7739745527505875,
      "num_tokens": 4275749.0,
      "step": 261
    },
    {
      "entropy": 0.5526564866304398,
      "epoch": 0.9776119402985075,
      "grad_norm": 0.10715582221746445,
      "learning_rate": 0.0002,
      "loss": 0.5478145480155945,
      "mean_token_accuracy": 0.7770287841558456,
      "num_tokens": 4291706.0,
      "step": 262
    },
    {
      "entropy": 0.5461979508399963,
      "epoch": 0.9813432835820896,
      "grad_norm": 0.14307166635990143,
      "learning_rate": 0.0002,
      "loss": 0.5454379916191101,
      "mean_token_accuracy": 0.7798766791820526,
      "num_tokens": 4308137.0,
      "step": 263
    },
    {
      "entropy": 0.5203245729207993,
      "epoch": 0.9850746268656716,
      "grad_norm": 0.15710005164146423,
      "learning_rate": 0.0002,
      "loss": 0.5299646258354187,
      "mean_token_accuracy": 0.7843145579099655,
      "num_tokens": 4324411.0,
      "step": 264
    },
    {
      "entropy": 0.5302061140537262,
      "epoch": 0.9888059701492538,
      "grad_norm": 0.1519300937652588,
      "learning_rate": 0.0002,
      "loss": 0.5403961539268494,
      "mean_token_accuracy": 0.7806786000728607,
      "num_tokens": 4340384.0,
      "step": 265
    },
    {
      "entropy": 0.5364599078893661,
      "epoch": 0.9925373134328358,
      "grad_norm": 0.13450899720191956,
      "learning_rate": 0.0002,
      "loss": 0.5356532335281372,
      "mean_token_accuracy": 0.7834792584180832,
      "num_tokens": 4356954.0,
      "step": 266
    },
    {
      "entropy": 0.5519508272409439,
      "epoch": 0.996268656716418,
      "grad_norm": 0.13190409541130066,
      "learning_rate": 0.0002,
      "loss": 0.5425809621810913,
      "mean_token_accuracy": 0.7814677059650421,
      "num_tokens": 4373557.0,
      "step": 267
    },
    {
      "entropy": 0.5717380940914154,
      "epoch": 1.0,
      "grad_norm": 0.13511350750923157,
      "learning_rate": 0.0002,
      "loss": 0.5594110488891602,
      "mean_token_accuracy": 0.7763755470514297,
      "num_tokens": 4390028.0,
      "step": 268
    },
    {
      "entropy": 0.5333094298839569,
      "epoch": 1.0037313432835822,
      "grad_norm": 0.11232882738113403,
      "learning_rate": 0.0002,
      "loss": 0.5279825925827026,
      "mean_token_accuracy": 0.7831753939390182,
      "num_tokens": 4406075.0,
      "step": 269
    },
    {
      "entropy": 0.5085988268256187,
      "epoch": 1.007462686567164,
      "grad_norm": 0.1554645448923111,
      "learning_rate": 0.0002,
      "loss": 0.516677737236023,
      "mean_token_accuracy": 0.7916137427091599,
      "num_tokens": 4422444.0,
      "step": 270
    },
    {
      "entropy": 0.5372590869665146,
      "epoch": 1.0111940298507462,
      "grad_norm": 0.14206163585186005,
      "learning_rate": 0.0002,
      "loss": 0.542325496673584,
      "mean_token_accuracy": 0.7813751995563507,
      "num_tokens": 4438619.0,
      "step": 271
    },
    {
      "entropy": 0.5327645987272263,
      "epoch": 1.0149253731343284,
      "grad_norm": 0.12639598548412323,
      "learning_rate": 0.0002,
      "loss": 0.5381733775138855,
      "mean_token_accuracy": 0.7798869907855988,
      "num_tokens": 4455013.0,
      "step": 272
    },
    {
      "entropy": 0.5318270623683929,
      "epoch": 1.0186567164179103,
      "grad_norm": 0.14597581326961517,
      "learning_rate": 0.0002,
      "loss": 0.5323677659034729,
      "mean_token_accuracy": 0.7859037518501282,
      "num_tokens": 4471596.0,
      "step": 273
    },
    {
      "entropy": 0.549939751625061,
      "epoch": 1.0223880597014925,
      "grad_norm": 0.14265935122966766,
      "learning_rate": 0.0002,
      "loss": 0.5377833247184753,
      "mean_token_accuracy": 0.7833307683467865,
      "num_tokens": 4487885.0,
      "step": 274
    },
    {
      "entropy": 0.549922838807106,
      "epoch": 1.0261194029850746,
      "grad_norm": 0.1281050145626068,
      "learning_rate": 0.0002,
      "loss": 0.5483719706535339,
      "mean_token_accuracy": 0.7763915956020355,
      "num_tokens": 4504279.0,
      "step": 275
    },
    {
      "entropy": 0.5519027858972549,
      "epoch": 1.0298507462686568,
      "grad_norm": 0.13199536502361298,
      "learning_rate": 0.0002,
      "loss": 0.5520401000976562,
      "mean_token_accuracy": 0.7754272371530533,
      "num_tokens": 4520877.0,
      "step": 276
    },
    {
      "entropy": 0.5326957255601883,
      "epoch": 1.0335820895522387,
      "grad_norm": 0.13716775178909302,
      "learning_rate": 0.0002,
      "loss": 0.5377839207649231,
      "mean_token_accuracy": 0.77959144115448,
      "num_tokens": 4537306.0,
      "step": 277
    },
    {
      "entropy": 0.5343386679887772,
      "epoch": 1.037313432835821,
      "grad_norm": 0.12250324338674545,
      "learning_rate": 0.0002,
      "loss": 0.5346370935440063,
      "mean_token_accuracy": 0.7819696217775345,
      "num_tokens": 4553694.0,
      "step": 278
    },
    {
      "entropy": 0.5221862643957138,
      "epoch": 1.041044776119403,
      "grad_norm": 0.14083418250083923,
      "learning_rate": 0.0002,
      "loss": 0.5204699039459229,
      "mean_token_accuracy": 0.7915231883525848,
      "num_tokens": 4569929.0,
      "step": 279
    },
    {
      "entropy": 0.5506787896156311,
      "epoch": 1.044776119402985,
      "grad_norm": 0.11459501832723618,
      "learning_rate": 0.0002,
      "loss": 0.5497503280639648,
      "mean_token_accuracy": 0.7762598097324371,
      "num_tokens": 4586327.0,
      "step": 280
    },
    {
      "entropy": 0.5387643724679947,
      "epoch": 1.0485074626865671,
      "grad_norm": 0.1149069145321846,
      "learning_rate": 0.0002,
      "loss": 0.536687970161438,
      "mean_token_accuracy": 0.7849635928869247,
      "num_tokens": 4602577.0,
      "step": 281
    },
    {
      "entropy": 0.5402974784374237,
      "epoch": 1.0522388059701493,
      "grad_norm": 0.13960953056812286,
      "learning_rate": 0.0002,
      "loss": 0.5357297658920288,
      "mean_token_accuracy": 0.782235711812973,
      "num_tokens": 4618829.0,
      "step": 282
    },
    {
      "entropy": 0.5379159897565842,
      "epoch": 1.0559701492537314,
      "grad_norm": 0.12440282106399536,
      "learning_rate": 0.0002,
      "loss": 0.5391443967819214,
      "mean_token_accuracy": 0.7829291224479675,
      "num_tokens": 4635167.0,
      "step": 283
    },
    {
      "entropy": 0.5129481852054596,
      "epoch": 1.0597014925373134,
      "grad_norm": 0.13519050180912018,
      "learning_rate": 0.0002,
      "loss": 0.5105025768280029,
      "mean_token_accuracy": 0.7926614433526993,
      "num_tokens": 4651165.0,
      "step": 284
    },
    {
      "entropy": 0.5542086809873581,
      "epoch": 1.0634328358208955,
      "grad_norm": 0.14323101937770844,
      "learning_rate": 0.0002,
      "loss": 0.5622052550315857,
      "mean_token_accuracy": 0.7727599292993546,
      "num_tokens": 4667347.0,
      "step": 285
    },
    {
      "entropy": 0.5243228375911713,
      "epoch": 1.0671641791044777,
      "grad_norm": 0.1330215483903885,
      "learning_rate": 0.0002,
      "loss": 0.5247523188591003,
      "mean_token_accuracy": 0.7867335379123688,
      "num_tokens": 4684015.0,
      "step": 286
    },
    {
      "entropy": 0.5412201136350632,
      "epoch": 1.0708955223880596,
      "grad_norm": 0.13448479771614075,
      "learning_rate": 0.0002,
      "loss": 0.54647296667099,
      "mean_token_accuracy": 0.7774277031421661,
      "num_tokens": 4700242.0,
      "step": 287
    },
    {
      "entropy": 0.5454149097204208,
      "epoch": 1.0746268656716418,
      "grad_norm": 0.13259278237819672,
      "learning_rate": 0.0002,
      "loss": 0.5461288690567017,
      "mean_token_accuracy": 0.7782861590385437,
      "num_tokens": 4716442.0,
      "step": 288
    },
    {
      "entropy": 0.526309534907341,
      "epoch": 1.078358208955224,
      "grad_norm": 0.12522561848163605,
      "learning_rate": 0.0002,
      "loss": 0.5221973061561584,
      "mean_token_accuracy": 0.789994552731514,
      "num_tokens": 4732742.0,
      "step": 289
    },
    {
      "entropy": 0.5411332100629807,
      "epoch": 1.0820895522388059,
      "grad_norm": 0.12081784009933472,
      "learning_rate": 0.0002,
      "loss": 0.5372704863548279,
      "mean_token_accuracy": 0.7822500914335251,
      "num_tokens": 4749084.0,
      "step": 290
    },
    {
      "entropy": 0.5575008988380432,
      "epoch": 1.085820895522388,
      "grad_norm": 0.11303576827049255,
      "learning_rate": 0.0002,
      "loss": 0.5508702397346497,
      "mean_token_accuracy": 0.7754259258508682,
      "num_tokens": 4765562.0,
      "step": 291
    },
    {
      "entropy": 0.5357666164636612,
      "epoch": 1.0895522388059702,
      "grad_norm": 0.12666599452495575,
      "learning_rate": 0.0002,
      "loss": 0.5432624220848083,
      "mean_token_accuracy": 0.7804068475961685,
      "num_tokens": 4781995.0,
      "step": 292
    },
    {
      "entropy": 0.5331733524799347,
      "epoch": 1.0932835820895523,
      "grad_norm": 0.12246809899806976,
      "learning_rate": 0.0002,
      "loss": 0.5331196784973145,
      "mean_token_accuracy": 0.7823672741651535,
      "num_tokens": 4798355.0,
      "step": 293
    },
    {
      "entropy": 0.531685009598732,
      "epoch": 1.0970149253731343,
      "grad_norm": 0.12172231823205948,
      "learning_rate": 0.0002,
      "loss": 0.5293748378753662,
      "mean_token_accuracy": 0.7843722105026245,
      "num_tokens": 4814357.0,
      "step": 294
    },
    {
      "entropy": 0.554166242480278,
      "epoch": 1.1007462686567164,
      "grad_norm": 0.14191463589668274,
      "learning_rate": 0.0002,
      "loss": 0.5532712936401367,
      "mean_token_accuracy": 0.7733844220638275,
      "num_tokens": 4830954.0,
      "step": 295
    },
    {
      "entropy": 0.5282094776630402,
      "epoch": 1.1044776119402986,
      "grad_norm": 0.14205436408519745,
      "learning_rate": 0.0002,
      "loss": 0.530907392501831,
      "mean_token_accuracy": 0.7830108106136322,
      "num_tokens": 4847654.0,
      "step": 296
    },
    {
      "entropy": 0.5379532426595688,
      "epoch": 1.1082089552238805,
      "grad_norm": 0.12750715017318726,
      "learning_rate": 0.0002,
      "loss": 0.5367629528045654,
      "mean_token_accuracy": 0.7796261459589005,
      "num_tokens": 4864209.0,
      "step": 297
    },
    {
      "entropy": 0.5312085449695587,
      "epoch": 1.1119402985074627,
      "grad_norm": 0.11801420152187347,
      "learning_rate": 0.0002,
      "loss": 0.5278028845787048,
      "mean_token_accuracy": 0.7856296449899673,
      "num_tokens": 4880489.0,
      "step": 298
    },
    {
      "entropy": 0.5340657457709312,
      "epoch": 1.1156716417910448,
      "grad_norm": 0.1341157853603363,
      "learning_rate": 0.0002,
      "loss": 0.5332481265068054,
      "mean_token_accuracy": 0.7815297544002533,
      "num_tokens": 4897040.0,
      "step": 299
    },
    {
      "entropy": 0.5495938658714294,
      "epoch": 1.1194029850746268,
      "grad_norm": 0.15130798518657684,
      "learning_rate": 0.0002,
      "loss": 0.5522593855857849,
      "mean_token_accuracy": 0.7767154276371002,
      "num_tokens": 4913499.0,
      "step": 300
    },
    {
      "entropy": 0.5539788007736206,
      "epoch": 1.123134328358209,
      "grad_norm": 0.16235828399658203,
      "learning_rate": 0.0002,
      "loss": 0.556696891784668,
      "mean_token_accuracy": 0.7743791192770004,
      "num_tokens": 4930129.0,
      "step": 301
    },
    {
      "entropy": 0.5188294276595116,
      "epoch": 1.126865671641791,
      "grad_norm": 0.15251989662647247,
      "learning_rate": 0.0002,
      "loss": 0.5240339040756226,
      "mean_token_accuracy": 0.7848995476961136,
      "num_tokens": 4946505.0,
      "step": 302
    },
    {
      "entropy": 0.5330336540937424,
      "epoch": 1.1305970149253732,
      "grad_norm": 0.12010055035352707,
      "learning_rate": 0.0002,
      "loss": 0.530551552772522,
      "mean_token_accuracy": 0.7852707505226135,
      "num_tokens": 4963130.0,
      "step": 303
    },
    {
      "entropy": 0.5485537797212601,
      "epoch": 1.1343283582089552,
      "grad_norm": 0.12690100073814392,
      "learning_rate": 0.0002,
      "loss": 0.5355115532875061,
      "mean_token_accuracy": 0.7832664847373962,
      "num_tokens": 4979396.0,
      "step": 304
    },
    {
      "entropy": 0.5363626033067703,
      "epoch": 1.1380597014925373,
      "grad_norm": 0.12670499086380005,
      "learning_rate": 0.0002,
      "loss": 0.5318777561187744,
      "mean_token_accuracy": 0.7821652144193649,
      "num_tokens": 4995808.0,
      "step": 305
    },
    {
      "entropy": 0.556913822889328,
      "epoch": 1.1417910447761195,
      "grad_norm": 0.1417754739522934,
      "learning_rate": 0.0002,
      "loss": 0.5632070899009705,
      "mean_token_accuracy": 0.7711838483810425,
      "num_tokens": 5012247.0,
      "step": 306
    },
    {
      "entropy": 0.531732589006424,
      "epoch": 1.1455223880597014,
      "grad_norm": 0.12725508213043213,
      "learning_rate": 0.0002,
      "loss": 0.5370599627494812,
      "mean_token_accuracy": 0.7827656418085098,
      "num_tokens": 5028592.0,
      "step": 307
    },
    {
      "entropy": 0.5216507539153099,
      "epoch": 1.1492537313432836,
      "grad_norm": 0.14518076181411743,
      "learning_rate": 0.0002,
      "loss": 0.5285972952842712,
      "mean_token_accuracy": 0.7866590619087219,
      "num_tokens": 5044691.0,
      "step": 308
    },
    {
      "entropy": 0.5357843339443207,
      "epoch": 1.1529850746268657,
      "grad_norm": 0.14331640303134918,
      "learning_rate": 0.0002,
      "loss": 0.5414748191833496,
      "mean_token_accuracy": 0.7796436995267868,
      "num_tokens": 5060981.0,
      "step": 309
    },
    {
      "entropy": 0.550069585442543,
      "epoch": 1.1567164179104479,
      "grad_norm": 0.1419994831085205,
      "learning_rate": 0.0002,
      "loss": 0.5494908690452576,
      "mean_token_accuracy": 0.774166613817215,
      "num_tokens": 5077445.0,
      "step": 310
    },
    {
      "entropy": 0.5334684997797012,
      "epoch": 1.1604477611940298,
      "grad_norm": 0.13464997708797455,
      "learning_rate": 0.0002,
      "loss": 0.5329424738883972,
      "mean_token_accuracy": 0.7852184623479843,
      "num_tokens": 5093959.0,
      "step": 311
    },
    {
      "entropy": 0.5384779423475266,
      "epoch": 1.164179104477612,
      "grad_norm": 0.12344568222761154,
      "learning_rate": 0.0002,
      "loss": 0.5393214821815491,
      "mean_token_accuracy": 0.783161386847496,
      "num_tokens": 5110114.0,
      "step": 312
    },
    {
      "entropy": 0.566596269607544,
      "epoch": 1.1679104477611941,
      "grad_norm": 0.13426469266414642,
      "learning_rate": 0.0002,
      "loss": 0.5611933469772339,
      "mean_token_accuracy": 0.7707538902759552,
      "num_tokens": 5126500.0,
      "step": 313
    },
    {
      "entropy": 0.5522208511829376,
      "epoch": 1.171641791044776,
      "grad_norm": 0.11628863960504532,
      "learning_rate": 0.0002,
      "loss": 0.544135332107544,
      "mean_token_accuracy": 0.7789785116910934,
      "num_tokens": 5143003.0,
      "step": 314
    },
    {
      "entropy": 0.5286403447389603,
      "epoch": 1.1753731343283582,
      "grad_norm": 0.1331920623779297,
      "learning_rate": 0.0002,
      "loss": 0.5280863046646118,
      "mean_token_accuracy": 0.7847232520580292,
      "num_tokens": 5159209.0,
      "step": 315
    },
    {
      "entropy": 0.5208230093121529,
      "epoch": 1.1791044776119404,
      "grad_norm": 0.16730330884456635,
      "learning_rate": 0.0002,
      "loss": 0.5261422395706177,
      "mean_token_accuracy": 0.7885824292898178,
      "num_tokens": 5175336.0,
      "step": 316
    },
    {
      "entropy": 0.5139501839876175,
      "epoch": 1.1828358208955223,
      "grad_norm": 0.17113769054412842,
      "learning_rate": 0.0002,
      "loss": 0.5231570601463318,
      "mean_token_accuracy": 0.7852117121219635,
      "num_tokens": 5191589.0,
      "step": 317
    },
    {
      "entropy": 0.5446046590805054,
      "epoch": 1.1865671641791045,
      "grad_norm": 0.13907761871814728,
      "learning_rate": 0.0002,
      "loss": 0.5399054288864136,
      "mean_token_accuracy": 0.7820506691932678,
      "num_tokens": 5207939.0,
      "step": 318
    },
    {
      "entropy": 0.5267596393823624,
      "epoch": 1.1902985074626866,
      "grad_norm": 0.1434536576271057,
      "learning_rate": 0.0002,
      "loss": 0.5265440344810486,
      "mean_token_accuracy": 0.7849590480327606,
      "num_tokens": 5224274.0,
      "step": 319
    },
    {
      "entropy": 0.5274358987808228,
      "epoch": 1.1940298507462686,
      "grad_norm": 0.1331617832183838,
      "learning_rate": 0.0002,
      "loss": 0.5201226472854614,
      "mean_token_accuracy": 0.7877639383077621,
      "num_tokens": 5240488.0,
      "step": 320
    },
    {
      "entropy": 0.5438350588083267,
      "epoch": 1.1977611940298507,
      "grad_norm": 0.13051791489124298,
      "learning_rate": 0.0002,
      "loss": 0.5417760610580444,
      "mean_token_accuracy": 0.7801128923892975,
      "num_tokens": 5256913.0,
      "step": 321
    },
    {
      "entropy": 0.5419559478759766,
      "epoch": 1.2014925373134329,
      "grad_norm": 0.1651846319437027,
      "learning_rate": 0.0002,
      "loss": 0.5418766140937805,
      "mean_token_accuracy": 0.78228460252285,
      "num_tokens": 5273335.0,
      "step": 322
    },
    {
      "entropy": 0.5415368527173996,
      "epoch": 1.205223880597015,
      "grad_norm": 0.16951487958431244,
      "learning_rate": 0.0002,
      "loss": 0.5506861209869385,
      "mean_token_accuracy": 0.7753586024045944,
      "num_tokens": 5289759.0,
      "step": 323
    },
    {
      "entropy": 0.5358785539865494,
      "epoch": 1.208955223880597,
      "grad_norm": 0.1276499480009079,
      "learning_rate": 0.0002,
      "loss": 0.536015510559082,
      "mean_token_accuracy": 0.7820306271314621,
      "num_tokens": 5305982.0,
      "step": 324
    },
    {
      "entropy": 0.5399276316165924,
      "epoch": 1.212686567164179,
      "grad_norm": 0.13910017907619476,
      "learning_rate": 0.0002,
      "loss": 0.5390846133232117,
      "mean_token_accuracy": 0.7822140157222748,
      "num_tokens": 5322089.0,
      "step": 325
    },
    {
      "entropy": 0.54273721575737,
      "epoch": 1.2164179104477613,
      "grad_norm": 0.14252571761608124,
      "learning_rate": 0.0002,
      "loss": 0.544661283493042,
      "mean_token_accuracy": 0.7795404642820358,
      "num_tokens": 5338453.0,
      "step": 326
    },
    {
      "entropy": 0.5249434560537338,
      "epoch": 1.2201492537313432,
      "grad_norm": 0.1477581411600113,
      "learning_rate": 0.0002,
      "loss": 0.5217203497886658,
      "mean_token_accuracy": 0.7876597344875336,
      "num_tokens": 5354700.0,
      "step": 327
    },
    {
      "entropy": 0.5396385788917542,
      "epoch": 1.2238805970149254,
      "grad_norm": 0.14778634905815125,
      "learning_rate": 0.0002,
      "loss": 0.5354180335998535,
      "mean_token_accuracy": 0.7824464589357376,
      "num_tokens": 5371063.0,
      "step": 328
    },
    {
      "entropy": 0.5529858469963074,
      "epoch": 1.2276119402985075,
      "grad_norm": 0.13042840361595154,
      "learning_rate": 0.0002,
      "loss": 0.5544819831848145,
      "mean_token_accuracy": 0.7761342972517014,
      "num_tokens": 5387332.0,
      "step": 329
    },
    {
      "entropy": 0.5454379618167877,
      "epoch": 1.2313432835820897,
      "grad_norm": 0.15361081063747406,
      "learning_rate": 0.0002,
      "loss": 0.5482691526412964,
      "mean_token_accuracy": 0.7785263955593109,
      "num_tokens": 5403888.0,
      "step": 330
    },
    {
      "entropy": 0.5411872565746307,
      "epoch": 1.2350746268656716,
      "grad_norm": 0.1457548439502716,
      "learning_rate": 0.0002,
      "loss": 0.5460063219070435,
      "mean_token_accuracy": 0.7781393676996231,
      "num_tokens": 5420504.0,
      "step": 331
    },
    {
      "entropy": 0.5440556704998016,
      "epoch": 1.2388059701492538,
      "grad_norm": 0.17071455717086792,
      "learning_rate": 0.0002,
      "loss": 0.5447981357574463,
      "mean_token_accuracy": 0.7792220860719681,
      "num_tokens": 5436983.0,
      "step": 332
    },
    {
      "entropy": 0.5312773138284683,
      "epoch": 1.242537313432836,
      "grad_norm": 0.15535041689872742,
      "learning_rate": 0.0002,
      "loss": 0.5284558534622192,
      "mean_token_accuracy": 0.7843498289585114,
      "num_tokens": 5453439.0,
      "step": 333
    },
    {
      "entropy": 0.5413801819086075,
      "epoch": 1.2462686567164178,
      "grad_norm": 0.12389594316482544,
      "learning_rate": 0.0002,
      "loss": 0.5376867651939392,
      "mean_token_accuracy": 0.7829112410545349,
      "num_tokens": 5470171.0,
      "step": 334
    },
    {
      "entropy": 0.5580787807703018,
      "epoch": 1.25,
      "grad_norm": 0.15255525708198547,
      "learning_rate": 0.0002,
      "loss": 0.5539383292198181,
      "mean_token_accuracy": 0.7776496410369873,
      "num_tokens": 5486721.0,
      "step": 335
    },
    {
      "entropy": 0.551739051938057,
      "epoch": 1.2537313432835822,
      "grad_norm": 0.14014676213264465,
      "learning_rate": 0.0002,
      "loss": 0.5544667840003967,
      "mean_token_accuracy": 0.7750911116600037,
      "num_tokens": 5502822.0,
      "step": 336
    },
    {
      "entropy": 0.5480811297893524,
      "epoch": 1.2574626865671643,
      "grad_norm": 0.1353754997253418,
      "learning_rate": 0.0002,
      "loss": 0.5507966876029968,
      "mean_token_accuracy": 0.7761414647102356,
      "num_tokens": 5519323.0,
      "step": 337
    },
    {
      "entropy": 0.5414211302995682,
      "epoch": 1.2611940298507462,
      "grad_norm": 0.1243680939078331,
      "learning_rate": 0.0002,
      "loss": 0.5453186631202698,
      "mean_token_accuracy": 0.7782161980867386,
      "num_tokens": 5535863.0,
      "step": 338
    },
    {
      "entropy": 0.527251847088337,
      "epoch": 1.2649253731343284,
      "grad_norm": 0.1459769904613495,
      "learning_rate": 0.0002,
      "loss": 0.5396205186843872,
      "mean_token_accuracy": 0.7795730829238892,
      "num_tokens": 5552171.0,
      "step": 339
    },
    {
      "entropy": 0.5239678472280502,
      "epoch": 1.2686567164179103,
      "grad_norm": 0.12427864223718643,
      "learning_rate": 0.0002,
      "loss": 0.5271449089050293,
      "mean_token_accuracy": 0.7882652282714844,
      "num_tokens": 5568175.0,
      "step": 340
    },
    {
      "entropy": 0.543644979596138,
      "epoch": 1.2723880597014925,
      "grad_norm": 0.11923787742853165,
      "learning_rate": 0.0002,
      "loss": 0.5382894277572632,
      "mean_token_accuracy": 0.7825156450271606,
      "num_tokens": 5584465.0,
      "step": 341
    },
    {
      "entropy": 0.5515155345201492,
      "epoch": 1.2761194029850746,
      "grad_norm": 0.11743160337209702,
      "learning_rate": 0.0002,
      "loss": 0.5425710082054138,
      "mean_token_accuracy": 0.7795869261026382,
      "num_tokens": 5601282.0,
      "step": 342
    },
    {
      "entropy": 0.556594654917717,
      "epoch": 1.2798507462686568,
      "grad_norm": 0.13206258416175842,
      "learning_rate": 0.0002,
      "loss": 0.553520679473877,
      "mean_token_accuracy": 0.7744052857160568,
      "num_tokens": 5617511.0,
      "step": 343
    },
    {
      "entropy": 0.5562093108892441,
      "epoch": 1.2835820895522387,
      "grad_norm": 0.1419561356306076,
      "learning_rate": 0.0002,
      "loss": 0.5573539733886719,
      "mean_token_accuracy": 0.7758442610502243,
      "num_tokens": 5634008.0,
      "step": 344
    },
    {
      "entropy": 0.5295949876308441,
      "epoch": 1.287313432835821,
      "grad_norm": 0.136697456240654,
      "learning_rate": 0.0002,
      "loss": 0.536439836025238,
      "mean_token_accuracy": 0.7857220619916916,
      "num_tokens": 5650510.0,
      "step": 345
    },
    {
      "entropy": 0.5379302501678467,
      "epoch": 1.291044776119403,
      "grad_norm": 0.12953169643878937,
      "learning_rate": 0.0002,
      "loss": 0.5420789122581482,
      "mean_token_accuracy": 0.7796627283096313,
      "num_tokens": 5667049.0,
      "step": 346
    },
    {
      "entropy": 0.5327381789684296,
      "epoch": 1.294776119402985,
      "grad_norm": 0.12574538588523865,
      "learning_rate": 0.0002,
      "loss": 0.5231812000274658,
      "mean_token_accuracy": 0.7879898250102997,
      "num_tokens": 5683103.0,
      "step": 347
    },
    {
      "entropy": 0.5485990345478058,
      "epoch": 1.2985074626865671,
      "grad_norm": 0.12788420915603638,
      "learning_rate": 0.0002,
      "loss": 0.5398032665252686,
      "mean_token_accuracy": 0.782793402671814,
      "num_tokens": 5699531.0,
      "step": 348
    },
    {
      "entropy": 0.533822700381279,
      "epoch": 1.3022388059701493,
      "grad_norm": 0.12131965160369873,
      "learning_rate": 0.0002,
      "loss": 0.5313589572906494,
      "mean_token_accuracy": 0.7867582440376282,
      "num_tokens": 5715578.0,
      "step": 349
    },
    {
      "entropy": 0.5322218984365463,
      "epoch": 1.3059701492537314,
      "grad_norm": 0.13636337220668793,
      "learning_rate": 0.0002,
      "loss": 0.5401290655136108,
      "mean_token_accuracy": 0.781011775135994,
      "num_tokens": 5731885.0,
      "step": 350
    },
    {
      "entropy": 0.5119979977607727,
      "epoch": 1.3097014925373134,
      "grad_norm": 0.1538715660572052,
      "learning_rate": 0.0002,
      "loss": 0.5197798013687134,
      "mean_token_accuracy": 0.787521705031395,
      "num_tokens": 5748165.0,
      "step": 351
    },
    {
      "entropy": 0.522780068218708,
      "epoch": 1.3134328358208955,
      "grad_norm": 0.16598650813102722,
      "learning_rate": 0.0002,
      "loss": 0.5323340892791748,
      "mean_token_accuracy": 0.7844688296318054,
      "num_tokens": 5764530.0,
      "step": 352
    },
    {
      "entropy": 0.5400198400020599,
      "epoch": 1.3171641791044777,
      "grad_norm": 0.13400353491306305,
      "learning_rate": 0.0002,
      "loss": 0.5443472266197205,
      "mean_token_accuracy": 0.7780963182449341,
      "num_tokens": 5780899.0,
      "step": 353
    },
    {
      "entropy": 0.556030884385109,
      "epoch": 1.3208955223880596,
      "grad_norm": 0.13756664097309113,
      "learning_rate": 0.0002,
      "loss": 0.5470365285873413,
      "mean_token_accuracy": 0.7808873951435089,
      "num_tokens": 5796973.0,
      "step": 354
    },
    {
      "entropy": 0.5455010533332825,
      "epoch": 1.3246268656716418,
      "grad_norm": 0.17140203714370728,
      "learning_rate": 0.0002,
      "loss": 0.534233808517456,
      "mean_token_accuracy": 0.7828006148338318,
      "num_tokens": 5813201.0,
      "step": 355
    },
    {
      "entropy": 0.5456499308347702,
      "epoch": 1.328358208955224,
      "grad_norm": 0.13772569596767426,
      "learning_rate": 0.0002,
      "loss": 0.5461813807487488,
      "mean_token_accuracy": 0.7786128669977188,
      "num_tokens": 5829457.0,
      "step": 356
    },
    {
      "entropy": 0.5223972797393799,
      "epoch": 1.332089552238806,
      "grad_norm": 0.22252066433429718,
      "learning_rate": 0.0002,
      "loss": 0.5330066084861755,
      "mean_token_accuracy": 0.7818692922592163,
      "num_tokens": 5845786.0,
      "step": 357
    },
    {
      "entropy": 0.5292713642120361,
      "epoch": 1.335820895522388,
      "grad_norm": 0.14202645421028137,
      "learning_rate": 0.0002,
      "loss": 0.5392715930938721,
      "mean_token_accuracy": 0.7805515229701996,
      "num_tokens": 5862226.0,
      "step": 358
    },
    {
      "entropy": 0.5300968736410141,
      "epoch": 1.3395522388059702,
      "grad_norm": 0.18332785367965698,
      "learning_rate": 0.0002,
      "loss": 0.5347115993499756,
      "mean_token_accuracy": 0.7835317403078079,
      "num_tokens": 5878683.0,
      "step": 359
    },
    {
      "entropy": 0.5431934744119644,
      "epoch": 1.3432835820895521,
      "grad_norm": 0.14532189071178436,
      "learning_rate": 0.0002,
      "loss": 0.5330429077148438,
      "mean_token_accuracy": 0.7804477661848068,
      "num_tokens": 5895049.0,
      "step": 360
    },
    {
      "entropy": 0.5435428023338318,
      "epoch": 1.3470149253731343,
      "grad_norm": 0.1675368696451187,
      "learning_rate": 0.0002,
      "loss": 0.5300995707511902,
      "mean_token_accuracy": 0.785721018910408,
      "num_tokens": 5911501.0,
      "step": 361
    },
    {
      "entropy": 0.5362260937690735,
      "epoch": 1.3507462686567164,
      "grad_norm": 0.12240255624055862,
      "learning_rate": 0.0002,
      "loss": 0.5256680846214294,
      "mean_token_accuracy": 0.7851513922214508,
      "num_tokens": 5927731.0,
      "step": 362
    },
    {
      "entropy": 0.5452938824892044,
      "epoch": 1.3544776119402986,
      "grad_norm": 0.15949903428554535,
      "learning_rate": 0.0002,
      "loss": 0.5495162010192871,
      "mean_token_accuracy": 0.7768245339393616,
      "num_tokens": 5944077.0,
      "step": 363
    },
    {
      "entropy": 0.5237463638186455,
      "epoch": 1.3582089552238805,
      "grad_norm": 0.2120627760887146,
      "learning_rate": 0.0002,
      "loss": 0.5346443057060242,
      "mean_token_accuracy": 0.7835520654916763,
      "num_tokens": 5960532.0,
      "step": 364
    },
    {
      "entropy": 0.5450356751680374,
      "epoch": 1.3619402985074627,
      "grad_norm": 0.12423616647720337,
      "learning_rate": 0.0002,
      "loss": 0.5510310530662537,
      "mean_token_accuracy": 0.7749469876289368,
      "num_tokens": 5976893.0,
      "step": 365
    },
    {
      "entropy": 0.5489538311958313,
      "epoch": 1.3656716417910448,
      "grad_norm": 0.17930445075035095,
      "learning_rate": 0.0002,
      "loss": 0.5512227416038513,
      "mean_token_accuracy": 0.7759018093347549,
      "num_tokens": 5993262.0,
      "step": 366
    },
    {
      "entropy": 0.5524207949638367,
      "epoch": 1.3694029850746268,
      "grad_norm": 0.12074736505746841,
      "learning_rate": 0.0002,
      "loss": 0.5450834631919861,
      "mean_token_accuracy": 0.7803297787904739,
      "num_tokens": 6009831.0,
      "step": 367
    },
    {
      "entropy": 0.5440987944602966,
      "epoch": 1.373134328358209,
      "grad_norm": 0.13452184200286865,
      "learning_rate": 0.0002,
      "loss": 0.5378953814506531,
      "mean_token_accuracy": 0.7820150256156921,
      "num_tokens": 6026331.0,
      "step": 368
    },
    {
      "entropy": 0.5413002520799637,
      "epoch": 1.376865671641791,
      "grad_norm": 0.1278562843799591,
      "learning_rate": 0.0002,
      "loss": 0.5359137654304504,
      "mean_token_accuracy": 0.783556342124939,
      "num_tokens": 6042945.0,
      "step": 369
    },
    {
      "entropy": 0.5525120049715042,
      "epoch": 1.3805970149253732,
      "grad_norm": 0.1208810955286026,
      "learning_rate": 0.0002,
      "loss": 0.5459328889846802,
      "mean_token_accuracy": 0.7781365811824799,
      "num_tokens": 6059427.0,
      "step": 370
    },
    {
      "entropy": 0.5276467949151993,
      "epoch": 1.3843283582089552,
      "grad_norm": 0.21167868375778198,
      "learning_rate": 0.0002,
      "loss": 0.5329975485801697,
      "mean_token_accuracy": 0.7855836153030396,
      "num_tokens": 6075868.0,
      "step": 371
    },
    {
      "entropy": 0.523284301161766,
      "epoch": 1.3880597014925373,
      "grad_norm": 0.13116827607154846,
      "learning_rate": 0.0002,
      "loss": 0.5309988260269165,
      "mean_token_accuracy": 0.7828356921672821,
      "num_tokens": 6092149.0,
      "step": 372
    },
    {
      "entropy": 0.5434711575508118,
      "epoch": 1.3917910447761195,
      "grad_norm": 0.3316550850868225,
      "learning_rate": 0.0002,
      "loss": 0.553439199924469,
      "mean_token_accuracy": 0.7766979038715363,
      "num_tokens": 6108567.0,
      "step": 373
    },
    {
      "entropy": 0.5287135094404221,
      "epoch": 1.3955223880597014,
      "grad_norm": 0.15037605166435242,
      "learning_rate": 0.0002,
      "loss": 0.5357441306114197,
      "mean_token_accuracy": 0.7817093282938004,
      "num_tokens": 6124527.0,
      "step": 374
    },
    {
      "entropy": 0.5508522838354111,
      "epoch": 1.3992537313432836,
      "grad_norm": 0.19524440169334412,
      "learning_rate": 0.0002,
      "loss": 0.5512291789054871,
      "mean_token_accuracy": 0.7776720374822617,
      "num_tokens": 6141075.0,
      "step": 375
    },
    {
      "entropy": 0.5336653590202332,
      "epoch": 1.4029850746268657,
      "grad_norm": 0.15542961657047272,
      "learning_rate": 0.0002,
      "loss": 0.5334641933441162,
      "mean_token_accuracy": 0.7813901156187057,
      "num_tokens": 6157438.0,
      "step": 376
    },
    {
      "entropy": 0.5536468476057053,
      "epoch": 1.4067164179104479,
      "grad_norm": 0.11985230445861816,
      "learning_rate": 0.0002,
      "loss": 0.5497922301292419,
      "mean_token_accuracy": 0.7766197621822357,
      "num_tokens": 6174052.0,
      "step": 377
    },
    {
      "entropy": 0.5455610156059265,
      "epoch": 1.4104477611940298,
      "grad_norm": 0.1377374231815338,
      "learning_rate": 0.0002,
      "loss": 0.5400494337081909,
      "mean_token_accuracy": 0.7812647223472595,
      "num_tokens": 6190741.0,
      "step": 378
    },
    {
      "entropy": 0.5355032831430435,
      "epoch": 1.414179104477612,
      "grad_norm": 0.12337534874677658,
      "learning_rate": 0.0002,
      "loss": 0.5313869118690491,
      "mean_token_accuracy": 0.7843705862760544,
      "num_tokens": 6207346.0,
      "step": 379
    },
    {
      "entropy": 0.5320865362882614,
      "epoch": 1.417910447761194,
      "grad_norm": 0.1453101485967636,
      "learning_rate": 0.0002,
      "loss": 0.5400369167327881,
      "mean_token_accuracy": 0.7805843502283096,
      "num_tokens": 6223644.0,
      "step": 380
    },
    {
      "entropy": 0.5373547524213791,
      "epoch": 1.421641791044776,
      "grad_norm": 0.19084329903125763,
      "learning_rate": 0.0002,
      "loss": 0.5499929785728455,
      "mean_token_accuracy": 0.7757923603057861,
      "num_tokens": 6239901.0,
      "step": 381
    },
    {
      "entropy": 0.5443465709686279,
      "epoch": 1.4253731343283582,
      "grad_norm": 0.11772217601537704,
      "learning_rate": 0.0002,
      "loss": 0.5418881773948669,
      "mean_token_accuracy": 0.7812986522912979,
      "num_tokens": 6256285.0,
      "step": 382
    },
    {
      "entropy": 0.5499950498342514,
      "epoch": 1.4291044776119404,
      "grad_norm": 0.1847136914730072,
      "learning_rate": 0.0002,
      "loss": 0.5488113760948181,
      "mean_token_accuracy": 0.7776869833469391,
      "num_tokens": 6272664.0,
      "step": 383
    },
    {
      "entropy": 0.5412472188472748,
      "epoch": 1.4328358208955223,
      "grad_norm": 0.1461949199438095,
      "learning_rate": 0.0002,
      "loss": 0.5365965366363525,
      "mean_token_accuracy": 0.7832726240158081,
      "num_tokens": 6289098.0,
      "step": 384
    },
    {
      "entropy": 0.5493346899747849,
      "epoch": 1.4365671641791045,
      "grad_norm": 0.17751483619213104,
      "learning_rate": 0.0002,
      "loss": 0.5465101003646851,
      "mean_token_accuracy": 0.7778099924325943,
      "num_tokens": 6305547.0,
      "step": 385
    },
    {
      "entropy": 0.5415252298116684,
      "epoch": 1.4402985074626866,
      "grad_norm": 0.13513009250164032,
      "learning_rate": 0.0002,
      "loss": 0.538934588432312,
      "mean_token_accuracy": 0.7832966297864914,
      "num_tokens": 6321844.0,
      "step": 386
    },
    {
      "entropy": 0.5470823347568512,
      "epoch": 1.4440298507462686,
      "grad_norm": 0.15616844594478607,
      "learning_rate": 0.0002,
      "loss": 0.5563836097717285,
      "mean_token_accuracy": 0.7730062156915665,
      "num_tokens": 6338401.0,
      "step": 387
    },
    {
      "entropy": 0.5151138752698898,
      "epoch": 1.4477611940298507,
      "grad_norm": 0.13514217734336853,
      "learning_rate": 0.0002,
      "loss": 0.5200275182723999,
      "mean_token_accuracy": 0.7898600101470947,
      "num_tokens": 6354762.0,
      "step": 388
    },
    {
      "entropy": 0.5174058377742767,
      "epoch": 1.4514925373134329,
      "grad_norm": 0.13703469932079315,
      "learning_rate": 0.0002,
      "loss": 0.5161208510398865,
      "mean_token_accuracy": 0.7918747067451477,
      "num_tokens": 6370840.0,
      "step": 389
    },
    {
      "entropy": 0.5557476729154587,
      "epoch": 1.455223880597015,
      "grad_norm": 0.11840767413377762,
      "learning_rate": 0.0002,
      "loss": 0.5515946745872498,
      "mean_token_accuracy": 0.7783915251493454,
      "num_tokens": 6387355.0,
      "step": 390
    },
    {
      "entropy": 0.5518558323383331,
      "epoch": 1.458955223880597,
      "grad_norm": 0.13202938437461853,
      "learning_rate": 0.0002,
      "loss": 0.5526413321495056,
      "mean_token_accuracy": 0.776582270860672,
      "num_tokens": 6403938.0,
      "step": 391
    },
    {
      "entropy": 0.5571378320455551,
      "epoch": 1.462686567164179,
      "grad_norm": 0.13269183039665222,
      "learning_rate": 0.0002,
      "loss": 0.5643842220306396,
      "mean_token_accuracy": 0.7722982317209244,
      "num_tokens": 6420250.0,
      "step": 392
    },
    {
      "entropy": 0.5537096560001373,
      "epoch": 1.4664179104477613,
      "grad_norm": 0.14151525497436523,
      "learning_rate": 0.0002,
      "loss": 0.553024411201477,
      "mean_token_accuracy": 0.7778746634721756,
      "num_tokens": 6436546.0,
      "step": 393
    },
    {
      "entropy": 0.5346309244632721,
      "epoch": 1.4701492537313432,
      "grad_norm": 0.13563434779644012,
      "learning_rate": 0.0002,
      "loss": 0.5249274969100952,
      "mean_token_accuracy": 0.7853583991527557,
      "num_tokens": 6453243.0,
      "step": 394
    },
    {
      "entropy": 0.5460333377122879,
      "epoch": 1.4738805970149254,
      "grad_norm": 0.14244568347930908,
      "learning_rate": 0.0002,
      "loss": 0.5472844243049622,
      "mean_token_accuracy": 0.7797000557184219,
      "num_tokens": 6469565.0,
      "step": 395
    },
    {
      "entropy": 0.5330733209848404,
      "epoch": 1.4776119402985075,
      "grad_norm": 0.15417160093784332,
      "learning_rate": 0.0002,
      "loss": 0.538681149482727,
      "mean_token_accuracy": 0.7821140140295029,
      "num_tokens": 6486038.0,
      "step": 396
    },
    {
      "entropy": 0.5275893434882164,
      "epoch": 1.4813432835820897,
      "grad_norm": 0.1634518802165985,
      "learning_rate": 0.0002,
      "loss": 0.5361412167549133,
      "mean_token_accuracy": 0.7828765362501144,
      "num_tokens": 6502376.0,
      "step": 397
    },
    {
      "entropy": 0.5401307940483093,
      "epoch": 1.4850746268656716,
      "grad_norm": 0.14567126333713531,
      "learning_rate": 0.0002,
      "loss": 0.5489403605461121,
      "mean_token_accuracy": 0.7781455963850021,
      "num_tokens": 6518668.0,
      "step": 398
    },
    {
      "entropy": 0.5669757276773453,
      "epoch": 1.4888059701492538,
      "grad_norm": 0.1354297697544098,
      "learning_rate": 0.0002,
      "loss": 0.5657601356506348,
      "mean_token_accuracy": 0.7712653428316116,
      "num_tokens": 6535182.0,
      "step": 399
    },
    {
      "entropy": 0.5363806635141373,
      "epoch": 1.4925373134328357,
      "grad_norm": 0.12377993017435074,
      "learning_rate": 0.0002,
      "loss": 0.529585599899292,
      "mean_token_accuracy": 0.7840481698513031,
      "num_tokens": 6551666.0,
      "step": 400
    },
    {
      "entropy": 0.5551501959562302,
      "epoch": 1.4962686567164178,
      "grad_norm": 0.14788372814655304,
      "learning_rate": 0.0002,
      "loss": 0.553497314453125,
      "mean_token_accuracy": 0.7757378667593002,
      "num_tokens": 6568256.0,
      "step": 401
    },
    {
      "entropy": 0.5353442132472992,
      "epoch": 1.5,
      "grad_norm": 0.12778371572494507,
      "learning_rate": 0.0002,
      "loss": 0.5333885550498962,
      "mean_token_accuracy": 0.7825479656457901,
      "num_tokens": 6584443.0,
      "step": 402
    },
    {
      "entropy": 0.5460584759712219,
      "epoch": 1.5037313432835822,
      "grad_norm": 0.1357504278421402,
      "learning_rate": 0.0002,
      "loss": 0.5496041774749756,
      "mean_token_accuracy": 0.7750886082649231,
      "num_tokens": 6600907.0,
      "step": 403
    },
    {
      "entropy": 0.5397640466690063,
      "epoch": 1.5074626865671643,
      "grad_norm": 0.13449276983737946,
      "learning_rate": 0.0002,
      "loss": 0.5374521017074585,
      "mean_token_accuracy": 0.783362939953804,
      "num_tokens": 6617309.0,
      "step": 404
    },
    {
      "entropy": 0.545674204826355,
      "epoch": 1.5111940298507462,
      "grad_norm": 0.12818823754787445,
      "learning_rate": 0.0002,
      "loss": 0.5414538383483887,
      "mean_token_accuracy": 0.7811758369207382,
      "num_tokens": 6633409.0,
      "step": 405
    },
    {
      "entropy": 0.5237551480531693,
      "epoch": 1.5149253731343284,
      "grad_norm": 0.1332634538412094,
      "learning_rate": 0.0002,
      "loss": 0.5288904905319214,
      "mean_token_accuracy": 0.7863495498895645,
      "num_tokens": 6649677.0,
      "step": 406
    },
    {
      "entropy": 0.5475018620491028,
      "epoch": 1.5186567164179103,
      "grad_norm": 0.1226048395037651,
      "learning_rate": 0.0002,
      "loss": 0.5457717180252075,
      "mean_token_accuracy": 0.7798316031694412,
      "num_tokens": 6665941.0,
      "step": 407
    },
    {
      "entropy": 0.5388360321521759,
      "epoch": 1.5223880597014925,
      "grad_norm": 0.11307930946350098,
      "learning_rate": 0.0002,
      "loss": 0.5332959294319153,
      "mean_token_accuracy": 0.7827007919549942,
      "num_tokens": 6682727.0,
      "step": 408
    },
    {
      "entropy": 0.5245520323514938,
      "epoch": 1.5261194029850746,
      "grad_norm": 0.13594341278076172,
      "learning_rate": 0.0002,
      "loss": 0.527988851070404,
      "mean_token_accuracy": 0.7841480374336243,
      "num_tokens": 6699061.0,
      "step": 409
    },
    {
      "entropy": 0.5443517565727234,
      "epoch": 1.5298507462686568,
      "grad_norm": 0.12875105440616608,
      "learning_rate": 0.0002,
      "loss": 0.5445384979248047,
      "mean_token_accuracy": 0.7800036072731018,
      "num_tokens": 6715276.0,
      "step": 410
    },
    {
      "entropy": 0.5312410593032837,
      "epoch": 1.533582089552239,
      "grad_norm": 0.14251653850078583,
      "learning_rate": 0.0002,
      "loss": 0.5363666415214539,
      "mean_token_accuracy": 0.7820229083299637,
      "num_tokens": 6731754.0,
      "step": 411
    },
    {
      "entropy": 0.5279273837804794,
      "epoch": 1.537313432835821,
      "grad_norm": 0.14002381265163422,
      "learning_rate": 0.0002,
      "loss": 0.533150851726532,
      "mean_token_accuracy": 0.7839628010988235,
      "num_tokens": 6748198.0,
      "step": 412
    },
    {
      "entropy": 0.5359641313552856,
      "epoch": 1.5410447761194028,
      "grad_norm": 0.12248595803976059,
      "learning_rate": 0.0002,
      "loss": 0.5377635359764099,
      "mean_token_accuracy": 0.7816402763128281,
      "num_tokens": 6764658.0,
      "step": 413
    },
    {
      "entropy": 0.5304668098688126,
      "epoch": 1.544776119402985,
      "grad_norm": 0.1455898880958557,
      "learning_rate": 0.0002,
      "loss": 0.527800440788269,
      "mean_token_accuracy": 0.7847253680229187,
      "num_tokens": 6780948.0,
      "step": 414
    },
    {
      "entropy": 0.5399336069822311,
      "epoch": 1.5485074626865671,
      "grad_norm": 0.1414983719587326,
      "learning_rate": 0.0002,
      "loss": 0.5367389917373657,
      "mean_token_accuracy": 0.7821487188339233,
      "num_tokens": 6797350.0,
      "step": 415
    },
    {
      "entropy": 0.5576040744781494,
      "epoch": 1.5522388059701493,
      "grad_norm": 0.12719132006168365,
      "learning_rate": 0.0002,
      "loss": 0.5524293780326843,
      "mean_token_accuracy": 0.7746585160493851,
      "num_tokens": 6813754.0,
      "step": 416
    },
    {
      "entropy": 0.5370134860277176,
      "epoch": 1.5559701492537314,
      "grad_norm": 0.1307905912399292,
      "learning_rate": 0.0002,
      "loss": 0.5359637141227722,
      "mean_token_accuracy": 0.7802634984254837,
      "num_tokens": 6829931.0,
      "step": 417
    },
    {
      "entropy": 0.5672536343336105,
      "epoch": 1.5597014925373134,
      "grad_norm": 0.14925286173820496,
      "learning_rate": 0.0002,
      "loss": 0.5706211924552917,
      "mean_token_accuracy": 0.7692793905735016,
      "num_tokens": 6846619.0,
      "step": 418
    },
    {
      "entropy": 0.5455258339643478,
      "epoch": 1.5634328358208955,
      "grad_norm": 0.13767075538635254,
      "learning_rate": 0.0002,
      "loss": 0.5497614145278931,
      "mean_token_accuracy": 0.7742694765329361,
      "num_tokens": 6862943.0,
      "step": 419
    },
    {
      "entropy": 0.5383682698011398,
      "epoch": 1.5671641791044775,
      "grad_norm": 0.14676761627197266,
      "learning_rate": 0.0002,
      "loss": 0.5352654457092285,
      "mean_token_accuracy": 0.7820954322814941,
      "num_tokens": 6879478.0,
      "step": 420
    },
    {
      "entropy": 0.5393406301736832,
      "epoch": 1.5708955223880596,
      "grad_norm": 0.14782963693141937,
      "learning_rate": 0.0002,
      "loss": 0.539406418800354,
      "mean_token_accuracy": 0.7811137288808823,
      "num_tokens": 6895819.0,
      "step": 421
    },
    {
      "entropy": 0.5472134947776794,
      "epoch": 1.5746268656716418,
      "grad_norm": 0.1328146755695343,
      "learning_rate": 0.0002,
      "loss": 0.5461377501487732,
      "mean_token_accuracy": 0.7797697186470032,
      "num_tokens": 6912305.0,
      "step": 422
    },
    {
      "entropy": 0.5397001504898071,
      "epoch": 1.578358208955224,
      "grad_norm": 0.12005209177732468,
      "learning_rate": 0.0002,
      "loss": 0.5396695137023926,
      "mean_token_accuracy": 0.7789896428585052,
      "num_tokens": 6928851.0,
      "step": 423
    },
    {
      "entropy": 0.5323083251714706,
      "epoch": 1.582089552238806,
      "grad_norm": 0.14206735789775848,
      "learning_rate": 0.0002,
      "loss": 0.5357058048248291,
      "mean_token_accuracy": 0.7814851403236389,
      "num_tokens": 6945117.0,
      "step": 424
    },
    {
      "entropy": 0.5220139473676682,
      "epoch": 1.585820895522388,
      "grad_norm": 0.13408760726451874,
      "learning_rate": 0.0002,
      "loss": 0.5282811522483826,
      "mean_token_accuracy": 0.7859802693128586,
      "num_tokens": 6961475.0,
      "step": 425
    },
    {
      "entropy": 0.5279606133699417,
      "epoch": 1.5895522388059702,
      "grad_norm": 0.1342962682247162,
      "learning_rate": 0.0002,
      "loss": 0.5310772061347961,
      "mean_token_accuracy": 0.7856840938329697,
      "num_tokens": 6977917.0,
      "step": 426
    },
    {
      "entropy": 0.5404426008462906,
      "epoch": 1.5932835820895521,
      "grad_norm": 0.11640056222677231,
      "learning_rate": 0.0002,
      "loss": 0.5350806713104248,
      "mean_token_accuracy": 0.7831773906946182,
      "num_tokens": 6994309.0,
      "step": 427
    },
    {
      "entropy": 0.546152800321579,
      "epoch": 1.5970149253731343,
      "grad_norm": 0.11648745834827423,
      "learning_rate": 0.0002,
      "loss": 0.5432876348495483,
      "mean_token_accuracy": 0.7806773632764816,
      "num_tokens": 7010651.0,
      "step": 428
    },
    {
      "entropy": 0.5330662578344345,
      "epoch": 1.6007462686567164,
      "grad_norm": 0.1201220154762268,
      "learning_rate": 0.0002,
      "loss": 0.5310200452804565,
      "mean_token_accuracy": 0.7844978868961334,
      "num_tokens": 7027129.0,
      "step": 429
    },
    {
      "entropy": 0.5318699181079865,
      "epoch": 1.6044776119402986,
      "grad_norm": 0.12328798323869705,
      "learning_rate": 0.0002,
      "loss": 0.5332854986190796,
      "mean_token_accuracy": 0.7820296734571457,
      "num_tokens": 7043492.0,
      "step": 430
    },
    {
      "entropy": 0.5330018848180771,
      "epoch": 1.6082089552238807,
      "grad_norm": 0.1538732498884201,
      "learning_rate": 0.0002,
      "loss": 0.5346086621284485,
      "mean_token_accuracy": 0.7841860204935074,
      "num_tokens": 7059825.0,
      "step": 431
    },
    {
      "entropy": 0.5369807183742523,
      "epoch": 1.6119402985074627,
      "grad_norm": 0.13523033261299133,
      "learning_rate": 0.0002,
      "loss": 0.543128490447998,
      "mean_token_accuracy": 0.779476061463356,
      "num_tokens": 7076083.0,
      "step": 432
    },
    {
      "entropy": 0.5597919672727585,
      "epoch": 1.6156716417910446,
      "grad_norm": 0.13593490421772003,
      "learning_rate": 0.0002,
      "loss": 0.56092369556427,
      "mean_token_accuracy": 0.7705628126859665,
      "num_tokens": 7092494.0,
      "step": 433
    },
    {
      "entropy": 0.5592869371175766,
      "epoch": 1.6194029850746268,
      "grad_norm": 0.13970784842967987,
      "learning_rate": 0.0002,
      "loss": 0.5588337182998657,
      "mean_token_accuracy": 0.7716414630413055,
      "num_tokens": 7108787.0,
      "step": 434
    },
    {
      "entropy": 0.5510755926370621,
      "epoch": 1.623134328358209,
      "grad_norm": 0.14515163004398346,
      "learning_rate": 0.0002,
      "loss": 0.5508431792259216,
      "mean_token_accuracy": 0.7757678478956223,
      "num_tokens": 7125326.0,
      "step": 435
    },
    {
      "entropy": 0.5493544340133667,
      "epoch": 1.626865671641791,
      "grad_norm": 0.13484683632850647,
      "learning_rate": 0.0002,
      "loss": 0.5357339382171631,
      "mean_token_accuracy": 0.7844331711530685,
      "num_tokens": 7141623.0,
      "step": 436
    },
    {
      "entropy": 0.5371888130903244,
      "epoch": 1.6305970149253732,
      "grad_norm": 0.12795639038085938,
      "learning_rate": 0.0002,
      "loss": 0.5337157249450684,
      "mean_token_accuracy": 0.7853695005178452,
      "num_tokens": 7158003.0,
      "step": 437
    },
    {
      "entropy": 0.5294598788022995,
      "epoch": 1.6343283582089554,
      "grad_norm": 0.13173329830169678,
      "learning_rate": 0.0002,
      "loss": 0.5329991579055786,
      "mean_token_accuracy": 0.7873143553733826,
      "num_tokens": 7174417.0,
      "step": 438
    },
    {
      "entropy": 0.5183067172765732,
      "epoch": 1.6380597014925373,
      "grad_norm": 0.14890097081661224,
      "learning_rate": 0.0002,
      "loss": 0.5276235938072205,
      "mean_token_accuracy": 0.7841698378324509,
      "num_tokens": 7190789.0,
      "step": 439
    },
    {
      "entropy": 0.5212598145008087,
      "epoch": 1.6417910447761193,
      "grad_norm": 0.1251063346862793,
      "learning_rate": 0.0002,
      "loss": 0.5228430032730103,
      "mean_token_accuracy": 0.7859450131654739,
      "num_tokens": 7207139.0,
      "step": 440
    },
    {
      "entropy": 0.5322405844926834,
      "epoch": 1.6455223880597014,
      "grad_norm": 0.13600069284439087,
      "learning_rate": 0.0002,
      "loss": 0.5263532996177673,
      "mean_token_accuracy": 0.7853893488645554,
      "num_tokens": 7223453.0,
      "step": 441
    },
    {
      "entropy": 0.5205891877412796,
      "epoch": 1.6492537313432836,
      "grad_norm": 0.13653913140296936,
      "learning_rate": 0.0002,
      "loss": 0.5208824872970581,
      "mean_token_accuracy": 0.7881260365247726,
      "num_tokens": 7240006.0,
      "step": 442
    },
    {
      "entropy": 0.5441347062587738,
      "epoch": 1.6529850746268657,
      "grad_norm": 0.14450038969516754,
      "learning_rate": 0.0002,
      "loss": 0.5436342358589172,
      "mean_token_accuracy": 0.7799146473407745,
      "num_tokens": 7256390.0,
      "step": 443
    },
    {
      "entropy": 0.5312005802989006,
      "epoch": 1.6567164179104479,
      "grad_norm": 0.12901286780834198,
      "learning_rate": 0.0002,
      "loss": 0.5335438847541809,
      "mean_token_accuracy": 0.78382308781147,
      "num_tokens": 7272830.0,
      "step": 444
    },
    {
      "entropy": 0.5523424595594406,
      "epoch": 1.6604477611940298,
      "grad_norm": 0.13704852759838104,
      "learning_rate": 0.0002,
      "loss": 0.5541114807128906,
      "mean_token_accuracy": 0.7756187319755554,
      "num_tokens": 7289085.0,
      "step": 445
    },
    {
      "entropy": 0.5462750494480133,
      "epoch": 1.664179104477612,
      "grad_norm": 0.1385122686624527,
      "learning_rate": 0.0002,
      "loss": 0.5408669114112854,
      "mean_token_accuracy": 0.7794688045978546,
      "num_tokens": 7305251.0,
      "step": 446
    },
    {
      "entropy": 0.5703910887241364,
      "epoch": 1.667910447761194,
      "grad_norm": 0.12344513088464737,
      "learning_rate": 0.0002,
      "loss": 0.5666346549987793,
      "mean_token_accuracy": 0.7705821841955185,
      "num_tokens": 7321796.0,
      "step": 447
    },
    {
      "entropy": 0.5504626631736755,
      "epoch": 1.671641791044776,
      "grad_norm": 0.12487871944904327,
      "learning_rate": 0.0002,
      "loss": 0.5492321848869324,
      "mean_token_accuracy": 0.7753137797117233,
      "num_tokens": 7338182.0,
      "step": 448
    },
    {
      "entropy": 0.5314936190843582,
      "epoch": 1.6753731343283582,
      "grad_norm": 0.1390916407108307,
      "learning_rate": 0.0002,
      "loss": 0.5342849493026733,
      "mean_token_accuracy": 0.7855862826108932,
      "num_tokens": 7354707.0,
      "step": 449
    },
    {
      "entropy": 0.5125585347414017,
      "epoch": 1.6791044776119404,
      "grad_norm": 0.13132618367671967,
      "learning_rate": 0.0002,
      "loss": 0.5202143788337708,
      "mean_token_accuracy": 0.7874000519514084,
      "num_tokens": 7370797.0,
      "step": 450
    },
    {
      "entropy": 0.5190107151865959,
      "epoch": 1.6828358208955225,
      "grad_norm": 0.15053601562976837,
      "learning_rate": 0.0002,
      "loss": 0.5218467116355896,
      "mean_token_accuracy": 0.7879750281572342,
      "num_tokens": 7387448.0,
      "step": 451
    },
    {
      "entropy": 0.5473128408193588,
      "epoch": 1.6865671641791045,
      "grad_norm": 0.14291800558567047,
      "learning_rate": 0.0002,
      "loss": 0.5459562540054321,
      "mean_token_accuracy": 0.7800840735435486,
      "num_tokens": 7403768.0,
      "step": 452
    },
    {
      "entropy": 0.5372306257486343,
      "epoch": 1.6902985074626866,
      "grad_norm": 0.14737331867218018,
      "learning_rate": 0.0002,
      "loss": 0.5391932725906372,
      "mean_token_accuracy": 0.7811848223209381,
      "num_tokens": 7420197.0,
      "step": 453
    },
    {
      "entropy": 0.5366326868534088,
      "epoch": 1.6940298507462686,
      "grad_norm": 0.13737186789512634,
      "learning_rate": 0.0002,
      "loss": 0.5392562747001648,
      "mean_token_accuracy": 0.7824465036392212,
      "num_tokens": 7436532.0,
      "step": 454
    },
    {
      "entropy": 0.5506515055894852,
      "epoch": 1.6977611940298507,
      "grad_norm": 0.15034589171409607,
      "learning_rate": 0.0002,
      "loss": 0.5501772165298462,
      "mean_token_accuracy": 0.7773263603448868,
      "num_tokens": 7452842.0,
      "step": 455
    },
    {
      "entropy": 0.5643105208873749,
      "epoch": 1.7014925373134329,
      "grad_norm": 0.14214570820331573,
      "learning_rate": 0.0002,
      "loss": 0.5492639541625977,
      "mean_token_accuracy": 0.7783908396959305,
      "num_tokens": 7469451.0,
      "step": 456
    },
    {
      "entropy": 0.5516497120261192,
      "epoch": 1.705223880597015,
      "grad_norm": 0.14590683579444885,
      "learning_rate": 0.0002,
      "loss": 0.5515267252922058,
      "mean_token_accuracy": 0.774686187505722,
      "num_tokens": 7485822.0,
      "step": 457
    },
    {
      "entropy": 0.5483950823545456,
      "epoch": 1.7089552238805972,
      "grad_norm": 0.15629805624485016,
      "learning_rate": 0.0002,
      "loss": 0.5422750115394592,
      "mean_token_accuracy": 0.7802471369504929,
      "num_tokens": 7502363.0,
      "step": 458
    },
    {
      "entropy": 0.5315360128879547,
      "epoch": 1.712686567164179,
      "grad_norm": 0.15466850996017456,
      "learning_rate": 0.0002,
      "loss": 0.5331098437309265,
      "mean_token_accuracy": 0.7842396944761276,
      "num_tokens": 7518672.0,
      "step": 459
    },
    {
      "entropy": 0.5366538316011429,
      "epoch": 1.716417910447761,
      "grad_norm": 0.15616163611412048,
      "learning_rate": 0.0002,
      "loss": 0.5455700755119324,
      "mean_token_accuracy": 0.7823781222105026,
      "num_tokens": 7534957.0,
      "step": 460
    },
    {
      "entropy": 0.5233009159564972,
      "epoch": 1.7201492537313432,
      "grad_norm": 0.1496264487504959,
      "learning_rate": 0.0002,
      "loss": 0.5298243761062622,
      "mean_token_accuracy": 0.7823347896337509,
      "num_tokens": 7551350.0,
      "step": 461
    },
    {
      "entropy": 0.5345755070447922,
      "epoch": 1.7238805970149254,
      "grad_norm": 0.15188711881637573,
      "learning_rate": 0.0002,
      "loss": 0.5339583158493042,
      "mean_token_accuracy": 0.7852912098169327,
      "num_tokens": 7567796.0,
      "step": 462
    },
    {
      "entropy": 0.525611899793148,
      "epoch": 1.7276119402985075,
      "grad_norm": 0.12338917702436447,
      "learning_rate": 0.0002,
      "loss": 0.5274109840393066,
      "mean_token_accuracy": 0.7858613133430481,
      "num_tokens": 7583895.0,
      "step": 463
    },
    {
      "entropy": 0.5306848883628845,
      "epoch": 1.7313432835820897,
      "grad_norm": 0.16974470019340515,
      "learning_rate": 0.0002,
      "loss": 0.5279258489608765,
      "mean_token_accuracy": 0.7865510731935501,
      "num_tokens": 7600124.0,
      "step": 464
    },
    {
      "entropy": 0.5408849269151688,
      "epoch": 1.7350746268656716,
      "grad_norm": 0.12648795545101166,
      "learning_rate": 0.0002,
      "loss": 0.5382460951805115,
      "mean_token_accuracy": 0.7846677452325821,
      "num_tokens": 7616438.0,
      "step": 465
    },
    {
      "entropy": 0.5429423898458481,
      "epoch": 1.7388059701492538,
      "grad_norm": 0.1650669425725937,
      "learning_rate": 0.0002,
      "loss": 0.549877941608429,
      "mean_token_accuracy": 0.7792258560657501,
      "num_tokens": 7632788.0,
      "step": 466
    },
    {
      "entropy": 0.5318955481052399,
      "epoch": 1.7425373134328357,
      "grad_norm": 0.12288089841604233,
      "learning_rate": 0.0002,
      "loss": 0.5323612093925476,
      "mean_token_accuracy": 0.7859359383583069,
      "num_tokens": 7649308.0,
      "step": 467
    },
    {
      "entropy": 0.548863410949707,
      "epoch": 1.7462686567164178,
      "grad_norm": 0.1326245218515396,
      "learning_rate": 0.0002,
      "loss": 0.5457996129989624,
      "mean_token_accuracy": 0.7799065709114075,
      "num_tokens": 7665793.0,
      "step": 468
    },
    {
      "entropy": 0.5389255881309509,
      "epoch": 1.75,
      "grad_norm": 0.12419410794973373,
      "learning_rate": 0.0002,
      "loss": 0.5312763452529907,
      "mean_token_accuracy": 0.7822507619857788,
      "num_tokens": 7682000.0,
      "step": 469
    },
    {
      "entropy": 0.5358720868825912,
      "epoch": 1.7537313432835822,
      "grad_norm": 0.13035476207733154,
      "learning_rate": 0.0002,
      "loss": 0.5321502685546875,
      "mean_token_accuracy": 0.7836209833621979,
      "num_tokens": 7698643.0,
      "step": 470
    },
    {
      "entropy": 0.5370121747255325,
      "epoch": 1.7574626865671643,
      "grad_norm": 0.1549667865037918,
      "learning_rate": 0.0002,
      "loss": 0.5385861396789551,
      "mean_token_accuracy": 0.7808156907558441,
      "num_tokens": 7714815.0,
      "step": 471
    },
    {
      "entropy": 0.5387648344039917,
      "epoch": 1.7611940298507462,
      "grad_norm": 0.14527052640914917,
      "learning_rate": 0.0002,
      "loss": 0.5470720529556274,
      "mean_token_accuracy": 0.7775331288576126,
      "num_tokens": 7731250.0,
      "step": 472
    },
    {
      "entropy": 0.5520026981830597,
      "epoch": 1.7649253731343284,
      "grad_norm": 0.19052588939666748,
      "learning_rate": 0.0002,
      "loss": 0.5578737854957581,
      "mean_token_accuracy": 0.7744869738817215,
      "num_tokens": 7747721.0,
      "step": 473
    },
    {
      "entropy": 0.5377953052520752,
      "epoch": 1.7686567164179103,
      "grad_norm": 0.13061052560806274,
      "learning_rate": 0.0002,
      "loss": 0.5413972735404968,
      "mean_token_accuracy": 0.7811722010374069,
      "num_tokens": 7763904.0,
      "step": 474
    },
    {
      "entropy": 0.5519908219575882,
      "epoch": 1.7723880597014925,
      "grad_norm": 0.1454058736562729,
      "learning_rate": 0.0002,
      "loss": 0.5414596796035767,
      "mean_token_accuracy": 0.7813711762428284,
      "num_tokens": 7780581.0,
      "step": 475
    },
    {
      "entropy": 0.5267625749111176,
      "epoch": 1.7761194029850746,
      "grad_norm": 0.1326485425233841,
      "learning_rate": 0.0002,
      "loss": 0.5213202834129333,
      "mean_token_accuracy": 0.7871652394533157,
      "num_tokens": 7796973.0,
      "step": 476
    },
    {
      "entropy": 0.553408294916153,
      "epoch": 1.7798507462686568,
      "grad_norm": 0.13312950730323792,
      "learning_rate": 0.0002,
      "loss": 0.5529948472976685,
      "mean_token_accuracy": 0.7743393182754517,
      "num_tokens": 7813279.0,
      "step": 477
    },
    {
      "entropy": 0.553880587220192,
      "epoch": 1.783582089552239,
      "grad_norm": 0.16114220023155212,
      "learning_rate": 0.0002,
      "loss": 0.5641807317733765,
      "mean_token_accuracy": 0.7722779810428619,
      "num_tokens": 7829823.0,
      "step": 478
    },
    {
      "entropy": 0.5241200774908066,
      "epoch": 1.787313432835821,
      "grad_norm": 0.15040791034698486,
      "learning_rate": 0.0002,
      "loss": 0.5346534252166748,
      "mean_token_accuracy": 0.7823406606912613,
      "num_tokens": 7845983.0,
      "step": 479
    },
    {
      "entropy": 0.5474425554275513,
      "epoch": 1.7910447761194028,
      "grad_norm": 0.13473069667816162,
      "learning_rate": 0.0002,
      "loss": 0.5514643788337708,
      "mean_token_accuracy": 0.775032564997673,
      "num_tokens": 7862179.0,
      "step": 480
    },
    {
      "entropy": 0.5494029968976974,
      "epoch": 1.794776119402985,
      "grad_norm": 0.14377883076667786,
      "learning_rate": 0.0002,
      "loss": 0.5433907508850098,
      "mean_token_accuracy": 0.7781640440225601,
      "num_tokens": 7878779.0,
      "step": 481
    },
    {
      "entropy": 0.5409138202667236,
      "epoch": 1.7985074626865671,
      "grad_norm": 0.14134465157985687,
      "learning_rate": 0.0002,
      "loss": 0.5372306704521179,
      "mean_token_accuracy": 0.7832998037338257,
      "num_tokens": 7895136.0,
      "step": 482
    },
    {
      "entropy": 0.5516301095485687,
      "epoch": 1.8022388059701493,
      "grad_norm": 0.13915129005908966,
      "learning_rate": 0.0002,
      "loss": 0.5529888272285461,
      "mean_token_accuracy": 0.7746001183986664,
      "num_tokens": 7911482.0,
      "step": 483
    },
    {
      "entropy": 0.5409607142210007,
      "epoch": 1.8059701492537314,
      "grad_norm": 0.1552349179983139,
      "learning_rate": 0.0002,
      "loss": 0.5396745204925537,
      "mean_token_accuracy": 0.7830557972192764,
      "num_tokens": 7927769.0,
      "step": 484
    },
    {
      "entropy": 0.5268412679433823,
      "epoch": 1.8097014925373134,
      "grad_norm": 0.16648107767105103,
      "learning_rate": 0.0002,
      "loss": 0.5397533178329468,
      "mean_token_accuracy": 0.782973125576973,
      "num_tokens": 7944237.0,
      "step": 485
    },
    {
      "entropy": 0.5383498221635818,
      "epoch": 1.8134328358208955,
      "grad_norm": 0.1299259066581726,
      "learning_rate": 0.0002,
      "loss": 0.5412971377372742,
      "mean_token_accuracy": 0.7789154797792435,
      "num_tokens": 7960404.0,
      "step": 486
    },
    {
      "entropy": 0.5497616678476334,
      "epoch": 1.8171641791044775,
      "grad_norm": 0.1571415513753891,
      "learning_rate": 0.0002,
      "loss": 0.5444965362548828,
      "mean_token_accuracy": 0.7790942490100861,
      "num_tokens": 7976843.0,
      "step": 487
    },
    {
      "entropy": 0.5411071628332138,
      "epoch": 1.8208955223880596,
      "grad_norm": 0.12472257018089294,
      "learning_rate": 0.0002,
      "loss": 0.5377678275108337,
      "mean_token_accuracy": 0.7812906056642532,
      "num_tokens": 7993308.0,
      "step": 488
    },
    {
      "entropy": 0.5332149565219879,
      "epoch": 1.8246268656716418,
      "grad_norm": 0.14515501260757446,
      "learning_rate": 0.0002,
      "loss": 0.532054603099823,
      "mean_token_accuracy": 0.7860440015792847,
      "num_tokens": 8009749.0,
      "step": 489
    },
    {
      "entropy": 0.5376683920621872,
      "epoch": 1.828358208955224,
      "grad_norm": 0.1362919807434082,
      "learning_rate": 0.0002,
      "loss": 0.5361682772636414,
      "mean_token_accuracy": 0.7828832864761353,
      "num_tokens": 8026107.0,
      "step": 490
    },
    {
      "entropy": 0.541684627532959,
      "epoch": 1.832089552238806,
      "grad_norm": 0.1390708088874817,
      "learning_rate": 0.0002,
      "loss": 0.5428534746170044,
      "mean_token_accuracy": 0.7796362638473511,
      "num_tokens": 8042519.0,
      "step": 491
    },
    {
      "entropy": 0.5491971075534821,
      "epoch": 1.835820895522388,
      "grad_norm": 0.18899311125278473,
      "learning_rate": 0.0002,
      "loss": 0.5468783378601074,
      "mean_token_accuracy": 0.7760737091302872,
      "num_tokens": 8058733.0,
      "step": 492
    },
    {
      "entropy": 0.5467192232608795,
      "epoch": 1.8395522388059702,
      "grad_norm": 0.12224384397268295,
      "learning_rate": 0.0002,
      "loss": 0.5412194728851318,
      "mean_token_accuracy": 0.7836457341909409,
      "num_tokens": 8075111.0,
      "step": 493
    },
    {
      "entropy": 0.5190225690603256,
      "epoch": 1.8432835820895521,
      "grad_norm": 0.17859016358852386,
      "learning_rate": 0.0002,
      "loss": 0.5287451148033142,
      "mean_token_accuracy": 0.7872583419084549,
      "num_tokens": 8091539.0,
      "step": 494
    },
    {
      "entropy": 0.5457055866718292,
      "epoch": 1.8470149253731343,
      "grad_norm": 0.14652208983898163,
      "learning_rate": 0.0002,
      "loss": 0.5511422157287598,
      "mean_token_accuracy": 0.7764985859394073,
      "num_tokens": 8107924.0,
      "step": 495
    },
    {
      "entropy": 0.5412308424711227,
      "epoch": 1.8507462686567164,
      "grad_norm": 0.14928752183914185,
      "learning_rate": 0.0002,
      "loss": 0.5386866331100464,
      "mean_token_accuracy": 0.7840718477964401,
      "num_tokens": 8124327.0,
      "step": 496
    },
    {
      "entropy": 0.5487564355134964,
      "epoch": 1.8544776119402986,
      "grad_norm": 0.14009299874305725,
      "learning_rate": 0.0002,
      "loss": 0.5402563810348511,
      "mean_token_accuracy": 0.781055673956871,
      "num_tokens": 8140629.0,
      "step": 497
    },
    {
      "entropy": 0.5530242621898651,
      "epoch": 1.8582089552238807,
      "grad_norm": 0.13880518078804016,
      "learning_rate": 0.0002,
      "loss": 0.5397564172744751,
      "mean_token_accuracy": 0.7810083031654358,
      "num_tokens": 8157176.0,
      "step": 498
    },
    {
      "entropy": 0.5339633226394653,
      "epoch": 1.8619402985074627,
      "grad_norm": 0.16541644930839539,
      "learning_rate": 0.0002,
      "loss": 0.5336776971817017,
      "mean_token_accuracy": 0.7829927057027817,
      "num_tokens": 8173382.0,
      "step": 499
    },
    {
      "entropy": 0.5558539777994156,
      "epoch": 1.8656716417910446,
      "grad_norm": 0.15278875827789307,
      "learning_rate": 0.0002,
      "loss": 0.5627698302268982,
      "mean_token_accuracy": 0.7725099176168442,
      "num_tokens": 8189820.0,
      "step": 500
    },
    {
      "entropy": 0.5367425978183746,
      "epoch": 1.8694029850746268,
      "grad_norm": 0.15401561558246613,
      "learning_rate": 0.0002,
      "loss": 0.546620786190033,
      "mean_token_accuracy": 0.7765664905309677,
      "num_tokens": 8205989.0,
      "step": 501
    },
    {
      "entropy": 0.5408999174833298,
      "epoch": 1.873134328358209,
      "grad_norm": 0.13051092624664307,
      "learning_rate": 0.0002,
      "loss": 0.5466805696487427,
      "mean_token_accuracy": 0.7781471610069275,
      "num_tokens": 8222509.0,
      "step": 502
    },
    {
      "entropy": 0.5321147739887238,
      "epoch": 1.876865671641791,
      "grad_norm": 0.13755947351455688,
      "learning_rate": 0.0002,
      "loss": 0.527456521987915,
      "mean_token_accuracy": 0.7872339636087418,
      "num_tokens": 8238911.0,
      "step": 503
    },
    {
      "entropy": 0.5611546188592911,
      "epoch": 1.8805970149253732,
      "grad_norm": 0.13492627441883087,
      "learning_rate": 0.0002,
      "loss": 0.548973798751831,
      "mean_token_accuracy": 0.7786827385425568,
      "num_tokens": 8255331.0,
      "step": 504
    },
    {
      "entropy": 0.5648814886808395,
      "epoch": 1.8843283582089554,
      "grad_norm": 0.13315370678901672,
      "learning_rate": 0.0002,
      "loss": 0.5626882314682007,
      "mean_token_accuracy": 0.7693315893411636,
      "num_tokens": 8271717.0,
      "step": 505
    },
    {
      "entropy": 0.528036579489708,
      "epoch": 1.8880597014925373,
      "grad_norm": 0.13826221227645874,
      "learning_rate": 0.0002,
      "loss": 0.5317479372024536,
      "mean_token_accuracy": 0.7865342795848846,
      "num_tokens": 8287916.0,
      "step": 506
    },
    {
      "entropy": 0.5300939381122589,
      "epoch": 1.8917910447761193,
      "grad_norm": 0.14022263884544373,
      "learning_rate": 0.0002,
      "loss": 0.5405997633934021,
      "mean_token_accuracy": 0.7812036871910095,
      "num_tokens": 8304453.0,
      "step": 507
    },
    {
      "entropy": 0.52273790538311,
      "epoch": 1.8955223880597014,
      "grad_norm": 0.1394582986831665,
      "learning_rate": 0.0002,
      "loss": 0.526207685470581,
      "mean_token_accuracy": 0.7882105112075806,
      "num_tokens": 8320635.0,
      "step": 508
    },
    {
      "entropy": 0.5376584082841873,
      "epoch": 1.8992537313432836,
      "grad_norm": 0.16204339265823364,
      "learning_rate": 0.0002,
      "loss": 0.5367757678031921,
      "mean_token_accuracy": 0.7841790616512299,
      "num_tokens": 8337016.0,
      "step": 509
    },
    {
      "entropy": 0.5457427948713303,
      "epoch": 1.9029850746268657,
      "grad_norm": 0.13758644461631775,
      "learning_rate": 0.0002,
      "loss": 0.5404728651046753,
      "mean_token_accuracy": 0.7789884358644485,
      "num_tokens": 8353374.0,
      "step": 510
    },
    {
      "entropy": 0.5548366904258728,
      "epoch": 1.9067164179104479,
      "grad_norm": 0.15079155564308167,
      "learning_rate": 0.0002,
      "loss": 0.5460405349731445,
      "mean_token_accuracy": 0.7766790390014648,
      "num_tokens": 8369864.0,
      "step": 511
    },
    {
      "entropy": 0.5432726740837097,
      "epoch": 1.9104477611940298,
      "grad_norm": 0.14672084152698517,
      "learning_rate": 0.0002,
      "loss": 0.5391443371772766,
      "mean_token_accuracy": 0.7813593149185181,
      "num_tokens": 8386310.0,
      "step": 512
    },
    {
      "entropy": 0.5469253212213516,
      "epoch": 1.914179104477612,
      "grad_norm": 0.12065178155899048,
      "learning_rate": 0.0002,
      "loss": 0.5509493350982666,
      "mean_token_accuracy": 0.7752728313207626,
      "num_tokens": 8402902.0,
      "step": 513
    },
    {
      "entropy": 0.5332511216402054,
      "epoch": 1.917910447761194,
      "grad_norm": 0.13797524571418762,
      "learning_rate": 0.0002,
      "loss": 0.5396395325660706,
      "mean_token_accuracy": 0.783454567193985,
      "num_tokens": 8418969.0,
      "step": 514
    },
    {
      "entropy": 0.5430255383253098,
      "epoch": 1.921641791044776,
      "grad_norm": 0.15779103338718414,
      "learning_rate": 0.0002,
      "loss": 0.5497632026672363,
      "mean_token_accuracy": 0.776575118303299,
      "num_tokens": 8435342.0,
      "step": 515
    },
    {
      "entropy": 0.541492372751236,
      "epoch": 1.9253731343283582,
      "grad_norm": 0.14993441104888916,
      "learning_rate": 0.0002,
      "loss": 0.5440635085105896,
      "mean_token_accuracy": 0.779094398021698,
      "num_tokens": 8451438.0,
      "step": 516
    },
    {
      "entropy": 0.5484725534915924,
      "epoch": 1.9291044776119404,
      "grad_norm": 0.12014457583427429,
      "learning_rate": 0.0002,
      "loss": 0.5494801998138428,
      "mean_token_accuracy": 0.7743937969207764,
      "num_tokens": 8467793.0,
      "step": 517
    },
    {
      "entropy": 0.5424629300832748,
      "epoch": 1.9328358208955225,
      "grad_norm": 0.1372799575328827,
      "learning_rate": 0.0002,
      "loss": 0.5402990579605103,
      "mean_token_accuracy": 0.7788502424955368,
      "num_tokens": 8484069.0,
      "step": 518
    },
    {
      "entropy": 0.544426254928112,
      "epoch": 1.9365671641791045,
      "grad_norm": 0.12580935657024384,
      "learning_rate": 0.0002,
      "loss": 0.5430607199668884,
      "mean_token_accuracy": 0.7801959961652756,
      "num_tokens": 8500603.0,
      "step": 519
    },
    {
      "entropy": 0.5405134111642838,
      "epoch": 1.9402985074626866,
      "grad_norm": 0.13943250477313995,
      "learning_rate": 0.0002,
      "loss": 0.5387794971466064,
      "mean_token_accuracy": 0.7797143012285233,
      "num_tokens": 8516792.0,
      "step": 520
    },
    {
      "entropy": 0.5363973081111908,
      "epoch": 1.9440298507462686,
      "grad_norm": 0.15255886316299438,
      "learning_rate": 0.0002,
      "loss": 0.5392638444900513,
      "mean_token_accuracy": 0.778968557715416,
      "num_tokens": 8533178.0,
      "step": 521
    },
    {
      "entropy": 0.5569429993629456,
      "epoch": 1.9477611940298507,
      "grad_norm": 0.14009712636470795,
      "learning_rate": 0.0002,
      "loss": 0.5554465055465698,
      "mean_token_accuracy": 0.7732362002134323,
      "num_tokens": 8549795.0,
      "step": 522
    },
    {
      "entropy": 0.560676708817482,
      "epoch": 1.9514925373134329,
      "grad_norm": 0.1429370492696762,
      "learning_rate": 0.0002,
      "loss": 0.5586832761764526,
      "mean_token_accuracy": 0.7744071185588837,
      "num_tokens": 8566708.0,
      "step": 523
    },
    {
      "entropy": 0.5566927641630173,
      "epoch": 1.955223880597015,
      "grad_norm": 0.1273992359638214,
      "learning_rate": 0.0002,
      "loss": 0.5483277440071106,
      "mean_token_accuracy": 0.7761266380548477,
      "num_tokens": 8582993.0,
      "step": 524
    },
    {
      "entropy": 0.5535138845443726,
      "epoch": 1.9589552238805972,
      "grad_norm": 0.15844318270683289,
      "learning_rate": 0.0002,
      "loss": 0.5520558953285217,
      "mean_token_accuracy": 0.7790683060884476,
      "num_tokens": 8599225.0,
      "step": 525
    },
    {
      "entropy": 0.5255821049213409,
      "epoch": 1.962686567164179,
      "grad_norm": 0.1505620777606964,
      "learning_rate": 0.0002,
      "loss": 0.5302370190620422,
      "mean_token_accuracy": 0.7846137434244156,
      "num_tokens": 8615790.0,
      "step": 526
    },
    {
      "entropy": 0.5364990532398224,
      "epoch": 1.966417910447761,
      "grad_norm": 0.18815594911575317,
      "learning_rate": 0.0002,
      "loss": 0.5442203283309937,
      "mean_token_accuracy": 0.7792959064245224,
      "num_tokens": 8632007.0,
      "step": 527
    },
    {
      "entropy": 0.5499100834131241,
      "epoch": 1.9701492537313432,
      "grad_norm": 0.12838681042194366,
      "learning_rate": 0.0002,
      "loss": 0.5423155426979065,
      "mean_token_accuracy": 0.77956822514534,
      "num_tokens": 8648517.0,
      "step": 528
    },
    {
      "entropy": 0.5600726753473282,
      "epoch": 1.9738805970149254,
      "grad_norm": 0.13670910894870758,
      "learning_rate": 0.0002,
      "loss": 0.5591787695884705,
      "mean_token_accuracy": 0.7713638991117477,
      "num_tokens": 8665136.0,
      "step": 529
    },
    {
      "entropy": 0.5376773029565811,
      "epoch": 1.9776119402985075,
      "grad_norm": 0.12114886194467545,
      "learning_rate": 0.0002,
      "loss": 0.5407379865646362,
      "mean_token_accuracy": 0.7814544290304184,
      "num_tokens": 8681529.0,
      "step": 530
    },
    {
      "entropy": 0.5403832793235779,
      "epoch": 1.9813432835820897,
      "grad_norm": 0.13908495008945465,
      "learning_rate": 0.0002,
      "loss": 0.5482066869735718,
      "mean_token_accuracy": 0.777704581618309,
      "num_tokens": 8697730.0,
      "step": 531
    },
    {
      "entropy": 0.5356862396001816,
      "epoch": 1.9850746268656716,
      "grad_norm": 0.13925939798355103,
      "learning_rate": 0.0002,
      "loss": 0.5371193289756775,
      "mean_token_accuracy": 0.783266693353653,
      "num_tokens": 8714219.0,
      "step": 532
    },
    {
      "entropy": 0.5331960469484329,
      "epoch": 1.9888059701492538,
      "grad_norm": 0.15995416045188904,
      "learning_rate": 0.0002,
      "loss": 0.5319101810455322,
      "mean_token_accuracy": 0.7843216061592102,
      "num_tokens": 8730525.0,
      "step": 533
    },
    {
      "entropy": 0.5409343987703323,
      "epoch": 1.9925373134328357,
      "grad_norm": 0.1330004185438156,
      "learning_rate": 0.0002,
      "loss": 0.5445230603218079,
      "mean_token_accuracy": 0.7773614227771759,
      "num_tokens": 8746950.0,
      "step": 534
    },
    {
      "entropy": 0.5394200682640076,
      "epoch": 1.9962686567164178,
      "grad_norm": 0.14103004336357117,
      "learning_rate": 0.0002,
      "loss": 0.5359162092208862,
      "mean_token_accuracy": 0.785576581954956,
      "num_tokens": 8763337.0,
      "step": 535
    },
    {
      "entropy": 0.5349156558513641,
      "epoch": 2.0,
      "grad_norm": 0.12837927043437958,
      "learning_rate": 0.0002,
      "loss": 0.5329214334487915,
      "mean_token_accuracy": 0.785938173532486,
      "num_tokens": 8779938.0,
      "step": 536
    },
    {
      "entropy": 0.5407280772924423,
      "epoch": 2.003731343283582,
      "grad_norm": 0.14622488617897034,
      "learning_rate": 0.0002,
      "loss": 0.5321956872940063,
      "mean_token_accuracy": 0.7852865755558014,
      "num_tokens": 8796464.0,
      "step": 537
    },
    {
      "entropy": 0.5337665975093842,
      "epoch": 2.0074626865671643,
      "grad_norm": 0.16594251990318298,
      "learning_rate": 0.0002,
      "loss": 0.5266042351722717,
      "mean_token_accuracy": 0.7868293672800064,
      "num_tokens": 8812777.0,
      "step": 538
    },
    {
      "entropy": 0.5268868803977966,
      "epoch": 2.0111940298507465,
      "grad_norm": 0.15608331561088562,
      "learning_rate": 0.0002,
      "loss": 0.5311114192008972,
      "mean_token_accuracy": 0.7839187681674957,
      "num_tokens": 8829112.0,
      "step": 539
    },
    {
      "entropy": 0.527610257267952,
      "epoch": 2.014925373134328,
      "grad_norm": 0.13121342658996582,
      "learning_rate": 0.0002,
      "loss": 0.5283110737800598,
      "mean_token_accuracy": 0.7851767688989639,
      "num_tokens": 8845686.0,
      "step": 540
    },
    {
      "entropy": 0.5114267989993095,
      "epoch": 2.0186567164179103,
      "grad_norm": 0.15982377529144287,
      "learning_rate": 0.0002,
      "loss": 0.5138009190559387,
      "mean_token_accuracy": 0.7923145592212677,
      "num_tokens": 8862042.0,
      "step": 541
    },
    {
      "entropy": 0.5179557651281357,
      "epoch": 2.0223880597014925,
      "grad_norm": 0.15685375034809113,
      "learning_rate": 0.0002,
      "loss": 0.5175086855888367,
      "mean_token_accuracy": 0.790000781416893,
      "num_tokens": 8878269.0,
      "step": 542
    },
    {
      "entropy": 0.5284497290849686,
      "epoch": 2.0261194029850746,
      "grad_norm": 0.155994713306427,
      "learning_rate": 0.0002,
      "loss": 0.5248953104019165,
      "mean_token_accuracy": 0.7887215316295624,
      "num_tokens": 8894744.0,
      "step": 543
    },
    {
      "entropy": 0.5114204958081245,
      "epoch": 2.029850746268657,
      "grad_norm": 0.1587519645690918,
      "learning_rate": 0.0002,
      "loss": 0.5146663784980774,
      "mean_token_accuracy": 0.7908709943294525,
      "num_tokens": 8911019.0,
      "step": 544
    },
    {
      "entropy": 0.5258788168430328,
      "epoch": 2.033582089552239,
      "grad_norm": 0.17405946552753448,
      "learning_rate": 0.0002,
      "loss": 0.5257717967033386,
      "mean_token_accuracy": 0.7857701331377029,
      "num_tokens": 8927423.0,
      "step": 545
    },
    {
      "entropy": 0.5308232307434082,
      "epoch": 2.0373134328358207,
      "grad_norm": 0.16010001301765442,
      "learning_rate": 0.0002,
      "loss": 0.5299814343452454,
      "mean_token_accuracy": 0.7874948382377625,
      "num_tokens": 8943802.0,
      "step": 546
    },
    {
      "entropy": 0.516572117805481,
      "epoch": 2.041044776119403,
      "grad_norm": 0.16816852986812592,
      "learning_rate": 0.0002,
      "loss": 0.5154708623886108,
      "mean_token_accuracy": 0.7876496762037277,
      "num_tokens": 8959993.0,
      "step": 547
    },
    {
      "entropy": 0.5281299874186516,
      "epoch": 2.044776119402985,
      "grad_norm": 0.14758102595806122,
      "learning_rate": 0.0002,
      "loss": 0.524406373500824,
      "mean_token_accuracy": 0.7861409038305283,
      "num_tokens": 8976245.0,
      "step": 548
    },
    {
      "entropy": 0.5246195495128632,
      "epoch": 2.048507462686567,
      "grad_norm": 0.16330084204673767,
      "learning_rate": 0.0002,
      "loss": 0.5244280099868774,
      "mean_token_accuracy": 0.7878082692623138,
      "num_tokens": 8992638.0,
      "step": 549
    },
    {
      "entropy": 0.514888346195221,
      "epoch": 2.0522388059701493,
      "grad_norm": 0.1649155467748642,
      "learning_rate": 0.0002,
      "loss": 0.5206322073936462,
      "mean_token_accuracy": 0.7888449877500534,
      "num_tokens": 9008736.0,
      "step": 550
    },
    {
      "entropy": 0.5066314935684204,
      "epoch": 2.0559701492537314,
      "grad_norm": 0.1575276404619217,
      "learning_rate": 0.0002,
      "loss": 0.5027191042900085,
      "mean_token_accuracy": 0.7947296053171158,
      "num_tokens": 9025125.0,
      "step": 551
    },
    {
      "entropy": 0.5268809348344803,
      "epoch": 2.0597014925373136,
      "grad_norm": 0.1932123601436615,
      "learning_rate": 0.0002,
      "loss": 0.526970386505127,
      "mean_token_accuracy": 0.7861645221710205,
      "num_tokens": 9041360.0,
      "step": 552
    },
    {
      "entropy": 0.5089156553149223,
      "epoch": 2.0634328358208953,
      "grad_norm": 0.17611229419708252,
      "learning_rate": 0.0002,
      "loss": 0.5170955061912537,
      "mean_token_accuracy": 0.7898762077093124,
      "num_tokens": 9057425.0,
      "step": 553
    },
    {
      "entropy": 0.5314554125070572,
      "epoch": 2.0671641791044775,
      "grad_norm": 0.16261620819568634,
      "learning_rate": 0.0002,
      "loss": 0.5317267775535583,
      "mean_token_accuracy": 0.7857931405305862,
      "num_tokens": 9073634.0,
      "step": 554
    },
    {
      "entropy": 0.5275600850582123,
      "epoch": 2.0708955223880596,
      "grad_norm": 0.1528756469488144,
      "learning_rate": 0.0002,
      "loss": 0.5216519832611084,
      "mean_token_accuracy": 0.784853920340538,
      "num_tokens": 9090072.0,
      "step": 555
    },
    {
      "entropy": 0.533121645450592,
      "epoch": 2.074626865671642,
      "grad_norm": 0.15978476405143738,
      "learning_rate": 0.0002,
      "loss": 0.5330748558044434,
      "mean_token_accuracy": 0.7852211892604828,
      "num_tokens": 9106310.0,
      "step": 556
    },
    {
      "entropy": 0.5289422124624252,
      "epoch": 2.078358208955224,
      "grad_norm": 0.18613378703594208,
      "learning_rate": 0.0002,
      "loss": 0.5246477127075195,
      "mean_token_accuracy": 0.7871279567480087,
      "num_tokens": 9122599.0,
      "step": 557
    },
    {
      "entropy": 0.5288784801959991,
      "epoch": 2.082089552238806,
      "grad_norm": 0.19494648277759552,
      "learning_rate": 0.0002,
      "loss": 0.5310162305831909,
      "mean_token_accuracy": 0.783275917172432,
      "num_tokens": 9138955.0,
      "step": 558
    },
    {
      "entropy": 0.5063241422176361,
      "epoch": 2.0858208955223883,
      "grad_norm": 0.17457328736782074,
      "learning_rate": 0.0002,
      "loss": 0.5103744268417358,
      "mean_token_accuracy": 0.7956038117408752,
      "num_tokens": 9155471.0,
      "step": 559
    },
    {
      "entropy": 0.5165305808186531,
      "epoch": 2.08955223880597,
      "grad_norm": 0.16135407984256744,
      "learning_rate": 0.0002,
      "loss": 0.5219785571098328,
      "mean_token_accuracy": 0.7876863032579422,
      "num_tokens": 9171894.0,
      "step": 560
    },
    {
      "entropy": 0.5188902914524078,
      "epoch": 2.093283582089552,
      "grad_norm": 0.16337014734745026,
      "learning_rate": 0.0002,
      "loss": 0.516549825668335,
      "mean_token_accuracy": 0.7918221950531006,
      "num_tokens": 9188463.0,
      "step": 561
    },
    {
      "entropy": 0.513557106256485,
      "epoch": 2.0970149253731343,
      "grad_norm": 0.1818535476922989,
      "learning_rate": 0.0002,
      "loss": 0.506076991558075,
      "mean_token_accuracy": 0.7936830073595047,
      "num_tokens": 9204870.0,
      "step": 562
    },
    {
      "entropy": 0.5341264307498932,
      "epoch": 2.1007462686567164,
      "grad_norm": 0.1677771359682083,
      "learning_rate": 0.0002,
      "loss": 0.530627965927124,
      "mean_token_accuracy": 0.7831838876008987,
      "num_tokens": 9221094.0,
      "step": 563
    },
    {
      "entropy": 0.5140577107667923,
      "epoch": 2.1044776119402986,
      "grad_norm": 0.17054656147956848,
      "learning_rate": 0.0002,
      "loss": 0.5144332647323608,
      "mean_token_accuracy": 0.7923785746097565,
      "num_tokens": 9237391.0,
      "step": 564
    },
    {
      "entropy": 0.497653529047966,
      "epoch": 2.1082089552238807,
      "grad_norm": 0.18110354244709015,
      "learning_rate": 0.0002,
      "loss": 0.5102217197418213,
      "mean_token_accuracy": 0.7931897193193436,
      "num_tokens": 9253611.0,
      "step": 565
    },
    {
      "entropy": 0.524284727871418,
      "epoch": 2.111940298507463,
      "grad_norm": 0.2005971521139145,
      "learning_rate": 0.0002,
      "loss": 0.5303030014038086,
      "mean_token_accuracy": 0.7885997593402863,
      "num_tokens": 9269952.0,
      "step": 566
    },
    {
      "entropy": 0.5399997532367706,
      "epoch": 2.1156716417910446,
      "grad_norm": 0.1460496038198471,
      "learning_rate": 0.0002,
      "loss": 0.5352809429168701,
      "mean_token_accuracy": 0.7851102352142334,
      "num_tokens": 9286381.0,
      "step": 567
    },
    {
      "entropy": 0.5403535813093185,
      "epoch": 2.1194029850746268,
      "grad_norm": 0.2164795845746994,
      "learning_rate": 0.0002,
      "loss": 0.5310791730880737,
      "mean_token_accuracy": 0.7864344716072083,
      "num_tokens": 9302619.0,
      "step": 568
    },
    {
      "entropy": 0.5281778201460838,
      "epoch": 2.123134328358209,
      "grad_norm": 0.14520607888698578,
      "learning_rate": 0.0002,
      "loss": 0.5214827060699463,
      "mean_token_accuracy": 0.7891172915697098,
      "num_tokens": 9319199.0,
      "step": 569
    },
    {
      "entropy": 0.5376487374305725,
      "epoch": 2.126865671641791,
      "grad_norm": 0.20075996220111847,
      "learning_rate": 0.0002,
      "loss": 0.5414179563522339,
      "mean_token_accuracy": 0.7825666964054108,
      "num_tokens": 9335645.0,
      "step": 570
    },
    {
      "entropy": 0.544133722782135,
      "epoch": 2.1305970149253732,
      "grad_norm": 0.17108148336410522,
      "learning_rate": 0.0002,
      "loss": 0.5474769473075867,
      "mean_token_accuracy": 0.778696671128273,
      "num_tokens": 9352250.0,
      "step": 571
    },
    {
      "entropy": 0.5139511153101921,
      "epoch": 2.1343283582089554,
      "grad_norm": 0.20305298268795013,
      "learning_rate": 0.0002,
      "loss": 0.5138852000236511,
      "mean_token_accuracy": 0.7916316092014313,
      "num_tokens": 9368581.0,
      "step": 572
    },
    {
      "entropy": 0.5336194783449173,
      "epoch": 2.138059701492537,
      "grad_norm": 0.17313581705093384,
      "learning_rate": 0.0002,
      "loss": 0.5371931195259094,
      "mean_token_accuracy": 0.7810296416282654,
      "num_tokens": 9385005.0,
      "step": 573
    },
    {
      "entropy": 0.5428188145160675,
      "epoch": 2.1417910447761193,
      "grad_norm": 0.18904267251491547,
      "learning_rate": 0.0002,
      "loss": 0.5414341688156128,
      "mean_token_accuracy": 0.7817030698060989,
      "num_tokens": 9401264.0,
      "step": 574
    },
    {
      "entropy": 0.5036500468850136,
      "epoch": 2.1455223880597014,
      "grad_norm": 0.16260603070259094,
      "learning_rate": 0.0002,
      "loss": 0.5049091577529907,
      "mean_token_accuracy": 0.7955426573753357,
      "num_tokens": 9417452.0,
      "step": 575
    },
    {
      "entropy": 0.5125822275876999,
      "epoch": 2.1492537313432836,
      "grad_norm": 0.18752527236938477,
      "learning_rate": 0.0002,
      "loss": 0.520676851272583,
      "mean_token_accuracy": 0.787801519036293,
      "num_tokens": 9433830.0,
      "step": 576
    },
    {
      "entropy": 0.5220265239477158,
      "epoch": 2.1529850746268657,
      "grad_norm": 0.17956171929836273,
      "learning_rate": 0.0002,
      "loss": 0.5259777903556824,
      "mean_token_accuracy": 0.7890594154596329,
      "num_tokens": 9449942.0,
      "step": 577
    },
    {
      "entropy": 0.5411542505025864,
      "epoch": 2.156716417910448,
      "grad_norm": 0.16276296973228455,
      "learning_rate": 0.0002,
      "loss": 0.5392127633094788,
      "mean_token_accuracy": 0.7827239036560059,
      "num_tokens": 9466361.0,
      "step": 578
    },
    {
      "entropy": 0.5376486927270889,
      "epoch": 2.16044776119403,
      "grad_norm": 0.18284423649311066,
      "learning_rate": 0.0002,
      "loss": 0.5354690551757812,
      "mean_token_accuracy": 0.7847119867801666,
      "num_tokens": 9482738.0,
      "step": 579
    },
    {
      "entropy": 0.527974009513855,
      "epoch": 2.1641791044776117,
      "grad_norm": 0.15606842935085297,
      "learning_rate": 0.0002,
      "loss": 0.5216515064239502,
      "mean_token_accuracy": 0.7893972098827362,
      "num_tokens": 9499285.0,
      "step": 580
    },
    {
      "entropy": 0.5080907642841339,
      "epoch": 2.167910447761194,
      "grad_norm": 0.19228458404541016,
      "learning_rate": 0.0002,
      "loss": 0.5062891840934753,
      "mean_token_accuracy": 0.7950604856014252,
      "num_tokens": 9515408.0,
      "step": 581
    },
    {
      "entropy": 0.5310265123844147,
      "epoch": 2.171641791044776,
      "grad_norm": 0.1585681140422821,
      "learning_rate": 0.0002,
      "loss": 0.5329898595809937,
      "mean_token_accuracy": 0.7825100123882294,
      "num_tokens": 9531802.0,
      "step": 582
    },
    {
      "entropy": 0.5163623988628387,
      "epoch": 2.175373134328358,
      "grad_norm": 0.16819821298122406,
      "learning_rate": 0.0002,
      "loss": 0.5175923109054565,
      "mean_token_accuracy": 0.7890376448631287,
      "num_tokens": 9548285.0,
      "step": 583
    },
    {
      "entropy": 0.5143009200692177,
      "epoch": 2.1791044776119404,
      "grad_norm": 0.16217826306819916,
      "learning_rate": 0.0002,
      "loss": 0.5155395865440369,
      "mean_token_accuracy": 0.7922197580337524,
      "num_tokens": 9564428.0,
      "step": 584
    },
    {
      "entropy": 0.5416625738143921,
      "epoch": 2.1828358208955225,
      "grad_norm": 0.15060050785541534,
      "learning_rate": 0.0002,
      "loss": 0.5370927453041077,
      "mean_token_accuracy": 0.7829685211181641,
      "num_tokens": 9580974.0,
      "step": 585
    },
    {
      "entropy": 0.5395999997854233,
      "epoch": 2.1865671641791047,
      "grad_norm": 0.17097517848014832,
      "learning_rate": 0.0002,
      "loss": 0.5385570526123047,
      "mean_token_accuracy": 0.7842200845479965,
      "num_tokens": 9597372.0,
      "step": 586
    },
    {
      "entropy": 0.5397211164236069,
      "epoch": 2.1902985074626864,
      "grad_norm": 0.1612662672996521,
      "learning_rate": 0.0002,
      "loss": 0.5392184257507324,
      "mean_token_accuracy": 0.7815093398094177,
      "num_tokens": 9613832.0,
      "step": 587
    },
    {
      "entropy": 0.5179775580763817,
      "epoch": 2.1940298507462686,
      "grad_norm": 0.17580583691596985,
      "learning_rate": 0.0002,
      "loss": 0.5214508771896362,
      "mean_token_accuracy": 0.7890152186155319,
      "num_tokens": 9630021.0,
      "step": 588
    },
    {
      "entropy": 0.5112824365496635,
      "epoch": 2.1977611940298507,
      "grad_norm": 0.2011307030916214,
      "learning_rate": 0.0002,
      "loss": 0.5203381180763245,
      "mean_token_accuracy": 0.7900092750787735,
      "num_tokens": 9646188.0,
      "step": 589
    },
    {
      "entropy": 0.5356829464435577,
      "epoch": 2.201492537313433,
      "grad_norm": 0.16764222085475922,
      "learning_rate": 0.0002,
      "loss": 0.5318949818611145,
      "mean_token_accuracy": 0.7853176593780518,
      "num_tokens": 9662704.0,
      "step": 590
    },
    {
      "entropy": 0.532988578081131,
      "epoch": 2.205223880597015,
      "grad_norm": 0.1625567525625229,
      "learning_rate": 0.0002,
      "loss": 0.5286852121353149,
      "mean_token_accuracy": 0.7845050990581512,
      "num_tokens": 9679126.0,
      "step": 591
    },
    {
      "entropy": 0.5083666741847992,
      "epoch": 2.208955223880597,
      "grad_norm": 0.17014159262180328,
      "learning_rate": 0.0002,
      "loss": 0.5085889101028442,
      "mean_token_accuracy": 0.7938840687274933,
      "num_tokens": 9695574.0,
      "step": 592
    },
    {
      "entropy": 0.5348383486270905,
      "epoch": 2.2126865671641793,
      "grad_norm": 0.15370626747608185,
      "learning_rate": 0.0002,
      "loss": 0.5363180041313171,
      "mean_token_accuracy": 0.7823249995708466,
      "num_tokens": 9711759.0,
      "step": 593
    },
    {
      "entropy": 0.521574854850769,
      "epoch": 2.216417910447761,
      "grad_norm": 0.1618925929069519,
      "learning_rate": 0.0002,
      "loss": 0.5165284872055054,
      "mean_token_accuracy": 0.7902027070522308,
      "num_tokens": 9728297.0,
      "step": 594
    },
    {
      "entropy": 0.5246837437152863,
      "epoch": 2.220149253731343,
      "grad_norm": 0.16403713822364807,
      "learning_rate": 0.0002,
      "loss": 0.5284984111785889,
      "mean_token_accuracy": 0.785593718290329,
      "num_tokens": 9745025.0,
      "step": 595
    },
    {
      "entropy": 0.5146933272480965,
      "epoch": 2.2238805970149254,
      "grad_norm": 0.16364289820194244,
      "learning_rate": 0.0002,
      "loss": 0.5155675411224365,
      "mean_token_accuracy": 0.7914301306009293,
      "num_tokens": 9761573.0,
      "step": 596
    },
    {
      "entropy": 0.5164592936635017,
      "epoch": 2.2276119402985075,
      "grad_norm": 0.16107001900672913,
      "learning_rate": 0.0002,
      "loss": 0.520284116268158,
      "mean_token_accuracy": 0.790960431098938,
      "num_tokens": 9777994.0,
      "step": 597
    },
    {
      "entropy": 0.5009781569242477,
      "epoch": 2.2313432835820897,
      "grad_norm": 0.17092035710811615,
      "learning_rate": 0.0002,
      "loss": 0.5013527870178223,
      "mean_token_accuracy": 0.7965078949928284,
      "num_tokens": 9794247.0,
      "step": 598
    },
    {
      "entropy": 0.5145166665315628,
      "epoch": 2.235074626865672,
      "grad_norm": 0.17742900550365448,
      "learning_rate": 0.0002,
      "loss": 0.5136178731918335,
      "mean_token_accuracy": 0.7902016937732697,
      "num_tokens": 9810623.0,
      "step": 599
    },
    {
      "entropy": 0.521144449710846,
      "epoch": 2.2388059701492535,
      "grad_norm": 0.1866447478532791,
      "learning_rate": 0.0002,
      "loss": 0.5256049633026123,
      "mean_token_accuracy": 0.7880899459123611,
      "num_tokens": 9827216.0,
      "step": 600
    },
    {
      "entropy": 0.5078264698386192,
      "epoch": 2.2425373134328357,
      "grad_norm": 0.18190419673919678,
      "learning_rate": 0.0002,
      "loss": 0.5107334852218628,
      "mean_token_accuracy": 0.7921731919050217,
      "num_tokens": 9843424.0,
      "step": 601
    },
    {
      "entropy": 0.5391242802143097,
      "epoch": 2.246268656716418,
      "grad_norm": 0.1664401739835739,
      "learning_rate": 0.0002,
      "loss": 0.5404478907585144,
      "mean_token_accuracy": 0.779574453830719,
      "num_tokens": 9859528.0,
      "step": 602
    },
    {
      "entropy": 0.5163552165031433,
      "epoch": 2.25,
      "grad_norm": 0.19338326156139374,
      "learning_rate": 0.0002,
      "loss": 0.5106169581413269,
      "mean_token_accuracy": 0.7929095774888992,
      "num_tokens": 9875496.0,
      "step": 603
    },
    {
      "entropy": 0.538531944155693,
      "epoch": 2.253731343283582,
      "grad_norm": 0.16355083882808685,
      "learning_rate": 0.0002,
      "loss": 0.5421521067619324,
      "mean_token_accuracy": 0.7775969356298447,
      "num_tokens": 9891706.0,
      "step": 604
    },
    {
      "entropy": 0.5201183184981346,
      "epoch": 2.2574626865671643,
      "grad_norm": 0.2061741203069687,
      "learning_rate": 0.0002,
      "loss": 0.5298879742622375,
      "mean_token_accuracy": 0.7839659005403519,
      "num_tokens": 9907901.0,
      "step": 605
    },
    {
      "entropy": 0.5299466401338577,
      "epoch": 2.2611940298507465,
      "grad_norm": 0.1585988998413086,
      "learning_rate": 0.0002,
      "loss": 0.5266643762588501,
      "mean_token_accuracy": 0.7857095748186111,
      "num_tokens": 9924584.0,
      "step": 606
    },
    {
      "entropy": 0.5331060588359833,
      "epoch": 2.264925373134328,
      "grad_norm": 0.22515474259853363,
      "learning_rate": 0.0002,
      "loss": 0.5281371474266052,
      "mean_token_accuracy": 0.7846943885087967,
      "num_tokens": 9940921.0,
      "step": 607
    },
    {
      "entropy": 0.5365794003009796,
      "epoch": 2.2686567164179103,
      "grad_norm": 0.14158517122268677,
      "learning_rate": 0.0002,
      "loss": 0.5241664052009583,
      "mean_token_accuracy": 0.7902594655752182,
      "num_tokens": 9957418.0,
      "step": 608
    },
    {
      "entropy": 0.5098173916339874,
      "epoch": 2.2723880597014925,
      "grad_norm": 0.19847925007343292,
      "learning_rate": 0.0002,
      "loss": 0.5109040141105652,
      "mean_token_accuracy": 0.7907959967851639,
      "num_tokens": 9973783.0,
      "step": 609
    },
    {
      "entropy": 0.507322758436203,
      "epoch": 2.2761194029850746,
      "grad_norm": 0.1904480904340744,
      "learning_rate": 0.0002,
      "loss": 0.5145297050476074,
      "mean_token_accuracy": 0.791220560669899,
      "num_tokens": 9990362.0,
      "step": 610
    },
    {
      "entropy": 0.5185896158218384,
      "epoch": 2.279850746268657,
      "grad_norm": 0.23211340606212616,
      "learning_rate": 0.0002,
      "loss": 0.524868905544281,
      "mean_token_accuracy": 0.7855911701917648,
      "num_tokens": 10006762.0,
      "step": 611
    },
    {
      "entropy": 0.5282359346747398,
      "epoch": 2.283582089552239,
      "grad_norm": 0.1768886297941208,
      "learning_rate": 0.0002,
      "loss": 0.5229817628860474,
      "mean_token_accuracy": 0.7895976901054382,
      "num_tokens": 10023191.0,
      "step": 612
    },
    {
      "entropy": 0.5275277346372604,
      "epoch": 2.2873134328358207,
      "grad_norm": 0.19380177557468414,
      "learning_rate": 0.0002,
      "loss": 0.5169612765312195,
      "mean_token_accuracy": 0.7907349169254303,
      "num_tokens": 10039350.0,
      "step": 613
    },
    {
      "entropy": 0.5204345509409904,
      "epoch": 2.291044776119403,
      "grad_norm": 0.15632414817810059,
      "learning_rate": 0.0002,
      "loss": 0.513292670249939,
      "mean_token_accuracy": 0.7925348877906799,
      "num_tokens": 10055872.0,
      "step": 614
    },
    {
      "entropy": 0.5112610086798668,
      "epoch": 2.294776119402985,
      "grad_norm": 0.18102124333381653,
      "learning_rate": 0.0002,
      "loss": 0.520767092704773,
      "mean_token_accuracy": 0.7886828035116196,
      "num_tokens": 10072419.0,
      "step": 615
    },
    {
      "entropy": 0.5232729762792587,
      "epoch": 2.298507462686567,
      "grad_norm": 0.25390854477882385,
      "learning_rate": 0.0002,
      "loss": 0.5408729314804077,
      "mean_token_accuracy": 0.7815985828638077,
      "num_tokens": 10088715.0,
      "step": 616
    },
    {
      "entropy": 0.529785230755806,
      "epoch": 2.3022388059701493,
      "grad_norm": 0.15947353839874268,
      "learning_rate": 0.0002,
      "loss": 0.5309044718742371,
      "mean_token_accuracy": 0.784679189324379,
      "num_tokens": 10105206.0,
      "step": 617
    },
    {
      "entropy": 0.5409619510173798,
      "epoch": 2.3059701492537314,
      "grad_norm": 0.21774348616600037,
      "learning_rate": 0.0002,
      "loss": 0.5331413745880127,
      "mean_token_accuracy": 0.7848716974258423,
      "num_tokens": 10121951.0,
      "step": 618
    },
    {
      "entropy": 0.5404030680656433,
      "epoch": 2.3097014925373136,
      "grad_norm": 0.17135120928287506,
      "learning_rate": 0.0002,
      "loss": 0.5320269465446472,
      "mean_token_accuracy": 0.7863317579030991,
      "num_tokens": 10138520.0,
      "step": 619
    },
    {
      "entropy": 0.543184906244278,
      "epoch": 2.3134328358208958,
      "grad_norm": 0.18270884454250336,
      "learning_rate": 0.0002,
      "loss": 0.5362977981567383,
      "mean_token_accuracy": 0.7825828939676285,
      "num_tokens": 10155242.0,
      "step": 620
    },
    {
      "entropy": 0.5144708007574081,
      "epoch": 2.3171641791044775,
      "grad_norm": 0.19776520133018494,
      "learning_rate": 0.0002,
      "loss": 0.5190030336380005,
      "mean_token_accuracy": 0.7893546521663666,
      "num_tokens": 10171493.0,
      "step": 621
    },
    {
      "entropy": 0.5012815147638321,
      "epoch": 2.3208955223880596,
      "grad_norm": 0.18417391180992126,
      "learning_rate": 0.0002,
      "loss": 0.5140509009361267,
      "mean_token_accuracy": 0.7917021214962006,
      "num_tokens": 10187924.0,
      "step": 622
    },
    {
      "entropy": 0.5291815996170044,
      "epoch": 2.324626865671642,
      "grad_norm": 0.18122002482414246,
      "learning_rate": 0.0002,
      "loss": 0.5308645367622375,
      "mean_token_accuracy": 0.7827988862991333,
      "num_tokens": 10204223.0,
      "step": 623
    },
    {
      "entropy": 0.5316928327083588,
      "epoch": 2.328358208955224,
      "grad_norm": 0.17393858730793,
      "learning_rate": 0.0002,
      "loss": 0.5351020097732544,
      "mean_token_accuracy": 0.7837810218334198,
      "num_tokens": 10220678.0,
      "step": 624
    },
    {
      "entropy": 0.5380063354969025,
      "epoch": 2.332089552238806,
      "grad_norm": 0.16641174256801605,
      "learning_rate": 0.0002,
      "loss": 0.5311377644538879,
      "mean_token_accuracy": 0.78605717420578,
      "num_tokens": 10236761.0,
      "step": 625
    },
    {
      "entropy": 0.5296464115381241,
      "epoch": 2.3358208955223883,
      "grad_norm": 0.16847732663154602,
      "learning_rate": 0.0002,
      "loss": 0.5290564894676208,
      "mean_token_accuracy": 0.7866681218147278,
      "num_tokens": 10253110.0,
      "step": 626
    },
    {
      "entropy": 0.5196742564439774,
      "epoch": 2.33955223880597,
      "grad_norm": 0.16526693105697632,
      "learning_rate": 0.0002,
      "loss": 0.516907811164856,
      "mean_token_accuracy": 0.7920583933591843,
      "num_tokens": 10269492.0,
      "step": 627
    },
    {
      "entropy": 0.541998103260994,
      "epoch": 2.343283582089552,
      "grad_norm": 0.18568557500839233,
      "learning_rate": 0.0002,
      "loss": 0.5372257828712463,
      "mean_token_accuracy": 0.7823797762393951,
      "num_tokens": 10285927.0,
      "step": 628
    },
    {
      "entropy": 0.5108761489391327,
      "epoch": 2.3470149253731343,
      "grad_norm": 0.1934242844581604,
      "learning_rate": 0.0002,
      "loss": 0.5139164924621582,
      "mean_token_accuracy": 0.7933155596256256,
      "num_tokens": 10302023.0,
      "step": 629
    },
    {
      "entropy": 0.5217199325561523,
      "epoch": 2.3507462686567164,
      "grad_norm": 0.17553211748600006,
      "learning_rate": 0.0002,
      "loss": 0.5230180025100708,
      "mean_token_accuracy": 0.7875964045524597,
      "num_tokens": 10318268.0,
      "step": 630
    },
    {
      "entropy": 0.5330761075019836,
      "epoch": 2.3544776119402986,
      "grad_norm": 0.15872074663639069,
      "learning_rate": 0.0002,
      "loss": 0.5290681719779968,
      "mean_token_accuracy": 0.7844167649745941,
      "num_tokens": 10334766.0,
      "step": 631
    },
    {
      "entropy": 0.5369035452604294,
      "epoch": 2.3582089552238807,
      "grad_norm": 0.1846853792667389,
      "learning_rate": 0.0002,
      "loss": 0.5329739451408386,
      "mean_token_accuracy": 0.7838435918092728,
      "num_tokens": 10351349.0,
      "step": 632
    },
    {
      "entropy": 0.5287653654813766,
      "epoch": 2.361940298507463,
      "grad_norm": 0.1996822953224182,
      "learning_rate": 0.0002,
      "loss": 0.5347191095352173,
      "mean_token_accuracy": 0.7811494767665863,
      "num_tokens": 10367871.0,
      "step": 633
    },
    {
      "entropy": 0.5239842683076859,
      "epoch": 2.3656716417910446,
      "grad_norm": 0.19435462355613708,
      "learning_rate": 0.0002,
      "loss": 0.530573308467865,
      "mean_token_accuracy": 0.7837476581335068,
      "num_tokens": 10384315.0,
      "step": 634
    },
    {
      "entropy": 0.5206383317708969,
      "epoch": 2.3694029850746268,
      "grad_norm": 0.19717657566070557,
      "learning_rate": 0.0002,
      "loss": 0.5275444388389587,
      "mean_token_accuracy": 0.7842705696821213,
      "num_tokens": 10400769.0,
      "step": 635
    },
    {
      "entropy": 0.5064749270677567,
      "epoch": 2.373134328358209,
      "grad_norm": 0.19260841608047485,
      "learning_rate": 0.0002,
      "loss": 0.51506507396698,
      "mean_token_accuracy": 0.789744108915329,
      "num_tokens": 10417006.0,
      "step": 636
    },
    {
      "entropy": 0.5361980348825455,
      "epoch": 2.376865671641791,
      "grad_norm": 0.17480432987213135,
      "learning_rate": 0.0002,
      "loss": 0.5336955189704895,
      "mean_token_accuracy": 0.7836211174726486,
      "num_tokens": 10433294.0,
      "step": 637
    },
    {
      "entropy": 0.5383089035749435,
      "epoch": 2.3805970149253732,
      "grad_norm": 0.18294544517993927,
      "learning_rate": 0.0002,
      "loss": 0.5289636254310608,
      "mean_token_accuracy": 0.7852412611246109,
      "num_tokens": 10449674.0,
      "step": 638
    },
    {
      "entropy": 0.5097021907567978,
      "epoch": 2.3843283582089554,
      "grad_norm": 0.16242100298404694,
      "learning_rate": 0.0002,
      "loss": 0.5021054148674011,
      "mean_token_accuracy": 0.7972816228866577,
      "num_tokens": 10465855.0,
      "step": 639
    },
    {
      "entropy": 0.5423515290021896,
      "epoch": 2.388059701492537,
      "grad_norm": 0.22227367758750916,
      "learning_rate": 0.0002,
      "loss": 0.548687756061554,
      "mean_token_accuracy": 0.776146799325943,
      "num_tokens": 10482179.0,
      "step": 640
    },
    {
      "entropy": 0.5074172541499138,
      "epoch": 2.3917910447761193,
      "grad_norm": 0.1631743311882019,
      "learning_rate": 0.0002,
      "loss": 0.5108535289764404,
      "mean_token_accuracy": 0.7928425967693329,
      "num_tokens": 10498617.0,
      "step": 641
    },
    {
      "entropy": 0.5141904726624489,
      "epoch": 2.3955223880597014,
      "grad_norm": 0.22901000082492828,
      "learning_rate": 0.0002,
      "loss": 0.5239617228507996,
      "mean_token_accuracy": 0.7894341051578522,
      "num_tokens": 10514855.0,
      "step": 642
    },
    {
      "entropy": 0.548003762960434,
      "epoch": 2.3992537313432836,
      "grad_norm": 0.1889556348323822,
      "learning_rate": 0.0002,
      "loss": 0.5518738627433777,
      "mean_token_accuracy": 0.7756821662187576,
      "num_tokens": 10531113.0,
      "step": 643
    },
    {
      "entropy": 0.5271116495132446,
      "epoch": 2.4029850746268657,
      "grad_norm": 0.15567590296268463,
      "learning_rate": 0.0002,
      "loss": 0.516383171081543,
      "mean_token_accuracy": 0.7933164685964584,
      "num_tokens": 10547691.0,
      "step": 644
    },
    {
      "entropy": 0.5330717116594315,
      "epoch": 2.406716417910448,
      "grad_norm": 0.17213337123394012,
      "learning_rate": 0.0002,
      "loss": 0.5231931209564209,
      "mean_token_accuracy": 0.7853028923273087,
      "num_tokens": 10563993.0,
      "step": 645
    },
    {
      "entropy": 0.542450025677681,
      "epoch": 2.41044776119403,
      "grad_norm": 0.16203731298446655,
      "learning_rate": 0.0002,
      "loss": 0.5375291109085083,
      "mean_token_accuracy": 0.7830152362585068,
      "num_tokens": 10580464.0,
      "step": 646
    },
    {
      "entropy": 0.5074228942394257,
      "epoch": 2.4141791044776117,
      "grad_norm": 0.16541871428489685,
      "learning_rate": 0.0002,
      "loss": 0.5123732089996338,
      "mean_token_accuracy": 0.7941079437732697,
      "num_tokens": 10596747.0,
      "step": 647
    },
    {
      "entropy": 0.5105165019631386,
      "epoch": 2.417910447761194,
      "grad_norm": 0.182412788271904,
      "learning_rate": 0.0002,
      "loss": 0.5217914581298828,
      "mean_token_accuracy": 0.7893105298280716,
      "num_tokens": 10612951.0,
      "step": 648
    },
    {
      "entropy": 0.5206151753664017,
      "epoch": 2.421641791044776,
      "grad_norm": 0.20678837597370148,
      "learning_rate": 0.0002,
      "loss": 0.5335655212402344,
      "mean_token_accuracy": 0.7840552628040314,
      "num_tokens": 10629467.0,
      "step": 649
    },
    {
      "entropy": 0.5416827350854874,
      "epoch": 2.425373134328358,
      "grad_norm": 0.16378135979175568,
      "learning_rate": 0.0002,
      "loss": 0.5401762127876282,
      "mean_token_accuracy": 0.782837986946106,
      "num_tokens": 10645981.0,
      "step": 650
    },
    {
      "entropy": 0.5352658033370972,
      "epoch": 2.4291044776119404,
      "grad_norm": 0.17120513319969177,
      "learning_rate": 0.0002,
      "loss": 0.5229877233505249,
      "mean_token_accuracy": 0.7894999831914902,
      "num_tokens": 10662599.0,
      "step": 651
    },
    {
      "entropy": 0.5378601551055908,
      "epoch": 2.4328358208955225,
      "grad_norm": 0.18634538352489471,
      "learning_rate": 0.0002,
      "loss": 0.5370844602584839,
      "mean_token_accuracy": 0.7834650576114655,
      "num_tokens": 10678905.0,
      "step": 652
    },
    {
      "entropy": 0.5139342248439789,
      "epoch": 2.4365671641791042,
      "grad_norm": 0.1823841780424118,
      "learning_rate": 0.0002,
      "loss": 0.5105010271072388,
      "mean_token_accuracy": 0.7942702323198318,
      "num_tokens": 10695354.0,
      "step": 653
    },
    {
      "entropy": 0.5001704916357994,
      "epoch": 2.4402985074626864,
      "grad_norm": 0.18246224522590637,
      "learning_rate": 0.0002,
      "loss": 0.5092322826385498,
      "mean_token_accuracy": 0.7953812628984451,
      "num_tokens": 10711419.0,
      "step": 654
    },
    {
      "entropy": 0.5088636800646782,
      "epoch": 2.4440298507462686,
      "grad_norm": 0.16581419110298157,
      "learning_rate": 0.0002,
      "loss": 0.5136841535568237,
      "mean_token_accuracy": 0.7919897437095642,
      "num_tokens": 10727853.0,
      "step": 655
    },
    {
      "entropy": 0.5198448672890663,
      "epoch": 2.4477611940298507,
      "grad_norm": 0.16655242443084717,
      "learning_rate": 0.0002,
      "loss": 0.5188886523246765,
      "mean_token_accuracy": 0.7890329360961914,
      "num_tokens": 10744204.0,
      "step": 656
    },
    {
      "entropy": 0.5168529972434044,
      "epoch": 2.451492537313433,
      "grad_norm": 0.18366754055023193,
      "learning_rate": 0.0002,
      "loss": 0.5171942114830017,
      "mean_token_accuracy": 0.7899800539016724,
      "num_tokens": 10760669.0,
      "step": 657
    },
    {
      "entropy": 0.5348050147294998,
      "epoch": 2.455223880597015,
      "grad_norm": 0.18297524750232697,
      "learning_rate": 0.0002,
      "loss": 0.5392665266990662,
      "mean_token_accuracy": 0.779433473944664,
      "num_tokens": 10777093.0,
      "step": 658
    },
    {
      "entropy": 0.5245852321386337,
      "epoch": 2.458955223880597,
      "grad_norm": 0.19149278104305267,
      "learning_rate": 0.0002,
      "loss": 0.5260974764823914,
      "mean_token_accuracy": 0.7873388528823853,
      "num_tokens": 10793455.0,
      "step": 659
    },
    {
      "entropy": 0.5311989635229111,
      "epoch": 2.4626865671641793,
      "grad_norm": 0.1547309309244156,
      "learning_rate": 0.0002,
      "loss": 0.5266692042350769,
      "mean_token_accuracy": 0.7839333266019821,
      "num_tokens": 10809788.0,
      "step": 660
    },
    {
      "entropy": 0.5379379391670227,
      "epoch": 2.466417910447761,
      "grad_norm": 0.15859338641166687,
      "learning_rate": 0.0002,
      "loss": 0.5321581363677979,
      "mean_token_accuracy": 0.7827870547771454,
      "num_tokens": 10825837.0,
      "step": 661
    },
    {
      "entropy": 0.5471830368041992,
      "epoch": 2.470149253731343,
      "grad_norm": 0.16068732738494873,
      "learning_rate": 0.0002,
      "loss": 0.5360886454582214,
      "mean_token_accuracy": 0.7848220616579056,
      "num_tokens": 10842037.0,
      "step": 662
    },
    {
      "entropy": 0.5252791494131088,
      "epoch": 2.4738805970149254,
      "grad_norm": 0.1590043157339096,
      "learning_rate": 0.0002,
      "loss": 0.5276464819908142,
      "mean_token_accuracy": 0.786907747387886,
      "num_tokens": 10858320.0,
      "step": 663
    },
    {
      "entropy": 0.525018036365509,
      "epoch": 2.4776119402985075,
      "grad_norm": 0.17438893020153046,
      "learning_rate": 0.0002,
      "loss": 0.5300197005271912,
      "mean_token_accuracy": 0.7852317094802856,
      "num_tokens": 10874855.0,
      "step": 664
    },
    {
      "entropy": 0.5394986271858215,
      "epoch": 2.4813432835820897,
      "grad_norm": 0.17128010094165802,
      "learning_rate": 0.0002,
      "loss": 0.5422081351280212,
      "mean_token_accuracy": 0.7800386846065521,
      "num_tokens": 10891526.0,
      "step": 665
    },
    {
      "entropy": 0.5076115503907204,
      "epoch": 2.485074626865672,
      "grad_norm": 0.1781933754682541,
      "learning_rate": 0.0002,
      "loss": 0.507164716720581,
      "mean_token_accuracy": 0.7957528084516525,
      "num_tokens": 10907862.0,
      "step": 666
    },
    {
      "entropy": 0.5271291732788086,
      "epoch": 2.4888059701492535,
      "grad_norm": 0.17105896770954132,
      "learning_rate": 0.0002,
      "loss": 0.5228562355041504,
      "mean_token_accuracy": 0.7889808863401413,
      "num_tokens": 10924235.0,
      "step": 667
    },
    {
      "entropy": 0.5363548994064331,
      "epoch": 2.4925373134328357,
      "grad_norm": 0.1583063155412674,
      "learning_rate": 0.0002,
      "loss": 0.5336060523986816,
      "mean_token_accuracy": 0.7860426157712936,
      "num_tokens": 10940599.0,
      "step": 668
    },
    {
      "entropy": 0.503924198448658,
      "epoch": 2.496268656716418,
      "grad_norm": 0.17252567410469055,
      "learning_rate": 0.0002,
      "loss": 0.5028519034385681,
      "mean_token_accuracy": 0.7955358028411865,
      "num_tokens": 10956649.0,
      "step": 669
    },
    {
      "entropy": 0.5256816297769547,
      "epoch": 2.5,
      "grad_norm": 0.1619226038455963,
      "learning_rate": 0.0002,
      "loss": 0.5266148447990417,
      "mean_token_accuracy": 0.787626251578331,
      "num_tokens": 10972977.0,
      "step": 670
    },
    {
      "entropy": 0.5120773613452911,
      "epoch": 2.503731343283582,
      "grad_norm": 0.16918344795703888,
      "learning_rate": 0.0002,
      "loss": 0.5207507610321045,
      "mean_token_accuracy": 0.7914620935916901,
      "num_tokens": 10989327.0,
      "step": 671
    },
    {
      "entropy": 0.5181663334369659,
      "epoch": 2.5074626865671643,
      "grad_norm": 0.19783611595630646,
      "learning_rate": 0.0002,
      "loss": 0.5268117189407349,
      "mean_token_accuracy": 0.7864458560943604,
      "num_tokens": 11005449.0,
      "step": 672
    },
    {
      "entropy": 0.5229259878396988,
      "epoch": 2.5111940298507465,
      "grad_norm": 0.1657666116952896,
      "learning_rate": 0.0002,
      "loss": 0.5208563208580017,
      "mean_token_accuracy": 0.7903305888175964,
      "num_tokens": 11021576.0,
      "step": 673
    },
    {
      "entropy": 0.5335699021816254,
      "epoch": 2.5149253731343286,
      "grad_norm": 0.1847028136253357,
      "learning_rate": 0.0002,
      "loss": 0.5323396921157837,
      "mean_token_accuracy": 0.7818653434514999,
      "num_tokens": 11038174.0,
      "step": 674
    },
    {
      "entropy": 0.5297135561704636,
      "epoch": 2.5186567164179103,
      "grad_norm": 0.17212164402008057,
      "learning_rate": 0.0002,
      "loss": 0.5294620990753174,
      "mean_token_accuracy": 0.7868784368038177,
      "num_tokens": 11054527.0,
      "step": 675
    },
    {
      "entropy": 0.5551169812679291,
      "epoch": 2.5223880597014925,
      "grad_norm": 0.19568513333797455,
      "learning_rate": 0.0002,
      "loss": 0.5539876222610474,
      "mean_token_accuracy": 0.775226280093193,
      "num_tokens": 11070805.0,
      "step": 676
    },
    {
      "entropy": 0.5319524109363556,
      "epoch": 2.5261194029850746,
      "grad_norm": 0.14972956478595734,
      "learning_rate": 0.0002,
      "loss": 0.5295209288597107,
      "mean_token_accuracy": 0.7860101461410522,
      "num_tokens": 11087510.0,
      "step": 677
    },
    {
      "entropy": 0.5265523195266724,
      "epoch": 2.529850746268657,
      "grad_norm": 0.16056260466575623,
      "learning_rate": 0.0002,
      "loss": 0.5248823761940002,
      "mean_token_accuracy": 0.7860508859157562,
      "num_tokens": 11103933.0,
      "step": 678
    },
    {
      "entropy": 0.5225390195846558,
      "epoch": 2.533582089552239,
      "grad_norm": 0.22218124568462372,
      "learning_rate": 0.0002,
      "loss": 0.5301728248596191,
      "mean_token_accuracy": 0.7851128876209259,
      "num_tokens": 11120292.0,
      "step": 679
    },
    {
      "entropy": 0.5265638679265976,
      "epoch": 2.5373134328358207,
      "grad_norm": 0.15814287960529327,
      "learning_rate": 0.0002,
      "loss": 0.5240415930747986,
      "mean_token_accuracy": 0.788665235042572,
      "num_tokens": 11136784.0,
      "step": 680
    },
    {
      "entropy": 0.5306698828935623,
      "epoch": 2.541044776119403,
      "grad_norm": 0.1664581149816513,
      "learning_rate": 0.0002,
      "loss": 0.5277557373046875,
      "mean_token_accuracy": 0.7860920429229736,
      "num_tokens": 11153320.0,
      "step": 681
    },
    {
      "entropy": 0.5291799604892731,
      "epoch": 2.544776119402985,
      "grad_norm": 0.1872314065694809,
      "learning_rate": 0.0002,
      "loss": 0.5320236086845398,
      "mean_token_accuracy": 0.7843979746103287,
      "num_tokens": 11169723.0,
      "step": 682
    },
    {
      "entropy": 0.53035868704319,
      "epoch": 2.548507462686567,
      "grad_norm": 0.20792965590953827,
      "learning_rate": 0.0002,
      "loss": 0.5358518362045288,
      "mean_token_accuracy": 0.7849173247814178,
      "num_tokens": 11186035.0,
      "step": 683
    },
    {
      "entropy": 0.5152866542339325,
      "epoch": 2.5522388059701493,
      "grad_norm": 0.20304447412490845,
      "learning_rate": 0.0002,
      "loss": 0.512556791305542,
      "mean_token_accuracy": 0.7908182591199875,
      "num_tokens": 11201972.0,
      "step": 684
    },
    {
      "entropy": 0.520212933421135,
      "epoch": 2.5559701492537314,
      "grad_norm": 0.19615566730499268,
      "learning_rate": 0.0002,
      "loss": 0.5241949558258057,
      "mean_token_accuracy": 0.7870226055383682,
      "num_tokens": 11218085.0,
      "step": 685
    },
    {
      "entropy": 0.523841142654419,
      "epoch": 2.5597014925373136,
      "grad_norm": 0.18903784453868866,
      "learning_rate": 0.0002,
      "loss": 0.5217975974082947,
      "mean_token_accuracy": 0.7914077341556549,
      "num_tokens": 11234466.0,
      "step": 686
    },
    {
      "entropy": 0.5006226599216461,
      "epoch": 2.5634328358208958,
      "grad_norm": 0.2238045483827591,
      "learning_rate": 0.0002,
      "loss": 0.503075122833252,
      "mean_token_accuracy": 0.7985939383506775,
      "num_tokens": 11250619.0,
      "step": 687
    },
    {
      "entropy": 0.522046685218811,
      "epoch": 2.5671641791044775,
      "grad_norm": 0.1861460655927658,
      "learning_rate": 0.0002,
      "loss": 0.5256574749946594,
      "mean_token_accuracy": 0.7879543006420135,
      "num_tokens": 11267052.0,
      "step": 688
    },
    {
      "entropy": 0.5404367446899414,
      "epoch": 2.5708955223880596,
      "grad_norm": 0.18886177241802216,
      "learning_rate": 0.0002,
      "loss": 0.5377542972564697,
      "mean_token_accuracy": 0.781608834862709,
      "num_tokens": 11283385.0,
      "step": 689
    },
    {
      "entropy": 0.526772603392601,
      "epoch": 2.574626865671642,
      "grad_norm": 0.16710662841796875,
      "learning_rate": 0.0002,
      "loss": 0.5189668536186218,
      "mean_token_accuracy": 0.7905929088592529,
      "num_tokens": 11299758.0,
      "step": 690
    },
    {
      "entropy": 0.528350904583931,
      "epoch": 2.578358208955224,
      "grad_norm": 0.17797508835792542,
      "learning_rate": 0.0002,
      "loss": 0.5194413661956787,
      "mean_token_accuracy": 0.7911931574344635,
      "num_tokens": 11316130.0,
      "step": 691
    },
    {
      "entropy": 0.52931809425354,
      "epoch": 2.582089552238806,
      "grad_norm": 0.21212708950042725,
      "learning_rate": 0.0002,
      "loss": 0.5379958152770996,
      "mean_token_accuracy": 0.7827763855457306,
      "num_tokens": 11332658.0,
      "step": 692
    },
    {
      "entropy": 0.5531658977270126,
      "epoch": 2.585820895522388,
      "grad_norm": 0.17241588234901428,
      "learning_rate": 0.0002,
      "loss": 0.5588712692260742,
      "mean_token_accuracy": 0.7756764441728592,
      "num_tokens": 11349446.0,
      "step": 693
    },
    {
      "entropy": 0.5219079852104187,
      "epoch": 2.58955223880597,
      "grad_norm": 0.15809156000614166,
      "learning_rate": 0.0002,
      "loss": 0.5210216045379639,
      "mean_token_accuracy": 0.7904610931873322,
      "num_tokens": 11366050.0,
      "step": 694
    },
    {
      "entropy": 0.5322331935167313,
      "epoch": 2.593283582089552,
      "grad_norm": 0.18396085500717163,
      "learning_rate": 0.0002,
      "loss": 0.5301384925842285,
      "mean_token_accuracy": 0.7841024845838547,
      "num_tokens": 11382491.0,
      "step": 695
    },
    {
      "entropy": 0.5307652056217194,
      "epoch": 2.5970149253731343,
      "grad_norm": 0.16308656334877014,
      "learning_rate": 0.0002,
      "loss": 0.5239346623420715,
      "mean_token_accuracy": 0.7880617082118988,
      "num_tokens": 11398802.0,
      "step": 696
    },
    {
      "entropy": 0.5340842455625534,
      "epoch": 2.6007462686567164,
      "grad_norm": 0.19761645793914795,
      "learning_rate": 0.0002,
      "loss": 0.5363891124725342,
      "mean_token_accuracy": 0.7838073074817657,
      "num_tokens": 11415128.0,
      "step": 697
    },
    {
      "entropy": 0.5340555012226105,
      "epoch": 2.6044776119402986,
      "grad_norm": 0.1661156415939331,
      "learning_rate": 0.0002,
      "loss": 0.5325526595115662,
      "mean_token_accuracy": 0.7847229689359665,
      "num_tokens": 11431318.0,
      "step": 698
    },
    {
      "entropy": 0.5427940785884857,
      "epoch": 2.6082089552238807,
      "grad_norm": 0.16063573956489563,
      "learning_rate": 0.0002,
      "loss": 0.5501501560211182,
      "mean_token_accuracy": 0.7748306840658188,
      "num_tokens": 11447713.0,
      "step": 699
    },
    {
      "entropy": 0.5213874280452728,
      "epoch": 2.611940298507463,
      "grad_norm": 0.1618213802576065,
      "learning_rate": 0.0002,
      "loss": 0.5210378170013428,
      "mean_token_accuracy": 0.787492960691452,
      "num_tokens": 11464142.0,
      "step": 700
    },
    {
      "entropy": 0.5329896062612534,
      "epoch": 2.6156716417910446,
      "grad_norm": 0.18406495451927185,
      "learning_rate": 0.0002,
      "loss": 0.5365204215049744,
      "mean_token_accuracy": 0.7818106710910797,
      "num_tokens": 11480468.0,
      "step": 701
    },
    {
      "entropy": 0.5018042698502541,
      "epoch": 2.6194029850746268,
      "grad_norm": 0.1559264361858368,
      "learning_rate": 0.0002,
      "loss": 0.507462203502655,
      "mean_token_accuracy": 0.7951454520225525,
      "num_tokens": 11496824.0,
      "step": 702
    },
    {
      "entropy": 0.5304955393075943,
      "epoch": 2.623134328358209,
      "grad_norm": 0.16140370070934296,
      "learning_rate": 0.0002,
      "loss": 0.5346159338951111,
      "mean_token_accuracy": 0.7851942926645279,
      "num_tokens": 11513567.0,
      "step": 703
    },
    {
      "entropy": 0.5185345709323883,
      "epoch": 2.626865671641791,
      "grad_norm": 0.16598905622959137,
      "learning_rate": 0.0002,
      "loss": 0.5121718645095825,
      "mean_token_accuracy": 0.7958889752626419,
      "num_tokens": 11530042.0,
      "step": 704
    },
    {
      "entropy": 0.5373921394348145,
      "epoch": 2.6305970149253732,
      "grad_norm": 0.18821974098682404,
      "learning_rate": 0.0002,
      "loss": 0.5302144289016724,
      "mean_token_accuracy": 0.7860950380563736,
      "num_tokens": 11546594.0,
      "step": 705
    },
    {
      "entropy": 0.5182069316506386,
      "epoch": 2.6343283582089554,
      "grad_norm": 0.17032590508460999,
      "learning_rate": 0.0002,
      "loss": 0.5235993266105652,
      "mean_token_accuracy": 0.7881369441747665,
      "num_tokens": 11562996.0,
      "step": 706
    },
    {
      "entropy": 0.5120366662740707,
      "epoch": 2.638059701492537,
      "grad_norm": 0.20226538181304932,
      "learning_rate": 0.0002,
      "loss": 0.5154089331626892,
      "mean_token_accuracy": 0.7893324643373489,
      "num_tokens": 11579247.0,
      "step": 707
    },
    {
      "entropy": 0.5271363854408264,
      "epoch": 2.6417910447761193,
      "grad_norm": 0.2367754727602005,
      "learning_rate": 0.0002,
      "loss": 0.529344916343689,
      "mean_token_accuracy": 0.7863059490919113,
      "num_tokens": 11595557.0,
      "step": 708
    },
    {
      "entropy": 0.5211906433105469,
      "epoch": 2.6455223880597014,
      "grad_norm": 0.17606736719608307,
      "learning_rate": 0.0002,
      "loss": 0.5162103176116943,
      "mean_token_accuracy": 0.7936627119779587,
      "num_tokens": 11612153.0,
      "step": 709
    },
    {
      "entropy": 0.5413748621940613,
      "epoch": 2.6492537313432836,
      "grad_norm": 0.16839931905269623,
      "learning_rate": 0.0002,
      "loss": 0.5375933051109314,
      "mean_token_accuracy": 0.7837605625391006,
      "num_tokens": 11628672.0,
      "step": 710
    },
    {
      "entropy": 0.5492138266563416,
      "epoch": 2.6529850746268657,
      "grad_norm": 0.1578325480222702,
      "learning_rate": 0.0002,
      "loss": 0.5387027263641357,
      "mean_token_accuracy": 0.7828567028045654,
      "num_tokens": 11645327.0,
      "step": 711
    },
    {
      "entropy": 0.5294462591409683,
      "epoch": 2.656716417910448,
      "grad_norm": 0.18846334517002106,
      "learning_rate": 0.0002,
      "loss": 0.5310033559799194,
      "mean_token_accuracy": 0.7850282490253448,
      "num_tokens": 11661886.0,
      "step": 712
    },
    {
      "entropy": 0.5195821523666382,
      "epoch": 2.66044776119403,
      "grad_norm": 0.1722957044839859,
      "learning_rate": 0.0002,
      "loss": 0.5247335433959961,
      "mean_token_accuracy": 0.7882849276065826,
      "num_tokens": 11678052.0,
      "step": 713
    },
    {
      "entropy": 0.5254689157009125,
      "epoch": 2.664179104477612,
      "grad_norm": 0.175649493932724,
      "learning_rate": 0.0002,
      "loss": 0.5303612947463989,
      "mean_token_accuracy": 0.7877318859100342,
      "num_tokens": 11694539.0,
      "step": 714
    },
    {
      "entropy": 0.5156526416540146,
      "epoch": 2.667910447761194,
      "grad_norm": 0.21296396851539612,
      "learning_rate": 0.0002,
      "loss": 0.5188760161399841,
      "mean_token_accuracy": 0.7886723130941391,
      "num_tokens": 11710806.0,
      "step": 715
    },
    {
      "entropy": 0.5304235517978668,
      "epoch": 2.671641791044776,
      "grad_norm": 0.1557040810585022,
      "learning_rate": 0.0002,
      "loss": 0.532120943069458,
      "mean_token_accuracy": 0.7845920920372009,
      "num_tokens": 11727178.0,
      "step": 716
    },
    {
      "entropy": 0.5396947711706161,
      "epoch": 2.675373134328358,
      "grad_norm": 0.23430386185646057,
      "learning_rate": 0.0002,
      "loss": 0.5410381555557251,
      "mean_token_accuracy": 0.7820145785808563,
      "num_tokens": 11743592.0,
      "step": 717
    },
    {
      "entropy": 0.5290116220712662,
      "epoch": 2.6791044776119404,
      "grad_norm": 0.18491677939891815,
      "learning_rate": 0.0002,
      "loss": 0.5220689177513123,
      "mean_token_accuracy": 0.7880972176790237,
      "num_tokens": 11759881.0,
      "step": 718
    },
    {
      "entropy": 0.5365530252456665,
      "epoch": 2.6828358208955225,
      "grad_norm": 0.20658747851848602,
      "learning_rate": 0.0002,
      "loss": 0.5274034738540649,
      "mean_token_accuracy": 0.7877165377140045,
      "num_tokens": 11776103.0,
      "step": 719
    },
    {
      "entropy": 0.5193691104650497,
      "epoch": 2.6865671641791042,
      "grad_norm": 0.15166765451431274,
      "learning_rate": 0.0002,
      "loss": 0.5179476737976074,
      "mean_token_accuracy": 0.7924929708242416,
      "num_tokens": 11792614.0,
      "step": 720
    },
    {
      "entropy": 0.5238720774650574,
      "epoch": 2.6902985074626864,
      "grad_norm": 0.2068144679069519,
      "learning_rate": 0.0002,
      "loss": 0.5365906953811646,
      "mean_token_accuracy": 0.7825643718242645,
      "num_tokens": 11808884.0,
      "step": 721
    },
    {
      "entropy": 0.5160530805587769,
      "epoch": 2.6940298507462686,
      "grad_norm": 0.1884981393814087,
      "learning_rate": 0.0002,
      "loss": 0.5255499482154846,
      "mean_token_accuracy": 0.785829171538353,
      "num_tokens": 11825190.0,
      "step": 722
    },
    {
      "entropy": 0.5381662398576736,
      "epoch": 2.6977611940298507,
      "grad_norm": 0.22528207302093506,
      "learning_rate": 0.0002,
      "loss": 0.5401077270507812,
      "mean_token_accuracy": 0.780912771821022,
      "num_tokens": 11841581.0,
      "step": 723
    },
    {
      "entropy": 0.5353066176176071,
      "epoch": 2.701492537313433,
      "grad_norm": 0.16518141329288483,
      "learning_rate": 0.0002,
      "loss": 0.5283069014549255,
      "mean_token_accuracy": 0.7859592884778976,
      "num_tokens": 11857924.0,
      "step": 724
    },
    {
      "entropy": 0.5316939651966095,
      "epoch": 2.705223880597015,
      "grad_norm": 0.1674748808145523,
      "learning_rate": 0.0002,
      "loss": 0.5228734016418457,
      "mean_token_accuracy": 0.7879570424556732,
      "num_tokens": 11874385.0,
      "step": 725
    },
    {
      "entropy": 0.5669917911291122,
      "epoch": 2.708955223880597,
      "grad_norm": 0.18983666598796844,
      "learning_rate": 0.0002,
      "loss": 0.5586099624633789,
      "mean_token_accuracy": 0.7734153866767883,
      "num_tokens": 11890893.0,
      "step": 726
    },
    {
      "entropy": 0.5250157564878464,
      "epoch": 2.7126865671641793,
      "grad_norm": 0.16966547071933746,
      "learning_rate": 0.0002,
      "loss": 0.5228544473648071,
      "mean_token_accuracy": 0.7863233536481857,
      "num_tokens": 11907436.0,
      "step": 727
    },
    {
      "entropy": 0.5265001058578491,
      "epoch": 2.716417910447761,
      "grad_norm": 0.21439625322818756,
      "learning_rate": 0.0002,
      "loss": 0.5315214991569519,
      "mean_token_accuracy": 0.7847255766391754,
      "num_tokens": 11923778.0,
      "step": 728
    },
    {
      "entropy": 0.5284342169761658,
      "epoch": 2.720149253731343,
      "grad_norm": 0.1824498325586319,
      "learning_rate": 0.0002,
      "loss": 0.5404508709907532,
      "mean_token_accuracy": 0.7798212766647339,
      "num_tokens": 11940075.0,
      "step": 729
    },
    {
      "entropy": 0.501299723982811,
      "epoch": 2.7238805970149254,
      "grad_norm": 0.2304428666830063,
      "learning_rate": 0.0002,
      "loss": 0.5122545957565308,
      "mean_token_accuracy": 0.791194960474968,
      "num_tokens": 11956336.0,
      "step": 730
    },
    {
      "entropy": 0.5443384349346161,
      "epoch": 2.7276119402985075,
      "grad_norm": 0.1537434458732605,
      "learning_rate": 0.0002,
      "loss": 0.5363157987594604,
      "mean_token_accuracy": 0.7845837771892548,
      "num_tokens": 11972840.0,
      "step": 731
    },
    {
      "entropy": 0.5315753519535065,
      "epoch": 2.7313432835820897,
      "grad_norm": 0.17106328904628754,
      "learning_rate": 0.0002,
      "loss": 0.5220600366592407,
      "mean_token_accuracy": 0.7875728458166122,
      "num_tokens": 11989350.0,
      "step": 732
    },
    {
      "entropy": 0.5302078127861023,
      "epoch": 2.7350746268656714,
      "grad_norm": 0.17003247141838074,
      "learning_rate": 0.0002,
      "loss": 0.5270202159881592,
      "mean_token_accuracy": 0.787715807557106,
      "num_tokens": 12005809.0,
      "step": 733
    },
    {
      "entropy": 0.527949333190918,
      "epoch": 2.7388059701492535,
      "grad_norm": 0.21327127516269684,
      "learning_rate": 0.0002,
      "loss": 0.5354670882225037,
      "mean_token_accuracy": 0.7835386097431183,
      "num_tokens": 12022336.0,
      "step": 734
    },
    {
      "entropy": 0.5089609026908875,
      "epoch": 2.7425373134328357,
      "grad_norm": 0.16088151931762695,
      "learning_rate": 0.0002,
      "loss": 0.5117763876914978,
      "mean_token_accuracy": 0.7938453704118729,
      "num_tokens": 12038779.0,
      "step": 735
    },
    {
      "entropy": 0.5126267448067665,
      "epoch": 2.746268656716418,
      "grad_norm": 0.1757761836051941,
      "learning_rate": 0.0002,
      "loss": 0.5135779976844788,
      "mean_token_accuracy": 0.7931608110666275,
      "num_tokens": 12054869.0,
      "step": 736
    },
    {
      "entropy": 0.5239577889442444,
      "epoch": 2.75,
      "grad_norm": 0.1817576140165329,
      "learning_rate": 0.0002,
      "loss": 0.5234410762786865,
      "mean_token_accuracy": 0.7875021547079086,
      "num_tokens": 12071361.0,
      "step": 737
    },
    {
      "entropy": 0.5307980924844742,
      "epoch": 2.753731343283582,
      "grad_norm": 0.1653635948896408,
      "learning_rate": 0.0002,
      "loss": 0.5298102498054504,
      "mean_token_accuracy": 0.7864446491003036,
      "num_tokens": 12087634.0,
      "step": 738
    },
    {
      "entropy": 0.5222239643335342,
      "epoch": 2.7574626865671643,
      "grad_norm": 0.18040236830711365,
      "learning_rate": 0.0002,
      "loss": 0.5258353352546692,
      "mean_token_accuracy": 0.7891390025615692,
      "num_tokens": 12103943.0,
      "step": 739
    },
    {
      "entropy": 0.5332596972584724,
      "epoch": 2.7611940298507465,
      "grad_norm": 0.15495066344738007,
      "learning_rate": 0.0002,
      "loss": 0.5282677412033081,
      "mean_token_accuracy": 0.785639688372612,
      "num_tokens": 12120325.0,
      "step": 740
    },
    {
      "entropy": 0.5371799468994141,
      "epoch": 2.7649253731343286,
      "grad_norm": 0.17130646109580994,
      "learning_rate": 0.0002,
      "loss": 0.5295438170433044,
      "mean_token_accuracy": 0.7828952521085739,
      "num_tokens": 12136761.0,
      "step": 741
    },
    {
      "entropy": 0.5405760109424591,
      "epoch": 2.7686567164179103,
      "grad_norm": 0.16763344407081604,
      "learning_rate": 0.0002,
      "loss": 0.5373218655586243,
      "mean_token_accuracy": 0.7816964089870453,
      "num_tokens": 12153043.0,
      "step": 742
    },
    {
      "entropy": 0.5118273198604584,
      "epoch": 2.7723880597014925,
      "grad_norm": 0.17398576438426971,
      "learning_rate": 0.0002,
      "loss": 0.5121888518333435,
      "mean_token_accuracy": 0.7949073165655136,
      "num_tokens": 12169387.0,
      "step": 743
    },
    {
      "entropy": 0.5252756625413895,
      "epoch": 2.7761194029850746,
      "grad_norm": 0.20275278389453888,
      "learning_rate": 0.0002,
      "loss": 0.5319023132324219,
      "mean_token_accuracy": 0.7827770113945007,
      "num_tokens": 12185773.0,
      "step": 744
    },
    {
      "entropy": 0.5281336456537247,
      "epoch": 2.779850746268657,
      "grad_norm": 0.16486869752407074,
      "learning_rate": 0.0002,
      "loss": 0.5282880663871765,
      "mean_token_accuracy": 0.7841639369726181,
      "num_tokens": 12202185.0,
      "step": 745
    },
    {
      "entropy": 0.5157778561115265,
      "epoch": 2.783582089552239,
      "grad_norm": 0.1883569210767746,
      "learning_rate": 0.0002,
      "loss": 0.5159796476364136,
      "mean_token_accuracy": 0.791821077466011,
      "num_tokens": 12218279.0,
      "step": 746
    },
    {
      "entropy": 0.5459621995687485,
      "epoch": 2.7873134328358207,
      "grad_norm": 0.15937039256095886,
      "learning_rate": 0.0002,
      "loss": 0.5399669408798218,
      "mean_token_accuracy": 0.7847357988357544,
      "num_tokens": 12234867.0,
      "step": 747
    },
    {
      "entropy": 0.52740877866745,
      "epoch": 2.791044776119403,
      "grad_norm": 0.14844611287117004,
      "learning_rate": 0.0002,
      "loss": 0.5260165929794312,
      "mean_token_accuracy": 0.7880454957485199,
      "num_tokens": 12251419.0,
      "step": 748
    },
    {
      "entropy": 0.5150434598326683,
      "epoch": 2.794776119402985,
      "grad_norm": 0.16429124772548676,
      "learning_rate": 0.0002,
      "loss": 0.5152871012687683,
      "mean_token_accuracy": 0.7888982892036438,
      "num_tokens": 12267583.0,
      "step": 749
    },
    {
      "entropy": 0.5261992961168289,
      "epoch": 2.798507462686567,
      "grad_norm": 0.18603260815143585,
      "learning_rate": 0.0002,
      "loss": 0.5299534201622009,
      "mean_token_accuracy": 0.7854207009077072,
      "num_tokens": 12284129.0,
      "step": 750
    },
    {
      "entropy": 0.529946893453598,
      "epoch": 2.8022388059701493,
      "grad_norm": 0.18355652689933777,
      "learning_rate": 0.0002,
      "loss": 0.5360465049743652,
      "mean_token_accuracy": 0.7842213064432144,
      "num_tokens": 12300683.0,
      "step": 751
    },
    {
      "entropy": 0.5377232730388641,
      "epoch": 2.8059701492537314,
      "grad_norm": 0.17548733949661255,
      "learning_rate": 0.0002,
      "loss": 0.5429165363311768,
      "mean_token_accuracy": 0.7822890281677246,
      "num_tokens": 12316833.0,
      "step": 752
    },
    {
      "entropy": 0.5407239943742752,
      "epoch": 2.8097014925373136,
      "grad_norm": 0.17476212978363037,
      "learning_rate": 0.0002,
      "loss": 0.5398030281066895,
      "mean_token_accuracy": 0.7804454267024994,
      "num_tokens": 12333283.0,
      "step": 753
    },
    {
      "entropy": 0.520610861480236,
      "epoch": 2.8134328358208958,
      "grad_norm": 0.15137535333633423,
      "learning_rate": 0.0002,
      "loss": 0.5157968401908875,
      "mean_token_accuracy": 0.7898696959018707,
      "num_tokens": 12349570.0,
      "step": 754
    },
    {
      "entropy": 0.5343620032072067,
      "epoch": 2.8171641791044775,
      "grad_norm": 0.16463439166545868,
      "learning_rate": 0.0002,
      "loss": 0.5255429148674011,
      "mean_token_accuracy": 0.7910490483045578,
      "num_tokens": 12366111.0,
      "step": 755
    },
    {
      "entropy": 0.5226383879780769,
      "epoch": 2.8208955223880596,
      "grad_norm": 0.17591623961925507,
      "learning_rate": 0.0002,
      "loss": 0.5295028686523438,
      "mean_token_accuracy": 0.7862412929534912,
      "num_tokens": 12382176.0,
      "step": 756
    },
    {
      "entropy": 0.5329883769154549,
      "epoch": 2.824626865671642,
      "grad_norm": 0.17046134173870087,
      "learning_rate": 0.0002,
      "loss": 0.5395819544792175,
      "mean_token_accuracy": 0.7815450727939606,
      "num_tokens": 12398954.0,
      "step": 757
    },
    {
      "entropy": 0.5189251601696014,
      "epoch": 2.828358208955224,
      "grad_norm": 0.17623355984687805,
      "learning_rate": 0.0002,
      "loss": 0.5211597681045532,
      "mean_token_accuracy": 0.7862699329853058,
      "num_tokens": 12415518.0,
      "step": 758
    },
    {
      "entropy": 0.5435206592082977,
      "epoch": 2.832089552238806,
      "grad_norm": 0.16461242735385895,
      "learning_rate": 0.0002,
      "loss": 0.5449641346931458,
      "mean_token_accuracy": 0.7772939503192902,
      "num_tokens": 12431840.0,
      "step": 759
    },
    {
      "entropy": 0.5242071002721786,
      "epoch": 2.835820895522388,
      "grad_norm": 0.16906797885894775,
      "learning_rate": 0.0002,
      "loss": 0.5236470103263855,
      "mean_token_accuracy": 0.7878623157739639,
      "num_tokens": 12447985.0,
      "step": 760
    },
    {
      "entropy": 0.5331535488367081,
      "epoch": 2.83955223880597,
      "grad_norm": 0.1613229662179947,
      "learning_rate": 0.0002,
      "loss": 0.5270719528198242,
      "mean_token_accuracy": 0.7869479656219482,
      "num_tokens": 12464369.0,
      "step": 761
    },
    {
      "entropy": 0.5153749734163284,
      "epoch": 2.843283582089552,
      "grad_norm": 0.1861318051815033,
      "learning_rate": 0.0002,
      "loss": 0.5134626626968384,
      "mean_token_accuracy": 0.7917421609163284,
      "num_tokens": 12480705.0,
      "step": 762
    },
    {
      "entropy": 0.5185382887721062,
      "epoch": 2.8470149253731343,
      "grad_norm": 0.15517400205135345,
      "learning_rate": 0.0002,
      "loss": 0.520057201385498,
      "mean_token_accuracy": 0.7887658178806305,
      "num_tokens": 12496768.0,
      "step": 763
    },
    {
      "entropy": 0.525531992316246,
      "epoch": 2.8507462686567164,
      "grad_norm": 0.2088494747877121,
      "learning_rate": 0.0002,
      "loss": 0.5236872434616089,
      "mean_token_accuracy": 0.7884621620178223,
      "num_tokens": 12513264.0,
      "step": 764
    },
    {
      "entropy": 0.516917809844017,
      "epoch": 2.8544776119402986,
      "grad_norm": 0.1747450977563858,
      "learning_rate": 0.0002,
      "loss": 0.5234484076499939,
      "mean_token_accuracy": 0.7843039780855179,
      "num_tokens": 12529856.0,
      "step": 765
    },
    {
      "entropy": 0.5171080678701401,
      "epoch": 2.8582089552238807,
      "grad_norm": 0.17318587005138397,
      "learning_rate": 0.0002,
      "loss": 0.520793080329895,
      "mean_token_accuracy": 0.7862659096717834,
      "num_tokens": 12546530.0,
      "step": 766
    },
    {
      "entropy": 0.540691614151001,
      "epoch": 2.861940298507463,
      "grad_norm": 0.15875069797039032,
      "learning_rate": 0.0002,
      "loss": 0.5400336384773254,
      "mean_token_accuracy": 0.7827646285295486,
      "num_tokens": 12563086.0,
      "step": 767
    },
    {
      "entropy": 0.5084429755806923,
      "epoch": 2.8656716417910446,
      "grad_norm": 0.14828889071941376,
      "learning_rate": 0.0002,
      "loss": 0.5024577379226685,
      "mean_token_accuracy": 0.7963315397500992,
      "num_tokens": 12579183.0,
      "step": 768
    },
    {
      "entropy": 0.5370931923389435,
      "epoch": 2.8694029850746268,
      "grad_norm": 0.14752823114395142,
      "learning_rate": 0.0002,
      "loss": 0.5261865854263306,
      "mean_token_accuracy": 0.7877734899520874,
      "num_tokens": 12596077.0,
      "step": 769
    },
    {
      "entropy": 0.5546486079692841,
      "epoch": 2.873134328358209,
      "grad_norm": 0.1517077535390854,
      "learning_rate": 0.0002,
      "loss": 0.5500649809837341,
      "mean_token_accuracy": 0.7785899043083191,
      "num_tokens": 12612620.0,
      "step": 770
    },
    {
      "entropy": 0.5144929736852646,
      "epoch": 2.876865671641791,
      "grad_norm": 0.18645553290843964,
      "learning_rate": 0.0002,
      "loss": 0.5184378623962402,
      "mean_token_accuracy": 0.7887341529130936,
      "num_tokens": 12628974.0,
      "step": 771
    },
    {
      "entropy": 0.5363174676895142,
      "epoch": 2.8805970149253732,
      "grad_norm": 0.173641175031662,
      "learning_rate": 0.0002,
      "loss": 0.5404868125915527,
      "mean_token_accuracy": 0.7838273793458939,
      "num_tokens": 12645473.0,
      "step": 772
    },
    {
      "entropy": 0.5220237821340561,
      "epoch": 2.8843283582089554,
      "grad_norm": 0.1810951977968216,
      "learning_rate": 0.0002,
      "loss": 0.5300620794296265,
      "mean_token_accuracy": 0.7870841026306152,
      "num_tokens": 12661871.0,
      "step": 773
    },
    {
      "entropy": 0.5215499252080917,
      "epoch": 2.888059701492537,
      "grad_norm": 0.17195403575897217,
      "learning_rate": 0.0002,
      "loss": 0.5228441953659058,
      "mean_token_accuracy": 0.7888252288103104,
      "num_tokens": 12678403.0,
      "step": 774
    },
    {
      "entropy": 0.5262960642576218,
      "epoch": 2.8917910447761193,
      "grad_norm": 0.16115020215511322,
      "learning_rate": 0.0002,
      "loss": 0.5279878973960876,
      "mean_token_accuracy": 0.7827633023262024,
      "num_tokens": 12694636.0,
      "step": 775
    },
    {
      "entropy": 0.5458672344684601,
      "epoch": 2.8955223880597014,
      "grad_norm": 0.18671803176403046,
      "learning_rate": 0.0002,
      "loss": 0.5379894971847534,
      "mean_token_accuracy": 0.7803581058979034,
      "num_tokens": 12711335.0,
      "step": 776
    },
    {
      "entropy": 0.5334444046020508,
      "epoch": 2.8992537313432836,
      "grad_norm": 0.16968129575252533,
      "learning_rate": 0.0002,
      "loss": 0.5301728248596191,
      "mean_token_accuracy": 0.7843312919139862,
      "num_tokens": 12727428.0,
      "step": 777
    },
    {
      "entropy": 0.5264092683792114,
      "epoch": 2.9029850746268657,
      "grad_norm": 0.17358112335205078,
      "learning_rate": 0.0002,
      "loss": 0.5304536819458008,
      "mean_token_accuracy": 0.7818145751953125,
      "num_tokens": 12743928.0,
      "step": 778
    },
    {
      "entropy": 0.521320641040802,
      "epoch": 2.906716417910448,
      "grad_norm": 0.19404703378677368,
      "learning_rate": 0.0002,
      "loss": 0.5308122038841248,
      "mean_token_accuracy": 0.7851481735706329,
      "num_tokens": 12760425.0,
      "step": 779
    },
    {
      "entropy": 0.5253891497850418,
      "epoch": 2.91044776119403,
      "grad_norm": 0.23603156208992004,
      "learning_rate": 0.0002,
      "loss": 0.537718653678894,
      "mean_token_accuracy": 0.7832214832305908,
      "num_tokens": 12776783.0,
      "step": 780
    },
    {
      "entropy": 0.5522697567939758,
      "epoch": 2.914179104477612,
      "grad_norm": 0.16655920445919037,
      "learning_rate": 0.0002,
      "loss": 0.5428380966186523,
      "mean_token_accuracy": 0.7817497551441193,
      "num_tokens": 12793260.0,
      "step": 781
    },
    {
      "entropy": 0.5386251360177994,
      "epoch": 2.917910447761194,
      "grad_norm": 0.17462746798992157,
      "learning_rate": 0.0002,
      "loss": 0.5273305773735046,
      "mean_token_accuracy": 0.7866194099187851,
      "num_tokens": 12809754.0,
      "step": 782
    },
    {
      "entropy": 0.5417182147502899,
      "epoch": 2.921641791044776,
      "grad_norm": 0.16420036554336548,
      "learning_rate": 0.0002,
      "loss": 0.5311017632484436,
      "mean_token_accuracy": 0.7847865968942642,
      "num_tokens": 12826135.0,
      "step": 783
    },
    {
      "entropy": 0.5094658881425858,
      "epoch": 2.925373134328358,
      "grad_norm": 0.209514319896698,
      "learning_rate": 0.0002,
      "loss": 0.5230738520622253,
      "mean_token_accuracy": 0.7901812642812729,
      "num_tokens": 12842378.0,
      "step": 784
    },
    {
      "entropy": 0.5122962892055511,
      "epoch": 2.9291044776119404,
      "grad_norm": 0.17986896634101868,
      "learning_rate": 0.0002,
      "loss": 0.5213406682014465,
      "mean_token_accuracy": 0.7899868190288544,
      "num_tokens": 12858715.0,
      "step": 785
    },
    {
      "entropy": 0.5239143073558807,
      "epoch": 2.9328358208955225,
      "grad_norm": 0.17349380254745483,
      "learning_rate": 0.0002,
      "loss": 0.5260440707206726,
      "mean_token_accuracy": 0.7880281209945679,
      "num_tokens": 12875134.0,
      "step": 786
    },
    {
      "entropy": 0.5183478370308876,
      "epoch": 2.9365671641791042,
      "grad_norm": 0.15738630294799805,
      "learning_rate": 0.0002,
      "loss": 0.5146017074584961,
      "mean_token_accuracy": 0.7944561541080475,
      "num_tokens": 12891435.0,
      "step": 787
    },
    {
      "entropy": 0.5321111530065536,
      "epoch": 2.9402985074626864,
      "grad_norm": 0.169599249958992,
      "learning_rate": 0.0002,
      "loss": 0.5332249402999878,
      "mean_token_accuracy": 0.7841628640890121,
      "num_tokens": 12907955.0,
      "step": 788
    },
    {
      "entropy": 0.5348423272371292,
      "epoch": 2.9440298507462686,
      "grad_norm": 0.1703958362340927,
      "learning_rate": 0.0002,
      "loss": 0.5319628715515137,
      "mean_token_accuracy": 0.7853727787733078,
      "num_tokens": 12924187.0,
      "step": 789
    },
    {
      "entropy": 0.5348647981882095,
      "epoch": 2.9477611940298507,
      "grad_norm": 0.16257572174072266,
      "learning_rate": 0.0002,
      "loss": 0.5274540185928345,
      "mean_token_accuracy": 0.7864417731761932,
      "num_tokens": 12940471.0,
      "step": 790
    },
    {
      "entropy": 0.5246876776218414,
      "epoch": 2.951492537313433,
      "grad_norm": 0.21989069879055023,
      "learning_rate": 0.0002,
      "loss": 0.532191276550293,
      "mean_token_accuracy": 0.7841058969497681,
      "num_tokens": 12956753.0,
      "step": 791
    },
    {
      "entropy": 0.5206954181194305,
      "epoch": 2.955223880597015,
      "grad_norm": 0.18530453741550446,
      "learning_rate": 0.0002,
      "loss": 0.5260450839996338,
      "mean_token_accuracy": 0.7853500992059708,
      "num_tokens": 12972983.0,
      "step": 792
    },
    {
      "entropy": 0.5218585133552551,
      "epoch": 2.958955223880597,
      "grad_norm": 0.19632470607757568,
      "learning_rate": 0.0002,
      "loss": 0.524539589881897,
      "mean_token_accuracy": 0.7870173752307892,
      "num_tokens": 12989538.0,
      "step": 793
    },
    {
      "entropy": 0.5301937758922577,
      "epoch": 2.9626865671641793,
      "grad_norm": 0.1759789139032364,
      "learning_rate": 0.0002,
      "loss": 0.5322460532188416,
      "mean_token_accuracy": 0.7846620082855225,
      "num_tokens": 13005865.0,
      "step": 794
    },
    {
      "entropy": 0.5316169708967209,
      "epoch": 2.966417910447761,
      "grad_norm": 0.18013249337673187,
      "learning_rate": 0.0002,
      "loss": 0.5267240405082703,
      "mean_token_accuracy": 0.7860967516899109,
      "num_tokens": 13022162.0,
      "step": 795
    },
    {
      "entropy": 0.5342477560043335,
      "epoch": 2.970149253731343,
      "grad_norm": 0.15967167913913727,
      "learning_rate": 0.0002,
      "loss": 0.531574010848999,
      "mean_token_accuracy": 0.7845140397548676,
      "num_tokens": 13038634.0,
      "step": 796
    },
    {
      "entropy": 0.5358534008264542,
      "epoch": 2.9738805970149254,
      "grad_norm": 0.18192364275455475,
      "learning_rate": 0.0002,
      "loss": 0.531234085559845,
      "mean_token_accuracy": 0.7822518199682236,
      "num_tokens": 13054913.0,
      "step": 797
    },
    {
      "entropy": 0.5332595482468605,
      "epoch": 2.9776119402985075,
      "grad_norm": 0.16098462045192719,
      "learning_rate": 0.0002,
      "loss": 0.5331971645355225,
      "mean_token_accuracy": 0.7841719388961792,
      "num_tokens": 13071687.0,
      "step": 798
    },
    {
      "entropy": 0.5196807980537415,
      "epoch": 2.9813432835820897,
      "grad_norm": 0.16396892070770264,
      "learning_rate": 0.0002,
      "loss": 0.5180687308311462,
      "mean_token_accuracy": 0.79112908244133,
      "num_tokens": 13088263.0,
      "step": 799
    },
    {
      "entropy": 0.5160314440727234,
      "epoch": 2.9850746268656714,
      "grad_norm": 0.18938018381595612,
      "learning_rate": 0.0002,
      "loss": 0.5278008580207825,
      "mean_token_accuracy": 0.7868732959032059,
      "num_tokens": 13104420.0,
      "step": 800
    },
    {
      "entropy": 0.5099834352731705,
      "epoch": 2.9888059701492535,
      "grad_norm": 0.18755869567394257,
      "learning_rate": 0.0002,
      "loss": 0.5147690176963806,
      "mean_token_accuracy": 0.790816992521286,
      "num_tokens": 13120862.0,
      "step": 801
    },
    {
      "entropy": 0.5440191924571991,
      "epoch": 2.9925373134328357,
      "grad_norm": 0.16148996353149414,
      "learning_rate": 0.0002,
      "loss": 0.5402988195419312,
      "mean_token_accuracy": 0.7817222625017166,
      "num_tokens": 13137523.0,
      "step": 802
    },
    {
      "entropy": 0.5369501113891602,
      "epoch": 2.996268656716418,
      "grad_norm": 0.17043927311897278,
      "learning_rate": 0.0002,
      "loss": 0.5288562178611755,
      "mean_token_accuracy": 0.7866682559251785,
      "num_tokens": 13153684.0,
      "step": 803
    },
    {
      "entropy": 0.5347233563661575,
      "epoch": 3.0,
      "grad_norm": 0.17972980439662933,
      "learning_rate": 0.0002,
      "loss": 0.5365173816680908,
      "mean_token_accuracy": 0.782272219657898,
      "num_tokens": 13170027.0,
      "step": 804
    }
  ],
  "logging_steps": 1,
  "max_steps": 804,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.2276685185818296e+18,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}