{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 804,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "entropy": 1.1324340403079987,
      "epoch": 0.0037313432835820895,
      "grad_norm": 1.6067556142807007,
      "learning_rate": 0.0002,
      "loss": 2.4804701805114746,
      "mean_token_accuracy": 0.5353229343891144,
      "num_tokens": 16370.0,
      "step": 1
    },
    {
      "entropy": 1.2276706099510193,
      "epoch": 0.007462686567164179,
      "grad_norm": 1.4987447261810303,
      "learning_rate": 0.0002,
      "loss": 2.135417938232422,
      "mean_token_accuracy": 0.5693617165088654,
      "num_tokens": 33043.0,
      "step": 2
    },
    {
      "entropy": 1.4045527577400208,
      "epoch": 0.011194029850746268,
      "grad_norm": 1.1359604597091675,
      "learning_rate": 0.0002,
      "loss": 1.72599196434021,
      "mean_token_accuracy": 0.5919849574565887,
      "num_tokens": 49458.0,
      "step": 3
    },
    {
      "entropy": 1.3863026201725006,
      "epoch": 0.014925373134328358,
      "grad_norm": 0.9200887084007263,
      "learning_rate": 0.0002,
      "loss": 1.4096770286560059,
      "mean_token_accuracy": 0.6369052678346634,
      "num_tokens": 65795.0,
      "step": 4
    },
    {
      "entropy": 1.331774890422821,
      "epoch": 0.018656716417910446,
      "grad_norm": 1.2737244367599487,
      "learning_rate": 0.0002,
      "loss": 1.2862391471862793,
      "mean_token_accuracy": 0.6422256380319595,
      "num_tokens": 82033.0,
      "step": 5
    },
    {
      "entropy": 1.2540993690490723,
      "epoch": 0.022388059701492536,
      "grad_norm": 0.6736201643943787,
      "learning_rate": 0.0002,
      "loss": 1.1756055355072021,
      "mean_token_accuracy": 0.6605449765920639,
      "num_tokens": 97997.0,
      "step": 6
    },
    {
      "entropy": 1.169641524553299,
      "epoch": 0.026119402985074626,
      "grad_norm": 0.3927549719810486,
      "learning_rate": 0.0002,
      "loss": 1.1019014120101929,
      "mean_token_accuracy": 0.6672378480434418,
      "num_tokens": 114186.0,
      "step": 7
    },
    {
      "entropy": 1.0887874066829681,
      "epoch": 0.029850746268656716,
      "grad_norm": 0.4364261329174042,
      "learning_rate": 0.0002,
      "loss": 1.0323972702026367,
      "mean_token_accuracy": 0.6782350987195969,
      "num_tokens": 130751.0,
      "step": 8
    },
    {
      "entropy": 1.0042430609464645,
      "epoch": 0.033582089552238806,
      "grad_norm": 0.5108282566070557,
      "learning_rate": 0.0002,
      "loss": 0.9582932591438293,
      "mean_token_accuracy": 0.692020371556282,
      "num_tokens": 147264.0,
      "step": 9
    },
    {
      "entropy": 0.9632741063833237,
      "epoch": 0.03731343283582089,
      "grad_norm": 0.4669722616672516,
      "learning_rate": 0.0002,
      "loss": 0.8919203877449036,
      "mean_token_accuracy": 0.7046539932489395,
      "num_tokens": 163507.0,
      "step": 10
    },
    {
      "entropy": 0.9305494576692581,
      "epoch": 0.041044776119402986,
      "grad_norm": 0.4794766902923584,
      "learning_rate": 0.0002,
      "loss": 0.8569780588150024,
      "mean_token_accuracy": 0.7103458344936371,
      "num_tokens": 179680.0,
      "step": 11
    },
    {
      "entropy": 0.8464002013206482,
      "epoch": 0.04477611940298507,
      "grad_norm": 0.396366685628891,
      "learning_rate": 0.0002,
      "loss": 0.7772667407989502,
      "mean_token_accuracy": 0.7248742878437042,
      "num_tokens": 196084.0,
      "step": 12
    },
    {
      "entropy": 0.8053079694509506,
      "epoch": 0.048507462686567165,
      "grad_norm": 3.4283485412597656,
      "learning_rate": 0.0002,
      "loss": 0.7701212763786316,
      "mean_token_accuracy": 0.7237996459007263,
      "num_tokens": 212421.0,
      "step": 13
    },
    {
      "entropy": 0.7701881229877472,
      "epoch": 0.05223880597014925,
      "grad_norm": 0.4621308147907257,
      "learning_rate": 0.0002,
      "loss": 0.7581663727760315,
      "mean_token_accuracy": 0.725386381149292,
      "num_tokens": 228835.0,
      "step": 14
    },
    {
      "entropy": 0.7058936208486557,
      "epoch": 0.055970149253731345,
      "grad_norm": 0.45394617319107056,
      "learning_rate": 0.0002,
      "loss": 0.7281949520111084,
      "mean_token_accuracy": 0.731869712471962,
      "num_tokens": 245106.0,
      "step": 15
    },
    {
      "entropy": 0.7007950246334076,
      "epoch": 0.05970149253731343,
      "grad_norm": 0.38048553466796875,
      "learning_rate": 0.0002,
      "loss": 0.6906558871269226,
      "mean_token_accuracy": 0.7422550022602081,
      "num_tokens": 261510.0,
      "step": 16
    },
    {
      "entropy": 0.6775622367858887,
      "epoch": 0.06343283582089553,
      "grad_norm": 0.3588451147079468,
      "learning_rate": 0.0002,
      "loss": 0.6660153865814209,
      "mean_token_accuracy": 0.7494668215513229,
      "num_tokens": 278002.0,
      "step": 17
    },
    {
      "entropy": 0.6844813376665115,
      "epoch": 0.06716417910447761,
      "grad_norm": 0.34310266375541687,
      "learning_rate": 0.0002,
      "loss": 0.6606006026268005,
      "mean_token_accuracy": 0.745672732591629,
      "num_tokens": 294482.0,
      "step": 18
    },
    {
      "entropy": 0.6752376109361649,
      "epoch": 0.0708955223880597,
      "grad_norm": 0.3563651740550995,
      "learning_rate": 0.0002,
      "loss": 0.6529812216758728,
      "mean_token_accuracy": 0.7467419356107712,
      "num_tokens": 310804.0,
      "step": 19
    },
    {
      "entropy": 0.655072346329689,
      "epoch": 0.07462686567164178,
      "grad_norm": 0.30358463525772095,
      "learning_rate": 0.0002,
      "loss": 0.6404100656509399,
      "mean_token_accuracy": 0.7505071759223938,
      "num_tokens": 327252.0,
      "step": 20
    },
    {
      "entropy": 0.6286358386278152,
      "epoch": 0.07835820895522388,
      "grad_norm": 0.30567091703414917,
      "learning_rate": 0.0002,
      "loss": 0.6207510232925415,
      "mean_token_accuracy": 0.7580177336931229,
      "num_tokens": 343737.0,
      "step": 21
    },
    {
      "entropy": 0.6086345314979553,
      "epoch": 0.08208955223880597,
      "grad_norm": 0.27747389674186707,
      "learning_rate": 0.0002,
      "loss": 0.6111672520637512,
      "mean_token_accuracy": 0.760840117931366,
      "num_tokens": 359961.0,
      "step": 22
    },
    {
      "entropy": 0.5925645977258682,
      "epoch": 0.08582089552238806,
      "grad_norm": 0.25484028458595276,
      "learning_rate": 0.0002,
      "loss": 0.5915433168411255,
      "mean_token_accuracy": 0.7686687558889389,
      "num_tokens": 376034.0,
      "step": 23
    },
    {
      "entropy": 0.6192648261785507,
      "epoch": 0.08955223880597014,
      "grad_norm": 0.2309548258781433,
      "learning_rate": 0.0002,
      "loss": 0.6154056787490845,
      "mean_token_accuracy": 0.7575328648090363,
      "num_tokens": 392454.0,
      "step": 24
    },
    {
      "entropy": 0.6046310663223267,
      "epoch": 0.09328358208955224,
      "grad_norm": 0.24919550120830536,
      "learning_rate": 0.0002,
      "loss": 0.5856317281723022,
      "mean_token_accuracy": 0.769055038690567,
      "num_tokens": 408673.0,
      "step": 25
    },
    {
      "entropy": 0.6073041707277298,
      "epoch": 0.09701492537313433,
      "grad_norm": 0.22897422313690186,
      "learning_rate": 0.0002,
      "loss": 0.6000080108642578,
      "mean_token_accuracy": 0.7657780200242996,
      "num_tokens": 425147.0,
      "step": 26
    },
    {
      "entropy": 0.5694791227579117,
      "epoch": 0.10074626865671642,
      "grad_norm": 0.26130226254463196,
      "learning_rate": 0.0002,
      "loss": 0.5651018619537354,
      "mean_token_accuracy": 0.7780718505382538,
      "num_tokens": 441676.0,
      "step": 27
    },
    {
      "entropy": 0.5705035477876663,
      "epoch": 0.1044776119402985,
      "grad_norm": 0.2569018304347992,
      "learning_rate": 0.0002,
      "loss": 0.5736910700798035,
      "mean_token_accuracy": 0.7736188471317291,
      "num_tokens": 457862.0,
      "step": 28
    },
    {
      "entropy": 0.5686106830835342,
      "epoch": 0.10820895522388059,
      "grad_norm": 0.24455995857715607,
      "learning_rate": 0.0002,
      "loss": 0.5789230465888977,
      "mean_token_accuracy": 0.7694863677024841,
      "num_tokens": 473929.0,
      "step": 29
    },
    {
      "entropy": 0.5674358904361725,
      "epoch": 0.11194029850746269,
      "grad_norm": 0.2457604557275772,
      "learning_rate": 0.0002,
      "loss": 0.581587553024292,
      "mean_token_accuracy": 0.7700542360544205,
      "num_tokens": 490261.0,
      "step": 30
    },
    {
      "entropy": 0.5924967974424362,
      "epoch": 0.11567164179104478,
      "grad_norm": 0.24704386293888092,
      "learning_rate": 0.0002,
      "loss": 0.5963209271430969,
      "mean_token_accuracy": 0.7627938687801361,
      "num_tokens": 506614.0,
      "step": 31
    },
    {
      "entropy": 0.5728770643472672,
      "epoch": 0.11940298507462686,
      "grad_norm": 0.24360406398773193,
      "learning_rate": 0.0002,
      "loss": 0.570555567741394,
      "mean_token_accuracy": 0.7713408023118973,
      "num_tokens": 523175.0,
      "step": 32
    },
    {
      "entropy": 0.5846883952617645,
      "epoch": 0.12313432835820895,
      "grad_norm": 0.20197518169879913,
      "learning_rate": 0.0002,
      "loss": 0.5723189115524292,
      "mean_token_accuracy": 0.7742884606122971,
      "num_tokens": 539383.0,
      "step": 33
    },
    {
      "entropy": 0.5598815232515335,
      "epoch": 0.12686567164179105,
      "grad_norm": 0.25282159447669983,
      "learning_rate": 0.0002,
      "loss": 0.5645520687103271,
      "mean_token_accuracy": 0.7759677618741989,
      "num_tokens": 555484.0,
      "step": 34
    },
    {
      "entropy": 0.5746279805898666,
      "epoch": 0.13059701492537312,
      "grad_norm": 0.20525087416172028,
      "learning_rate": 0.0002,
      "loss": 0.5774482488632202,
      "mean_token_accuracy": 0.7711690366268158,
      "num_tokens": 572050.0,
      "step": 35
    },
    {
      "entropy": 0.5689367800951004,
      "epoch": 0.13432835820895522,
      "grad_norm": 0.2016289383172989,
      "learning_rate": 0.0002,
      "loss": 0.5688468217849731,
      "mean_token_accuracy": 0.7752531915903091,
      "num_tokens": 588229.0,
      "step": 36
    },
    {
      "entropy": 0.5673371106386185,
      "epoch": 0.13805970149253732,
      "grad_norm": 0.20251700282096863,
      "learning_rate": 0.0002,
      "loss": 0.5676092505455017,
      "mean_token_accuracy": 0.7740599513053894,
      "num_tokens": 604842.0,
      "step": 37
    },
    {
      "entropy": 0.5538036525249481,
      "epoch": 0.1417910447761194,
      "grad_norm": 0.18855363130569458,
      "learning_rate": 0.0002,
      "loss": 0.5636182427406311,
      "mean_token_accuracy": 0.7732492536306381,
      "num_tokens": 621334.0,
      "step": 38
    },
    {
      "entropy": 0.5772293359041214,
      "epoch": 0.1455223880597015,
      "grad_norm": 0.1829119771718979,
      "learning_rate": 0.0002,
      "loss": 0.5749870538711548,
      "mean_token_accuracy": 0.7699291855096817,
      "num_tokens": 637861.0,
      "step": 39
    },
    {
      "entropy": 0.5583464652299881,
      "epoch": 0.14925373134328357,
      "grad_norm": 0.16470657289028168,
      "learning_rate": 0.0002,
      "loss": 0.5537322163581848,
      "mean_token_accuracy": 0.7790806740522385,
      "num_tokens": 653894.0,
      "step": 40
    },
    {
      "entropy": 0.5681058615446091,
      "epoch": 0.15298507462686567,
      "grad_norm": 0.17573200166225433,
      "learning_rate": 0.0002,
      "loss": 0.5643278360366821,
      "mean_token_accuracy": 0.7733141183853149,
      "num_tokens": 670015.0,
      "step": 41
    },
    {
      "entropy": 0.566686749458313,
      "epoch": 0.15671641791044777,
      "grad_norm": 0.16218754649162292,
      "learning_rate": 0.0002,
      "loss": 0.5597659945487976,
      "mean_token_accuracy": 0.7758253067731857,
      "num_tokens": 686056.0,
      "step": 42
    },
    {
      "entropy": 0.5558898448944092,
      "epoch": 0.16044776119402984,
      "grad_norm": 0.18278591334819794,
      "learning_rate": 0.0002,
      "loss": 0.558386504650116,
      "mean_token_accuracy": 0.7759624123573303,
      "num_tokens": 702659.0,
      "step": 43
    },
    {
      "entropy": 0.5585661381483078,
      "epoch": 0.16417910447761194,
      "grad_norm": 0.17696230113506317,
      "learning_rate": 0.0002,
      "loss": 0.5635029673576355,
      "mean_token_accuracy": 0.7751695066690445,
      "num_tokens": 718850.0,
      "step": 44
    },
    {
      "entropy": 0.5506571680307388,
      "epoch": 0.16791044776119404,
      "grad_norm": 0.1652524471282959,
      "learning_rate": 0.0002,
      "loss": 0.5565558671951294,
      "mean_token_accuracy": 0.7778312116861343,
      "num_tokens": 735246.0,
      "step": 45
    },
    {
      "entropy": 0.5514795780181885,
      "epoch": 0.17164179104477612,
      "grad_norm": 0.18487824499607086,
      "learning_rate": 0.0002,
      "loss": 0.5487773418426514,
      "mean_token_accuracy": 0.7793762385845184,
      "num_tokens": 751565.0,
      "step": 46
    },
    {
      "entropy": 0.5588273853063583,
      "epoch": 0.17537313432835822,
      "grad_norm": 0.19246406853199005,
      "learning_rate": 0.0002,
      "loss": 0.5596141219139099,
      "mean_token_accuracy": 0.7778225541114807,
      "num_tokens": 767932.0,
      "step": 47
    },
    {
      "entropy": 0.5591737627983093,
      "epoch": 0.1791044776119403,
      "grad_norm": 0.15891006588935852,
      "learning_rate": 0.0002,
      "loss": 0.5638841390609741,
      "mean_token_accuracy": 0.7727467268705368,
      "num_tokens": 784014.0,
      "step": 48
    },
    {
      "entropy": 0.5501811355352402,
      "epoch": 0.1828358208955224,
      "grad_norm": 0.16706983745098114,
      "learning_rate": 0.0002,
      "loss": 0.5501376986503601,
      "mean_token_accuracy": 0.7761423140764236,
      "num_tokens": 800374.0,
      "step": 49
    },
    {
      "entropy": 0.5606948286294937,
      "epoch": 0.1865671641791045,
      "grad_norm": 0.17230357229709625,
      "learning_rate": 0.0002,
      "loss": 0.5634580850601196,
      "mean_token_accuracy": 0.7727725654840469,
      "num_tokens": 816520.0,
      "step": 50
    },
    {
      "entropy": 0.5541675686836243,
      "epoch": 0.19029850746268656,
      "grad_norm": 0.1744348555803299,
      "learning_rate": 0.0002,
      "loss": 0.5664834380149841,
      "mean_token_accuracy": 0.7722806632518768,
      "num_tokens": 832574.0,
      "step": 51
    },
    {
      "entropy": 0.5447754859924316,
      "epoch": 0.19402985074626866,
      "grad_norm": 0.1993291825056076,
      "learning_rate": 0.0002,
      "loss": 0.5500599145889282,
      "mean_token_accuracy": 0.7812339067459106,
      "num_tokens": 848524.0,
      "step": 52
    },
    {
      "entropy": 0.55513696372509,
      "epoch": 0.19776119402985073,
      "grad_norm": 0.18667836487293243,
      "learning_rate": 0.0002,
      "loss": 0.5566352605819702,
      "mean_token_accuracy": 0.7776180505752563,
      "num_tokens": 864701.0,
      "step": 53
    },
    {
      "entropy": 0.5591137707233429,
      "epoch": 0.20149253731343283,
      "grad_norm": 0.1556427925825119,
      "learning_rate": 0.0002,
      "loss": 0.5615472197532654,
      "mean_token_accuracy": 0.7761439085006714,
      "num_tokens": 881019.0,
      "step": 54
    },
    {
      "entropy": 0.5678103417158127,
      "epoch": 0.20522388059701493,
      "grad_norm": 0.176001638174057,
      "learning_rate": 0.0002,
      "loss": 0.5604614615440369,
      "mean_token_accuracy": 0.7737350314855576,
      "num_tokens": 897731.0,
      "step": 55
    },
    {
      "entropy": 0.5736003369092941,
      "epoch": 0.208955223880597,
      "grad_norm": 0.17963656783103943,
      "learning_rate": 0.0002,
      "loss": 0.5741879940032959,
      "mean_token_accuracy": 0.7709980905056,
      "num_tokens": 914031.0,
      "step": 56
    },
    {
      "entropy": 0.5704395622014999,
      "epoch": 0.2126865671641791,
      "grad_norm": 0.15910783410072327,
      "learning_rate": 0.0002,
      "loss": 0.571160078048706,
      "mean_token_accuracy": 0.7722027599811554,
      "num_tokens": 930606.0,
      "step": 57
    },
    {
      "entropy": 0.5746669173240662,
      "epoch": 0.21641791044776118,
      "grad_norm": 0.15874247252941132,
      "learning_rate": 0.0002,
      "loss": 0.5674406886100769,
      "mean_token_accuracy": 0.7708650529384613,
      "num_tokens": 947244.0,
      "step": 58
    },
    {
      "entropy": 0.5582200437784195,
      "epoch": 0.22014925373134328,
      "grad_norm": 0.16829723119735718,
      "learning_rate": 0.0002,
      "loss": 0.5581406950950623,
      "mean_token_accuracy": 0.7757681459188461,
      "num_tokens": 963619.0,
      "step": 59
    },
    {
      "entropy": 0.5504408478736877,
      "epoch": 0.22388059701492538,
      "grad_norm": 0.14540037512779236,
      "learning_rate": 0.0002,
      "loss": 0.5557159781455994,
      "mean_token_accuracy": 0.776930645108223,
      "num_tokens": 980040.0,
      "step": 60
    },
    {
      "entropy": 0.5402641594409943,
      "epoch": 0.22761194029850745,
      "grad_norm": 0.14897902309894562,
      "learning_rate": 0.0002,
      "loss": 0.5523658394813538,
      "mean_token_accuracy": 0.7773705869913101,
      "num_tokens": 996383.0,
      "step": 61
    },
    {
      "entropy": 0.5391396135091782,
      "epoch": 0.23134328358208955,
      "grad_norm": 0.16873425245285034,
      "learning_rate": 0.0002,
      "loss": 0.5509910583496094,
      "mean_token_accuracy": 0.7777218073606491,
      "num_tokens": 1012664.0,
      "step": 62
    },
    {
      "entropy": 0.5582114011049271,
      "epoch": 0.23507462686567165,
      "grad_norm": 0.1502108871936798,
      "learning_rate": 0.0002,
      "loss": 0.5559942126274109,
      "mean_token_accuracy": 0.7745993584394455,
      "num_tokens": 1029022.0,
      "step": 63
    },
    {
      "entropy": 0.5812249481678009,
      "epoch": 0.23880597014925373,
      "grad_norm": 0.13852274417877197,
      "learning_rate": 0.0002,
      "loss": 0.5768259167671204,
      "mean_token_accuracy": 0.766035184264183,
      "num_tokens": 1045337.0,
      "step": 64
    },
    {
      "entropy": 0.555647611618042,
      "epoch": 0.24253731343283583,
      "grad_norm": 0.1643349826335907,
      "learning_rate": 0.0002,
      "loss": 0.5524765849113464,
      "mean_token_accuracy": 0.7790125608444214,
      "num_tokens": 1061843.0,
      "step": 65
    },
    {
      "entropy": 0.5712831914424896,
      "epoch": 0.2462686567164179,
      "grad_norm": 0.1458103060722351,
      "learning_rate": 0.0002,
      "loss": 0.5671954154968262,
      "mean_token_accuracy": 0.7726651430130005,
      "num_tokens": 1078313.0,
      "step": 66
    },
    {
      "entropy": 0.548685610294342,
      "epoch": 0.25,
      "grad_norm": 0.13704419136047363,
      "learning_rate": 0.0002,
      "loss": 0.5478826761245728,
      "mean_token_accuracy": 0.7788915038108826,
      "num_tokens": 1094803.0,
      "step": 67
    },
    {
      "entropy": 0.5427667200565338,
      "epoch": 0.2537313432835821,
      "grad_norm": 0.16616535186767578,
      "learning_rate": 0.0002,
      "loss": 0.5495492815971375,
      "mean_token_accuracy": 0.7795749753713608,
      "num_tokens": 1111058.0,
      "step": 68
    },
    {
      "entropy": 0.5463619232177734,
      "epoch": 0.2574626865671642,
      "grad_norm": 0.1541680544614792,
      "learning_rate": 0.0002,
      "loss": 0.5557973980903625,
      "mean_token_accuracy": 0.7797737270593643,
      "num_tokens": 1127187.0,
      "step": 69
    },
    {
      "entropy": 0.5503609925508499,
      "epoch": 0.26119402985074625,
      "grad_norm": 0.16344738006591797,
      "learning_rate": 0.0002,
      "loss": 0.5560310482978821,
      "mean_token_accuracy": 0.7764633148908615,
      "num_tokens": 1143517.0,
      "step": 70
    },
    {
      "entropy": 0.564177006483078,
      "epoch": 0.26492537313432835,
      "grad_norm": 0.1369864046573639,
      "learning_rate": 0.0002,
      "loss": 0.5619618892669678,
      "mean_token_accuracy": 0.774873822927475,
      "num_tokens": 1160191.0,
      "step": 71
    },
    {
      "entropy": 0.5624472498893738,
      "epoch": 0.26865671641791045,
      "grad_norm": 0.16099311411380768,
      "learning_rate": 0.0002,
      "loss": 0.5546153783798218,
      "mean_token_accuracy": 0.7775298207998276,
      "num_tokens": 1176379.0,
      "step": 72
    },
    {
      "entropy": 0.5442378669977188,
      "epoch": 0.27238805970149255,
      "grad_norm": 0.18382063508033752,
      "learning_rate": 0.0002,
      "loss": 0.5439026951789856,
      "mean_token_accuracy": 0.7808986604213715,
      "num_tokens": 1192611.0,
      "step": 73
    },
    {
      "entropy": 0.5539779812097549,
      "epoch": 0.27611940298507465,
      "grad_norm": 0.14527475833892822,
      "learning_rate": 0.0002,
      "loss": 0.5488794445991516,
      "mean_token_accuracy": 0.7770136892795563,
      "num_tokens": 1209218.0,
      "step": 74
    },
    {
      "entropy": 0.5399174243211746,
      "epoch": 0.2798507462686567,
      "grad_norm": 0.16744667291641235,
      "learning_rate": 0.0002,
      "loss": 0.5474289059638977,
      "mean_token_accuracy": 0.7779674381017685,
      "num_tokens": 1225760.0,
      "step": 75
    },
    {
      "entropy": 0.5410275682806969,
      "epoch": 0.2835820895522388,
      "grad_norm": 0.1709633320569992,
      "learning_rate": 0.0002,
      "loss": 0.548405110836029,
      "mean_token_accuracy": 0.7785314917564392,
      "num_tokens": 1242263.0,
      "step": 76
    },
    {
      "entropy": 0.5613621175289154,
      "epoch": 0.2873134328358209,
      "grad_norm": 0.13462653756141663,
      "learning_rate": 0.0002,
      "loss": 0.5592188835144043,
      "mean_token_accuracy": 0.7736580222845078,
      "num_tokens": 1258802.0,
      "step": 77
    },
    {
      "entropy": 0.5370856672525406,
      "epoch": 0.291044776119403,
      "grad_norm": 0.14010556042194366,
      "learning_rate": 0.0002,
      "loss": 0.5362333655357361,
      "mean_token_accuracy": 0.7829223275184631,
      "num_tokens": 1274985.0,
      "step": 78
    },
    {
      "entropy": 0.5476308465003967,
      "epoch": 0.2947761194029851,
      "grad_norm": 0.14489887654781342,
      "learning_rate": 0.0002,
      "loss": 0.549788236618042,
      "mean_token_accuracy": 0.7797223776578903,
      "num_tokens": 1291341.0,
      "step": 79
    },
    {
      "entropy": 0.5441256165504456,
      "epoch": 0.29850746268656714,
      "grad_norm": 0.14331087470054626,
      "learning_rate": 0.0002,
      "loss": 0.5457456111907959,
      "mean_token_accuracy": 0.7812238931655884,
      "num_tokens": 1307441.0,
      "step": 80
    },
    {
      "entropy": 0.5347439795732498,
      "epoch": 0.30223880597014924,
      "grad_norm": 0.13690398633480072,
      "learning_rate": 0.0002,
      "loss": 0.5451613068580627,
      "mean_token_accuracy": 0.7763567119836807,
      "num_tokens": 1323409.0,
      "step": 81
    },
    {
      "entropy": 0.5473417937755585,
      "epoch": 0.30597014925373134,
      "grad_norm": 0.16063734889030457,
      "learning_rate": 0.0002,
      "loss": 0.5565767288208008,
      "mean_token_accuracy": 0.7768999934196472,
      "num_tokens": 1339750.0,
      "step": 82
    },
    {
      "entropy": 0.5419514924287796,
      "epoch": 0.30970149253731344,
      "grad_norm": 0.16186301410198212,
      "learning_rate": 0.0002,
      "loss": 0.5480918288230896,
      "mean_token_accuracy": 0.7810427248477936,
      "num_tokens": 1355977.0,
      "step": 83
    },
    {
      "entropy": 0.5665269196033478,
      "epoch": 0.31343283582089554,
      "grad_norm": 0.14284147322177887,
      "learning_rate": 0.0002,
      "loss": 0.5600348711013794,
      "mean_token_accuracy": 0.7740004658699036,
      "num_tokens": 1372396.0,
      "step": 84
    },
    {
      "entropy": 0.5530648082494736,
      "epoch": 0.31716417910447764,
      "grad_norm": 0.1373152732849121,
      "learning_rate": 0.0002,
      "loss": 0.547944962978363,
      "mean_token_accuracy": 0.7793020755052567,
      "num_tokens": 1388474.0,
      "step": 85
    },
    {
      "entropy": 0.5625097453594208,
      "epoch": 0.3208955223880597,
      "grad_norm": 0.1248691976070404,
      "learning_rate": 0.0002,
      "loss": 0.5582663416862488,
      "mean_token_accuracy": 0.7758172750473022,
      "num_tokens": 1404880.0,
      "step": 86
    },
    {
      "entropy": 0.5460606664419174,
      "epoch": 0.3246268656716418,
      "grad_norm": 0.16231709718704224,
      "learning_rate": 0.0002,
      "loss": 0.5510202646255493,
      "mean_token_accuracy": 0.7779169529676437,
      "num_tokens": 1421168.0,
      "step": 87
    },
    {
      "entropy": 0.5403235554695129,
      "epoch": 0.3283582089552239,
      "grad_norm": 0.15352240204811096,
      "learning_rate": 0.0002,
      "loss": 0.5474361181259155,
      "mean_token_accuracy": 0.7786824256181717,
      "num_tokens": 1437433.0,
      "step": 88
    },
    {
      "entropy": 0.550665482878685,
      "epoch": 0.332089552238806,
      "grad_norm": 0.17033375799655914,
      "learning_rate": 0.0002,
      "loss": 0.5535221695899963,
      "mean_token_accuracy": 0.7792181968688965,
      "num_tokens": 1453476.0,
      "step": 89
    },
    {
      "entropy": 0.563551127910614,
      "epoch": 0.3358208955223881,
      "grad_norm": 0.13113154470920563,
      "learning_rate": 0.0002,
      "loss": 0.5608611106872559,
      "mean_token_accuracy": 0.7760418206453323,
      "num_tokens": 1469909.0,
      "step": 90
    },
    {
      "entropy": 0.5737572461366653,
      "epoch": 0.33955223880597013,
      "grad_norm": 0.12551374733448029,
      "learning_rate": 0.0002,
      "loss": 0.5643397569656372,
      "mean_token_accuracy": 0.7728746980428696,
      "num_tokens": 1486426.0,
      "step": 91
    },
    {
      "entropy": 0.5659501850605011,
      "epoch": 0.34328358208955223,
      "grad_norm": 0.15791846811771393,
      "learning_rate": 0.0002,
      "loss": 0.5704576969146729,
      "mean_token_accuracy": 0.7684866786003113,
      "num_tokens": 1502522.0,
      "step": 92
    },
    {
      "entropy": 0.5568918883800507,
      "epoch": 0.34701492537313433,
      "grad_norm": 0.14071005582809448,
      "learning_rate": 0.0002,
      "loss": 0.559943437576294,
      "mean_token_accuracy": 0.7734934538602829,
      "num_tokens": 1518718.0,
      "step": 93
    },
    {
      "entropy": 0.5584161728620529,
      "epoch": 0.35074626865671643,
      "grad_norm": 0.14257407188415527,
      "learning_rate": 0.0002,
      "loss": 0.5574990510940552,
      "mean_token_accuracy": 0.7743052095174789,
      "num_tokens": 1534997.0,
      "step": 94
    },
    {
      "entropy": 0.5583510845899582,
      "epoch": 0.35447761194029853,
      "grad_norm": 0.13653768599033356,
      "learning_rate": 0.0002,
      "loss": 0.5597235560417175,
      "mean_token_accuracy": 0.7758298218250275,
      "num_tokens": 1551457.0,
      "step": 95
    },
    {
      "entropy": 0.5537077486515045,
      "epoch": 0.3582089552238806,
      "grad_norm": 0.14674222469329834,
      "learning_rate": 0.0002,
      "loss": 0.5539477467536926,
      "mean_token_accuracy": 0.7744529694318771,
      "num_tokens": 1567731.0,
      "step": 96
    },
    {
      "entropy": 0.5472210198640823,
      "epoch": 0.3619402985074627,
      "grad_norm": 0.1276751160621643,
      "learning_rate": 0.0002,
      "loss": 0.5464935898780823,
      "mean_token_accuracy": 0.7826344817876816,
      "num_tokens": 1584021.0,
      "step": 97
    },
    {
      "entropy": 0.5479029715061188,
      "epoch": 0.3656716417910448,
      "grad_norm": 0.16119465231895447,
      "learning_rate": 0.0002,
      "loss": 0.5547060966491699,
      "mean_token_accuracy": 0.7760697901248932,
      "num_tokens": 1600533.0,
      "step": 98
    },
    {
      "entropy": 0.5536443293094635,
      "epoch": 0.3694029850746269,
      "grad_norm": 0.12991106510162354,
      "learning_rate": 0.0002,
      "loss": 0.5573412775993347,
      "mean_token_accuracy": 0.7744511961936951,
      "num_tokens": 1616690.0,
      "step": 99
    },
    {
      "entropy": 0.5505102574825287,
      "epoch": 0.373134328358209,
      "grad_norm": 0.1364317238330841,
      "learning_rate": 0.0002,
      "loss": 0.5571202635765076,
      "mean_token_accuracy": 0.7761907130479813,
      "num_tokens": 1632957.0,
      "step": 100
    },
    {
      "entropy": 0.5503265261650085,
      "epoch": 0.376865671641791,
      "grad_norm": 0.14918965101242065,
      "learning_rate": 0.0002,
      "loss": 0.5452536344528198,
      "mean_token_accuracy": 0.7773023992776871,
      "num_tokens": 1649397.0,
      "step": 101
    },
    {
      "entropy": 0.5523863285779953,
      "epoch": 0.3805970149253731,
      "grad_norm": 0.14225420355796814,
      "learning_rate": 0.0002,
      "loss": 0.5425117611885071,
      "mean_token_accuracy": 0.7800490856170654,
      "num_tokens": 1665876.0,
      "step": 102
    },
    {
      "entropy": 0.5518430918455124,
      "epoch": 0.3843283582089552,
      "grad_norm": 0.12764710187911987,
      "learning_rate": 0.0002,
      "loss": 0.5529345870018005,
      "mean_token_accuracy": 0.7768139094114304,
      "num_tokens": 1682296.0,
      "step": 103
    },
    {
      "entropy": 0.5581493228673935,
      "epoch": 0.3880597014925373,
      "grad_norm": 0.16170883178710938,
      "learning_rate": 0.0002,
      "loss": 0.5702566504478455,
      "mean_token_accuracy": 0.7671579420566559,
      "num_tokens": 1698550.0,
      "step": 104
    },
    {
      "entropy": 0.558798760175705,
      "epoch": 0.3917910447761194,
      "grad_norm": 0.14736565947532654,
      "learning_rate": 0.0002,
      "loss": 0.5634024143218994,
      "mean_token_accuracy": 0.7718724012374878,
      "num_tokens": 1714882.0,
      "step": 105
    },
    {
      "entropy": 0.5496668964624405,
      "epoch": 0.39552238805970147,
      "grad_norm": 0.150962695479393,
      "learning_rate": 0.0002,
      "loss": 0.5452749133110046,
      "mean_token_accuracy": 0.7789688110351562,
      "num_tokens": 1731436.0,
      "step": 106
    },
    {
      "entropy": 0.5397633910179138,
      "epoch": 0.39925373134328357,
      "grad_norm": 0.12951846420764923,
      "learning_rate": 0.0002,
      "loss": 0.5374678373336792,
      "mean_token_accuracy": 0.7823840379714966,
      "num_tokens": 1747667.0,
      "step": 107
    },
    {
      "entropy": 0.5504965782165527,
      "epoch": 0.40298507462686567,
      "grad_norm": 0.1469883769750595,
      "learning_rate": 0.0002,
      "loss": 0.5489968061447144,
      "mean_token_accuracy": 0.7779988348484039,
      "num_tokens": 1763956.0,
      "step": 108
    },
    {
      "entropy": 0.5401955544948578,
      "epoch": 0.40671641791044777,
      "grad_norm": 0.14114412665367126,
      "learning_rate": 0.0002,
      "loss": 0.5469740033149719,
      "mean_token_accuracy": 0.7791216820478439,
      "num_tokens": 1780050.0,
      "step": 109
    },
    {
      "entropy": 0.5623095035552979,
      "epoch": 0.41044776119402987,
      "grad_norm": 0.12923510372638702,
      "learning_rate": 0.0002,
      "loss": 0.5578881502151489,
      "mean_token_accuracy": 0.7777072787284851,
      "num_tokens": 1796820.0,
      "step": 110
    },
    {
      "entropy": 0.5413771942257881,
      "epoch": 0.4141791044776119,
      "grad_norm": 0.1528160274028778,
      "learning_rate": 0.0002,
      "loss": 0.5452436208724976,
      "mean_token_accuracy": 0.7776108086109161,
      "num_tokens": 1813232.0,
      "step": 111
    },
    {
      "entropy": 0.5609131902456284,
      "epoch": 0.417910447761194,
      "grad_norm": 0.12400584667921066,
      "learning_rate": 0.0002,
      "loss": 0.5644053816795349,
      "mean_token_accuracy": 0.7719212174415588,
      "num_tokens": 1829542.0,
      "step": 112
    },
    {
      "entropy": 0.543258398771286,
      "epoch": 0.4216417910447761,
      "grad_norm": 0.11892957985401154,
      "learning_rate": 0.0002,
      "loss": 0.5409727692604065,
      "mean_token_accuracy": 0.7800008654594421,
      "num_tokens": 1845855.0,
      "step": 113
    },
    {
      "entropy": 0.5490185469388962,
      "epoch": 0.4253731343283582,
      "grad_norm": 0.1497296690940857,
      "learning_rate": 0.0002,
      "loss": 0.5536864995956421,
      "mean_token_accuracy": 0.7792476564645767,
      "num_tokens": 1862087.0,
      "step": 114
    },
    {
      "entropy": 0.53768490254879,
      "epoch": 0.4291044776119403,
      "grad_norm": 0.13764707744121552,
      "learning_rate": 0.0002,
      "loss": 0.5394353866577148,
      "mean_token_accuracy": 0.7829310894012451,
      "num_tokens": 1878496.0,
      "step": 115
    },
    {
      "entropy": 0.548382118344307,
      "epoch": 0.43283582089552236,
      "grad_norm": 0.1350480020046234,
      "learning_rate": 0.0002,
      "loss": 0.5588696002960205,
      "mean_token_accuracy": 0.773399829864502,
      "num_tokens": 1894649.0,
      "step": 116
    },
    {
      "entropy": 0.5273909568786621,
      "epoch": 0.43656716417910446,
      "grad_norm": 0.1509886085987091,
      "learning_rate": 0.0002,
      "loss": 0.5329999923706055,
      "mean_token_accuracy": 0.7835660129785538,
      "num_tokens": 1910828.0,
      "step": 117
    },
    {
      "entropy": 0.5727127343416214,
      "epoch": 0.44029850746268656,
      "grad_norm": 0.12369527667760849,
      "learning_rate": 0.0002,
      "loss": 0.5647591948509216,
      "mean_token_accuracy": 0.7721648663282394,
      "num_tokens": 1927319.0,
      "step": 118
    },
    {
      "entropy": 0.5657652169466019,
      "epoch": 0.44402985074626866,
      "grad_norm": 0.14263150095939636,
      "learning_rate": 0.0002,
      "loss": 0.5616084337234497,
      "mean_token_accuracy": 0.7732421457767487,
      "num_tokens": 1943783.0,
      "step": 119
    },
    {
      "entropy": 0.5638687461614609,
      "epoch": 0.44776119402985076,
      "grad_norm": 0.11849121749401093,
      "learning_rate": 0.0002,
      "loss": 0.5577123165130615,
      "mean_token_accuracy": 0.7739600390195847,
      "num_tokens": 1960125.0,
      "step": 120
    },
    {
      "entropy": 0.5605282336473465,
      "epoch": 0.45149253731343286,
      "grad_norm": 0.1323515772819519,
      "learning_rate": 0.0002,
      "loss": 0.557800829410553,
      "mean_token_accuracy": 0.7727965116500854,
      "num_tokens": 1976458.0,
      "step": 121
    },
    {
      "entropy": 0.5336878746747971,
      "epoch": 0.4552238805970149,
      "grad_norm": 0.14154070615768433,
      "learning_rate": 0.0002,
      "loss": 0.5429147481918335,
      "mean_token_accuracy": 0.7805563360452652,
      "num_tokens": 1992835.0,
      "step": 122
    },
    {
      "entropy": 0.5291022211313248,
      "epoch": 0.458955223880597,
      "grad_norm": 0.15199723839759827,
      "learning_rate": 0.0002,
      "loss": 0.5432179570198059,
      "mean_token_accuracy": 0.7801262736320496,
      "num_tokens": 2008972.0,
      "step": 123
    },
    {
      "entropy": 0.551175132393837,
      "epoch": 0.4626865671641791,
      "grad_norm": 0.11983563005924225,
      "learning_rate": 0.0002,
      "loss": 0.5541180968284607,
      "mean_token_accuracy": 0.7762188464403152,
      "num_tokens": 2025359.0,
      "step": 124
    },
    {
      "entropy": 0.5533900856971741,
      "epoch": 0.4664179104477612,
      "grad_norm": 0.11737282574176788,
      "learning_rate": 0.0002,
      "loss": 0.5463876724243164,
      "mean_token_accuracy": 0.7790547609329224,
      "num_tokens": 2041643.0,
      "step": 125
    },
    {
      "entropy": 0.5509413182735443,
      "epoch": 0.4701492537313433,
      "grad_norm": 0.13276953995227814,
      "learning_rate": 0.0002,
      "loss": 0.5425540208816528,
      "mean_token_accuracy": 0.7806166559457779,
      "num_tokens": 2057820.0,
      "step": 126
    },
    {
      "entropy": 0.5531751215457916,
      "epoch": 0.47388059701492535,
      "grad_norm": 0.12553741037845612,
      "learning_rate": 0.0002,
      "loss": 0.5523180961608887,
      "mean_token_accuracy": 0.7784822881221771,
      "num_tokens": 2074179.0,
      "step": 127
    },
    {
      "entropy": 0.546363577246666,
      "epoch": 0.47761194029850745,
      "grad_norm": 0.13337954878807068,
      "learning_rate": 0.0002,
      "loss": 0.5551460981369019,
      "mean_token_accuracy": 0.7742737084627151,
      "num_tokens": 2090654.0,
      "step": 128
    },
    {
      "entropy": 0.5285965204238892,
      "epoch": 0.48134328358208955,
      "grad_norm": 0.13400429487228394,
      "learning_rate": 0.0002,
      "loss": 0.5407966375350952,
      "mean_token_accuracy": 0.7815738469362259,
      "num_tokens": 2107063.0,
      "step": 129
    },
    {
      "entropy": 0.5335082858800888,
      "epoch": 0.48507462686567165,
      "grad_norm": 0.13302984833717346,
      "learning_rate": 0.0002,
      "loss": 0.5388374328613281,
      "mean_token_accuracy": 0.7839466333389282,
      "num_tokens": 2123452.0,
      "step": 130
    },
    {
      "entropy": 0.557282879948616,
      "epoch": 0.48880597014925375,
      "grad_norm": 0.13119758665561676,
      "learning_rate": 0.0002,
      "loss": 0.5534148812294006,
      "mean_token_accuracy": 0.7738241106271744,
      "num_tokens": 2139585.0,
      "step": 131
    },
    {
      "entropy": 0.5428808927536011,
      "epoch": 0.4925373134328358,
      "grad_norm": 0.12375836819410324,
      "learning_rate": 0.0002,
      "loss": 0.5381428003311157,
      "mean_token_accuracy": 0.7813713997602463,
      "num_tokens": 2155902.0,
      "step": 132
    },
    {
      "entropy": 0.5618433207273483,
      "epoch": 0.4962686567164179,
      "grad_norm": 0.13146650791168213,
      "learning_rate": 0.0002,
      "loss": 0.552733838558197,
      "mean_token_accuracy": 0.7768221199512482,
      "num_tokens": 2172496.0,
      "step": 133
    },
    {
      "entropy": 0.5565268397331238,
      "epoch": 0.5,
      "grad_norm": 0.11766450107097626,
      "learning_rate": 0.0002,
      "loss": 0.5559637546539307,
      "mean_token_accuracy": 0.7758495062589645,
      "num_tokens": 2188987.0,
      "step": 134
    },
    {
      "entropy": 0.5205433219671249,
      "epoch": 0.503731343283582,
      "grad_norm": 0.12712325155735016,
      "learning_rate": 0.0002,
      "loss": 0.5280570387840271,
      "mean_token_accuracy": 0.7863014787435532,
      "num_tokens": 2205010.0,
      "step": 135
    },
    {
      "entropy": 0.5373736917972565,
      "epoch": 0.5074626865671642,
      "grad_norm": 0.13094842433929443,
      "learning_rate": 0.0002,
      "loss": 0.5430901050567627,
      "mean_token_accuracy": 0.780227467417717,
      "num_tokens": 2221474.0,
      "step": 136
    },
    {
      "entropy": 0.5688028186559677,
      "epoch": 0.5111940298507462,
      "grad_norm": 0.1379985511302948,
      "learning_rate": 0.0002,
      "loss": 0.5740535855293274,
      "mean_token_accuracy": 0.7692983150482178,
      "num_tokens": 2238030.0,
      "step": 137
    },
    {
      "entropy": 0.5621554553508759,
      "epoch": 0.5149253731343284,
      "grad_norm": 0.13305246829986572,
      "learning_rate": 0.0002,
      "loss": 0.5573163032531738,
      "mean_token_accuracy": 0.7748852521181107,
      "num_tokens": 2254436.0,
      "step": 138
    },
    {
      "entropy": 0.5507737994194031,
      "epoch": 0.5186567164179104,
      "grad_norm": 0.12606868147850037,
      "learning_rate": 0.0002,
      "loss": 0.5473536849021912,
      "mean_token_accuracy": 0.7785522937774658,
      "num_tokens": 2270806.0,
      "step": 139
    },
    {
      "entropy": 0.5534549057483673,
      "epoch": 0.5223880597014925,
      "grad_norm": 0.14390718936920166,
      "learning_rate": 0.0002,
      "loss": 0.5571063756942749,
      "mean_token_accuracy": 0.7750511020421982,
      "num_tokens": 2286975.0,
      "step": 140
    },
    {
      "entropy": 0.5419649630784988,
      "epoch": 0.5261194029850746,
      "grad_norm": 0.13526654243469238,
      "learning_rate": 0.0002,
      "loss": 0.5507834553718567,
      "mean_token_accuracy": 0.7767505496740341,
      "num_tokens": 2303373.0,
      "step": 141
    },
    {
      "entropy": 0.5532436519861221,
      "epoch": 0.5298507462686567,
      "grad_norm": 0.1307537853717804,
      "learning_rate": 0.0002,
      "loss": 0.5537344813346863,
      "mean_token_accuracy": 0.7779698222875595,
      "num_tokens": 2319833.0,
      "step": 142
    },
    {
      "entropy": 0.5443145930767059,
      "epoch": 0.5335820895522388,
      "grad_norm": 0.12360236793756485,
      "learning_rate": 0.0002,
      "loss": 0.5414459109306335,
      "mean_token_accuracy": 0.7796581238508224,
      "num_tokens": 2336100.0,
      "step": 143
    },
    {
      "entropy": 0.5436644405126572,
      "epoch": 0.5373134328358209,
      "grad_norm": 0.13813567161560059,
      "learning_rate": 0.0002,
      "loss": 0.5399284362792969,
      "mean_token_accuracy": 0.781887099146843,
      "num_tokens": 2352431.0,
      "step": 144
    },
    {
      "entropy": 0.554161787033081,
      "epoch": 0.5410447761194029,
      "grad_norm": 0.1234111338853836,
      "learning_rate": 0.0002,
      "loss": 0.5504522323608398,
      "mean_token_accuracy": 0.7768333554267883,
      "num_tokens": 2368781.0,
      "step": 145
    },
    {
      "entropy": 0.540039673447609,
      "epoch": 0.5447761194029851,
      "grad_norm": 0.12760984897613525,
      "learning_rate": 0.0002,
      "loss": 0.5470931529998779,
      "mean_token_accuracy": 0.7785885185003281,
      "num_tokens": 2385030.0,
      "step": 146
    },
    {
      "entropy": 0.538455605506897,
      "epoch": 0.5485074626865671,
      "grad_norm": 0.11708244681358337,
      "learning_rate": 0.0002,
      "loss": 0.540416419506073,
      "mean_token_accuracy": 0.782222330570221,
      "num_tokens": 2401529.0,
      "step": 147
    },
    {
      "entropy": 0.5445697456598282,
      "epoch": 0.5522388059701493,
      "grad_norm": 0.11756740510463715,
      "learning_rate": 0.0002,
      "loss": 0.5511283278465271,
      "mean_token_accuracy": 0.7760586440563202,
      "num_tokens": 2417920.0,
      "step": 148
    },
    {
      "entropy": 0.5568743199110031,
      "epoch": 0.5559701492537313,
      "grad_norm": 0.1262131929397583,
      "learning_rate": 0.0002,
      "loss": 0.5587324500083923,
      "mean_token_accuracy": 0.7755658030509949,
      "num_tokens": 2434402.0,
      "step": 149
    },
    {
      "entropy": 0.5476635098457336,
      "epoch": 0.5597014925373134,
      "grad_norm": 0.14212746918201447,
      "learning_rate": 0.0002,
      "loss": 0.5485654473304749,
      "mean_token_accuracy": 0.7787987738847733,
      "num_tokens": 2450648.0,
      "step": 150
    },
    {
      "entropy": 0.5328710079193115,
      "epoch": 0.5634328358208955,
      "grad_norm": 0.1456608921289444,
      "learning_rate": 0.0002,
      "loss": 0.5320286750793457,
      "mean_token_accuracy": 0.7839557826519012,
      "num_tokens": 2466701.0,
      "step": 151
    },
    {
      "entropy": 0.5372531861066818,
      "epoch": 0.5671641791044776,
      "grad_norm": 0.11793923377990723,
      "learning_rate": 0.0002,
      "loss": 0.5379877090454102,
      "mean_token_accuracy": 0.7800156623125076,
      "num_tokens": 2482627.0,
      "step": 152
    },
    {
      "entropy": 0.5532563626766205,
      "epoch": 0.5708955223880597,
      "grad_norm": 0.13809776306152344,
      "learning_rate": 0.0002,
      "loss": 0.551555871963501,
      "mean_token_accuracy": 0.7761517316102982,
      "num_tokens": 2499250.0,
      "step": 153
    },
    {
      "entropy": 0.5471682995557785,
      "epoch": 0.5746268656716418,
      "grad_norm": 0.1408306509256363,
      "learning_rate": 0.0002,
      "loss": 0.5491219758987427,
      "mean_token_accuracy": 0.7767983973026276,
      "num_tokens": 2515443.0,
      "step": 154
    },
    {
      "entropy": 0.571009948849678,
      "epoch": 0.5783582089552238,
      "grad_norm": 0.1486109346151352,
      "learning_rate": 0.0002,
      "loss": 0.5713759660720825,
      "mean_token_accuracy": 0.7713276296854019,
      "num_tokens": 2531761.0,
      "step": 155
    },
    {
      "entropy": 0.5617386847734451,
      "epoch": 0.582089552238806,
      "grad_norm": 0.15764987468719482,
      "learning_rate": 0.0002,
      "loss": 0.5562607645988464,
      "mean_token_accuracy": 0.7755531519651413,
      "num_tokens": 2548176.0,
      "step": 156
    },
    {
      "entropy": 0.5492932498455048,
      "epoch": 0.585820895522388,
      "grad_norm": 0.153673455119133,
      "learning_rate": 0.0002,
      "loss": 0.5581745505332947,
      "mean_token_accuracy": 0.7730790227651596,
      "num_tokens": 2564448.0,
      "step": 157
    },
    {
      "entropy": 0.555228590965271,
      "epoch": 0.5895522388059702,
      "grad_norm": 0.1345115751028061,
      "learning_rate": 0.0002,
      "loss": 0.5605562329292297,
      "mean_token_accuracy": 0.7717746198177338,
      "num_tokens": 2580905.0,
      "step": 158
    },
    {
      "entropy": 0.5399526059627533,
      "epoch": 0.5932835820895522,
      "grad_norm": 0.11657729744911194,
      "learning_rate": 0.0002,
      "loss": 0.5369132161140442,
      "mean_token_accuracy": 0.7842999547719955,
      "num_tokens": 2597180.0,
      "step": 159
    },
    {
      "entropy": 0.5353947132825851,
      "epoch": 0.5970149253731343,
      "grad_norm": 0.1333966851234436,
      "learning_rate": 0.0002,
      "loss": 0.5362208485603333,
      "mean_token_accuracy": 0.7827091217041016,
      "num_tokens": 2613444.0,
      "step": 160
    },
    {
      "entropy": 0.5535644590854645,
      "epoch": 0.6007462686567164,
      "grad_norm": 0.13608874380588531,
      "learning_rate": 0.0002,
      "loss": 0.5567671656608582,
      "mean_token_accuracy": 0.7774695008993149,
      "num_tokens": 2629983.0,
      "step": 161
    },
    {
      "entropy": 0.5560604184865952,
      "epoch": 0.6044776119402985,
      "grad_norm": 0.1163283959031105,
      "learning_rate": 0.0002,
      "loss": 0.5636521577835083,
      "mean_token_accuracy": 0.7745625525712967,
      "num_tokens": 2646578.0,
      "step": 162
    },
    {
      "entropy": 0.5764736235141754,
      "epoch": 0.6082089552238806,
      "grad_norm": 0.1255754828453064,
      "learning_rate": 0.0002,
      "loss": 0.578213632106781,
      "mean_token_accuracy": 0.7662594020366669,
      "num_tokens": 2663032.0,
      "step": 163
    },
    {
      "entropy": 0.5460716336965561,
      "epoch": 0.6119402985074627,
      "grad_norm": 0.13686135411262512,
      "learning_rate": 0.0002,
      "loss": 0.5406862497329712,
      "mean_token_accuracy": 0.7790546417236328,
      "num_tokens": 2679368.0,
      "step": 164
    },
    {
      "entropy": 0.5340383723378181,
      "epoch": 0.6156716417910447,
      "grad_norm": 0.12064651399850845,
      "learning_rate": 0.0002,
      "loss": 0.5316583514213562,
      "mean_token_accuracy": 0.7829991579055786,
      "num_tokens": 2695866.0,
      "step": 165
    },
    {
      "entropy": 0.5442641973495483,
      "epoch": 0.6194029850746269,
      "grad_norm": 0.12049891799688339,
      "learning_rate": 0.0002,
      "loss": 0.5513224005699158,
      "mean_token_accuracy": 0.7753165811300278,
      "num_tokens": 2712061.0,
      "step": 166
    },
    {
      "entropy": 0.5361381322145462,
      "epoch": 0.6231343283582089,
      "grad_norm": 0.13572274148464203,
      "learning_rate": 0.0002,
      "loss": 0.5410642623901367,
      "mean_token_accuracy": 0.7834690064191818,
      "num_tokens": 2728405.0,
      "step": 167
    },
    {
      "entropy": 0.542312353849411,
      "epoch": 0.6268656716417911,
      "grad_norm": 0.12791581451892853,
      "learning_rate": 0.0002,
      "loss": 0.5421413779258728,
      "mean_token_accuracy": 0.7781463712453842,
      "num_tokens": 2744612.0,
      "step": 168
    },
    {
      "entropy": 0.5568868666887283,
      "epoch": 0.6305970149253731,
      "grad_norm": 0.12156295031309128,
      "learning_rate": 0.0002,
      "loss": 0.5577100515365601,
      "mean_token_accuracy": 0.7726946324110031,
      "num_tokens": 2761047.0,
      "step": 169
    },
    {
      "entropy": 0.5537672489881516,
      "epoch": 0.6343283582089553,
      "grad_norm": 0.1293496936559677,
      "learning_rate": 0.0002,
      "loss": 0.5571946501731873,
      "mean_token_accuracy": 0.7751306742429733,
      "num_tokens": 2777250.0,
      "step": 170
    },
    {
      "entropy": 0.5509191900491714,
      "epoch": 0.6380597014925373,
      "grad_norm": 0.1272898018360138,
      "learning_rate": 0.0002,
      "loss": 0.5516744256019592,
      "mean_token_accuracy": 0.7766414433717728,
      "num_tokens": 2793605.0,
      "step": 171
    },
    {
      "entropy": 0.5510837286710739,
      "epoch": 0.6417910447761194,
      "grad_norm": 0.14305925369262695,
      "learning_rate": 0.0002,
      "loss": 0.5544188618659973,
      "mean_token_accuracy": 0.7760672718286514,
      "num_tokens": 2809948.0,
      "step": 172
    },
    {
      "entropy": 0.5232614651322365,
      "epoch": 0.6455223880597015,
      "grad_norm": 0.1384088695049286,
      "learning_rate": 0.0002,
      "loss": 0.5274964570999146,
      "mean_token_accuracy": 0.7859550416469574,
      "num_tokens": 2826128.0,
      "step": 173
    },
    {
      "entropy": 0.5601816028356552,
      "epoch": 0.6492537313432836,
      "grad_norm": 0.1388508826494217,
      "learning_rate": 0.0002,
      "loss": 0.5543120503425598,
      "mean_token_accuracy": 0.7758214622735977,
      "num_tokens": 2842612.0,
      "step": 174
    },
    {
      "entropy": 0.5437414795160294,
      "epoch": 0.6529850746268657,
      "grad_norm": 0.11655397713184357,
      "learning_rate": 0.0002,
      "loss": 0.5404227375984192,
      "mean_token_accuracy": 0.7822663187980652,
      "num_tokens": 2859123.0,
      "step": 175
    },
    {
      "entropy": 0.55133356153965,
      "epoch": 0.6567164179104478,
      "grad_norm": 0.1398521363735199,
      "learning_rate": 0.0002,
      "loss": 0.5518021583557129,
      "mean_token_accuracy": 0.7771210372447968,
      "num_tokens": 2875360.0,
      "step": 176
    },
    {
      "entropy": 0.5468268245458603,
      "epoch": 0.6604477611940298,
      "grad_norm": 0.12005320936441422,
      "learning_rate": 0.0002,
      "loss": 0.5481685996055603,
      "mean_token_accuracy": 0.7786961048841476,
      "num_tokens": 2891626.0,
      "step": 177
    },
    {
      "entropy": 0.5444129258394241,
      "epoch": 0.664179104477612,
      "grad_norm": 0.16883929073810577,
      "learning_rate": 0.0002,
      "loss": 0.5526378750801086,
      "mean_token_accuracy": 0.7768739610910416,
      "num_tokens": 2907939.0,
      "step": 178
    },
    {
      "entropy": 0.5393242985010147,
      "epoch": 0.667910447761194,
      "grad_norm": 0.1297578513622284,
      "learning_rate": 0.0002,
      "loss": 0.5451361536979675,
      "mean_token_accuracy": 0.7800205200910568,
      "num_tokens": 2924294.0,
      "step": 179
    },
    {
      "entropy": 0.5417011380195618,
      "epoch": 0.6716417910447762,
      "grad_norm": 0.12030332535505295,
      "learning_rate": 0.0002,
      "loss": 0.5440862774848938,
      "mean_token_accuracy": 0.7813349515199661,
      "num_tokens": 2940716.0,
      "step": 180
    },
    {
      "entropy": 0.5521986186504364,
      "epoch": 0.6753731343283582,
      "grad_norm": 0.11406023800373077,
      "learning_rate": 0.0002,
      "loss": 0.5487515926361084,
      "mean_token_accuracy": 0.7764244675636292,
      "num_tokens": 2956993.0,
      "step": 181
    },
    {
      "entropy": 0.5547273755073547,
      "epoch": 0.6791044776119403,
      "grad_norm": 0.13328734040260315,
      "learning_rate": 0.0002,
      "loss": 0.552635669708252,
      "mean_token_accuracy": 0.7759450674057007,
      "num_tokens": 2973622.0,
      "step": 182
    },
    {
      "entropy": 0.5548880398273468,
      "epoch": 0.6828358208955224,
      "grad_norm": 0.11328119784593582,
      "learning_rate": 0.0002,
      "loss": 0.5517279505729675,
      "mean_token_accuracy": 0.7757984399795532,
      "num_tokens": 2989995.0,
      "step": 183
    },
    {
      "entropy": 0.5576671957969666,
      "epoch": 0.6865671641791045,
      "grad_norm": 0.1849256306886673,
      "learning_rate": 0.0002,
      "loss": 0.5650368332862854,
      "mean_token_accuracy": 0.7731626927852631,
      "num_tokens": 3006538.0,
      "step": 184
    },
    {
      "entropy": 0.537109300494194,
      "epoch": 0.6902985074626866,
      "grad_norm": 0.1240711435675621,
      "learning_rate": 0.0002,
      "loss": 0.5376191139221191,
      "mean_token_accuracy": 0.7854040563106537,
      "num_tokens": 3022770.0,
      "step": 185
    },
    {
      "entropy": 0.5537560731172562,
      "epoch": 0.6940298507462687,
      "grad_norm": 0.1654159426689148,
      "learning_rate": 0.0002,
      "loss": 0.5570691227912903,
      "mean_token_accuracy": 0.7766956984996796,
      "num_tokens": 3039407.0,
      "step": 186
    },
    {
      "entropy": 0.5552389770746231,
      "epoch": 0.6977611940298507,
      "grad_norm": 0.10993515700101852,
      "learning_rate": 0.0002,
      "loss": 0.5586962103843689,
      "mean_token_accuracy": 0.7749262005090714,
      "num_tokens": 3055780.0,
      "step": 187
    },
    {
      "entropy": 0.5666979551315308,
      "epoch": 0.7014925373134329,
      "grad_norm": 0.11159558594226837,
      "learning_rate": 0.0002,
      "loss": 0.5667304992675781,
      "mean_token_accuracy": 0.7695165723562241,
      "num_tokens": 3072362.0,
      "step": 188
    },
    {
      "entropy": 0.5639722347259521,
      "epoch": 0.7052238805970149,
      "grad_norm": 0.14158234000205994,
      "learning_rate": 0.0002,
      "loss": 0.5614078044891357,
      "mean_token_accuracy": 0.7733878195285797,
      "num_tokens": 3088887.0,
      "step": 189
    },
    {
      "entropy": 0.5518735945224762,
      "epoch": 0.7089552238805971,
      "grad_norm": 0.12406881153583527,
      "learning_rate": 0.0002,
      "loss": 0.5611676573753357,
      "mean_token_accuracy": 0.7746167629957199,
      "num_tokens": 3105332.0,
      "step": 190
    },
    {
      "entropy": 0.5349650382995605,
      "epoch": 0.7126865671641791,
      "grad_norm": 0.13473471999168396,
      "learning_rate": 0.0002,
      "loss": 0.54412841796875,
      "mean_token_accuracy": 0.7769501060247421,
      "num_tokens": 3121582.0,
      "step": 191
    },
    {
      "entropy": 0.5316546410322189,
      "epoch": 0.7164179104477612,
      "grad_norm": 0.11828400939702988,
      "learning_rate": 0.0002,
      "loss": 0.530936062335968,
      "mean_token_accuracy": 0.7848189175128937,
      "num_tokens": 3137920.0,
      "step": 192
    },
    {
      "entropy": 0.556887611746788,
      "epoch": 0.7201492537313433,
      "grad_norm": 0.1256878823041916,
      "learning_rate": 0.0002,
      "loss": 0.555519700050354,
      "mean_token_accuracy": 0.7738869190216064,
      "num_tokens": 3154339.0,
      "step": 193
    },
    {
      "entropy": 0.5477663427591324,
      "epoch": 0.7238805970149254,
      "grad_norm": 0.11984176933765411,
      "learning_rate": 0.0002,
      "loss": 0.5489908456802368,
      "mean_token_accuracy": 0.7780539244413376,
      "num_tokens": 3170574.0,
      "step": 194
    },
    {
      "entropy": 0.5371970534324646,
      "epoch": 0.7276119402985075,
      "grad_norm": 0.11440598219633102,
      "learning_rate": 0.0002,
      "loss": 0.5346511602401733,
      "mean_token_accuracy": 0.7856602966785431,
      "num_tokens": 3187140.0,
      "step": 195
    },
    {
      "entropy": 0.5374069362878799,
      "epoch": 0.7313432835820896,
      "grad_norm": 0.1220874935388565,
      "learning_rate": 0.0002,
      "loss": 0.5448272228240967,
      "mean_token_accuracy": 0.7792176902294159,
      "num_tokens": 3203454.0,
      "step": 196
    },
    {
      "entropy": 0.5373833179473877,
      "epoch": 0.7350746268656716,
      "grad_norm": 0.14692658185958862,
      "learning_rate": 0.0002,
      "loss": 0.547886312007904,
      "mean_token_accuracy": 0.7767521291971207,
      "num_tokens": 3219558.0,
      "step": 197
    },
    {
      "entropy": 0.554410994052887,
      "epoch": 0.7388059701492538,
      "grad_norm": 0.12380608916282654,
      "learning_rate": 0.0002,
      "loss": 0.550884485244751,
      "mean_token_accuracy": 0.7776724547147751,
      "num_tokens": 3235877.0,
      "step": 198
    },
    {
      "entropy": 0.5471773892641068,
      "epoch": 0.7425373134328358,
      "grad_norm": 0.11140885949134827,
      "learning_rate": 0.0002,
      "loss": 0.5401238799095154,
      "mean_token_accuracy": 0.7774412035942078,
      "num_tokens": 3252209.0,
      "step": 199
    },
    {
      "entropy": 0.5380608141422272,
      "epoch": 0.746268656716418,
      "grad_norm": 0.1454455554485321,
      "learning_rate": 0.0002,
      "loss": 0.5387637615203857,
      "mean_token_accuracy": 0.7800891399383545,
      "num_tokens": 3268329.0,
      "step": 200
    },
    {
      "entropy": 0.5308581739664078,
      "epoch": 0.75,
      "grad_norm": 0.1361016035079956,
      "learning_rate": 0.0002,
      "loss": 0.5343608260154724,
      "mean_token_accuracy": 0.7855110317468643,
      "num_tokens": 3284338.0,
      "step": 201
    },
    {
      "entropy": 0.5632822811603546,
      "epoch": 0.753731343283582,
      "grad_norm": 0.13291221857070923,
      "learning_rate": 0.0002,
      "loss": 0.5640154480934143,
      "mean_token_accuracy": 0.767445370554924,
      "num_tokens": 3300776.0,
      "step": 202
    },
    {
      "entropy": 0.554180920124054,
      "epoch": 0.7574626865671642,
      "grad_norm": 0.12478666007518768,
      "learning_rate": 0.0002,
      "loss": 0.5525573492050171,
      "mean_token_accuracy": 0.774932399392128,
      "num_tokens": 3317196.0,
      "step": 203
    },
    {
      "entropy": 0.5349105298519135,
      "epoch": 0.7611940298507462,
      "grad_norm": 0.12442342936992645,
      "learning_rate": 0.0002,
      "loss": 0.5401512980461121,
      "mean_token_accuracy": 0.7819676995277405,
      "num_tokens": 3333516.0,
      "step": 204
    },
    {
      "entropy": 0.5417488664388657,
      "epoch": 0.7649253731343284,
      "grad_norm": 0.12787121534347534,
      "learning_rate": 0.0002,
      "loss": 0.5460774302482605,
      "mean_token_accuracy": 0.7793125957250595,
      "num_tokens": 3349860.0,
      "step": 205
    },
    {
      "entropy": 0.5238666534423828,
      "epoch": 0.7686567164179104,
      "grad_norm": 0.14022648334503174,
      "learning_rate": 0.0002,
      "loss": 0.5336724519729614,
      "mean_token_accuracy": 0.7843347638845444,
      "num_tokens": 3365954.0,
      "step": 206
    },
    {
      "entropy": 0.5506514012813568,
      "epoch": 0.7723880597014925,
      "grad_norm": 0.10952670127153397,
      "learning_rate": 0.0002,
      "loss": 0.5459721684455872,
      "mean_token_accuracy": 0.7809877097606659,
      "num_tokens": 3382344.0,
      "step": 207
    },
    {
      "entropy": 0.5601198077201843,
      "epoch": 0.7761194029850746,
      "grad_norm": 0.14921848475933075,
      "learning_rate": 0.0002,
      "loss": 0.5593782663345337,
      "mean_token_accuracy": 0.7718043476343155,
      "num_tokens": 3398687.0,
      "step": 208
    },
    {
      "entropy": 0.5334768891334534,
      "epoch": 0.7798507462686567,
      "grad_norm": 0.11596426367759705,
      "learning_rate": 0.0002,
      "loss": 0.5338318943977356,
      "mean_token_accuracy": 0.783938467502594,
      "num_tokens": 3414913.0,
      "step": 209
    },
    {
      "entropy": 0.5415135025978088,
      "epoch": 0.7835820895522388,
      "grad_norm": 0.13524818420410156,
      "learning_rate": 0.0002,
      "loss": 0.5422087907791138,
      "mean_token_accuracy": 0.7810906171798706,
      "num_tokens": 3431071.0,
      "step": 210
    },
    {
      "entropy": 0.5562594383955002,
      "epoch": 0.7873134328358209,
      "grad_norm": 0.14714977145195007,
      "learning_rate": 0.0002,
      "loss": 0.5575138926506042,
      "mean_token_accuracy": 0.7743899971246719,
      "num_tokens": 3447417.0,
      "step": 211
    },
    {
      "entropy": 0.536840409040451,
      "epoch": 0.7910447761194029,
      "grad_norm": 0.1191772073507309,
      "learning_rate": 0.0002,
      "loss": 0.539043664932251,
      "mean_token_accuracy": 0.7791986167430878,
      "num_tokens": 3463951.0,
      "step": 212
    },
    {
      "entropy": 0.5601708441972733,
      "epoch": 0.7947761194029851,
      "grad_norm": 0.14285218715667725,
      "learning_rate": 0.0002,
      "loss": 0.5604355931282043,
      "mean_token_accuracy": 0.7729564011096954,
      "num_tokens": 3480303.0,
      "step": 213
    },
    {
      "entropy": 0.5470457077026367,
      "epoch": 0.7985074626865671,
      "grad_norm": 0.13420677185058594,
      "learning_rate": 0.0002,
      "loss": 0.554261326789856,
      "mean_token_accuracy": 0.7758394628763199,
      "num_tokens": 3496665.0,
      "step": 214
    },
    {
      "entropy": 0.5595335066318512,
      "epoch": 0.8022388059701493,
      "grad_norm": 0.12468434125185013,
      "learning_rate": 0.0002,
      "loss": 0.5626363158226013,
      "mean_token_accuracy": 0.7708792388439178,
      "num_tokens": 3512987.0,
      "step": 215
    },
    {
      "entropy": 0.5410265326499939,
      "epoch": 0.8059701492537313,
      "grad_norm": 0.1368313878774643,
      "learning_rate": 0.0002,
      "loss": 0.5424209237098694,
      "mean_token_accuracy": 0.780338704586029,
      "num_tokens": 3529322.0,
      "step": 216
    },
    {
      "entropy": 0.5611067861318588,
      "epoch": 0.8097014925373134,
      "grad_norm": 0.12065284699201584,
      "learning_rate": 0.0002,
      "loss": 0.5554131269454956,
      "mean_token_accuracy": 0.775262787938118,
      "num_tokens": 3545541.0,
      "step": 217
    },
    {
      "entropy": 0.5451776385307312,
      "epoch": 0.8134328358208955,
      "grad_norm": 0.13018189370632172,
      "learning_rate": 0.0002,
      "loss": 0.5477407574653625,
      "mean_token_accuracy": 0.7790820002555847,
      "num_tokens": 3562081.0,
      "step": 218
    },
    {
      "entropy": 0.5475118607282639,
      "epoch": 0.8171641791044776,
      "grad_norm": 0.1309870183467865,
      "learning_rate": 0.0002,
      "loss": 0.548214852809906,
      "mean_token_accuracy": 0.7790254205465317,
      "num_tokens": 3578349.0,
      "step": 219
    },
    {
      "entropy": 0.5216370671987534,
      "epoch": 0.8208955223880597,
      "grad_norm": 0.1223544329404831,
      "learning_rate": 0.0002,
      "loss": 0.5256963968276978,
      "mean_token_accuracy": 0.787861168384552,
      "num_tokens": 3594724.0,
      "step": 220
    },
    {
      "entropy": 0.5441537946462631,
      "epoch": 0.8246268656716418,
      "grad_norm": 0.1324274092912674,
      "learning_rate": 0.0002,
      "loss": 0.5496052503585815,
      "mean_token_accuracy": 0.7781362533569336,
      "num_tokens": 3611250.0,
      "step": 221
    },
    {
      "entropy": 0.5336802899837494,
      "epoch": 0.8283582089552238,
      "grad_norm": 0.15294679999351501,
      "learning_rate": 0.0002,
      "loss": 0.5427975654602051,
      "mean_token_accuracy": 0.7801742255687714,
      "num_tokens": 3627526.0,
      "step": 222
    },
    {
      "entropy": 0.5635577589273453,
      "epoch": 0.832089552238806,
      "grad_norm": 0.1364123523235321,
      "learning_rate": 0.0002,
      "loss": 0.5619288682937622,
      "mean_token_accuracy": 0.768532395362854,
      "num_tokens": 3643553.0,
      "step": 223
    },
    {
      "entropy": 0.5576212853193283,
      "epoch": 0.835820895522388,
      "grad_norm": 0.1353282779455185,
      "learning_rate": 0.0002,
      "loss": 0.5438153147697449,
      "mean_token_accuracy": 0.779265359044075,
      "num_tokens": 3660133.0,
      "step": 224
    },
    {
      "entropy": 0.5412103980779648,
      "epoch": 0.8395522388059702,
      "grad_norm": 0.12540455162525177,
      "learning_rate": 0.0002,
      "loss": 0.5397533774375916,
      "mean_token_accuracy": 0.7794700264930725,
      "num_tokens": 3676295.0,
      "step": 225
    },
    {
      "entropy": 0.5455985218286514,
      "epoch": 0.8432835820895522,
      "grad_norm": 0.13320018351078033,
      "learning_rate": 0.0002,
      "loss": 0.5485510230064392,
      "mean_token_accuracy": 0.778446152806282,
      "num_tokens": 3692894.0,
      "step": 226
    },
    {
      "entropy": 0.5248135328292847,
      "epoch": 0.8470149253731343,
      "grad_norm": 0.13709791004657745,
      "learning_rate": 0.0002,
      "loss": 0.536843478679657,
      "mean_token_accuracy": 0.7809243649244308,
      "num_tokens": 3709122.0,
      "step": 227
    },
    {
      "entropy": 0.53542160987854,
      "epoch": 0.8507462686567164,
      "grad_norm": 0.12484195083379745,
      "learning_rate": 0.0002,
      "loss": 0.5407888293266296,
      "mean_token_accuracy": 0.7803395837545395,
      "num_tokens": 3725461.0,
      "step": 228
    },
    {
      "entropy": 0.5458493530750275,
      "epoch": 0.8544776119402985,
      "grad_norm": 0.13020864129066467,
      "learning_rate": 0.0002,
      "loss": 0.5498859882354736,
      "mean_token_accuracy": 0.7766377329826355,
      "num_tokens": 3741717.0,
      "step": 229
    },
    {
      "entropy": 0.5359915047883987,
      "epoch": 0.8582089552238806,
      "grad_norm": 0.11409227550029755,
      "learning_rate": 0.0002,
      "loss": 0.5289561748504639,
      "mean_token_accuracy": 0.7882120311260223,
      "num_tokens": 3757988.0,
      "step": 230
    },
    {
      "entropy": 0.5659278780221939,
      "epoch": 0.8619402985074627,
      "grad_norm": 0.10721168667078018,
      "learning_rate": 0.0002,
      "loss": 0.5621720552444458,
      "mean_token_accuracy": 0.7705938816070557,
      "num_tokens": 3774220.0,
      "step": 231
    },
    {
      "entropy": 0.5599822998046875,
      "epoch": 0.8656716417910447,
      "grad_norm": 0.12365678697824478,
      "learning_rate": 0.0002,
      "loss": 0.5598929524421692,
      "mean_token_accuracy": 0.7715335041284561,
      "num_tokens": 3790653.0,
      "step": 232
    },
    {
      "entropy": 0.54929418861866,
      "epoch": 0.8694029850746269,
      "grad_norm": 0.12949936091899872,
      "learning_rate": 0.0002,
      "loss": 0.5555176734924316,
      "mean_token_accuracy": 0.7733278125524521,
      "num_tokens": 3807110.0,
      "step": 233
    },
    {
      "entropy": 0.5474081933498383,
      "epoch": 0.8731343283582089,
      "grad_norm": 0.12146537750959396,
      "learning_rate": 0.0002,
      "loss": 0.5511813759803772,
      "mean_token_accuracy": 0.7766411751508713,
      "num_tokens": 3823486.0,
      "step": 234
    },
    {
      "entropy": 0.5372883975505829,
      "epoch": 0.8768656716417911,
      "grad_norm": 0.12444064766168594,
      "learning_rate": 0.0002,
      "loss": 0.5384877324104309,
      "mean_token_accuracy": 0.7811126857995987,
      "num_tokens": 3839856.0,
      "step": 235
    },
    {
      "entropy": 0.5574021190404892,
      "epoch": 0.8805970149253731,
      "grad_norm": 0.11953511834144592,
      "learning_rate": 0.0002,
      "loss": 0.5613345503807068,
      "mean_token_accuracy": 0.7729752510786057,
      "num_tokens": 3856362.0,
      "step": 236
    },
    {
      "entropy": 0.5452482104301453,
      "epoch": 0.8843283582089553,
      "grad_norm": 0.11208797991275787,
      "learning_rate": 0.0002,
      "loss": 0.5457064509391785,
      "mean_token_accuracy": 0.7782498598098755,
      "num_tokens": 3872666.0,
      "step": 237
    },
    {
      "entropy": 0.5534125864505768,
      "epoch": 0.8880597014925373,
      "grad_norm": 0.15453441441059113,
      "learning_rate": 0.0002,
      "loss": 0.5572060346603394,
      "mean_token_accuracy": 0.7716512382030487,
      "num_tokens": 3888939.0,
      "step": 238
    },
    {
      "entropy": 0.547100231051445,
      "epoch": 0.8917910447761194,
      "grad_norm": 0.12707094848155975,
      "learning_rate": 0.0002,
      "loss": 0.5511140823364258,
      "mean_token_accuracy": 0.7789764106273651,
      "num_tokens": 3905243.0,
      "step": 239
    },
    {
      "entropy": 0.544873908162117,
      "epoch": 0.8955223880597015,
      "grad_norm": 0.13703206181526184,
      "learning_rate": 0.0002,
      "loss": 0.5423987507820129,
      "mean_token_accuracy": 0.7779188007116318,
      "num_tokens": 3921866.0,
      "step": 240
    },
    {
      "entropy": 0.5453302264213562,
      "epoch": 0.8992537313432836,
      "grad_norm": 0.11689020693302155,
      "learning_rate": 0.0002,
      "loss": 0.5460352301597595,
      "mean_token_accuracy": 0.7779721468687057,
      "num_tokens": 3938407.0,
      "step": 241
    },
    {
      "entropy": 0.5635591447353363,
      "epoch": 0.9029850746268657,
      "grad_norm": 0.13040713965892792,
      "learning_rate": 0.0002,
      "loss": 0.5655105113983154,
      "mean_token_accuracy": 0.768951028585434,
      "num_tokens": 3954812.0,
      "step": 242
    },
    {
      "entropy": 0.5287201702594757,
      "epoch": 0.9067164179104478,
      "grad_norm": 0.11932681500911713,
      "learning_rate": 0.0002,
      "loss": 0.5290012359619141,
      "mean_token_accuracy": 0.7868975102901459,
      "num_tokens": 3970722.0,
      "step": 243
    },
    {
      "entropy": 0.5399811267852783,
      "epoch": 0.9104477611940298,
      "grad_norm": 0.15166425704956055,
      "learning_rate": 0.0002,
      "loss": 0.5475818514823914,
      "mean_token_accuracy": 0.7782254964113235,
      "num_tokens": 3986919.0,
      "step": 244
    },
    {
      "entropy": 0.5479171127080917,
      "epoch": 0.914179104477612,
      "grad_norm": 0.13205286860466003,
      "learning_rate": 0.0002,
      "loss": 0.5506084561347961,
      "mean_token_accuracy": 0.7769028395414352,
      "num_tokens": 4003718.0,
      "step": 245
    },
    {
      "entropy": 0.5506049394607544,
      "epoch": 0.917910447761194,
      "grad_norm": 0.1079086884856224,
      "learning_rate": 0.0002,
      "loss": 0.5398848056793213,
      "mean_token_accuracy": 0.7830533385276794,
      "num_tokens": 4020063.0,
      "step": 246
    },
    {
      "entropy": 0.5654618889093399,
      "epoch": 0.9216417910447762,
      "grad_norm": 0.1322406679391861,
      "learning_rate": 0.0002,
      "loss": 0.5590391755104065,
      "mean_token_accuracy": 0.7732941806316376,
      "num_tokens": 4036681.0,
      "step": 247
    },
    {
      "entropy": 0.546074166893959,
      "epoch": 0.9253731343283582,
      "grad_norm": 0.12490007281303406,
      "learning_rate": 0.0002,
      "loss": 0.5554251670837402,
      "mean_token_accuracy": 0.7764608860015869,
      "num_tokens": 4052971.0,
      "step": 248
    },
    {
      "entropy": 0.5580905228853226,
      "epoch": 0.9291044776119403,
      "grad_norm": 0.11980146169662476,
      "learning_rate": 0.0002,
      "loss": 0.5676828622817993,
      "mean_token_accuracy": 0.7696985453367233,
      "num_tokens": 4069338.0,
      "step": 249
    },
    {
      "entropy": 0.5355470329523087,
      "epoch": 0.9328358208955224,
      "grad_norm": 0.12107004970312119,
      "learning_rate": 0.0002,
      "loss": 0.5405516028404236,
      "mean_token_accuracy": 0.7829477041959763,
      "num_tokens": 4085750.0,
      "step": 250
    },
    {
      "entropy": 0.5567673444747925,
      "epoch": 0.9365671641791045,
      "grad_norm": 0.12893939018249512,
      "learning_rate": 0.0002,
      "loss": 0.5650359988212585,
      "mean_token_accuracy": 0.7712520509958267,
      "num_tokens": 4102118.0,
      "step": 251
    },
    {
      "entropy": 0.5410316288471222,
      "epoch": 0.9402985074626866,
      "grad_norm": 0.11652866750955582,
      "learning_rate": 0.0002,
      "loss": 0.5460695028305054,
      "mean_token_accuracy": 0.7774221301078796,
      "num_tokens": 4118568.0,
      "step": 252
    },
    {
      "entropy": 0.5609200298786163,
      "epoch": 0.9440298507462687,
      "grad_norm": 0.11244899779558182,
      "learning_rate": 0.0002,
      "loss": 0.5490402579307556,
      "mean_token_accuracy": 0.7748613804578781,
      "num_tokens": 4135123.0,
      "step": 253
    },
    {
      "entropy": 0.5497269034385681,
      "epoch": 0.9477611940298507,
      "grad_norm": 0.14016613364219666,
      "learning_rate": 0.0002,
      "loss": 0.5342196822166443,
      "mean_token_accuracy": 0.7829579263925552,
      "num_tokens": 4151216.0,
      "step": 254
    },
    {
      "entropy": 0.5376796424388885,
      "epoch": 0.9514925373134329,
      "grad_norm": 0.11261948943138123,
      "learning_rate": 0.0002,
      "loss": 0.5384314656257629,
      "mean_token_accuracy": 0.779564619064331,
      "num_tokens": 4167504.0,
      "step": 255
    },
    {
      "entropy": 0.5369044691324234,
      "epoch": 0.9552238805970149,
      "grad_norm": 0.1335015743970871,
      "learning_rate": 0.0002,
      "loss": 0.5465540885925293,
      "mean_token_accuracy": 0.7757421284914017,
      "num_tokens": 4183799.0,
      "step": 256
    },
    {
      "entropy": 0.5567403733730316,
      "epoch": 0.9589552238805971,
      "grad_norm": 0.14907455444335938,
      "learning_rate": 0.0002,
      "loss": 0.567619800567627,
      "mean_token_accuracy": 0.770223930478096,
      "num_tokens": 4200155.0,
      "step": 257
    },
    {
      "entropy": 0.5468429028987885,
      "epoch": 0.9626865671641791,
      "grad_norm": 0.11520266532897949,
      "learning_rate": 0.0002,
      "loss": 0.5453846454620361,
      "mean_token_accuracy": 0.7773052304983139,
      "num_tokens": 4216435.0,
      "step": 258
    },
    {
      "entropy": 0.5431469082832336,
      "epoch": 0.9664179104477612,
      "grad_norm": 0.13169828057289124,
      "learning_rate": 0.0002,
      "loss": 0.5401536822319031,
      "mean_token_accuracy": 0.7807234972715378,
      "num_tokens": 4232685.0,
      "step": 259
    },
    {
      "entropy": 0.5463652908802032,
      "epoch": 0.9701492537313433,
      "grad_norm": 0.1208634227514267,
      "learning_rate": 0.0002,
      "loss": 0.539630115032196,
      "mean_token_accuracy": 0.7806746661663055,
      "num_tokens": 4248983.0,
      "step": 260
    },
    {
      "entropy": 0.5373689532279968,
      "epoch": 0.9738805970149254,
      "grad_norm": 0.1322765052318573,
      "learning_rate": 0.0002,
      "loss": 0.5365580916404724,
      "mean_token_accuracy": 0.7808263897895813,
      "num_tokens": 4265223.0,
      "step": 261
    },
    {
      "entropy": 0.5479995906352997,
      "epoch": 0.9776119402985075,
      "grad_norm": 0.12395796924829483,
      "learning_rate": 0.0002,
      "loss": 0.5560559630393982,
      "mean_token_accuracy": 0.7720989733934402,
      "num_tokens": 4281420.0,
      "step": 262
    },
    {
      "entropy": 0.5320831388235092,
      "epoch": 0.9813432835820896,
      "grad_norm": 0.15233781933784485,
      "learning_rate": 0.0002,
      "loss": 0.5420798659324646,
      "mean_token_accuracy": 0.7780148983001709,
      "num_tokens": 4297933.0,
      "step": 263
    },
    {
      "entropy": 0.5410943180322647,
      "epoch": 0.9850746268656716,
      "grad_norm": 0.11531079560518265,
      "learning_rate": 0.0002,
      "loss": 0.5476459264755249,
      "mean_token_accuracy": 0.7788786739110947,
      "num_tokens": 4314320.0,
      "step": 264
    },
    {
      "entropy": 0.5516358613967896,
      "epoch": 0.9888059701492538,
      "grad_norm": 0.11947735399007797,
      "learning_rate": 0.0002,
      "loss": 0.5536230206489563,
      "mean_token_accuracy": 0.7767823338508606,
      "num_tokens": 4330601.0,
      "step": 265
    },
    {
      "entropy": 0.5500903576612473,
      "epoch": 0.9925373134328358,
      "grad_norm": 0.12315159291028976,
      "learning_rate": 0.0002,
      "loss": 0.5529444813728333,
      "mean_token_accuracy": 0.7752810269594193,
      "num_tokens": 4347043.0,
      "step": 266
    },
    {
      "entropy": 0.5517779290676117,
      "epoch": 0.996268656716418,
      "grad_norm": 0.11137247085571289,
      "learning_rate": 0.0002,
      "loss": 0.5534829497337341,
      "mean_token_accuracy": 0.7717059701681137,
      "num_tokens": 4363391.0,
      "step": 267
    },
    {
      "entropy": 0.5500383973121643,
      "epoch": 1.0,
      "grad_norm": 0.1438470184803009,
      "learning_rate": 0.0002,
      "loss": 0.5475767850875854,
      "mean_token_accuracy": 0.7807454466819763,
      "num_tokens": 4379703.0,
      "step": 268
    },
    {
      "entropy": 0.5567186176776886,
      "epoch": 1.0037313432835822,
      "grad_norm": 0.12165568768978119,
      "learning_rate": 0.0002,
      "loss": 0.5443229079246521,
      "mean_token_accuracy": 0.7788188308477402,
      "num_tokens": 4395979.0,
      "step": 269
    },
    {
      "entropy": 0.5200136750936508,
      "epoch": 1.007462686567164,
      "grad_norm": 0.11453047394752502,
      "learning_rate": 0.0002,
      "loss": 0.5096794962882996,
      "mean_token_accuracy": 0.7945292145013809,
      "num_tokens": 4412227.0,
      "step": 270
    },
    {
      "entropy": 0.5380017757415771,
      "epoch": 1.0111940298507462,
      "grad_norm": 0.15120473504066467,
      "learning_rate": 0.0002,
      "loss": 0.5425546169281006,
      "mean_token_accuracy": 0.781953439116478,
      "num_tokens": 4428611.0,
      "step": 271
    },
    {
      "entropy": 0.5208772569894791,
      "epoch": 1.0149253731343284,
      "grad_norm": 0.1341351717710495,
      "learning_rate": 0.0002,
      "loss": 0.5326657295227051,
      "mean_token_accuracy": 0.7831600904464722,
      "num_tokens": 4444927.0,
      "step": 272
    },
    {
      "entropy": 0.5214353799819946,
      "epoch": 1.0186567164179103,
      "grad_norm": 0.14984826743602753,
      "learning_rate": 0.0002,
      "loss": 0.5280492901802063,
      "mean_token_accuracy": 0.786370187997818,
      "num_tokens": 4460991.0,
      "step": 273
    },
    {
      "entropy": 0.5258834809064865,
      "epoch": 1.0223880597014925,
      "grad_norm": 0.13014522194862366,
      "learning_rate": 0.0002,
      "loss": 0.5271875858306885,
      "mean_token_accuracy": 0.7869210243225098,
      "num_tokens": 4477645.0,
      "step": 274
    },
    {
      "entropy": 0.5273120403289795,
      "epoch": 1.0261194029850746,
      "grad_norm": 0.1311647742986679,
      "learning_rate": 0.0002,
      "loss": 0.5195775032043457,
      "mean_token_accuracy": 0.7897085547447205,
      "num_tokens": 4493809.0,
      "step": 275
    },
    {
      "entropy": 0.5415386855602264,
      "epoch": 1.0298507462686568,
      "grad_norm": 0.11555178463459015,
      "learning_rate": 0.0002,
      "loss": 0.5413332581520081,
      "mean_token_accuracy": 0.7796304523944855,
      "num_tokens": 4510212.0,
      "step": 276
    },
    {
      "entropy": 0.5370220988988876,
      "epoch": 1.0335820895522387,
      "grad_norm": 0.13971680402755737,
      "learning_rate": 0.0002,
      "loss": 0.5396295785903931,
      "mean_token_accuracy": 0.7788214385509491,
      "num_tokens": 4526435.0,
      "step": 277
    },
    {
      "entropy": 0.5435305833816528,
      "epoch": 1.037313432835821,
      "grad_norm": 0.10762611031532288,
      "learning_rate": 0.0002,
      "loss": 0.5435919761657715,
      "mean_token_accuracy": 0.7784401625394821,
      "num_tokens": 4542952.0,
      "step": 278
    },
    {
      "entropy": 0.5561162084341049,
      "epoch": 1.041044776119403,
      "grad_norm": 0.1305421143770218,
      "learning_rate": 0.0002,
      "loss": 0.5544913411140442,
      "mean_token_accuracy": 0.7771686464548111,
      "num_tokens": 4559371.0,
      "step": 279
    },
    {
      "entropy": 0.5161843150854111,
      "epoch": 1.044776119402985,
      "grad_norm": 0.13184338808059692,
      "learning_rate": 0.0002,
      "loss": 0.511843204498291,
      "mean_token_accuracy": 0.7913843542337418,
      "num_tokens": 4575731.0,
      "step": 280
    },
    {
      "entropy": 0.52925243973732,
      "epoch": 1.0485074626865671,
      "grad_norm": 0.1287873089313507,
      "learning_rate": 0.0002,
      "loss": 0.5263785719871521,
      "mean_token_accuracy": 0.7861436605453491,
      "num_tokens": 4592056.0,
      "step": 281
    },
    {
      "entropy": 0.5253249853849411,
      "epoch": 1.0522388059701493,
      "grad_norm": 0.12661200761795044,
      "learning_rate": 0.0002,
      "loss": 0.5272859334945679,
      "mean_token_accuracy": 0.7849764674901962,
      "num_tokens": 4608326.0,
      "step": 282
    },
    {
      "entropy": 0.5225464850664139,
      "epoch": 1.0559701492537314,
      "grad_norm": 0.11925826221704483,
      "learning_rate": 0.0002,
      "loss": 0.5287873148918152,
      "mean_token_accuracy": 0.7825718820095062,
      "num_tokens": 4624408.0,
      "step": 283
    },
    {
      "entropy": 0.5239171385765076,
      "epoch": 1.0597014925373134,
      "grad_norm": 0.12639594078063965,
      "learning_rate": 0.0002,
      "loss": 0.5275134444236755,
      "mean_token_accuracy": 0.784866139292717,
      "num_tokens": 4640897.0,
      "step": 284
    },
    {
      "entropy": 0.5350142568349838,
      "epoch": 1.0634328358208955,
      "grad_norm": 0.13742367923259735,
      "learning_rate": 0.0002,
      "loss": 0.5391872525215149,
      "mean_token_accuracy": 0.7813242971897125,
      "num_tokens": 4657487.0,
      "step": 285
    },
    {
      "entropy": 0.5414403080940247,
      "epoch": 1.0671641791044777,
      "grad_norm": 0.12273678928613663,
      "learning_rate": 0.0002,
      "loss": 0.538042426109314,
      "mean_token_accuracy": 0.7844662219285965,
      "num_tokens": 4674009.0,
      "step": 286
    },
    {
      "entropy": 0.5556955337524414,
      "epoch": 1.0708955223880596,
      "grad_norm": 0.11591946333646774,
      "learning_rate": 0.0002,
      "loss": 0.5542109608650208,
      "mean_token_accuracy": 0.7758783847093582,
      "num_tokens": 4690230.0,
      "step": 287
    },
    {
      "entropy": 0.5334881544113159,
      "epoch": 1.0746268656716418,
      "grad_norm": 0.11168122291564941,
      "learning_rate": 0.0002,
      "loss": 0.5347651243209839,
      "mean_token_accuracy": 0.7833859175443649,
      "num_tokens": 4706362.0,
      "step": 288
    },
    {
      "entropy": 0.5315591096878052,
      "epoch": 1.078358208955224,
      "grad_norm": 0.13917559385299683,
      "learning_rate": 0.0002,
      "loss": 0.5380789041519165,
      "mean_token_accuracy": 0.7812001705169678,
      "num_tokens": 4722595.0,
      "step": 289
    },
    {
      "entropy": 0.5346228331327438,
      "epoch": 1.0820895522388059,
      "grad_norm": 0.13478422164916992,
      "learning_rate": 0.0002,
      "loss": 0.5455847978591919,
      "mean_token_accuracy": 0.7781703919172287,
      "num_tokens": 4738887.0,
      "step": 290
    },
    {
      "entropy": 0.5461715310811996,
      "epoch": 1.085820895522388,
      "grad_norm": 0.13396981358528137,
      "learning_rate": 0.0002,
      "loss": 0.5379023551940918,
      "mean_token_accuracy": 0.7827265560626984,
      "num_tokens": 4755212.0,
      "step": 291
    },
    {
      "entropy": 0.5389465689659119,
      "epoch": 1.0895522388059702,
      "grad_norm": 0.12781155109405518,
      "learning_rate": 0.0002,
      "loss": 0.5376452803611755,
      "mean_token_accuracy": 0.7828295826911926,
      "num_tokens": 4771644.0,
      "step": 292
    },
    {
      "entropy": 0.5441965609788895,
      "epoch": 1.0932835820895523,
      "grad_norm": 0.13662317395210266,
      "learning_rate": 0.0002,
      "loss": 0.53973788022995,
      "mean_token_accuracy": 0.781336709856987,
      "num_tokens": 4787994.0,
      "step": 293
    },
    {
      "entropy": 0.557211622595787,
      "epoch": 1.0970149253731343,
      "grad_norm": 0.13968485593795776,
      "learning_rate": 0.0002,
      "loss": 0.5545478463172913,
      "mean_token_accuracy": 0.7766687870025635,
      "num_tokens": 4804240.0,
      "step": 294
    },
    {
      "entropy": 0.5415647476911545,
      "epoch": 1.1007462686567164,
      "grad_norm": 0.14245721697807312,
      "learning_rate": 0.0002,
      "loss": 0.5388385653495789,
      "mean_token_accuracy": 0.7829283177852631,
      "num_tokens": 4820711.0,
      "step": 295
    },
    {
      "entropy": 0.5286812037229538,
      "epoch": 1.1044776119402986,
      "grad_norm": 0.14483948051929474,
      "learning_rate": 0.0002,
      "loss": 0.5349111557006836,
      "mean_token_accuracy": 0.7845683097839355,
      "num_tokens": 4836959.0,
      "step": 296
    },
    {
      "entropy": 0.5258732736110687,
      "epoch": 1.1082089552238805,
      "grad_norm": 0.13696761429309845,
      "learning_rate": 0.0002,
      "loss": 0.529443085193634,
      "mean_token_accuracy": 0.7867940962314606,
      "num_tokens": 4853067.0,
      "step": 297
    },
    {
      "entropy": 0.5512303709983826,
      "epoch": 1.1119402985074627,
      "grad_norm": 0.15340439975261688,
      "learning_rate": 0.0002,
      "loss": 0.552986741065979,
      "mean_token_accuracy": 0.7754423469305038,
      "num_tokens": 4869588.0,
      "step": 298
    },
    {
      "entropy": 0.5339537411928177,
      "epoch": 1.1156716417910448,
      "grad_norm": 0.15107926726341248,
      "learning_rate": 0.0002,
      "loss": 0.5356568694114685,
      "mean_token_accuracy": 0.7815524339675903,
      "num_tokens": 4885904.0,
      "step": 299
    },
    {
      "entropy": 0.5544896274805069,
      "epoch": 1.1194029850746268,
      "grad_norm": 0.13157761096954346,
      "learning_rate": 0.0002,
      "loss": 0.5553483366966248,
      "mean_token_accuracy": 0.7737178802490234,
      "num_tokens": 4902327.0,
      "step": 300
    },
    {
      "entropy": 0.5695160180330276,
      "epoch": 1.123134328358209,
      "grad_norm": 0.1447787880897522,
      "learning_rate": 0.0002,
      "loss": 0.5667352676391602,
      "mean_token_accuracy": 0.7724233418703079,
      "num_tokens": 4918857.0,
      "step": 301
    },
    {
      "entropy": 0.5424528568983078,
      "epoch": 1.126865671641791,
      "grad_norm": 0.130395770072937,
      "learning_rate": 0.0002,
      "loss": 0.54450523853302,
      "mean_token_accuracy": 0.7784540206193924,
      "num_tokens": 4935469.0,
      "step": 302
    },
    {
      "entropy": 0.537494882941246,
      "epoch": 1.1305970149253732,
      "grad_norm": 0.1572721302509308,
      "learning_rate": 0.0002,
      "loss": 0.539937436580658,
      "mean_token_accuracy": 0.7787607908248901,
      "num_tokens": 4951497.0,
      "step": 303
    },
    {
      "entropy": 0.5239665806293488,
      "epoch": 1.1343283582089552,
      "grad_norm": 0.14227941632270813,
      "learning_rate": 0.0002,
      "loss": 0.5174288153648376,
      "mean_token_accuracy": 0.7907485216856003,
      "num_tokens": 4967826.0,
      "step": 304
    },
    {
      "entropy": 0.5226030200719833,
      "epoch": 1.1380597014925373,
      "grad_norm": 0.13234300911426544,
      "learning_rate": 0.0002,
      "loss": 0.5237756967544556,
      "mean_token_accuracy": 0.7902256399393082,
      "num_tokens": 4984247.0,
      "step": 305
    },
    {
      "entropy": 0.5070921406149864,
      "epoch": 1.1417910447761195,
      "grad_norm": 0.15718795359134674,
      "learning_rate": 0.0002,
      "loss": 0.520646333694458,
      "mean_token_accuracy": 0.7865647524595261,
      "num_tokens": 5000320.0,
      "step": 306
    },
    {
      "entropy": 0.5070105642080307,
      "epoch": 1.1455223880597014,
      "grad_norm": 0.20183522999286652,
      "learning_rate": 0.0002,
      "loss": 0.528045654296875,
      "mean_token_accuracy": 0.7873903512954712,
      "num_tokens": 5016226.0,
      "step": 307
    },
    {
      "entropy": 0.5490072518587112,
      "epoch": 1.1492537313432836,
      "grad_norm": 0.12259556353092194,
      "learning_rate": 0.0002,
      "loss": 0.5465996861457825,
      "mean_token_accuracy": 0.7795770764350891,
      "num_tokens": 5032435.0,
      "step": 308
    },
    {
      "entropy": 0.5369555801153183,
      "epoch": 1.1529850746268657,
      "grad_norm": 0.17033320665359497,
      "learning_rate": 0.0002,
      "loss": 0.5238630175590515,
      "mean_token_accuracy": 0.7864966690540314,
      "num_tokens": 5048673.0,
      "step": 309
    },
    {
      "entropy": 0.5474718064069748,
      "epoch": 1.1567164179104479,
      "grad_norm": 0.15336251258850098,
      "learning_rate": 0.0002,
      "loss": 0.5351282358169556,
      "mean_token_accuracy": 0.7832874804735184,
      "num_tokens": 5064889.0,
      "step": 310
    },
    {
      "entropy": 0.5407518595457077,
      "epoch": 1.1604477611940298,
      "grad_norm": 0.1288745403289795,
      "learning_rate": 0.0002,
      "loss": 0.532909631729126,
      "mean_token_accuracy": 0.7854967713356018,
      "num_tokens": 5081181.0,
      "step": 311
    },
    {
      "entropy": 0.5553453862667084,
      "epoch": 1.164179104477612,
      "grad_norm": 0.17325082421302795,
      "learning_rate": 0.0002,
      "loss": 0.5650225877761841,
      "mean_token_accuracy": 0.7709382623434067,
      "num_tokens": 5097695.0,
      "step": 312
    },
    {
      "entropy": 0.5312155932188034,
      "epoch": 1.1679104477611941,
      "grad_norm": 0.14813978970050812,
      "learning_rate": 0.0002,
      "loss": 0.5398642420768738,
      "mean_token_accuracy": 0.7819912135601044,
      "num_tokens": 5114124.0,
      "step": 313
    },
    {
      "entropy": 0.5393004268407822,
      "epoch": 1.171641791044776,
      "grad_norm": 0.13244624435901642,
      "learning_rate": 0.0002,
      "loss": 0.5397657155990601,
      "mean_token_accuracy": 0.7833016067743301,
      "num_tokens": 5130526.0,
      "step": 314
    },
    {
      "entropy": 0.5356107205152512,
      "epoch": 1.1753731343283582,
      "grad_norm": 0.1546393185853958,
      "learning_rate": 0.0002,
      "loss": 0.5278767347335815,
      "mean_token_accuracy": 0.7873012572526932,
      "num_tokens": 5146786.0,
      "step": 315
    },
    {
      "entropy": 0.5360458493232727,
      "epoch": 1.1791044776119404,
      "grad_norm": 0.14604224264621735,
      "learning_rate": 0.0002,
      "loss": 0.5378543138504028,
      "mean_token_accuracy": 0.7808638215065002,
      "num_tokens": 5163157.0,
      "step": 316
    },
    {
      "entropy": 0.5358310341835022,
      "epoch": 1.1828358208955223,
      "grad_norm": 0.11514927446842194,
      "learning_rate": 0.0002,
      "loss": 0.5323253273963928,
      "mean_token_accuracy": 0.7850612699985504,
      "num_tokens": 5179759.0,
      "step": 317
    },
    {
      "entropy": 0.5336421579122543,
      "epoch": 1.1865671641791045,
      "grad_norm": 0.14939743280410767,
      "learning_rate": 0.0002,
      "loss": 0.5399504899978638,
      "mean_token_accuracy": 0.7822477370500565,
      "num_tokens": 5195772.0,
      "step": 318
    },
    {
      "entropy": 0.5196461454033852,
      "epoch": 1.1902985074626866,
      "grad_norm": 0.16364845633506775,
      "learning_rate": 0.0002,
      "loss": 0.5318784117698669,
      "mean_token_accuracy": 0.7826407551765442,
      "num_tokens": 5212049.0,
      "step": 319
    },
    {
      "entropy": 0.5297210067510605,
      "epoch": 1.1940298507462686,
      "grad_norm": 0.1340930312871933,
      "learning_rate": 0.0002,
      "loss": 0.5342279672622681,
      "mean_token_accuracy": 0.7825554758310318,
      "num_tokens": 5228387.0,
      "step": 320
    },
    {
      "entropy": 0.5374090075492859,
      "epoch": 1.1977611940298507,
      "grad_norm": 0.13523836433887482,
      "learning_rate": 0.0002,
      "loss": 0.5342003107070923,
      "mean_token_accuracy": 0.7829677164554596,
      "num_tokens": 5244798.0,
      "step": 321
    },
    {
      "entropy": 0.5403262600302696,
      "epoch": 1.2014925373134329,
      "grad_norm": 0.11974834650754929,
      "learning_rate": 0.0002,
      "loss": 0.5366995334625244,
      "mean_token_accuracy": 0.7828448265790939,
      "num_tokens": 5261240.0,
      "step": 322
    },
    {
      "entropy": 0.5380197167396545,
      "epoch": 1.205223880597015,
      "grad_norm": 0.154353529214859,
      "learning_rate": 0.0002,
      "loss": 0.533047080039978,
      "mean_token_accuracy": 0.7859889715909958,
      "num_tokens": 5277554.0,
      "step": 323
    },
    {
      "entropy": 0.5303442776203156,
      "epoch": 1.208955223880597,
      "grad_norm": 0.14264924824237823,
      "learning_rate": 0.0002,
      "loss": 0.5314475893974304,
      "mean_token_accuracy": 0.7831806391477585,
      "num_tokens": 5293949.0,
      "step": 324
    },
    {
      "entropy": 0.5252211391925812,
      "epoch": 1.212686567164179,
      "grad_norm": 0.1556359827518463,
      "learning_rate": 0.0002,
      "loss": 0.5285252928733826,
      "mean_token_accuracy": 0.783245861530304,
      "num_tokens": 5310026.0,
      "step": 325
    },
    {
      "entropy": 0.5328008607029915,
      "epoch": 1.2164179104477613,
      "grad_norm": 0.13450154662132263,
      "learning_rate": 0.0002,
      "loss": 0.5320917367935181,
      "mean_token_accuracy": 0.7842745780944824,
      "num_tokens": 5326386.0,
      "step": 326
    },
    {
      "entropy": 0.5319949090480804,
      "epoch": 1.2201492537313432,
      "grad_norm": 0.12143786996603012,
      "learning_rate": 0.0002,
      "loss": 0.5349273681640625,
      "mean_token_accuracy": 0.7820626497268677,
      "num_tokens": 5342658.0,
      "step": 327
    },
    {
      "entropy": 0.5234760195016861,
      "epoch": 1.2238805970149254,
      "grad_norm": 0.16645972430706024,
      "learning_rate": 0.0002,
      "loss": 0.5320586562156677,
      "mean_token_accuracy": 0.7844817489385605,
      "num_tokens": 5358974.0,
      "step": 328
    },
    {
      "entropy": 0.5378956496715546,
      "epoch": 1.2276119402985075,
      "grad_norm": 0.13522404432296753,
      "learning_rate": 0.0002,
      "loss": 0.5357790589332581,
      "mean_token_accuracy": 0.7823758125305176,
      "num_tokens": 5375371.0,
      "step": 329
    },
    {
      "entropy": 0.5387023985385895,
      "epoch": 1.2313432835820897,
      "grad_norm": 0.1315094530582428,
      "learning_rate": 0.0002,
      "loss": 0.5362842082977295,
      "mean_token_accuracy": 0.7809555679559708,
      "num_tokens": 5391896.0,
      "step": 330
    },
    {
      "entropy": 0.5072716027498245,
      "epoch": 1.2350746268656716,
      "grad_norm": 0.13498196005821228,
      "learning_rate": 0.0002,
      "loss": 0.507161021232605,
      "mean_token_accuracy": 0.7966707944869995,
      "num_tokens": 5408354.0,
      "step": 331
    },
    {
      "entropy": 0.5260337740182877,
      "epoch": 1.2388059701492538,
      "grad_norm": 0.13349276781082153,
      "learning_rate": 0.0002,
      "loss": 0.5276508331298828,
      "mean_token_accuracy": 0.7871510088443756,
      "num_tokens": 5424531.0,
      "step": 332
    },
    {
      "entropy": 0.5349582731723785,
      "epoch": 1.242537313432836,
      "grad_norm": 0.13890203833580017,
      "learning_rate": 0.0002,
      "loss": 0.5371206402778625,
      "mean_token_accuracy": 0.7821635603904724,
      "num_tokens": 5440815.0,
      "step": 333
    },
    {
      "entropy": 0.5346423760056496,
      "epoch": 1.2462686567164178,
      "grad_norm": 0.1553906500339508,
      "learning_rate": 0.0002,
      "loss": 0.5395735502243042,
      "mean_token_accuracy": 0.7817864269018173,
      "num_tokens": 5457072.0,
      "step": 334
    },
    {
      "entropy": 0.5478692203760147,
      "epoch": 1.25,
      "grad_norm": 0.15934403240680695,
      "learning_rate": 0.0002,
      "loss": 0.5516626834869385,
      "mean_token_accuracy": 0.7753347009420395,
      "num_tokens": 5473422.0,
      "step": 335
    },
    {
      "entropy": 0.5378739535808563,
      "epoch": 1.2537313432835822,
      "grad_norm": 0.12844312191009521,
      "learning_rate": 0.0002,
      "loss": 0.5326632261276245,
      "mean_token_accuracy": 0.7827756106853485,
      "num_tokens": 5489671.0,
      "step": 336
    },
    {
      "entropy": 0.5409121513366699,
      "epoch": 1.2574626865671643,
      "grad_norm": 0.1285056471824646,
      "learning_rate": 0.0002,
      "loss": 0.5452673435211182,
      "mean_token_accuracy": 0.7786683291196823,
      "num_tokens": 5506084.0,
      "step": 337
    },
    {
      "entropy": 0.5422088652849197,
      "epoch": 1.2611940298507462,
      "grad_norm": 0.14476130902767181,
      "learning_rate": 0.0002,
      "loss": 0.5416613817214966,
      "mean_token_accuracy": 0.7791768312454224,
      "num_tokens": 5522548.0,
      "step": 338
    },
    {
      "entropy": 0.5449076443910599,
      "epoch": 1.2649253731343284,
      "grad_norm": 0.13138490915298462,
      "learning_rate": 0.0002,
      "loss": 0.5395404696464539,
      "mean_token_accuracy": 0.7813031673431396,
      "num_tokens": 5539208.0,
      "step": 339
    },
    {
      "entropy": 0.5443570464849472,
      "epoch": 1.2686567164179103,
      "grad_norm": 0.15328356623649597,
      "learning_rate": 0.0002,
      "loss": 0.5410760641098022,
      "mean_token_accuracy": 0.7822384089231491,
      "num_tokens": 5555492.0,
      "step": 340
    },
    {
      "entropy": 0.5302190482616425,
      "epoch": 1.2723880597014925,
      "grad_norm": 0.15014180541038513,
      "learning_rate": 0.0002,
      "loss": 0.5311694145202637,
      "mean_token_accuracy": 0.7823975682258606,
      "num_tokens": 5571999.0,
      "step": 341
    },
    {
      "entropy": 0.5198534801602364,
      "epoch": 1.2761194029850746,
      "grad_norm": 0.13281527161598206,
      "learning_rate": 0.0002,
      "loss": 0.5303924083709717,
      "mean_token_accuracy": 0.7844155579805374,
      "num_tokens": 5588098.0,
      "step": 342
    },
    {
      "entropy": 0.5089417994022369,
      "epoch": 1.2798507462686568,
      "grad_norm": 0.1406290978193283,
      "learning_rate": 0.0002,
      "loss": 0.5175491571426392,
      "mean_token_accuracy": 0.7906824499368668,
      "num_tokens": 5604254.0,
      "step": 343
    },
    {
      "entropy": 0.5032122731208801,
      "epoch": 1.2835820895522387,
      "grad_norm": 0.15877749025821686,
      "learning_rate": 0.0002,
      "loss": 0.5124095678329468,
      "mean_token_accuracy": 0.790567934513092,
      "num_tokens": 5620363.0,
      "step": 344
    },
    {
      "entropy": 0.5435033291578293,
      "epoch": 1.287313432835821,
      "grad_norm": 0.1633625328540802,
      "learning_rate": 0.0002,
      "loss": 0.553101658821106,
      "mean_token_accuracy": 0.7757033556699753,
      "num_tokens": 5636720.0,
      "step": 345
    },
    {
      "entropy": 0.5401125550270081,
      "epoch": 1.291044776119403,
      "grad_norm": 0.14126214385032654,
      "learning_rate": 0.0002,
      "loss": 0.5362418293952942,
      "mean_token_accuracy": 0.7848408222198486,
      "num_tokens": 5653198.0,
      "step": 346
    },
    {
      "entropy": 0.5514497756958008,
      "epoch": 1.294776119402985,
      "grad_norm": 0.12672948837280273,
      "learning_rate": 0.0002,
      "loss": 0.5441724061965942,
      "mean_token_accuracy": 0.7795091718435287,
      "num_tokens": 5669516.0,
      "step": 347
    },
    {
      "entropy": 0.5293784886598587,
      "epoch": 1.2985074626865671,
      "grad_norm": 0.11630003899335861,
      "learning_rate": 0.0002,
      "loss": 0.5298827886581421,
      "mean_token_accuracy": 0.783647358417511,
      "num_tokens": 5685856.0,
      "step": 348
    },
    {
      "entropy": 0.5244417935609818,
      "epoch": 1.3022388059701493,
      "grad_norm": 0.14798091351985931,
      "learning_rate": 0.0002,
      "loss": 0.5307499170303345,
      "mean_token_accuracy": 0.7859917134046555,
      "num_tokens": 5702057.0,
      "step": 349
    },
    {
      "entropy": 0.5323777049779892,
      "epoch": 1.3059701492537314,
      "grad_norm": 0.12870146334171295,
      "learning_rate": 0.0002,
      "loss": 0.5365279912948608,
      "mean_token_accuracy": 0.7816431373357773,
      "num_tokens": 5718688.0,
      "step": 350
    },
    {
      "entropy": 0.5243604183197021,
      "epoch": 1.3097014925373134,
      "grad_norm": 0.12391035258769989,
      "learning_rate": 0.0002,
      "loss": 0.5227367281913757,
      "mean_token_accuracy": 0.7866858392953873,
      "num_tokens": 5734891.0,
      "step": 351
    },
    {
      "entropy": 0.5347918272018433,
      "epoch": 1.3134328358208955,
      "grad_norm": 0.145299032330513,
      "learning_rate": 0.0002,
      "loss": 0.5310446619987488,
      "mean_token_accuracy": 0.7831001132726669,
      "num_tokens": 5751328.0,
      "step": 352
    },
    {
      "entropy": 0.5411982387304306,
      "epoch": 1.3171641791044777,
      "grad_norm": 0.1532508134841919,
      "learning_rate": 0.0002,
      "loss": 0.5382261276245117,
      "mean_token_accuracy": 0.7814776748418808,
      "num_tokens": 5767612.0,
      "step": 353
    },
    {
      "entropy": 0.5384319573640823,
      "epoch": 1.3208955223880596,
      "grad_norm": 0.12034327536821365,
      "learning_rate": 0.0002,
      "loss": 0.5356577038764954,
      "mean_token_accuracy": 0.7809152156114578,
      "num_tokens": 5783823.0,
      "step": 354
    },
    {
      "entropy": 0.5378035828471184,
      "epoch": 1.3246268656716418,
      "grad_norm": 0.17426501214504242,
      "learning_rate": 0.0002,
      "loss": 0.54035884141922,
      "mean_token_accuracy": 0.781380295753479,
      "num_tokens": 5800149.0,
      "step": 355
    },
    {
      "entropy": 0.5415401831269264,
      "epoch": 1.328358208955224,
      "grad_norm": 0.1543213427066803,
      "learning_rate": 0.0002,
      "loss": 0.5499249696731567,
      "mean_token_accuracy": 0.7782198786735535,
      "num_tokens": 5816367.0,
      "step": 356
    },
    {
      "entropy": 0.5541952252388,
      "epoch": 1.332089552238806,
      "grad_norm": 0.1483956277370453,
      "learning_rate": 0.0002,
      "loss": 0.5502984523773193,
      "mean_token_accuracy": 0.7760822772979736,
      "num_tokens": 5832681.0,
      "step": 357
    },
    {
      "entropy": 0.5343631953001022,
      "epoch": 1.335820895522388,
      "grad_norm": 0.1370651125907898,
      "learning_rate": 0.0002,
      "loss": 0.531204879283905,
      "mean_token_accuracy": 0.7847591787576675,
      "num_tokens": 5848778.0,
      "step": 358
    },
    {
      "entropy": 0.5292060524225235,
      "epoch": 1.3395522388059702,
      "grad_norm": 0.13134512305259705,
      "learning_rate": 0.0002,
      "loss": 0.5340976119041443,
      "mean_token_accuracy": 0.7800851762294769,
      "num_tokens": 5864821.0,
      "step": 359
    },
    {
      "entropy": 0.5334947407245636,
      "epoch": 1.3432835820895521,
      "grad_norm": 0.1279117912054062,
      "learning_rate": 0.0002,
      "loss": 0.5352479815483093,
      "mean_token_accuracy": 0.7832343429327011,
      "num_tokens": 5881116.0,
      "step": 360
    },
    {
      "entropy": 0.5323592573404312,
      "epoch": 1.3470149253731343,
      "grad_norm": 0.28604868054389954,
      "learning_rate": 0.0002,
      "loss": 0.5301060080528259,
      "mean_token_accuracy": 0.7850496172904968,
      "num_tokens": 5897810.0,
      "step": 361
    },
    {
      "entropy": 0.5503924041986465,
      "epoch": 1.3507462686567164,
      "grad_norm": 0.34482085704803467,
      "learning_rate": 0.0002,
      "loss": 0.5528603196144104,
      "mean_token_accuracy": 0.7764434367418289,
      "num_tokens": 5914260.0,
      "step": 362
    },
    {
      "entropy": 0.5227297842502594,
      "epoch": 1.3544776119402986,
      "grad_norm": 0.12345509976148605,
      "learning_rate": 0.0002,
      "loss": 0.5238011479377747,
      "mean_token_accuracy": 0.7891107350587845,
      "num_tokens": 5930444.0,
      "step": 363
    },
    {
      "entropy": 0.5462608188390732,
      "epoch": 1.3582089552238805,
      "grad_norm": 0.1688961386680603,
      "learning_rate": 0.0002,
      "loss": 0.5603306293487549,
      "mean_token_accuracy": 0.771704226732254,
      "num_tokens": 5946741.0,
      "step": 364
    },
    {
      "entropy": 0.5538459420204163,
      "epoch": 1.3619402985074627,
      "grad_norm": 0.14098992943763733,
      "learning_rate": 0.0002,
      "loss": 0.5526646375656128,
      "mean_token_accuracy": 0.7749083191156387,
      "num_tokens": 5963128.0,
      "step": 365
    },
    {
      "entropy": 0.5297324359416962,
      "epoch": 1.3656716417910448,
      "grad_norm": 0.12920008599758148,
      "learning_rate": 0.0002,
      "loss": 0.5280593633651733,
      "mean_token_accuracy": 0.784359410405159,
      "num_tokens": 5979218.0,
      "step": 366
    },
    {
      "entropy": 0.5375068634748459,
      "epoch": 1.3694029850746268,
      "grad_norm": 0.1362897753715515,
      "learning_rate": 0.0002,
      "loss": 0.5373224020004272,
      "mean_token_accuracy": 0.7841860055923462,
      "num_tokens": 5995687.0,
      "step": 367
    },
    {
      "entropy": 0.5355936139822006,
      "epoch": 1.373134328358209,
      "grad_norm": 0.14052827656269073,
      "learning_rate": 0.0002,
      "loss": 0.5387214422225952,
      "mean_token_accuracy": 0.7806743085384369,
      "num_tokens": 6012035.0,
      "step": 368
    },
    {
      "entropy": 0.5435226261615753,
      "epoch": 1.376865671641791,
      "grad_norm": 0.1556740403175354,
      "learning_rate": 0.0002,
      "loss": 0.5441159009933472,
      "mean_token_accuracy": 0.7787201553583145,
      "num_tokens": 6028365.0,
      "step": 369
    },
    {
      "entropy": 0.5268312245607376,
      "epoch": 1.3805970149253732,
      "grad_norm": 0.15513257682323456,
      "learning_rate": 0.0002,
      "loss": 0.5291861891746521,
      "mean_token_accuracy": 0.7877073138952255,
      "num_tokens": 6044796.0,
      "step": 370
    },
    {
      "entropy": 0.5517646074295044,
      "epoch": 1.3843283582089552,
      "grad_norm": 0.1265048235654831,
      "learning_rate": 0.0002,
      "loss": 0.5546433925628662,
      "mean_token_accuracy": 0.7754338979721069,
      "num_tokens": 6061487.0,
      "step": 371
    },
    {
      "entropy": 0.5410579442977905,
      "epoch": 1.3880597014925373,
      "grad_norm": 0.13882151246070862,
      "learning_rate": 0.0002,
      "loss": 0.5375149846076965,
      "mean_token_accuracy": 0.7817846387624741,
      "num_tokens": 6077933.0,
      "step": 372
    },
    {
      "entropy": 0.5343161523342133,
      "epoch": 1.3917910447761195,
      "grad_norm": 0.1435064971446991,
      "learning_rate": 0.0002,
      "loss": 0.5308974981307983,
      "mean_token_accuracy": 0.7849253863096237,
      "num_tokens": 6094407.0,
      "step": 373
    },
    {
      "entropy": 0.5472413003444672,
      "epoch": 1.3955223880597014,
      "grad_norm": 0.1254650354385376,
      "learning_rate": 0.0002,
      "loss": 0.5410266518592834,
      "mean_token_accuracy": 0.7794545590877533,
      "num_tokens": 6110923.0,
      "step": 374
    },
    {
      "entropy": 0.5365632474422455,
      "epoch": 1.3992537313432836,
      "grad_norm": 0.13213133811950684,
      "learning_rate": 0.0002,
      "loss": 0.5404695868492126,
      "mean_token_accuracy": 0.7813301384449005,
      "num_tokens": 6127219.0,
      "step": 375
    },
    {
      "entropy": 0.5322464108467102,
      "epoch": 1.4029850746268657,
      "grad_norm": 0.1703079640865326,
      "learning_rate": 0.0002,
      "loss": 0.5420417189598083,
      "mean_token_accuracy": 0.7813734114170074,
      "num_tokens": 6143418.0,
      "step": 376
    },
    {
      "entropy": 0.5500752478837967,
      "epoch": 1.4067164179104479,
      "grad_norm": 0.1431417018175125,
      "learning_rate": 0.0002,
      "loss": 0.5511533617973328,
      "mean_token_accuracy": 0.7758170068264008,
      "num_tokens": 6159747.0,
      "step": 377
    },
    {
      "entropy": 0.5427335649728775,
      "epoch": 1.4104477611940298,
      "grad_norm": 0.1817740648984909,
      "learning_rate": 0.0002,
      "loss": 0.5414767861366272,
      "mean_token_accuracy": 0.7784233242273331,
      "num_tokens": 6176317.0,
      "step": 378
    },
    {
      "entropy": 0.5470531731843948,
      "epoch": 1.414179104477612,
      "grad_norm": 0.1422269493341446,
      "learning_rate": 0.0002,
      "loss": 0.5472888946533203,
      "mean_token_accuracy": 0.7780141085386276,
      "num_tokens": 6192737.0,
      "step": 379
    },
    {
      "entropy": 0.5464377701282501,
      "epoch": 1.417910447761194,
      "grad_norm": 0.17506512999534607,
      "learning_rate": 0.0002,
      "loss": 0.5490654706954956,
      "mean_token_accuracy": 0.7765569537878036,
      "num_tokens": 6208852.0,
      "step": 380
    },
    {
      "entropy": 0.5500655770301819,
      "epoch": 1.421641791044776,
      "grad_norm": 0.13887247443199158,
      "learning_rate": 0.0002,
      "loss": 0.5514895915985107,
      "mean_token_accuracy": 0.7774574458599091,
      "num_tokens": 6225069.0,
      "step": 381
    },
    {
      "entropy": 0.5438679605722427,
      "epoch": 1.4253731343283582,
      "grad_norm": 0.19045118987560272,
      "learning_rate": 0.0002,
      "loss": 0.5430073738098145,
      "mean_token_accuracy": 0.7802658081054688,
      "num_tokens": 6241528.0,
      "step": 382
    },
    {
      "entropy": 0.5306290239095688,
      "epoch": 1.4291044776119404,
      "grad_norm": 0.160585418343544,
      "learning_rate": 0.0002,
      "loss": 0.5361081957817078,
      "mean_token_accuracy": 0.7803311944007874,
      "num_tokens": 6257867.0,
      "step": 383
    },
    {
      "entropy": 0.5401095002889633,
      "epoch": 1.4328358208955223,
      "grad_norm": 0.1656486541032791,
      "learning_rate": 0.0002,
      "loss": 0.5400689244270325,
      "mean_token_accuracy": 0.780994102358818,
      "num_tokens": 6274155.0,
      "step": 384
    },
    {
      "entropy": 0.5327940136194229,
      "epoch": 1.4365671641791045,
      "grad_norm": 0.1317523568868637,
      "learning_rate": 0.0002,
      "loss": 0.5320010185241699,
      "mean_token_accuracy": 0.7850325703620911,
      "num_tokens": 6290558.0,
      "step": 385
    },
    {
      "entropy": 0.5441479384899139,
      "epoch": 1.4402985074626866,
      "grad_norm": 0.17623504996299744,
      "learning_rate": 0.0002,
      "loss": 0.5384020209312439,
      "mean_token_accuracy": 0.7846230715513229,
      "num_tokens": 6306878.0,
      "step": 386
    },
    {
      "entropy": 0.5452490895986557,
      "epoch": 1.4440298507462686,
      "grad_norm": 0.16240645945072174,
      "learning_rate": 0.0002,
      "loss": 0.5443468689918518,
      "mean_token_accuracy": 0.7802695333957672,
      "num_tokens": 6323446.0,
      "step": 387
    },
    {
      "entropy": 0.5221313908696175,
      "epoch": 1.4477611940298507,
      "grad_norm": 0.1463281661272049,
      "learning_rate": 0.0002,
      "loss": 0.5281410813331604,
      "mean_token_accuracy": 0.7816678881645203,
      "num_tokens": 6339949.0,
      "step": 388
    },
    {
      "entropy": 0.548899233341217,
      "epoch": 1.4514925373134329,
      "grad_norm": 0.22850677371025085,
      "learning_rate": 0.0002,
      "loss": 0.5660842657089233,
      "mean_token_accuracy": 0.7699355781078339,
      "num_tokens": 6356385.0,
      "step": 389
    },
    {
      "entropy": 0.5538987964391708,
      "epoch": 1.455223880597015,
      "grad_norm": 0.14064767956733704,
      "learning_rate": 0.0002,
      "loss": 0.5418739318847656,
      "mean_token_accuracy": 0.7807578295469284,
      "num_tokens": 6372804.0,
      "step": 390
    },
    {
      "entropy": 0.5599593967199326,
      "epoch": 1.458955223880597,
      "grad_norm": 0.18051759898662567,
      "learning_rate": 0.0002,
      "loss": 0.5524702072143555,
      "mean_token_accuracy": 0.776346430182457,
      "num_tokens": 6389040.0,
      "step": 391
    },
    {
      "entropy": 0.5202420800924301,
      "epoch": 1.462686567164179,
      "grad_norm": 0.14325307309627533,
      "learning_rate": 0.0002,
      "loss": 0.519583523273468,
      "mean_token_accuracy": 0.7894969880580902,
      "num_tokens": 6405365.0,
      "step": 392
    },
    {
      "entropy": 0.5261730998754501,
      "epoch": 1.4664179104477613,
      "grad_norm": 0.1525595486164093,
      "learning_rate": 0.0002,
      "loss": 0.5307163596153259,
      "mean_token_accuracy": 0.7871128022670746,
      "num_tokens": 6421868.0,
      "step": 393
    },
    {
      "entropy": 0.5307900905609131,
      "epoch": 1.4701492537313432,
      "grad_norm": 0.19890250265598297,
      "learning_rate": 0.0002,
      "loss": 0.5441185832023621,
      "mean_token_accuracy": 0.7786047160625458,
      "num_tokens": 6438616.0,
      "step": 394
    },
    {
      "entropy": 0.5521271824836731,
      "epoch": 1.4738805970149254,
      "grad_norm": 0.14049610495567322,
      "learning_rate": 0.0002,
      "loss": 0.5551049113273621,
      "mean_token_accuracy": 0.7755014002323151,
      "num_tokens": 6455024.0,
      "step": 395
    },
    {
      "entropy": 0.539069190621376,
      "epoch": 1.4776119402985075,
      "grad_norm": 0.1545083075761795,
      "learning_rate": 0.0002,
      "loss": 0.5353712439537048,
      "mean_token_accuracy": 0.78336501121521,
      "num_tokens": 6471293.0,
      "step": 396
    },
    {
      "entropy": 0.5550021678209305,
      "epoch": 1.4813432835820897,
      "grad_norm": 0.18578873574733734,
      "learning_rate": 0.0002,
      "loss": 0.5472472310066223,
      "mean_token_accuracy": 0.7796825766563416,
      "num_tokens": 6487641.0,
      "step": 397
    },
    {
      "entropy": 0.5490831285715103,
      "epoch": 1.4850746268656716,
      "grad_norm": 0.1240464299917221,
      "learning_rate": 0.0002,
      "loss": 0.5474961400032043,
      "mean_token_accuracy": 0.7774344980716705,
      "num_tokens": 6503822.0,
      "step": 398
    },
    {
      "entropy": 0.5393417626619339,
      "epoch": 1.4888059701492538,
      "grad_norm": 0.1891254484653473,
      "learning_rate": 0.0002,
      "loss": 0.5524366497993469,
      "mean_token_accuracy": 0.7745344191789627,
      "num_tokens": 6520011.0,
      "step": 399
    },
    {
      "entropy": 0.513459712266922,
      "epoch": 1.4925373134328357,
      "grad_norm": 0.2974206805229187,
      "learning_rate": 0.0002,
      "loss": 0.5200244188308716,
      "mean_token_accuracy": 0.7888158708810806,
      "num_tokens": 6536205.0,
      "step": 400
    },
    {
      "entropy": 0.5186173021793365,
      "epoch": 1.4962686567164178,
      "grad_norm": 0.15046866238117218,
      "learning_rate": 0.0002,
      "loss": 0.5207955241203308,
      "mean_token_accuracy": 0.7867278605699539,
      "num_tokens": 6552440.0,
      "step": 401
    },
    {
      "entropy": 0.5499364733695984,
      "epoch": 1.5,
      "grad_norm": 0.4020411968231201,
      "learning_rate": 0.0002,
      "loss": 0.5530084371566772,
      "mean_token_accuracy": 0.7796496748924255,
      "num_tokens": 6568961.0,
      "step": 402
    },
    {
      "entropy": 0.5427668243646622,
      "epoch": 1.5037313432835822,
      "grad_norm": 0.11850416660308838,
      "learning_rate": 0.0002,
      "loss": 0.533820629119873,
      "mean_token_accuracy": 0.7840306162834167,
      "num_tokens": 6585550.0,
      "step": 403
    },
    {
      "entropy": 0.5325792133808136,
      "epoch": 1.5074626865671643,
      "grad_norm": 0.18302492797374725,
      "learning_rate": 0.0002,
      "loss": 0.534012496471405,
      "mean_token_accuracy": 0.7814914137125015,
      "num_tokens": 6601942.0,
      "step": 404
    },
    {
      "entropy": 0.5354548320174217,
      "epoch": 1.5111940298507462,
      "grad_norm": 0.15404394268989563,
      "learning_rate": 0.0002,
      "loss": 0.538587749004364,
      "mean_token_accuracy": 0.7822761088609695,
      "num_tokens": 6618440.0,
      "step": 405
    },
    {
      "entropy": 0.5441371351480484,
      "epoch": 1.5149253731343284,
      "grad_norm": 0.13057801127433777,
      "learning_rate": 0.0002,
      "loss": 0.542742908000946,
      "mean_token_accuracy": 0.7798959463834763,
      "num_tokens": 6634866.0,
      "step": 406
    },
    {
      "entropy": 0.542233407497406,
      "epoch": 1.5186567164179103,
      "grad_norm": 0.14343421161174774,
      "learning_rate": 0.0002,
      "loss": 0.5447250008583069,
      "mean_token_accuracy": 0.7802796810865402,
      "num_tokens": 6651150.0,
      "step": 407
    },
    {
      "entropy": 0.5407950282096863,
      "epoch": 1.5223880597014925,
      "grad_norm": 0.14996956288814545,
      "learning_rate": 0.0002,
      "loss": 0.5389798879623413,
      "mean_token_accuracy": 0.7809374779462814,
      "num_tokens": 6667674.0,
      "step": 408
    },
    {
      "entropy": 0.5433390289545059,
      "epoch": 1.5261194029850746,
      "grad_norm": 0.1311637908220291,
      "learning_rate": 0.0002,
      "loss": 0.5383128523826599,
      "mean_token_accuracy": 0.7790700197219849,
      "num_tokens": 6684068.0,
      "step": 409
    },
    {
      "entropy": 0.527245432138443,
      "epoch": 1.5298507462686568,
      "grad_norm": 0.16411243379116058,
      "learning_rate": 0.0002,
      "loss": 0.5319215059280396,
      "mean_token_accuracy": 0.7840736508369446,
      "num_tokens": 6700752.0,
      "step": 410
    },
    {
      "entropy": 0.5146678760647774,
      "epoch": 1.533582089552239,
      "grad_norm": 0.1607578545808792,
      "learning_rate": 0.0002,
      "loss": 0.5198485851287842,
      "mean_token_accuracy": 0.7882288843393326,
      "num_tokens": 6716857.0,
      "step": 411
    },
    {
      "entropy": 0.5308386236429214,
      "epoch": 1.537313432835821,
      "grad_norm": 0.166807621717453,
      "learning_rate": 0.0002,
      "loss": 0.5419335961341858,
      "mean_token_accuracy": 0.7812209129333496,
      "num_tokens": 6732981.0,
      "step": 412
    },
    {
      "entropy": 0.5488767176866531,
      "epoch": 1.5410447761194028,
      "grad_norm": 0.14006908237934113,
      "learning_rate": 0.0002,
      "loss": 0.5508508086204529,
      "mean_token_accuracy": 0.7769163995981216,
      "num_tokens": 6749307.0,
      "step": 413
    },
    {
      "entropy": 0.5410346239805222,
      "epoch": 1.544776119402985,
      "grad_norm": 0.13224521279335022,
      "learning_rate": 0.0002,
      "loss": 0.5321468710899353,
      "mean_token_accuracy": 0.7842406779527664,
      "num_tokens": 6765688.0,
      "step": 414
    },
    {
      "entropy": 0.5605396628379822,
      "epoch": 1.5485074626865671,
      "grad_norm": 0.1389547735452652,
      "learning_rate": 0.0002,
      "loss": 0.5529029369354248,
      "mean_token_accuracy": 0.7745459079742432,
      "num_tokens": 6782015.0,
      "step": 415
    },
    {
      "entropy": 0.5347004532814026,
      "epoch": 1.5522388059701493,
      "grad_norm": 0.1258436143398285,
      "learning_rate": 0.0002,
      "loss": 0.5315224528312683,
      "mean_token_accuracy": 0.7851130068302155,
      "num_tokens": 6798206.0,
      "step": 416
    },
    {
      "entropy": 0.5425236374139786,
      "epoch": 1.5559701492537314,
      "grad_norm": 0.16927701234817505,
      "learning_rate": 0.0002,
      "loss": 0.5464774370193481,
      "mean_token_accuracy": 0.7801399230957031,
      "num_tokens": 6814725.0,
      "step": 417
    },
    {
      "entropy": 0.5187622159719467,
      "epoch": 1.5597014925373134,
      "grad_norm": 0.13987842202186584,
      "learning_rate": 0.0002,
      "loss": 0.5246447920799255,
      "mean_token_accuracy": 0.7894206643104553,
      "num_tokens": 6831232.0,
      "step": 418
    },
    {
      "entropy": 0.5316571593284607,
      "epoch": 1.5634328358208955,
      "grad_norm": 0.15650241076946259,
      "learning_rate": 0.0002,
      "loss": 0.538478434085846,
      "mean_token_accuracy": 0.7800242900848389,
      "num_tokens": 6847650.0,
      "step": 419
    },
    {
      "entropy": 0.5246055871248245,
      "epoch": 1.5671641791044775,
      "grad_norm": 0.13061542809009552,
      "learning_rate": 0.0002,
      "loss": 0.5321829319000244,
      "mean_token_accuracy": 0.7838113605976105,
      "num_tokens": 6864019.0,
      "step": 420
    },
    {
      "entropy": 0.5212045907974243,
      "epoch": 1.5708955223880596,
      "grad_norm": 0.13846127688884735,
      "learning_rate": 0.0002,
      "loss": 0.5200290679931641,
      "mean_token_accuracy": 0.7883654683828354,
      "num_tokens": 6880204.0,
      "step": 421
    },
    {
      "entropy": 0.542250782251358,
      "epoch": 1.5746268656716418,
      "grad_norm": 0.12467647343873978,
      "learning_rate": 0.0002,
      "loss": 0.5380762815475464,
      "mean_token_accuracy": 0.7811442613601685,
      "num_tokens": 6896430.0,
      "step": 422
    },
    {
      "entropy": 0.5405887067317963,
      "epoch": 1.578358208955224,
      "grad_norm": 0.1305769383907318,
      "learning_rate": 0.0002,
      "loss": 0.5357393026351929,
      "mean_token_accuracy": 0.7828609347343445,
      "num_tokens": 6912971.0,
      "step": 423
    },
    {
      "entropy": 0.5287357568740845,
      "epoch": 1.582089552238806,
      "grad_norm": 0.17313086986541748,
      "learning_rate": 0.0002,
      "loss": 0.5329744219779968,
      "mean_token_accuracy": 0.782240018248558,
      "num_tokens": 6929204.0,
      "step": 424
    },
    {
      "entropy": 0.5423530340194702,
      "epoch": 1.585820895522388,
      "grad_norm": 0.1359935700893402,
      "learning_rate": 0.0002,
      "loss": 0.5377368330955505,
      "mean_token_accuracy": 0.7828396558761597,
      "num_tokens": 6945791.0,
      "step": 425
    },
    {
      "entropy": 0.5215180069208145,
      "epoch": 1.5895522388059702,
      "grad_norm": 0.1547544300556183,
      "learning_rate": 0.0002,
      "loss": 0.5314459800720215,
      "mean_token_accuracy": 0.7837548702955246,
      "num_tokens": 6961875.0,
      "step": 426
    },
    {
      "entropy": 0.5231145992875099,
      "epoch": 1.5932835820895521,
      "grad_norm": 0.13578681647777557,
      "learning_rate": 0.0002,
      "loss": 0.5277360677719116,
      "mean_token_accuracy": 0.7842715680599213,
      "num_tokens": 6978198.0,
      "step": 427
    },
    {
      "entropy": 0.5486603379249573,
      "epoch": 1.5970149253731343,
      "grad_norm": 0.15189069509506226,
      "learning_rate": 0.0002,
      "loss": 0.549156129360199,
      "mean_token_accuracy": 0.7768438756465912,
      "num_tokens": 6994444.0,
      "step": 428
    },
    {
      "entropy": 0.54026959836483,
      "epoch": 1.6007462686567164,
      "grad_norm": 0.13162657618522644,
      "learning_rate": 0.0002,
      "loss": 0.5345808863639832,
      "mean_token_accuracy": 0.7827611416578293,
      "num_tokens": 7010461.0,
      "step": 429
    },
    {
      "entropy": 0.53890560567379,
      "epoch": 1.6044776119402986,
      "grad_norm": 0.133237823843956,
      "learning_rate": 0.0002,
      "loss": 0.5350275635719299,
      "mean_token_accuracy": 0.7830039262771606,
      "num_tokens": 7026813.0,
      "step": 430
    },
    {
      "entropy": 0.5518313944339752,
      "epoch": 1.6082089552238807,
      "grad_norm": 0.14963583648204803,
      "learning_rate": 0.0002,
      "loss": 0.5478031039237976,
      "mean_token_accuracy": 0.7780435979366302,
      "num_tokens": 7043301.0,
      "step": 431
    },
    {
      "entropy": 0.5414951294660568,
      "epoch": 1.6119402985074627,
      "grad_norm": 0.12772321701049805,
      "learning_rate": 0.0002,
      "loss": 0.5401883125305176,
      "mean_token_accuracy": 0.782444417476654,
      "num_tokens": 7059646.0,
      "step": 432
    },
    {
      "entropy": 0.5394223630428314,
      "epoch": 1.6156716417910446,
      "grad_norm": 0.13813580572605133,
      "learning_rate": 0.0002,
      "loss": 0.5405031442642212,
      "mean_token_accuracy": 0.7798984050750732,
      "num_tokens": 7076271.0,
      "step": 433
    },
    {
      "entropy": 0.5429421365261078,
      "epoch": 1.6194029850746268,
      "grad_norm": 0.15601246058940887,
      "learning_rate": 0.0002,
      "loss": 0.5516016483306885,
      "mean_token_accuracy": 0.775258257985115,
      "num_tokens": 7092578.0,
      "step": 434
    },
    {
      "entropy": 0.5521349459886551,
      "epoch": 1.623134328358209,
      "grad_norm": 0.14428818225860596,
      "learning_rate": 0.0002,
      "loss": 0.5492872595787048,
      "mean_token_accuracy": 0.7768293768167496,
      "num_tokens": 7109046.0,
      "step": 435
    },
    {
      "entropy": 0.5354936867952347,
      "epoch": 1.626865671641791,
      "grad_norm": 0.15073303878307343,
      "learning_rate": 0.0002,
      "loss": 0.5428034663200378,
      "mean_token_accuracy": 0.780666396021843,
      "num_tokens": 7125466.0,
      "step": 436
    },
    {
      "entropy": 0.5443413555622101,
      "epoch": 1.6305970149253732,
      "grad_norm": 0.14848864078521729,
      "learning_rate": 0.0002,
      "loss": 0.5486512780189514,
      "mean_token_accuracy": 0.7806312739849091,
      "num_tokens": 7141898.0,
      "step": 437
    },
    {
      "entropy": 0.5337215662002563,
      "epoch": 1.6343283582089554,
      "grad_norm": 0.15302547812461853,
      "learning_rate": 0.0002,
      "loss": 0.5392454862594604,
      "mean_token_accuracy": 0.7822044789791107,
      "num_tokens": 7158167.0,
      "step": 438
    },
    {
      "entropy": 0.5586158037185669,
      "epoch": 1.6380597014925373,
      "grad_norm": 0.17401555180549622,
      "learning_rate": 0.0002,
      "loss": 0.557881772518158,
      "mean_token_accuracy": 0.7756661027669907,
      "num_tokens": 7174477.0,
      "step": 439
    },
    {
      "entropy": 0.5406471788883209,
      "epoch": 1.6417910447761193,
      "grad_norm": 0.14608509838581085,
      "learning_rate": 0.0002,
      "loss": 0.5353439450263977,
      "mean_token_accuracy": 0.7812080383300781,
      "num_tokens": 7190694.0,
      "step": 440
    },
    {
      "entropy": 0.5237606167793274,
      "epoch": 1.6455223880597014,
      "grad_norm": 0.1542704850435257,
      "learning_rate": 0.0002,
      "loss": 0.5290042161941528,
      "mean_token_accuracy": 0.7855716645717621,
      "num_tokens": 7207153.0,
      "step": 441
    },
    {
      "entropy": 0.5269318968057632,
      "epoch": 1.6492537313432836,
      "grad_norm": 0.1659008413553238,
      "learning_rate": 0.0002,
      "loss": 0.530527651309967,
      "mean_token_accuracy": 0.7846795618534088,
      "num_tokens": 7223109.0,
      "step": 442
    },
    {
      "entropy": 0.5195682793855667,
      "epoch": 1.6529850746268657,
      "grad_norm": 0.14120091497898102,
      "learning_rate": 0.0002,
      "loss": 0.5263478755950928,
      "mean_token_accuracy": 0.7843965291976929,
      "num_tokens": 7239499.0,
      "step": 443
    },
    {
      "entropy": 0.5257822424173355,
      "epoch": 1.6567164179104479,
      "grad_norm": 0.1643773764371872,
      "learning_rate": 0.0002,
      "loss": 0.5316389203071594,
      "mean_token_accuracy": 0.7851150333881378,
      "num_tokens": 7255730.0,
      "step": 444
    },
    {
      "entropy": 0.5377429872751236,
      "epoch": 1.6604477611940298,
      "grad_norm": 0.14926724135875702,
      "learning_rate": 0.0002,
      "loss": 0.5427424907684326,
      "mean_token_accuracy": 0.7824969440698624,
      "num_tokens": 7272167.0,
      "step": 445
    },
    {
      "entropy": 0.538849800825119,
      "epoch": 1.664179104477612,
      "grad_norm": 0.13225945830345154,
      "learning_rate": 0.0002,
      "loss": 0.5327820181846619,
      "mean_token_accuracy": 0.783388078212738,
      "num_tokens": 7288421.0,
      "step": 446
    },
    {
      "entropy": 0.5399289578199387,
      "epoch": 1.667910447761194,
      "grad_norm": 0.1308569759130478,
      "learning_rate": 0.0002,
      "loss": 0.5292877554893494,
      "mean_token_accuracy": 0.7878285944461823,
      "num_tokens": 7304880.0,
      "step": 447
    },
    {
      "entropy": 0.5436895489692688,
      "epoch": 1.671641791044776,
      "grad_norm": 0.16895835101604462,
      "learning_rate": 0.0002,
      "loss": 0.5451297163963318,
      "mean_token_accuracy": 0.7789509892463684,
      "num_tokens": 7321256.0,
      "step": 448
    },
    {
      "entropy": 0.5504481792449951,
      "epoch": 1.6753731343283582,
      "grad_norm": 0.13614578545093536,
      "learning_rate": 0.0002,
      "loss": 0.5539385080337524,
      "mean_token_accuracy": 0.7752430438995361,
      "num_tokens": 7337589.0,
      "step": 449
    },
    {
      "entropy": 0.5513797849416733,
      "epoch": 1.6791044776119404,
      "grad_norm": 0.15195772051811218,
      "learning_rate": 0.0002,
      "loss": 0.5530341267585754,
      "mean_token_accuracy": 0.7749580442905426,
      "num_tokens": 7353883.0,
      "step": 450
    },
    {
      "entropy": 0.5413680523633957,
      "epoch": 1.6828358208955225,
      "grad_norm": 0.15170808136463165,
      "learning_rate": 0.0002,
      "loss": 0.543311357498169,
      "mean_token_accuracy": 0.7790023237466812,
      "num_tokens": 7370160.0,
      "step": 451
    },
    {
      "entropy": 0.5648334920406342,
      "epoch": 1.6865671641791045,
      "grad_norm": 0.1327073723077774,
      "learning_rate": 0.0002,
      "loss": 0.5623019933700562,
      "mean_token_accuracy": 0.7708193957805634,
      "num_tokens": 7386478.0,
      "step": 452
    },
    {
      "entropy": 0.517740860581398,
      "epoch": 1.6902985074626866,
      "grad_norm": 0.13745424151420593,
      "learning_rate": 0.0002,
      "loss": 0.5170730352401733,
      "mean_token_accuracy": 0.7882706969976425,
      "num_tokens": 7402645.0,
      "step": 453
    },
    {
      "entropy": 0.5524223297834396,
      "epoch": 1.6940298507462686,
      "grad_norm": 0.1598864197731018,
      "learning_rate": 0.0002,
      "loss": 0.5490080714225769,
      "mean_token_accuracy": 0.7766116112470627,
      "num_tokens": 7419124.0,
      "step": 454
    },
    {
      "entropy": 0.5260176658630371,
      "epoch": 1.6977611940298507,
      "grad_norm": 0.13257424533367157,
      "learning_rate": 0.0002,
      "loss": 0.5297276973724365,
      "mean_token_accuracy": 0.7853291928768158,
      "num_tokens": 7435508.0,
      "step": 455
    },
    {
      "entropy": 0.5325040817260742,
      "epoch": 1.7014925373134329,
      "grad_norm": 0.18319375813007355,
      "learning_rate": 0.0002,
      "loss": 0.543100118637085,
      "mean_token_accuracy": 0.7803790718317032,
      "num_tokens": 7451755.0,
      "step": 456
    },
    {
      "entropy": 0.5267694145441055,
      "epoch": 1.705223880597015,
      "grad_norm": 0.1554267704486847,
      "learning_rate": 0.0002,
      "loss": 0.5240468978881836,
      "mean_token_accuracy": 0.7871411740779877,
      "num_tokens": 7467919.0,
      "step": 457
    },
    {
      "entropy": 0.5426032692193985,
      "epoch": 1.7089552238805972,
      "grad_norm": 0.13706867396831512,
      "learning_rate": 0.0002,
      "loss": 0.5412613749504089,
      "mean_token_accuracy": 0.778879314661026,
      "num_tokens": 7484289.0,
      "step": 458
    },
    {
      "entropy": 0.5340660065412521,
      "epoch": 1.712686567164179,
      "grad_norm": 0.16726213693618774,
      "learning_rate": 0.0002,
      "loss": 0.5392245650291443,
      "mean_token_accuracy": 0.7805332094430923,
      "num_tokens": 7500611.0,
      "step": 459
    },
    {
      "entropy": 0.5553819835186005,
      "epoch": 1.716417910447761,
      "grad_norm": 0.16255703568458557,
      "learning_rate": 0.0002,
      "loss": 0.5517896413803101,
      "mean_token_accuracy": 0.7731162905693054,
      "num_tokens": 7517206.0,
      "step": 460
    },
    {
      "entropy": 0.5343479365110397,
      "epoch": 1.7201492537313432,
      "grad_norm": 0.13407304883003235,
      "learning_rate": 0.0002,
      "loss": 0.5380552411079407,
      "mean_token_accuracy": 0.778910294175148,
      "num_tokens": 7533459.0,
      "step": 461
    },
    {
      "entropy": 0.5323963612318039,
      "epoch": 1.7238805970149254,
      "grad_norm": 0.1650952398777008,
      "learning_rate": 0.0002,
      "loss": 0.5314269661903381,
      "mean_token_accuracy": 0.7864300310611725,
      "num_tokens": 7549589.0,
      "step": 462
    },
    {
      "entropy": 0.5433520078659058,
      "epoch": 1.7276119402985075,
      "grad_norm": 0.1429263949394226,
      "learning_rate": 0.0002,
      "loss": 0.540563702583313,
      "mean_token_accuracy": 0.7819092869758606,
      "num_tokens": 7566158.0,
      "step": 463
    },
    {
      "entropy": 0.5436968952417374,
      "epoch": 1.7313432835820897,
      "grad_norm": 0.14086155593395233,
      "learning_rate": 0.0002,
      "loss": 0.5398205518722534,
      "mean_token_accuracy": 0.7809909284114838,
      "num_tokens": 7582422.0,
      "step": 464
    },
    {
      "entropy": 0.5534437447786331,
      "epoch": 1.7350746268656716,
      "grad_norm": 0.14618556201457977,
      "learning_rate": 0.0002,
      "loss": 0.5561552047729492,
      "mean_token_accuracy": 0.7724596560001373,
      "num_tokens": 7598771.0,
      "step": 465
    },
    {
      "entropy": 0.5396170765161514,
      "epoch": 1.7388059701492538,
      "grad_norm": 0.1190977543592453,
      "learning_rate": 0.0002,
      "loss": 0.5389412641525269,
      "mean_token_accuracy": 0.7812270224094391,
      "num_tokens": 7615418.0,
      "step": 466
    },
    {
      "entropy": 0.5390318781137466,
      "epoch": 1.7425373134328357,
      "grad_norm": 0.15372450649738312,
      "learning_rate": 0.0002,
      "loss": 0.5436992645263672,
      "mean_token_accuracy": 0.7814512252807617,
      "num_tokens": 7631840.0,
      "step": 467
    },
    {
      "entropy": 0.5206413939595222,
      "epoch": 1.7462686567164178,
      "grad_norm": 0.13495191931724548,
      "learning_rate": 0.0002,
      "loss": 0.5253979563713074,
      "mean_token_accuracy": 0.7877579927444458,
      "num_tokens": 7648131.0,
      "step": 468
    },
    {
      "entropy": 0.5223769247531891,
      "epoch": 1.75,
      "grad_norm": 0.15382781624794006,
      "learning_rate": 0.0002,
      "loss": 0.5363397002220154,
      "mean_token_accuracy": 0.7828211337327957,
      "num_tokens": 7664453.0,
      "step": 469
    },
    {
      "entropy": 0.5333149433135986,
      "epoch": 1.7537313432835822,
      "grad_norm": 0.13387013971805573,
      "learning_rate": 0.0002,
      "loss": 0.5351001620292664,
      "mean_token_accuracy": 0.7830037176609039,
      "num_tokens": 7680781.0,
      "step": 470
    },
    {
      "entropy": 0.5429620742797852,
      "epoch": 1.7574626865671643,
      "grad_norm": 0.13604114949703217,
      "learning_rate": 0.0002,
      "loss": 0.5358593463897705,
      "mean_token_accuracy": 0.7837422788143158,
      "num_tokens": 7697310.0,
      "step": 471
    },
    {
      "entropy": 0.5731407701969147,
      "epoch": 1.7611940298507462,
      "grad_norm": 0.1410369724035263,
      "learning_rate": 0.0002,
      "loss": 0.5635945796966553,
      "mean_token_accuracy": 0.7718209028244019,
      "num_tokens": 7713558.0,
      "step": 472
    },
    {
      "entropy": 0.5679037570953369,
      "epoch": 1.7649253731343284,
      "grad_norm": 0.14904598891735077,
      "learning_rate": 0.0002,
      "loss": 0.5656334161758423,
      "mean_token_accuracy": 0.7714496552944183,
      "num_tokens": 7730117.0,
      "step": 473
    },
    {
      "entropy": 0.5429675132036209,
      "epoch": 1.7686567164179103,
      "grad_norm": 0.1564645618200302,
      "learning_rate": 0.0002,
      "loss": 0.5466417670249939,
      "mean_token_accuracy": 0.7782974392175674,
      "num_tokens": 7746633.0,
      "step": 474
    },
    {
      "entropy": 0.5362623929977417,
      "epoch": 1.7723880597014925,
      "grad_norm": 0.14919337630271912,
      "learning_rate": 0.0002,
      "loss": 0.5442617535591125,
      "mean_token_accuracy": 0.778479665517807,
      "num_tokens": 7762813.0,
      "step": 475
    },
    {
      "entropy": 0.5283475816249847,
      "epoch": 1.7761194029850746,
      "grad_norm": 0.14363890886306763,
      "learning_rate": 0.0002,
      "loss": 0.5296353101730347,
      "mean_token_accuracy": 0.7861494719982147,
      "num_tokens": 7778873.0,
      "step": 476
    },
    {
      "entropy": 0.5252759754657745,
      "epoch": 1.7798507462686568,
      "grad_norm": 0.17697355151176453,
      "learning_rate": 0.0002,
      "loss": 0.5262605547904968,
      "mean_token_accuracy": 0.7861870229244232,
      "num_tokens": 7795362.0,
      "step": 477
    },
    {
      "entropy": 0.5341710150241852,
      "epoch": 1.783582089552239,
      "grad_norm": 0.13914838433265686,
      "learning_rate": 0.0002,
      "loss": 0.5387526750564575,
      "mean_token_accuracy": 0.7779033482074738,
      "num_tokens": 7811639.0,
      "step": 478
    },
    {
      "entropy": 0.5409186482429504,
      "epoch": 1.787313432835821,
      "grad_norm": 0.14785298705101013,
      "learning_rate": 0.0002,
      "loss": 0.5428853034973145,
      "mean_token_accuracy": 0.7777274399995804,
      "num_tokens": 7828116.0,
      "step": 479
    },
    {
      "entropy": 0.5548221617937088,
      "epoch": 1.7910447761194028,
      "grad_norm": 0.1457030326128006,
      "learning_rate": 0.0002,
      "loss": 0.5512540340423584,
      "mean_token_accuracy": 0.7757317572832108,
      "num_tokens": 7844457.0,
      "step": 480
    },
    {
      "entropy": 0.5340719819068909,
      "epoch": 1.794776119402985,
      "grad_norm": 0.13429081439971924,
      "learning_rate": 0.0002,
      "loss": 0.5289599299430847,
      "mean_token_accuracy": 0.7837049216032028,
      "num_tokens": 7860611.0,
      "step": 481
    },
    {
      "entropy": 0.5379914194345474,
      "epoch": 1.7985074626865671,
      "grad_norm": 0.13006342947483063,
      "learning_rate": 0.0002,
      "loss": 0.5363917350769043,
      "mean_token_accuracy": 0.7821543663740158,
      "num_tokens": 7876837.0,
      "step": 482
    },
    {
      "entropy": 0.5481665432453156,
      "epoch": 1.8022388059701493,
      "grad_norm": 0.14950798451900482,
      "learning_rate": 0.0002,
      "loss": 0.5466524362564087,
      "mean_token_accuracy": 0.7806346863508224,
      "num_tokens": 7893152.0,
      "step": 483
    },
    {
      "entropy": 0.5473506450653076,
      "epoch": 1.8059701492537314,
      "grad_norm": 0.14105349779129028,
      "learning_rate": 0.0002,
      "loss": 0.5428904891014099,
      "mean_token_accuracy": 0.778725266456604,
      "num_tokens": 7909608.0,
      "step": 484
    },
    {
      "entropy": 0.5446173995733261,
      "epoch": 1.8097014925373134,
      "grad_norm": 0.15689605474472046,
      "learning_rate": 0.0002,
      "loss": 0.5529049634933472,
      "mean_token_accuracy": 0.7787118703126907,
      "num_tokens": 7926042.0,
      "step": 485
    },
    {
      "entropy": 0.5260195583105087,
      "epoch": 1.8134328358208955,
      "grad_norm": 0.15744158625602722,
      "learning_rate": 0.0002,
      "loss": 0.5373381972312927,
      "mean_token_accuracy": 0.7849460244178772,
      "num_tokens": 7942407.0,
      "step": 486
    },
    {
      "entropy": 0.5418536812067032,
      "epoch": 1.8171641791044775,
      "grad_norm": 0.14664271473884583,
      "learning_rate": 0.0002,
      "loss": 0.5412867069244385,
      "mean_token_accuracy": 0.7811890542507172,
      "num_tokens": 7958995.0,
      "step": 487
    },
    {
      "entropy": 0.5519318580627441,
      "epoch": 1.8208955223880596,
      "grad_norm": 0.15384623408317566,
      "learning_rate": 0.0002,
      "loss": 0.5512985587120056,
      "mean_token_accuracy": 0.7755472809076309,
      "num_tokens": 7975615.0,
      "step": 488
    },
    {
      "entropy": 0.5366766899824142,
      "epoch": 1.8246268656716418,
      "grad_norm": 0.17651750147342682,
      "learning_rate": 0.0002,
      "loss": 0.5435804128646851,
      "mean_token_accuracy": 0.7781522572040558,
      "num_tokens": 7991932.0,
      "step": 489
    },
    {
      "entropy": 0.5274553596973419,
      "epoch": 1.828358208955224,
      "grad_norm": 0.13903461396694183,
      "learning_rate": 0.0002,
      "loss": 0.5304480195045471,
      "mean_token_accuracy": 0.7822371274232864,
      "num_tokens": 8008268.0,
      "step": 490
    },
    {
      "entropy": 0.5359211266040802,
      "epoch": 1.832089552238806,
      "grad_norm": 0.1657918393611908,
      "learning_rate": 0.0002,
      "loss": 0.5305460095405579,
      "mean_token_accuracy": 0.7854030579328537,
      "num_tokens": 8024551.0,
      "step": 491
    },
    {
      "entropy": 0.5484016537666321,
      "epoch": 1.835820895522388,
      "grad_norm": 0.16684608161449432,
      "learning_rate": 0.0002,
      "loss": 0.5452835559844971,
      "mean_token_accuracy": 0.7772976756095886,
      "num_tokens": 8040823.0,
      "step": 492
    },
    {
      "entropy": 0.5474873930215836,
      "epoch": 1.8395522388059702,
      "grad_norm": 0.151128351688385,
      "learning_rate": 0.0002,
      "loss": 0.5493411421775818,
      "mean_token_accuracy": 0.7793968617916107,
      "num_tokens": 8057509.0,
      "step": 493
    },
    {
      "entropy": 0.526735208928585,
      "epoch": 1.8432835820895521,
      "grad_norm": 0.1347130686044693,
      "learning_rate": 0.0002,
      "loss": 0.5294213891029358,
      "mean_token_accuracy": 0.783684104681015,
      "num_tokens": 8073599.0,
      "step": 494
    },
    {
      "entropy": 0.5525032877922058,
      "epoch": 1.8470149253731343,
      "grad_norm": 0.14043265581130981,
      "learning_rate": 0.0002,
      "loss": 0.5447618961334229,
      "mean_token_accuracy": 0.7783424258232117,
      "num_tokens": 8089819.0,
      "step": 495
    },
    {
      "entropy": 0.5403036177158356,
      "epoch": 1.8507462686567164,
      "grad_norm": 0.13459749519824982,
      "learning_rate": 0.0002,
      "loss": 0.543724775314331,
      "mean_token_accuracy": 0.7801337391138077,
      "num_tokens": 8106320.0,
      "step": 496
    },
    {
      "entropy": 0.5121283084154129,
      "epoch": 1.8544776119402986,
      "grad_norm": 0.13925622403621674,
      "learning_rate": 0.0002,
      "loss": 0.5182461142539978,
      "mean_token_accuracy": 0.7902320176362991,
      "num_tokens": 8122590.0,
      "step": 497
    },
    {
      "entropy": 0.5341223925352097,
      "epoch": 1.8582089552238807,
      "grad_norm": 0.1333732157945633,
      "learning_rate": 0.0002,
      "loss": 0.5352264642715454,
      "mean_token_accuracy": 0.7827399671077728,
      "num_tokens": 8138922.0,
      "step": 498
    },
    {
      "entropy": 0.5457236468791962,
      "epoch": 1.8619402985074627,
      "grad_norm": 0.13741785287857056,
      "learning_rate": 0.0002,
      "loss": 0.5454993844032288,
      "mean_token_accuracy": 0.7798125892877579,
      "num_tokens": 8155306.0,
      "step": 499
    },
    {
      "entropy": 0.5553978830575943,
      "epoch": 1.8656716417910446,
      "grad_norm": 0.12911130487918854,
      "learning_rate": 0.0002,
      "loss": 0.5489829778671265,
      "mean_token_accuracy": 0.7798224687576294,
      "num_tokens": 8171560.0,
      "step": 500
    },
    {
      "entropy": 0.5366699695587158,
      "epoch": 1.8694029850746268,
      "grad_norm": 0.14433807134628296,
      "learning_rate": 0.0002,
      "loss": 0.5305231213569641,
      "mean_token_accuracy": 0.7864150553941727,
      "num_tokens": 8188037.0,
      "step": 501
    },
    {
      "entropy": 0.5387077182531357,
      "epoch": 1.873134328358209,
      "grad_norm": 0.14472654461860657,
      "learning_rate": 0.0002,
      "loss": 0.5373876094818115,
      "mean_token_accuracy": 0.7849652767181396,
      "num_tokens": 8204628.0,
      "step": 502
    },
    {
      "entropy": 0.5305859744548798,
      "epoch": 1.876865671641791,
      "grad_norm": 0.16016830503940582,
      "learning_rate": 0.0002,
      "loss": 0.5409325361251831,
      "mean_token_accuracy": 0.7806791961193085,
      "num_tokens": 8220902.0,
      "step": 503
    },
    {
      "entropy": 0.5299341380596161,
      "epoch": 1.8805970149253732,
      "grad_norm": 0.15263962745666504,
      "learning_rate": 0.0002,
      "loss": 0.5375992655754089,
      "mean_token_accuracy": 0.781559944152832,
      "num_tokens": 8237185.0,
      "step": 504
    },
    {
      "entropy": 0.5437009185552597,
      "epoch": 1.8843283582089554,
      "grad_norm": 0.15553534030914307,
      "learning_rate": 0.0002,
      "loss": 0.5443401336669922,
      "mean_token_accuracy": 0.7812230437994003,
      "num_tokens": 8253677.0,
      "step": 505
    },
    {
      "entropy": 0.5481602549552917,
      "epoch": 1.8880597014925373,
      "grad_norm": 0.14724990725517273,
      "learning_rate": 0.0002,
      "loss": 0.540518581867218,
      "mean_token_accuracy": 0.7784458547830582,
      "num_tokens": 8270080.0,
      "step": 506
    },
    {
      "entropy": 0.5473358333110809,
      "epoch": 1.8917910447761193,
      "grad_norm": 0.13046710193157196,
      "learning_rate": 0.0002,
      "loss": 0.5379562973976135,
      "mean_token_accuracy": 0.7840885818004608,
      "num_tokens": 8286417.0,
      "step": 507
    },
    {
      "entropy": 0.5339422821998596,
      "epoch": 1.8955223880597014,
      "grad_norm": 0.11970847100019455,
      "learning_rate": 0.0002,
      "loss": 0.531002402305603,
      "mean_token_accuracy": 0.7831601500511169,
      "num_tokens": 8302558.0,
      "step": 508
    },
    {
      "entropy": 0.5296764224767685,
      "epoch": 1.8992537313432836,
      "grad_norm": 0.1354552060365677,
      "learning_rate": 0.0002,
      "loss": 0.5331873893737793,
      "mean_token_accuracy": 0.7870133370161057,
      "num_tokens": 8318741.0,
      "step": 509
    },
    {
      "entropy": 0.52724589407444,
      "epoch": 1.9029850746268657,
      "grad_norm": 0.1636589914560318,
      "learning_rate": 0.0002,
      "loss": 0.5382875800132751,
      "mean_token_accuracy": 0.7812641561031342,
      "num_tokens": 8335074.0,
      "step": 510
    },
    {
      "entropy": 0.5487582981586456,
      "epoch": 1.9067164179104479,
      "grad_norm": 0.15405811369419098,
      "learning_rate": 0.0002,
      "loss": 0.5569562315940857,
      "mean_token_accuracy": 0.775174006819725,
      "num_tokens": 8351357.0,
      "step": 511
    },
    {
      "entropy": 0.5199541226029396,
      "epoch": 1.9104477611940298,
      "grad_norm": 0.13167649507522583,
      "learning_rate": 0.0002,
      "loss": 0.5217406749725342,
      "mean_token_accuracy": 0.788948193192482,
      "num_tokens": 8367452.0,
      "step": 512
    },
    {
      "entropy": 0.5357903987169266,
      "epoch": 1.914179104477612,
      "grad_norm": 0.12568941712379456,
      "learning_rate": 0.0002,
      "loss": 0.5307230949401855,
      "mean_token_accuracy": 0.7828755676746368,
      "num_tokens": 8383786.0,
      "step": 513
    },
    {
      "entropy": 0.5289642512798309,
      "epoch": 1.917910447761194,
      "grad_norm": 0.130939319729805,
      "learning_rate": 0.0002,
      "loss": 0.5241107940673828,
      "mean_token_accuracy": 0.786993533372879,
      "num_tokens": 8400005.0,
      "step": 514
    },
    {
      "entropy": 0.5548314303159714,
      "epoch": 1.921641791044776,
      "grad_norm": 0.1255977749824524,
      "learning_rate": 0.0002,
      "loss": 0.5506734848022461,
      "mean_token_accuracy": 0.7779561877250671,
      "num_tokens": 8416502.0,
      "step": 515
    },
    {
      "entropy": 0.5388498157262802,
      "epoch": 1.9253731343283582,
      "grad_norm": 0.13658908009529114,
      "learning_rate": 0.0002,
      "loss": 0.5440253615379333,
      "mean_token_accuracy": 0.7802704125642776,
      "num_tokens": 8432771.0,
      "step": 516
    },
    {
      "entropy": 0.5444848537445068,
      "epoch": 1.9291044776119404,
      "grad_norm": 0.1361331045627594,
      "learning_rate": 0.0002,
      "loss": 0.5464693903923035,
      "mean_token_accuracy": 0.7777076661586761,
      "num_tokens": 8449261.0,
      "step": 517
    },
    {
      "entropy": 0.545665979385376,
      "epoch": 1.9328358208955225,
      "grad_norm": 0.1317397505044937,
      "learning_rate": 0.0002,
      "loss": 0.5444501638412476,
      "mean_token_accuracy": 0.7814345061779022,
      "num_tokens": 8465832.0,
      "step": 518
    },
    {
      "entropy": 0.5405286103487015,
      "epoch": 1.9365671641791045,
      "grad_norm": 0.13252875208854675,
      "learning_rate": 0.0002,
      "loss": 0.5404050946235657,
      "mean_token_accuracy": 0.780963346362114,
      "num_tokens": 8482176.0,
      "step": 519
    },
    {
      "entropy": 0.5433270484209061,
      "epoch": 1.9402985074626866,
      "grad_norm": 0.13105268776416779,
      "learning_rate": 0.0002,
      "loss": 0.5479311943054199,
      "mean_token_accuracy": 0.7770702540874481,
      "num_tokens": 8498438.0,
      "step": 520
    },
    {
      "entropy": 0.5341716408729553,
      "epoch": 1.9440298507462686,
      "grad_norm": 0.14269208908081055,
      "learning_rate": 0.0002,
      "loss": 0.535066545009613,
      "mean_token_accuracy": 0.7825455218553543,
      "num_tokens": 8514674.0,
      "step": 521
    },
    {
      "entropy": 0.5395411849021912,
      "epoch": 1.9477611940298507,
      "grad_norm": 0.13277186453342438,
      "learning_rate": 0.0002,
      "loss": 0.5376089215278625,
      "mean_token_accuracy": 0.7824221551418304,
      "num_tokens": 8530963.0,
      "step": 522
    },
    {
      "entropy": 0.5529618561267853,
      "epoch": 1.9514925373134329,
      "grad_norm": 0.1381501704454422,
      "learning_rate": 0.0002,
      "loss": 0.5493215918540955,
      "mean_token_accuracy": 0.779175415635109,
      "num_tokens": 8547488.0,
      "step": 523
    },
    {
      "entropy": 0.5260922610759735,
      "epoch": 1.955223880597015,
      "grad_norm": 0.1598714143037796,
      "learning_rate": 0.0002,
      "loss": 0.5309720039367676,
      "mean_token_accuracy": 0.7842647433280945,
      "num_tokens": 8564003.0,
      "step": 524
    },
    {
      "entropy": 0.5258769541978836,
      "epoch": 1.9589552238805972,
      "grad_norm": 0.1397145837545395,
      "learning_rate": 0.0002,
      "loss": 0.533185601234436,
      "mean_token_accuracy": 0.7819601446390152,
      "num_tokens": 8580280.0,
      "step": 525
    },
    {
      "entropy": 0.5250103250145912,
      "epoch": 1.962686567164179,
      "grad_norm": 0.19406840205192566,
      "learning_rate": 0.0002,
      "loss": 0.5373009443283081,
      "mean_token_accuracy": 0.7827760279178619,
      "num_tokens": 8596181.0,
      "step": 526
    },
    {
      "entropy": 0.556450217962265,
      "epoch": 1.966417910447761,
      "grad_norm": 0.13848020136356354,
      "learning_rate": 0.0002,
      "loss": 0.5526891946792603,
      "mean_token_accuracy": 0.7767400592565536,
      "num_tokens": 8612545.0,
      "step": 527
    },
    {
      "entropy": 0.5524493604898453,
      "epoch": 1.9701492537313432,
      "grad_norm": 0.13262905180454254,
      "learning_rate": 0.0002,
      "loss": 0.5456893444061279,
      "mean_token_accuracy": 0.7794637978076935,
      "num_tokens": 8628708.0,
      "step": 528
    },
    {
      "entropy": 0.5483785569667816,
      "epoch": 1.9738805970149254,
      "grad_norm": 0.13305608928203583,
      "learning_rate": 0.0002,
      "loss": 0.5419108271598816,
      "mean_token_accuracy": 0.7776815295219421,
      "num_tokens": 8645353.0,
      "step": 529
    },
    {
      "entropy": 0.5357464104890823,
      "epoch": 1.9776119402985075,
      "grad_norm": 0.18632404506206512,
      "learning_rate": 0.0002,
      "loss": 0.538067102432251,
      "mean_token_accuracy": 0.7834661602973938,
      "num_tokens": 8661338.0,
      "step": 530
    },
    {
      "entropy": 0.5424002707004547,
      "epoch": 1.9813432835820897,
      "grad_norm": 0.14013341069221497,
      "learning_rate": 0.0002,
      "loss": 0.5498412251472473,
      "mean_token_accuracy": 0.7779710739850998,
      "num_tokens": 8677558.0,
      "step": 531
    },
    {
      "entropy": 0.5473677217960358,
      "epoch": 1.9850746268656716,
      "grad_norm": 0.16677168011665344,
      "learning_rate": 0.0002,
      "loss": 0.5508783459663391,
      "mean_token_accuracy": 0.7754979729652405,
      "num_tokens": 8693871.0,
      "step": 532
    },
    {
      "entropy": 0.5417899936437607,
      "epoch": 1.9888059701492538,
      "grad_norm": 0.13049523532390594,
      "learning_rate": 0.0002,
      "loss": 0.5387138724327087,
      "mean_token_accuracy": 0.7801752388477325,
      "num_tokens": 8710295.0,
      "step": 533
    },
    {
      "entropy": 0.539973795413971,
      "epoch": 1.9925373134328357,
      "grad_norm": 0.13125836849212646,
      "learning_rate": 0.0002,
      "loss": 0.5384909510612488,
      "mean_token_accuracy": 0.7825180888175964,
      "num_tokens": 8726574.0,
      "step": 534
    },
    {
      "entropy": 0.5503594130277634,
      "epoch": 1.9962686567164178,
      "grad_norm": 0.13576547801494598,
      "learning_rate": 0.0002,
      "loss": 0.5558905005455017,
      "mean_token_accuracy": 0.7731243073940277,
      "num_tokens": 8742903.0,
      "step": 535
    },
    {
      "entropy": 0.5420230776071548,
      "epoch": 2.0,
      "grad_norm": 0.13022863864898682,
      "learning_rate": 0.0002,
      "loss": 0.5468026399612427,
      "mean_token_accuracy": 0.7781520336866379,
      "num_tokens": 8759542.0,
      "step": 536
    },
    {
      "entropy": 0.5381979197263718,
      "epoch": 2.003731343283582,
      "grad_norm": 0.14043375849723816,
      "learning_rate": 0.0002,
      "loss": 0.527134358882904,
      "mean_token_accuracy": 0.7864610850811005,
      "num_tokens": 8775884.0,
      "step": 537
    },
    {
      "entropy": 0.5298552364110947,
      "epoch": 2.0074626865671643,
      "grad_norm": 0.15086792409420013,
      "learning_rate": 0.0002,
      "loss": 0.525084912776947,
      "mean_token_accuracy": 0.7869725525379181,
      "num_tokens": 8792092.0,
      "step": 538
    },
    {
      "entropy": 0.5192188173532486,
      "epoch": 2.0111940298507465,
      "grad_norm": 0.19961106777191162,
      "learning_rate": 0.0002,
      "loss": 0.5296894907951355,
      "mean_token_accuracy": 0.7826270759105682,
      "num_tokens": 8808558.0,
      "step": 539
    },
    {
      "entropy": 0.5123308524489403,
      "epoch": 2.014925373134328,
      "grad_norm": 0.19111908972263336,
      "learning_rate": 0.0002,
      "loss": 0.5212836265563965,
      "mean_token_accuracy": 0.789938747882843,
      "num_tokens": 8824957.0,
      "step": 540
    },
    {
      "entropy": 0.5178431421518326,
      "epoch": 2.0186567164179103,
      "grad_norm": 0.19028709828853607,
      "learning_rate": 0.0002,
      "loss": 0.5238035917282104,
      "mean_token_accuracy": 0.7860684394836426,
      "num_tokens": 8841440.0,
      "step": 541
    },
    {
      "entropy": 0.531784176826477,
      "epoch": 2.0223880597014925,
      "grad_norm": 0.15052154660224915,
      "learning_rate": 0.0002,
      "loss": 0.5242434144020081,
      "mean_token_accuracy": 0.7872632443904877,
      "num_tokens": 8857544.0,
      "step": 542
    },
    {
      "entropy": 0.523473396897316,
      "epoch": 2.0261194029850746,
      "grad_norm": 0.16107355058193207,
      "learning_rate": 0.0002,
      "loss": 0.5132102966308594,
      "mean_token_accuracy": 0.7902694642543793,
      "num_tokens": 8873855.0,
      "step": 543
    },
    {
      "entropy": 0.5190383419394493,
      "epoch": 2.029850746268657,
      "grad_norm": 0.1708311289548874,
      "learning_rate": 0.0002,
      "loss": 0.5148621797561646,
      "mean_token_accuracy": 0.7895102798938751,
      "num_tokens": 8890117.0,
      "step": 544
    },
    {
      "entropy": 0.529280424118042,
      "epoch": 2.033582089552239,
      "grad_norm": 0.16680803894996643,
      "learning_rate": 0.0002,
      "loss": 0.5307912826538086,
      "mean_token_accuracy": 0.7853487432003021,
      "num_tokens": 8906392.0,
      "step": 545
    },
    {
      "entropy": 0.49614501744508743,
      "epoch": 2.0373134328358207,
      "grad_norm": 0.1503826081752777,
      "learning_rate": 0.0002,
      "loss": 0.5012757182121277,
      "mean_token_accuracy": 0.7970542311668396,
      "num_tokens": 8922509.0,
      "step": 546
    },
    {
      "entropy": 0.509469673037529,
      "epoch": 2.041044776119403,
      "grad_norm": 0.15220946073532104,
      "learning_rate": 0.0002,
      "loss": 0.5193155407905579,
      "mean_token_accuracy": 0.7900224179029465,
      "num_tokens": 8938730.0,
      "step": 547
    },
    {
      "entropy": 0.5206529274582863,
      "epoch": 2.044776119402985,
      "grad_norm": 0.15667758882045746,
      "learning_rate": 0.0002,
      "loss": 0.5237014293670654,
      "mean_token_accuracy": 0.7895828038454056,
      "num_tokens": 8955181.0,
      "step": 548
    },
    {
      "entropy": 0.5195223838090897,
      "epoch": 2.048507462686567,
      "grad_norm": 0.1412286013364792,
      "learning_rate": 0.0002,
      "loss": 0.5065000653266907,
      "mean_token_accuracy": 0.7948807328939438,
      "num_tokens": 8971652.0,
      "step": 549
    },
    {
      "entropy": 0.5343464240431786,
      "epoch": 2.0522388059701493,
      "grad_norm": 0.17040982842445374,
      "learning_rate": 0.0002,
      "loss": 0.5262223482131958,
      "mean_token_accuracy": 0.7864163517951965,
      "num_tokens": 8987886.0,
      "step": 550
    },
    {
      "entropy": 0.5151650607585907,
      "epoch": 2.0559701492537314,
      "grad_norm": 0.18324047327041626,
      "learning_rate": 0.0002,
      "loss": 0.5181486010551453,
      "mean_token_accuracy": 0.7915034592151642,
      "num_tokens": 9004065.0,
      "step": 551
    },
    {
      "entropy": 0.5399871617555618,
      "epoch": 2.0597014925373136,
      "grad_norm": 0.18549422919750214,
      "learning_rate": 0.0002,
      "loss": 0.5452507138252258,
      "mean_token_accuracy": 0.7797505408525467,
      "num_tokens": 9020548.0,
      "step": 552
    },
    {
      "entropy": 0.5106882750988007,
      "epoch": 2.0634328358208953,
      "grad_norm": 0.18570005893707275,
      "learning_rate": 0.0002,
      "loss": 0.5167975425720215,
      "mean_token_accuracy": 0.7912678271532059,
      "num_tokens": 9036842.0,
      "step": 553
    },
    {
      "entropy": 0.5242500603199005,
      "epoch": 2.0671641791044775,
      "grad_norm": 0.16008509695529938,
      "learning_rate": 0.0002,
      "loss": 0.5222814083099365,
      "mean_token_accuracy": 0.7895151823759079,
      "num_tokens": 9053207.0,
      "step": 554
    },
    {
      "entropy": 0.5202578157186508,
      "epoch": 2.0708955223880596,
      "grad_norm": 0.158061683177948,
      "learning_rate": 0.0002,
      "loss": 0.510570228099823,
      "mean_token_accuracy": 0.7938546240329742,
      "num_tokens": 9069710.0,
      "step": 555
    },
    {
      "entropy": 0.5159406885504723,
      "epoch": 2.074626865671642,
      "grad_norm": 0.1673257201910019,
      "learning_rate": 0.0002,
      "loss": 0.5130877494812012,
      "mean_token_accuracy": 0.7952297329902649,
      "num_tokens": 9085896.0,
      "step": 556
    },
    {
      "entropy": 0.5333143472671509,
      "epoch": 2.078358208955224,
      "grad_norm": 0.1610044240951538,
      "learning_rate": 0.0002,
      "loss": 0.534683108329773,
      "mean_token_accuracy": 0.7838889360427856,
      "num_tokens": 9102330.0,
      "step": 557
    },
    {
      "entropy": 0.5199142321944237,
      "epoch": 2.082089552238806,
      "grad_norm": 0.18822608888149261,
      "learning_rate": 0.0002,
      "loss": 0.5304499864578247,
      "mean_token_accuracy": 0.7855323851108551,
      "num_tokens": 9118702.0,
      "step": 558
    },
    {
      "entropy": 0.5128015950322151,
      "epoch": 2.0858208955223883,
      "grad_norm": 0.16853775084018707,
      "learning_rate": 0.0002,
      "loss": 0.5243670344352722,
      "mean_token_accuracy": 0.7870570570230484,
      "num_tokens": 9135161.0,
      "step": 559
    },
    {
      "entropy": 0.5174604654312134,
      "epoch": 2.08955223880597,
      "grad_norm": 0.1812400370836258,
      "learning_rate": 0.0002,
      "loss": 0.5177437663078308,
      "mean_token_accuracy": 0.7915796935558319,
      "num_tokens": 9151704.0,
      "step": 560
    },
    {
      "entropy": 0.5173925012350082,
      "epoch": 2.093283582089552,
      "grad_norm": 0.1714162975549698,
      "learning_rate": 0.0002,
      "loss": 0.5103091597557068,
      "mean_token_accuracy": 0.7926450222730637,
      "num_tokens": 9167936.0,
      "step": 561
    },
    {
      "entropy": 0.5338417440652847,
      "epoch": 2.0970149253731343,
      "grad_norm": 0.18883411586284637,
      "learning_rate": 0.0002,
      "loss": 0.5264431834220886,
      "mean_token_accuracy": 0.7850892692804337,
      "num_tokens": 9184252.0,
      "step": 562
    },
    {
      "entropy": 0.5227560251951218,
      "epoch": 2.1007462686567164,
      "grad_norm": 0.16431209444999695,
      "learning_rate": 0.0002,
      "loss": 0.5194032192230225,
      "mean_token_accuracy": 0.7891248762607574,
      "num_tokens": 9200663.0,
      "step": 563
    },
    {
      "entropy": 0.5161062777042389,
      "epoch": 2.1044776119402986,
      "grad_norm": 0.19406329095363617,
      "learning_rate": 0.0002,
      "loss": 0.5161796808242798,
      "mean_token_accuracy": 0.7907394468784332,
      "num_tokens": 9216947.0,
      "step": 564
    },
    {
      "entropy": 0.5179730951786041,
      "epoch": 2.1082089552238807,
      "grad_norm": 0.1819450706243515,
      "learning_rate": 0.0002,
      "loss": 0.5243360996246338,
      "mean_token_accuracy": 0.7889621257781982,
      "num_tokens": 9233374.0,
      "step": 565
    },
    {
      "entropy": 0.5069013833999634,
      "epoch": 2.111940298507463,
      "grad_norm": 0.18256594240665436,
      "learning_rate": 0.0002,
      "loss": 0.5135838389396667,
      "mean_token_accuracy": 0.7917103320360184,
      "num_tokens": 9249879.0,
      "step": 566
    },
    {
      "entropy": 0.5135505869984627,
      "epoch": 2.1156716417910446,
      "grad_norm": 0.20573152601718903,
      "learning_rate": 0.0002,
      "loss": 0.5165933966636658,
      "mean_token_accuracy": 0.7909833937883377,
      "num_tokens": 9266246.0,
      "step": 567
    },
    {
      "entropy": 0.5395868420600891,
      "epoch": 2.1194029850746268,
      "grad_norm": 0.18927782773971558,
      "learning_rate": 0.0002,
      "loss": 0.5330281853675842,
      "mean_token_accuracy": 0.7855703681707382,
      "num_tokens": 9282481.0,
      "step": 568
    },
    {
      "entropy": 0.4938410297036171,
      "epoch": 2.123134328358209,
      "grad_norm": 0.19526073336601257,
      "learning_rate": 0.0002,
      "loss": 0.49382245540618896,
      "mean_token_accuracy": 0.7996838092803955,
      "num_tokens": 9298815.0,
      "step": 569
    },
    {
      "entropy": 0.5009667873382568,
      "epoch": 2.126865671641791,
      "grad_norm": 0.16595199704170227,
      "learning_rate": 0.0002,
      "loss": 0.5045086741447449,
      "mean_token_accuracy": 0.7978608906269073,
      "num_tokens": 9315340.0,
      "step": 570
    },
    {
      "entropy": 0.5141628980636597,
      "epoch": 2.1305970149253732,
      "grad_norm": 0.21891801059246063,
      "learning_rate": 0.0002,
      "loss": 0.5266185998916626,
      "mean_token_accuracy": 0.787352979183197,
      "num_tokens": 9331498.0,
      "step": 571
    },
    {
      "entropy": 0.5307284891605377,
      "epoch": 2.1343283582089554,
      "grad_norm": 0.1866699457168579,
      "learning_rate": 0.0002,
      "loss": 0.5273443460464478,
      "mean_token_accuracy": 0.7860653698444366,
      "num_tokens": 9347831.0,
      "step": 572
    },
    {
      "entropy": 0.5239406228065491,
      "epoch": 2.138059701492537,
      "grad_norm": 0.16141167283058167,
      "learning_rate": 0.0002,
      "loss": 0.5189298391342163,
      "mean_token_accuracy": 0.7913686484098434,
      "num_tokens": 9364053.0,
      "step": 573
    },
    {
      "entropy": 0.5423860549926758,
      "epoch": 2.1417910447761193,
      "grad_norm": 0.21419642865657806,
      "learning_rate": 0.0002,
      "loss": 0.5438653826713562,
      "mean_token_accuracy": 0.7800484448671341,
      "num_tokens": 9380482.0,
      "step": 574
    },
    {
      "entropy": 0.5319498926401138,
      "epoch": 2.1455223880597014,
      "grad_norm": 0.15394842624664307,
      "learning_rate": 0.0002,
      "loss": 0.5297288298606873,
      "mean_token_accuracy": 0.7861971110105515,
      "num_tokens": 9396762.0,
      "step": 575
    },
    {
      "entropy": 0.5272255092859268,
      "epoch": 2.1492537313432836,
      "grad_norm": 0.17917747795581818,
      "learning_rate": 0.0002,
      "loss": 0.5221657156944275,
      "mean_token_accuracy": 0.78948013484478,
      "num_tokens": 9412981.0,
      "step": 576
    },
    {
      "entropy": 0.5195171386003494,
      "epoch": 2.1529850746268657,
      "grad_norm": 0.16095657646656036,
      "learning_rate": 0.0002,
      "loss": 0.5160609483718872,
      "mean_token_accuracy": 0.7911281585693359,
      "num_tokens": 9429393.0,
      "step": 577
    },
    {
      "entropy": 0.5020652115345001,
      "epoch": 2.156716417910448,
      "grad_norm": 0.1592203974723816,
      "learning_rate": 0.0002,
      "loss": 0.5017430782318115,
      "mean_token_accuracy": 0.7959037572145462,
      "num_tokens": 9445763.0,
      "step": 578
    },
    {
      "entropy": 0.5353998094797134,
      "epoch": 2.16044776119403,
      "grad_norm": 0.18405838310718536,
      "learning_rate": 0.0002,
      "loss": 0.5360097885131836,
      "mean_token_accuracy": 0.7805107831954956,
      "num_tokens": 9462245.0,
      "step": 579
    },
    {
      "entropy": 0.5231145322322845,
      "epoch": 2.1641791044776117,
      "grad_norm": 0.16262777149677277,
      "learning_rate": 0.0002,
      "loss": 0.5238299369812012,
      "mean_token_accuracy": 0.7883976399898529,
      "num_tokens": 9478792.0,
      "step": 580
    },
    {
      "entropy": 0.5025703385472298,
      "epoch": 2.167910447761194,
      "grad_norm": 0.16886277496814728,
      "learning_rate": 0.0002,
      "loss": 0.5095133185386658,
      "mean_token_accuracy": 0.7930570840835571,
      "num_tokens": 9495042.0,
      "step": 581
    },
    {
      "entropy": 0.5041064321994781,
      "epoch": 2.171641791044776,
      "grad_norm": 0.1545090675354004,
      "learning_rate": 0.0002,
      "loss": 0.5001657605171204,
      "mean_token_accuracy": 0.7950020581483841,
      "num_tokens": 9511399.0,
      "step": 582
    },
    {
      "entropy": 0.533274233341217,
      "epoch": 2.175373134328358,
      "grad_norm": 0.15395475924015045,
      "learning_rate": 0.0002,
      "loss": 0.5321199893951416,
      "mean_token_accuracy": 0.7817400395870209,
      "num_tokens": 9527796.0,
      "step": 583
    },
    {
      "entropy": 0.5225674957036972,
      "epoch": 2.1791044776119404,
      "grad_norm": 0.1874343305826187,
      "learning_rate": 0.0002,
      "loss": 0.5301029682159424,
      "mean_token_accuracy": 0.7839690893888474,
      "num_tokens": 9544098.0,
      "step": 584
    },
    {
      "entropy": 0.5206504017114639,
      "epoch": 2.1828358208955225,
      "grad_norm": 0.18132635951042175,
      "learning_rate": 0.0002,
      "loss": 0.5191587209701538,
      "mean_token_accuracy": 0.7905547767877579,
      "num_tokens": 9560486.0,
      "step": 585
    },
    {
      "entropy": 0.5231298729777336,
      "epoch": 2.1865671641791047,
      "grad_norm": 0.19394823908805847,
      "learning_rate": 0.0002,
      "loss": 0.5234656929969788,
      "mean_token_accuracy": 0.7889635264873505,
      "num_tokens": 9576893.0,
      "step": 586
    },
    {
      "entropy": 0.4975113570690155,
      "epoch": 2.1902985074626864,
      "grad_norm": 0.1897096484899521,
      "learning_rate": 0.0002,
      "loss": 0.5067098736763,
      "mean_token_accuracy": 0.7950832843780518,
      "num_tokens": 9593176.0,
      "step": 587
    },
    {
      "entropy": 0.5182362198829651,
      "epoch": 2.1940298507462686,
      "grad_norm": 0.21101859211921692,
      "learning_rate": 0.0002,
      "loss": 0.5240258574485779,
      "mean_token_accuracy": 0.7852578610181808,
      "num_tokens": 9609529.0,
      "step": 588
    },
    {
      "entropy": 0.5308810174465179,
      "epoch": 2.1977611940298507,
      "grad_norm": 0.15612205862998962,
      "learning_rate": 0.0002,
      "loss": 0.5230595469474792,
      "mean_token_accuracy": 0.7886761873960495,
      "num_tokens": 9626018.0,
      "step": 589
    },
    {
      "entropy": 0.5405040681362152,
      "epoch": 2.201492537313433,
      "grad_norm": 0.16354262828826904,
      "learning_rate": 0.0002,
      "loss": 0.5339536666870117,
      "mean_token_accuracy": 0.7827159017324448,
      "num_tokens": 9642340.0,
      "step": 590
    },
    {
      "entropy": 0.5320803225040436,
      "epoch": 2.205223880597015,
      "grad_norm": 0.1848597228527069,
      "learning_rate": 0.0002,
      "loss": 0.5349913835525513,
      "mean_token_accuracy": 0.7858193665742874,
      "num_tokens": 9658780.0,
      "step": 591
    },
    {
      "entropy": 0.5458312928676605,
      "epoch": 2.208955223880597,
      "grad_norm": 0.16995884478092194,
      "learning_rate": 0.0002,
      "loss": 0.5466773509979248,
      "mean_token_accuracy": 0.7766650468111038,
      "num_tokens": 9675184.0,
      "step": 592
    },
    {
      "entropy": 0.520288422703743,
      "epoch": 2.2126865671641793,
      "grad_norm": 0.17533989250659943,
      "learning_rate": 0.0002,
      "loss": 0.5276610851287842,
      "mean_token_accuracy": 0.7833162993192673,
      "num_tokens": 9691587.0,
      "step": 593
    },
    {
      "entropy": 0.5230257883667946,
      "epoch": 2.216417910447761,
      "grad_norm": 0.1576543152332306,
      "learning_rate": 0.0002,
      "loss": 0.5214830040931702,
      "mean_token_accuracy": 0.7887468189001083,
      "num_tokens": 9707639.0,
      "step": 594
    },
    {
      "entropy": 0.5276977717876434,
      "epoch": 2.220149253731343,
      "grad_norm": 0.16972552239894867,
      "learning_rate": 0.0002,
      "loss": 0.5270232558250427,
      "mean_token_accuracy": 0.7899148017168045,
      "num_tokens": 9723826.0,
      "step": 595
    },
    {
      "entropy": 0.5177433490753174,
      "epoch": 2.2238805970149254,
      "grad_norm": 0.17887970805168152,
      "learning_rate": 0.0002,
      "loss": 0.5160896182060242,
      "mean_token_accuracy": 0.7925579845905304,
      "num_tokens": 9740088.0,
      "step": 596
    },
    {
      "entropy": 0.525688573718071,
      "epoch": 2.2276119402985075,
      "grad_norm": 0.1659506857395172,
      "learning_rate": 0.0002,
      "loss": 0.5277712345123291,
      "mean_token_accuracy": 0.7854456752538681,
      "num_tokens": 9756214.0,
      "step": 597
    },
    {
      "entropy": 0.5137215405702591,
      "epoch": 2.2313432835820897,
      "grad_norm": 0.18150706589221954,
      "learning_rate": 0.0002,
      "loss": 0.5194687247276306,
      "mean_token_accuracy": 0.7904618233442307,
      "num_tokens": 9772511.0,
      "step": 598
    },
    {
      "entropy": 0.529701828956604,
      "epoch": 2.235074626865672,
      "grad_norm": 0.17603962123394012,
      "learning_rate": 0.0002,
      "loss": 0.5309550166130066,
      "mean_token_accuracy": 0.7836979478597641,
      "num_tokens": 9788956.0,
      "step": 599
    },
    {
      "entropy": 0.5346364378929138,
      "epoch": 2.2388059701492535,
      "grad_norm": 0.17556419968605042,
      "learning_rate": 0.0002,
      "loss": 0.5340572595596313,
      "mean_token_accuracy": 0.7827766090631485,
      "num_tokens": 9805350.0,
      "step": 600
    },
    {
      "entropy": 0.5358438938856125,
      "epoch": 2.2425373134328357,
      "grad_norm": 0.19660161435604095,
      "learning_rate": 0.0002,
      "loss": 0.5320678353309631,
      "mean_token_accuracy": 0.7855796813964844,
      "num_tokens": 9821744.0,
      "step": 601
    },
    {
      "entropy": 0.5096235424280167,
      "epoch": 2.246268656716418,
      "grad_norm": 0.15900631248950958,
      "learning_rate": 0.0002,
      "loss": 0.5056334137916565,
      "mean_token_accuracy": 0.7966822683811188,
      "num_tokens": 9837824.0,
      "step": 602
    },
    {
      "entropy": 0.5357042700052261,
      "epoch": 2.25,
      "grad_norm": 0.1657211184501648,
      "learning_rate": 0.0002,
      "loss": 0.5354617238044739,
      "mean_token_accuracy": 0.7830197513103485,
      "num_tokens": 9854305.0,
      "step": 603
    },
    {
      "entropy": 0.5109390839934349,
      "epoch": 2.253731343283582,
      "grad_norm": 0.1763714998960495,
      "learning_rate": 0.0002,
      "loss": 0.5157687664031982,
      "mean_token_accuracy": 0.7923711538314819,
      "num_tokens": 9870793.0,
      "step": 604
    },
    {
      "entropy": 0.5191235095262527,
      "epoch": 2.2574626865671643,
      "grad_norm": 0.20325957238674164,
      "learning_rate": 0.0002,
      "loss": 0.5273858308792114,
      "mean_token_accuracy": 0.7857847660779953,
      "num_tokens": 9887144.0,
      "step": 605
    },
    {
      "entropy": 0.5128894448280334,
      "epoch": 2.2611940298507465,
      "grad_norm": 0.18303951621055603,
      "learning_rate": 0.0002,
      "loss": 0.5150971412658691,
      "mean_token_accuracy": 0.7911935448646545,
      "num_tokens": 9903362.0,
      "step": 606
    },
    {
      "entropy": 0.518405131995678,
      "epoch": 2.264925373134328,
      "grad_norm": 0.16138286888599396,
      "learning_rate": 0.0002,
      "loss": 0.5196152925491333,
      "mean_token_accuracy": 0.7916755676269531,
      "num_tokens": 9919665.0,
      "step": 607
    },
    {
      "entropy": 0.5238161385059357,
      "epoch": 2.2686567164179103,
      "grad_norm": 0.15336841344833374,
      "learning_rate": 0.0002,
      "loss": 0.5234584808349609,
      "mean_token_accuracy": 0.7885531485080719,
      "num_tokens": 9936204.0,
      "step": 608
    },
    {
      "entropy": 0.5139288082718849,
      "epoch": 2.2723880597014925,
      "grad_norm": 0.15460564196109772,
      "learning_rate": 0.0002,
      "loss": 0.516942024230957,
      "mean_token_accuracy": 0.7878196388483047,
      "num_tokens": 9952444.0,
      "step": 609
    },
    {
      "entropy": 0.5144378393888474,
      "epoch": 2.2761194029850746,
      "grad_norm": 0.16456560790538788,
      "learning_rate": 0.0002,
      "loss": 0.5143165588378906,
      "mean_token_accuracy": 0.7900296002626419,
      "num_tokens": 9968772.0,
      "step": 610
    },
    {
      "entropy": 0.5115328878164291,
      "epoch": 2.279850746268657,
      "grad_norm": 0.17883925139904022,
      "learning_rate": 0.0002,
      "loss": 0.5190625190734863,
      "mean_token_accuracy": 0.7872501909732819,
      "num_tokens": 9985174.0,
      "step": 611
    },
    {
      "entropy": 0.535979226231575,
      "epoch": 2.283582089552239,
      "grad_norm": 0.1744793951511383,
      "learning_rate": 0.0002,
      "loss": 0.5318659543991089,
      "mean_token_accuracy": 0.7878114283084869,
      "num_tokens": 10001610.0,
      "step": 612
    },
    {
      "entropy": 0.5348420441150665,
      "epoch": 2.2873134328358207,
      "grad_norm": 0.17023774981498718,
      "learning_rate": 0.0002,
      "loss": 0.5370223522186279,
      "mean_token_accuracy": 0.783968135714531,
      "num_tokens": 10017829.0,
      "step": 613
    },
    {
      "entropy": 0.5138903260231018,
      "epoch": 2.291044776119403,
      "grad_norm": 0.17115749418735504,
      "learning_rate": 0.0002,
      "loss": 0.5157005190849304,
      "mean_token_accuracy": 0.7915801256895065,
      "num_tokens": 10034135.0,
      "step": 614
    },
    {
      "entropy": 0.514953039586544,
      "epoch": 2.294776119402985,
      "grad_norm": 0.1999882459640503,
      "learning_rate": 0.0002,
      "loss": 0.5170516967773438,
      "mean_token_accuracy": 0.7916076630353928,
      "num_tokens": 10050500.0,
      "step": 615
    },
    {
      "entropy": 0.5247506201267242,
      "epoch": 2.298507462686567,
      "grad_norm": 0.16434574127197266,
      "learning_rate": 0.0002,
      "loss": 0.5179375410079956,
      "mean_token_accuracy": 0.7906480133533478,
      "num_tokens": 10066822.0,
      "step": 616
    },
    {
      "entropy": 0.5195427983999252,
      "epoch": 2.3022388059701493,
      "grad_norm": 0.16079425811767578,
      "learning_rate": 0.0002,
      "loss": 0.5192772746086121,
      "mean_token_accuracy": 0.788419172167778,
      "num_tokens": 10083211.0,
      "step": 617
    },
    {
      "entropy": 0.5161983221769333,
      "epoch": 2.3059701492537314,
      "grad_norm": 0.15893937647342682,
      "learning_rate": 0.0002,
      "loss": 0.5151652097702026,
      "mean_token_accuracy": 0.7913366705179214,
      "num_tokens": 10099502.0,
      "step": 618
    },
    {
      "entropy": 0.5129862576723099,
      "epoch": 2.3097014925373136,
      "grad_norm": 0.1990455985069275,
      "learning_rate": 0.0002,
      "loss": 0.5226958394050598,
      "mean_token_accuracy": 0.7890161275863647,
      "num_tokens": 10115875.0,
      "step": 619
    },
    {
      "entropy": 0.5259782820940018,
      "epoch": 2.3134328358208958,
      "grad_norm": 0.17600762844085693,
      "learning_rate": 0.0002,
      "loss": 0.5303045511245728,
      "mean_token_accuracy": 0.784588485956192,
      "num_tokens": 10132329.0,
      "step": 620
    },
    {
      "entropy": 0.5374605804681778,
      "epoch": 2.3171641791044775,
      "grad_norm": 0.15160205960273743,
      "learning_rate": 0.0002,
      "loss": 0.5319960117340088,
      "mean_token_accuracy": 0.7856357097625732,
      "num_tokens": 10148660.0,
      "step": 621
    },
    {
      "entropy": 0.5202681869268417,
      "epoch": 2.3208955223880596,
      "grad_norm": 0.17217791080474854,
      "learning_rate": 0.0002,
      "loss": 0.513685405254364,
      "mean_token_accuracy": 0.7912963330745697,
      "num_tokens": 10164847.0,
      "step": 622
    },
    {
      "entropy": 0.5351561158895493,
      "epoch": 2.324626865671642,
      "grad_norm": 0.16189849376678467,
      "learning_rate": 0.0002,
      "loss": 0.5341706275939941,
      "mean_token_accuracy": 0.7827345281839371,
      "num_tokens": 10181330.0,
      "step": 623
    },
    {
      "entropy": 0.5096163898706436,
      "epoch": 2.328358208955224,
      "grad_norm": 0.17251546680927277,
      "learning_rate": 0.0002,
      "loss": 0.5183389186859131,
      "mean_token_accuracy": 0.7891778647899628,
      "num_tokens": 10197593.0,
      "step": 624
    },
    {
      "entropy": 0.5043528005480766,
      "epoch": 2.332089552238806,
      "grad_norm": 0.19364336133003235,
      "learning_rate": 0.0002,
      "loss": 0.5169776082038879,
      "mean_token_accuracy": 0.792061522603035,
      "num_tokens": 10213821.0,
      "step": 625
    },
    {
      "entropy": 0.5118814930319786,
      "epoch": 2.3358208955223883,
      "grad_norm": 0.21755088865756989,
      "learning_rate": 0.0002,
      "loss": 0.5260127782821655,
      "mean_token_accuracy": 0.7870439440011978,
      "num_tokens": 10229959.0,
      "step": 626
    },
    {
      "entropy": 0.5387731194496155,
      "epoch": 2.33955223880597,
      "grad_norm": 0.15599676966667175,
      "learning_rate": 0.0002,
      "loss": 0.5359347462654114,
      "mean_token_accuracy": 0.7821696400642395,
      "num_tokens": 10246325.0,
      "step": 627
    },
    {
      "entropy": 0.5259936600923538,
      "epoch": 2.343283582089552,
      "grad_norm": 0.17784081399440765,
      "learning_rate": 0.0002,
      "loss": 0.5117411613464355,
      "mean_token_accuracy": 0.7913538813591003,
      "num_tokens": 10262854.0,
      "step": 628
    },
    {
      "entropy": 0.5261276811361313,
      "epoch": 2.3470149253731343,
      "grad_norm": 0.15290921926498413,
      "learning_rate": 0.0002,
      "loss": 0.5141685009002686,
      "mean_token_accuracy": 0.7897167503833771,
      "num_tokens": 10279167.0,
      "step": 629
    },
    {
      "entropy": 0.516872301697731,
      "epoch": 2.3507462686567164,
      "grad_norm": 0.16548150777816772,
      "learning_rate": 0.0002,
      "loss": 0.518975555896759,
      "mean_token_accuracy": 0.7876042425632477,
      "num_tokens": 10295367.0,
      "step": 630
    },
    {
      "entropy": 0.5166520774364471,
      "epoch": 2.3544776119402986,
      "grad_norm": 0.2100355476140976,
      "learning_rate": 0.0002,
      "loss": 0.5216490030288696,
      "mean_token_accuracy": 0.7918855249881744,
      "num_tokens": 10311818.0,
      "step": 631
    },
    {
      "entropy": 0.5158288031816483,
      "epoch": 2.3582089552238807,
      "grad_norm": 0.19722220301628113,
      "learning_rate": 0.0002,
      "loss": 0.5301001667976379,
      "mean_token_accuracy": 0.785649761557579,
      "num_tokens": 10328226.0,
      "step": 632
    },
    {
      "entropy": 0.5121333077549934,
      "epoch": 2.361940298507463,
      "grad_norm": 0.18101061880588531,
      "learning_rate": 0.0002,
      "loss": 0.514575719833374,
      "mean_token_accuracy": 0.7912623584270477,
      "num_tokens": 10344492.0,
      "step": 633
    },
    {
      "entropy": 0.5286690294742584,
      "epoch": 2.3656716417910446,
      "grad_norm": 0.18992973864078522,
      "learning_rate": 0.0002,
      "loss": 0.5238395929336548,
      "mean_token_accuracy": 0.7872939556837082,
      "num_tokens": 10360763.0,
      "step": 634
    },
    {
      "entropy": 0.504866473376751,
      "epoch": 2.3694029850746268,
      "grad_norm": 0.17053747177124023,
      "learning_rate": 0.0002,
      "loss": 0.5018288493156433,
      "mean_token_accuracy": 0.7963565587997437,
      "num_tokens": 10376794.0,
      "step": 635
    },
    {
      "entropy": 0.5348407328128815,
      "epoch": 2.373134328358209,
      "grad_norm": 0.1969325840473175,
      "learning_rate": 0.0002,
      "loss": 0.5392089486122131,
      "mean_token_accuracy": 0.781823992729187,
      "num_tokens": 10393125.0,
      "step": 636
    },
    {
      "entropy": 0.5291974544525146,
      "epoch": 2.376865671641791,
      "grad_norm": 0.19346994161605835,
      "learning_rate": 0.0002,
      "loss": 0.5330736637115479,
      "mean_token_accuracy": 0.781773254275322,
      "num_tokens": 10409537.0,
      "step": 637
    },
    {
      "entropy": 0.5348323583602905,
      "epoch": 2.3805970149253732,
      "grad_norm": 0.18969298899173737,
      "learning_rate": 0.0002,
      "loss": 0.5274794101715088,
      "mean_token_accuracy": 0.787670373916626,
      "num_tokens": 10425973.0,
      "step": 638
    },
    {
      "entropy": 0.5205499678850174,
      "epoch": 2.3843283582089554,
      "grad_norm": 0.17864486575126648,
      "learning_rate": 0.0002,
      "loss": 0.5213812589645386,
      "mean_token_accuracy": 0.7890082150697708,
      "num_tokens": 10442180.0,
      "step": 639
    },
    {
      "entropy": 0.528412714600563,
      "epoch": 2.388059701492537,
      "grad_norm": 0.1959443986415863,
      "learning_rate": 0.0002,
      "loss": 0.534969687461853,
      "mean_token_accuracy": 0.7831798046827316,
      "num_tokens": 10458477.0,
      "step": 640
    },
    {
      "entropy": 0.5136244520545006,
      "epoch": 2.3917910447761193,
      "grad_norm": 0.20498400926589966,
      "learning_rate": 0.0002,
      "loss": 0.511573314666748,
      "mean_token_accuracy": 0.7939646393060684,
      "num_tokens": 10475023.0,
      "step": 641
    },
    {
      "entropy": 0.5202098488807678,
      "epoch": 2.3955223880597014,
      "grad_norm": 0.20506030321121216,
      "learning_rate": 0.0002,
      "loss": 0.5162352919578552,
      "mean_token_accuracy": 0.7906180173158646,
      "num_tokens": 10491313.0,
      "step": 642
    },
    {
      "entropy": 0.5307043790817261,
      "epoch": 2.3992537313432836,
      "grad_norm": 0.17971979081630707,
      "learning_rate": 0.0002,
      "loss": 0.5288392305374146,
      "mean_token_accuracy": 0.7879067957401276,
      "num_tokens": 10507682.0,
      "step": 643
    },
    {
      "entropy": 0.5393616259098053,
      "epoch": 2.4029850746268657,
      "grad_norm": 0.23341259360313416,
      "learning_rate": 0.0002,
      "loss": 0.5383281707763672,
      "mean_token_accuracy": 0.781504288315773,
      "num_tokens": 10524138.0,
      "step": 644
    },
    {
      "entropy": 0.5379284471273422,
      "epoch": 2.406716417910448,
      "grad_norm": 0.16890797019004822,
      "learning_rate": 0.0002,
      "loss": 0.5414294004440308,
      "mean_token_accuracy": 0.7795721143484116,
      "num_tokens": 10540308.0,
      "step": 645
    },
    {
      "entropy": 0.5295774638652802,
      "epoch": 2.41044776119403,
      "grad_norm": 0.2540934085845947,
      "learning_rate": 0.0002,
      "loss": 0.5318943858146667,
      "mean_token_accuracy": 0.7859358042478561,
      "num_tokens": 10556760.0,
      "step": 646
    },
    {
      "entropy": 0.5170229598879814,
      "epoch": 2.4141791044776117,
      "grad_norm": 0.16737528145313263,
      "learning_rate": 0.0002,
      "loss": 0.517413318157196,
      "mean_token_accuracy": 0.7901816219091415,
      "num_tokens": 10573293.0,
      "step": 647
    },
    {
      "entropy": 0.526155412197113,
      "epoch": 2.417910447761194,
      "grad_norm": 0.2225574254989624,
      "learning_rate": 0.0002,
      "loss": 0.529864490032196,
      "mean_token_accuracy": 0.7856150567531586,
      "num_tokens": 10589674.0,
      "step": 648
    },
    {
      "entropy": 0.5266731381416321,
      "epoch": 2.421641791044776,
      "grad_norm": 0.16272951662540436,
      "learning_rate": 0.0002,
      "loss": 0.5234624743461609,
      "mean_token_accuracy": 0.7885357886552811,
      "num_tokens": 10606101.0,
      "step": 649
    },
    {
      "entropy": 0.5251661986112595,
      "epoch": 2.425373134328358,
      "grad_norm": 0.17834821343421936,
      "learning_rate": 0.0002,
      "loss": 0.5261815190315247,
      "mean_token_accuracy": 0.7859483957290649,
      "num_tokens": 10622240.0,
      "step": 650
    },
    {
      "entropy": 0.5259936600923538,
      "epoch": 2.4291044776119404,
      "grad_norm": 0.16211281716823578,
      "learning_rate": 0.0002,
      "loss": 0.5267058610916138,
      "mean_token_accuracy": 0.7840430587530136,
      "num_tokens": 10638728.0,
      "step": 651
    },
    {
      "entropy": 0.5017556846141815,
      "epoch": 2.4328358208955225,
      "grad_norm": 0.3111971616744995,
      "learning_rate": 0.0002,
      "loss": 0.5085122585296631,
      "mean_token_accuracy": 0.7949473708868027,
      "num_tokens": 10654954.0,
      "step": 652
    },
    {
      "entropy": 0.53680419921875,
      "epoch": 2.4365671641791042,
      "grad_norm": 0.17920435965061188,
      "learning_rate": 0.0002,
      "loss": 0.5438150763511658,
      "mean_token_accuracy": 0.7806514501571655,
      "num_tokens": 10671142.0,
      "step": 653
    },
    {
      "entropy": 0.5328411310911179,
      "epoch": 2.4402985074626864,
      "grad_norm": 0.36842888593673706,
      "learning_rate": 0.0002,
      "loss": 0.5365176200866699,
      "mean_token_accuracy": 0.7864848077297211,
      "num_tokens": 10687527.0,
      "step": 654
    },
    {
      "entropy": 0.5214048027992249,
      "epoch": 2.4440298507462686,
      "grad_norm": 0.15488730370998383,
      "learning_rate": 0.0002,
      "loss": 0.5212221145629883,
      "mean_token_accuracy": 0.7904541194438934,
      "num_tokens": 10703637.0,
      "step": 655
    },
    {
      "entropy": 0.5198699831962585,
      "epoch": 2.4477611940298507,
      "grad_norm": 0.17918945848941803,
      "learning_rate": 0.0002,
      "loss": 0.5142287015914917,
      "mean_token_accuracy": 0.7930866479873657,
      "num_tokens": 10719755.0,
      "step": 656
    },
    {
      "entropy": 0.5371468216180801,
      "epoch": 2.451492537313433,
      "grad_norm": 0.17966963350772858,
      "learning_rate": 0.0002,
      "loss": 0.5387783050537109,
      "mean_token_accuracy": 0.7836030423641205,
      "num_tokens": 10736159.0,
      "step": 657
    },
    {
      "entropy": 0.523772120475769,
      "epoch": 2.455223880597015,
      "grad_norm": 0.17708872258663177,
      "learning_rate": 0.0002,
      "loss": 0.5304325819015503,
      "mean_token_accuracy": 0.7857228368520737,
      "num_tokens": 10752300.0,
      "step": 658
    },
    {
      "entropy": 0.5180701240897179,
      "epoch": 2.458955223880597,
      "grad_norm": 0.18428592383861542,
      "learning_rate": 0.0002,
      "loss": 0.5193667411804199,
      "mean_token_accuracy": 0.7911625355482101,
      "num_tokens": 10768483.0,
      "step": 659
    },
    {
      "entropy": 0.528245247900486,
      "epoch": 2.4626865671641793,
      "grad_norm": 0.1747596561908722,
      "learning_rate": 0.0002,
      "loss": 0.5231127142906189,
      "mean_token_accuracy": 0.7906267046928406,
      "num_tokens": 10784872.0,
      "step": 660
    },
    {
      "entropy": 0.5145193934440613,
      "epoch": 2.466417910447761,
      "grad_norm": 0.16311223804950714,
      "learning_rate": 0.0002,
      "loss": 0.5083698630332947,
      "mean_token_accuracy": 0.7954908460378647,
      "num_tokens": 10801264.0,
      "step": 661
    },
    {
      "entropy": 0.5249892026185989,
      "epoch": 2.470149253731343,
      "grad_norm": 0.15471886098384857,
      "learning_rate": 0.0002,
      "loss": 0.5246090292930603,
      "mean_token_accuracy": 0.7875058203935623,
      "num_tokens": 10817509.0,
      "step": 662
    },
    {
      "entropy": 0.5209084749221802,
      "epoch": 2.4738805970149254,
      "grad_norm": 0.17972545325756073,
      "learning_rate": 0.0002,
      "loss": 0.5200228095054626,
      "mean_token_accuracy": 0.7910773009061813,
      "num_tokens": 10833875.0,
      "step": 663
    },
    {
      "entropy": 0.5148312151432037,
      "epoch": 2.4776119402985075,
      "grad_norm": 0.20573753118515015,
      "learning_rate": 0.0002,
      "loss": 0.5257189273834229,
      "mean_token_accuracy": 0.7857212275266647,
      "num_tokens": 10849915.0,
      "step": 664
    },
    {
      "entropy": 0.5218161419034004,
      "epoch": 2.4813432835820897,
      "grad_norm": 0.18017825484275818,
      "learning_rate": 0.0002,
      "loss": 0.5281471014022827,
      "mean_token_accuracy": 0.7845035791397095,
      "num_tokens": 10866228.0,
      "step": 665
    },
    {
      "entropy": 0.5220426917076111,
      "epoch": 2.485074626865672,
      "grad_norm": 0.16190138459205627,
      "learning_rate": 0.0002,
      "loss": 0.521308183670044,
      "mean_token_accuracy": 0.7905032187700272,
      "num_tokens": 10882941.0,
      "step": 666
    },
    {
      "entropy": 0.5130190551280975,
      "epoch": 2.4888059701492535,
      "grad_norm": 0.17984949052333832,
      "learning_rate": 0.0002,
      "loss": 0.5067973732948303,
      "mean_token_accuracy": 0.7954512685537338,
      "num_tokens": 10899165.0,
      "step": 667
    },
    {
      "entropy": 0.5297238677740097,
      "epoch": 2.4925373134328357,
      "grad_norm": 0.15996725857257843,
      "learning_rate": 0.0002,
      "loss": 0.5296366810798645,
      "mean_token_accuracy": 0.785218670964241,
      "num_tokens": 10915443.0,
      "step": 668
    },
    {
      "entropy": 0.4974808022379875,
      "epoch": 2.496268656716418,
      "grad_norm": 0.1793019324541092,
      "learning_rate": 0.0002,
      "loss": 0.4990445077419281,
      "mean_token_accuracy": 0.7966191321611404,
      "num_tokens": 10931711.0,
      "step": 669
    },
    {
      "entropy": 0.5239012390375137,
      "epoch": 2.5,
      "grad_norm": 0.19087010622024536,
      "learning_rate": 0.0002,
      "loss": 0.5348339676856995,
      "mean_token_accuracy": 0.7859302014112473,
      "num_tokens": 10948023.0,
      "step": 670
    },
    {
      "entropy": 0.502729706466198,
      "epoch": 2.503731343283582,
      "grad_norm": 0.17360597848892212,
      "learning_rate": 0.0002,
      "loss": 0.5077179074287415,
      "mean_token_accuracy": 0.7953527718782425,
      "num_tokens": 10964233.0,
      "step": 671
    },
    {
      "entropy": 0.5206915363669395,
      "epoch": 2.5074626865671643,
      "grad_norm": 0.19746483862400055,
      "learning_rate": 0.0002,
      "loss": 0.5238724946975708,
      "mean_token_accuracy": 0.7870853841304779,
      "num_tokens": 10980379.0,
      "step": 672
    },
    {
      "entropy": 0.5450692474842072,
      "epoch": 2.5111940298507465,
      "grad_norm": 0.20202518999576569,
      "learning_rate": 0.0002,
      "loss": 0.5349087119102478,
      "mean_token_accuracy": 0.7814089059829712,
      "num_tokens": 10996761.0,
      "step": 673
    },
    {
      "entropy": 0.5313533395528793,
      "epoch": 2.5149253731343286,
      "grad_norm": 0.16622328758239746,
      "learning_rate": 0.0002,
      "loss": 0.5273463726043701,
      "mean_token_accuracy": 0.7876841723918915,
      "num_tokens": 11013002.0,
      "step": 674
    },
    {
      "entropy": 0.5233149528503418,
      "epoch": 2.5186567164179103,
      "grad_norm": 0.1762213557958603,
      "learning_rate": 0.0002,
      "loss": 0.5284275412559509,
      "mean_token_accuracy": 0.7885796874761581,
      "num_tokens": 11029461.0,
      "step": 675
    },
    {
      "entropy": 0.5161427110433578,
      "epoch": 2.5223880597014925,
      "grad_norm": 0.1734134405851364,
      "learning_rate": 0.0002,
      "loss": 0.5218281149864197,
      "mean_token_accuracy": 0.7900317013263702,
      "num_tokens": 11045513.0,
      "step": 676
    },
    {
      "entropy": 0.527386263012886,
      "epoch": 2.5261194029850746,
      "grad_norm": 0.18649046123027802,
      "learning_rate": 0.0002,
      "loss": 0.5264036655426025,
      "mean_token_accuracy": 0.7881919145584106,
      "num_tokens": 11061764.0,
      "step": 677
    },
    {
      "entropy": 0.5335260331630707,
      "epoch": 2.529850746268657,
      "grad_norm": 0.16608470678329468,
      "learning_rate": 0.0002,
      "loss": 0.5327720046043396,
      "mean_token_accuracy": 0.7845087051391602,
      "num_tokens": 11077973.0,
      "step": 678
    },
    {
      "entropy": 0.5215242803096771,
      "epoch": 2.533582089552239,
      "grad_norm": 0.16991843283176422,
      "learning_rate": 0.0002,
      "loss": 0.5201636552810669,
      "mean_token_accuracy": 0.7907481640577316,
      "num_tokens": 11094025.0,
      "step": 679
    },
    {
      "entropy": 0.5226395204663277,
      "epoch": 2.5373134328358207,
      "grad_norm": 0.16204343736171722,
      "learning_rate": 0.0002,
      "loss": 0.5192615389823914,
      "mean_token_accuracy": 0.7913714349269867,
      "num_tokens": 11110340.0,
      "step": 680
    },
    {
      "entropy": 0.5280646532773972,
      "epoch": 2.541044776119403,
      "grad_norm": 0.17025548219680786,
      "learning_rate": 0.0002,
      "loss": 0.5243014097213745,
      "mean_token_accuracy": 0.7887150794267654,
      "num_tokens": 11126766.0,
      "step": 681
    },
    {
      "entropy": 0.5295235440135002,
      "epoch": 2.544776119402985,
      "grad_norm": 0.17332811653614044,
      "learning_rate": 0.0002,
      "loss": 0.5264289975166321,
      "mean_token_accuracy": 0.7893000990152359,
      "num_tokens": 11143383.0,
      "step": 682
    },
    {
      "entropy": 0.5350908041000366,
      "epoch": 2.548507462686567,
      "grad_norm": 0.16494929790496826,
      "learning_rate": 0.0002,
      "loss": 0.5385511517524719,
      "mean_token_accuracy": 0.7832952737808228,
      "num_tokens": 11159798.0,
      "step": 683
    },
    {
      "entropy": 0.5189319550991058,
      "epoch": 2.5522388059701493,
      "grad_norm": 0.1749635636806488,
      "learning_rate": 0.0002,
      "loss": 0.5244334936141968,
      "mean_token_accuracy": 0.7889615148305893,
      "num_tokens": 11176116.0,
      "step": 684
    },
    {
      "entropy": 0.5297338515520096,
      "epoch": 2.5559701492537314,
      "grad_norm": 0.16473545134067535,
      "learning_rate": 0.0002,
      "loss": 0.5357664227485657,
      "mean_token_accuracy": 0.7839798331260681,
      "num_tokens": 11192242.0,
      "step": 685
    },
    {
      "entropy": 0.5161855816841125,
      "epoch": 2.5597014925373136,
      "grad_norm": 0.19246211647987366,
      "learning_rate": 0.0002,
      "loss": 0.5211361050605774,
      "mean_token_accuracy": 0.790752574801445,
      "num_tokens": 11208617.0,
      "step": 686
    },
    {
      "entropy": 0.539324015378952,
      "epoch": 2.5634328358208958,
      "grad_norm": 0.16890385746955872,
      "learning_rate": 0.0002,
      "loss": 0.5382983684539795,
      "mean_token_accuracy": 0.7826134711503983,
      "num_tokens": 11225201.0,
      "step": 687
    },
    {
      "entropy": 0.5158891677856445,
      "epoch": 2.5671641791044775,
      "grad_norm": 0.16682742536067963,
      "learning_rate": 0.0002,
      "loss": 0.5142616629600525,
      "mean_token_accuracy": 0.7918410003185272,
      "num_tokens": 11241695.0,
      "step": 688
    },
    {
      "entropy": 0.5267701372504234,
      "epoch": 2.5708955223880596,
      "grad_norm": 0.1687549650669098,
      "learning_rate": 0.0002,
      "loss": 0.5238382816314697,
      "mean_token_accuracy": 0.7866890728473663,
      "num_tokens": 11258089.0,
      "step": 689
    },
    {
      "entropy": 0.5255937725305557,
      "epoch": 2.574626865671642,
      "grad_norm": 0.1738496869802475,
      "learning_rate": 0.0002,
      "loss": 0.5248072147369385,
      "mean_token_accuracy": 0.7852340638637543,
      "num_tokens": 11274450.0,
      "step": 690
    },
    {
      "entropy": 0.5198262184858322,
      "epoch": 2.578358208955224,
      "grad_norm": 0.1690807044506073,
      "learning_rate": 0.0002,
      "loss": 0.5270042419433594,
      "mean_token_accuracy": 0.7855731099843979,
      "num_tokens": 11290865.0,
      "step": 691
    },
    {
      "entropy": 0.5405410379171371,
      "epoch": 2.582089552238806,
      "grad_norm": 0.18134285509586334,
      "learning_rate": 0.0002,
      "loss": 0.5444961786270142,
      "mean_token_accuracy": 0.7780175656080246,
      "num_tokens": 11307409.0,
      "step": 692
    },
    {
      "entropy": 0.5347141325473785,
      "epoch": 2.585820895522388,
      "grad_norm": 0.1676827371120453,
      "learning_rate": 0.0002,
      "loss": 0.5311787724494934,
      "mean_token_accuracy": 0.784485325217247,
      "num_tokens": 11323946.0,
      "step": 693
    },
    {
      "entropy": 0.503664955496788,
      "epoch": 2.58955223880597,
      "grad_norm": 0.17767618596553802,
      "learning_rate": 0.0002,
      "loss": 0.5004390478134155,
      "mean_token_accuracy": 0.7965147197246552,
      "num_tokens": 11340062.0,
      "step": 694
    },
    {
      "entropy": 0.5400541573762894,
      "epoch": 2.593283582089552,
      "grad_norm": 0.17085346579551697,
      "learning_rate": 0.0002,
      "loss": 0.5395094156265259,
      "mean_token_accuracy": 0.781545028090477,
      "num_tokens": 11356660.0,
      "step": 695
    },
    {
      "entropy": 0.5177017226815224,
      "epoch": 2.5970149253731343,
      "grad_norm": 0.169759601354599,
      "learning_rate": 0.0002,
      "loss": 0.515388011932373,
      "mean_token_accuracy": 0.7907217293977737,
      "num_tokens": 11372963.0,
      "step": 696
    },
    {
      "entropy": 0.5352813154459,
      "epoch": 2.6007462686567164,
      "grad_norm": 0.17281876504421234,
      "learning_rate": 0.0002,
      "loss": 0.5351260900497437,
      "mean_token_accuracy": 0.7841326892375946,
      "num_tokens": 11389640.0,
      "step": 697
    },
    {
      "entropy": 0.5045363381505013,
      "epoch": 2.6044776119402986,
      "grad_norm": 0.18615856766700745,
      "learning_rate": 0.0002,
      "loss": 0.5119503736495972,
      "mean_token_accuracy": 0.7933619618415833,
      "num_tokens": 11405795.0,
      "step": 698
    },
    {
      "entropy": 0.521905705332756,
      "epoch": 2.6082089552238807,
      "grad_norm": 0.18743987381458282,
      "learning_rate": 0.0002,
      "loss": 0.5299134850502014,
      "mean_token_accuracy": 0.7850409299135208,
      "num_tokens": 11422045.0,
      "step": 699
    },
    {
      "entropy": 0.5174702405929565,
      "epoch": 2.611940298507463,
      "grad_norm": 0.17414018511772156,
      "learning_rate": 0.0002,
      "loss": 0.5177151560783386,
      "mean_token_accuracy": 0.7891951948404312,
      "num_tokens": 11438392.0,
      "step": 700
    },
    {
      "entropy": 0.5343185365200043,
      "epoch": 2.6156716417910446,
      "grad_norm": 0.17761462926864624,
      "learning_rate": 0.0002,
      "loss": 0.5284934043884277,
      "mean_token_accuracy": 0.7868274599313736,
      "num_tokens": 11455009.0,
      "step": 701
    },
    {
      "entropy": 0.53134885430336,
      "epoch": 2.6194029850746268,
      "grad_norm": 0.16672612726688385,
      "learning_rate": 0.0002,
      "loss": 0.5203122496604919,
      "mean_token_accuracy": 0.7913379818201065,
      "num_tokens": 11471341.0,
      "step": 702
    },
    {
      "entropy": 0.523793414235115,
      "epoch": 2.623134328358209,
      "grad_norm": 0.15720658004283905,
      "learning_rate": 0.0002,
      "loss": 0.5188941359519958,
      "mean_token_accuracy": 0.7898289412260056,
      "num_tokens": 11487565.0,
      "step": 703
    },
    {
      "entropy": 0.5335910320281982,
      "epoch": 2.626865671641791,
      "grad_norm": 0.18207021057605743,
      "learning_rate": 0.0002,
      "loss": 0.5383012294769287,
      "mean_token_accuracy": 0.7841922044754028,
      "num_tokens": 11503932.0,
      "step": 704
    },
    {
      "entropy": 0.5070014595985413,
      "epoch": 2.6305970149253732,
      "grad_norm": 0.18818838894367218,
      "learning_rate": 0.0002,
      "loss": 0.521304726600647,
      "mean_token_accuracy": 0.7882455736398697,
      "num_tokens": 11519876.0,
      "step": 705
    },
    {
      "entropy": 0.5179764032363892,
      "epoch": 2.6343283582089554,
      "grad_norm": 0.16391263902187347,
      "learning_rate": 0.0002,
      "loss": 0.5277372598648071,
      "mean_token_accuracy": 0.7888714224100113,
      "num_tokens": 11536317.0,
      "step": 706
    },
    {
      "entropy": 0.5383756011724472,
      "epoch": 2.638059701492537,
      "grad_norm": 0.20110981166362762,
      "learning_rate": 0.0002,
      "loss": 0.5405253171920776,
      "mean_token_accuracy": 0.7808063477277756,
      "num_tokens": 11552655.0,
      "step": 707
    },
    {
      "entropy": 0.5268357321619987,
      "epoch": 2.6417910447761193,
      "grad_norm": 0.17326846718788147,
      "learning_rate": 0.0002,
      "loss": 0.5239301919937134,
      "mean_token_accuracy": 0.7901074439287186,
      "num_tokens": 11568724.0,
      "step": 708
    },
    {
      "entropy": 0.5407274663448334,
      "epoch": 2.6455223880597014,
      "grad_norm": 0.16851350665092468,
      "learning_rate": 0.0002,
      "loss": 0.5350074172019958,
      "mean_token_accuracy": 0.7861216068267822,
      "num_tokens": 11585225.0,
      "step": 709
    },
    {
      "entropy": 0.5268073230981827,
      "epoch": 2.6492537313432836,
      "grad_norm": 0.19633817672729492,
      "learning_rate": 0.0002,
      "loss": 0.5214436054229736,
      "mean_token_accuracy": 0.7898468226194382,
      "num_tokens": 11601498.0,
      "step": 710
    },
    {
      "entropy": 0.535712480545044,
      "epoch": 2.6529850746268657,
      "grad_norm": 0.15659253299236298,
      "learning_rate": 0.0002,
      "loss": 0.5353400707244873,
      "mean_token_accuracy": 0.7835351228713989,
      "num_tokens": 11617811.0,
      "step": 711
    },
    {
      "entropy": 0.539536863565445,
      "epoch": 2.656716417910448,
      "grad_norm": 0.19012975692749023,
      "learning_rate": 0.0002,
      "loss": 0.5403158068656921,
      "mean_token_accuracy": 0.780579537153244,
      "num_tokens": 11634295.0,
      "step": 712
    },
    {
      "entropy": 0.5134764388203621,
      "epoch": 2.66044776119403,
      "grad_norm": 0.16630828380584717,
      "learning_rate": 0.0002,
      "loss": 0.5213350653648376,
      "mean_token_accuracy": 0.7890530824661255,
      "num_tokens": 11650834.0,
      "step": 713
    },
    {
      "entropy": 0.4917012006044388,
      "epoch": 2.664179104477612,
      "grad_norm": 0.1683693677186966,
      "learning_rate": 0.0002,
      "loss": 0.49927788972854614,
      "mean_token_accuracy": 0.797902062535286,
      "num_tokens": 11667060.0,
      "step": 714
    },
    {
      "entropy": 0.5247212499380112,
      "epoch": 2.667910447761194,
      "grad_norm": 0.17371122539043427,
      "learning_rate": 0.0002,
      "loss": 0.5344932079315186,
      "mean_token_accuracy": 0.783098891377449,
      "num_tokens": 11683574.0,
      "step": 715
    },
    {
      "entropy": 0.5191128477454185,
      "epoch": 2.671641791044776,
      "grad_norm": 0.16527095437049866,
      "learning_rate": 0.0002,
      "loss": 0.5183148384094238,
      "mean_token_accuracy": 0.790424644947052,
      "num_tokens": 11699720.0,
      "step": 716
    },
    {
      "entropy": 0.5185272991657257,
      "epoch": 2.675373134328358,
      "grad_norm": 0.16154323518276215,
      "learning_rate": 0.0002,
      "loss": 0.5092360973358154,
      "mean_token_accuracy": 0.7955475896596909,
      "num_tokens": 11716469.0,
      "step": 717
    },
    {
      "entropy": 0.5372938513755798,
      "epoch": 2.6791044776119404,
      "grad_norm": 0.15932703018188477,
      "learning_rate": 0.0002,
      "loss": 0.5302359461784363,
      "mean_token_accuracy": 0.786151722073555,
      "num_tokens": 11732748.0,
      "step": 718
    },
    {
      "entropy": 0.5596635788679123,
      "epoch": 2.6828358208955225,
      "grad_norm": 0.18202805519104004,
      "learning_rate": 0.0002,
      "loss": 0.5571697950363159,
      "mean_token_accuracy": 0.7754980325698853,
      "num_tokens": 11749150.0,
      "step": 719
    },
    {
      "entropy": 0.5210409909486771,
      "epoch": 2.6865671641791042,
      "grad_norm": 0.1875341236591339,
      "learning_rate": 0.0002,
      "loss": 0.5226970314979553,
      "mean_token_accuracy": 0.7895162850618362,
      "num_tokens": 11765442.0,
      "step": 720
    },
    {
      "entropy": 0.528057724237442,
      "epoch": 2.6902985074626864,
      "grad_norm": 0.16192083060741425,
      "learning_rate": 0.0002,
      "loss": 0.5281423330307007,
      "mean_token_accuracy": 0.788543164730072,
      "num_tokens": 11781875.0,
      "step": 721
    },
    {
      "entropy": 0.5093352198600769,
      "epoch": 2.6940298507462686,
      "grad_norm": 0.15824586153030396,
      "learning_rate": 0.0002,
      "loss": 0.5047670602798462,
      "mean_token_accuracy": 0.7923571020364761,
      "num_tokens": 11798168.0,
      "step": 722
    },
    {
      "entropy": 0.5319179147481918,
      "epoch": 2.6977611940298507,
      "grad_norm": 0.1545802354812622,
      "learning_rate": 0.0002,
      "loss": 0.5334397554397583,
      "mean_token_accuracy": 0.7845843136310577,
      "num_tokens": 11814632.0,
      "step": 723
    },
    {
      "entropy": 0.5133816972374916,
      "epoch": 2.701492537313433,
      "grad_norm": 0.16241911053657532,
      "learning_rate": 0.0002,
      "loss": 0.51878821849823,
      "mean_token_accuracy": 0.7933190315961838,
      "num_tokens": 11831088.0,
      "step": 724
    },
    {
      "entropy": 0.5164139419794083,
      "epoch": 2.705223880597015,
      "grad_norm": 0.14982916414737701,
      "learning_rate": 0.0002,
      "loss": 0.5140745639801025,
      "mean_token_accuracy": 0.7934172451496124,
      "num_tokens": 11847470.0,
      "step": 725
    },
    {
      "entropy": 0.521071195602417,
      "epoch": 2.708955223880597,
      "grad_norm": 0.17015258967876434,
      "learning_rate": 0.0002,
      "loss": 0.5232289433479309,
      "mean_token_accuracy": 0.7887244522571564,
      "num_tokens": 11863757.0,
      "step": 726
    },
    {
      "entropy": 0.5184628516435623,
      "epoch": 2.7126865671641793,
      "grad_norm": 0.1840510219335556,
      "learning_rate": 0.0002,
      "loss": 0.5194827318191528,
      "mean_token_accuracy": 0.7879429012537003,
      "num_tokens": 11880261.0,
      "step": 727
    },
    {
      "entropy": 0.5139294788241386,
      "epoch": 2.716417910447761,
      "grad_norm": 0.19588088989257812,
      "learning_rate": 0.0002,
      "loss": 0.5200832486152649,
      "mean_token_accuracy": 0.7899386137723923,
      "num_tokens": 11896585.0,
      "step": 728
    },
    {
      "entropy": 0.5239543169736862,
      "epoch": 2.720149253731343,
      "grad_norm": 0.20819295942783356,
      "learning_rate": 0.0002,
      "loss": 0.5261701345443726,
      "mean_token_accuracy": 0.7911202013492584,
      "num_tokens": 11912923.0,
      "step": 729
    },
    {
      "entropy": 0.5407283902168274,
      "epoch": 2.7238805970149254,
      "grad_norm": 0.17276515066623688,
      "learning_rate": 0.0002,
      "loss": 0.5370129942893982,
      "mean_token_accuracy": 0.7848152667284012,
      "num_tokens": 11929303.0,
      "step": 730
    },
    {
      "entropy": 0.542425274848938,
      "epoch": 2.7276119402985075,
      "grad_norm": 0.25132983922958374,
      "learning_rate": 0.0002,
      "loss": 0.5359519720077515,
      "mean_token_accuracy": 0.7846331894397736,
      "num_tokens": 11945440.0,
      "step": 731
    },
    {
      "entropy": 0.5357621908187866,
      "epoch": 2.7313432835820897,
      "grad_norm": 0.222070574760437,
      "learning_rate": 0.0002,
      "loss": 0.5348407626152039,
      "mean_token_accuracy": 0.7818550020456314,
      "num_tokens": 11961949.0,
      "step": 732
    },
    {
      "entropy": 0.5185696631669998,
      "epoch": 2.7350746268656714,
      "grad_norm": 0.19711528718471527,
      "learning_rate": 0.0002,
      "loss": 0.5264403223991394,
      "mean_token_accuracy": 0.7884511202573776,
      "num_tokens": 11978063.0,
      "step": 733
    },
    {
      "entropy": 0.516778826713562,
      "epoch": 2.7388059701492535,
      "grad_norm": 0.24369676411151886,
      "learning_rate": 0.0002,
      "loss": 0.5253380537033081,
      "mean_token_accuracy": 0.7903653234243393,
      "num_tokens": 11994278.0,
      "step": 734
    },
    {
      "entropy": 0.5164884254336357,
      "epoch": 2.7425373134328357,
      "grad_norm": 0.18417784571647644,
      "learning_rate": 0.0002,
      "loss": 0.5214477181434631,
      "mean_token_accuracy": 0.789106622338295,
      "num_tokens": 12010558.0,
      "step": 735
    },
    {
      "entropy": 0.5068091601133347,
      "epoch": 2.746268656716418,
      "grad_norm": 0.21942751109600067,
      "learning_rate": 0.0002,
      "loss": 0.513481855392456,
      "mean_token_accuracy": 0.7899149656295776,
      "num_tokens": 12026889.0,
      "step": 736
    },
    {
      "entropy": 0.5316798090934753,
      "epoch": 2.75,
      "grad_norm": 0.1581851989030838,
      "learning_rate": 0.0002,
      "loss": 0.5230653285980225,
      "mean_token_accuracy": 0.7884569317102432,
      "num_tokens": 12043341.0,
      "step": 737
    },
    {
      "entropy": 0.539380818605423,
      "epoch": 2.753731343283582,
      "grad_norm": 0.1578167974948883,
      "learning_rate": 0.0002,
      "loss": 0.5292148590087891,
      "mean_token_accuracy": 0.7852563858032227,
      "num_tokens": 12059848.0,
      "step": 738
    },
    {
      "entropy": 0.5343874096870422,
      "epoch": 2.7574626865671643,
      "grad_norm": 0.19632823765277863,
      "learning_rate": 0.0002,
      "loss": 0.5295359492301941,
      "mean_token_accuracy": 0.783517986536026,
      "num_tokens": 12076134.0,
      "step": 739
    },
    {
      "entropy": 0.5188475027680397,
      "epoch": 2.7611940298507465,
      "grad_norm": 0.16950450837612152,
      "learning_rate": 0.0002,
      "loss": 0.521928071975708,
      "mean_token_accuracy": 0.7883510291576385,
      "num_tokens": 12092406.0,
      "step": 740
    },
    {
      "entropy": 0.5121756568551064,
      "epoch": 2.7649253731343286,
      "grad_norm": 0.20061862468719482,
      "learning_rate": 0.0002,
      "loss": 0.5192751884460449,
      "mean_token_accuracy": 0.7898274064064026,
      "num_tokens": 12108773.0,
      "step": 741
    },
    {
      "entropy": 0.5244594514369965,
      "epoch": 2.7686567164179103,
      "grad_norm": 0.16218306124210358,
      "learning_rate": 0.0002,
      "loss": 0.5296685695648193,
      "mean_token_accuracy": 0.7826414853334427,
      "num_tokens": 12125082.0,
      "step": 742
    },
    {
      "entropy": 0.5244700759649277,
      "epoch": 2.7723880597014925,
      "grad_norm": 0.19114060699939728,
      "learning_rate": 0.0002,
      "loss": 0.5232917070388794,
      "mean_token_accuracy": 0.7893050163984299,
      "num_tokens": 12141570.0,
      "step": 743
    },
    {
      "entropy": 0.5299672707915306,
      "epoch": 2.7761194029850746,
      "grad_norm": 0.15443415939807892,
      "learning_rate": 0.0002,
      "loss": 0.5207250714302063,
      "mean_token_accuracy": 0.7905602306127548,
      "num_tokens": 12157874.0,
      "step": 744
    },
    {
      "entropy": 0.5345348864793777,
      "epoch": 2.779850746268657,
      "grad_norm": 0.1817025989294052,
      "learning_rate": 0.0002,
      "loss": 0.5311155319213867,
      "mean_token_accuracy": 0.785017192363739,
      "num_tokens": 12174053.0,
      "step": 745
    },
    {
      "entropy": 0.5195724815130234,
      "epoch": 2.783582089552239,
      "grad_norm": 0.157354474067688,
      "learning_rate": 0.0002,
      "loss": 0.5159887075424194,
      "mean_token_accuracy": 0.790684700012207,
      "num_tokens": 12190613.0,
      "step": 746
    },
    {
      "entropy": 0.5138278231024742,
      "epoch": 2.7873134328358207,
      "grad_norm": 0.16088353097438812,
      "learning_rate": 0.0002,
      "loss": 0.5184983611106873,
      "mean_token_accuracy": 0.7899224907159805,
      "num_tokens": 12206928.0,
      "step": 747
    },
    {
      "entropy": 0.5161465555429459,
      "epoch": 2.791044776119403,
      "grad_norm": 0.2099459022283554,
      "learning_rate": 0.0002,
      "loss": 0.5232690572738647,
      "mean_token_accuracy": 0.7870688289403915,
      "num_tokens": 12223267.0,
      "step": 748
    },
    {
      "entropy": 0.5158911049365997,
      "epoch": 2.794776119402985,
      "grad_norm": 0.15817788243293762,
      "learning_rate": 0.0002,
      "loss": 0.5168994665145874,
      "mean_token_accuracy": 0.7899310439825058,
      "num_tokens": 12239601.0,
      "step": 749
    },
    {
      "entropy": 0.5070392489433289,
      "epoch": 2.798507462686567,
      "grad_norm": 0.2228090614080429,
      "learning_rate": 0.0002,
      "loss": 0.5200591087341309,
      "mean_token_accuracy": 0.7891372889280319,
      "num_tokens": 12256032.0,
      "step": 750
    },
    {
      "entropy": 0.5438189208507538,
      "epoch": 2.8022388059701493,
      "grad_norm": 0.1719558835029602,
      "learning_rate": 0.0002,
      "loss": 0.5426724553108215,
      "mean_token_accuracy": 0.7774887979030609,
      "num_tokens": 12272514.0,
      "step": 751
    },
    {
      "entropy": 0.519834965467453,
      "epoch": 2.8059701492537314,
      "grad_norm": 0.18933889269828796,
      "learning_rate": 0.0002,
      "loss": 0.523102343082428,
      "mean_token_accuracy": 0.7904316037893295,
      "num_tokens": 12288877.0,
      "step": 752
    },
    {
      "entropy": 0.512350045144558,
      "epoch": 2.8097014925373136,
      "grad_norm": 0.1864548623561859,
      "learning_rate": 0.0002,
      "loss": 0.5090078115463257,
      "mean_token_accuracy": 0.7945949882268906,
      "num_tokens": 12305044.0,
      "step": 753
    },
    {
      "entropy": 0.5358164459466934,
      "epoch": 2.8134328358208958,
      "grad_norm": 0.17895784974098206,
      "learning_rate": 0.0002,
      "loss": 0.5349195003509521,
      "mean_token_accuracy": 0.7841221541166306,
      "num_tokens": 12321579.0,
      "step": 754
    },
    {
      "entropy": 0.5124004110693932,
      "epoch": 2.8171641791044775,
      "grad_norm": 0.17669007182121277,
      "learning_rate": 0.0002,
      "loss": 0.5126450657844543,
      "mean_token_accuracy": 0.7929520756006241,
      "num_tokens": 12338186.0,
      "step": 755
    },
    {
      "entropy": 0.5246561616659164,
      "epoch": 2.8208955223880596,
      "grad_norm": 0.19795700907707214,
      "learning_rate": 0.0002,
      "loss": 0.5288596153259277,
      "mean_token_accuracy": 0.7869751006364822,
      "num_tokens": 12354327.0,
      "step": 756
    },
    {
      "entropy": 0.5311583876609802,
      "epoch": 2.824626865671642,
      "grad_norm": 0.18146470189094543,
      "learning_rate": 0.0002,
      "loss": 0.5294592976570129,
      "mean_token_accuracy": 0.7862387895584106,
      "num_tokens": 12370923.0,
      "step": 757
    },
    {
      "entropy": 0.5319194048643112,
      "epoch": 2.828358208955224,
      "grad_norm": 0.19238857924938202,
      "learning_rate": 0.0002,
      "loss": 0.5317291617393494,
      "mean_token_accuracy": 0.7854786366224289,
      "num_tokens": 12387257.0,
      "step": 758
    },
    {
      "entropy": 0.526064857840538,
      "epoch": 2.832089552238806,
      "grad_norm": 0.1526212990283966,
      "learning_rate": 0.0002,
      "loss": 0.5222187042236328,
      "mean_token_accuracy": 0.7932349592447281,
      "num_tokens": 12403635.0,
      "step": 759
    },
    {
      "entropy": 0.5247229933738708,
      "epoch": 2.835820895522388,
      "grad_norm": 0.2871471047401428,
      "learning_rate": 0.0002,
      "loss": 0.5314409136772156,
      "mean_token_accuracy": 0.7845473885536194,
      "num_tokens": 12420097.0,
      "step": 760
    },
    {
      "entropy": 0.5259681046009064,
      "epoch": 2.83955223880597,
      "grad_norm": 0.1705760359764099,
      "learning_rate": 0.0002,
      "loss": 0.5313333868980408,
      "mean_token_accuracy": 0.787728413939476,
      "num_tokens": 12436382.0,
      "step": 761
    },
    {
      "entropy": 0.5318069308996201,
      "epoch": 2.843283582089552,
      "grad_norm": 0.20162752270698547,
      "learning_rate": 0.0002,
      "loss": 0.5359828472137451,
      "mean_token_accuracy": 0.7834303081035614,
      "num_tokens": 12452497.0,
      "step": 762
    },
    {
      "entropy": 0.5508353263139725,
      "epoch": 2.8470149253731343,
      "grad_norm": 0.161021888256073,
      "learning_rate": 0.0002,
      "loss": 0.5432707667350769,
      "mean_token_accuracy": 0.7808051556348801,
      "num_tokens": 12468969.0,
      "step": 763
    },
    {
      "entropy": 0.5287757962942123,
      "epoch": 2.8507462686567164,
      "grad_norm": 0.2050207257270813,
      "learning_rate": 0.0002,
      "loss": 0.5284628868103027,
      "mean_token_accuracy": 0.7843392193317413,
      "num_tokens": 12485354.0,
      "step": 764
    },
    {
      "entropy": 0.5344215333461761,
      "epoch": 2.8544776119402986,
      "grad_norm": 0.1695808321237564,
      "learning_rate": 0.0002,
      "loss": 0.535874605178833,
      "mean_token_accuracy": 0.782726377248764,
      "num_tokens": 12501936.0,
      "step": 765
    },
    {
      "entropy": 0.522572860121727,
      "epoch": 2.8582089552238807,
      "grad_norm": 0.19520296156406403,
      "learning_rate": 0.0002,
      "loss": 0.5247471332550049,
      "mean_token_accuracy": 0.7886104881763458,
      "num_tokens": 12518330.0,
      "step": 766
    },
    {
      "entropy": 0.5314962714910507,
      "epoch": 2.861940298507463,
      "grad_norm": 0.17423976957798004,
      "learning_rate": 0.0002,
      "loss": 0.5297841429710388,
      "mean_token_accuracy": 0.7862118780612946,
      "num_tokens": 12534665.0,
      "step": 767
    },
    {
      "entropy": 0.5281147062778473,
      "epoch": 2.8656716417910446,
      "grad_norm": 0.18605203926563263,
      "learning_rate": 0.0002,
      "loss": 0.5324077606201172,
      "mean_token_accuracy": 0.787416860461235,
      "num_tokens": 12551009.0,
      "step": 768
    },
    {
      "entropy": 0.5187551081180573,
      "epoch": 2.8694029850746268,
      "grad_norm": 0.1616411954164505,
      "learning_rate": 0.0002,
      "loss": 0.512826144695282,
      "mean_token_accuracy": 0.7936854958534241,
      "num_tokens": 12567387.0,
      "step": 769
    },
    {
      "entropy": 0.5136809647083282,
      "epoch": 2.873134328358209,
      "grad_norm": 0.17406195402145386,
      "learning_rate": 0.0002,
      "loss": 0.5155330300331116,
      "mean_token_accuracy": 0.7908283174037933,
      "num_tokens": 12583985.0,
      "step": 770
    },
    {
      "entropy": 0.5185445547103882,
      "epoch": 2.876865671641791,
      "grad_norm": 0.1833800971508026,
      "learning_rate": 0.0002,
      "loss": 0.5192956328392029,
      "mean_token_accuracy": 0.7888920605182648,
      "num_tokens": 12600193.0,
      "step": 771
    },
    {
      "entropy": 0.5310780256986618,
      "epoch": 2.8805970149253732,
      "grad_norm": 0.2313033938407898,
      "learning_rate": 0.0002,
      "loss": 0.5360459685325623,
      "mean_token_accuracy": 0.7845909744501114,
      "num_tokens": 12616559.0,
      "step": 772
    },
    {
      "entropy": 0.5207322463393211,
      "epoch": 2.8843283582089554,
      "grad_norm": 0.15698477625846863,
      "learning_rate": 0.0002,
      "loss": 0.514286994934082,
      "mean_token_accuracy": 0.789328083395958,
      "num_tokens": 12633075.0,
      "step": 773
    },
    {
      "entropy": 0.5343746095895767,
      "epoch": 2.888059701492537,
      "grad_norm": 0.21191926300525665,
      "learning_rate": 0.0002,
      "loss": 0.5408198833465576,
      "mean_token_accuracy": 0.7812719643115997,
      "num_tokens": 12649414.0,
      "step": 774
    },
    {
      "entropy": 0.5095183849334717,
      "epoch": 2.8917910447761193,
      "grad_norm": 0.1665944755077362,
      "learning_rate": 0.0002,
      "loss": 0.5066861510276794,
      "mean_token_accuracy": 0.7972470223903656,
      "num_tokens": 12665839.0,
      "step": 775
    },
    {
      "entropy": 0.5341623723506927,
      "epoch": 2.8955223880597014,
      "grad_norm": 0.19015316665172577,
      "learning_rate": 0.0002,
      "loss": 0.5310372114181519,
      "mean_token_accuracy": 0.7861314713954926,
      "num_tokens": 12682165.0,
      "step": 776
    },
    {
      "entropy": 0.5464024096727371,
      "epoch": 2.8992537313432836,
      "grad_norm": 0.19810722768306732,
      "learning_rate": 0.0002,
      "loss": 0.5392264723777771,
      "mean_token_accuracy": 0.7843339294195175,
      "num_tokens": 12698576.0,
      "step": 777
    },
    {
      "entropy": 0.5175042897462845,
      "epoch": 2.9029850746268657,
      "grad_norm": 0.16263291239738464,
      "learning_rate": 0.0002,
      "loss": 0.5172262191772461,
      "mean_token_accuracy": 0.792850524187088,
      "num_tokens": 12714766.0,
      "step": 778
    },
    {
      "entropy": 0.5199488997459412,
      "epoch": 2.906716417910448,
      "grad_norm": 0.2083202749490738,
      "learning_rate": 0.0002,
      "loss": 0.5252541899681091,
      "mean_token_accuracy": 0.7852817475795746,
      "num_tokens": 12731205.0,
      "step": 779
    },
    {
      "entropy": 0.4941527247428894,
      "epoch": 2.91044776119403,
      "grad_norm": 0.17050482332706451,
      "learning_rate": 0.0002,
      "loss": 0.4989524185657501,
      "mean_token_accuracy": 0.7972326874732971,
      "num_tokens": 12747594.0,
      "step": 780
    },
    {
      "entropy": 0.5078647658228874,
      "epoch": 2.914179104477612,
      "grad_norm": 0.23199598491191864,
      "learning_rate": 0.0002,
      "loss": 0.5211161971092224,
      "mean_token_accuracy": 0.7884382009506226,
      "num_tokens": 12763932.0,
      "step": 781
    },
    {
      "entropy": 0.5114319175481796,
      "epoch": 2.917910447761194,
      "grad_norm": 0.2023877501487732,
      "learning_rate": 0.0002,
      "loss": 0.5166995525360107,
      "mean_token_accuracy": 0.7941331118345261,
      "num_tokens": 12780023.0,
      "step": 782
    },
    {
      "entropy": 0.5287023633718491,
      "epoch": 2.921641791044776,
      "grad_norm": 0.21876347064971924,
      "learning_rate": 0.0002,
      "loss": 0.5263211727142334,
      "mean_token_accuracy": 0.7864357531070709,
      "num_tokens": 12796441.0,
      "step": 783
    },
    {
      "entropy": 0.5223046839237213,
      "epoch": 2.925373134328358,
      "grad_norm": 0.14650550484657288,
      "learning_rate": 0.0002,
      "loss": 0.5140995979309082,
      "mean_token_accuracy": 0.7916091233491898,
      "num_tokens": 12812793.0,
      "step": 784
    },
    {
      "entropy": 0.5247595310211182,
      "epoch": 2.9291044776119404,
      "grad_norm": 0.25079336762428284,
      "learning_rate": 0.0002,
      "loss": 0.5263584852218628,
      "mean_token_accuracy": 0.786608412861824,
      "num_tokens": 12829172.0,
      "step": 785
    },
    {
      "entropy": 0.5266484171152115,
      "epoch": 2.9328358208955225,
      "grad_norm": 0.16101892292499542,
      "learning_rate": 0.0002,
      "loss": 0.5220364928245544,
      "mean_token_accuracy": 0.7872611582279205,
      "num_tokens": 12845573.0,
      "step": 786
    },
    {
      "entropy": 0.5139588639140129,
      "epoch": 2.9365671641791042,
      "grad_norm": 0.21128332614898682,
      "learning_rate": 0.0002,
      "loss": 0.5196605920791626,
      "mean_token_accuracy": 0.7880596816539764,
      "num_tokens": 12861897.0,
      "step": 787
    },
    {
      "entropy": 0.5052976161241531,
      "epoch": 2.9402985074626864,
      "grad_norm": 0.1861787587404251,
      "learning_rate": 0.0002,
      "loss": 0.5119534134864807,
      "mean_token_accuracy": 0.7939311414957047,
      "num_tokens": 12878193.0,
      "step": 788
    },
    {
      "entropy": 0.5310614109039307,
      "epoch": 2.9440298507462686,
      "grad_norm": 0.1857159435749054,
      "learning_rate": 0.0002,
      "loss": 0.5301690101623535,
      "mean_token_accuracy": 0.786168098449707,
      "num_tokens": 12894935.0,
      "step": 789
    },
    {
      "entropy": 0.5310661867260933,
      "epoch": 2.9477611940298507,
      "grad_norm": 0.18339301645755768,
      "learning_rate": 0.0002,
      "loss": 0.5257419347763062,
      "mean_token_accuracy": 0.788611650466919,
      "num_tokens": 12911289.0,
      "step": 790
    },
    {
      "entropy": 0.5245337337255478,
      "epoch": 2.951492537313433,
      "grad_norm": 0.17652840912342072,
      "learning_rate": 0.0002,
      "loss": 0.5265839099884033,
      "mean_token_accuracy": 0.7901091575622559,
      "num_tokens": 12927670.0,
      "step": 791
    },
    {
      "entropy": 0.5245234072208405,
      "epoch": 2.955223880597015,
      "grad_norm": 0.17611214518547058,
      "learning_rate": 0.0002,
      "loss": 0.5243083834648132,
      "mean_token_accuracy": 0.7856577485799789,
      "num_tokens": 12944015.0,
      "step": 792
    },
    {
      "entropy": 0.5191880911588669,
      "epoch": 2.958955223880597,
      "grad_norm": 0.18345631659030914,
      "learning_rate": 0.0002,
      "loss": 0.5257253050804138,
      "mean_token_accuracy": 0.7881710231304169,
      "num_tokens": 12960131.0,
      "step": 793
    },
    {
      "entropy": 0.5140431523323059,
      "epoch": 2.9626865671641793,
      "grad_norm": 0.2098158448934555,
      "learning_rate": 0.0002,
      "loss": 0.5169271230697632,
      "mean_token_accuracy": 0.786968320608139,
      "num_tokens": 12976187.0,
      "step": 794
    },
    {
      "entropy": 0.5335211008787155,
      "epoch": 2.966417910447761,
      "grad_norm": 0.15838965773582458,
      "learning_rate": 0.0002,
      "loss": 0.5324181318283081,
      "mean_token_accuracy": 0.7819865345954895,
      "num_tokens": 12992461.0,
      "step": 795
    },
    {
      "entropy": 0.5252291113138199,
      "epoch": 2.970149253731343,
      "grad_norm": 0.19166119396686554,
      "learning_rate": 0.0002,
      "loss": 0.5205749869346619,
      "mean_token_accuracy": 0.7911773473024368,
      "num_tokens": 13008737.0,
      "step": 796
    },
    {
      "entropy": 0.5154759585857391,
      "epoch": 2.9738805970149254,
      "grad_norm": 0.16444922983646393,
      "learning_rate": 0.0002,
      "loss": 0.5141779184341431,
      "mean_token_accuracy": 0.7922156006097794,
      "num_tokens": 13025092.0,
      "step": 797
    },
    {
      "entropy": 0.5257436707615852,
      "epoch": 2.9776119402985075,
      "grad_norm": 0.19890975952148438,
      "learning_rate": 0.0002,
      "loss": 0.5353443622589111,
      "mean_token_accuracy": 0.7844508290290833,
      "num_tokens": 13041631.0,
      "step": 798
    },
    {
      "entropy": 0.5554878115653992,
      "epoch": 2.9813432835820897,
      "grad_norm": 0.19347697496414185,
      "learning_rate": 0.0002,
      "loss": 0.5568645596504211,
      "mean_token_accuracy": 0.7741395682096481,
      "num_tokens": 13058045.0,
      "step": 799
    },
    {
      "entropy": 0.5262391567230225,
      "epoch": 2.9850746268656714,
      "grad_norm": 0.17874093353748322,
      "learning_rate": 0.0002,
      "loss": 0.5202043056488037,
      "mean_token_accuracy": 0.7870875149965286,
      "num_tokens": 13074443.0,
      "step": 800
    },
    {
      "entropy": 0.5318054854869843,
      "epoch": 2.9888059701492535,
      "grad_norm": 0.182646706700325,
      "learning_rate": 0.0002,
      "loss": 0.5253685712814331,
      "mean_token_accuracy": 0.786090537905693,
      "num_tokens": 13090582.0,
      "step": 801
    },
    {
      "entropy": 0.5484406352043152,
      "epoch": 2.9925373134328357,
      "grad_norm": 0.15745747089385986,
      "learning_rate": 0.0002,
      "loss": 0.5452413558959961,
      "mean_token_accuracy": 0.7798783183097839,
      "num_tokens": 13106832.0,
      "step": 802
    },
    {
      "entropy": 0.527185246348381,
      "epoch": 2.996268656716418,
      "grad_norm": 0.1789730340242386,
      "learning_rate": 0.0002,
      "loss": 0.5218254923820496,
      "mean_token_accuracy": 0.7895842045545578,
      "num_tokens": 13123002.0,
      "step": 803
    },
    {
      "entropy": 0.5108470022678375,
      "epoch": 3.0,
      "grad_norm": 0.1871774047613144,
      "learning_rate": 0.0002,
      "loss": 0.5190352201461792,
      "mean_token_accuracy": 0.7890540361404419,
      "num_tokens": 13139156.0,
      "step": 804
    }
  ],
  "logging_steps": 1,
  "max_steps": 804,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.2242940510926275e+18,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}