{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 804,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "entropy": 1.138745129108429,
      "epoch": 0.0037313432835820895,
      "grad_norm": 1.7020611763000488,
      "learning_rate": 0.0002,
      "loss": 2.4721007347106934,
      "mean_token_accuracy": 0.5372578650712967,
      "num_tokens": 16325.0,
      "step": 1
    },
    {
      "entropy": 1.2262731790542603,
      "epoch": 0.007462686567164179,
      "grad_norm": 1.5422499179840088,
      "learning_rate": 0.0002,
      "loss": 2.1402571201324463,
      "mean_token_accuracy": 0.5742411762475967,
      "num_tokens": 32666.0,
      "step": 2
    },
    {
      "entropy": 1.409499078989029,
      "epoch": 0.011194029850746268,
      "grad_norm": 1.1927348375320435,
      "learning_rate": 0.0002,
      "loss": 1.7202329635620117,
      "mean_token_accuracy": 0.5956366509199142,
      "num_tokens": 48877.0,
      "step": 3
    },
    {
      "entropy": 1.3392578959465027,
      "epoch": 0.014925373134328358,
      "grad_norm": 0.9159098863601685,
      "learning_rate": 0.0002,
      "loss": 1.3790637254714966,
      "mean_token_accuracy": 0.6494399756193161,
      "num_tokens": 65097.0,
      "step": 4
    },
    {
      "entropy": 1.329741895198822,
      "epoch": 0.018656716417910446,
      "grad_norm": 0.9530413150787354,
      "learning_rate": 0.0002,
      "loss": 1.2827703952789307,
      "mean_token_accuracy": 0.649653822183609,
      "num_tokens": 81423.0,
      "step": 5
    },
    {
      "entropy": 1.2239453792572021,
      "epoch": 0.022388059701492536,
      "grad_norm": 0.45381543040275574,
      "learning_rate": 0.0002,
      "loss": 1.1552369594573975,
      "mean_token_accuracy": 0.6654698848724365,
      "num_tokens": 97674.0,
      "step": 6
    },
    {
      "entropy": 1.1408285796642303,
      "epoch": 0.026119402985074626,
      "grad_norm": 0.40323638916015625,
      "learning_rate": 0.0002,
      "loss": 1.063366413116455,
      "mean_token_accuracy": 0.6731287389993668,
      "num_tokens": 114207.0,
      "step": 7
    },
    {
      "entropy": 1.0467455089092255,
      "epoch": 0.029850746268656716,
      "grad_norm": 0.4862216114997864,
      "learning_rate": 0.0002,
      "loss": 0.9919917583465576,
      "mean_token_accuracy": 0.6862917095422745,
      "num_tokens": 130364.0,
      "step": 8
    },
    {
      "entropy": 0.9914536625146866,
      "epoch": 0.033582089552238806,
      "grad_norm": 0.563399612903595,
      "learning_rate": 0.0002,
      "loss": 0.9576236605644226,
      "mean_token_accuracy": 0.6916692554950714,
      "num_tokens": 146675.0,
      "step": 9
    },
    {
      "entropy": 0.9863343089818954,
      "epoch": 0.03731343283582089,
      "grad_norm": 0.4532151520252228,
      "learning_rate": 0.0002,
      "loss": 0.8861619234085083,
      "mean_token_accuracy": 0.7066572606563568,
      "num_tokens": 162793.0,
      "step": 10
    },
    {
      "entropy": 0.9439148157835007,
      "epoch": 0.041044776119402986,
      "grad_norm": 0.4917202889919281,
      "learning_rate": 0.0002,
      "loss": 0.8438840508460999,
      "mean_token_accuracy": 0.7115702927112579,
      "num_tokens": 178972.0,
      "step": 11
    },
    {
      "entropy": 0.86412213742733,
      "epoch": 0.04477611940298507,
      "grad_norm": 0.4633786678314209,
      "learning_rate": 0.0002,
      "loss": 0.8079400658607483,
      "mean_token_accuracy": 0.7117275148630142,
      "num_tokens": 195446.0,
      "step": 12
    },
    {
      "entropy": 0.7569762617349625,
      "epoch": 0.048507462686567165,
      "grad_norm": 0.4152548909187317,
      "learning_rate": 0.0002,
      "loss": 0.7479823231697083,
      "mean_token_accuracy": 0.7288273125886917,
      "num_tokens": 211604.0,
      "step": 13
    },
    {
      "entropy": 0.7370023280382156,
      "epoch": 0.05223880597014925,
      "grad_norm": 0.38331395387649536,
      "learning_rate": 0.0002,
      "loss": 0.7293781638145447,
      "mean_token_accuracy": 0.7328485548496246,
      "num_tokens": 228114.0,
      "step": 14
    },
    {
      "entropy": 0.6818548142910004,
      "epoch": 0.055970149253731345,
      "grad_norm": 0.4065186679363251,
      "learning_rate": 0.0002,
      "loss": 0.6948679685592651,
      "mean_token_accuracy": 0.7417702227830887,
      "num_tokens": 244615.0,
      "step": 15
    },
    {
      "entropy": 0.6801213175058365,
      "epoch": 0.05970149253731343,
      "grad_norm": 0.3765408992767334,
      "learning_rate": 0.0002,
      "loss": 0.6942192316055298,
      "mean_token_accuracy": 0.7383946776390076,
      "num_tokens": 260940.0,
      "step": 16
    },
    {
      "entropy": 0.6828830540180206,
      "epoch": 0.06343283582089553,
      "grad_norm": 0.31789109110832214,
      "learning_rate": 0.0002,
      "loss": 0.6663458347320557,
      "mean_token_accuracy": 0.7480802536010742,
      "num_tokens": 277198.0,
      "step": 17
    },
    {
      "entropy": 0.6609166115522385,
      "epoch": 0.06716417910447761,
      "grad_norm": 0.3814696669578552,
      "learning_rate": 0.0002,
      "loss": 0.6373794078826904,
      "mean_token_accuracy": 0.7566290199756622,
      "num_tokens": 293415.0,
      "step": 18
    },
    {
      "entropy": 0.6822013854980469,
      "epoch": 0.0708955223880597,
      "grad_norm": 0.3390759527683258,
      "learning_rate": 0.0002,
      "loss": 0.6543835997581482,
      "mean_token_accuracy": 0.7451244294643402,
      "num_tokens": 309815.0,
      "step": 19
    },
    {
      "entropy": 0.632593423128128,
      "epoch": 0.07462686567164178,
      "grad_norm": 0.41862595081329346,
      "learning_rate": 0.0002,
      "loss": 0.6299830675125122,
      "mean_token_accuracy": 0.7534051537513733,
      "num_tokens": 326057.0,
      "step": 20
    },
    {
      "entropy": 0.6358507871627808,
      "epoch": 0.07835820895522388,
      "grad_norm": 0.30084753036499023,
      "learning_rate": 0.0002,
      "loss": 0.62652587890625,
      "mean_token_accuracy": 0.7561640441417694,
      "num_tokens": 342366.0,
      "step": 21
    },
    {
      "entropy": 0.601889356970787,
      "epoch": 0.08208955223880597,
      "grad_norm": 0.30453744530677795,
      "learning_rate": 0.0002,
      "loss": 0.5936654210090637,
      "mean_token_accuracy": 0.7655821740627289,
      "num_tokens": 358935.0,
      "step": 22
    },
    {
      "entropy": 0.5926243662834167,
      "epoch": 0.08582089552238806,
      "grad_norm": 0.24678799510002136,
      "learning_rate": 0.0002,
      "loss": 0.5894668698310852,
      "mean_token_accuracy": 0.7695567756891251,
      "num_tokens": 375125.0,
      "step": 23
    },
    {
      "entropy": 0.5948957055807114,
      "epoch": 0.08955223880597014,
      "grad_norm": 0.26838821172714233,
      "learning_rate": 0.0002,
      "loss": 0.5975726246833801,
      "mean_token_accuracy": 0.766963854432106,
      "num_tokens": 391519.0,
      "step": 24
    },
    {
      "entropy": 0.5925572067499161,
      "epoch": 0.09328358208955224,
      "grad_norm": 0.24850629270076752,
      "learning_rate": 0.0002,
      "loss": 0.5895435214042664,
      "mean_token_accuracy": 0.7683891654014587,
      "num_tokens": 408003.0,
      "step": 25
    },
    {
      "entropy": 0.579643040895462,
      "epoch": 0.09701492537313433,
      "grad_norm": 0.24649304151535034,
      "learning_rate": 0.0002,
      "loss": 0.5773741006851196,
      "mean_token_accuracy": 0.7704576104879379,
      "num_tokens": 424170.0,
      "step": 26
    },
    {
      "entropy": 0.579850047826767,
      "epoch": 0.10074626865671642,
      "grad_norm": 0.24893403053283691,
      "learning_rate": 0.0002,
      "loss": 0.5705626010894775,
      "mean_token_accuracy": 0.7733898609876633,
      "num_tokens": 440584.0,
      "step": 27
    },
    {
      "entropy": 0.5937480330467224,
      "epoch": 0.1044776119402985,
      "grad_norm": 0.222214013338089,
      "learning_rate": 0.0002,
      "loss": 0.584485650062561,
      "mean_token_accuracy": 0.7649911344051361,
      "num_tokens": 456887.0,
      "step": 28
    },
    {
      "entropy": 0.5631287395954132,
      "epoch": 0.10820895522388059,
      "grad_norm": 0.26287850737571716,
      "learning_rate": 0.0002,
      "loss": 0.559370219707489,
      "mean_token_accuracy": 0.7786488234996796,
      "num_tokens": 473285.0,
      "step": 29
    },
    {
      "entropy": 0.5510498583316803,
      "epoch": 0.11194029850746269,
      "grad_norm": 0.2989422380924225,
      "learning_rate": 0.0002,
      "loss": 0.5596640110015869,
      "mean_token_accuracy": 0.7761659324169159,
      "num_tokens": 489394.0,
      "step": 30
    },
    {
      "entropy": 0.5780725926160812,
      "epoch": 0.11567164179104478,
      "grad_norm": 0.23725202679634094,
      "learning_rate": 0.0002,
      "loss": 0.5835093259811401,
      "mean_token_accuracy": 0.7684815227985382,
      "num_tokens": 505756.0,
      "step": 31
    },
    {
      "entropy": 0.5761191546916962,
      "epoch": 0.11940298507462686,
      "grad_norm": 0.2031526267528534,
      "learning_rate": 0.0002,
      "loss": 0.5835364460945129,
      "mean_token_accuracy": 0.7682848125696182,
      "num_tokens": 522094.0,
      "step": 32
    },
    {
      "entropy": 0.5485773086547852,
      "epoch": 0.12313432835820895,
      "grad_norm": 0.20444567501544952,
      "learning_rate": 0.0002,
      "loss": 0.5546419620513916,
      "mean_token_accuracy": 0.777488186955452,
      "num_tokens": 538415.0,
      "step": 33
    },
    {
      "entropy": 0.5861198753118515,
      "epoch": 0.12686567164179105,
      "grad_norm": 0.21942971646785736,
      "learning_rate": 0.0002,
      "loss": 0.5825690031051636,
      "mean_token_accuracy": 0.7697215527296066,
      "num_tokens": 554886.0,
      "step": 34
    },
    {
      "entropy": 0.5715848505496979,
      "epoch": 0.13059701492537312,
      "grad_norm": 0.20764704048633575,
      "learning_rate": 0.0002,
      "loss": 0.570915162563324,
      "mean_token_accuracy": 0.7720184922218323,
      "num_tokens": 571367.0,
      "step": 35
    },
    {
      "entropy": 0.5560943633317947,
      "epoch": 0.13432835820895522,
      "grad_norm": 0.20819340646266937,
      "learning_rate": 0.0002,
      "loss": 0.5549942851066589,
      "mean_token_accuracy": 0.7778844088315964,
      "num_tokens": 587594.0,
      "step": 36
    },
    {
      "entropy": 0.556964784860611,
      "epoch": 0.13805970149253732,
      "grad_norm": 0.17859336733818054,
      "learning_rate": 0.0002,
      "loss": 0.5563804507255554,
      "mean_token_accuracy": 0.7767369300127029,
      "num_tokens": 604052.0,
      "step": 37
    },
    {
      "entropy": 0.5532324761152267,
      "epoch": 0.1417910447761194,
      "grad_norm": 0.18194721639156342,
      "learning_rate": 0.0002,
      "loss": 0.5552038550376892,
      "mean_token_accuracy": 0.7764725238084793,
      "num_tokens": 620200.0,
      "step": 38
    },
    {
      "entropy": 0.5707972347736359,
      "epoch": 0.1455223880597015,
      "grad_norm": 0.17879748344421387,
      "learning_rate": 0.0002,
      "loss": 0.568923830986023,
      "mean_token_accuracy": 0.7714048773050308,
      "num_tokens": 636528.0,
      "step": 39
    },
    {
      "entropy": 0.5603279024362564,
      "epoch": 0.14925373134328357,
      "grad_norm": 0.19374136626720428,
      "learning_rate": 0.0002,
      "loss": 0.5574957728385925,
      "mean_token_accuracy": 0.7773427516222,
      "num_tokens": 652629.0,
      "step": 40
    },
    {
      "entropy": 0.5546282231807709,
      "epoch": 0.15298507462686567,
      "grad_norm": 0.19636894762516022,
      "learning_rate": 0.0002,
      "loss": 0.5532153844833374,
      "mean_token_accuracy": 0.7793182134628296,
      "num_tokens": 668683.0,
      "step": 41
    },
    {
      "entropy": 0.5812623649835587,
      "epoch": 0.15671641791044777,
      "grad_norm": 0.17162267863750458,
      "learning_rate": 0.0002,
      "loss": 0.5755793452262878,
      "mean_token_accuracy": 0.7692758589982986,
      "num_tokens": 685277.0,
      "step": 42
    },
    {
      "entropy": 0.5617634505033493,
      "epoch": 0.16044776119402984,
      "grad_norm": 0.16276565194129944,
      "learning_rate": 0.0002,
      "loss": 0.5628421306610107,
      "mean_token_accuracy": 0.7769913524389267,
      "num_tokens": 701728.0,
      "step": 43
    },
    {
      "entropy": 0.5570202618837357,
      "epoch": 0.16417910447761194,
      "grad_norm": 0.16841551661491394,
      "learning_rate": 0.0002,
      "loss": 0.5597431659698486,
      "mean_token_accuracy": 0.7756171226501465,
      "num_tokens": 718323.0,
      "step": 44
    },
    {
      "entropy": 0.5491841286420822,
      "epoch": 0.16791044776119404,
      "grad_norm": 0.14662496745586395,
      "learning_rate": 0.0002,
      "loss": 0.5556524991989136,
      "mean_token_accuracy": 0.7775459736585617,
      "num_tokens": 734628.0,
      "step": 45
    },
    {
      "entropy": 0.5427970439195633,
      "epoch": 0.17164179104477612,
      "grad_norm": 0.13948297500610352,
      "learning_rate": 0.0002,
      "loss": 0.5476619601249695,
      "mean_token_accuracy": 0.7795768678188324,
      "num_tokens": 750996.0,
      "step": 46
    },
    {
      "entropy": 0.5452166348695755,
      "epoch": 0.17537313432835822,
      "grad_norm": 0.17319753766059875,
      "learning_rate": 0.0002,
      "loss": 0.5554689168930054,
      "mean_token_accuracy": 0.7776593416929245,
      "num_tokens": 767284.0,
      "step": 47
    },
    {
      "entropy": 0.5613571405410767,
      "epoch": 0.1791044776119403,
      "grad_norm": 0.15226703882217407,
      "learning_rate": 0.0002,
      "loss": 0.5640038847923279,
      "mean_token_accuracy": 0.7746699303388596,
      "num_tokens": 783601.0,
      "step": 48
    },
    {
      "entropy": 0.5535127073526382,
      "epoch": 0.1828358208955224,
      "grad_norm": 0.166432186961174,
      "learning_rate": 0.0002,
      "loss": 0.5462499856948853,
      "mean_token_accuracy": 0.7813286185264587,
      "num_tokens": 799773.0,
      "step": 49
    },
    {
      "entropy": 0.5604032725095749,
      "epoch": 0.1865671641791045,
      "grad_norm": 0.17004649341106415,
      "learning_rate": 0.0002,
      "loss": 0.5530112981796265,
      "mean_token_accuracy": 0.7776568233966827,
      "num_tokens": 816032.0,
      "step": 50
    },
    {
      "entropy": 0.5409559532999992,
      "epoch": 0.19029850746268656,
      "grad_norm": 0.14887484908103943,
      "learning_rate": 0.0002,
      "loss": 0.5343962907791138,
      "mean_token_accuracy": 0.7841377556324005,
      "num_tokens": 832227.0,
      "step": 51
    },
    {
      "entropy": 0.5414481312036514,
      "epoch": 0.19402985074626866,
      "grad_norm": 0.20319198071956635,
      "learning_rate": 0.0002,
      "loss": 0.5386375188827515,
      "mean_token_accuracy": 0.7845792174339294,
      "num_tokens": 848643.0,
      "step": 52
    },
    {
      "entropy": 0.5497538298368454,
      "epoch": 0.19776119402985073,
      "grad_norm": 0.16608890891075134,
      "learning_rate": 0.0002,
      "loss": 0.5512281656265259,
      "mean_token_accuracy": 0.7805987298488617,
      "num_tokens": 865199.0,
      "step": 53
    },
    {
      "entropy": 0.545375257730484,
      "epoch": 0.20149253731343283,
      "grad_norm": 0.17525805532932281,
      "learning_rate": 0.0002,
      "loss": 0.5542587637901306,
      "mean_token_accuracy": 0.7773701697587967,
      "num_tokens": 881379.0,
      "step": 54
    },
    {
      "entropy": 0.5477564036846161,
      "epoch": 0.20522388059701493,
      "grad_norm": 0.19050806760787964,
      "learning_rate": 0.0002,
      "loss": 0.5655733942985535,
      "mean_token_accuracy": 0.7745383828878403,
      "num_tokens": 897934.0,
      "step": 55
    },
    {
      "entropy": 0.5568059235811234,
      "epoch": 0.208955223880597,
      "grad_norm": 0.16148774325847626,
      "learning_rate": 0.0002,
      "loss": 0.5592997074127197,
      "mean_token_accuracy": 0.7772074788808823,
      "num_tokens": 914308.0,
      "step": 56
    },
    {
      "entropy": 0.5678450167179108,
      "epoch": 0.2126865671641791,
      "grad_norm": 0.16515380144119263,
      "learning_rate": 0.0002,
      "loss": 0.569266676902771,
      "mean_token_accuracy": 0.7714356333017349,
      "num_tokens": 930508.0,
      "step": 57
    },
    {
      "entropy": 0.580150917172432,
      "epoch": 0.21641791044776118,
      "grad_norm": 0.17066031694412231,
      "learning_rate": 0.0002,
      "loss": 0.5749757289886475,
      "mean_token_accuracy": 0.7655356675386429,
      "num_tokens": 946877.0,
      "step": 58
    },
    {
      "entropy": 0.5695585310459137,
      "epoch": 0.22014925373134328,
      "grad_norm": 0.16599293053150177,
      "learning_rate": 0.0002,
      "loss": 0.5635928511619568,
      "mean_token_accuracy": 0.7739954739809036,
      "num_tokens": 963218.0,
      "step": 59
    },
    {
      "entropy": 0.5330293923616409,
      "epoch": 0.22388059701492538,
      "grad_norm": 0.14891624450683594,
      "learning_rate": 0.0002,
      "loss": 0.5344960689544678,
      "mean_token_accuracy": 0.7841218858957291,
      "num_tokens": 979460.0,
      "step": 60
    },
    {
      "entropy": 0.5383697599172592,
      "epoch": 0.22761194029850745,
      "grad_norm": 0.16252915561199188,
      "learning_rate": 0.0002,
      "loss": 0.5413715243339539,
      "mean_token_accuracy": 0.7826660871505737,
      "num_tokens": 995619.0,
      "step": 61
    },
    {
      "entropy": 0.5535406023263931,
      "epoch": 0.23134328358208955,
      "grad_norm": 0.15229789912700653,
      "learning_rate": 0.0002,
      "loss": 0.558712899684906,
      "mean_token_accuracy": 0.7769492119550705,
      "num_tokens": 1011885.0,
      "step": 62
    },
    {
      "entropy": 0.5603247284889221,
      "epoch": 0.23507462686567165,
      "grad_norm": 0.14967045187950134,
      "learning_rate": 0.0002,
      "loss": 0.5645769834518433,
      "mean_token_accuracy": 0.771862581372261,
      "num_tokens": 1028352.0,
      "step": 63
    },
    {
      "entropy": 0.563384547829628,
      "epoch": 0.23880597014925373,
      "grad_norm": 0.15884719789028168,
      "learning_rate": 0.0002,
      "loss": 0.5637681484222412,
      "mean_token_accuracy": 0.7742781639099121,
      "num_tokens": 1044550.0,
      "step": 64
    },
    {
      "entropy": 0.5692009180784225,
      "epoch": 0.24253731343283583,
      "grad_norm": 0.16877400875091553,
      "learning_rate": 0.0002,
      "loss": 0.5609120726585388,
      "mean_token_accuracy": 0.7724380940198898,
      "num_tokens": 1060869.0,
      "step": 65
    },
    {
      "entropy": 0.5652668327093124,
      "epoch": 0.2462686567164179,
      "grad_norm": 0.14263105392456055,
      "learning_rate": 0.0002,
      "loss": 0.5577319264411926,
      "mean_token_accuracy": 0.7767308205366135,
      "num_tokens": 1077318.0,
      "step": 66
    },
    {
      "entropy": 0.5624865591526031,
      "epoch": 0.25,
      "grad_norm": 0.1326468139886856,
      "learning_rate": 0.0002,
      "loss": 0.5610349774360657,
      "mean_token_accuracy": 0.7767885029315948,
      "num_tokens": 1093946.0,
      "step": 67
    },
    {
      "entropy": 0.5453900694847107,
      "epoch": 0.2537313432835821,
      "grad_norm": 0.15602754056453705,
      "learning_rate": 0.0002,
      "loss": 0.5474068522453308,
      "mean_token_accuracy": 0.7804547101259232,
      "num_tokens": 1110166.0,
      "step": 68
    },
    {
      "entropy": 0.5495888441801071,
      "epoch": 0.2574626865671642,
      "grad_norm": 0.16421914100646973,
      "learning_rate": 0.0002,
      "loss": 0.5586546063423157,
      "mean_token_accuracy": 0.7761986404657364,
      "num_tokens": 1126524.0,
      "step": 69
    },
    {
      "entropy": 0.5564677566289902,
      "epoch": 0.26119402985074625,
      "grad_norm": 0.17955079674720764,
      "learning_rate": 0.0002,
      "loss": 0.570371687412262,
      "mean_token_accuracy": 0.7711490094661713,
      "num_tokens": 1142935.0,
      "step": 70
    },
    {
      "entropy": 0.5473903864622116,
      "epoch": 0.26492537313432835,
      "grad_norm": 0.14180611073970795,
      "learning_rate": 0.0002,
      "loss": 0.549370527267456,
      "mean_token_accuracy": 0.7789817303419113,
      "num_tokens": 1159182.0,
      "step": 71
    },
    {
      "entropy": 0.5544993579387665,
      "epoch": 0.26865671641791045,
      "grad_norm": 0.1569361388683319,
      "learning_rate": 0.0002,
      "loss": 0.5507487058639526,
      "mean_token_accuracy": 0.7766937166452408,
      "num_tokens": 1175525.0,
      "step": 72
    },
    {
      "entropy": 0.5662118345499039,
      "epoch": 0.27238805970149255,
      "grad_norm": 0.15652883052825928,
      "learning_rate": 0.0002,
      "loss": 0.5632150173187256,
      "mean_token_accuracy": 0.7702545374631882,
      "num_tokens": 1191955.0,
      "step": 73
    },
    {
      "entropy": 0.5581929385662079,
      "epoch": 0.27611940298507465,
      "grad_norm": 0.1360681653022766,
      "learning_rate": 0.0002,
      "loss": 0.5503684878349304,
      "mean_token_accuracy": 0.7764260619878769,
      "num_tokens": 1208034.0,
      "step": 74
    },
    {
      "entropy": 0.5687559396028519,
      "epoch": 0.2798507462686567,
      "grad_norm": 0.13728748261928558,
      "learning_rate": 0.0002,
      "loss": 0.5678715109825134,
      "mean_token_accuracy": 0.7728003114461899,
      "num_tokens": 1224533.0,
      "step": 75
    },
    {
      "entropy": 0.5481379926204681,
      "epoch": 0.2835820895522388,
      "grad_norm": 0.16217739880084991,
      "learning_rate": 0.0002,
      "loss": 0.5537081956863403,
      "mean_token_accuracy": 0.7751952260732651,
      "num_tokens": 1240962.0,
      "step": 76
    },
    {
      "entropy": 0.5639017820358276,
      "epoch": 0.2873134328358209,
      "grad_norm": 0.1611357033252716,
      "learning_rate": 0.0002,
      "loss": 0.5741861462593079,
      "mean_token_accuracy": 0.7681055814027786,
      "num_tokens": 1257195.0,
      "step": 77
    },
    {
      "entropy": 0.5481198877096176,
      "epoch": 0.291044776119403,
      "grad_norm": 0.12783770263195038,
      "learning_rate": 0.0002,
      "loss": 0.5473082065582275,
      "mean_token_accuracy": 0.777423769235611,
      "num_tokens": 1273603.0,
      "step": 78
    },
    {
      "entropy": 0.539246067404747,
      "epoch": 0.2947761194029851,
      "grad_norm": 0.1314576119184494,
      "learning_rate": 0.0002,
      "loss": 0.5311948657035828,
      "mean_token_accuracy": 0.7861492037773132,
      "num_tokens": 1289837.0,
      "step": 79
    },
    {
      "entropy": 0.554696649312973,
      "epoch": 0.29850746268656714,
      "grad_norm": 0.1476278305053711,
      "learning_rate": 0.0002,
      "loss": 0.5538964867591858,
      "mean_token_accuracy": 0.7750344574451447,
      "num_tokens": 1306338.0,
      "step": 80
    },
    {
      "entropy": 0.5469587296247482,
      "epoch": 0.30223880597014924,
      "grad_norm": 0.16194719076156616,
      "learning_rate": 0.0002,
      "loss": 0.554472804069519,
      "mean_token_accuracy": 0.7799090445041656,
      "num_tokens": 1322825.0,
      "step": 81
    },
    {
      "entropy": 0.5433253645896912,
      "epoch": 0.30597014925373134,
      "grad_norm": 0.16987131536006927,
      "learning_rate": 0.0002,
      "loss": 0.5523664355278015,
      "mean_token_accuracy": 0.776031419634819,
      "num_tokens": 1338865.0,
      "step": 82
    },
    {
      "entropy": 0.5386127680540085,
      "epoch": 0.30970149253731344,
      "grad_norm": 0.14176225662231445,
      "learning_rate": 0.0002,
      "loss": 0.5489001870155334,
      "mean_token_accuracy": 0.7799653261899948,
      "num_tokens": 1355248.0,
      "step": 83
    },
    {
      "entropy": 0.5415250957012177,
      "epoch": 0.31343283582089554,
      "grad_norm": 0.17086099088191986,
      "learning_rate": 0.0002,
      "loss": 0.545318067073822,
      "mean_token_accuracy": 0.7825302183628082,
      "num_tokens": 1371746.0,
      "step": 84
    },
    {
      "entropy": 0.5727111548185349,
      "epoch": 0.31716417910447764,
      "grad_norm": 0.15196099877357483,
      "learning_rate": 0.0002,
      "loss": 0.5717822909355164,
      "mean_token_accuracy": 0.769862562417984,
      "num_tokens": 1388201.0,
      "step": 85
    },
    {
      "entropy": 0.5487467050552368,
      "epoch": 0.3208955223880597,
      "grad_norm": 0.12406057119369507,
      "learning_rate": 0.0002,
      "loss": 0.5426313877105713,
      "mean_token_accuracy": 0.7817563712596893,
      "num_tokens": 1404461.0,
      "step": 86
    },
    {
      "entropy": 0.5417477786540985,
      "epoch": 0.3246268656716418,
      "grad_norm": 0.1868571937084198,
      "learning_rate": 0.0002,
      "loss": 0.5441780090332031,
      "mean_token_accuracy": 0.7824695259332657,
      "num_tokens": 1420484.0,
      "step": 87
    },
    {
      "entropy": 0.552739754319191,
      "epoch": 0.3283582089552239,
      "grad_norm": 0.12260660529136658,
      "learning_rate": 0.0002,
      "loss": 0.5459186434745789,
      "mean_token_accuracy": 0.7800513356924057,
      "num_tokens": 1436981.0,
      "step": 88
    },
    {
      "entropy": 0.5539838075637817,
      "epoch": 0.332089552238806,
      "grad_norm": 0.19637417793273926,
      "learning_rate": 0.0002,
      "loss": 0.5502506494522095,
      "mean_token_accuracy": 0.779677152633667,
      "num_tokens": 1453360.0,
      "step": 89
    },
    {
      "entropy": 0.5393257439136505,
      "epoch": 0.3358208955223881,
      "grad_norm": 0.14825744926929474,
      "learning_rate": 0.0002,
      "loss": 0.5465800762176514,
      "mean_token_accuracy": 0.7785906046628952,
      "num_tokens": 1469575.0,
      "step": 90
    },
    {
      "entropy": 0.5319312065839767,
      "epoch": 0.33955223880597013,
      "grad_norm": 0.1817854791879654,
      "learning_rate": 0.0002,
      "loss": 0.5348737835884094,
      "mean_token_accuracy": 0.7835152447223663,
      "num_tokens": 1485763.0,
      "step": 91
    },
    {
      "entropy": 0.5510641485452652,
      "epoch": 0.34328358208955223,
      "grad_norm": 0.1455191969871521,
      "learning_rate": 0.0002,
      "loss": 0.5464341044425964,
      "mean_token_accuracy": 0.7820889949798584,
      "num_tokens": 1502105.0,
      "step": 92
    },
    {
      "entropy": 0.5406191498041153,
      "epoch": 0.34701492537313433,
      "grad_norm": 0.1273794025182724,
      "learning_rate": 0.0002,
      "loss": 0.5421090722084045,
      "mean_token_accuracy": 0.7849924713373184,
      "num_tokens": 1518477.0,
      "step": 93
    },
    {
      "entropy": 0.5232429951429367,
      "epoch": 0.35074626865671643,
      "grad_norm": 0.14684391021728516,
      "learning_rate": 0.0002,
      "loss": 0.5232130289077759,
      "mean_token_accuracy": 0.7893925607204437,
      "num_tokens": 1534743.0,
      "step": 94
    },
    {
      "entropy": 0.5493894517421722,
      "epoch": 0.35447761194029853,
      "grad_norm": 0.12976326048374176,
      "learning_rate": 0.0002,
      "loss": 0.5556308627128601,
      "mean_token_accuracy": 0.7738792598247528,
      "num_tokens": 1551015.0,
      "step": 95
    },
    {
      "entropy": 0.5568605363368988,
      "epoch": 0.3582089552238806,
      "grad_norm": 0.15545816719532013,
      "learning_rate": 0.0002,
      "loss": 0.5611149668693542,
      "mean_token_accuracy": 0.7729773372411728,
      "num_tokens": 1567597.0,
      "step": 96
    },
    {
      "entropy": 0.554488942027092,
      "epoch": 0.3619402985074627,
      "grad_norm": 0.1307706981897354,
      "learning_rate": 0.0002,
      "loss": 0.5501843094825745,
      "mean_token_accuracy": 0.7798233777284622,
      "num_tokens": 1583851.0,
      "step": 97
    },
    {
      "entropy": 0.5296479314565659,
      "epoch": 0.3656716417910448,
      "grad_norm": 0.1413222700357437,
      "learning_rate": 0.0002,
      "loss": 0.5348843932151794,
      "mean_token_accuracy": 0.7847397029399872,
      "num_tokens": 1599880.0,
      "step": 98
    },
    {
      "entropy": 0.5739381164312363,
      "epoch": 0.3694029850746269,
      "grad_norm": 0.14992888271808624,
      "learning_rate": 0.0002,
      "loss": 0.5711988210678101,
      "mean_token_accuracy": 0.769414946436882,
      "num_tokens": 1616161.0,
      "step": 99
    },
    {
      "entropy": 0.5500659346580505,
      "epoch": 0.373134328358209,
      "grad_norm": 0.13987883925437927,
      "learning_rate": 0.0002,
      "loss": 0.5535774230957031,
      "mean_token_accuracy": 0.7796037644147873,
      "num_tokens": 1632650.0,
      "step": 100
    },
    {
      "entropy": 0.5421769469976425,
      "epoch": 0.376865671641791,
      "grad_norm": 0.14819589257240295,
      "learning_rate": 0.0002,
      "loss": 0.5429503917694092,
      "mean_token_accuracy": 0.7809022516012192,
      "num_tokens": 1649147.0,
      "step": 101
    },
    {
      "entropy": 0.5444748848676682,
      "epoch": 0.3805970149253731,
      "grad_norm": 0.15763095021247864,
      "learning_rate": 0.0002,
      "loss": 0.5527257919311523,
      "mean_token_accuracy": 0.7789772897958755,
      "num_tokens": 1665434.0,
      "step": 102
    },
    {
      "entropy": 0.5364149361848831,
      "epoch": 0.3843283582089552,
      "grad_norm": 0.12937362492084503,
      "learning_rate": 0.0002,
      "loss": 0.5445730090141296,
      "mean_token_accuracy": 0.7801977097988129,
      "num_tokens": 1681628.0,
      "step": 103
    },
    {
      "entropy": 0.5520685017108917,
      "epoch": 0.3880597014925373,
      "grad_norm": 0.13224048912525177,
      "learning_rate": 0.0002,
      "loss": 0.5565529465675354,
      "mean_token_accuracy": 0.7761769741773605,
      "num_tokens": 1698024.0,
      "step": 104
    },
    {
      "entropy": 0.5505486279726028,
      "epoch": 0.3917910447761194,
      "grad_norm": 0.12523634731769562,
      "learning_rate": 0.0002,
      "loss": 0.5501624345779419,
      "mean_token_accuracy": 0.776427686214447,
      "num_tokens": 1714432.0,
      "step": 105
    },
    {
      "entropy": 0.5415863394737244,
      "epoch": 0.39552238805970147,
      "grad_norm": 0.12370901554822922,
      "learning_rate": 0.0002,
      "loss": 0.5389205813407898,
      "mean_token_accuracy": 0.7835447043180466,
      "num_tokens": 1730701.0,
      "step": 106
    },
    {
      "entropy": 0.535835400223732,
      "epoch": 0.39925373134328357,
      "grad_norm": 0.12875092029571533,
      "learning_rate": 0.0002,
      "loss": 0.5339052081108093,
      "mean_token_accuracy": 0.7833075076341629,
      "num_tokens": 1747039.0,
      "step": 107
    },
    {
      "entropy": 0.5391292423009872,
      "epoch": 0.40298507462686567,
      "grad_norm": 0.13361512124538422,
      "learning_rate": 0.0002,
      "loss": 0.5480363368988037,
      "mean_token_accuracy": 0.778292641043663,
      "num_tokens": 1763231.0,
      "step": 108
    },
    {
      "entropy": 0.5451123267412186,
      "epoch": 0.40671641791044777,
      "grad_norm": 0.12270035594701767,
      "learning_rate": 0.0002,
      "loss": 0.544527530670166,
      "mean_token_accuracy": 0.7805600017309189,
      "num_tokens": 1779643.0,
      "step": 109
    },
    {
      "entropy": 0.5353200137615204,
      "epoch": 0.41044776119402987,
      "grad_norm": 0.15249699354171753,
      "learning_rate": 0.0002,
      "loss": 0.540695309638977,
      "mean_token_accuracy": 0.7809852063655853,
      "num_tokens": 1795799.0,
      "step": 110
    },
    {
      "entropy": 0.5517745912075043,
      "epoch": 0.4141791044776119,
      "grad_norm": 0.13048961758613586,
      "learning_rate": 0.0002,
      "loss": 0.5428080558776855,
      "mean_token_accuracy": 0.7799961864948273,
      "num_tokens": 1812372.0,
      "step": 111
    },
    {
      "entropy": 0.5553679913282394,
      "epoch": 0.417910447761194,
      "grad_norm": 0.135862797498703,
      "learning_rate": 0.0002,
      "loss": 0.5515741109848022,
      "mean_token_accuracy": 0.7762576192617416,
      "num_tokens": 1828663.0,
      "step": 112
    },
    {
      "entropy": 0.5415378957986832,
      "epoch": 0.4216417910447761,
      "grad_norm": 0.17365720868110657,
      "learning_rate": 0.0002,
      "loss": 0.5439163446426392,
      "mean_token_accuracy": 0.7816168814897537,
      "num_tokens": 1845046.0,
      "step": 113
    },
    {
      "entropy": 0.5443854928016663,
      "epoch": 0.4253731343283582,
      "grad_norm": 0.13225306570529938,
      "learning_rate": 0.0002,
      "loss": 0.5523333549499512,
      "mean_token_accuracy": 0.7754887640476227,
      "num_tokens": 1861463.0,
      "step": 114
    },
    {
      "entropy": 0.536818191409111,
      "epoch": 0.4291044776119403,
      "grad_norm": 0.18661700189113617,
      "learning_rate": 0.0002,
      "loss": 0.5445066094398499,
      "mean_token_accuracy": 0.7783756703138351,
      "num_tokens": 1877488.0,
      "step": 115
    },
    {
      "entropy": 0.5401700437068939,
      "epoch": 0.43283582089552236,
      "grad_norm": 0.1313197761774063,
      "learning_rate": 0.0002,
      "loss": 0.5441405773162842,
      "mean_token_accuracy": 0.779263436794281,
      "num_tokens": 1893953.0,
      "step": 116
    },
    {
      "entropy": 0.5655902773141861,
      "epoch": 0.43656716417910446,
      "grad_norm": 0.14134129881858826,
      "learning_rate": 0.0002,
      "loss": 0.5561054944992065,
      "mean_token_accuracy": 0.7760706096887589,
      "num_tokens": 1910559.0,
      "step": 117
    },
    {
      "entropy": 0.5377545058727264,
      "epoch": 0.44029850746268656,
      "grad_norm": 0.1476624757051468,
      "learning_rate": 0.0002,
      "loss": 0.5377650260925293,
      "mean_token_accuracy": 0.784254401922226,
      "num_tokens": 1926798.0,
      "step": 118
    },
    {
      "entropy": 0.5710994154214859,
      "epoch": 0.44402985074626866,
      "grad_norm": 0.12695498764514923,
      "learning_rate": 0.0002,
      "loss": 0.5705847144126892,
      "mean_token_accuracy": 0.7709101736545563,
      "num_tokens": 1943309.0,
      "step": 119
    },
    {
      "entropy": 0.5473001599311829,
      "epoch": 0.44776119402985076,
      "grad_norm": 0.13190272450447083,
      "learning_rate": 0.0002,
      "loss": 0.5527402758598328,
      "mean_token_accuracy": 0.7776251584291458,
      "num_tokens": 1959914.0,
      "step": 120
    },
    {
      "entropy": 0.5332797467708588,
      "epoch": 0.45149253731343286,
      "grad_norm": 0.1538720279932022,
      "learning_rate": 0.0002,
      "loss": 0.541407585144043,
      "mean_token_accuracy": 0.7805240601301193,
      "num_tokens": 1976350.0,
      "step": 121
    },
    {
      "entropy": 0.5485477149486542,
      "epoch": 0.4552238805970149,
      "grad_norm": 0.1464855819940567,
      "learning_rate": 0.0002,
      "loss": 0.5562998056411743,
      "mean_token_accuracy": 0.7745071202516556,
      "num_tokens": 1992575.0,
      "step": 122
    },
    {
      "entropy": 0.5465153902769089,
      "epoch": 0.458955223880597,
      "grad_norm": 0.1392602175474167,
      "learning_rate": 0.0002,
      "loss": 0.5450125932693481,
      "mean_token_accuracy": 0.7803204655647278,
      "num_tokens": 2008818.0,
      "step": 123
    },
    {
      "entropy": 0.5216257721185684,
      "epoch": 0.4626865671641791,
      "grad_norm": 0.16500917077064514,
      "learning_rate": 0.0002,
      "loss": 0.5204989314079285,
      "mean_token_accuracy": 0.7916441410779953,
      "num_tokens": 2024909.0,
      "step": 124
    },
    {
      "entropy": 0.5582488030195236,
      "epoch": 0.4664179104477612,
      "grad_norm": 0.12797319889068604,
      "learning_rate": 0.0002,
      "loss": 0.5522317290306091,
      "mean_token_accuracy": 0.7782706022262573,
      "num_tokens": 2041274.0,
      "step": 125
    },
    {
      "entropy": 0.5451529324054718,
      "epoch": 0.4701492537313433,
      "grad_norm": 0.136440709233284,
      "learning_rate": 0.0002,
      "loss": 0.5448014736175537,
      "mean_token_accuracy": 0.7787207514047623,
      "num_tokens": 2057665.0,
      "step": 126
    },
    {
      "entropy": 0.5657823532819748,
      "epoch": 0.47388059701492535,
      "grad_norm": 0.13369601964950562,
      "learning_rate": 0.0002,
      "loss": 0.5634066462516785,
      "mean_token_accuracy": 0.7729785293340683,
      "num_tokens": 2074159.0,
      "step": 127
    },
    {
      "entropy": 0.52435402572155,
      "epoch": 0.47761194029850745,
      "grad_norm": 0.13124150037765503,
      "learning_rate": 0.0002,
      "loss": 0.5261214971542358,
      "mean_token_accuracy": 0.787582278251648,
      "num_tokens": 2090388.0,
      "step": 128
    },
    {
      "entropy": 0.5388573259115219,
      "epoch": 0.48134328358208955,
      "grad_norm": 0.1402949094772339,
      "learning_rate": 0.0002,
      "loss": 0.5444526672363281,
      "mean_token_accuracy": 0.780138373374939,
      "num_tokens": 2106895.0,
      "step": 129
    },
    {
      "entropy": 0.5594224631786346,
      "epoch": 0.48507462686567165,
      "grad_norm": 0.12214766442775726,
      "learning_rate": 0.0002,
      "loss": 0.5680845379829407,
      "mean_token_accuracy": 0.7693810015916824,
      "num_tokens": 2122936.0,
      "step": 130
    },
    {
      "entropy": 0.5598264634609222,
      "epoch": 0.48880597014925375,
      "grad_norm": 0.11836589127779007,
      "learning_rate": 0.0002,
      "loss": 0.5608173608779907,
      "mean_token_accuracy": 0.7735486477613449,
      "num_tokens": 2139356.0,
      "step": 131
    },
    {
      "entropy": 0.5484192073345184,
      "epoch": 0.4925373134328358,
      "grad_norm": 0.11776985228061676,
      "learning_rate": 0.0002,
      "loss": 0.5445444583892822,
      "mean_token_accuracy": 0.7797606885433197,
      "num_tokens": 2155868.0,
      "step": 132
    },
    {
      "entropy": 0.5602923631668091,
      "epoch": 0.4962686567164179,
      "grad_norm": 0.12020131945610046,
      "learning_rate": 0.0002,
      "loss": 0.5522936582565308,
      "mean_token_accuracy": 0.7776170521974564,
      "num_tokens": 2172336.0,
      "step": 133
    },
    {
      "entropy": 0.5583924055099487,
      "epoch": 0.5,
      "grad_norm": 0.1295275241136551,
      "learning_rate": 0.0002,
      "loss": 0.5662660002708435,
      "mean_token_accuracy": 0.7716575860977173,
      "num_tokens": 2188518.0,
      "step": 134
    },
    {
      "entropy": 0.5514810979366302,
      "epoch": 0.503731343283582,
      "grad_norm": 0.1089273989200592,
      "learning_rate": 0.0002,
      "loss": 0.5514034032821655,
      "mean_token_accuracy": 0.7769223898649216,
      "num_tokens": 2205142.0,
      "step": 135
    },
    {
      "entropy": 0.5440865606069565,
      "epoch": 0.5074626865671642,
      "grad_norm": 0.13056722283363342,
      "learning_rate": 0.0002,
      "loss": 0.5475744009017944,
      "mean_token_accuracy": 0.7764044553041458,
      "num_tokens": 2221743.0,
      "step": 136
    },
    {
      "entropy": 0.5476541817188263,
      "epoch": 0.5111940298507462,
      "grad_norm": 0.13166996836662292,
      "learning_rate": 0.0002,
      "loss": 0.5477900505065918,
      "mean_token_accuracy": 0.7784378528594971,
      "num_tokens": 2238142.0,
      "step": 137
    },
    {
      "entropy": 0.5558486729860306,
      "epoch": 0.5149253731343284,
      "grad_norm": 0.12133946269750595,
      "learning_rate": 0.0002,
      "loss": 0.5609108209609985,
      "mean_token_accuracy": 0.7736046612262726,
      "num_tokens": 2254456.0,
      "step": 138
    },
    {
      "entropy": 0.5566332340240479,
      "epoch": 0.5186567164179104,
      "grad_norm": 0.12148908525705338,
      "learning_rate": 0.0002,
      "loss": 0.5561110973358154,
      "mean_token_accuracy": 0.7756631374359131,
      "num_tokens": 2270696.0,
      "step": 139
    },
    {
      "entropy": 0.5462600067257881,
      "epoch": 0.5223880597014925,
      "grad_norm": 0.1129021942615509,
      "learning_rate": 0.0002,
      "loss": 0.5448604822158813,
      "mean_token_accuracy": 0.7795793265104294,
      "num_tokens": 2287025.0,
      "step": 140
    },
    {
      "entropy": 0.5399314314126968,
      "epoch": 0.5261194029850746,
      "grad_norm": 0.1251847892999649,
      "learning_rate": 0.0002,
      "loss": 0.5481414794921875,
      "mean_token_accuracy": 0.778893768787384,
      "num_tokens": 2303399.0,
      "step": 141
    },
    {
      "entropy": 0.5469618439674377,
      "epoch": 0.5298507462686567,
      "grad_norm": 0.11956755071878433,
      "learning_rate": 0.0002,
      "loss": 0.5474820137023926,
      "mean_token_accuracy": 0.7784739285707474,
      "num_tokens": 2319818.0,
      "step": 142
    },
    {
      "entropy": 0.5447351336479187,
      "epoch": 0.5335820895522388,
      "grad_norm": 0.14881564676761627,
      "learning_rate": 0.0002,
      "loss": 0.5410581827163696,
      "mean_token_accuracy": 0.781320258975029,
      "num_tokens": 2335949.0,
      "step": 143
    },
    {
      "entropy": 0.5449966341257095,
      "epoch": 0.5373134328358209,
      "grad_norm": 0.12103825062513351,
      "learning_rate": 0.0002,
      "loss": 0.5471005439758301,
      "mean_token_accuracy": 0.7796377539634705,
      "num_tokens": 2352269.0,
      "step": 144
    },
    {
      "entropy": 0.5632765144109726,
      "epoch": 0.5410447761194029,
      "grad_norm": 0.12277977168560028,
      "learning_rate": 0.0002,
      "loss": 0.5630727410316467,
      "mean_token_accuracy": 0.7703763097524643,
      "num_tokens": 2368674.0,
      "step": 145
    },
    {
      "entropy": 0.5339089632034302,
      "epoch": 0.5447761194029851,
      "grad_norm": 0.14498627185821533,
      "learning_rate": 0.0002,
      "loss": 0.5364416241645813,
      "mean_token_accuracy": 0.7819968014955521,
      "num_tokens": 2384936.0,
      "step": 146
    },
    {
      "entropy": 0.5429459661245346,
      "epoch": 0.5485074626865671,
      "grad_norm": 0.12051384150981903,
      "learning_rate": 0.0002,
      "loss": 0.5456188917160034,
      "mean_token_accuracy": 0.7803860902786255,
      "num_tokens": 2401292.0,
      "step": 147
    },
    {
      "entropy": 0.5626052618026733,
      "epoch": 0.5522388059701493,
      "grad_norm": 0.1412496566772461,
      "learning_rate": 0.0002,
      "loss": 0.5596410036087036,
      "mean_token_accuracy": 0.7737385481595993,
      "num_tokens": 2417925.0,
      "step": 148
    },
    {
      "entropy": 0.5565475225448608,
      "epoch": 0.5559701492537313,
      "grad_norm": 0.1441730409860611,
      "learning_rate": 0.0002,
      "loss": 0.5520785450935364,
      "mean_token_accuracy": 0.775386318564415,
      "num_tokens": 2434621.0,
      "step": 149
    },
    {
      "entropy": 0.5197634100914001,
      "epoch": 0.5597014925373134,
      "grad_norm": 0.12098351866006851,
      "learning_rate": 0.0002,
      "loss": 0.5222008228302002,
      "mean_token_accuracy": 0.7903124392032623,
      "num_tokens": 2450903.0,
      "step": 150
    },
    {
      "entropy": 0.5489796698093414,
      "epoch": 0.5634328358208955,
      "grad_norm": 0.14946326613426208,
      "learning_rate": 0.0002,
      "loss": 0.5559377074241638,
      "mean_token_accuracy": 0.775105893611908,
      "num_tokens": 2467105.0,
      "step": 151
    },
    {
      "entropy": 0.5400301665067673,
      "epoch": 0.5671641791044776,
      "grad_norm": 0.12906025350093842,
      "learning_rate": 0.0002,
      "loss": 0.5420807600021362,
      "mean_token_accuracy": 0.7795381844043732,
      "num_tokens": 2483456.0,
      "step": 152
    },
    {
      "entropy": 0.5474328249692917,
      "epoch": 0.5708955223880597,
      "grad_norm": 0.12021685391664505,
      "learning_rate": 0.0002,
      "loss": 0.5509780049324036,
      "mean_token_accuracy": 0.7768895477056503,
      "num_tokens": 2500011.0,
      "step": 153
    },
    {
      "entropy": 0.5380930155515671,
      "epoch": 0.5746268656716418,
      "grad_norm": 0.11843080073595047,
      "learning_rate": 0.0002,
      "loss": 0.5308334827423096,
      "mean_token_accuracy": 0.7881843447685242,
      "num_tokens": 2516780.0,
      "step": 154
    },
    {
      "entropy": 0.5460693091154099,
      "epoch": 0.5783582089552238,
      "grad_norm": 0.16729064285755157,
      "learning_rate": 0.0002,
      "loss": 0.5530881285667419,
      "mean_token_accuracy": 0.7742334753274918,
      "num_tokens": 2532837.0,
      "step": 155
    },
    {
      "entropy": 0.5500553995370865,
      "epoch": 0.582089552238806,
      "grad_norm": 0.1366872787475586,
      "learning_rate": 0.0002,
      "loss": 0.5533830523490906,
      "mean_token_accuracy": 0.7750078588724136,
      "num_tokens": 2549157.0,
      "step": 156
    },
    {
      "entropy": 0.5497538447380066,
      "epoch": 0.585820895522388,
      "grad_norm": 0.12214312702417374,
      "learning_rate": 0.0002,
      "loss": 0.5549652576446533,
      "mean_token_accuracy": 0.7742869108915329,
      "num_tokens": 2565745.0,
      "step": 157
    },
    {
      "entropy": 0.5520212799310684,
      "epoch": 0.5895522388059702,
      "grad_norm": 0.13198687136173248,
      "learning_rate": 0.0002,
      "loss": 0.5503985285758972,
      "mean_token_accuracy": 0.7776314318180084,
      "num_tokens": 2582172.0,
      "step": 158
    },
    {
      "entropy": 0.5420894026756287,
      "epoch": 0.5932835820895522,
      "grad_norm": 0.1303817480802536,
      "learning_rate": 0.0002,
      "loss": 0.545700192451477,
      "mean_token_accuracy": 0.7790375500917435,
      "num_tokens": 2598785.0,
      "step": 159
    },
    {
      "entropy": 0.5361281335353851,
      "epoch": 0.5970149253731343,
      "grad_norm": 0.13537634909152985,
      "learning_rate": 0.0002,
      "loss": 0.5409078598022461,
      "mean_token_accuracy": 0.779214471578598,
      "num_tokens": 2615324.0,
      "step": 160
    },
    {
      "entropy": 0.5633385479450226,
      "epoch": 0.6007462686567164,
      "grad_norm": 0.11204258352518082,
      "learning_rate": 0.0002,
      "loss": 0.5624291896820068,
      "mean_token_accuracy": 0.7730776518583298,
      "num_tokens": 2631612.0,
      "step": 161
    },
    {
      "entropy": 0.5239899605512619,
      "epoch": 0.6044776119402985,
      "grad_norm": 0.14660899341106415,
      "learning_rate": 0.0002,
      "loss": 0.5244404673576355,
      "mean_token_accuracy": 0.7870436310768127,
      "num_tokens": 2648098.0,
      "step": 162
    },
    {
      "entropy": 0.5414755046367645,
      "epoch": 0.6082089552238806,
      "grad_norm": 0.11887400597333908,
      "learning_rate": 0.0002,
      "loss": 0.5397330522537231,
      "mean_token_accuracy": 0.7847625911235809,
      "num_tokens": 2664285.0,
      "step": 163
    },
    {
      "entropy": 0.5442674309015274,
      "epoch": 0.6119402985074627,
      "grad_norm": 0.11572780460119247,
      "learning_rate": 0.0002,
      "loss": 0.5454840660095215,
      "mean_token_accuracy": 0.7809286564588547,
      "num_tokens": 2680551.0,
      "step": 164
    },
    {
      "entropy": 0.5371343344449997,
      "epoch": 0.6156716417910447,
      "grad_norm": 0.1056356355547905,
      "learning_rate": 0.0002,
      "loss": 0.5348964929580688,
      "mean_token_accuracy": 0.7857467532157898,
      "num_tokens": 2697071.0,
      "step": 165
    },
    {
      "entropy": 0.5399870425462723,
      "epoch": 0.6194029850746269,
      "grad_norm": 0.13278594613075256,
      "learning_rate": 0.0002,
      "loss": 0.5447728633880615,
      "mean_token_accuracy": 0.7792245298624039,
      "num_tokens": 2713461.0,
      "step": 166
    },
    {
      "entropy": 0.5350475907325745,
      "epoch": 0.6231343283582089,
      "grad_norm": 0.1305065155029297,
      "learning_rate": 0.0002,
      "loss": 0.5362796783447266,
      "mean_token_accuracy": 0.7812380343675613,
      "num_tokens": 2729505.0,
      "step": 167
    },
    {
      "entropy": 0.5582499951124191,
      "epoch": 0.6268656716417911,
      "grad_norm": 0.12587526440620422,
      "learning_rate": 0.0002,
      "loss": 0.5559293627738953,
      "mean_token_accuracy": 0.7746618837118149,
      "num_tokens": 2746287.0,
      "step": 168
    },
    {
      "entropy": 0.5586439073085785,
      "epoch": 0.6305970149253731,
      "grad_norm": 0.12845800817012787,
      "learning_rate": 0.0002,
      "loss": 0.5518544912338257,
      "mean_token_accuracy": 0.7751341164112091,
      "num_tokens": 2762818.0,
      "step": 169
    },
    {
      "entropy": 0.5343242138624191,
      "epoch": 0.6343283582089553,
      "grad_norm": 0.15256647765636444,
      "learning_rate": 0.0002,
      "loss": 0.5386060476303101,
      "mean_token_accuracy": 0.7807702422142029,
      "num_tokens": 2779199.0,
      "step": 170
    },
    {
      "entropy": 0.5373098105192184,
      "epoch": 0.6380597014925373,
      "grad_norm": 0.13263238966464996,
      "learning_rate": 0.0002,
      "loss": 0.5466636419296265,
      "mean_token_accuracy": 0.7765426337718964,
      "num_tokens": 2795330.0,
      "step": 171
    },
    {
      "entropy": 0.5298089534044266,
      "epoch": 0.6417910447761194,
      "grad_norm": 0.12450744211673737,
      "learning_rate": 0.0002,
      "loss": 0.5325064659118652,
      "mean_token_accuracy": 0.7838508486747742,
      "num_tokens": 2811566.0,
      "step": 172
    },
    {
      "entropy": 0.5550331622362137,
      "epoch": 0.6455223880597015,
      "grad_norm": 0.111052505671978,
      "learning_rate": 0.0002,
      "loss": 0.5552961230278015,
      "mean_token_accuracy": 0.7752347737550735,
      "num_tokens": 2827783.0,
      "step": 173
    },
    {
      "entropy": 0.5506296455860138,
      "epoch": 0.6492537313432836,
      "grad_norm": 0.13255524635314941,
      "learning_rate": 0.0002,
      "loss": 0.5490573048591614,
      "mean_token_accuracy": 0.7767810970544815,
      "num_tokens": 2844210.0,
      "step": 174
    },
    {
      "entropy": 0.5634674280881882,
      "epoch": 0.6529850746268657,
      "grad_norm": 0.11786694079637527,
      "learning_rate": 0.0002,
      "loss": 0.5620654225349426,
      "mean_token_accuracy": 0.7710569798946381,
      "num_tokens": 2860606.0,
      "step": 175
    },
    {
      "entropy": 0.5491903871297836,
      "epoch": 0.6567164179104478,
      "grad_norm": 0.1378813087940216,
      "learning_rate": 0.0002,
      "loss": 0.5544133186340332,
      "mean_token_accuracy": 0.7742699533700943,
      "num_tokens": 2876978.0,
      "step": 176
    },
    {
      "entropy": 0.5418348163366318,
      "epoch": 0.6604477611940298,
      "grad_norm": 0.1719319373369217,
      "learning_rate": 0.0002,
      "loss": 0.5509114265441895,
      "mean_token_accuracy": 0.7738531082868576,
      "num_tokens": 2893436.0,
      "step": 177
    },
    {
      "entropy": 0.5621145367622375,
      "epoch": 0.664179104477612,
      "grad_norm": 0.13473528623580933,
      "learning_rate": 0.0002,
      "loss": 0.5569881796836853,
      "mean_token_accuracy": 0.7752742022275925,
      "num_tokens": 2909714.0,
      "step": 178
    },
    {
      "entropy": 0.5567401647567749,
      "epoch": 0.667910447761194,
      "grad_norm": 0.15127326548099518,
      "learning_rate": 0.0002,
      "loss": 0.5531461238861084,
      "mean_token_accuracy": 0.7789575010538101,
      "num_tokens": 2926148.0,
      "step": 179
    },
    {
      "entropy": 0.5276759713888168,
      "epoch": 0.6716417910447762,
      "grad_norm": 0.1254606693983078,
      "learning_rate": 0.0002,
      "loss": 0.5301634669303894,
      "mean_token_accuracy": 0.7837289869785309,
      "num_tokens": 2942739.0,
      "step": 180
    },
    {
      "entropy": 0.5278603881597519,
      "epoch": 0.6753731343283582,
      "grad_norm": 0.128974050283432,
      "learning_rate": 0.0002,
      "loss": 0.5369632244110107,
      "mean_token_accuracy": 0.7825482338666916,
      "num_tokens": 2958977.0,
      "step": 181
    },
    {
      "entropy": 0.5377722084522247,
      "epoch": 0.6791044776119403,
      "grad_norm": 0.13316886126995087,
      "learning_rate": 0.0002,
      "loss": 0.5483193397521973,
      "mean_token_accuracy": 0.7763564735651016,
      "num_tokens": 2975274.0,
      "step": 182
    },
    {
      "entropy": 0.5507437884807587,
      "epoch": 0.6828358208955224,
      "grad_norm": 0.12445816397666931,
      "learning_rate": 0.0002,
      "loss": 0.5532326698303223,
      "mean_token_accuracy": 0.7756502628326416,
      "num_tokens": 2991599.0,
      "step": 183
    },
    {
      "entropy": 0.5495483875274658,
      "epoch": 0.6865671641791045,
      "grad_norm": 0.11616785079240799,
      "learning_rate": 0.0002,
      "loss": 0.5388738512992859,
      "mean_token_accuracy": 0.780926913022995,
      "num_tokens": 3008127.0,
      "step": 184
    },
    {
      "entropy": 0.5604113638401031,
      "epoch": 0.6902985074626866,
      "grad_norm": 0.10933785885572433,
      "learning_rate": 0.0002,
      "loss": 0.5567720532417297,
      "mean_token_accuracy": 0.7762922942638397,
      "num_tokens": 3024360.0,
      "step": 185
    },
    {
      "entropy": 0.5393257141113281,
      "epoch": 0.6940298507462687,
      "grad_norm": 0.13075008988380432,
      "learning_rate": 0.0002,
      "loss": 0.5377945303916931,
      "mean_token_accuracy": 0.7826398611068726,
      "num_tokens": 3040880.0,
      "step": 186
    },
    {
      "entropy": 0.534931406378746,
      "epoch": 0.6977611940298507,
      "grad_norm": 0.11783911287784576,
      "learning_rate": 0.0002,
      "loss": 0.5384173393249512,
      "mean_token_accuracy": 0.7814484983682632,
      "num_tokens": 3057215.0,
      "step": 187
    },
    {
      "entropy": 0.5480581521987915,
      "epoch": 0.7014925373134329,
      "grad_norm": 0.11767826229333878,
      "learning_rate": 0.0002,
      "loss": 0.5535053610801697,
      "mean_token_accuracy": 0.7753477245569229,
      "num_tokens": 3073526.0,
      "step": 188
    },
    {
      "entropy": 0.5417313128709793,
      "epoch": 0.7052238805970149,
      "grad_norm": 0.1221914142370224,
      "learning_rate": 0.0002,
      "loss": 0.5454643368721008,
      "mean_token_accuracy": 0.7766887843608856,
      "num_tokens": 3089677.0,
      "step": 189
    },
    {
      "entropy": 0.5625078678131104,
      "epoch": 0.7089552238805971,
      "grad_norm": 0.11974587291479111,
      "learning_rate": 0.0002,
      "loss": 0.5611926913261414,
      "mean_token_accuracy": 0.7717815935611725,
      "num_tokens": 3105979.0,
      "step": 190
    },
    {
      "entropy": 0.5516901463270187,
      "epoch": 0.7126865671641791,
      "grad_norm": 0.11311069130897522,
      "learning_rate": 0.0002,
      "loss": 0.5487813949584961,
      "mean_token_accuracy": 0.7764030396938324,
      "num_tokens": 3122320.0,
      "step": 191
    },
    {
      "entropy": 0.5541231781244278,
      "epoch": 0.7164179104477612,
      "grad_norm": 0.12345684319734573,
      "learning_rate": 0.0002,
      "loss": 0.5585082173347473,
      "mean_token_accuracy": 0.774434968829155,
      "num_tokens": 3138647.0,
      "step": 192
    },
    {
      "entropy": 0.5558422803878784,
      "epoch": 0.7201492537313433,
      "grad_norm": 0.13054387271404266,
      "learning_rate": 0.0002,
      "loss": 0.5540096163749695,
      "mean_token_accuracy": 0.7756641954183578,
      "num_tokens": 3154847.0,
      "step": 193
    },
    {
      "entropy": 0.55143603682518,
      "epoch": 0.7238805970149254,
      "grad_norm": 0.14231973886489868,
      "learning_rate": 0.0002,
      "loss": 0.5643096566200256,
      "mean_token_accuracy": 0.7717767059803009,
      "num_tokens": 3171336.0,
      "step": 194
    },
    {
      "entropy": 0.5277590304613113,
      "epoch": 0.7276119402985075,
      "grad_norm": 0.12328840047121048,
      "learning_rate": 0.0002,
      "loss": 0.5327441096305847,
      "mean_token_accuracy": 0.7853522598743439,
      "num_tokens": 3187829.0,
      "step": 195
    },
    {
      "entropy": 0.5539046078920364,
      "epoch": 0.7313432835820896,
      "grad_norm": 0.12686993181705475,
      "learning_rate": 0.0002,
      "loss": 0.5454736948013306,
      "mean_token_accuracy": 0.7813247591257095,
      "num_tokens": 3204100.0,
      "step": 196
    },
    {
      "entropy": 0.5553427636623383,
      "epoch": 0.7350746268656716,
      "grad_norm": 0.14084763824939728,
      "learning_rate": 0.0002,
      "loss": 0.5538918972015381,
      "mean_token_accuracy": 0.7761572599411011,
      "num_tokens": 3220526.0,
      "step": 197
    },
    {
      "entropy": 0.5553955286741257,
      "epoch": 0.7388059701492538,
      "grad_norm": 0.15137532353401184,
      "learning_rate": 0.0002,
      "loss": 0.5569421648979187,
      "mean_token_accuracy": 0.7751066386699677,
      "num_tokens": 3237005.0,
      "step": 198
    },
    {
      "entropy": 0.5306164473295212,
      "epoch": 0.7425373134328358,
      "grad_norm": 0.14029283821582794,
      "learning_rate": 0.0002,
      "loss": 0.5325392484664917,
      "mean_token_accuracy": 0.7821047902107239,
      "num_tokens": 3253191.0,
      "step": 199
    },
    {
      "entropy": 0.5289445072412491,
      "epoch": 0.746268656716418,
      "grad_norm": 0.1625203937292099,
      "learning_rate": 0.0002,
      "loss": 0.530889093875885,
      "mean_token_accuracy": 0.7839524000883102,
      "num_tokens": 3269303.0,
      "step": 200
    },
    {
      "entropy": 0.5537738502025604,
      "epoch": 0.75,
      "grad_norm": 0.12837141752243042,
      "learning_rate": 0.0002,
      "loss": 0.5496644377708435,
      "mean_token_accuracy": 0.7775348573923111,
      "num_tokens": 3285861.0,
      "step": 201
    },
    {
      "entropy": 0.5437710881233215,
      "epoch": 0.753731343283582,
      "grad_norm": 0.15969154238700867,
      "learning_rate": 0.0002,
      "loss": 0.5445458889007568,
      "mean_token_accuracy": 0.7779001444578171,
      "num_tokens": 3302531.0,
      "step": 202
    },
    {
      "entropy": 0.5435174703598022,
      "epoch": 0.7574626865671642,
      "grad_norm": 0.1447206735610962,
      "learning_rate": 0.0002,
      "loss": 0.5419492125511169,
      "mean_token_accuracy": 0.782675564289093,
      "num_tokens": 3318918.0,
      "step": 203
    },
    {
      "entropy": 0.5337730944156647,
      "epoch": 0.7611940298507462,
      "grad_norm": 0.13017146289348602,
      "learning_rate": 0.0002,
      "loss": 0.5400105714797974,
      "mean_token_accuracy": 0.7810544222593307,
      "num_tokens": 3335348.0,
      "step": 204
    },
    {
      "entropy": 0.534254178404808,
      "epoch": 0.7649253731343284,
      "grad_norm": 0.11939690262079239,
      "learning_rate": 0.0002,
      "loss": 0.5358497500419617,
      "mean_token_accuracy": 0.7831085026264191,
      "num_tokens": 3351607.0,
      "step": 205
    },
    {
      "entropy": 0.5295046716928482,
      "epoch": 0.7686567164179104,
      "grad_norm": 0.17022010684013367,
      "learning_rate": 0.0002,
      "loss": 0.5389232635498047,
      "mean_token_accuracy": 0.7811893969774246,
      "num_tokens": 3368046.0,
      "step": 206
    },
    {
      "entropy": 0.5532102882862091,
      "epoch": 0.7723880597014925,
      "grad_norm": 0.13207128643989563,
      "learning_rate": 0.0002,
      "loss": 0.556742787361145,
      "mean_token_accuracy": 0.7772794514894485,
      "num_tokens": 3384496.0,
      "step": 207
    },
    {
      "entropy": 0.5532752573490143,
      "epoch": 0.7761194029850746,
      "grad_norm": 0.16495952010154724,
      "learning_rate": 0.0002,
      "loss": 0.5545544624328613,
      "mean_token_accuracy": 0.777538612484932,
      "num_tokens": 3400918.0,
      "step": 208
    },
    {
      "entropy": 0.534032866358757,
      "epoch": 0.7798507462686567,
      "grad_norm": 0.1333177387714386,
      "learning_rate": 0.0002,
      "loss": 0.533141553401947,
      "mean_token_accuracy": 0.7848780155181885,
      "num_tokens": 3417300.0,
      "step": 209
    },
    {
      "entropy": 0.5450873523950577,
      "epoch": 0.7835820895522388,
      "grad_norm": 0.12406419962644577,
      "learning_rate": 0.0002,
      "loss": 0.5425257086753845,
      "mean_token_accuracy": 0.781457707285881,
      "num_tokens": 3433516.0,
      "step": 210
    },
    {
      "entropy": 0.5520957857370377,
      "epoch": 0.7873134328358209,
      "grad_norm": 0.16319960355758667,
      "learning_rate": 0.0002,
      "loss": 0.5528780817985535,
      "mean_token_accuracy": 0.7751211673021317,
      "num_tokens": 3449854.0,
      "step": 211
    },
    {
      "entropy": 0.5411545261740685,
      "epoch": 0.7910447761194029,
      "grad_norm": 0.11995123326778412,
      "learning_rate": 0.0002,
      "loss": 0.5378537178039551,
      "mean_token_accuracy": 0.7797028720378876,
      "num_tokens": 3466138.0,
      "step": 212
    },
    {
      "entropy": 0.5522632747888565,
      "epoch": 0.7947761194029851,
      "grad_norm": 0.14674413204193115,
      "learning_rate": 0.0002,
      "loss": 0.5561342239379883,
      "mean_token_accuracy": 0.7742671966552734,
      "num_tokens": 3482443.0,
      "step": 213
    },
    {
      "entropy": 0.5423247516155243,
      "epoch": 0.7985074626865671,
      "grad_norm": 0.1413860321044922,
      "learning_rate": 0.0002,
      "loss": 0.5450446605682373,
      "mean_token_accuracy": 0.7770555764436722,
      "num_tokens": 3498627.0,
      "step": 214
    },
    {
      "entropy": 0.5330623686313629,
      "epoch": 0.8022388059701493,
      "grad_norm": 0.1323142796754837,
      "learning_rate": 0.0002,
      "loss": 0.5411436557769775,
      "mean_token_accuracy": 0.7801088243722916,
      "num_tokens": 3515028.0,
      "step": 215
    },
    {
      "entropy": 0.5561616569757462,
      "epoch": 0.8059701492537313,
      "grad_norm": 0.14549626410007477,
      "learning_rate": 0.0002,
      "loss": 0.5557980537414551,
      "mean_token_accuracy": 0.774229571223259,
      "num_tokens": 3531502.0,
      "step": 216
    },
    {
      "entropy": 0.5611517131328583,
      "epoch": 0.8097014925373134,
      "grad_norm": 0.13433797657489777,
      "learning_rate": 0.0002,
      "loss": 0.5634274482727051,
      "mean_token_accuracy": 0.7715686410665512,
      "num_tokens": 3547519.0,
      "step": 217
    },
    {
      "entropy": 0.5514582842588425,
      "epoch": 0.8134328358208955,
      "grad_norm": 0.11890087276697159,
      "learning_rate": 0.0002,
      "loss": 0.5433245897293091,
      "mean_token_accuracy": 0.7793933302164078,
      "num_tokens": 3563773.0,
      "step": 218
    },
    {
      "entropy": 0.534797728061676,
      "epoch": 0.8171641791044776,
      "grad_norm": 0.1360422521829605,
      "learning_rate": 0.0002,
      "loss": 0.5381568670272827,
      "mean_token_accuracy": 0.7809459120035172,
      "num_tokens": 3580120.0,
      "step": 219
    },
    {
      "entropy": 0.5429193377494812,
      "epoch": 0.8208955223880597,
      "grad_norm": 0.13077932596206665,
      "learning_rate": 0.0002,
      "loss": 0.5535344481468201,
      "mean_token_accuracy": 0.7765921354293823,
      "num_tokens": 3596382.0,
      "step": 220
    },
    {
      "entropy": 0.5237333700060844,
      "epoch": 0.8246268656716418,
      "grad_norm": 0.1276118904352188,
      "learning_rate": 0.0002,
      "loss": 0.5291868448257446,
      "mean_token_accuracy": 0.7849691659212112,
      "num_tokens": 3612537.0,
      "step": 221
    },
    {
      "entropy": 0.5639058351516724,
      "epoch": 0.8283582089552238,
      "grad_norm": 0.1108359843492508,
      "learning_rate": 0.0002,
      "loss": 0.5600181221961975,
      "mean_token_accuracy": 0.7725061029195786,
      "num_tokens": 3629049.0,
      "step": 222
    },
    {
      "entropy": 0.5387094169855118,
      "epoch": 0.832089552238806,
      "grad_norm": 0.14372611045837402,
      "learning_rate": 0.0002,
      "loss": 0.5452870726585388,
      "mean_token_accuracy": 0.7791440933942795,
      "num_tokens": 3645497.0,
      "step": 223
    },
    {
      "entropy": 0.5521352589130402,
      "epoch": 0.835820895522388,
      "grad_norm": 0.1448589414358139,
      "learning_rate": 0.0002,
      "loss": 0.5500624775886536,
      "mean_token_accuracy": 0.7766592055559158,
      "num_tokens": 3661916.0,
      "step": 224
    },
    {
      "entropy": 0.5495995134115219,
      "epoch": 0.8395522388059702,
      "grad_norm": 0.11583460122346878,
      "learning_rate": 0.0002,
      "loss": 0.5486539006233215,
      "mean_token_accuracy": 0.77958944439888,
      "num_tokens": 3678385.0,
      "step": 225
    },
    {
      "entropy": 0.5483616590499878,
      "epoch": 0.8432835820895522,
      "grad_norm": 0.12950138747692108,
      "learning_rate": 0.0002,
      "loss": 0.550271213054657,
      "mean_token_accuracy": 0.7755987495183945,
      "num_tokens": 3694915.0,
      "step": 226
    },
    {
      "entropy": 0.5614336878061295,
      "epoch": 0.8470149253731343,
      "grad_norm": 0.1335671842098236,
      "learning_rate": 0.0002,
      "loss": 0.5636512041091919,
      "mean_token_accuracy": 0.7719693928956985,
      "num_tokens": 3710911.0,
      "step": 227
    },
    {
      "entropy": 0.5516408532857895,
      "epoch": 0.8507462686567164,
      "grad_norm": 0.11091525852680206,
      "learning_rate": 0.0002,
      "loss": 0.5478500127792358,
      "mean_token_accuracy": 0.7780372649431229,
      "num_tokens": 3727387.0,
      "step": 228
    },
    {
      "entropy": 0.5346055030822754,
      "epoch": 0.8544776119402985,
      "grad_norm": 0.1468094438314438,
      "learning_rate": 0.0002,
      "loss": 0.5368551015853882,
      "mean_token_accuracy": 0.7816846072673798,
      "num_tokens": 3743610.0,
      "step": 229
    },
    {
      "entropy": 0.5556191802024841,
      "epoch": 0.8582089552238806,
      "grad_norm": 0.12531019747257233,
      "learning_rate": 0.0002,
      "loss": 0.554017961025238,
      "mean_token_accuracy": 0.775733008980751,
      "num_tokens": 3759900.0,
      "step": 230
    },
    {
      "entropy": 0.5382195562124252,
      "epoch": 0.8619402985074627,
      "grad_norm": 0.12708726525306702,
      "learning_rate": 0.0002,
      "loss": 0.5370462536811829,
      "mean_token_accuracy": 0.7824227660894394,
      "num_tokens": 3776209.0,
      "step": 231
    },
    {
      "entropy": 0.5437551140785217,
      "epoch": 0.8656716417910447,
      "grad_norm": 0.14250780642032623,
      "learning_rate": 0.0002,
      "loss": 0.5482578277587891,
      "mean_token_accuracy": 0.7775947004556656,
      "num_tokens": 3792690.0,
      "step": 232
    },
    {
      "entropy": 0.5299069508910179,
      "epoch": 0.8694029850746269,
      "grad_norm": 0.09997344017028809,
      "learning_rate": 0.0002,
      "loss": 0.5321590900421143,
      "mean_token_accuracy": 0.7849525660276413,
      "num_tokens": 3808996.0,
      "step": 233
    },
    {
      "entropy": 0.5415566265583038,
      "epoch": 0.8731343283582089,
      "grad_norm": 0.14475880563259125,
      "learning_rate": 0.0002,
      "loss": 0.5407425165176392,
      "mean_token_accuracy": 0.7812676578760147,
      "num_tokens": 3825184.0,
      "step": 234
    },
    {
      "entropy": 0.5459320992231369,
      "epoch": 0.8768656716417911,
      "grad_norm": 0.1116221696138382,
      "learning_rate": 0.0002,
      "loss": 0.546471118927002,
      "mean_token_accuracy": 0.779377743601799,
      "num_tokens": 3841452.0,
      "step": 235
    },
    {
      "entropy": 0.5291514843702316,
      "epoch": 0.8805970149253731,
      "grad_norm": 0.12996730208396912,
      "learning_rate": 0.0002,
      "loss": 0.5327478647232056,
      "mean_token_accuracy": 0.7848521023988724,
      "num_tokens": 3858017.0,
      "step": 236
    },
    {
      "entropy": 0.5208889245986938,
      "epoch": 0.8843283582089553,
      "grad_norm": 0.16807906329631805,
      "learning_rate": 0.0002,
      "loss": 0.5301882028579712,
      "mean_token_accuracy": 0.786228597164154,
      "num_tokens": 3874064.0,
      "step": 237
    },
    {
      "entropy": 0.5617295503616333,
      "epoch": 0.8880597014925373,
      "grad_norm": 0.10751146823167801,
      "learning_rate": 0.0002,
      "loss": 0.5591222047805786,
      "mean_token_accuracy": 0.7737416923046112,
      "num_tokens": 3890590.0,
      "step": 238
    },
    {
      "entropy": 0.5473610609769821,
      "epoch": 0.8917910447761194,
      "grad_norm": 0.156968355178833,
      "learning_rate": 0.0002,
      "loss": 0.5408577919006348,
      "mean_token_accuracy": 0.7787807583808899,
      "num_tokens": 3906796.0,
      "step": 239
    },
    {
      "entropy": 0.5521116256713867,
      "epoch": 0.8955223880597015,
      "grad_norm": 0.1288469135761261,
      "learning_rate": 0.0002,
      "loss": 0.549975574016571,
      "mean_token_accuracy": 0.7787336856126785,
      "num_tokens": 3923243.0,
      "step": 240
    },
    {
      "entropy": 0.5367736220359802,
      "epoch": 0.8992537313432836,
      "grad_norm": 0.15267081558704376,
      "learning_rate": 0.0002,
      "loss": 0.5406203269958496,
      "mean_token_accuracy": 0.7823334783315659,
      "num_tokens": 3939802.0,
      "step": 241
    },
    {
      "entropy": 0.5384350121021271,
      "epoch": 0.9029850746268657,
      "grad_norm": 0.12661150097846985,
      "learning_rate": 0.0002,
      "loss": 0.5470013618469238,
      "mean_token_accuracy": 0.7777878791093826,
      "num_tokens": 3956169.0,
      "step": 242
    },
    {
      "entropy": 0.534332662820816,
      "epoch": 0.9067164179104478,
      "grad_norm": 0.1578921526670456,
      "learning_rate": 0.0002,
      "loss": 0.5447706580162048,
      "mean_token_accuracy": 0.7791011482477188,
      "num_tokens": 3972588.0,
      "step": 243
    },
    {
      "entropy": 0.5489266514778137,
      "epoch": 0.9104477611940298,
      "grad_norm": 0.12818928062915802,
      "learning_rate": 0.0002,
      "loss": 0.5481740236282349,
      "mean_token_accuracy": 0.7786219567060471,
      "num_tokens": 3988829.0,
      "step": 244
    },
    {
      "entropy": 0.5603043735027313,
      "epoch": 0.914179104477612,
      "grad_norm": 0.12620778381824493,
      "learning_rate": 0.0002,
      "loss": 0.5473756194114685,
      "mean_token_accuracy": 0.7766416519880295,
      "num_tokens": 4005147.0,
      "step": 245
    },
    {
      "entropy": 0.5429242998361588,
      "epoch": 0.917910447761194,
      "grad_norm": 0.12476211786270142,
      "learning_rate": 0.0002,
      "loss": 0.5349637269973755,
      "mean_token_accuracy": 0.7825885117053986,
      "num_tokens": 4021414.0,
      "step": 246
    },
    {
      "entropy": 0.5483033657073975,
      "epoch": 0.9216417910447762,
      "grad_norm": 0.12620662152767181,
      "learning_rate": 0.0002,
      "loss": 0.5528666973114014,
      "mean_token_accuracy": 0.7761824727058411,
      "num_tokens": 4038127.0,
      "step": 247
    },
    {
      "entropy": 0.5366939753293991,
      "epoch": 0.9253731343283582,
      "grad_norm": 0.14575915038585663,
      "learning_rate": 0.0002,
      "loss": 0.5463760495185852,
      "mean_token_accuracy": 0.7789819538593292,
      "num_tokens": 4054823.0,
      "step": 248
    },
    {
      "entropy": 0.5289286822080612,
      "epoch": 0.9291044776119403,
      "grad_norm": 0.13227254152297974,
      "learning_rate": 0.0002,
      "loss": 0.5342484712600708,
      "mean_token_accuracy": 0.7823342829942703,
      "num_tokens": 4071168.0,
      "step": 249
    },
    {
      "entropy": 0.5574782639741898,
      "epoch": 0.9328358208955224,
      "grad_norm": 0.11694958060979843,
      "learning_rate": 0.0002,
      "loss": 0.555205225944519,
      "mean_token_accuracy": 0.7752824872732162,
      "num_tokens": 4087486.0,
      "step": 250
    },
    {
      "entropy": 0.5487115234136581,
      "epoch": 0.9365671641791045,
      "grad_norm": 0.12190678715705872,
      "learning_rate": 0.0002,
      "loss": 0.5393535494804382,
      "mean_token_accuracy": 0.7831632941961288,
      "num_tokens": 4103816.0,
      "step": 251
    },
    {
      "entropy": 0.559577152132988,
      "epoch": 0.9402985074626866,
      "grad_norm": 0.17028383910655975,
      "learning_rate": 0.0002,
      "loss": 0.5525080561637878,
      "mean_token_accuracy": 0.7758573293685913,
      "num_tokens": 4120222.0,
      "step": 252
    },
    {
      "entropy": 0.5650424063205719,
      "epoch": 0.9440298507462687,
      "grad_norm": 0.11132688075304031,
      "learning_rate": 0.0002,
      "loss": 0.5637966394424438,
      "mean_token_accuracy": 0.7707894593477249,
      "num_tokens": 4136652.0,
      "step": 253
    },
    {
      "entropy": 0.5160737410187721,
      "epoch": 0.9477611940298507,
      "grad_norm": 0.15931887924671173,
      "learning_rate": 0.0002,
      "loss": 0.5282326936721802,
      "mean_token_accuracy": 0.7854665815830231,
      "num_tokens": 4152947.0,
      "step": 254
    },
    {
      "entropy": 0.537076398730278,
      "epoch": 0.9514925373134329,
      "grad_norm": 0.12814630568027496,
      "learning_rate": 0.0002,
      "loss": 0.5451772809028625,
      "mean_token_accuracy": 0.7802058607339859,
      "num_tokens": 4169503.0,
      "step": 255
    },
    {
      "entropy": 0.5342639088630676,
      "epoch": 0.9552238805970149,
      "grad_norm": 0.1517118364572525,
      "learning_rate": 0.0002,
      "loss": 0.5411078333854675,
      "mean_token_accuracy": 0.7786644250154495,
      "num_tokens": 4185621.0,
      "step": 256
    },
    {
      "entropy": 0.5415196269750595,
      "epoch": 0.9589552238805971,
      "grad_norm": 0.1379823535680771,
      "learning_rate": 0.0002,
      "loss": 0.5376235842704773,
      "mean_token_accuracy": 0.782574325799942,
      "num_tokens": 4201870.0,
      "step": 257
    },
    {
      "entropy": 0.5464203655719757,
      "epoch": 0.9626865671641791,
      "grad_norm": 0.11068425327539444,
      "learning_rate": 0.0002,
      "loss": 0.5408488512039185,
      "mean_token_accuracy": 0.780770868062973,
      "num_tokens": 4218151.0,
      "step": 258
    },
    {
      "entropy": 0.5458406358957291,
      "epoch": 0.9664179104477612,
      "grad_norm": 0.12213952839374542,
      "learning_rate": 0.0002,
      "loss": 0.5443609952926636,
      "mean_token_accuracy": 0.7778299003839493,
      "num_tokens": 4234366.0,
      "step": 259
    },
    {
      "entropy": 0.5463070273399353,
      "epoch": 0.9701492537313433,
      "grad_norm": 0.13273894786834717,
      "learning_rate": 0.0002,
      "loss": 0.5463058948516846,
      "mean_token_accuracy": 0.7797796875238419,
      "num_tokens": 4250736.0,
      "step": 260
    },
    {
      "entropy": 0.5530222281813622,
      "epoch": 0.9738805970149254,
      "grad_norm": 0.1269286721944809,
      "learning_rate": 0.0002,
      "loss": 0.5598427057266235,
      "mean_token_accuracy": 0.7720119059085846,
      "num_tokens": 4267145.0,
      "step": 261
    },
    {
      "entropy": 0.5307595282793045,
      "epoch": 0.9776119402985075,
      "grad_norm": 0.15041397511959076,
      "learning_rate": 0.0002,
      "loss": 0.5379044413566589,
      "mean_token_accuracy": 0.7826298028230667,
      "num_tokens": 4283482.0,
      "step": 262
    },
    {
      "entropy": 0.5570843815803528,
      "epoch": 0.9813432835820896,
      "grad_norm": 0.11555695533752441,
      "learning_rate": 0.0002,
      "loss": 0.5584969520568848,
      "mean_token_accuracy": 0.7722631692886353,
      "num_tokens": 4300006.0,
      "step": 263
    },
    {
      "entropy": 0.5427989065647125,
      "epoch": 0.9850746268656716,
      "grad_norm": 0.11381992697715759,
      "learning_rate": 0.0002,
      "loss": 0.5401906967163086,
      "mean_token_accuracy": 0.7819131314754486,
      "num_tokens": 4316285.0,
      "step": 264
    },
    {
      "entropy": 0.5244657546281815,
      "epoch": 0.9888059701492538,
      "grad_norm": 0.12954184412956238,
      "learning_rate": 0.0002,
      "loss": 0.5230352282524109,
      "mean_token_accuracy": 0.7875886708498001,
      "num_tokens": 4332644.0,
      "step": 265
    },
    {
      "entropy": 0.5411987751722336,
      "epoch": 0.9925373134328358,
      "grad_norm": 0.12008430063724518,
      "learning_rate": 0.0002,
      "loss": 0.5408762097358704,
      "mean_token_accuracy": 0.7805971801280975,
      "num_tokens": 4349014.0,
      "step": 266
    },
    {
      "entropy": 0.537212684750557,
      "epoch": 0.996268656716418,
      "grad_norm": 0.13956718146800995,
      "learning_rate": 0.0002,
      "loss": 0.5449704527854919,
      "mean_token_accuracy": 0.7769150733947754,
      "num_tokens": 4365397.0,
      "step": 267
    },
    {
      "entropy": 0.5412362664937973,
      "epoch": 1.0,
      "grad_norm": 0.11382853984832764,
      "learning_rate": 0.0002,
      "loss": 0.5392265319824219,
      "mean_token_accuracy": 0.7833839505910873,
      "num_tokens": 4381834.0,
      "step": 268
    },
    {
      "entropy": 0.5496137291193008,
      "epoch": 1.0037313432835822,
      "grad_norm": 0.14231012761592865,
      "learning_rate": 0.0002,
      "loss": 0.5489864945411682,
      "mean_token_accuracy": 0.7766753733158112,
      "num_tokens": 4398074.0,
      "step": 269
    },
    {
      "entropy": 0.5562388151884079,
      "epoch": 1.007462686567164,
      "grad_norm": 0.14497025310993195,
      "learning_rate": 0.0002,
      "loss": 0.5603899359703064,
      "mean_token_accuracy": 0.7735977172851562,
      "num_tokens": 4414424.0,
      "step": 270
    },
    {
      "entropy": 0.5293630063533783,
      "epoch": 1.0111940298507462,
      "grad_norm": 0.12251973897218704,
      "learning_rate": 0.0002,
      "loss": 0.5230416059494019,
      "mean_token_accuracy": 0.7859042882919312,
      "num_tokens": 4430738.0,
      "step": 271
    },
    {
      "entropy": 0.5297266095876694,
      "epoch": 1.0149253731343284,
      "grad_norm": 0.12865795195102692,
      "learning_rate": 0.0002,
      "loss": 0.5318350195884705,
      "mean_token_accuracy": 0.7831861972808838,
      "num_tokens": 4446854.0,
      "step": 272
    },
    {
      "entropy": 0.5223220437765121,
      "epoch": 1.0186567164179103,
      "grad_norm": 0.1494293063879013,
      "learning_rate": 0.0002,
      "loss": 0.5327814221382141,
      "mean_token_accuracy": 0.7832103371620178,
      "num_tokens": 4463067.0,
      "step": 273
    },
    {
      "entropy": 0.5113897025585175,
      "epoch": 1.0223880597014925,
      "grad_norm": 0.11985855549573898,
      "learning_rate": 0.0002,
      "loss": 0.5085136890411377,
      "mean_token_accuracy": 0.7943005859851837,
      "num_tokens": 4479208.0,
      "step": 274
    },
    {
      "entropy": 0.5331714898347855,
      "epoch": 1.0261194029850746,
      "grad_norm": 0.11615335196256638,
      "learning_rate": 0.0002,
      "loss": 0.5315767526626587,
      "mean_token_accuracy": 0.7823154479265213,
      "num_tokens": 4495400.0,
      "step": 275
    },
    {
      "entropy": 0.5418258756399155,
      "epoch": 1.0298507462686568,
      "grad_norm": 0.12503200769424438,
      "learning_rate": 0.0002,
      "loss": 0.5371681451797485,
      "mean_token_accuracy": 0.7810330092906952,
      "num_tokens": 4511712.0,
      "step": 276
    },
    {
      "entropy": 0.5291843414306641,
      "epoch": 1.0335820895522387,
      "grad_norm": 0.12552055716514587,
      "learning_rate": 0.0002,
      "loss": 0.5229098796844482,
      "mean_token_accuracy": 0.7861831933259964,
      "num_tokens": 4527757.0,
      "step": 277
    },
    {
      "entropy": 0.5402754694223404,
      "epoch": 1.037313432835821,
      "grad_norm": 0.12993621826171875,
      "learning_rate": 0.0002,
      "loss": 0.5389543771743774,
      "mean_token_accuracy": 0.782686859369278,
      "num_tokens": 4544172.0,
      "step": 278
    },
    {
      "entropy": 0.5249762684106827,
      "epoch": 1.041044776119403,
      "grad_norm": 0.1478368192911148,
      "learning_rate": 0.0002,
      "loss": 0.5288144946098328,
      "mean_token_accuracy": 0.7870309799909592,
      "num_tokens": 4560317.0,
      "step": 279
    },
    {
      "entropy": 0.5261744558811188,
      "epoch": 1.044776119402985,
      "grad_norm": 0.12392111867666245,
      "learning_rate": 0.0002,
      "loss": 0.5337116122245789,
      "mean_token_accuracy": 0.7859398722648621,
      "num_tokens": 4576552.0,
      "step": 280
    },
    {
      "entropy": 0.5196933448314667,
      "epoch": 1.0485074626865671,
      "grad_norm": 0.13088668882846832,
      "learning_rate": 0.0002,
      "loss": 0.5231020450592041,
      "mean_token_accuracy": 0.7892478257417679,
      "num_tokens": 4592581.0,
      "step": 281
    },
    {
      "entropy": 0.530863881111145,
      "epoch": 1.0522388059701493,
      "grad_norm": 0.12411776930093765,
      "learning_rate": 0.0002,
      "loss": 0.521477460861206,
      "mean_token_accuracy": 0.7883302420377731,
      "num_tokens": 4609148.0,
      "step": 282
    },
    {
      "entropy": 0.5147035792469978,
      "epoch": 1.0559701492537314,
      "grad_norm": 0.11664963513612747,
      "learning_rate": 0.0002,
      "loss": 0.5152803063392639,
      "mean_token_accuracy": 0.7897714674472809,
      "num_tokens": 4625339.0,
      "step": 283
    },
    {
      "entropy": 0.5241324007511139,
      "epoch": 1.0597014925373134,
      "grad_norm": 0.12206321954727173,
      "learning_rate": 0.0002,
      "loss": 0.5279011726379395,
      "mean_token_accuracy": 0.7872984111309052,
      "num_tokens": 4641602.0,
      "step": 284
    },
    {
      "entropy": 0.5386586785316467,
      "epoch": 1.0634328358208955,
      "grad_norm": 0.15844044089317322,
      "learning_rate": 0.0002,
      "loss": 0.5462183356285095,
      "mean_token_accuracy": 0.7776554077863693,
      "num_tokens": 4657935.0,
      "step": 285
    },
    {
      "entropy": 0.5212236195802689,
      "epoch": 1.0671641791044777,
      "grad_norm": 0.12227971851825714,
      "learning_rate": 0.0002,
      "loss": 0.524368941783905,
      "mean_token_accuracy": 0.7889244109392166,
      "num_tokens": 4674375.0,
      "step": 286
    },
    {
      "entropy": 0.5298297703266144,
      "epoch": 1.0708955223880596,
      "grad_norm": 0.11141645163297653,
      "learning_rate": 0.0002,
      "loss": 0.5300790667533875,
      "mean_token_accuracy": 0.7826484590768814,
      "num_tokens": 4690771.0,
      "step": 287
    },
    {
      "entropy": 0.5472451746463776,
      "epoch": 1.0746268656716418,
      "grad_norm": 0.12320703268051147,
      "learning_rate": 0.0002,
      "loss": 0.5423391461372375,
      "mean_token_accuracy": 0.780271515250206,
      "num_tokens": 4707429.0,
      "step": 288
    },
    {
      "entropy": 0.5120319426059723,
      "epoch": 1.078358208955224,
      "grad_norm": 0.12205273658037186,
      "learning_rate": 0.0002,
      "loss": 0.5049785375595093,
      "mean_token_accuracy": 0.7964775711297989,
      "num_tokens": 4723707.0,
      "step": 289
    },
    {
      "entropy": 0.5228906571865082,
      "epoch": 1.0820895522388059,
      "grad_norm": 0.14154046773910522,
      "learning_rate": 0.0002,
      "loss": 0.5207747220993042,
      "mean_token_accuracy": 0.7898598164319992,
      "num_tokens": 4739904.0,
      "step": 290
    },
    {
      "entropy": 0.522852934896946,
      "epoch": 1.085820895522388,
      "grad_norm": 0.12813158333301544,
      "learning_rate": 0.0002,
      "loss": 0.5229586958885193,
      "mean_token_accuracy": 0.7879058122634888,
      "num_tokens": 4756146.0,
      "step": 291
    },
    {
      "entropy": 0.5175448060035706,
      "epoch": 1.0895522388059702,
      "grad_norm": 0.1693999171257019,
      "learning_rate": 0.0002,
      "loss": 0.5333408713340759,
      "mean_token_accuracy": 0.7839324027299881,
      "num_tokens": 4772324.0,
      "step": 292
    },
    {
      "entropy": 0.5461927354335785,
      "epoch": 1.0932835820895523,
      "grad_norm": 0.1190054640173912,
      "learning_rate": 0.0002,
      "loss": 0.545452892780304,
      "mean_token_accuracy": 0.7791879326105118,
      "num_tokens": 4788838.0,
      "step": 293
    },
    {
      "entropy": 0.5367765128612518,
      "epoch": 1.0970149253731343,
      "grad_norm": 0.160573810338974,
      "learning_rate": 0.0002,
      "loss": 0.5323442816734314,
      "mean_token_accuracy": 0.7844058275222778,
      "num_tokens": 4805260.0,
      "step": 294
    },
    {
      "entropy": 0.5449754297733307,
      "epoch": 1.1007462686567164,
      "grad_norm": 0.13656781613826752,
      "learning_rate": 0.0002,
      "loss": 0.5343316793441772,
      "mean_token_accuracy": 0.786631390452385,
      "num_tokens": 4821651.0,
      "step": 295
    },
    {
      "entropy": 0.539639413356781,
      "epoch": 1.1044776119402986,
      "grad_norm": 0.15722377598285675,
      "learning_rate": 0.0002,
      "loss": 0.537823498249054,
      "mean_token_accuracy": 0.7838342785835266,
      "num_tokens": 4838086.0,
      "step": 296
    },
    {
      "entropy": 0.5071177557110786,
      "epoch": 1.1082089552238805,
      "grad_norm": 0.13242004811763763,
      "learning_rate": 0.0002,
      "loss": 0.519379198551178,
      "mean_token_accuracy": 0.790022000670433,
      "num_tokens": 4854421.0,
      "step": 297
    },
    {
      "entropy": 0.5327034294605255,
      "epoch": 1.1119402985074627,
      "grad_norm": 0.21717894077301025,
      "learning_rate": 0.0002,
      "loss": 0.5451952815055847,
      "mean_token_accuracy": 0.7793966829776764,
      "num_tokens": 4870862.0,
      "step": 298
    },
    {
      "entropy": 0.5120953842997551,
      "epoch": 1.1156716417910448,
      "grad_norm": 0.11570360511541367,
      "learning_rate": 0.0002,
      "loss": 0.5137699246406555,
      "mean_token_accuracy": 0.7910549491643906,
      "num_tokens": 4887047.0,
      "step": 299
    },
    {
      "entropy": 0.5416189283132553,
      "epoch": 1.1194029850746268,
      "grad_norm": 0.15835031867027283,
      "learning_rate": 0.0002,
      "loss": 0.5377160310745239,
      "mean_token_accuracy": 0.7817842811346054,
      "num_tokens": 4903770.0,
      "step": 300
    },
    {
      "entropy": 0.5600537657737732,
      "epoch": 1.123134328358209,
      "grad_norm": 0.16074593365192413,
      "learning_rate": 0.0002,
      "loss": 0.5558266043663025,
      "mean_token_accuracy": 0.7756943106651306,
      "num_tokens": 4920314.0,
      "step": 301
    },
    {
      "entropy": 0.5424332320690155,
      "epoch": 1.126865671641791,
      "grad_norm": 0.13547547161579132,
      "learning_rate": 0.0002,
      "loss": 0.5412736535072327,
      "mean_token_accuracy": 0.7802875488996506,
      "num_tokens": 4936795.0,
      "step": 302
    },
    {
      "entropy": 0.5479728579521179,
      "epoch": 1.1305970149253732,
      "grad_norm": 0.17388752102851868,
      "learning_rate": 0.0002,
      "loss": 0.5473156571388245,
      "mean_token_accuracy": 0.7779090404510498,
      "num_tokens": 4953215.0,
      "step": 303
    },
    {
      "entropy": 0.5354913771152496,
      "epoch": 1.1343283582089552,
      "grad_norm": 0.12070244550704956,
      "learning_rate": 0.0002,
      "loss": 0.5346955060958862,
      "mean_token_accuracy": 0.7821491658687592,
      "num_tokens": 4969473.0,
      "step": 304
    },
    {
      "entropy": 0.5357395708560944,
      "epoch": 1.1380597014925373,
      "grad_norm": 0.1695796698331833,
      "learning_rate": 0.0002,
      "loss": 0.5382478833198547,
      "mean_token_accuracy": 0.7825665175914764,
      "num_tokens": 4985892.0,
      "step": 305
    },
    {
      "entropy": 0.5406463518738747,
      "epoch": 1.1417910447761195,
      "grad_norm": 0.13278549909591675,
      "learning_rate": 0.0002,
      "loss": 0.5439954996109009,
      "mean_token_accuracy": 0.781127467751503,
      "num_tokens": 5002244.0,
      "step": 306
    },
    {
      "entropy": 0.5423679053783417,
      "epoch": 1.1455223880597014,
      "grad_norm": 0.1525002419948578,
      "learning_rate": 0.0002,
      "loss": 0.5506120324134827,
      "mean_token_accuracy": 0.7751760631799698,
      "num_tokens": 5018518.0,
      "step": 307
    },
    {
      "entropy": 0.5409325361251831,
      "epoch": 1.1492537313432836,
      "grad_norm": 0.1641884595155716,
      "learning_rate": 0.0002,
      "loss": 0.5398315787315369,
      "mean_token_accuracy": 0.7811702787876129,
      "num_tokens": 5034880.0,
      "step": 308
    },
    {
      "entropy": 0.527726948261261,
      "epoch": 1.1529850746268657,
      "grad_norm": 0.13098926842212677,
      "learning_rate": 0.0002,
      "loss": 0.5239942669868469,
      "mean_token_accuracy": 0.7863958179950714,
      "num_tokens": 5051492.0,
      "step": 309
    },
    {
      "entropy": 0.5603475868701935,
      "epoch": 1.1567164179104479,
      "grad_norm": 0.17059364914894104,
      "learning_rate": 0.0002,
      "loss": 0.5537184476852417,
      "mean_token_accuracy": 0.7751886546611786,
      "num_tokens": 5067902.0,
      "step": 310
    },
    {
      "entropy": 0.522188276052475,
      "epoch": 1.1604477611940298,
      "grad_norm": 0.14454245567321777,
      "learning_rate": 0.0002,
      "loss": 0.5286940932273865,
      "mean_token_accuracy": 0.7850693166255951,
      "num_tokens": 5084221.0,
      "step": 311
    },
    {
      "entropy": 0.5343948155641556,
      "epoch": 1.164179104477612,
      "grad_norm": 0.13227348029613495,
      "learning_rate": 0.0002,
      "loss": 0.5384489297866821,
      "mean_token_accuracy": 0.7807275205850601,
      "num_tokens": 5100663.0,
      "step": 312
    },
    {
      "entropy": 0.5275873988866806,
      "epoch": 1.1679104477611941,
      "grad_norm": 0.1753464788198471,
      "learning_rate": 0.0002,
      "loss": 0.5382294058799744,
      "mean_token_accuracy": 0.7828755527734756,
      "num_tokens": 5117302.0,
      "step": 313
    },
    {
      "entropy": 0.5497360378503799,
      "epoch": 1.171641791044776,
      "grad_norm": 0.13286371529102325,
      "learning_rate": 0.0002,
      "loss": 0.5496618151664734,
      "mean_token_accuracy": 0.7774941623210907,
      "num_tokens": 5133769.0,
      "step": 314
    },
    {
      "entropy": 0.532920241355896,
      "epoch": 1.1753731343283582,
      "grad_norm": 0.15036581456661224,
      "learning_rate": 0.0002,
      "loss": 0.5245468020439148,
      "mean_token_accuracy": 0.7888032495975494,
      "num_tokens": 5150119.0,
      "step": 315
    },
    {
      "entropy": 0.5440064817667007,
      "epoch": 1.1791044776119404,
      "grad_norm": 0.13510671257972717,
      "learning_rate": 0.0002,
      "loss": 0.5358728170394897,
      "mean_token_accuracy": 0.7828054130077362,
      "num_tokens": 5166721.0,
      "step": 316
    },
    {
      "entropy": 0.5312670171260834,
      "epoch": 1.1828358208955223,
      "grad_norm": 0.11371396481990814,
      "learning_rate": 0.0002,
      "loss": 0.5337090492248535,
      "mean_token_accuracy": 0.7806256115436554,
      "num_tokens": 5182960.0,
      "step": 317
    },
    {
      "entropy": 0.5359569638967514,
      "epoch": 1.1865671641791045,
      "grad_norm": 0.1442011594772339,
      "learning_rate": 0.0002,
      "loss": 0.5444678068161011,
      "mean_token_accuracy": 0.7807507514953613,
      "num_tokens": 5199188.0,
      "step": 318
    },
    {
      "entropy": 0.5328075140714645,
      "epoch": 1.1902985074626866,
      "grad_norm": 0.14832444489002228,
      "learning_rate": 0.0002,
      "loss": 0.5382975339889526,
      "mean_token_accuracy": 0.7805762439966202,
      "num_tokens": 5215650.0,
      "step": 319
    },
    {
      "entropy": 0.5216325521469116,
      "epoch": 1.1940298507462686,
      "grad_norm": 0.14424221217632294,
      "learning_rate": 0.0002,
      "loss": 0.5250576734542847,
      "mean_token_accuracy": 0.7859031856060028,
      "num_tokens": 5231820.0,
      "step": 320
    },
    {
      "entropy": 0.5351075977087021,
      "epoch": 1.1977611940298507,
      "grad_norm": 0.14221367239952087,
      "learning_rate": 0.0002,
      "loss": 0.5295757055282593,
      "mean_token_accuracy": 0.7862369567155838,
      "num_tokens": 5248279.0,
      "step": 321
    },
    {
      "entropy": 0.5397693365812302,
      "epoch": 1.2014925373134329,
      "grad_norm": 0.13292263448238373,
      "learning_rate": 0.0002,
      "loss": 0.5341707468032837,
      "mean_token_accuracy": 0.7843815088272095,
      "num_tokens": 5264712.0,
      "step": 322
    },
    {
      "entropy": 0.5192128270864487,
      "epoch": 1.205223880597015,
      "grad_norm": 0.14713309705257416,
      "learning_rate": 0.0002,
      "loss": 0.5247495770454407,
      "mean_token_accuracy": 0.7879969924688339,
      "num_tokens": 5280975.0,
      "step": 323
    },
    {
      "entropy": 0.542580246925354,
      "epoch": 1.208955223880597,
      "grad_norm": 0.1425526738166809,
      "learning_rate": 0.0002,
      "loss": 0.5457293391227722,
      "mean_token_accuracy": 0.7779300808906555,
      "num_tokens": 5297373.0,
      "step": 324
    },
    {
      "entropy": 0.51340202242136,
      "epoch": 1.212686567164179,
      "grad_norm": 0.13574931025505066,
      "learning_rate": 0.0002,
      "loss": 0.5158831477165222,
      "mean_token_accuracy": 0.7899662852287292,
      "num_tokens": 5313524.0,
      "step": 325
    },
    {
      "entropy": 0.5239507853984833,
      "epoch": 1.2164179104477613,
      "grad_norm": 0.1242108941078186,
      "learning_rate": 0.0002,
      "loss": 0.5264536142349243,
      "mean_token_accuracy": 0.7876432240009308,
      "num_tokens": 5330035.0,
      "step": 326
    },
    {
      "entropy": 0.5461296737194061,
      "epoch": 1.2201492537313432,
      "grad_norm": 0.13526761531829834,
      "learning_rate": 0.0002,
      "loss": 0.5456458330154419,
      "mean_token_accuracy": 0.7787662595510483,
      "num_tokens": 5346713.0,
      "step": 327
    },
    {
      "entropy": 0.5285127460956573,
      "epoch": 1.2238805970149254,
      "grad_norm": 0.1288863569498062,
      "learning_rate": 0.0002,
      "loss": 0.5286239385604858,
      "mean_token_accuracy": 0.7839469760656357,
      "num_tokens": 5362892.0,
      "step": 328
    },
    {
      "entropy": 0.5281976014375687,
      "epoch": 1.2276119402985075,
      "grad_norm": 0.15830843150615692,
      "learning_rate": 0.0002,
      "loss": 0.5338830351829529,
      "mean_token_accuracy": 0.7864977121353149,
      "num_tokens": 5379105.0,
      "step": 329
    },
    {
      "entropy": 0.537989154458046,
      "epoch": 1.2313432835820897,
      "grad_norm": 0.14264224469661713,
      "learning_rate": 0.0002,
      "loss": 0.5378222465515137,
      "mean_token_accuracy": 0.7845461368560791,
      "num_tokens": 5395557.0,
      "step": 330
    },
    {
      "entropy": 0.5446864664554596,
      "epoch": 1.2350746268656716,
      "grad_norm": 0.15385743975639343,
      "learning_rate": 0.0002,
      "loss": 0.5452708005905151,
      "mean_token_accuracy": 0.7787858992815018,
      "num_tokens": 5411870.0,
      "step": 331
    },
    {
      "entropy": 0.5162093490362167,
      "epoch": 1.2388059701492538,
      "grad_norm": 0.13330549001693726,
      "learning_rate": 0.0002,
      "loss": 0.5179134607315063,
      "mean_token_accuracy": 0.7886767089366913,
      "num_tokens": 5428174.0,
      "step": 332
    },
    {
      "entropy": 0.5166965126991272,
      "epoch": 1.242537313432836,
      "grad_norm": 0.13044792413711548,
      "learning_rate": 0.0002,
      "loss": 0.5149925947189331,
      "mean_token_accuracy": 0.7877358198165894,
      "num_tokens": 5444504.0,
      "step": 333
    },
    {
      "entropy": 0.5293487906455994,
      "epoch": 1.2462686567164178,
      "grad_norm": 0.15583756566047668,
      "learning_rate": 0.0002,
      "loss": 0.5320658087730408,
      "mean_token_accuracy": 0.7861583828926086,
      "num_tokens": 5460813.0,
      "step": 334
    },
    {
      "entropy": 0.5320923030376434,
      "epoch": 1.25,
      "grad_norm": 0.12959426641464233,
      "learning_rate": 0.0002,
      "loss": 0.5345736145973206,
      "mean_token_accuracy": 0.7825423777103424,
      "num_tokens": 5477333.0,
      "step": 335
    },
    {
      "entropy": 0.5326530635356903,
      "epoch": 1.2537313432835822,
      "grad_norm": 0.15951137244701385,
      "learning_rate": 0.0002,
      "loss": 0.5311124920845032,
      "mean_token_accuracy": 0.7841883301734924,
      "num_tokens": 5493735.0,
      "step": 336
    },
    {
      "entropy": 0.544501468539238,
      "epoch": 1.2574626865671643,
      "grad_norm": 0.12288819998502731,
      "learning_rate": 0.0002,
      "loss": 0.5451238751411438,
      "mean_token_accuracy": 0.7775899171829224,
      "num_tokens": 5510068.0,
      "step": 337
    },
    {
      "entropy": 0.5330418646335602,
      "epoch": 1.2611940298507462,
      "grad_norm": 0.13410672545433044,
      "learning_rate": 0.0002,
      "loss": 0.535346269607544,
      "mean_token_accuracy": 0.7835884392261505,
      "num_tokens": 5526452.0,
      "step": 338
    },
    {
      "entropy": 0.5434266775846481,
      "epoch": 1.2649253731343284,
      "grad_norm": 0.13076815009117126,
      "learning_rate": 0.0002,
      "loss": 0.5440234541893005,
      "mean_token_accuracy": 0.7821687757968903,
      "num_tokens": 5542951.0,
      "step": 339
    },
    {
      "entropy": 0.5151484906673431,
      "epoch": 1.2686567164179103,
      "grad_norm": 0.12828661501407623,
      "learning_rate": 0.0002,
      "loss": 0.5160608887672424,
      "mean_token_accuracy": 0.791755273938179,
      "num_tokens": 5559086.0,
      "step": 340
    },
    {
      "entropy": 0.5275644734501839,
      "epoch": 1.2723880597014925,
      "grad_norm": 0.13408422470092773,
      "learning_rate": 0.0002,
      "loss": 0.5317025184631348,
      "mean_token_accuracy": 0.7861050963401794,
      "num_tokens": 5575521.0,
      "step": 341
    },
    {
      "entropy": 0.5177630484104156,
      "epoch": 1.2761194029850746,
      "grad_norm": 0.12419670075178146,
      "learning_rate": 0.0002,
      "loss": 0.5191144347190857,
      "mean_token_accuracy": 0.7892575412988663,
      "num_tokens": 5591947.0,
      "step": 342
    },
    {
      "entropy": 0.5407169461250305,
      "epoch": 1.2798507462686568,
      "grad_norm": 0.1364241987466812,
      "learning_rate": 0.0002,
      "loss": 0.5430530309677124,
      "mean_token_accuracy": 0.779339611530304,
      "num_tokens": 5608447.0,
      "step": 343
    },
    {
      "entropy": 0.5262736082077026,
      "epoch": 1.2835820895522387,
      "grad_norm": 0.15587468445301056,
      "learning_rate": 0.0002,
      "loss": 0.5301055312156677,
      "mean_token_accuracy": 0.7836160659790039,
      "num_tokens": 5625044.0,
      "step": 344
    },
    {
      "entropy": 0.5458462238311768,
      "epoch": 1.287313432835821,
      "grad_norm": 0.13173708319664001,
      "learning_rate": 0.0002,
      "loss": 0.5517262816429138,
      "mean_token_accuracy": 0.7764803022146225,
      "num_tokens": 5641335.0,
      "step": 345
    },
    {
      "entropy": 0.5216450393199921,
      "epoch": 1.291044776119403,
      "grad_norm": 0.17484262585639954,
      "learning_rate": 0.0002,
      "loss": 0.5218112468719482,
      "mean_token_accuracy": 0.7843209207057953,
      "num_tokens": 5657347.0,
      "step": 346
    },
    {
      "entropy": 0.5498285889625549,
      "epoch": 1.294776119402985,
      "grad_norm": 0.12871748208999634,
      "learning_rate": 0.0002,
      "loss": 0.5382349491119385,
      "mean_token_accuracy": 0.7812492400407791,
      "num_tokens": 5673588.0,
      "step": 347
    },
    {
      "entropy": 0.5317611545324326,
      "epoch": 1.2985074626865671,
      "grad_norm": 0.15342608094215393,
      "learning_rate": 0.0002,
      "loss": 0.5276378989219666,
      "mean_token_accuracy": 0.7836941033601761,
      "num_tokens": 5689687.0,
      "step": 348
    },
    {
      "entropy": 0.5218729674816132,
      "epoch": 1.3022388059701493,
      "grad_norm": 0.1535658985376358,
      "learning_rate": 0.0002,
      "loss": 0.5265159606933594,
      "mean_token_accuracy": 0.7863410115242004,
      "num_tokens": 5705883.0,
      "step": 349
    },
    {
      "entropy": 0.5283405184745789,
      "epoch": 1.3059701492537314,
      "grad_norm": 0.1400662213563919,
      "learning_rate": 0.0002,
      "loss": 0.5348565578460693,
      "mean_token_accuracy": 0.7835897505283356,
      "num_tokens": 5722396.0,
      "step": 350
    },
    {
      "entropy": 0.5465448051691055,
      "epoch": 1.3097014925373134,
      "grad_norm": 0.1789598912000656,
      "learning_rate": 0.0002,
      "loss": 0.5508973002433777,
      "mean_token_accuracy": 0.7770535051822662,
      "num_tokens": 5738946.0,
      "step": 351
    },
    {
      "entropy": 0.5288202613592148,
      "epoch": 1.3134328358208955,
      "grad_norm": 0.12526051700115204,
      "learning_rate": 0.0002,
      "loss": 0.5298986434936523,
      "mean_token_accuracy": 0.7855530083179474,
      "num_tokens": 5755207.0,
      "step": 352
    },
    {
      "entropy": 0.5429712533950806,
      "epoch": 1.3171641791044777,
      "grad_norm": 0.12195583432912827,
      "learning_rate": 0.0002,
      "loss": 0.5387951731681824,
      "mean_token_accuracy": 0.7802612334489822,
      "num_tokens": 5771582.0,
      "step": 353
    },
    {
      "entropy": 0.5358787178993225,
      "epoch": 1.3208955223880596,
      "grad_norm": 0.15126559138298035,
      "learning_rate": 0.0002,
      "loss": 0.5349993705749512,
      "mean_token_accuracy": 0.7822433114051819,
      "num_tokens": 5787967.0,
      "step": 354
    },
    {
      "entropy": 0.5424338132143021,
      "epoch": 1.3246268656716418,
      "grad_norm": 0.1308310180902481,
      "learning_rate": 0.0002,
      "loss": 0.5434916615486145,
      "mean_token_accuracy": 0.7826928794384003,
      "num_tokens": 5804528.0,
      "step": 355
    },
    {
      "entropy": 0.5337295234203339,
      "epoch": 1.328358208955224,
      "grad_norm": 0.16843028366565704,
      "learning_rate": 0.0002,
      "loss": 0.5465773344039917,
      "mean_token_accuracy": 0.777764692902565,
      "num_tokens": 5820684.0,
      "step": 356
    },
    {
      "entropy": 0.504702128469944,
      "epoch": 1.332089552238806,
      "grad_norm": 0.1529076248407364,
      "learning_rate": 0.0002,
      "loss": 0.5113453269004822,
      "mean_token_accuracy": 0.791937530040741,
      "num_tokens": 5836988.0,
      "step": 357
    },
    {
      "entropy": 0.536053940653801,
      "epoch": 1.335820895522388,
      "grad_norm": 0.1379069983959198,
      "learning_rate": 0.0002,
      "loss": 0.5389484763145447,
      "mean_token_accuracy": 0.7813952714204788,
      "num_tokens": 5853542.0,
      "step": 358
    },
    {
      "entropy": 0.5438119322061539,
      "epoch": 1.3395522388059702,
      "grad_norm": 0.12008243054151535,
      "learning_rate": 0.0002,
      "loss": 0.5360631346702576,
      "mean_token_accuracy": 0.7817373275756836,
      "num_tokens": 5870213.0,
      "step": 359
    },
    {
      "entropy": 0.550885871052742,
      "epoch": 1.3432835820895521,
      "grad_norm": 0.13378706574440002,
      "learning_rate": 0.0002,
      "loss": 0.54970383644104,
      "mean_token_accuracy": 0.7768265455961227,
      "num_tokens": 5886513.0,
      "step": 360
    },
    {
      "entropy": 0.5400225073099136,
      "epoch": 1.3470149253731343,
      "grad_norm": 0.13530388474464417,
      "learning_rate": 0.0002,
      "loss": 0.5343542098999023,
      "mean_token_accuracy": 0.782709077000618,
      "num_tokens": 5903049.0,
      "step": 361
    },
    {
      "entropy": 0.5389147847890854,
      "epoch": 1.3507462686567164,
      "grad_norm": 0.12446677684783936,
      "learning_rate": 0.0002,
      "loss": 0.5388710498809814,
      "mean_token_accuracy": 0.781377524137497,
      "num_tokens": 5919403.0,
      "step": 362
    },
    {
      "entropy": 0.537296935915947,
      "epoch": 1.3544776119402986,
      "grad_norm": 0.13781245052814484,
      "learning_rate": 0.0002,
      "loss": 0.5438515543937683,
      "mean_token_accuracy": 0.7785618007183075,
      "num_tokens": 5935511.0,
      "step": 363
    },
    {
      "entropy": 0.5429168194532394,
      "epoch": 1.3582089552238805,
      "grad_norm": 0.13629309833049774,
      "learning_rate": 0.0002,
      "loss": 0.5453547239303589,
      "mean_token_accuracy": 0.7784431874752045,
      "num_tokens": 5951972.0,
      "step": 364
    },
    {
      "entropy": 0.5427183359861374,
      "epoch": 1.3619402985074627,
      "grad_norm": 0.1370571255683899,
      "learning_rate": 0.0002,
      "loss": 0.545956552028656,
      "mean_token_accuracy": 0.7787607759237289,
      "num_tokens": 5968229.0,
      "step": 365
    },
    {
      "entropy": 0.5378859043121338,
      "epoch": 1.3656716417910448,
      "grad_norm": 0.12471959739923477,
      "learning_rate": 0.0002,
      "loss": 0.5353823900222778,
      "mean_token_accuracy": 0.7809005975723267,
      "num_tokens": 5984669.0,
      "step": 366
    },
    {
      "entropy": 0.5365873426198959,
      "epoch": 1.3694029850746268,
      "grad_norm": 0.16501657664775848,
      "learning_rate": 0.0002,
      "loss": 0.5319327712059021,
      "mean_token_accuracy": 0.7824555039405823,
      "num_tokens": 6001027.0,
      "step": 367
    },
    {
      "entropy": 0.5265276953577995,
      "epoch": 1.373134328358209,
      "grad_norm": 0.12363235652446747,
      "learning_rate": 0.0002,
      "loss": 0.5210375785827637,
      "mean_token_accuracy": 0.7883688807487488,
      "num_tokens": 6017125.0,
      "step": 368
    },
    {
      "entropy": 0.5277390778064728,
      "epoch": 1.376865671641791,
      "grad_norm": 0.1423310935497284,
      "learning_rate": 0.0002,
      "loss": 0.5316471457481384,
      "mean_token_accuracy": 0.7828662693500519,
      "num_tokens": 6033508.0,
      "step": 369
    },
    {
      "entropy": 0.5263610854744911,
      "epoch": 1.3805970149253732,
      "grad_norm": 0.1381843090057373,
      "learning_rate": 0.0002,
      "loss": 0.5311442613601685,
      "mean_token_accuracy": 0.7821517586708069,
      "num_tokens": 6049886.0,
      "step": 370
    },
    {
      "entropy": 0.5286078453063965,
      "epoch": 1.3843283582089552,
      "grad_norm": 0.18003322184085846,
      "learning_rate": 0.0002,
      "loss": 0.5398144721984863,
      "mean_token_accuracy": 0.7803981304168701,
      "num_tokens": 6066120.0,
      "step": 371
    },
    {
      "entropy": 0.5356258824467659,
      "epoch": 1.3880597014925373,
      "grad_norm": 0.11802922934293747,
      "learning_rate": 0.0002,
      "loss": 0.53504878282547,
      "mean_token_accuracy": 0.7814585119485855,
      "num_tokens": 6082732.0,
      "step": 372
    },
    {
      "entropy": 0.5387788712978363,
      "epoch": 1.3917910447761195,
      "grad_norm": 0.13874171674251556,
      "learning_rate": 0.0002,
      "loss": 0.5358333587646484,
      "mean_token_accuracy": 0.7825580388307571,
      "num_tokens": 6099018.0,
      "step": 373
    },
    {
      "entropy": 0.5342960059642792,
      "epoch": 1.3955223880597014,
      "grad_norm": 0.1402461677789688,
      "learning_rate": 0.0002,
      "loss": 0.5348989963531494,
      "mean_token_accuracy": 0.7847650349140167,
      "num_tokens": 6115279.0,
      "step": 374
    },
    {
      "entropy": 0.5361053943634033,
      "epoch": 1.3992537313432836,
      "grad_norm": 0.11853493005037308,
      "learning_rate": 0.0002,
      "loss": 0.5328879356384277,
      "mean_token_accuracy": 0.7853472977876663,
      "num_tokens": 6131854.0,
      "step": 375
    },
    {
      "entropy": 0.5300562530755997,
      "epoch": 1.4029850746268657,
      "grad_norm": 0.1642550826072693,
      "learning_rate": 0.0002,
      "loss": 0.5330582857131958,
      "mean_token_accuracy": 0.7824369519948959,
      "num_tokens": 6148329.0,
      "step": 376
    },
    {
      "entropy": 0.5351111143827438,
      "epoch": 1.4067164179104479,
      "grad_norm": 0.13296250998973846,
      "learning_rate": 0.0002,
      "loss": 0.5308345556259155,
      "mean_token_accuracy": 0.7840287983417511,
      "num_tokens": 6164520.0,
      "step": 377
    },
    {
      "entropy": 0.549595445394516,
      "epoch": 1.4104477611940298,
      "grad_norm": 0.11937810480594635,
      "learning_rate": 0.0002,
      "loss": 0.5439208745956421,
      "mean_token_accuracy": 0.7801520526409149,
      "num_tokens": 6180840.0,
      "step": 378
    },
    {
      "entropy": 0.5249980017542839,
      "epoch": 1.414179104477612,
      "grad_norm": 0.14947783946990967,
      "learning_rate": 0.0002,
      "loss": 0.5214130878448486,
      "mean_token_accuracy": 0.7883247882127762,
      "num_tokens": 6197072.0,
      "step": 379
    },
    {
      "entropy": 0.5341014862060547,
      "epoch": 1.417910447761194,
      "grad_norm": 0.14708726108074188,
      "learning_rate": 0.0002,
      "loss": 0.5437160730361938,
      "mean_token_accuracy": 0.7790101766586304,
      "num_tokens": 6213410.0,
      "step": 380
    },
    {
      "entropy": 0.5305748581886292,
      "epoch": 1.421641791044776,
      "grad_norm": 0.15660500526428223,
      "learning_rate": 0.0002,
      "loss": 0.538860559463501,
      "mean_token_accuracy": 0.7808915078639984,
      "num_tokens": 6229812.0,
      "step": 381
    },
    {
      "entropy": 0.5335244983434677,
      "epoch": 1.4253731343283582,
      "grad_norm": 0.14013393223285675,
      "learning_rate": 0.0002,
      "loss": 0.5405108332633972,
      "mean_token_accuracy": 0.7806441932916641,
      "num_tokens": 6246122.0,
      "step": 382
    },
    {
      "entropy": 0.5370550155639648,
      "epoch": 1.4291044776119404,
      "grad_norm": 0.15498457849025726,
      "learning_rate": 0.0002,
      "loss": 0.5275038480758667,
      "mean_token_accuracy": 0.7845180481672287,
      "num_tokens": 6262400.0,
      "step": 383
    },
    {
      "entropy": 0.5388240739703178,
      "epoch": 1.4328358208955223,
      "grad_norm": 0.13547126948833466,
      "learning_rate": 0.0002,
      "loss": 0.5339113473892212,
      "mean_token_accuracy": 0.7817906439304352,
      "num_tokens": 6278433.0,
      "step": 384
    },
    {
      "entropy": 0.5327373743057251,
      "epoch": 1.4365671641791045,
      "grad_norm": 0.15488973259925842,
      "learning_rate": 0.0002,
      "loss": 0.536837637424469,
      "mean_token_accuracy": 0.7805320471525192,
      "num_tokens": 6294780.0,
      "step": 385
    },
    {
      "entropy": 0.5164054483175278,
      "epoch": 1.4402985074626866,
      "grad_norm": 0.13659167289733887,
      "learning_rate": 0.0002,
      "loss": 0.5196657180786133,
      "mean_token_accuracy": 0.7893420159816742,
      "num_tokens": 6310926.0,
      "step": 386
    },
    {
      "entropy": 0.5441898256540298,
      "epoch": 1.4440298507462686,
      "grad_norm": 0.30239349603652954,
      "learning_rate": 0.0002,
      "loss": 0.5498929023742676,
      "mean_token_accuracy": 0.7768156677484512,
      "num_tokens": 6327465.0,
      "step": 387
    },
    {
      "entropy": 0.5278986096382141,
      "epoch": 1.4477611940298507,
      "grad_norm": 0.16996067762374878,
      "learning_rate": 0.0002,
      "loss": 0.5285515785217285,
      "mean_token_accuracy": 0.786761000752449,
      "num_tokens": 6343503.0,
      "step": 388
    },
    {
      "entropy": 0.508112832903862,
      "epoch": 1.4514925373134329,
      "grad_norm": 0.14852264523506165,
      "learning_rate": 0.0002,
      "loss": 0.5129667520523071,
      "mean_token_accuracy": 0.7919276505708694,
      "num_tokens": 6359667.0,
      "step": 389
    },
    {
      "entropy": 0.5249242335557938,
      "epoch": 1.455223880597015,
      "grad_norm": 0.17182905972003937,
      "learning_rate": 0.0002,
      "loss": 0.5207914113998413,
      "mean_token_accuracy": 0.7878070920705795,
      "num_tokens": 6376114.0,
      "step": 390
    },
    {
      "entropy": 0.5415022522211075,
      "epoch": 1.458955223880597,
      "grad_norm": 0.14497698843479156,
      "learning_rate": 0.0002,
      "loss": 0.5450653433799744,
      "mean_token_accuracy": 0.7796677798032761,
      "num_tokens": 6392417.0,
      "step": 391
    },
    {
      "entropy": 0.5454135686159134,
      "epoch": 1.462686567164179,
      "grad_norm": 0.14885719120502472,
      "learning_rate": 0.0002,
      "loss": 0.5476389527320862,
      "mean_token_accuracy": 0.7781424224376678,
      "num_tokens": 6408701.0,
      "step": 392
    },
    {
      "entropy": 0.5305422842502594,
      "epoch": 1.4664179104477613,
      "grad_norm": 0.13111279904842377,
      "learning_rate": 0.0002,
      "loss": 0.5283982753753662,
      "mean_token_accuracy": 0.786282405257225,
      "num_tokens": 6425186.0,
      "step": 393
    },
    {
      "entropy": 0.519924134016037,
      "epoch": 1.4701492537313432,
      "grad_norm": 0.15385456383228302,
      "learning_rate": 0.0002,
      "loss": 0.5183860659599304,
      "mean_token_accuracy": 0.7890526354312897,
      "num_tokens": 6441474.0,
      "step": 394
    },
    {
      "entropy": 0.5419893115758896,
      "epoch": 1.4738805970149254,
      "grad_norm": 0.12959027290344238,
      "learning_rate": 0.0002,
      "loss": 0.5391095876693726,
      "mean_token_accuracy": 0.7845679074525833,
      "num_tokens": 6458137.0,
      "step": 395
    },
    {
      "entropy": 0.5297622233629227,
      "epoch": 1.4776119402985075,
      "grad_norm": 0.12876980006694794,
      "learning_rate": 0.0002,
      "loss": 0.5316991209983826,
      "mean_token_accuracy": 0.783607617020607,
      "num_tokens": 6474605.0,
      "step": 396
    },
    {
      "entropy": 0.5133326500654221,
      "epoch": 1.4813432835820897,
      "grad_norm": 0.23840782046318054,
      "learning_rate": 0.0002,
      "loss": 0.5223475098609924,
      "mean_token_accuracy": 0.7896056026220322,
      "num_tokens": 6490747.0,
      "step": 397
    },
    {
      "entropy": 0.540631890296936,
      "epoch": 1.4850746268656716,
      "grad_norm": 0.18176521360874176,
      "learning_rate": 0.0002,
      "loss": 0.5429366230964661,
      "mean_token_accuracy": 0.7787415534257889,
      "num_tokens": 6507149.0,
      "step": 398
    },
    {
      "entropy": 0.5534960627555847,
      "epoch": 1.4888059701492538,
      "grad_norm": 0.38266992568969727,
      "learning_rate": 0.0002,
      "loss": 0.5652564764022827,
      "mean_token_accuracy": 0.7736776769161224,
      "num_tokens": 6523502.0,
      "step": 399
    },
    {
      "entropy": 0.5438710153102875,
      "epoch": 1.4925373134328357,
      "grad_norm": 0.15845677256584167,
      "learning_rate": 0.0002,
      "loss": 0.5439051985740662,
      "mean_token_accuracy": 0.7816531956195831,
      "num_tokens": 6539815.0,
      "step": 400
    },
    {
      "entropy": 0.5452860891819,
      "epoch": 1.4962686567164178,
      "grad_norm": 0.19755159318447113,
      "learning_rate": 0.0002,
      "loss": 0.5404053926467896,
      "mean_token_accuracy": 0.7815948128700256,
      "num_tokens": 6555976.0,
      "step": 401
    },
    {
      "entropy": 0.5241969153285027,
      "epoch": 1.5,
      "grad_norm": 0.14966075122356415,
      "learning_rate": 0.0002,
      "loss": 0.5205419063568115,
      "mean_token_accuracy": 0.7888282835483551,
      "num_tokens": 6572116.0,
      "step": 402
    },
    {
      "entropy": 0.5179315954446793,
      "epoch": 1.5037313432835822,
      "grad_norm": 0.15208128094673157,
      "learning_rate": 0.0002,
      "loss": 0.5195380449295044,
      "mean_token_accuracy": 0.7901398837566376,
      "num_tokens": 6588360.0,
      "step": 403
    },
    {
      "entropy": 0.5443613976240158,
      "epoch": 1.5074626865671643,
      "grad_norm": 0.15764807164669037,
      "learning_rate": 0.0002,
      "loss": 0.5409551858901978,
      "mean_token_accuracy": 0.7817244678735733,
      "num_tokens": 6604909.0,
      "step": 404
    },
    {
      "entropy": 0.5555933266878128,
      "epoch": 1.5111940298507462,
      "grad_norm": 0.15518265962600708,
      "learning_rate": 0.0002,
      "loss": 0.5575823187828064,
      "mean_token_accuracy": 0.7727370858192444,
      "num_tokens": 6621271.0,
      "step": 405
    },
    {
      "entropy": 0.5448516458272934,
      "epoch": 1.5149253731343284,
      "grad_norm": 0.13999900221824646,
      "learning_rate": 0.0002,
      "loss": 0.5443175435066223,
      "mean_token_accuracy": 0.7797447293996811,
      "num_tokens": 6637394.0,
      "step": 406
    },
    {
      "entropy": 0.5633855164051056,
      "epoch": 1.5186567164179103,
      "grad_norm": 0.12512464821338654,
      "learning_rate": 0.0002,
      "loss": 0.5552009344100952,
      "mean_token_accuracy": 0.7740202099084854,
      "num_tokens": 6653670.0,
      "step": 407
    },
    {
      "entropy": 0.5442499816417694,
      "epoch": 1.5223880597014925,
      "grad_norm": 0.13073165714740753,
      "learning_rate": 0.0002,
      "loss": 0.5353500843048096,
      "mean_token_accuracy": 0.7859338223934174,
      "num_tokens": 6670329.0,
      "step": 408
    },
    {
      "entropy": 0.5133479535579681,
      "epoch": 1.5261194029850746,
      "grad_norm": 0.1424253284931183,
      "learning_rate": 0.0002,
      "loss": 0.5181159377098083,
      "mean_token_accuracy": 0.791978657245636,
      "num_tokens": 6686590.0,
      "step": 409
    },
    {
      "entropy": 0.5216629430651665,
      "epoch": 1.5298507462686568,
      "grad_norm": 0.15952785313129425,
      "learning_rate": 0.0002,
      "loss": 0.5411725640296936,
      "mean_token_accuracy": 0.7812029272317886,
      "num_tokens": 6702970.0,
      "step": 410
    },
    {
      "entropy": 0.5392735451459885,
      "epoch": 1.533582089552239,
      "grad_norm": 0.13047060370445251,
      "learning_rate": 0.0002,
      "loss": 0.5485432147979736,
      "mean_token_accuracy": 0.7774497866630554,
      "num_tokens": 6719627.0,
      "step": 411
    },
    {
      "entropy": 0.5269859135150909,
      "epoch": 1.537313432835821,
      "grad_norm": 0.13100764155387878,
      "learning_rate": 0.0002,
      "loss": 0.5288376212120056,
      "mean_token_accuracy": 0.7857958972454071,
      "num_tokens": 6735951.0,
      "step": 412
    },
    {
      "entropy": 0.546154260635376,
      "epoch": 1.5410447761194028,
      "grad_norm": 0.13160941004753113,
      "learning_rate": 0.0002,
      "loss": 0.5382481813430786,
      "mean_token_accuracy": 0.7786583751440048,
      "num_tokens": 6752564.0,
      "step": 413
    },
    {
      "entropy": 0.552439495921135,
      "epoch": 1.544776119402985,
      "grad_norm": 0.13911442458629608,
      "learning_rate": 0.0002,
      "loss": 0.5381487011909485,
      "mean_token_accuracy": 0.782607913017273,
      "num_tokens": 6768993.0,
      "step": 414
    },
    {
      "entropy": 0.5463637262582779,
      "epoch": 1.5485074626865671,
      "grad_norm": 0.12377088516950607,
      "learning_rate": 0.0002,
      "loss": 0.5482580661773682,
      "mean_token_accuracy": 0.7775403410196304,
      "num_tokens": 6785304.0,
      "step": 415
    },
    {
      "entropy": 0.5309856235980988,
      "epoch": 1.5522388059701493,
      "grad_norm": 0.14743956923484802,
      "learning_rate": 0.0002,
      "loss": 0.5372556447982788,
      "mean_token_accuracy": 0.7811425626277924,
      "num_tokens": 6801545.0,
      "step": 416
    },
    {
      "entropy": 0.5256488621234894,
      "epoch": 1.5559701492537314,
      "grad_norm": 0.13745813071727753,
      "learning_rate": 0.0002,
      "loss": 0.5335954427719116,
      "mean_token_accuracy": 0.7857853770256042,
      "num_tokens": 6817793.0,
      "step": 417
    },
    {
      "entropy": 0.5426470339298248,
      "epoch": 1.5597014925373134,
      "grad_norm": 0.15729817748069763,
      "learning_rate": 0.0002,
      "loss": 0.5557945966720581,
      "mean_token_accuracy": 0.7755606323480606,
      "num_tokens": 6834171.0,
      "step": 418
    },
    {
      "entropy": 0.5429180264472961,
      "epoch": 1.5634328358208955,
      "grad_norm": 0.1530143916606903,
      "learning_rate": 0.0002,
      "loss": 0.5445144176483154,
      "mean_token_accuracy": 0.7793177515268326,
      "num_tokens": 6850298.0,
      "step": 419
    },
    {
      "entropy": 0.5458863228559494,
      "epoch": 1.5671641791044775,
      "grad_norm": 0.1244051530957222,
      "learning_rate": 0.0002,
      "loss": 0.5383530855178833,
      "mean_token_accuracy": 0.7812670916318893,
      "num_tokens": 6866891.0,
      "step": 420
    },
    {
      "entropy": 0.564603790640831,
      "epoch": 1.5708955223880596,
      "grad_norm": 0.14283782243728638,
      "learning_rate": 0.0002,
      "loss": 0.5600205659866333,
      "mean_token_accuracy": 0.7725525945425034,
      "num_tokens": 6883247.0,
      "step": 421
    },
    {
      "entropy": 0.5389530211687088,
      "epoch": 1.5746268656716418,
      "grad_norm": 0.13312764465808868,
      "learning_rate": 0.0002,
      "loss": 0.5395158529281616,
      "mean_token_accuracy": 0.7833812385797501,
      "num_tokens": 6899801.0,
      "step": 422
    },
    {
      "entropy": 0.5225178450345993,
      "epoch": 1.578358208955224,
      "grad_norm": 0.12671785056591034,
      "learning_rate": 0.0002,
      "loss": 0.530681312084198,
      "mean_token_accuracy": 0.7860707342624664,
      "num_tokens": 6916126.0,
      "step": 423
    },
    {
      "entropy": 0.5225076675415039,
      "epoch": 1.582089552238806,
      "grad_norm": 0.1846325844526291,
      "learning_rate": 0.0002,
      "loss": 0.5287823677062988,
      "mean_token_accuracy": 0.7858179211616516,
      "num_tokens": 6932572.0,
      "step": 424
    },
    {
      "entropy": 0.5322756171226501,
      "epoch": 1.585820895522388,
      "grad_norm": 0.1279527246952057,
      "learning_rate": 0.0002,
      "loss": 0.5314757823944092,
      "mean_token_accuracy": 0.7839424312114716,
      "num_tokens": 6948915.0,
      "step": 425
    },
    {
      "entropy": 0.5399055480957031,
      "epoch": 1.5895522388059702,
      "grad_norm": 0.14472827315330505,
      "learning_rate": 0.0002,
      "loss": 0.5389757752418518,
      "mean_token_accuracy": 0.781254380941391,
      "num_tokens": 6965311.0,
      "step": 426
    },
    {
      "entropy": 0.543253481388092,
      "epoch": 1.5932835820895521,
      "grad_norm": 0.1291203647851944,
      "learning_rate": 0.0002,
      "loss": 0.542615532875061,
      "mean_token_accuracy": 0.7801599353551865,
      "num_tokens": 6981751.0,
      "step": 427
    },
    {
      "entropy": 0.5258511453866959,
      "epoch": 1.5970149253731343,
      "grad_norm": 0.14912551641464233,
      "learning_rate": 0.0002,
      "loss": 0.5212829113006592,
      "mean_token_accuracy": 0.7879799157381058,
      "num_tokens": 6997999.0,
      "step": 428
    },
    {
      "entropy": 0.5359253436326981,
      "epoch": 1.6007462686567164,
      "grad_norm": 0.13902713358402252,
      "learning_rate": 0.0002,
      "loss": 0.5354318618774414,
      "mean_token_accuracy": 0.7819556444883347,
      "num_tokens": 7014251.0,
      "step": 429
    },
    {
      "entropy": 0.5399288833141327,
      "epoch": 1.6044776119402986,
      "grad_norm": 0.15356454253196716,
      "learning_rate": 0.0002,
      "loss": 0.5459235906600952,
      "mean_token_accuracy": 0.7798596769571304,
      "num_tokens": 7030929.0,
      "step": 430
    },
    {
      "entropy": 0.5489939600229263,
      "epoch": 1.6082089552238807,
      "grad_norm": 0.16724750399589539,
      "learning_rate": 0.0002,
      "loss": 0.5488972663879395,
      "mean_token_accuracy": 0.7782986462116241,
      "num_tokens": 7047344.0,
      "step": 431
    },
    {
      "entropy": 0.5521660596132278,
      "epoch": 1.6119402985074627,
      "grad_norm": 0.1370435506105423,
      "learning_rate": 0.0002,
      "loss": 0.5541171431541443,
      "mean_token_accuracy": 0.775096669793129,
      "num_tokens": 7063772.0,
      "step": 432
    },
    {
      "entropy": 0.5448116213083267,
      "epoch": 1.6156716417910446,
      "grad_norm": 0.16458411514759064,
      "learning_rate": 0.0002,
      "loss": 0.5444625616073608,
      "mean_token_accuracy": 0.7808038741350174,
      "num_tokens": 7080008.0,
      "step": 433
    },
    {
      "entropy": 0.5336454659700394,
      "epoch": 1.6194029850746268,
      "grad_norm": 0.13929054141044617,
      "learning_rate": 0.0002,
      "loss": 0.5374733805656433,
      "mean_token_accuracy": 0.7845250517129898,
      "num_tokens": 7096322.0,
      "step": 434
    },
    {
      "entropy": 0.5490863621234894,
      "epoch": 1.623134328358209,
      "grad_norm": 0.17425119876861572,
      "learning_rate": 0.0002,
      "loss": 0.5510268211364746,
      "mean_token_accuracy": 0.7752214223146439,
      "num_tokens": 7112627.0,
      "step": 435
    },
    {
      "entropy": 0.5409643575549126,
      "epoch": 1.626865671641791,
      "grad_norm": 0.1438315510749817,
      "learning_rate": 0.0002,
      "loss": 0.5421441197395325,
      "mean_token_accuracy": 0.7772217243909836,
      "num_tokens": 7128753.0,
      "step": 436
    },
    {
      "entropy": 0.5132558643817902,
      "epoch": 1.6305970149253732,
      "grad_norm": 0.19491760432720184,
      "learning_rate": 0.0002,
      "loss": 0.5172038674354553,
      "mean_token_accuracy": 0.7922582030296326,
      "num_tokens": 7145005.0,
      "step": 437
    },
    {
      "entropy": 0.5373466610908508,
      "epoch": 1.6343283582089554,
      "grad_norm": 0.1514309048652649,
      "learning_rate": 0.0002,
      "loss": 0.5405304431915283,
      "mean_token_accuracy": 0.7827999889850616,
      "num_tokens": 7161264.0,
      "step": 438
    },
    {
      "entropy": 0.5462755262851715,
      "epoch": 1.6380597014925373,
      "grad_norm": 0.1856052726507187,
      "learning_rate": 0.0002,
      "loss": 0.5462319254875183,
      "mean_token_accuracy": 0.7752426117658615,
      "num_tokens": 7177601.0,
      "step": 439
    },
    {
      "entropy": 0.5239088907837868,
      "epoch": 1.6417910447761193,
      "grad_norm": 0.15442201495170593,
      "learning_rate": 0.0002,
      "loss": 0.5269871950149536,
      "mean_token_accuracy": 0.7881719172000885,
      "num_tokens": 7194088.0,
      "step": 440
    },
    {
      "entropy": 0.5473000258207321,
      "epoch": 1.6455223880597014,
      "grad_norm": 0.1733047217130661,
      "learning_rate": 0.0002,
      "loss": 0.5468770861625671,
      "mean_token_accuracy": 0.7766072303056717,
      "num_tokens": 7210540.0,
      "step": 441
    },
    {
      "entropy": 0.5247174948453903,
      "epoch": 1.6492537313432836,
      "grad_norm": 0.15060853958129883,
      "learning_rate": 0.0002,
      "loss": 0.5271586179733276,
      "mean_token_accuracy": 0.7868671417236328,
      "num_tokens": 7226800.0,
      "step": 442
    },
    {
      "entropy": 0.5296545326709747,
      "epoch": 1.6529850746268657,
      "grad_norm": 0.14210547506809235,
      "learning_rate": 0.0002,
      "loss": 0.5233073830604553,
      "mean_token_accuracy": 0.7905395030975342,
      "num_tokens": 7242933.0,
      "step": 443
    },
    {
      "entropy": 0.5275071337819099,
      "epoch": 1.6567164179104479,
      "grad_norm": 0.16420303285121918,
      "learning_rate": 0.0002,
      "loss": 0.5262512564659119,
      "mean_token_accuracy": 0.7878832370042801,
      "num_tokens": 7259229.0,
      "step": 444
    },
    {
      "entropy": 0.5286994576454163,
      "epoch": 1.6604477611940298,
      "grad_norm": 0.16218696534633636,
      "learning_rate": 0.0002,
      "loss": 0.5356262922286987,
      "mean_token_accuracy": 0.781034916639328,
      "num_tokens": 7275629.0,
      "step": 445
    },
    {
      "entropy": 0.5249519050121307,
      "epoch": 1.664179104477612,
      "grad_norm": 0.13650326430797577,
      "learning_rate": 0.0002,
      "loss": 0.5306994915008545,
      "mean_token_accuracy": 0.7849638760089874,
      "num_tokens": 7291780.0,
      "step": 446
    },
    {
      "entropy": 0.5290274769067764,
      "epoch": 1.667910447761194,
      "grad_norm": 0.13130812346935272,
      "learning_rate": 0.0002,
      "loss": 0.5366880297660828,
      "mean_token_accuracy": 0.7813905030488968,
      "num_tokens": 7308207.0,
      "step": 447
    },
    {
      "entropy": 0.549896240234375,
      "epoch": 1.671641791044776,
      "grad_norm": 0.13799095153808594,
      "learning_rate": 0.0002,
      "loss": 0.542113721370697,
      "mean_token_accuracy": 0.7787055224180222,
      "num_tokens": 7324630.0,
      "step": 448
    },
    {
      "entropy": 0.5595291256904602,
      "epoch": 1.6753731343283582,
      "grad_norm": 0.12968024611473083,
      "learning_rate": 0.0002,
      "loss": 0.5542213320732117,
      "mean_token_accuracy": 0.7749587148427963,
      "num_tokens": 7340980.0,
      "step": 449
    },
    {
      "entropy": 0.5328024327754974,
      "epoch": 1.6791044776119404,
      "grad_norm": 0.15673688054084778,
      "learning_rate": 0.0002,
      "loss": 0.5303700566291809,
      "mean_token_accuracy": 0.7840248346328735,
      "num_tokens": 7357233.0,
      "step": 450
    },
    {
      "entropy": 0.527419738471508,
      "epoch": 1.6828358208955225,
      "grad_norm": 0.15271416306495667,
      "learning_rate": 0.0002,
      "loss": 0.5339101552963257,
      "mean_token_accuracy": 0.7841878533363342,
      "num_tokens": 7373557.0,
      "step": 451
    },
    {
      "entropy": 0.5285895839333534,
      "epoch": 1.6865671641791045,
      "grad_norm": 0.1619284600019455,
      "learning_rate": 0.0002,
      "loss": 0.5426527261734009,
      "mean_token_accuracy": 0.7801112830638885,
      "num_tokens": 7389775.0,
      "step": 452
    },
    {
      "entropy": 0.5160977020859718,
      "epoch": 1.6902985074626866,
      "grad_norm": 0.14479905366897583,
      "learning_rate": 0.0002,
      "loss": 0.5143705606460571,
      "mean_token_accuracy": 0.792098343372345,
      "num_tokens": 7406142.0,
      "step": 453
    },
    {
      "entropy": 0.5246409177780151,
      "epoch": 1.6940298507462686,
      "grad_norm": 0.13829895853996277,
      "learning_rate": 0.0002,
      "loss": 0.5241281986236572,
      "mean_token_accuracy": 0.7888348549604416,
      "num_tokens": 7422123.0,
      "step": 454
    },
    {
      "entropy": 0.539468988776207,
      "epoch": 1.6977611940298507,
      "grad_norm": 0.14040212333202362,
      "learning_rate": 0.0002,
      "loss": 0.538709282875061,
      "mean_token_accuracy": 0.7814967185258865,
      "num_tokens": 7438449.0,
      "step": 455
    },
    {
      "entropy": 0.5327620357275009,
      "epoch": 1.7014925373134329,
      "grad_norm": 0.13067209720611572,
      "learning_rate": 0.0002,
      "loss": 0.531409740447998,
      "mean_token_accuracy": 0.7817434817552567,
      "num_tokens": 7454843.0,
      "step": 456
    },
    {
      "entropy": 0.5428982973098755,
      "epoch": 1.705223880597015,
      "grad_norm": 0.13850897550582886,
      "learning_rate": 0.0002,
      "loss": 0.5404822826385498,
      "mean_token_accuracy": 0.7804021388292313,
      "num_tokens": 7471239.0,
      "step": 457
    },
    {
      "entropy": 0.5262090265750885,
      "epoch": 1.7089552238805972,
      "grad_norm": 0.1596522480249405,
      "learning_rate": 0.0002,
      "loss": 0.5263737440109253,
      "mean_token_accuracy": 0.7867833971977234,
      "num_tokens": 7487626.0,
      "step": 458
    },
    {
      "entropy": 0.5263974219560623,
      "epoch": 1.712686567164179,
      "grad_norm": 0.1885124146938324,
      "learning_rate": 0.0002,
      "loss": 0.5317808985710144,
      "mean_token_accuracy": 0.7860947102308273,
      "num_tokens": 7504295.0,
      "step": 459
    },
    {
      "entropy": 0.5409001708030701,
      "epoch": 1.716417910447761,
      "grad_norm": 0.18569619953632355,
      "learning_rate": 0.0002,
      "loss": 0.5502086877822876,
      "mean_token_accuracy": 0.7780454903841019,
      "num_tokens": 7520700.0,
      "step": 460
    },
    {
      "entropy": 0.5375530123710632,
      "epoch": 1.7201492537313432,
      "grad_norm": 0.1682044118642807,
      "learning_rate": 0.0002,
      "loss": 0.5417311787605286,
      "mean_token_accuracy": 0.7811579406261444,
      "num_tokens": 7537296.0,
      "step": 461
    },
    {
      "entropy": 0.5499445050954819,
      "epoch": 1.7238805970149254,
      "grad_norm": 0.13629741966724396,
      "learning_rate": 0.0002,
      "loss": 0.5424147248268127,
      "mean_token_accuracy": 0.7811519056558609,
      "num_tokens": 7553751.0,
      "step": 462
    },
    {
      "entropy": 0.5344928205013275,
      "epoch": 1.7276119402985075,
      "grad_norm": 0.15897303819656372,
      "learning_rate": 0.0002,
      "loss": 0.5359247326850891,
      "mean_token_accuracy": 0.7842150777578354,
      "num_tokens": 7569929.0,
      "step": 463
    },
    {
      "entropy": 0.5554052591323853,
      "epoch": 1.7313432835820897,
      "grad_norm": 0.1417708843946457,
      "learning_rate": 0.0002,
      "loss": 0.5565856099128723,
      "mean_token_accuracy": 0.7738053798675537,
      "num_tokens": 7586469.0,
      "step": 464
    },
    {
      "entropy": 0.5416853874921799,
      "epoch": 1.7350746268656716,
      "grad_norm": 0.13722717761993408,
      "learning_rate": 0.0002,
      "loss": 0.5358468294143677,
      "mean_token_accuracy": 0.7817960679531097,
      "num_tokens": 7602590.0,
      "step": 465
    },
    {
      "entropy": 0.5408632606267929,
      "epoch": 1.7388059701492538,
      "grad_norm": 0.157133087515831,
      "learning_rate": 0.0002,
      "loss": 0.5427348017692566,
      "mean_token_accuracy": 0.7806098312139511,
      "num_tokens": 7618775.0,
      "step": 466
    },
    {
      "entropy": 0.5247721523046494,
      "epoch": 1.7425373134328357,
      "grad_norm": 0.14061616361141205,
      "learning_rate": 0.0002,
      "loss": 0.5321290493011475,
      "mean_token_accuracy": 0.7820450663566589,
      "num_tokens": 7635093.0,
      "step": 467
    },
    {
      "entropy": 0.5205557495355606,
      "epoch": 1.7462686567164178,
      "grad_norm": 0.16123539209365845,
      "learning_rate": 0.0002,
      "loss": 0.5302354097366333,
      "mean_token_accuracy": 0.7854211032390594,
      "num_tokens": 7651685.0,
      "step": 468
    },
    {
      "entropy": 0.5282921940088272,
      "epoch": 1.75,
      "grad_norm": 0.15153366327285767,
      "learning_rate": 0.0002,
      "loss": 0.5328198671340942,
      "mean_token_accuracy": 0.7865671813488007,
      "num_tokens": 7667959.0,
      "step": 469
    },
    {
      "entropy": 0.5481950640678406,
      "epoch": 1.7537313432835822,
      "grad_norm": 0.12894481420516968,
      "learning_rate": 0.0002,
      "loss": 0.5497183799743652,
      "mean_token_accuracy": 0.778036966919899,
      "num_tokens": 7684463.0,
      "step": 470
    },
    {
      "entropy": 0.5427480936050415,
      "epoch": 1.7574626865671643,
      "grad_norm": 0.13647432625293732,
      "learning_rate": 0.0002,
      "loss": 0.53739994764328,
      "mean_token_accuracy": 0.7818431705236435,
      "num_tokens": 7700823.0,
      "step": 471
    },
    {
      "entropy": 0.5326214283704758,
      "epoch": 1.7611940298507462,
      "grad_norm": 0.13095979392528534,
      "learning_rate": 0.0002,
      "loss": 0.5291880369186401,
      "mean_token_accuracy": 0.7828460037708282,
      "num_tokens": 7717112.0,
      "step": 472
    },
    {
      "entropy": 0.5443256497383118,
      "epoch": 1.7649253731343284,
      "grad_norm": 0.15335077047348022,
      "learning_rate": 0.0002,
      "loss": 0.5414584875106812,
      "mean_token_accuracy": 0.7815631777048111,
      "num_tokens": 7733478.0,
      "step": 473
    },
    {
      "entropy": 0.5510082393884659,
      "epoch": 1.7686567164179103,
      "grad_norm": 0.12999047338962555,
      "learning_rate": 0.0002,
      "loss": 0.5502053499221802,
      "mean_token_accuracy": 0.7768876850605011,
      "num_tokens": 7749733.0,
      "step": 474
    },
    {
      "entropy": 0.5287549048662186,
      "epoch": 1.7723880597014925,
      "grad_norm": 0.14021116495132446,
      "learning_rate": 0.0002,
      "loss": 0.5351616740226746,
      "mean_token_accuracy": 0.7807136327028275,
      "num_tokens": 7766232.0,
      "step": 475
    },
    {
      "entropy": 0.5237460732460022,
      "epoch": 1.7761194029850746,
      "grad_norm": 0.13716712594032288,
      "learning_rate": 0.0002,
      "loss": 0.5256913900375366,
      "mean_token_accuracy": 0.7864228338003159,
      "num_tokens": 7782399.0,
      "step": 476
    },
    {
      "entropy": 0.5354984253644943,
      "epoch": 1.7798507462686568,
      "grad_norm": 0.1459989845752716,
      "learning_rate": 0.0002,
      "loss": 0.544316291809082,
      "mean_token_accuracy": 0.7797362506389618,
      "num_tokens": 7798787.0,
      "step": 477
    },
    {
      "entropy": 0.5540675520896912,
      "epoch": 1.783582089552239,
      "grad_norm": 0.12925799190998077,
      "learning_rate": 0.0002,
      "loss": 0.5467855334281921,
      "mean_token_accuracy": 0.7801081091165543,
      "num_tokens": 7815176.0,
      "step": 478
    },
    {
      "entropy": 0.5433181077241898,
      "epoch": 1.787313432835821,
      "grad_norm": 0.14298273622989655,
      "learning_rate": 0.0002,
      "loss": 0.5409605503082275,
      "mean_token_accuracy": 0.7799843400716782,
      "num_tokens": 7831722.0,
      "step": 479
    },
    {
      "entropy": 0.5389926880598068,
      "epoch": 1.7910447761194028,
      "grad_norm": 0.13404588401317596,
      "learning_rate": 0.0002,
      "loss": 0.5434566736221313,
      "mean_token_accuracy": 0.7795996069908142,
      "num_tokens": 7847789.0,
      "step": 480
    },
    {
      "entropy": 0.5389460772275925,
      "epoch": 1.794776119402985,
      "grad_norm": 0.14891406893730164,
      "learning_rate": 0.0002,
      "loss": 0.5478703379631042,
      "mean_token_accuracy": 0.7784013152122498,
      "num_tokens": 7864039.0,
      "step": 481
    },
    {
      "entropy": 0.5258179157972336,
      "epoch": 1.7985074626865671,
      "grad_norm": 0.1405036896467209,
      "learning_rate": 0.0002,
      "loss": 0.5313145518302917,
      "mean_token_accuracy": 0.7844405174255371,
      "num_tokens": 7880600.0,
      "step": 482
    },
    {
      "entropy": 0.546451672911644,
      "epoch": 1.8022388059701493,
      "grad_norm": 0.12789376080036163,
      "learning_rate": 0.0002,
      "loss": 0.5392628908157349,
      "mean_token_accuracy": 0.780185878276825,
      "num_tokens": 7897113.0,
      "step": 483
    },
    {
      "entropy": 0.5462568253278732,
      "epoch": 1.8059701492537314,
      "grad_norm": 0.15970084071159363,
      "learning_rate": 0.0002,
      "loss": 0.5421247482299805,
      "mean_token_accuracy": 0.7790002077817917,
      "num_tokens": 7913715.0,
      "step": 484
    },
    {
      "entropy": 0.5245223939418793,
      "epoch": 1.8097014925373134,
      "grad_norm": 0.12480644881725311,
      "learning_rate": 0.0002,
      "loss": 0.5243803858757019,
      "mean_token_accuracy": 0.7877090722322464,
      "num_tokens": 7930253.0,
      "step": 485
    },
    {
      "entropy": 0.5543881952762604,
      "epoch": 1.8134328358208955,
      "grad_norm": 0.17440125346183777,
      "learning_rate": 0.0002,
      "loss": 0.5611490607261658,
      "mean_token_accuracy": 0.773423507809639,
      "num_tokens": 7946773.0,
      "step": 486
    },
    {
      "entropy": 0.5448231846094131,
      "epoch": 1.8171641791044775,
      "grad_norm": 0.1254844069480896,
      "learning_rate": 0.0002,
      "loss": 0.5429874658584595,
      "mean_token_accuracy": 0.7773167043924332,
      "num_tokens": 7963214.0,
      "step": 487
    },
    {
      "entropy": 0.5249373018741608,
      "epoch": 1.8208955223880596,
      "grad_norm": 0.13412347435951233,
      "learning_rate": 0.0002,
      "loss": 0.5265883803367615,
      "mean_token_accuracy": 0.7875321507453918,
      "num_tokens": 7979611.0,
      "step": 488
    },
    {
      "entropy": 0.5382010042667389,
      "epoch": 1.8246268656716418,
      "grad_norm": 0.16182008385658264,
      "learning_rate": 0.0002,
      "loss": 0.5412148237228394,
      "mean_token_accuracy": 0.7788311392068863,
      "num_tokens": 7996094.0,
      "step": 489
    },
    {
      "entropy": 0.5332826524972916,
      "epoch": 1.828358208955224,
      "grad_norm": 0.1427432894706726,
      "learning_rate": 0.0002,
      "loss": 0.5368761420249939,
      "mean_token_accuracy": 0.7825220227241516,
      "num_tokens": 8012432.0,
      "step": 490
    },
    {
      "entropy": 0.5108669325709343,
      "epoch": 1.832089552238806,
      "grad_norm": 0.1509285867214203,
      "learning_rate": 0.0002,
      "loss": 0.5119490623474121,
      "mean_token_accuracy": 0.7906075417995453,
      "num_tokens": 8028665.0,
      "step": 491
    },
    {
      "entropy": 0.5145807713270187,
      "epoch": 1.835820895522388,
      "grad_norm": 0.1396896094083786,
      "learning_rate": 0.0002,
      "loss": 0.5196783542633057,
      "mean_token_accuracy": 0.7873106449842453,
      "num_tokens": 8044855.0,
      "step": 492
    },
    {
      "entropy": 0.5123258233070374,
      "epoch": 1.8395522388059702,
      "grad_norm": 0.14697767794132233,
      "learning_rate": 0.0002,
      "loss": 0.5223352909088135,
      "mean_token_accuracy": 0.7885845303535461,
      "num_tokens": 8061121.0,
      "step": 493
    },
    {
      "entropy": 0.5335386842489243,
      "epoch": 1.8432835820895521,
      "grad_norm": 0.14804190397262573,
      "learning_rate": 0.0002,
      "loss": 0.534782350063324,
      "mean_token_accuracy": 0.7838051915168762,
      "num_tokens": 8077519.0,
      "step": 494
    },
    {
      "entropy": 0.5602670460939407,
      "epoch": 1.8470149253731343,
      "grad_norm": 0.13603031635284424,
      "learning_rate": 0.0002,
      "loss": 0.5542025566101074,
      "mean_token_accuracy": 0.7756092548370361,
      "num_tokens": 8093937.0,
      "step": 495
    },
    {
      "entropy": 0.5355454534292221,
      "epoch": 1.8507462686567164,
      "grad_norm": 0.11670524626970291,
      "learning_rate": 0.0002,
      "loss": 0.5269724130630493,
      "mean_token_accuracy": 0.7864131927490234,
      "num_tokens": 8110383.0,
      "step": 496
    },
    {
      "entropy": 0.5373311340808868,
      "epoch": 1.8544776119402986,
      "grad_norm": 0.13412456214427948,
      "learning_rate": 0.0002,
      "loss": 0.5295535326004028,
      "mean_token_accuracy": 0.7874404042959213,
      "num_tokens": 8126795.0,
      "step": 497
    },
    {
      "entropy": 0.5373153984546661,
      "epoch": 1.8582089552238807,
      "grad_norm": 0.1485511064529419,
      "learning_rate": 0.0002,
      "loss": 0.5427818894386292,
      "mean_token_accuracy": 0.7803584039211273,
      "num_tokens": 8143234.0,
      "step": 498
    },
    {
      "entropy": 0.522105023264885,
      "epoch": 1.8619402985074627,
      "grad_norm": 0.1580716073513031,
      "learning_rate": 0.0002,
      "loss": 0.5267635583877563,
      "mean_token_accuracy": 0.7869967371225357,
      "num_tokens": 8159687.0,
      "step": 499
    },
    {
      "entropy": 0.5215406715869904,
      "epoch": 1.8656716417910446,
      "grad_norm": 0.1573050171136856,
      "learning_rate": 0.0002,
      "loss": 0.5285288691520691,
      "mean_token_accuracy": 0.7851908951997757,
      "num_tokens": 8176020.0,
      "step": 500
    },
    {
      "entropy": 0.5404719114303589,
      "epoch": 1.8694029850746268,
      "grad_norm": 0.1411486119031906,
      "learning_rate": 0.0002,
      "loss": 0.5365728735923767,
      "mean_token_accuracy": 0.7837002873420715,
      "num_tokens": 8192551.0,
      "step": 501
    },
    {
      "entropy": 0.5438470244407654,
      "epoch": 1.873134328358209,
      "grad_norm": 0.130998432636261,
      "learning_rate": 0.0002,
      "loss": 0.5430339574813843,
      "mean_token_accuracy": 0.7819307893514633,
      "num_tokens": 8209082.0,
      "step": 502
    },
    {
      "entropy": 0.5403178930282593,
      "epoch": 1.876865671641791,
      "grad_norm": 0.1385144740343094,
      "learning_rate": 0.0002,
      "loss": 0.5460789203643799,
      "mean_token_accuracy": 0.7790951728820801,
      "num_tokens": 8225744.0,
      "step": 503
    },
    {
      "entropy": 0.5280100554227829,
      "epoch": 1.8805970149253732,
      "grad_norm": 0.14330939948558807,
      "learning_rate": 0.0002,
      "loss": 0.5235118269920349,
      "mean_token_accuracy": 0.7890605628490448,
      "num_tokens": 8242208.0,
      "step": 504
    },
    {
      "entropy": 0.5532096922397614,
      "epoch": 1.8843283582089554,
      "grad_norm": 0.1357594132423401,
      "learning_rate": 0.0002,
      "loss": 0.5498918890953064,
      "mean_token_accuracy": 0.7760927677154541,
      "num_tokens": 8258496.0,
      "step": 505
    },
    {
      "entropy": 0.5294792056083679,
      "epoch": 1.8880597014925373,
      "grad_norm": 0.13375437259674072,
      "learning_rate": 0.0002,
      "loss": 0.5297701358795166,
      "mean_token_accuracy": 0.7845475971698761,
      "num_tokens": 8274536.0,
      "step": 506
    },
    {
      "entropy": 0.5456722378730774,
      "epoch": 1.8917910447761193,
      "grad_norm": 0.14889481663703918,
      "learning_rate": 0.0002,
      "loss": 0.5517223477363586,
      "mean_token_accuracy": 0.7756078243255615,
      "num_tokens": 8290986.0,
      "step": 507
    },
    {
      "entropy": 0.5214451998472214,
      "epoch": 1.8955223880597014,
      "grad_norm": 0.13305895030498505,
      "learning_rate": 0.0002,
      "loss": 0.5249897837638855,
      "mean_token_accuracy": 0.7870367765426636,
      "num_tokens": 8307117.0,
      "step": 508
    },
    {
      "entropy": 0.5336883068084717,
      "epoch": 1.8992537313432836,
      "grad_norm": 0.13193877041339874,
      "learning_rate": 0.0002,
      "loss": 0.5352887511253357,
      "mean_token_accuracy": 0.7798391133546829,
      "num_tokens": 8323273.0,
      "step": 509
    },
    {
      "entropy": 0.5336564183235168,
      "epoch": 1.9029850746268657,
      "grad_norm": 0.12489310652017593,
      "learning_rate": 0.0002,
      "loss": 0.5302382111549377,
      "mean_token_accuracy": 0.7845423817634583,
      "num_tokens": 8339385.0,
      "step": 510
    },
    {
      "entropy": 0.5382219552993774,
      "epoch": 1.9067164179104479,
      "grad_norm": 0.1456049680709839,
      "learning_rate": 0.0002,
      "loss": 0.5372790694236755,
      "mean_token_accuracy": 0.782544881105423,
      "num_tokens": 8355706.0,
      "step": 511
    },
    {
      "entropy": 0.5403454750776291,
      "epoch": 1.9104477611940298,
      "grad_norm": 0.12694604694843292,
      "learning_rate": 0.0002,
      "loss": 0.5402185320854187,
      "mean_token_accuracy": 0.7826471477746964,
      "num_tokens": 8372132.0,
      "step": 512
    },
    {
      "entropy": 0.5318908393383026,
      "epoch": 1.914179104477612,
      "grad_norm": 0.1555122435092926,
      "learning_rate": 0.0002,
      "loss": 0.541782796382904,
      "mean_token_accuracy": 0.7774071842432022,
      "num_tokens": 8388306.0,
      "step": 513
    },
    {
      "entropy": 0.5221689939498901,
      "epoch": 1.917910447761194,
      "grad_norm": 0.1543516367673874,
      "learning_rate": 0.0002,
      "loss": 0.5357338190078735,
      "mean_token_accuracy": 0.7826261073350906,
      "num_tokens": 8404876.0,
      "step": 514
    },
    {
      "entropy": 0.5229770094156265,
      "epoch": 1.921641791044776,
      "grad_norm": 0.13613452017307281,
      "learning_rate": 0.0002,
      "loss": 0.5244792699813843,
      "mean_token_accuracy": 0.7872123420238495,
      "num_tokens": 8421349.0,
      "step": 515
    },
    {
      "entropy": 0.5398612320423126,
      "epoch": 1.9253731343283582,
      "grad_norm": 0.14049243927001953,
      "learning_rate": 0.0002,
      "loss": 0.5422282218933105,
      "mean_token_accuracy": 0.7783734500408173,
      "num_tokens": 8437774.0,
      "step": 516
    },
    {
      "entropy": 0.5401616841554642,
      "epoch": 1.9291044776119404,
      "grad_norm": 0.13164237141609192,
      "learning_rate": 0.0002,
      "loss": 0.5331213474273682,
      "mean_token_accuracy": 0.7848468571901321,
      "num_tokens": 8454123.0,
      "step": 517
    },
    {
      "entropy": 0.5214215666055679,
      "epoch": 1.9328358208955225,
      "grad_norm": 0.13749226927757263,
      "learning_rate": 0.0002,
      "loss": 0.5158907175064087,
      "mean_token_accuracy": 0.7904626429080963,
      "num_tokens": 8470320.0,
      "step": 518
    },
    {
      "entropy": 0.5412722826004028,
      "epoch": 1.9365671641791045,
      "grad_norm": 0.127340629696846,
      "learning_rate": 0.0002,
      "loss": 0.5443693995475769,
      "mean_token_accuracy": 0.7785214781761169,
      "num_tokens": 8486754.0,
      "step": 519
    },
    {
      "entropy": 0.5276665389537811,
      "epoch": 1.9402985074626866,
      "grad_norm": 0.13310599327087402,
      "learning_rate": 0.0002,
      "loss": 0.5311852693557739,
      "mean_token_accuracy": 0.7849074453115463,
      "num_tokens": 8503273.0,
      "step": 520
    },
    {
      "entropy": 0.5346188247203827,
      "epoch": 1.9440298507462686,
      "grad_norm": 0.12909531593322754,
      "learning_rate": 0.0002,
      "loss": 0.5408310890197754,
      "mean_token_accuracy": 0.779103621840477,
      "num_tokens": 8519520.0,
      "step": 521
    },
    {
      "entropy": 0.5392955094575882,
      "epoch": 1.9477611940298507,
      "grad_norm": 0.12654371559619904,
      "learning_rate": 0.0002,
      "loss": 0.5376543998718262,
      "mean_token_accuracy": 0.7810464203357697,
      "num_tokens": 8535688.0,
      "step": 522
    },
    {
      "entropy": 0.526744157075882,
      "epoch": 1.9514925373134329,
      "grad_norm": 0.11877280473709106,
      "learning_rate": 0.0002,
      "loss": 0.5258936882019043,
      "mean_token_accuracy": 0.7875306010246277,
      "num_tokens": 8551996.0,
      "step": 523
    },
    {
      "entropy": 0.5467166006565094,
      "epoch": 1.955223880597015,
      "grad_norm": 0.1407010555267334,
      "learning_rate": 0.0002,
      "loss": 0.5389098525047302,
      "mean_token_accuracy": 0.7805493026971817,
      "num_tokens": 8568202.0,
      "step": 524
    },
    {
      "entropy": 0.5553875267505646,
      "epoch": 1.9589552238805972,
      "grad_norm": 0.13490191102027893,
      "learning_rate": 0.0002,
      "loss": 0.5481207370758057,
      "mean_token_accuracy": 0.7784747332334518,
      "num_tokens": 8584625.0,
      "step": 525
    },
    {
      "entropy": 0.5178312584757805,
      "epoch": 1.962686567164179,
      "grad_norm": 0.14236751198768616,
      "learning_rate": 0.0002,
      "loss": 0.5226012468338013,
      "mean_token_accuracy": 0.7866991758346558,
      "num_tokens": 8600683.0,
      "step": 526
    },
    {
      "entropy": 0.5227778926491737,
      "epoch": 1.966417910447761,
      "grad_norm": 0.16303445398807526,
      "learning_rate": 0.0002,
      "loss": 0.5365378856658936,
      "mean_token_accuracy": 0.7807085812091827,
      "num_tokens": 8616685.0,
      "step": 527
    },
    {
      "entropy": 0.5410575568675995,
      "epoch": 1.9701492537313432,
      "grad_norm": 0.16557544469833374,
      "learning_rate": 0.0002,
      "loss": 0.5510291457176208,
      "mean_token_accuracy": 0.7770103365182877,
      "num_tokens": 8633088.0,
      "step": 528
    },
    {
      "entropy": 0.531767264008522,
      "epoch": 1.9738805970149254,
      "grad_norm": 0.16024784743785858,
      "learning_rate": 0.0002,
      "loss": 0.5305666327476501,
      "mean_token_accuracy": 0.7834270149469376,
      "num_tokens": 8649322.0,
      "step": 529
    },
    {
      "entropy": 0.5423388332128525,
      "epoch": 1.9776119402985075,
      "grad_norm": 0.1314675360918045,
      "learning_rate": 0.0002,
      "loss": 0.5316357016563416,
      "mean_token_accuracy": 0.7857660055160522,
      "num_tokens": 8665670.0,
      "step": 530
    },
    {
      "entropy": 0.5405716001987457,
      "epoch": 1.9813432835820897,
      "grad_norm": 0.1407650113105774,
      "learning_rate": 0.0002,
      "loss": 0.5429906845092773,
      "mean_token_accuracy": 0.7817323058843613,
      "num_tokens": 8681998.0,
      "step": 531
    },
    {
      "entropy": 0.5365249365568161,
      "epoch": 1.9850746268656716,
      "grad_norm": 0.14180989563465118,
      "learning_rate": 0.0002,
      "loss": 0.5345437526702881,
      "mean_token_accuracy": 0.7865561246871948,
      "num_tokens": 8698483.0,
      "step": 532
    },
    {
      "entropy": 0.5290075689554214,
      "epoch": 1.9888059701492538,
      "grad_norm": 0.1477176696062088,
      "learning_rate": 0.0002,
      "loss": 0.5337146520614624,
      "mean_token_accuracy": 0.7824839055538177,
      "num_tokens": 8714640.0,
      "step": 533
    },
    {
      "entropy": 0.5333692282438278,
      "epoch": 1.9925373134328357,
      "grad_norm": 0.17112773656845093,
      "learning_rate": 0.0002,
      "loss": 0.5424102544784546,
      "mean_token_accuracy": 0.779076337814331,
      "num_tokens": 8730887.0,
      "step": 534
    },
    {
      "entropy": 0.5415492355823517,
      "epoch": 1.9962686567164178,
      "grad_norm": 0.14943642914295197,
      "learning_rate": 0.0002,
      "loss": 0.5476213693618774,
      "mean_token_accuracy": 0.7769679576158524,
      "num_tokens": 8747309.0,
      "step": 535
    },
    {
      "entropy": 0.5581045299768448,
      "epoch": 2.0,
      "grad_norm": 0.15832063555717468,
      "learning_rate": 0.0002,
      "loss": 0.5548263788223267,
      "mean_token_accuracy": 0.776277557015419,
      "num_tokens": 8763550.0,
      "step": 536
    },
    {
      "entropy": 0.5369964390993118,
      "epoch": 2.003731343283582,
      "grad_norm": 0.15130668878555298,
      "learning_rate": 0.0002,
      "loss": 0.5179107189178467,
      "mean_token_accuracy": 0.7907675057649612,
      "num_tokens": 8779922.0,
      "step": 537
    },
    {
      "entropy": 0.5117110908031464,
      "epoch": 2.0074626865671643,
      "grad_norm": 0.16026535630226135,
      "learning_rate": 0.0002,
      "loss": 0.5020841956138611,
      "mean_token_accuracy": 0.7973873615264893,
      "num_tokens": 8795988.0,
      "step": 538
    },
    {
      "entropy": 0.5028296113014221,
      "epoch": 2.0111940298507465,
      "grad_norm": 0.1676231324672699,
      "learning_rate": 0.0002,
      "loss": 0.51214998960495,
      "mean_token_accuracy": 0.7921472936868668,
      "num_tokens": 8812261.0,
      "step": 539
    },
    {
      "entropy": 0.5081141889095306,
      "epoch": 2.014925373134328,
      "grad_norm": 0.21105162799358368,
      "learning_rate": 0.0002,
      "loss": 0.5206259489059448,
      "mean_token_accuracy": 0.7869252115488052,
      "num_tokens": 8828964.0,
      "step": 540
    },
    {
      "entropy": 0.5053770169615746,
      "epoch": 2.0186567164179103,
      "grad_norm": 0.1996072232723236,
      "learning_rate": 0.0002,
      "loss": 0.5146310329437256,
      "mean_token_accuracy": 0.7916830629110336,
      "num_tokens": 8845583.0,
      "step": 541
    },
    {
      "entropy": 0.5284380093216896,
      "epoch": 2.0223880597014925,
      "grad_norm": 0.14588730037212372,
      "learning_rate": 0.0002,
      "loss": 0.5199918150901794,
      "mean_token_accuracy": 0.7893239259719849,
      "num_tokens": 8861873.0,
      "step": 542
    },
    {
      "entropy": 0.5435770899057388,
      "epoch": 2.0261194029850746,
      "grad_norm": 0.14907799661159515,
      "learning_rate": 0.0002,
      "loss": 0.536811113357544,
      "mean_token_accuracy": 0.7802763283252716,
      "num_tokens": 8878456.0,
      "step": 543
    },
    {
      "entropy": 0.5174986571073532,
      "epoch": 2.029850746268657,
      "grad_norm": 0.14996512234210968,
      "learning_rate": 0.0002,
      "loss": 0.5144167542457581,
      "mean_token_accuracy": 0.7930785864591599,
      "num_tokens": 8894797.0,
      "step": 544
    },
    {
      "entropy": 0.5272421538829803,
      "epoch": 2.033582089552239,
      "grad_norm": 0.16765476763248444,
      "learning_rate": 0.0002,
      "loss": 0.5306269526481628,
      "mean_token_accuracy": 0.7856330573558807,
      "num_tokens": 8911217.0,
      "step": 545
    },
    {
      "entropy": 0.49972501397132874,
      "epoch": 2.0373134328358207,
      "grad_norm": 0.1322057694196701,
      "learning_rate": 0.0002,
      "loss": 0.5012874603271484,
      "mean_token_accuracy": 0.7979290634393692,
      "num_tokens": 8927511.0,
      "step": 546
    },
    {
      "entropy": 0.5031155720353127,
      "epoch": 2.041044776119403,
      "grad_norm": 0.16402538120746613,
      "learning_rate": 0.0002,
      "loss": 0.5100584626197815,
      "mean_token_accuracy": 0.7926298826932907,
      "num_tokens": 8943509.0,
      "step": 547
    },
    {
      "entropy": 0.5090021565556526,
      "epoch": 2.044776119402985,
      "grad_norm": 0.1516626924276352,
      "learning_rate": 0.0002,
      "loss": 0.51352858543396,
      "mean_token_accuracy": 0.7925879657268524,
      "num_tokens": 8959744.0,
      "step": 548
    },
    {
      "entropy": 0.4990556240081787,
      "epoch": 2.048507462686567,
      "grad_norm": 0.14189165830612183,
      "learning_rate": 0.0002,
      "loss": 0.5032692551612854,
      "mean_token_accuracy": 0.7943097651004791,
      "num_tokens": 8976001.0,
      "step": 549
    },
    {
      "entropy": 0.5276429355144501,
      "epoch": 2.0522388059701493,
      "grad_norm": 0.13545501232147217,
      "learning_rate": 0.0002,
      "loss": 0.5224078893661499,
      "mean_token_accuracy": 0.7892052680253983,
      "num_tokens": 8992265.0,
      "step": 550
    },
    {
      "entropy": 0.5246792286634445,
      "epoch": 2.0559701492537314,
      "grad_norm": 0.15987011790275574,
      "learning_rate": 0.0002,
      "loss": 0.5220500230789185,
      "mean_token_accuracy": 0.7897221744060516,
      "num_tokens": 9008612.0,
      "step": 551
    },
    {
      "entropy": 0.5142855197191238,
      "epoch": 2.0597014925373136,
      "grad_norm": 0.17870153486728668,
      "learning_rate": 0.0002,
      "loss": 0.5103524923324585,
      "mean_token_accuracy": 0.7925411611795425,
      "num_tokens": 9025112.0,
      "step": 552
    },
    {
      "entropy": 0.5080101564526558,
      "epoch": 2.0634328358208953,
      "grad_norm": 0.19365249574184418,
      "learning_rate": 0.0002,
      "loss": 0.5135321617126465,
      "mean_token_accuracy": 0.792420819401741,
      "num_tokens": 9041825.0,
      "step": 553
    },
    {
      "entropy": 0.5249690413475037,
      "epoch": 2.0671641791044775,
      "grad_norm": 0.17408262193202972,
      "learning_rate": 0.0002,
      "loss": 0.527820348739624,
      "mean_token_accuracy": 0.7850991487503052,
      "num_tokens": 9058218.0,
      "step": 554
    },
    {
      "entropy": 0.5355798751115799,
      "epoch": 2.0708955223880596,
      "grad_norm": 0.17400678992271423,
      "learning_rate": 0.0002,
      "loss": 0.5327027440071106,
      "mean_token_accuracy": 0.7834015786647797,
      "num_tokens": 9074538.0,
      "step": 555
    },
    {
      "entropy": 0.5193932577967644,
      "epoch": 2.074626865671642,
      "grad_norm": 0.19260965287685394,
      "learning_rate": 0.0002,
      "loss": 0.5203508138656616,
      "mean_token_accuracy": 0.7900512516498566,
      "num_tokens": 9090645.0,
      "step": 556
    },
    {
      "entropy": 0.5282454341650009,
      "epoch": 2.078358208955224,
      "grad_norm": 0.17010283470153809,
      "learning_rate": 0.0002,
      "loss": 0.5296856760978699,
      "mean_token_accuracy": 0.7844990193843842,
      "num_tokens": 9107205.0,
      "step": 557
    },
    {
      "entropy": 0.5335307121276855,
      "epoch": 2.082089552238806,
      "grad_norm": 0.18085786700248718,
      "learning_rate": 0.0002,
      "loss": 0.5380091667175293,
      "mean_token_accuracy": 0.7830383628606796,
      "num_tokens": 9123633.0,
      "step": 558
    },
    {
      "entropy": 0.5050861239433289,
      "epoch": 2.0858208955223883,
      "grad_norm": 0.1828233301639557,
      "learning_rate": 0.0002,
      "loss": 0.5116996169090271,
      "mean_token_accuracy": 0.7909363359212875,
      "num_tokens": 9139672.0,
      "step": 559
    },
    {
      "entropy": 0.5233924090862274,
      "epoch": 2.08955223880597,
      "grad_norm": 0.1721849888563156,
      "learning_rate": 0.0002,
      "loss": 0.5234174728393555,
      "mean_token_accuracy": 0.7887046784162521,
      "num_tokens": 9156329.0,
      "step": 560
    },
    {
      "entropy": 0.5096859857439995,
      "epoch": 2.093283582089552,
      "grad_norm": 0.13895049691200256,
      "learning_rate": 0.0002,
      "loss": 0.5016306638717651,
      "mean_token_accuracy": 0.7958591133356094,
      "num_tokens": 9172549.0,
      "step": 561
    },
    {
      "entropy": 0.5022074803709984,
      "epoch": 2.0970149253731343,
      "grad_norm": 0.18107853829860687,
      "learning_rate": 0.0002,
      "loss": 0.49785315990448,
      "mean_token_accuracy": 0.7988625317811966,
      "num_tokens": 9188916.0,
      "step": 562
    },
    {
      "entropy": 0.49919093400239944,
      "epoch": 2.1007462686567164,
      "grad_norm": 0.18361544609069824,
      "learning_rate": 0.0002,
      "loss": 0.5069372057914734,
      "mean_token_accuracy": 0.7953463643789291,
      "num_tokens": 9205116.0,
      "step": 563
    },
    {
      "entropy": 0.5179380178451538,
      "epoch": 2.1044776119402986,
      "grad_norm": 0.17814478278160095,
      "learning_rate": 0.0002,
      "loss": 0.5233405232429504,
      "mean_token_accuracy": 0.7879672199487686,
      "num_tokens": 9221422.0,
      "step": 564
    },
    {
      "entropy": 0.5209343507885933,
      "epoch": 2.1082089552238807,
      "grad_norm": 0.16368801891803741,
      "learning_rate": 0.0002,
      "loss": 0.5220014452934265,
      "mean_token_accuracy": 0.7900985032320023,
      "num_tokens": 9237878.0,
      "step": 565
    },
    {
      "entropy": 0.5203168541193008,
      "epoch": 2.111940298507463,
      "grad_norm": 0.18038009107112885,
      "learning_rate": 0.0002,
      "loss": 0.5181905627250671,
      "mean_token_accuracy": 0.7902995347976685,
      "num_tokens": 9254207.0,
      "step": 566
    },
    {
      "entropy": 0.5203139036893845,
      "epoch": 2.1156716417910446,
      "grad_norm": 0.15972773730754852,
      "learning_rate": 0.0002,
      "loss": 0.5092154145240784,
      "mean_token_accuracy": 0.793173611164093,
      "num_tokens": 9270204.0,
      "step": 567
    },
    {
      "entropy": 0.5298740118741989,
      "epoch": 2.1194029850746268,
      "grad_norm": 0.16917745769023895,
      "learning_rate": 0.0002,
      "loss": 0.521593451499939,
      "mean_token_accuracy": 0.789896160364151,
      "num_tokens": 9286472.0,
      "step": 568
    },
    {
      "entropy": 0.5120234042406082,
      "epoch": 2.123134328358209,
      "grad_norm": 0.1817537248134613,
      "learning_rate": 0.0002,
      "loss": 0.5180550813674927,
      "mean_token_accuracy": 0.7886006981134415,
      "num_tokens": 9302801.0,
      "step": 569
    },
    {
      "entropy": 0.5053592845797539,
      "epoch": 2.126865671641791,
      "grad_norm": 0.17402999103069305,
      "learning_rate": 0.0002,
      "loss": 0.5133467316627502,
      "mean_token_accuracy": 0.7945185601711273,
      "num_tokens": 9318994.0,
      "step": 570
    },
    {
      "entropy": 0.5077695101499557,
      "epoch": 2.1305970149253732,
      "grad_norm": 0.1826324611902237,
      "learning_rate": 0.0002,
      "loss": 0.5111861228942871,
      "mean_token_accuracy": 0.7935459464788437,
      "num_tokens": 9335440.0,
      "step": 571
    },
    {
      "entropy": 0.5085733756422997,
      "epoch": 2.1343283582089554,
      "grad_norm": 0.20258648693561554,
      "learning_rate": 0.0002,
      "loss": 0.5162274837493896,
      "mean_token_accuracy": 0.7936873137950897,
      "num_tokens": 9351752.0,
      "step": 572
    },
    {
      "entropy": 0.5466553270816803,
      "epoch": 2.138059701492537,
      "grad_norm": 0.21011336147785187,
      "learning_rate": 0.0002,
      "loss": 0.5393267273902893,
      "mean_token_accuracy": 0.7812587320804596,
      "num_tokens": 9368219.0,
      "step": 573
    },
    {
      "entropy": 0.5103291645646095,
      "epoch": 2.1417910447761193,
      "grad_norm": 0.16960836946964264,
      "learning_rate": 0.0002,
      "loss": 0.5084283351898193,
      "mean_token_accuracy": 0.7936739772558212,
      "num_tokens": 9384590.0,
      "step": 574
    },
    {
      "entropy": 0.5131630301475525,
      "epoch": 2.1455223880597014,
      "grad_norm": 0.17001323401927948,
      "learning_rate": 0.0002,
      "loss": 0.5123889446258545,
      "mean_token_accuracy": 0.7904325425624847,
      "num_tokens": 9400768.0,
      "step": 575
    },
    {
      "entropy": 0.5091337114572525,
      "epoch": 2.1492537313432836,
      "grad_norm": 0.19518889486789703,
      "learning_rate": 0.0002,
      "loss": 0.512664794921875,
      "mean_token_accuracy": 0.7909765988588333,
      "num_tokens": 9416962.0,
      "step": 576
    },
    {
      "entropy": 0.506959430873394,
      "epoch": 2.1529850746268657,
      "grad_norm": 0.19361013174057007,
      "learning_rate": 0.0002,
      "loss": 0.5145208835601807,
      "mean_token_accuracy": 0.7909970581531525,
      "num_tokens": 9433273.0,
      "step": 577
    },
    {
      "entropy": 0.5075285658240318,
      "epoch": 2.156716417910448,
      "grad_norm": 0.20014171302318573,
      "learning_rate": 0.0002,
      "loss": 0.5108210444450378,
      "mean_token_accuracy": 0.795252114534378,
      "num_tokens": 9449764.0,
      "step": 578
    },
    {
      "entropy": 0.5293942838907242,
      "epoch": 2.16044776119403,
      "grad_norm": 0.1974441111087799,
      "learning_rate": 0.0002,
      "loss": 0.5285412669181824,
      "mean_token_accuracy": 0.7868294268846512,
      "num_tokens": 9466170.0,
      "step": 579
    },
    {
      "entropy": 0.5336958318948746,
      "epoch": 2.1641791044776117,
      "grad_norm": 0.16498853266239166,
      "learning_rate": 0.0002,
      "loss": 0.5246227383613586,
      "mean_token_accuracy": 0.7904203087091446,
      "num_tokens": 9482671.0,
      "step": 580
    },
    {
      "entropy": 0.5340626388788223,
      "epoch": 2.167910447761194,
      "grad_norm": 0.16569171845912933,
      "learning_rate": 0.0002,
      "loss": 0.5292053818702698,
      "mean_token_accuracy": 0.7861965000629425,
      "num_tokens": 9499134.0,
      "step": 581
    },
    {
      "entropy": 0.5213732421398163,
      "epoch": 2.171641791044776,
      "grad_norm": 0.191435769200325,
      "learning_rate": 0.0002,
      "loss": 0.527378499507904,
      "mean_token_accuracy": 0.7864173054695129,
      "num_tokens": 9515505.0,
      "step": 582
    },
    {
      "entropy": 0.5035439431667328,
      "epoch": 2.175373134328358,
      "grad_norm": 0.1665230244398117,
      "learning_rate": 0.0002,
      "loss": 0.5038704872131348,
      "mean_token_accuracy": 0.7968962043523788,
      "num_tokens": 9532118.0,
      "step": 583
    },
    {
      "entropy": 0.5060234367847443,
      "epoch": 2.1791044776119404,
      "grad_norm": 0.16969595849514008,
      "learning_rate": 0.0002,
      "loss": 0.5113446712493896,
      "mean_token_accuracy": 0.7920107841491699,
      "num_tokens": 9548351.0,
      "step": 584
    },
    {
      "entropy": 0.5291168391704559,
      "epoch": 2.1828358208955225,
      "grad_norm": 0.16809239983558655,
      "learning_rate": 0.0002,
      "loss": 0.5360448360443115,
      "mean_token_accuracy": 0.7811578214168549,
      "num_tokens": 9564913.0,
      "step": 585
    },
    {
      "entropy": 0.5199222788214684,
      "epoch": 2.1865671641791047,
      "grad_norm": 0.15394440293312073,
      "learning_rate": 0.0002,
      "loss": 0.5177597403526306,
      "mean_token_accuracy": 0.7905119061470032,
      "num_tokens": 9581583.0,
      "step": 586
    },
    {
      "entropy": 0.5282980501651764,
      "epoch": 2.1902985074626864,
      "grad_norm": 0.17473557591438293,
      "learning_rate": 0.0002,
      "loss": 0.527908980846405,
      "mean_token_accuracy": 0.7872945964336395,
      "num_tokens": 9598262.0,
      "step": 587
    },
    {
      "entropy": 0.5268830358982086,
      "epoch": 2.1940298507462686,
      "grad_norm": 0.16386888921260834,
      "learning_rate": 0.0002,
      "loss": 0.5233091711997986,
      "mean_token_accuracy": 0.788049191236496,
      "num_tokens": 9614535.0,
      "step": 588
    },
    {
      "entropy": 0.5275766104459763,
      "epoch": 2.1977611940298507,
      "grad_norm": 0.17853675782680511,
      "learning_rate": 0.0002,
      "loss": 0.5314985513687134,
      "mean_token_accuracy": 0.7853439450263977,
      "num_tokens": 9630730.0,
      "step": 589
    },
    {
      "entropy": 0.5230407416820526,
      "epoch": 2.201492537313433,
      "grad_norm": 0.18614573776721954,
      "learning_rate": 0.0002,
      "loss": 0.5324023365974426,
      "mean_token_accuracy": 0.7870204299688339,
      "num_tokens": 9647367.0,
      "step": 590
    },
    {
      "entropy": 0.5045590102672577,
      "epoch": 2.205223880597015,
      "grad_norm": 0.16460436582565308,
      "learning_rate": 0.0002,
      "loss": 0.5095564723014832,
      "mean_token_accuracy": 0.7933550179004669,
      "num_tokens": 9663807.0,
      "step": 591
    },
    {
      "entropy": 0.5061227604746819,
      "epoch": 2.208955223880597,
      "grad_norm": 0.1727134734392166,
      "learning_rate": 0.0002,
      "loss": 0.50539630651474,
      "mean_token_accuracy": 0.79543037712574,
      "num_tokens": 9679957.0,
      "step": 592
    },
    {
      "entropy": 0.5444381237030029,
      "epoch": 2.2126865671641793,
      "grad_norm": 0.1631772667169571,
      "learning_rate": 0.0002,
      "loss": 0.5421435832977295,
      "mean_token_accuracy": 0.7804461270570755,
      "num_tokens": 9696269.0,
      "step": 593
    },
    {
      "entropy": 0.5140876695513725,
      "epoch": 2.216417910447761,
      "grad_norm": 0.14234963059425354,
      "learning_rate": 0.0002,
      "loss": 0.5083339214324951,
      "mean_token_accuracy": 0.7940346747636795,
      "num_tokens": 9712614.0,
      "step": 594
    },
    {
      "entropy": 0.5227879285812378,
      "epoch": 2.220149253731343,
      "grad_norm": 0.1700550764799118,
      "learning_rate": 0.0002,
      "loss": 0.5256499648094177,
      "mean_token_accuracy": 0.788642093539238,
      "num_tokens": 9729090.0,
      "step": 595
    },
    {
      "entropy": 0.5193727314472198,
      "epoch": 2.2238805970149254,
      "grad_norm": 0.16189917922019958,
      "learning_rate": 0.0002,
      "loss": 0.515200674533844,
      "mean_token_accuracy": 0.7933167964220047,
      "num_tokens": 9745602.0,
      "step": 596
    },
    {
      "entropy": 0.5037901103496552,
      "epoch": 2.2276119402985075,
      "grad_norm": 0.15295493602752686,
      "learning_rate": 0.0002,
      "loss": 0.5038392543792725,
      "mean_token_accuracy": 0.7972543388605118,
      "num_tokens": 9761880.0,
      "step": 597
    },
    {
      "entropy": 0.5051177442073822,
      "epoch": 2.2313432835820897,
      "grad_norm": 0.18619783222675323,
      "learning_rate": 0.0002,
      "loss": 0.5126343369483948,
      "mean_token_accuracy": 0.794564738869667,
      "num_tokens": 9778073.0,
      "step": 598
    },
    {
      "entropy": 0.5051270872354507,
      "epoch": 2.235074626865672,
      "grad_norm": 0.1611267328262329,
      "learning_rate": 0.0002,
      "loss": 0.5092532634735107,
      "mean_token_accuracy": 0.7946549952030182,
      "num_tokens": 9794345.0,
      "step": 599
    },
    {
      "entropy": 0.5325346812605858,
      "epoch": 2.2388059701492535,
      "grad_norm": 0.20552673935890198,
      "learning_rate": 0.0002,
      "loss": 0.5378585457801819,
      "mean_token_accuracy": 0.7835244834423065,
      "num_tokens": 9810716.0,
      "step": 600
    },
    {
      "entropy": 0.5362858921289444,
      "epoch": 2.2425373134328357,
      "grad_norm": 0.1832580715417862,
      "learning_rate": 0.0002,
      "loss": 0.5247851014137268,
      "mean_token_accuracy": 0.7862047404050827,
      "num_tokens": 9826899.0,
      "step": 601
    },
    {
      "entropy": 0.515026330947876,
      "epoch": 2.246268656716418,
      "grad_norm": 0.1738833785057068,
      "learning_rate": 0.0002,
      "loss": 0.5104220509529114,
      "mean_token_accuracy": 0.7956585586071014,
      "num_tokens": 9843201.0,
      "step": 602
    },
    {
      "entropy": 0.5326243042945862,
      "epoch": 2.25,
      "grad_norm": 0.19789133965969086,
      "learning_rate": 0.0002,
      "loss": 0.5377206206321716,
      "mean_token_accuracy": 0.7844580560922623,
      "num_tokens": 9859428.0,
      "step": 603
    },
    {
      "entropy": 0.5045425221323967,
      "epoch": 2.253731343283582,
      "grad_norm": 0.22017110884189606,
      "learning_rate": 0.0002,
      "loss": 0.5142727494239807,
      "mean_token_accuracy": 0.7916774153709412,
      "num_tokens": 9875509.0,
      "step": 604
    },
    {
      "entropy": 0.5083225071430206,
      "epoch": 2.2574626865671643,
      "grad_norm": 0.20720691978931427,
      "learning_rate": 0.0002,
      "loss": 0.5168294906616211,
      "mean_token_accuracy": 0.7916733622550964,
      "num_tokens": 9891513.0,
      "step": 605
    },
    {
      "entropy": 0.5038861483335495,
      "epoch": 2.2611940298507465,
      "grad_norm": 0.22461913526058197,
      "learning_rate": 0.0002,
      "loss": 0.5155696868896484,
      "mean_token_accuracy": 0.7936981916427612,
      "num_tokens": 9907970.0,
      "step": 606
    },
    {
      "entropy": 0.544201672077179,
      "epoch": 2.264925373134328,
      "grad_norm": 0.22078122198581696,
      "learning_rate": 0.0002,
      "loss": 0.5377649664878845,
      "mean_token_accuracy": 0.7846001982688904,
      "num_tokens": 9924358.0,
      "step": 607
    },
    {
      "entropy": 0.5319496989250183,
      "epoch": 2.2686567164179103,
      "grad_norm": 0.15865834057331085,
      "learning_rate": 0.0002,
      "loss": 0.5269988775253296,
      "mean_token_accuracy": 0.7889304012060165,
      "num_tokens": 9940613.0,
      "step": 608
    },
    {
      "entropy": 0.5121538639068604,
      "epoch": 2.2723880597014925,
      "grad_norm": 0.19707661867141724,
      "learning_rate": 0.0002,
      "loss": 0.5115834474563599,
      "mean_token_accuracy": 0.7899812310934067,
      "num_tokens": 9956900.0,
      "step": 609
    },
    {
      "entropy": 0.5339771807193756,
      "epoch": 2.2761194029850746,
      "grad_norm": 0.15257956087589264,
      "learning_rate": 0.0002,
      "loss": 0.5300955772399902,
      "mean_token_accuracy": 0.785103976726532,
      "num_tokens": 9973499.0,
      "step": 610
    },
    {
      "entropy": 0.5281384140253067,
      "epoch": 2.279850746268657,
      "grad_norm": 0.16553470492362976,
      "learning_rate": 0.0002,
      "loss": 0.5257382392883301,
      "mean_token_accuracy": 0.7875041514635086,
      "num_tokens": 9989801.0,
      "step": 611
    },
    {
      "entropy": 0.5170317441225052,
      "epoch": 2.283582089552239,
      "grad_norm": 0.1715046465396881,
      "learning_rate": 0.0002,
      "loss": 0.5181665420532227,
      "mean_token_accuracy": 0.7884780019521713,
      "num_tokens": 10006078.0,
      "step": 612
    },
    {
      "entropy": 0.5153259709477425,
      "epoch": 2.2873134328358207,
      "grad_norm": 0.1548839956521988,
      "learning_rate": 0.0002,
      "loss": 0.514171302318573,
      "mean_token_accuracy": 0.7930748611688614,
      "num_tokens": 10022246.0,
      "step": 613
    },
    {
      "entropy": 0.5224331915378571,
      "epoch": 2.291044776119403,
      "grad_norm": 0.1681355983018875,
      "learning_rate": 0.0002,
      "loss": 0.5221542119979858,
      "mean_token_accuracy": 0.7877352833747864,
      "num_tokens": 10038788.0,
      "step": 614
    },
    {
      "entropy": 0.5205291956663132,
      "epoch": 2.294776119402985,
      "grad_norm": 0.16179999709129333,
      "learning_rate": 0.0002,
      "loss": 0.5216364860534668,
      "mean_token_accuracy": 0.7894330769777298,
      "num_tokens": 10055226.0,
      "step": 615
    },
    {
      "entropy": 0.5362520515918732,
      "epoch": 2.298507462686567,
      "grad_norm": 0.19491799175739288,
      "learning_rate": 0.0002,
      "loss": 0.5382164716720581,
      "mean_token_accuracy": 0.7841734141111374,
      "num_tokens": 10071636.0,
      "step": 616
    },
    {
      "entropy": 0.5122754499316216,
      "epoch": 2.3022388059701493,
      "grad_norm": 0.15888278186321259,
      "learning_rate": 0.0002,
      "loss": 0.5128467082977295,
      "mean_token_accuracy": 0.7957093715667725,
      "num_tokens": 10087915.0,
      "step": 617
    },
    {
      "entropy": 0.530030369758606,
      "epoch": 2.3059701492537314,
      "grad_norm": 0.20173799991607666,
      "learning_rate": 0.0002,
      "loss": 0.5327577590942383,
      "mean_token_accuracy": 0.7822887450456619,
      "num_tokens": 10104328.0,
      "step": 618
    },
    {
      "entropy": 0.511964850127697,
      "epoch": 2.3097014925373136,
      "grad_norm": 0.22716699540615082,
      "learning_rate": 0.0002,
      "loss": 0.5194392800331116,
      "mean_token_accuracy": 0.7923955619335175,
      "num_tokens": 10120902.0,
      "step": 619
    },
    {
      "entropy": 0.5184068530797958,
      "epoch": 2.3134328358208958,
      "grad_norm": 0.1653965413570404,
      "learning_rate": 0.0002,
      "loss": 0.5168477892875671,
      "mean_token_accuracy": 0.7927787899971008,
      "num_tokens": 10137330.0,
      "step": 620
    },
    {
      "entropy": 0.5173092186450958,
      "epoch": 2.3171641791044775,
      "grad_norm": 0.1853804737329483,
      "learning_rate": 0.0002,
      "loss": 0.5189480781555176,
      "mean_token_accuracy": 0.7897288352251053,
      "num_tokens": 10153802.0,
      "step": 621
    },
    {
      "entropy": 0.5215531587600708,
      "epoch": 2.3208955223880596,
      "grad_norm": 0.1907532960176468,
      "learning_rate": 0.0002,
      "loss": 0.5235369801521301,
      "mean_token_accuracy": 0.7906839698553085,
      "num_tokens": 10170052.0,
      "step": 622
    },
    {
      "entropy": 0.5299772173166275,
      "epoch": 2.324626865671642,
      "grad_norm": 0.17518973350524902,
      "learning_rate": 0.0002,
      "loss": 0.5251893401145935,
      "mean_token_accuracy": 0.7905509769916534,
      "num_tokens": 10186299.0,
      "step": 623
    },
    {
      "entropy": 0.5111118629574776,
      "epoch": 2.328358208955224,
      "grad_norm": 0.162562295794487,
      "learning_rate": 0.0002,
      "loss": 0.5044469237327576,
      "mean_token_accuracy": 0.793881356716156,
      "num_tokens": 10202479.0,
      "step": 624
    },
    {
      "entropy": 0.5176884084939957,
      "epoch": 2.332089552238806,
      "grad_norm": 0.15817266702651978,
      "learning_rate": 0.0002,
      "loss": 0.5189487934112549,
      "mean_token_accuracy": 0.7899019569158554,
      "num_tokens": 10218755.0,
      "step": 625
    },
    {
      "entropy": 0.5375020056962967,
      "epoch": 2.3358208955223883,
      "grad_norm": 0.16503086686134338,
      "learning_rate": 0.0002,
      "loss": 0.5378777980804443,
      "mean_token_accuracy": 0.7797044813632965,
      "num_tokens": 10235308.0,
      "step": 626
    },
    {
      "entropy": 0.5069606155157089,
      "epoch": 2.33955223880597,
      "grad_norm": 0.19356752932071686,
      "learning_rate": 0.0002,
      "loss": 0.5149304866790771,
      "mean_token_accuracy": 0.790899932384491,
      "num_tokens": 10251410.0,
      "step": 627
    },
    {
      "entropy": 0.5025136545300484,
      "epoch": 2.343283582089552,
      "grad_norm": 0.1775875836610794,
      "learning_rate": 0.0002,
      "loss": 0.5070807933807373,
      "mean_token_accuracy": 0.7955823987722397,
      "num_tokens": 10267499.0,
      "step": 628
    },
    {
      "entropy": 0.5052608847618103,
      "epoch": 2.3470149253731343,
      "grad_norm": 0.21965590119361877,
      "learning_rate": 0.0002,
      "loss": 0.5101135969161987,
      "mean_token_accuracy": 0.7949910014867783,
      "num_tokens": 10283791.0,
      "step": 629
    },
    {
      "entropy": 0.5179193317890167,
      "epoch": 2.3507462686567164,
      "grad_norm": 0.19963982701301575,
      "learning_rate": 0.0002,
      "loss": 0.5215207934379578,
      "mean_token_accuracy": 0.7893756926059723,
      "num_tokens": 10299845.0,
      "step": 630
    },
    {
      "entropy": 0.5158931389451027,
      "epoch": 2.3544776119402986,
      "grad_norm": 0.160457581281662,
      "learning_rate": 0.0002,
      "loss": 0.5119190216064453,
      "mean_token_accuracy": 0.7945539355278015,
      "num_tokens": 10316272.0,
      "step": 631
    },
    {
      "entropy": 0.5080019608139992,
      "epoch": 2.3582089552238807,
      "grad_norm": 0.1729355752468109,
      "learning_rate": 0.0002,
      "loss": 0.5050552487373352,
      "mean_token_accuracy": 0.7989319264888763,
      "num_tokens": 10332919.0,
      "step": 632
    },
    {
      "entropy": 0.5174911320209503,
      "epoch": 2.361940298507463,
      "grad_norm": 0.1741209179162979,
      "learning_rate": 0.0002,
      "loss": 0.5234130024909973,
      "mean_token_accuracy": 0.7888159304857254,
      "num_tokens": 10349259.0,
      "step": 633
    },
    {
      "entropy": 0.5265702903270721,
      "epoch": 2.3656716417910446,
      "grad_norm": 0.19182217121124268,
      "learning_rate": 0.0002,
      "loss": 0.5293515920639038,
      "mean_token_accuracy": 0.7829533070325851,
      "num_tokens": 10365491.0,
      "step": 634
    },
    {
      "entropy": 0.5425137877464294,
      "epoch": 2.3694029850746268,
      "grad_norm": 0.16463470458984375,
      "learning_rate": 0.0002,
      "loss": 0.542192280292511,
      "mean_token_accuracy": 0.7816719859838486,
      "num_tokens": 10381847.0,
      "step": 635
    },
    {
      "entropy": 0.5144196897745132,
      "epoch": 2.373134328358209,
      "grad_norm": 0.16132977604866028,
      "learning_rate": 0.0002,
      "loss": 0.5131939053535461,
      "mean_token_accuracy": 0.7919805645942688,
      "num_tokens": 10398171.0,
      "step": 636
    },
    {
      "entropy": 0.5415032058954239,
      "epoch": 2.376865671641791,
      "grad_norm": 0.16324372589588165,
      "learning_rate": 0.0002,
      "loss": 0.5371772050857544,
      "mean_token_accuracy": 0.7831342816352844,
      "num_tokens": 10414686.0,
      "step": 637
    },
    {
      "entropy": 0.5282690078020096,
      "epoch": 2.3805970149253732,
      "grad_norm": 0.17967335879802704,
      "learning_rate": 0.0002,
      "loss": 0.5203690528869629,
      "mean_token_accuracy": 0.7885807305574417,
      "num_tokens": 10431126.0,
      "step": 638
    },
    {
      "entropy": 0.5216360539197922,
      "epoch": 2.3843283582089554,
      "grad_norm": 0.16235722601413727,
      "learning_rate": 0.0002,
      "loss": 0.5236966013908386,
      "mean_token_accuracy": 0.7884224951267242,
      "num_tokens": 10447324.0,
      "step": 639
    },
    {
      "entropy": 0.5296328365802765,
      "epoch": 2.388059701492537,
      "grad_norm": 0.1916787028312683,
      "learning_rate": 0.0002,
      "loss": 0.5376251339912415,
      "mean_token_accuracy": 0.7802027314901352,
      "num_tokens": 10463603.0,
      "step": 640
    },
    {
      "entropy": 0.5012985095381737,
      "epoch": 2.3917910447761193,
      "grad_norm": 0.19376890361309052,
      "learning_rate": 0.0002,
      "loss": 0.5101221203804016,
      "mean_token_accuracy": 0.7951995581388474,
      "num_tokens": 10479993.0,
      "step": 641
    },
    {
      "entropy": 0.5038901194930077,
      "epoch": 2.3955223880597014,
      "grad_norm": 0.17371249198913574,
      "learning_rate": 0.0002,
      "loss": 0.5146278738975525,
      "mean_token_accuracy": 0.7905002534389496,
      "num_tokens": 10496023.0,
      "step": 642
    },
    {
      "entropy": 0.5509473532438278,
      "epoch": 2.3992537313432836,
      "grad_norm": 0.15395016968250275,
      "learning_rate": 0.0002,
      "loss": 0.546664834022522,
      "mean_token_accuracy": 0.7777733653783798,
      "num_tokens": 10512527.0,
      "step": 643
    },
    {
      "entropy": 0.5174002125859261,
      "epoch": 2.4029850746268657,
      "grad_norm": 0.1537095606327057,
      "learning_rate": 0.0002,
      "loss": 0.5125638842582703,
      "mean_token_accuracy": 0.7953683733940125,
      "num_tokens": 10529050.0,
      "step": 644
    },
    {
      "entropy": 0.5259301066398621,
      "epoch": 2.406716417910448,
      "grad_norm": 0.19275200366973877,
      "learning_rate": 0.0002,
      "loss": 0.534030556678772,
      "mean_token_accuracy": 0.7856698781251907,
      "num_tokens": 10545403.0,
      "step": 645
    },
    {
      "entropy": 0.5141283497214317,
      "epoch": 2.41044776119403,
      "grad_norm": 0.2044205218553543,
      "learning_rate": 0.0002,
      "loss": 0.5202509760856628,
      "mean_token_accuracy": 0.7915003001689911,
      "num_tokens": 10561404.0,
      "step": 646
    },
    {
      "entropy": 0.5140255615115166,
      "epoch": 2.4141791044776117,
      "grad_norm": 0.17939844727516174,
      "learning_rate": 0.0002,
      "loss": 0.5115104913711548,
      "mean_token_accuracy": 0.7907571196556091,
      "num_tokens": 10577588.0,
      "step": 647
    },
    {
      "entropy": 0.5283705443143845,
      "epoch": 2.417910447761194,
      "grad_norm": 0.19888189435005188,
      "learning_rate": 0.0002,
      "loss": 0.5198178291320801,
      "mean_token_accuracy": 0.7891141772270203,
      "num_tokens": 10593859.0,
      "step": 648
    },
    {
      "entropy": 0.5462386906147003,
      "epoch": 2.421641791044776,
      "grad_norm": 0.1922907531261444,
      "learning_rate": 0.0002,
      "loss": 0.5396484732627869,
      "mean_token_accuracy": 0.7813579887151718,
      "num_tokens": 10610303.0,
      "step": 649
    },
    {
      "entropy": 0.5058758109807968,
      "epoch": 2.425373134328358,
      "grad_norm": 0.21254123747348785,
      "learning_rate": 0.0002,
      "loss": 0.5134891271591187,
      "mean_token_accuracy": 0.7951326668262482,
      "num_tokens": 10626628.0,
      "step": 650
    },
    {
      "entropy": 0.5051485821604729,
      "epoch": 2.4291044776119404,
      "grad_norm": 0.17681139707565308,
      "learning_rate": 0.0002,
      "loss": 0.5095136761665344,
      "mean_token_accuracy": 0.7927682101726532,
      "num_tokens": 10642872.0,
      "step": 651
    },
    {
      "entropy": 0.5098261535167694,
      "epoch": 2.4328358208955225,
      "grad_norm": 0.1644936203956604,
      "learning_rate": 0.0002,
      "loss": 0.5163934230804443,
      "mean_token_accuracy": 0.7900458127260208,
      "num_tokens": 10659143.0,
      "step": 652
    },
    {
      "entropy": 0.5026194378733635,
      "epoch": 2.4365671641791042,
      "grad_norm": 0.1890725940465927,
      "learning_rate": 0.0002,
      "loss": 0.511451244354248,
      "mean_token_accuracy": 0.7927152365446091,
      "num_tokens": 10675503.0,
      "step": 653
    },
    {
      "entropy": 0.5148562490940094,
      "epoch": 2.4402985074626864,
      "grad_norm": 0.1650211215019226,
      "learning_rate": 0.0002,
      "loss": 0.5156391263008118,
      "mean_token_accuracy": 0.7906764894723892,
      "num_tokens": 10691795.0,
      "step": 654
    },
    {
      "entropy": 0.5057827532291412,
      "epoch": 2.4440298507462686,
      "grad_norm": 0.1589452177286148,
      "learning_rate": 0.0002,
      "loss": 0.5033491849899292,
      "mean_token_accuracy": 0.7994053959846497,
      "num_tokens": 10707762.0,
      "step": 655
    },
    {
      "entropy": 0.5219250470399857,
      "epoch": 2.4477611940298507,
      "grad_norm": 0.18478544056415558,
      "learning_rate": 0.0002,
      "loss": 0.5219628810882568,
      "mean_token_accuracy": 0.7873866856098175,
      "num_tokens": 10724063.0,
      "step": 656
    },
    {
      "entropy": 0.5177232921123505,
      "epoch": 2.451492537313433,
      "grad_norm": 0.17303429543972015,
      "learning_rate": 0.0002,
      "loss": 0.5200316309928894,
      "mean_token_accuracy": 0.7885988503694534,
      "num_tokens": 10740399.0,
      "step": 657
    },
    {
      "entropy": 0.5319043695926666,
      "epoch": 2.455223880597015,
      "grad_norm": 0.18429186940193176,
      "learning_rate": 0.0002,
      "loss": 0.5326516032218933,
      "mean_token_accuracy": 0.7862447798252106,
      "num_tokens": 10756986.0,
      "step": 658
    },
    {
      "entropy": 0.5453691333532333,
      "epoch": 2.458955223880597,
      "grad_norm": 0.16711914539337158,
      "learning_rate": 0.0002,
      "loss": 0.5386096239089966,
      "mean_token_accuracy": 0.7812793850898743,
      "num_tokens": 10773458.0,
      "step": 659
    },
    {
      "entropy": 0.5214618891477585,
      "epoch": 2.4626865671641793,
      "grad_norm": 0.1909995675086975,
      "learning_rate": 0.0002,
      "loss": 0.518884003162384,
      "mean_token_accuracy": 0.7878068089485168,
      "num_tokens": 10789818.0,
      "step": 660
    },
    {
      "entropy": 0.523200586438179,
      "epoch": 2.466417910447761,
      "grad_norm": 0.17626361548900604,
      "learning_rate": 0.0002,
      "loss": 0.5212401151657104,
      "mean_token_accuracy": 0.7900760471820831,
      "num_tokens": 10806143.0,
      "step": 661
    },
    {
      "entropy": 0.5310025811195374,
      "epoch": 2.470149253731343,
      "grad_norm": 0.24172359704971313,
      "learning_rate": 0.0002,
      "loss": 0.5338881611824036,
      "mean_token_accuracy": 0.7858817130327225,
      "num_tokens": 10822437.0,
      "step": 662
    },
    {
      "entropy": 0.5151319652795792,
      "epoch": 2.4738805970149254,
      "grad_norm": 0.19658994674682617,
      "learning_rate": 0.0002,
      "loss": 0.5139521956443787,
      "mean_token_accuracy": 0.7917647659778595,
      "num_tokens": 10838442.0,
      "step": 663
    },
    {
      "entropy": 0.5117574036121368,
      "epoch": 2.4776119402985075,
      "grad_norm": 0.2189301699399948,
      "learning_rate": 0.0002,
      "loss": 0.513599693775177,
      "mean_token_accuracy": 0.7897299826145172,
      "num_tokens": 10854797.0,
      "step": 664
    },
    {
      "entropy": 0.5397205054759979,
      "epoch": 2.4813432835820897,
      "grad_norm": 0.2076101452112198,
      "learning_rate": 0.0002,
      "loss": 0.5459029078483582,
      "mean_token_accuracy": 0.7777052521705627,
      "num_tokens": 10871117.0,
      "step": 665
    },
    {
      "entropy": 0.525243952870369,
      "epoch": 2.485074626865672,
      "grad_norm": 0.1969526708126068,
      "learning_rate": 0.0002,
      "loss": 0.5259374380111694,
      "mean_token_accuracy": 0.7870301008224487,
      "num_tokens": 10887285.0,
      "step": 666
    },
    {
      "entropy": 0.521914929151535,
      "epoch": 2.4888059701492535,
      "grad_norm": 0.1793866604566574,
      "learning_rate": 0.0002,
      "loss": 0.523249626159668,
      "mean_token_accuracy": 0.7908923327922821,
      "num_tokens": 10903583.0,
      "step": 667
    },
    {
      "entropy": 0.5157094374299049,
      "epoch": 2.4925373134328357,
      "grad_norm": 0.1676340252161026,
      "learning_rate": 0.0002,
      "loss": 0.5196658372879028,
      "mean_token_accuracy": 0.7936161011457443,
      "num_tokens": 10919876.0,
      "step": 668
    },
    {
      "entropy": 0.49876970052719116,
      "epoch": 2.496268656716418,
      "grad_norm": 0.18448136746883392,
      "learning_rate": 0.0002,
      "loss": 0.49738743901252747,
      "mean_token_accuracy": 0.8003499060869217,
      "num_tokens": 10936091.0,
      "step": 669
    },
    {
      "entropy": 0.5243137031793594,
      "epoch": 2.5,
      "grad_norm": 0.1985243260860443,
      "learning_rate": 0.0002,
      "loss": 0.526336133480072,
      "mean_token_accuracy": 0.7861499488353729,
      "num_tokens": 10952522.0,
      "step": 670
    },
    {
      "entropy": 0.5277926176786423,
      "epoch": 2.503731343283582,
      "grad_norm": 0.15664395689964294,
      "learning_rate": 0.0002,
      "loss": 0.5211771726608276,
      "mean_token_accuracy": 0.7905664294958115,
      "num_tokens": 10968886.0,
      "step": 671
    },
    {
      "entropy": 0.5109870582818985,
      "epoch": 2.5074626865671643,
      "grad_norm": 0.17840486764907837,
      "learning_rate": 0.0002,
      "loss": 0.5104790925979614,
      "mean_token_accuracy": 0.7953955680131912,
      "num_tokens": 10985258.0,
      "step": 672
    },
    {
      "entropy": 0.4981943815946579,
      "epoch": 2.5111940298507465,
      "grad_norm": 0.15788039565086365,
      "learning_rate": 0.0002,
      "loss": 0.5019396543502808,
      "mean_token_accuracy": 0.7957722395658493,
      "num_tokens": 11001537.0,
      "step": 673
    },
    {
      "entropy": 0.4992476552724838,
      "epoch": 2.5149253731343286,
      "grad_norm": 0.20122262835502625,
      "learning_rate": 0.0002,
      "loss": 0.5123214721679688,
      "mean_token_accuracy": 0.7936280071735382,
      "num_tokens": 11017858.0,
      "step": 674
    },
    {
      "entropy": 0.5326351076364517,
      "epoch": 2.5186567164179103,
      "grad_norm": 0.15370923280715942,
      "learning_rate": 0.0002,
      "loss": 0.5299698114395142,
      "mean_token_accuracy": 0.7864175289869308,
      "num_tokens": 11034251.0,
      "step": 675
    },
    {
      "entropy": 0.5276974588632584,
      "epoch": 2.5223880597014925,
      "grad_norm": 0.16408182680606842,
      "learning_rate": 0.0002,
      "loss": 0.5256198644638062,
      "mean_token_accuracy": 0.7864832729101181,
      "num_tokens": 11050538.0,
      "step": 676
    },
    {
      "entropy": 0.5174605995416641,
      "epoch": 2.5261194029850746,
      "grad_norm": 0.1726282238960266,
      "learning_rate": 0.0002,
      "loss": 0.5166889429092407,
      "mean_token_accuracy": 0.7903372198343277,
      "num_tokens": 11066909.0,
      "step": 677
    },
    {
      "entropy": 0.5096773952245712,
      "epoch": 2.529850746268657,
      "grad_norm": 0.18736550211906433,
      "learning_rate": 0.0002,
      "loss": 0.5147178173065186,
      "mean_token_accuracy": 0.7915707528591156,
      "num_tokens": 11083296.0,
      "step": 678
    },
    {
      "entropy": 0.5143576934933662,
      "epoch": 2.533582089552239,
      "grad_norm": 0.18496522307395935,
      "learning_rate": 0.0002,
      "loss": 0.5202215909957886,
      "mean_token_accuracy": 0.7876331657171249,
      "num_tokens": 11099735.0,
      "step": 679
    },
    {
      "entropy": 0.5062269270420074,
      "epoch": 2.5373134328358207,
      "grad_norm": 0.18014365434646606,
      "learning_rate": 0.0002,
      "loss": 0.5091406106948853,
      "mean_token_accuracy": 0.7964621633291245,
      "num_tokens": 11116208.0,
      "step": 680
    },
    {
      "entropy": 0.5146580412983894,
      "epoch": 2.541044776119403,
      "grad_norm": 0.15533168613910675,
      "learning_rate": 0.0002,
      "loss": 0.5158394575119019,
      "mean_token_accuracy": 0.7913824915885925,
      "num_tokens": 11132744.0,
      "step": 681
    },
    {
      "entropy": 0.5299884453415871,
      "epoch": 2.544776119402985,
      "grad_norm": 0.19397816061973572,
      "learning_rate": 0.0002,
      "loss": 0.5282403826713562,
      "mean_token_accuracy": 0.7865999937057495,
      "num_tokens": 11149385.0,
      "step": 682
    },
    {
      "entropy": 0.5197403728961945,
      "epoch": 2.548507462686567,
      "grad_norm": 0.1893748939037323,
      "learning_rate": 0.0002,
      "loss": 0.5172282457351685,
      "mean_token_accuracy": 0.7889421880245209,
      "num_tokens": 11165536.0,
      "step": 683
    },
    {
      "entropy": 0.5483877509832382,
      "epoch": 2.5522388059701493,
      "grad_norm": 0.1692439764738083,
      "learning_rate": 0.0002,
      "loss": 0.5408689975738525,
      "mean_token_accuracy": 0.7819931209087372,
      "num_tokens": 11182199.0,
      "step": 684
    },
    {
      "entropy": 0.5187435150146484,
      "epoch": 2.5559701492537314,
      "grad_norm": 0.16838251054286957,
      "learning_rate": 0.0002,
      "loss": 0.5220701098442078,
      "mean_token_accuracy": 0.7913226187229156,
      "num_tokens": 11198351.0,
      "step": 685
    },
    {
      "entropy": 0.5129819363355637,
      "epoch": 2.5597014925373136,
      "grad_norm": 0.18473690748214722,
      "learning_rate": 0.0002,
      "loss": 0.5199850797653198,
      "mean_token_accuracy": 0.7907718271017075,
      "num_tokens": 11214899.0,
      "step": 686
    },
    {
      "entropy": 0.5174092352390289,
      "epoch": 2.5634328358208958,
      "grad_norm": 0.18355096876621246,
      "learning_rate": 0.0002,
      "loss": 0.5231988430023193,
      "mean_token_accuracy": 0.7854581624269485,
      "num_tokens": 11231316.0,
      "step": 687
    },
    {
      "entropy": 0.5146564170718193,
      "epoch": 2.5671641791044775,
      "grad_norm": 0.20094642043113708,
      "learning_rate": 0.0002,
      "loss": 0.5167846083641052,
      "mean_token_accuracy": 0.7892555296421051,
      "num_tokens": 11247525.0,
      "step": 688
    },
    {
      "entropy": 0.5073134675621986,
      "epoch": 2.5708955223880596,
      "grad_norm": 0.17776694893836975,
      "learning_rate": 0.0002,
      "loss": 0.5059224963188171,
      "mean_token_accuracy": 0.7938186377286911,
      "num_tokens": 11263630.0,
      "step": 689
    },
    {
      "entropy": 0.51164161413908,
      "epoch": 2.574626865671642,
      "grad_norm": 0.23441171646118164,
      "learning_rate": 0.0002,
      "loss": 0.5132524371147156,
      "mean_token_accuracy": 0.7924985736608505,
      "num_tokens": 11279891.0,
      "step": 690
    },
    {
      "entropy": 0.5324152410030365,
      "epoch": 2.578358208955224,
      "grad_norm": 0.1964472234249115,
      "learning_rate": 0.0002,
      "loss": 0.5321142673492432,
      "mean_token_accuracy": 0.7884731590747833,
      "num_tokens": 11296194.0,
      "step": 691
    },
    {
      "entropy": 0.5136373415589333,
      "epoch": 2.582089552238806,
      "grad_norm": 0.23449179530143738,
      "learning_rate": 0.0002,
      "loss": 0.5196998715400696,
      "mean_token_accuracy": 0.7908406853675842,
      "num_tokens": 11312615.0,
      "step": 692
    },
    {
      "entropy": 0.5276090502738953,
      "epoch": 2.585820895522388,
      "grad_norm": 0.16686299443244934,
      "learning_rate": 0.0002,
      "loss": 0.5247229337692261,
      "mean_token_accuracy": 0.7879517525434494,
      "num_tokens": 11329158.0,
      "step": 693
    },
    {
      "entropy": 0.5419809222221375,
      "epoch": 2.58955223880597,
      "grad_norm": 0.19849538803100586,
      "learning_rate": 0.0002,
      "loss": 0.5328899621963501,
      "mean_token_accuracy": 0.7848672121763229,
      "num_tokens": 11345724.0,
      "step": 694
    },
    {
      "entropy": 0.5273312255740166,
      "epoch": 2.593283582089552,
      "grad_norm": 0.15091370046138763,
      "learning_rate": 0.0002,
      "loss": 0.5279825925827026,
      "mean_token_accuracy": 0.7853807210922241,
      "num_tokens": 11362189.0,
      "step": 695
    },
    {
      "entropy": 0.5198656767606735,
      "epoch": 2.5970149253731343,
      "grad_norm": 0.23191620409488678,
      "learning_rate": 0.0002,
      "loss": 0.5321477651596069,
      "mean_token_accuracy": 0.7849823385477066,
      "num_tokens": 11378807.0,
      "step": 696
    },
    {
      "entropy": 0.5051373466849327,
      "epoch": 2.6007462686567164,
      "grad_norm": 0.16530166566371918,
      "learning_rate": 0.0002,
      "loss": 0.5118955373764038,
      "mean_token_accuracy": 0.7921792417764664,
      "num_tokens": 11395066.0,
      "step": 697
    },
    {
      "entropy": 0.5375550240278244,
      "epoch": 2.6044776119402986,
      "grad_norm": 0.16651837527751923,
      "learning_rate": 0.0002,
      "loss": 0.5333649516105652,
      "mean_token_accuracy": 0.7834018468856812,
      "num_tokens": 11411502.0,
      "step": 698
    },
    {
      "entropy": 0.509097121655941,
      "epoch": 2.6082089552238807,
      "grad_norm": 0.19326747953891754,
      "learning_rate": 0.0002,
      "loss": 0.5079880952835083,
      "mean_token_accuracy": 0.7902690321207047,
      "num_tokens": 11427527.0,
      "step": 699
    },
    {
      "entropy": 0.5243344008922577,
      "epoch": 2.611940298507463,
      "grad_norm": 0.17708131670951843,
      "learning_rate": 0.0002,
      "loss": 0.527232825756073,
      "mean_token_accuracy": 0.78766830265522,
      "num_tokens": 11443934.0,
      "step": 700
    },
    {
      "entropy": 0.5099955424666405,
      "epoch": 2.6156716417910446,
      "grad_norm": 0.22393395006656647,
      "learning_rate": 0.0002,
      "loss": 0.5181647539138794,
      "mean_token_accuracy": 0.7911688387393951,
      "num_tokens": 11460041.0,
      "step": 701
    },
    {
      "entropy": 0.5081977397203445,
      "epoch": 2.6194029850746268,
      "grad_norm": 0.19041450321674347,
      "learning_rate": 0.0002,
      "loss": 0.5169417262077332,
      "mean_token_accuracy": 0.7914475202560425,
      "num_tokens": 11476118.0,
      "step": 702
    },
    {
      "entropy": 0.531707689166069,
      "epoch": 2.623134328358209,
      "grad_norm": 0.1838483214378357,
      "learning_rate": 0.0002,
      "loss": 0.5199188590049744,
      "mean_token_accuracy": 0.7899897545576096,
      "num_tokens": 11492660.0,
      "step": 703
    },
    {
      "entropy": 0.5364825427532196,
      "epoch": 2.626865671641791,
      "grad_norm": 0.1751444786787033,
      "learning_rate": 0.0002,
      "loss": 0.5356893539428711,
      "mean_token_accuracy": 0.7835856378078461,
      "num_tokens": 11509081.0,
      "step": 704
    },
    {
      "entropy": 0.5187056511640549,
      "epoch": 2.6305970149253732,
      "grad_norm": 0.17921118438243866,
      "learning_rate": 0.0002,
      "loss": 0.5232405066490173,
      "mean_token_accuracy": 0.7884531170129776,
      "num_tokens": 11525499.0,
      "step": 705
    },
    {
      "entropy": 0.5242651104927063,
      "epoch": 2.6343283582089554,
      "grad_norm": 0.18693575263023376,
      "learning_rate": 0.0002,
      "loss": 0.5285453796386719,
      "mean_token_accuracy": 0.786514088511467,
      "num_tokens": 11541734.0,
      "step": 706
    },
    {
      "entropy": 0.516477108001709,
      "epoch": 2.638059701492537,
      "grad_norm": 0.1994662582874298,
      "learning_rate": 0.0002,
      "loss": 0.5184328556060791,
      "mean_token_accuracy": 0.79111048579216,
      "num_tokens": 11558204.0,
      "step": 707
    },
    {
      "entropy": 0.5288708806037903,
      "epoch": 2.6417910447761193,
      "grad_norm": 0.16373923420906067,
      "learning_rate": 0.0002,
      "loss": 0.5213331580162048,
      "mean_token_accuracy": 0.7881525307893753,
      "num_tokens": 11574434.0,
      "step": 708
    },
    {
      "entropy": 0.5072719901800156,
      "epoch": 2.6455223880597014,
      "grad_norm": 0.1917801946401596,
      "learning_rate": 0.0002,
      "loss": 0.509112536907196,
      "mean_token_accuracy": 0.7960505336523056,
      "num_tokens": 11590646.0,
      "step": 709
    },
    {
      "entropy": 0.5356978923082352,
      "epoch": 2.6492537313432836,
      "grad_norm": 0.19294337928295135,
      "learning_rate": 0.0002,
      "loss": 0.5388337969779968,
      "mean_token_accuracy": 0.7824567407369614,
      "num_tokens": 11606979.0,
      "step": 710
    },
    {
      "entropy": 0.5163687542080879,
      "epoch": 2.6529850746268657,
      "grad_norm": 0.1852083057165146,
      "learning_rate": 0.0002,
      "loss": 0.5158357620239258,
      "mean_token_accuracy": 0.7907344847917557,
      "num_tokens": 11623404.0,
      "step": 711
    },
    {
      "entropy": 0.5283653736114502,
      "epoch": 2.656716417910448,
      "grad_norm": 0.17565470933914185,
      "learning_rate": 0.0002,
      "loss": 0.5322569608688354,
      "mean_token_accuracy": 0.7860839515924454,
      "num_tokens": 11639756.0,
      "step": 712
    },
    {
      "entropy": 0.5301189422607422,
      "epoch": 2.66044776119403,
      "grad_norm": 0.18470223248004913,
      "learning_rate": 0.0002,
      "loss": 0.5344855785369873,
      "mean_token_accuracy": 0.7831524461507797,
      "num_tokens": 11656115.0,
      "step": 713
    },
    {
      "entropy": 0.5131835639476776,
      "epoch": 2.664179104477612,
      "grad_norm": 0.14412830770015717,
      "learning_rate": 0.0002,
      "loss": 0.5086023211479187,
      "mean_token_accuracy": 0.7938779592514038,
      "num_tokens": 11672197.0,
      "step": 714
    },
    {
      "entropy": 0.5248347520828247,
      "epoch": 2.667910447761194,
      "grad_norm": 0.1623944342136383,
      "learning_rate": 0.0002,
      "loss": 0.5236642360687256,
      "mean_token_accuracy": 0.78847536444664,
      "num_tokens": 11688778.0,
      "step": 715
    },
    {
      "entropy": 0.5317736268043518,
      "epoch": 2.671641791044776,
      "grad_norm": 0.17043523490428925,
      "learning_rate": 0.0002,
      "loss": 0.5294151306152344,
      "mean_token_accuracy": 0.7867350727319717,
      "num_tokens": 11704972.0,
      "step": 716
    },
    {
      "entropy": 0.5292799472808838,
      "epoch": 2.675373134328358,
      "grad_norm": 0.21420958638191223,
      "learning_rate": 0.0002,
      "loss": 0.5348944664001465,
      "mean_token_accuracy": 0.784217044711113,
      "num_tokens": 11721357.0,
      "step": 717
    },
    {
      "entropy": 0.513471245765686,
      "epoch": 2.6791044776119404,
      "grad_norm": 0.18216556310653687,
      "learning_rate": 0.0002,
      "loss": 0.5178148746490479,
      "mean_token_accuracy": 0.7881872206926346,
      "num_tokens": 11737640.0,
      "step": 718
    },
    {
      "entropy": 0.5091867446899414,
      "epoch": 2.6828358208955225,
      "grad_norm": 0.18353325128555298,
      "learning_rate": 0.0002,
      "loss": 0.509505033493042,
      "mean_token_accuracy": 0.7933301627635956,
      "num_tokens": 11753743.0,
      "step": 719
    },
    {
      "entropy": 0.4985937625169754,
      "epoch": 2.6865671641791042,
      "grad_norm": 0.17763254046440125,
      "learning_rate": 0.0002,
      "loss": 0.5041629076004028,
      "mean_token_accuracy": 0.7961723208427429,
      "num_tokens": 11769941.0,
      "step": 720
    },
    {
      "entropy": 0.5326617211103439,
      "epoch": 2.6902985074626864,
      "grad_norm": 0.17128810286521912,
      "learning_rate": 0.0002,
      "loss": 0.5273231863975525,
      "mean_token_accuracy": 0.7882279455661774,
      "num_tokens": 11786468.0,
      "step": 721
    },
    {
      "entropy": 0.5309469103813171,
      "epoch": 2.6940298507462686,
      "grad_norm": 0.16436029970645905,
      "learning_rate": 0.0002,
      "loss": 0.5328190326690674,
      "mean_token_accuracy": 0.7852970659732819,
      "num_tokens": 11802907.0,
      "step": 722
    },
    {
      "entropy": 0.5232216566801071,
      "epoch": 2.6977611940298507,
      "grad_norm": 0.16719315946102142,
      "learning_rate": 0.0002,
      "loss": 0.5230921506881714,
      "mean_token_accuracy": 0.7876270413398743,
      "num_tokens": 11819317.0,
      "step": 723
    },
    {
      "entropy": 0.5203052535653114,
      "epoch": 2.701492537313433,
      "grad_norm": 0.19284284114837646,
      "learning_rate": 0.0002,
      "loss": 0.5245278477668762,
      "mean_token_accuracy": 0.7879077643156052,
      "num_tokens": 11835688.0,
      "step": 724
    },
    {
      "entropy": 0.5309562981128693,
      "epoch": 2.705223880597015,
      "grad_norm": 0.237013041973114,
      "learning_rate": 0.0002,
      "loss": 0.5299087166786194,
      "mean_token_accuracy": 0.7888383269309998,
      "num_tokens": 11851919.0,
      "step": 725
    },
    {
      "entropy": 0.5239868611097336,
      "epoch": 2.708955223880597,
      "grad_norm": 0.1684781163930893,
      "learning_rate": 0.0002,
      "loss": 0.5212418437004089,
      "mean_token_accuracy": 0.7896943688392639,
      "num_tokens": 11868352.0,
      "step": 726
    },
    {
      "entropy": 0.5078758075833321,
      "epoch": 2.7126865671641793,
      "grad_norm": 0.18132759630680084,
      "learning_rate": 0.0002,
      "loss": 0.5123098492622375,
      "mean_token_accuracy": 0.7928104400634766,
      "num_tokens": 11884504.0,
      "step": 727
    },
    {
      "entropy": 0.5257874876260757,
      "epoch": 2.716417910447761,
      "grad_norm": 0.18958209455013275,
      "learning_rate": 0.0002,
      "loss": 0.5350735783576965,
      "mean_token_accuracy": 0.7816809117794037,
      "num_tokens": 11900762.0,
      "step": 728
    },
    {
      "entropy": 0.5237897783517838,
      "epoch": 2.720149253731343,
      "grad_norm": 0.17628394067287445,
      "learning_rate": 0.0002,
      "loss": 0.5271024107933044,
      "mean_token_accuracy": 0.7875955998897552,
      "num_tokens": 11917096.0,
      "step": 729
    },
    {
      "entropy": 0.5278095304965973,
      "epoch": 2.7238805970149254,
      "grad_norm": 0.1737760603427887,
      "learning_rate": 0.0002,
      "loss": 0.5236294865608215,
      "mean_token_accuracy": 0.7871440947055817,
      "num_tokens": 11933442.0,
      "step": 730
    },
    {
      "entropy": 0.5360710769891739,
      "epoch": 2.7276119402985075,
      "grad_norm": 0.17106162011623383,
      "learning_rate": 0.0002,
      "loss": 0.5306381583213806,
      "mean_token_accuracy": 0.7830738425254822,
      "num_tokens": 11949977.0,
      "step": 731
    },
    {
      "entropy": 0.5101736485958099,
      "epoch": 2.7313432835820897,
      "grad_norm": 0.17468304932117462,
      "learning_rate": 0.0002,
      "loss": 0.5146869421005249,
      "mean_token_accuracy": 0.7935636639595032,
      "num_tokens": 11966192.0,
      "step": 732
    },
    {
      "entropy": 0.5177389085292816,
      "epoch": 2.7350746268656714,
      "grad_norm": 0.18631240725517273,
      "learning_rate": 0.0002,
      "loss": 0.5224716663360596,
      "mean_token_accuracy": 0.78856061398983,
      "num_tokens": 11982767.0,
      "step": 733
    },
    {
      "entropy": 0.5130163431167603,
      "epoch": 2.7388059701492535,
      "grad_norm": 0.18318809568881989,
      "learning_rate": 0.0002,
      "loss": 0.5186882019042969,
      "mean_token_accuracy": 0.7916167229413986,
      "num_tokens": 11998980.0,
      "step": 734
    },
    {
      "entropy": 0.5177224427461624,
      "epoch": 2.7425373134328357,
      "grad_norm": 0.15900187194347382,
      "learning_rate": 0.0002,
      "loss": 0.5131608843803406,
      "mean_token_accuracy": 0.7938690781593323,
      "num_tokens": 12015535.0,
      "step": 735
    },
    {
      "entropy": 0.526519387960434,
      "epoch": 2.746268656716418,
      "grad_norm": 0.174263134598732,
      "learning_rate": 0.0002,
      "loss": 0.5261813402175903,
      "mean_token_accuracy": 0.7892861515283585,
      "num_tokens": 12031788.0,
      "step": 736
    },
    {
      "entropy": 0.5191493332386017,
      "epoch": 2.75,
      "grad_norm": 0.18909449875354767,
      "learning_rate": 0.0002,
      "loss": 0.5240525007247925,
      "mean_token_accuracy": 0.7878368943929672,
      "num_tokens": 12047980.0,
      "step": 737
    },
    {
      "entropy": 0.5201373547315598,
      "epoch": 2.753731343283582,
      "grad_norm": 0.18388764560222626,
      "learning_rate": 0.0002,
      "loss": 0.5292187929153442,
      "mean_token_accuracy": 0.7905917465686798,
      "num_tokens": 12064314.0,
      "step": 738
    },
    {
      "entropy": 0.5199328809976578,
      "epoch": 2.7574626865671643,
      "grad_norm": 0.19509336352348328,
      "learning_rate": 0.0002,
      "loss": 0.5188801884651184,
      "mean_token_accuracy": 0.7895538657903671,
      "num_tokens": 12080751.0,
      "step": 739
    },
    {
      "entropy": 0.5277723222970963,
      "epoch": 2.7611940298507465,
      "grad_norm": 0.16337504982948303,
      "learning_rate": 0.0002,
      "loss": 0.5206757187843323,
      "mean_token_accuracy": 0.7895227074623108,
      "num_tokens": 12097014.0,
      "step": 740
    },
    {
      "entropy": 0.5113491863012314,
      "epoch": 2.7649253731343286,
      "grad_norm": 0.17909789085388184,
      "learning_rate": 0.0002,
      "loss": 0.5122904777526855,
      "mean_token_accuracy": 0.7908981740474701,
      "num_tokens": 12113252.0,
      "step": 741
    },
    {
      "entropy": 0.5200309902429581,
      "epoch": 2.7686567164179103,
      "grad_norm": 0.17350299656391144,
      "learning_rate": 0.0002,
      "loss": 0.5194863677024841,
      "mean_token_accuracy": 0.7900390475988388,
      "num_tokens": 12129709.0,
      "step": 742
    },
    {
      "entropy": 0.5226462483406067,
      "epoch": 2.7723880597014925,
      "grad_norm": 0.21633893251419067,
      "learning_rate": 0.0002,
      "loss": 0.5241018533706665,
      "mean_token_accuracy": 0.7901509553194046,
      "num_tokens": 12146084.0,
      "step": 743
    },
    {
      "entropy": 0.5130392387509346,
      "epoch": 2.7761194029850746,
      "grad_norm": 0.19013682007789612,
      "learning_rate": 0.0002,
      "loss": 0.5189740061759949,
      "mean_token_accuracy": 0.7909031510353088,
      "num_tokens": 12162307.0,
      "step": 744
    },
    {
      "entropy": 0.5150926038622856,
      "epoch": 2.779850746268657,
      "grad_norm": 0.2071346938610077,
      "learning_rate": 0.0002,
      "loss": 0.5166252255439758,
      "mean_token_accuracy": 0.7929645031690598,
      "num_tokens": 12178654.0,
      "step": 745
    },
    {
      "entropy": 0.5175644010305405,
      "epoch": 2.783582089552239,
      "grad_norm": 0.1927538812160492,
      "learning_rate": 0.0002,
      "loss": 0.5234126448631287,
      "mean_token_accuracy": 0.7895888537168503,
      "num_tokens": 12194657.0,
      "step": 746
    },
    {
      "entropy": 0.5124155282974243,
      "epoch": 2.7873134328358207,
      "grad_norm": 0.20746196806430817,
      "learning_rate": 0.0002,
      "loss": 0.5111269950866699,
      "mean_token_accuracy": 0.7925330102443695,
      "num_tokens": 12211150.0,
      "step": 747
    },
    {
      "entropy": 0.5269140601158142,
      "epoch": 2.791044776119403,
      "grad_norm": 0.16280147433280945,
      "learning_rate": 0.0002,
      "loss": 0.5249094367027283,
      "mean_token_accuracy": 0.7845876812934875,
      "num_tokens": 12227551.0,
      "step": 748
    },
    {
      "entropy": 0.5178611427545547,
      "epoch": 2.794776119402985,
      "grad_norm": 0.23840144276618958,
      "learning_rate": 0.0002,
      "loss": 0.5257112383842468,
      "mean_token_accuracy": 0.7894743531942368,
      "num_tokens": 12243876.0,
      "step": 749
    },
    {
      "entropy": 0.5116888880729675,
      "epoch": 2.798507462686567,
      "grad_norm": 0.18411816656589508,
      "learning_rate": 0.0002,
      "loss": 0.5144840478897095,
      "mean_token_accuracy": 0.7931785434484482,
      "num_tokens": 12260217.0,
      "step": 750
    },
    {
      "entropy": 0.5289624482393265,
      "epoch": 2.8022388059701493,
      "grad_norm": 0.22270359098911285,
      "learning_rate": 0.0002,
      "loss": 0.5311276316642761,
      "mean_token_accuracy": 0.7855756431818008,
      "num_tokens": 12276532.0,
      "step": 751
    },
    {
      "entropy": 0.547882929444313,
      "epoch": 2.8059701492537314,
      "grad_norm": 0.15829682350158691,
      "learning_rate": 0.0002,
      "loss": 0.5395496487617493,
      "mean_token_accuracy": 0.7822854816913605,
      "num_tokens": 12292809.0,
      "step": 752
    },
    {
      "entropy": 0.5366968065500259,
      "epoch": 2.8097014925373136,
      "grad_norm": 0.17022006213665009,
      "learning_rate": 0.0002,
      "loss": 0.5253041982650757,
      "mean_token_accuracy": 0.7889240682125092,
      "num_tokens": 12309272.0,
      "step": 753
    },
    {
      "entropy": 0.5104647874832153,
      "epoch": 2.8134328358208958,
      "grad_norm": 0.20047977566719055,
      "learning_rate": 0.0002,
      "loss": 0.5114369988441467,
      "mean_token_accuracy": 0.7932160943746567,
      "num_tokens": 12325725.0,
      "step": 754
    },
    {
      "entropy": 0.530600056052208,
      "epoch": 2.8171641791044775,
      "grad_norm": 0.18938857316970825,
      "learning_rate": 0.0002,
      "loss": 0.5256994366645813,
      "mean_token_accuracy": 0.787563219666481,
      "num_tokens": 12341933.0,
      "step": 755
    },
    {
      "entropy": 0.5128819495439529,
      "epoch": 2.8208955223880596,
      "grad_norm": 0.19077159464359283,
      "learning_rate": 0.0002,
      "loss": 0.5233974456787109,
      "mean_token_accuracy": 0.7869286239147186,
      "num_tokens": 12358445.0,
      "step": 756
    },
    {
      "entropy": 0.5205030888319016,
      "epoch": 2.824626865671642,
      "grad_norm": 0.2066243290901184,
      "learning_rate": 0.0002,
      "loss": 0.527535617351532,
      "mean_token_accuracy": 0.7873703986406326,
      "num_tokens": 12374542.0,
      "step": 757
    },
    {
      "entropy": 0.5135227516293526,
      "epoch": 2.828358208955224,
      "grad_norm": 0.20685350894927979,
      "learning_rate": 0.0002,
      "loss": 0.5181005597114563,
      "mean_token_accuracy": 0.7896196097135544,
      "num_tokens": 12390788.0,
      "step": 758
    },
    {
      "entropy": 0.5336467772722244,
      "epoch": 2.832089552238806,
      "grad_norm": 0.1939532607793808,
      "learning_rate": 0.0002,
      "loss": 0.5294384956359863,
      "mean_token_accuracy": 0.7889339476823807,
      "num_tokens": 12407229.0,
      "step": 759
    },
    {
      "entropy": 0.5257266908884048,
      "epoch": 2.835820895522388,
      "grad_norm": 0.1771981567144394,
      "learning_rate": 0.0002,
      "loss": 0.5216140151023865,
      "mean_token_accuracy": 0.7899226099252701,
      "num_tokens": 12423846.0,
      "step": 760
    },
    {
      "entropy": 0.5299984812736511,
      "epoch": 2.83955223880597,
      "grad_norm": 0.20455680787563324,
      "learning_rate": 0.0002,
      "loss": 0.5296297073364258,
      "mean_token_accuracy": 0.7862879633903503,
      "num_tokens": 12440158.0,
      "step": 761
    },
    {
      "entropy": 0.5143841132521629,
      "epoch": 2.843283582089552,
      "grad_norm": 0.2076958268880844,
      "learning_rate": 0.0002,
      "loss": 0.5176342725753784,
      "mean_token_accuracy": 0.7894581258296967,
      "num_tokens": 12456654.0,
      "step": 762
    },
    {
      "entropy": 0.4974513649940491,
      "epoch": 2.8470149253731343,
      "grad_norm": 0.193134143948555,
      "learning_rate": 0.0002,
      "loss": 0.5035260319709778,
      "mean_token_accuracy": 0.7979147285223007,
      "num_tokens": 12472987.0,
      "step": 763
    },
    {
      "entropy": 0.516231395304203,
      "epoch": 2.8507462686567164,
      "grad_norm": 0.19579733908176422,
      "learning_rate": 0.0002,
      "loss": 0.523535430431366,
      "mean_token_accuracy": 0.7885937541723251,
      "num_tokens": 12489201.0,
      "step": 764
    },
    {
      "entropy": 0.5090928375720978,
      "epoch": 2.8544776119402986,
      "grad_norm": 0.1745532602071762,
      "learning_rate": 0.0002,
      "loss": 0.5120922327041626,
      "mean_token_accuracy": 0.7926068156957626,
      "num_tokens": 12505297.0,
      "step": 765
    },
    {
      "entropy": 0.5212984532117844,
      "epoch": 2.8582089552238807,
      "grad_norm": 0.1687193065881729,
      "learning_rate": 0.0002,
      "loss": 0.5186242461204529,
      "mean_token_accuracy": 0.7898098975419998,
      "num_tokens": 12521805.0,
      "step": 766
    },
    {
      "entropy": 0.5455201715230942,
      "epoch": 2.861940298507463,
      "grad_norm": 0.14300285279750824,
      "learning_rate": 0.0002,
      "loss": 0.5431771278381348,
      "mean_token_accuracy": 0.7779514342546463,
      "num_tokens": 12538465.0,
      "step": 767
    },
    {
      "entropy": 0.5209106504917145,
      "epoch": 2.8656716417910446,
      "grad_norm": 0.16800960898399353,
      "learning_rate": 0.0002,
      "loss": 0.5184243321418762,
      "mean_token_accuracy": 0.7890264838933945,
      "num_tokens": 12554886.0,
      "step": 768
    },
    {
      "entropy": 0.5088474899530411,
      "epoch": 2.8694029850746268,
      "grad_norm": 0.1462314873933792,
      "learning_rate": 0.0002,
      "loss": 0.5083324909210205,
      "mean_token_accuracy": 0.7934228926897049,
      "num_tokens": 12571276.0,
      "step": 769
    },
    {
      "entropy": 0.5271053463220596,
      "epoch": 2.873134328358209,
      "grad_norm": 0.16391947865486145,
      "learning_rate": 0.0002,
      "loss": 0.5293073654174805,
      "mean_token_accuracy": 0.7859203815460205,
      "num_tokens": 12587621.0,
      "step": 770
    },
    {
      "entropy": 0.5014189630746841,
      "epoch": 2.876865671641791,
      "grad_norm": 0.16328679025173187,
      "learning_rate": 0.0002,
      "loss": 0.5073498487472534,
      "mean_token_accuracy": 0.7924041301012039,
      "num_tokens": 12604113.0,
      "step": 771
    },
    {
      "entropy": 0.5268891751766205,
      "epoch": 2.8805970149253732,
      "grad_norm": 0.21644122898578644,
      "learning_rate": 0.0002,
      "loss": 0.5315952301025391,
      "mean_token_accuracy": 0.7878720760345459,
      "num_tokens": 12620599.0,
      "step": 772
    },
    {
      "entropy": 0.5303193777799606,
      "epoch": 2.8843283582089554,
      "grad_norm": 0.16348110139369965,
      "learning_rate": 0.0002,
      "loss": 0.5203503966331482,
      "mean_token_accuracy": 0.7895929515361786,
      "num_tokens": 12636920.0,
      "step": 773
    },
    {
      "entropy": 0.5373167991638184,
      "epoch": 2.888059701492537,
      "grad_norm": 0.1674329936504364,
      "learning_rate": 0.0002,
      "loss": 0.5308367609977722,
      "mean_token_accuracy": 0.7839034348726273,
      "num_tokens": 12653507.0,
      "step": 774
    },
    {
      "entropy": 0.5245395004749298,
      "epoch": 2.8917910447761193,
      "grad_norm": 0.16798977553844452,
      "learning_rate": 0.0002,
      "loss": 0.525133490562439,
      "mean_token_accuracy": 0.7879597991704941,
      "num_tokens": 12669748.0,
      "step": 775
    },
    {
      "entropy": 0.4995606988668442,
      "epoch": 2.8955223880597014,
      "grad_norm": 0.16923899948596954,
      "learning_rate": 0.0002,
      "loss": 0.5072147250175476,
      "mean_token_accuracy": 0.7954233735799789,
      "num_tokens": 12686075.0,
      "step": 776
    },
    {
      "entropy": 0.5168571919202805,
      "epoch": 2.8992537313432836,
      "grad_norm": 0.19585320353507996,
      "learning_rate": 0.0002,
      "loss": 0.531486988067627,
      "mean_token_accuracy": 0.786114364862442,
      "num_tokens": 12702228.0,
      "step": 777
    },
    {
      "entropy": 0.5194735378026962,
      "epoch": 2.9029850746268657,
      "grad_norm": 0.17308996617794037,
      "learning_rate": 0.0002,
      "loss": 0.5222083926200867,
      "mean_token_accuracy": 0.7887429147958755,
      "num_tokens": 12718513.0,
      "step": 778
    },
    {
      "entropy": 0.5187652111053467,
      "epoch": 2.906716417910448,
      "grad_norm": 0.18012917041778564,
      "learning_rate": 0.0002,
      "loss": 0.5144599676132202,
      "mean_token_accuracy": 0.7928689271211624,
      "num_tokens": 12734912.0,
      "step": 779
    },
    {
      "entropy": 0.5175924748182297,
      "epoch": 2.91044776119403,
      "grad_norm": 0.15708911418914795,
      "learning_rate": 0.0002,
      "loss": 0.5127027034759521,
      "mean_token_accuracy": 0.7910457104444504,
      "num_tokens": 12751312.0,
      "step": 780
    },
    {
      "entropy": 0.5184929892420769,
      "epoch": 2.914179104477612,
      "grad_norm": 0.17460955679416656,
      "learning_rate": 0.0002,
      "loss": 0.5223311185836792,
      "mean_token_accuracy": 0.7881267666816711,
      "num_tokens": 12767906.0,
      "step": 781
    },
    {
      "entropy": 0.5162710845470428,
      "epoch": 2.917910447761194,
      "grad_norm": 0.1744503378868103,
      "learning_rate": 0.0002,
      "loss": 0.5184698104858398,
      "mean_token_accuracy": 0.7896480411291122,
      "num_tokens": 12784363.0,
      "step": 782
    },
    {
      "entropy": 0.5054134130477905,
      "epoch": 2.921641791044776,
      "grad_norm": 0.16419187188148499,
      "learning_rate": 0.0002,
      "loss": 0.5100088715553284,
      "mean_token_accuracy": 0.7937912940979004,
      "num_tokens": 12800729.0,
      "step": 783
    },
    {
      "entropy": 0.5267587229609489,
      "epoch": 2.925373134328358,
      "grad_norm": 0.15712794661521912,
      "learning_rate": 0.0002,
      "loss": 0.5234281420707703,
      "mean_token_accuracy": 0.7873355746269226,
      "num_tokens": 12817275.0,
      "step": 784
    },
    {
      "entropy": 0.5252643376588821,
      "epoch": 2.9291044776119404,
      "grad_norm": 0.17461742460727692,
      "learning_rate": 0.0002,
      "loss": 0.5149291753768921,
      "mean_token_accuracy": 0.792007714509964,
      "num_tokens": 12833722.0,
      "step": 785
    },
    {
      "entropy": 0.5310375690460205,
      "epoch": 2.9328358208955225,
      "grad_norm": 0.16197697818279266,
      "learning_rate": 0.0002,
      "loss": 0.5280002355575562,
      "mean_token_accuracy": 0.7869867831468582,
      "num_tokens": 12850311.0,
      "step": 786
    },
    {
      "entropy": 0.5165882706642151,
      "epoch": 2.9365671641791042,
      "grad_norm": 0.18169313669204712,
      "learning_rate": 0.0002,
      "loss": 0.5169544219970703,
      "mean_token_accuracy": 0.7926650643348694,
      "num_tokens": 12866551.0,
      "step": 787
    },
    {
      "entropy": 0.506410725414753,
      "epoch": 2.9402985074626864,
      "grad_norm": 0.16465988755226135,
      "learning_rate": 0.0002,
      "loss": 0.5119289755821228,
      "mean_token_accuracy": 0.7941572368144989,
      "num_tokens": 12882861.0,
      "step": 788
    },
    {
      "entropy": 0.5014762431383133,
      "epoch": 2.9440298507462686,
      "grad_norm": 0.18377594649791718,
      "learning_rate": 0.0002,
      "loss": 0.5110628008842468,
      "mean_token_accuracy": 0.7946459800004959,
      "num_tokens": 12899241.0,
      "step": 789
    },
    {
      "entropy": 0.5248052775859833,
      "epoch": 2.9477611940298507,
      "grad_norm": 0.20053857564926147,
      "learning_rate": 0.0002,
      "loss": 0.5319278240203857,
      "mean_token_accuracy": 0.7844424396753311,
      "num_tokens": 12915385.0,
      "step": 790
    },
    {
      "entropy": 0.53006511926651,
      "epoch": 2.951492537313433,
      "grad_norm": 0.17584678530693054,
      "learning_rate": 0.0002,
      "loss": 0.5255709886550903,
      "mean_token_accuracy": 0.7863388210535049,
      "num_tokens": 12931592.0,
      "step": 791
    },
    {
      "entropy": 0.5275840014219284,
      "epoch": 2.955223880597015,
      "grad_norm": 0.17536833882331848,
      "learning_rate": 0.0002,
      "loss": 0.5213799476623535,
      "mean_token_accuracy": 0.7920176684856415,
      "num_tokens": 12948004.0,
      "step": 792
    },
    {
      "entropy": 0.5442412495613098,
      "epoch": 2.958955223880597,
      "grad_norm": 0.17195221781730652,
      "learning_rate": 0.0002,
      "loss": 0.5382991433143616,
      "mean_token_accuracy": 0.7807125151157379,
      "num_tokens": 12964350.0,
      "step": 793
    },
    {
      "entropy": 0.514294296503067,
      "epoch": 2.9626865671641793,
      "grad_norm": 0.1958279013633728,
      "learning_rate": 0.0002,
      "loss": 0.5191056728363037,
      "mean_token_accuracy": 0.7889736741781235,
      "num_tokens": 12980870.0,
      "step": 794
    },
    {
      "entropy": 0.516971156001091,
      "epoch": 2.966417910447761,
      "grad_norm": 0.17031143605709076,
      "learning_rate": 0.0002,
      "loss": 0.5235239863395691,
      "mean_token_accuracy": 0.7902554422616959,
      "num_tokens": 12997265.0,
      "step": 795
    },
    {
      "entropy": 0.519709937274456,
      "epoch": 2.970149253731343,
      "grad_norm": 0.19241590797901154,
      "learning_rate": 0.0002,
      "loss": 0.5290430188179016,
      "mean_token_accuracy": 0.786635085940361,
      "num_tokens": 13013641.0,
      "step": 796
    },
    {
      "entropy": 0.5278842747211456,
      "epoch": 2.9738805970149254,
      "grad_norm": 0.1847175806760788,
      "learning_rate": 0.0002,
      "loss": 0.5301830768585205,
      "mean_token_accuracy": 0.7861872166395187,
      "num_tokens": 13030089.0,
      "step": 797
    },
    {
      "entropy": 0.543852686882019,
      "epoch": 2.9776119402985075,
      "grad_norm": 0.1565551459789276,
      "learning_rate": 0.0002,
      "loss": 0.5390616655349731,
      "mean_token_accuracy": 0.7804800420999527,
      "num_tokens": 13046782.0,
      "step": 798
    },
    {
      "entropy": 0.5507520437240601,
      "epoch": 2.9813432835820897,
      "grad_norm": 0.19360534846782684,
      "learning_rate": 0.0002,
      "loss": 0.5457417964935303,
      "mean_token_accuracy": 0.7808282524347305,
      "num_tokens": 13063260.0,
      "step": 799
    },
    {
      "entropy": 0.5130215361714363,
      "epoch": 2.9850746268656714,
      "grad_norm": 0.17565752565860748,
      "learning_rate": 0.0002,
      "loss": 0.5124551057815552,
      "mean_token_accuracy": 0.7940163463354111,
      "num_tokens": 13079496.0,
      "step": 800
    },
    {
      "entropy": 0.5296107679605484,
      "epoch": 2.9888059701492535,
      "grad_norm": 0.18528884649276733,
      "learning_rate": 0.0002,
      "loss": 0.5258690714836121,
      "mean_token_accuracy": 0.7890074849128723,
      "num_tokens": 13095995.0,
      "step": 801
    },
    {
      "entropy": 0.5083938241004944,
      "epoch": 2.9925373134328357,
      "grad_norm": 0.17645564675331116,
      "learning_rate": 0.0002,
      "loss": 0.5169539451599121,
      "mean_token_accuracy": 0.7913031429052353,
      "num_tokens": 13112668.0,
      "step": 802
    },
    {
      "entropy": 0.5120368450880051,
      "epoch": 2.996268656716418,
      "grad_norm": 0.1844874620437622,
      "learning_rate": 0.0002,
      "loss": 0.5195419192314148,
      "mean_token_accuracy": 0.7927880436182022,
      "num_tokens": 13128901.0,
      "step": 803
    },
    {
      "entropy": 0.5261139273643494,
      "epoch": 3.0,
      "grad_norm": 0.19706764817237854,
      "learning_rate": 0.0002,
      "loss": 0.5334464311599731,
      "mean_token_accuracy": 0.7812356650829315,
      "num_tokens": 13145317.0,
      "step": 804
    }
  ],
  "logging_steps": 1,
  "max_steps": 804,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.2252935644732457e+18,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}