{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 804,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "entropy": 1.1481057405471802,
      "epoch": 0.0037418147801683817,
      "grad_norm": 0.40896540880203247,
      "learning_rate": 0.0002,
      "loss": 2.499051332473755,
      "mean_token_accuracy": 0.5305689871311188,
      "num_tokens": 16123.0,
      "step": 1
    },
    {
      "entropy": 1.239521712064743,
      "epoch": 0.007483629560336763,
      "grad_norm": 0.3786088228225708,
      "learning_rate": 0.0002,
      "loss": 2.1649975776672363,
      "mean_token_accuracy": 0.5674073547124863,
      "num_tokens": 32231.0,
      "step": 2
    },
    {
      "entropy": 1.4065836369991302,
      "epoch": 0.011225444340505144,
      "grad_norm": 0.2935435175895691,
      "learning_rate": 0.0002,
      "loss": 1.7277326583862305,
      "mean_token_accuracy": 0.5904076844453812,
      "num_tokens": 48717.0,
      "step": 3
    },
    {
      "entropy": 1.3739030063152313,
      "epoch": 0.014967259120673527,
      "grad_norm": 0.24068056046962738,
      "learning_rate": 0.0002,
      "loss": 1.4146925210952759,
      "mean_token_accuracy": 0.6330391019582748,
      "num_tokens": 64917.0,
      "step": 4
    },
    {
      "entropy": 1.3624942004680634,
      "epoch": 0.018709073900841908,
      "grad_norm": 0.2722117602825165,
      "learning_rate": 0.0002,
      "loss": 1.2977211475372314,
      "mean_token_accuracy": 0.6365498602390289,
      "num_tokens": 81360.0,
      "step": 5
    },
    {
      "entropy": 1.268439620733261,
      "epoch": 0.02245088868101029,
      "grad_norm": 0.13346025347709656,
      "learning_rate": 0.0002,
      "loss": 1.1922200918197632,
      "mean_token_accuracy": 0.6591676026582718,
      "num_tokens": 98033.0,
      "step": 6
    },
    {
      "entropy": 1.187461495399475,
      "epoch": 0.026192703461178673,
      "grad_norm": 0.10905587673187256,
      "learning_rate": 0.0002,
      "loss": 1.090636134147644,
      "mean_token_accuracy": 0.6683961004018784,
      "num_tokens": 114410.0,
      "step": 7
    },
    {
      "entropy": 1.1027202904224396,
      "epoch": 0.029934518241347054,
      "grad_norm": 0.10468754172325134,
      "learning_rate": 0.0002,
      "loss": 1.0090222358703613,
      "mean_token_accuracy": 0.6826278865337372,
      "num_tokens": 130663.0,
      "step": 8
    },
    {
      "entropy": 1.0241433680057526,
      "epoch": 0.03367633302151544,
      "grad_norm": 0.13387203216552734,
      "learning_rate": 0.0002,
      "loss": 0.9953913688659668,
      "mean_token_accuracy": 0.6843951940536499,
      "num_tokens": 147024.0,
      "step": 9
    },
    {
      "entropy": 1.0002675652503967,
      "epoch": 0.037418147801683815,
      "grad_norm": 0.1420045644044876,
      "learning_rate": 0.0002,
      "loss": 0.9541152119636536,
      "mean_token_accuracy": 0.6879138201475143,
      "num_tokens": 163186.0,
      "step": 10
    },
    {
      "entropy": 0.9888490438461304,
      "epoch": 0.0411599625818522,
      "grad_norm": 0.10480759292840958,
      "learning_rate": 0.0002,
      "loss": 0.8834772706031799,
      "mean_token_accuracy": 0.7008452415466309,
      "num_tokens": 179486.0,
      "step": 11
    },
    {
      "entropy": 0.9587634801864624,
      "epoch": 0.04490177736202058,
      "grad_norm": 0.1189962700009346,
      "learning_rate": 0.0002,
      "loss": 0.8404299020767212,
      "mean_token_accuracy": 0.7084675431251526,
      "num_tokens": 195940.0,
      "step": 12
    },
    {
      "entropy": 0.8834698051214218,
      "epoch": 0.04864359214218896,
      "grad_norm": 0.1070038452744484,
      "learning_rate": 0.0002,
      "loss": 0.816959798336029,
      "mean_token_accuracy": 0.7068669199943542,
      "num_tokens": 212384.0,
      "step": 13
    },
    {
      "entropy": 0.7648728787899017,
      "epoch": 0.052385406922357346,
      "grad_norm": 1.0202980041503906,
      "learning_rate": 0.0002,
      "loss": 0.7703532576560974,
      "mean_token_accuracy": 0.721884474158287,
      "num_tokens": 228462.0,
      "step": 14
    },
    {
      "entropy": 0.7483080476522446,
      "epoch": 0.05612722170252572,
      "grad_norm": 0.12461339682340622,
      "learning_rate": 0.0002,
      "loss": 0.745843231678009,
      "mean_token_accuracy": 0.7246550768613815,
      "num_tokens": 244599.0,
      "step": 15
    },
    {
      "entropy": 0.7499705106019974,
      "epoch": 0.05986903648269411,
      "grad_norm": 0.13838888704776764,
      "learning_rate": 0.0002,
      "loss": 0.7328222990036011,
      "mean_token_accuracy": 0.7272029221057892,
      "num_tokens": 261162.0,
      "step": 16
    },
    {
      "entropy": 0.7162831723690033,
      "epoch": 0.06361085126286249,
      "grad_norm": 0.0821700468659401,
      "learning_rate": 0.0002,
      "loss": 0.700190007686615,
      "mean_token_accuracy": 0.7368839830160141,
      "num_tokens": 277513.0,
      "step": 17
    },
    {
      "entropy": 0.66506028175354,
      "epoch": 0.06735266604303088,
      "grad_norm": 0.08271524310112,
      "learning_rate": 0.0002,
      "loss": 0.6616584062576294,
      "mean_token_accuracy": 0.7501807361841202,
      "num_tokens": 293628.0,
      "step": 18
    },
    {
      "entropy": 0.6652649641036987,
      "epoch": 0.07109448082319925,
      "grad_norm": 0.10451149940490723,
      "learning_rate": 0.0002,
      "loss": 0.6696457266807556,
      "mean_token_accuracy": 0.7403630912303925,
      "num_tokens": 309771.0,
      "step": 19
    },
    {
      "entropy": 0.671489492058754,
      "epoch": 0.07483629560336763,
      "grad_norm": 0.08111453801393509,
      "learning_rate": 0.0002,
      "loss": 0.6523128747940063,
      "mean_token_accuracy": 0.7449511885643005,
      "num_tokens": 326252.0,
      "step": 20
    },
    {
      "entropy": 0.6829328835010529,
      "epoch": 0.07857811038353602,
      "grad_norm": 0.07855828106403351,
      "learning_rate": 0.0002,
      "loss": 0.6548086404800415,
      "mean_token_accuracy": 0.7431468367576599,
      "num_tokens": 342569.0,
      "step": 21
    },
    {
      "entropy": 0.6616033613681793,
      "epoch": 0.0823199251637044,
      "grad_norm": 0.07543554902076721,
      "learning_rate": 0.0002,
      "loss": 0.6394403576850891,
      "mean_token_accuracy": 0.7484261393547058,
      "num_tokens": 359156.0,
      "step": 22
    },
    {
      "entropy": 0.6383623033761978,
      "epoch": 0.08606173994387278,
      "grad_norm": 0.07246740162372589,
      "learning_rate": 0.0002,
      "loss": 0.6292484998703003,
      "mean_token_accuracy": 0.7550594955682755,
      "num_tokens": 375388.0,
      "step": 23
    },
    {
      "entropy": 0.6223422735929489,
      "epoch": 0.08980355472404115,
      "grad_norm": 0.08016548305749893,
      "learning_rate": 0.0002,
      "loss": 0.6264731884002686,
      "mean_token_accuracy": 0.7548545002937317,
      "num_tokens": 391528.0,
      "step": 24
    },
    {
      "entropy": 0.5979716777801514,
      "epoch": 0.09354536950420954,
      "grad_norm": 0.07842142134904861,
      "learning_rate": 0.0002,
      "loss": 0.6038044691085815,
      "mean_token_accuracy": 0.764473095536232,
      "num_tokens": 407673.0,
      "step": 25
    },
    {
      "entropy": 0.5976411253213882,
      "epoch": 0.09728718428437792,
      "grad_norm": 0.0749603658914566,
      "learning_rate": 0.0002,
      "loss": 0.5980632305145264,
      "mean_token_accuracy": 0.7644072473049164,
      "num_tokens": 423781.0,
      "step": 26
    },
    {
      "entropy": 0.5957016050815582,
      "epoch": 0.10102899906454631,
      "grad_norm": 0.061034828424453735,
      "learning_rate": 0.0002,
      "loss": 0.5909260511398315,
      "mean_token_accuracy": 0.7682853490114212,
      "num_tokens": 439927.0,
      "step": 27
    },
    {
      "entropy": 0.6109822690486908,
      "epoch": 0.10477081384471469,
      "grad_norm": 0.061578188091516495,
      "learning_rate": 0.0002,
      "loss": 0.5998508334159851,
      "mean_token_accuracy": 0.7658420503139496,
      "num_tokens": 456218.0,
      "step": 28
    },
    {
      "entropy": 0.601639524102211,
      "epoch": 0.10851262862488306,
      "grad_norm": 0.0625869631767273,
      "learning_rate": 0.0002,
      "loss": 0.592888355255127,
      "mean_token_accuracy": 0.7679047584533691,
      "num_tokens": 472672.0,
      "step": 29
    },
    {
      "entropy": 0.5943656265735626,
      "epoch": 0.11225444340505145,
      "grad_norm": 0.05583951249718666,
      "learning_rate": 0.0002,
      "loss": 0.5944483280181885,
      "mean_token_accuracy": 0.7622693479061127,
      "num_tokens": 489114.0,
      "step": 30
    },
    {
      "entropy": 0.5988462120294571,
      "epoch": 0.11599625818521983,
      "grad_norm": 0.0581178143620491,
      "learning_rate": 0.0002,
      "loss": 0.6067461967468262,
      "mean_token_accuracy": 0.7607288658618927,
      "num_tokens": 505426.0,
      "step": 31
    },
    {
      "entropy": 0.5756160020828247,
      "epoch": 0.11973807296538821,
      "grad_norm": 0.05917786434292793,
      "learning_rate": 0.0002,
      "loss": 0.5832271575927734,
      "mean_token_accuracy": 0.770146518945694,
      "num_tokens": 521632.0,
      "step": 32
    },
    {
      "entropy": 0.5860312879085541,
      "epoch": 0.1234798877455566,
      "grad_norm": 0.057717982679605484,
      "learning_rate": 0.0002,
      "loss": 0.592366635799408,
      "mean_token_accuracy": 0.7664856016635895,
      "num_tokens": 538173.0,
      "step": 33
    },
    {
      "entropy": 0.5932987481355667,
      "epoch": 0.12722170252572498,
      "grad_norm": 0.051627833396196365,
      "learning_rate": 0.0002,
      "loss": 0.5942224860191345,
      "mean_token_accuracy": 0.7634450048208237,
      "num_tokens": 554522.0,
      "step": 34
    },
    {
      "entropy": 0.5781913548707962,
      "epoch": 0.13096351730589337,
      "grad_norm": 0.053737979382276535,
      "learning_rate": 0.0002,
      "loss": 0.5713843107223511,
      "mean_token_accuracy": 0.7748462855815887,
      "num_tokens": 570944.0,
      "step": 35
    },
    {
      "entropy": 0.5928207337856293,
      "epoch": 0.13470533208606175,
      "grad_norm": 0.0513126477599144,
      "learning_rate": 0.0002,
      "loss": 0.5946991443634033,
      "mean_token_accuracy": 0.7643233835697174,
      "num_tokens": 587342.0,
      "step": 36
    },
    {
      "entropy": 0.5689480155706406,
      "epoch": 0.1384471468662301,
      "grad_norm": 0.0563691221177578,
      "learning_rate": 0.0002,
      "loss": 0.5712450742721558,
      "mean_token_accuracy": 0.7735907435417175,
      "num_tokens": 603727.0,
      "step": 37
    },
    {
      "entropy": 0.5871619284152985,
      "epoch": 0.1421889616463985,
      "grad_norm": 0.043151870369911194,
      "learning_rate": 0.0002,
      "loss": 0.5806025862693787,
      "mean_token_accuracy": 0.768414631485939,
      "num_tokens": 620304.0,
      "step": 38
    },
    {
      "entropy": 0.5789511501789093,
      "epoch": 0.14593077642656688,
      "grad_norm": 0.057180438190698624,
      "learning_rate": 0.0002,
      "loss": 0.5829247832298279,
      "mean_token_accuracy": 0.7660035490989685,
      "num_tokens": 636613.0,
      "step": 39
    },
    {
      "entropy": 0.5511189699172974,
      "epoch": 0.14967259120673526,
      "grad_norm": 0.04785468429327011,
      "learning_rate": 0.0002,
      "loss": 0.5596879124641418,
      "mean_token_accuracy": 0.7737152278423309,
      "num_tokens": 652836.0,
      "step": 40
    },
    {
      "entropy": 0.5728544592857361,
      "epoch": 0.15341440598690365,
      "grad_norm": 0.047032520174980164,
      "learning_rate": 0.0002,
      "loss": 0.5756531953811646,
      "mean_token_accuracy": 0.7682489305734634,
      "num_tokens": 669348.0,
      "step": 41
    },
    {
      "entropy": 0.5809888541698456,
      "epoch": 0.15715622076707203,
      "grad_norm": 0.04996408522129059,
      "learning_rate": 0.0002,
      "loss": 0.5856860280036926,
      "mean_token_accuracy": 0.7646850347518921,
      "num_tokens": 685771.0,
      "step": 42
    },
    {
      "entropy": 0.5943491905927658,
      "epoch": 0.16089803554724041,
      "grad_norm": 0.04490286856889725,
      "learning_rate": 0.0002,
      "loss": 0.5864270329475403,
      "mean_token_accuracy": 0.7636495530605316,
      "num_tokens": 702211.0,
      "step": 43
    },
    {
      "entropy": 0.5895421206951141,
      "epoch": 0.1646398503274088,
      "grad_norm": 0.051186852157115936,
      "learning_rate": 0.0002,
      "loss": 0.5863322019577026,
      "mean_token_accuracy": 0.7648472040891647,
      "num_tokens": 718539.0,
      "step": 44
    },
    {
      "entropy": 0.573004424571991,
      "epoch": 0.16838166510757718,
      "grad_norm": 0.044179223477840424,
      "learning_rate": 0.0002,
      "loss": 0.5632967352867126,
      "mean_token_accuracy": 0.7742049247026443,
      "num_tokens": 734943.0,
      "step": 45
    },
    {
      "entropy": 0.5616976916790009,
      "epoch": 0.17212347988774557,
      "grad_norm": 0.04744846373796463,
      "learning_rate": 0.0002,
      "loss": 0.5611750483512878,
      "mean_token_accuracy": 0.7748160660266876,
      "num_tokens": 751206.0,
      "step": 46
    },
    {
      "entropy": 0.5663218796253204,
      "epoch": 0.17586529466791395,
      "grad_norm": 0.05421765521168709,
      "learning_rate": 0.0002,
      "loss": 0.5719538927078247,
      "mean_token_accuracy": 0.7716761082410812,
      "num_tokens": 767602.0,
      "step": 47
    },
    {
      "entropy": 0.5845721065998077,
      "epoch": 0.1796071094480823,
      "grad_norm": 0.04122321680188179,
      "learning_rate": 0.0002,
      "loss": 0.5887588858604431,
      "mean_token_accuracy": 0.7646526545286179,
      "num_tokens": 784029.0,
      "step": 48
    },
    {
      "entropy": 0.5674261897802353,
      "epoch": 0.1833489242282507,
      "grad_norm": 0.05335045978426933,
      "learning_rate": 0.0002,
      "loss": 0.5763436555862427,
      "mean_token_accuracy": 0.7674090713262558,
      "num_tokens": 800207.0,
      "step": 49
    },
    {
      "entropy": 0.5922754108905792,
      "epoch": 0.18709073900841908,
      "grad_norm": 0.04774358496069908,
      "learning_rate": 0.0002,
      "loss": 0.592854917049408,
      "mean_token_accuracy": 0.7636804282665253,
      "num_tokens": 816757.0,
      "step": 50
    },
    {
      "entropy": 0.5675703585147858,
      "epoch": 0.19083255378858746,
      "grad_norm": 0.046180881559848785,
      "learning_rate": 0.0002,
      "loss": 0.5643646121025085,
      "mean_token_accuracy": 0.7744234651327133,
      "num_tokens": 833143.0,
      "step": 51
    },
    {
      "entropy": 0.5735020041465759,
      "epoch": 0.19457436856875585,
      "grad_norm": 0.04306558147072792,
      "learning_rate": 0.0002,
      "loss": 0.5688086748123169,
      "mean_token_accuracy": 0.7720673680305481,
      "num_tokens": 849533.0,
      "step": 52
    },
    {
      "entropy": 0.5725302696228027,
      "epoch": 0.19831618334892423,
      "grad_norm": 0.044849518686532974,
      "learning_rate": 0.0002,
      "loss": 0.5705700516700745,
      "mean_token_accuracy": 0.7675163745880127,
      "num_tokens": 865711.0,
      "step": 53
    },
    {
      "entropy": 0.568488135933876,
      "epoch": 0.20205799812909261,
      "grad_norm": 0.03932643309235573,
      "learning_rate": 0.0002,
      "loss": 0.5707889795303345,
      "mean_token_accuracy": 0.7687725275754929,
      "num_tokens": 882150.0,
      "step": 54
    },
    {
      "entropy": 0.5733406245708466,
      "epoch": 0.205799812909261,
      "grad_norm": 0.044968072324991226,
      "learning_rate": 0.0002,
      "loss": 0.5740039348602295,
      "mean_token_accuracy": 0.7688336670398712,
      "num_tokens": 898618.0,
      "step": 55
    },
    {
      "entropy": 0.5666982084512711,
      "epoch": 0.20954162768942938,
      "grad_norm": 0.03931398317217827,
      "learning_rate": 0.0002,
      "loss": 0.5738785266876221,
      "mean_token_accuracy": 0.7679219394922256,
      "num_tokens": 914939.0,
      "step": 56
    },
    {
      "entropy": 0.5663618296384811,
      "epoch": 0.21328344246959777,
      "grad_norm": 0.0373641774058342,
      "learning_rate": 0.0002,
      "loss": 0.5636038780212402,
      "mean_token_accuracy": 0.7741107642650604,
      "num_tokens": 931291.0,
      "step": 57
    },
    {
      "entropy": 0.557570144534111,
      "epoch": 0.21702525724976612,
      "grad_norm": 0.04060584679245949,
      "learning_rate": 0.0002,
      "loss": 0.5589414238929749,
      "mean_token_accuracy": 0.7753962129354477,
      "num_tokens": 947611.0,
      "step": 58
    },
    {
      "entropy": 0.5627644211053848,
      "epoch": 0.2207670720299345,
      "grad_norm": 0.037169281393289566,
      "learning_rate": 0.0002,
      "loss": 0.5654425621032715,
      "mean_token_accuracy": 0.7718145698308945,
      "num_tokens": 963820.0,
      "step": 59
    },
    {
      "entropy": 0.58712999522686,
      "epoch": 0.2245088868101029,
      "grad_norm": 0.03782787546515465,
      "learning_rate": 0.0002,
      "loss": 0.5898170471191406,
      "mean_token_accuracy": 0.7635077238082886,
      "num_tokens": 980402.0,
      "step": 60
    },
    {
      "entropy": 0.5586348623037338,
      "epoch": 0.22825070159027128,
      "grad_norm": 0.03953346982598305,
      "learning_rate": 0.0002,
      "loss": 0.5562594532966614,
      "mean_token_accuracy": 0.7752978503704071,
      "num_tokens": 996502.0,
      "step": 61
    },
    {
      "entropy": 0.5691598951816559,
      "epoch": 0.23199251637043966,
      "grad_norm": 0.04252421110868454,
      "learning_rate": 0.0002,
      "loss": 0.5684412717819214,
      "mean_token_accuracy": 0.7712201923131943,
      "num_tokens": 1012676.0,
      "step": 62
    },
    {
      "entropy": 0.5714918673038483,
      "epoch": 0.23573433115060805,
      "grad_norm": 0.036386385560035706,
      "learning_rate": 0.0002,
      "loss": 0.5729389190673828,
      "mean_token_accuracy": 0.768106073141098,
      "num_tokens": 1028906.0,
      "step": 63
    },
    {
      "entropy": 0.5666227042675018,
      "epoch": 0.23947614593077643,
      "grad_norm": 0.037684470415115356,
      "learning_rate": 0.0002,
      "loss": 0.5600223541259766,
      "mean_token_accuracy": 0.7734655141830444,
      "num_tokens": 1045328.0,
      "step": 64
    },
    {
      "entropy": 0.5651632696390152,
      "epoch": 0.2432179607109448,
      "grad_norm": 0.03333243355154991,
      "learning_rate": 0.0002,
      "loss": 0.5639563798904419,
      "mean_token_accuracy": 0.771888479590416,
      "num_tokens": 1061791.0,
      "step": 65
    },
    {
      "entropy": 0.5851249843835831,
      "epoch": 0.2469597754911132,
      "grad_norm": 0.04036445543169975,
      "learning_rate": 0.0002,
      "loss": 0.5847532749176025,
      "mean_token_accuracy": 0.7656708210706711,
      "num_tokens": 1078293.0,
      "step": 66
    },
    {
      "entropy": 0.5670823901891708,
      "epoch": 0.2507015902712816,
      "grad_norm": 0.04222024604678154,
      "learning_rate": 0.0002,
      "loss": 0.5660995244979858,
      "mean_token_accuracy": 0.7720949500799179,
      "num_tokens": 1094672.0,
      "step": 67
    },
    {
      "entropy": 0.581654280424118,
      "epoch": 0.25444340505144997,
      "grad_norm": 0.03967028483748436,
      "learning_rate": 0.0002,
      "loss": 0.5889865159988403,
      "mean_token_accuracy": 0.760698065161705,
      "num_tokens": 1111068.0,
      "step": 68
    },
    {
      "entropy": 0.5533672720193863,
      "epoch": 0.25818521983161835,
      "grad_norm": 0.03658512607216835,
      "learning_rate": 0.0002,
      "loss": 0.5615257024765015,
      "mean_token_accuracy": 0.7765155285596848,
      "num_tokens": 1127289.0,
      "step": 69
    },
    {
      "entropy": 0.5607704222202301,
      "epoch": 0.26192703461178674,
      "grad_norm": 0.0379711352288723,
      "learning_rate": 0.0002,
      "loss": 0.5662075281143188,
      "mean_token_accuracy": 0.7751724272966385,
      "num_tokens": 1143569.0,
      "step": 70
    },
    {
      "entropy": 0.5778918713331223,
      "epoch": 0.2656688493919551,
      "grad_norm": 0.038288865238428116,
      "learning_rate": 0.0002,
      "loss": 0.5817552804946899,
      "mean_token_accuracy": 0.7655211091041565,
      "num_tokens": 1159646.0,
      "step": 71
    },
    {
      "entropy": 0.573161169886589,
      "epoch": 0.2694106641721235,
      "grad_norm": 0.038547221571207047,
      "learning_rate": 0.0002,
      "loss": 0.5695617198944092,
      "mean_token_accuracy": 0.7739016711711884,
      "num_tokens": 1175923.0,
      "step": 72
    },
    {
      "entropy": 0.5844559669494629,
      "epoch": 0.2731524789522919,
      "grad_norm": 0.03487812727689743,
      "learning_rate": 0.0002,
      "loss": 0.5778559446334839,
      "mean_token_accuracy": 0.7675636559724808,
      "num_tokens": 1192471.0,
      "step": 73
    },
    {
      "entropy": 0.578565388917923,
      "epoch": 0.2768942937324602,
      "grad_norm": 0.03859493136405945,
      "learning_rate": 0.0002,
      "loss": 0.5707017779350281,
      "mean_token_accuracy": 0.7693561762571335,
      "num_tokens": 1208749.0,
      "step": 74
    },
    {
      "entropy": 0.5591824799776077,
      "epoch": 0.2806361085126286,
      "grad_norm": 0.03378773108124733,
      "learning_rate": 0.0002,
      "loss": 0.557567298412323,
      "mean_token_accuracy": 0.7764061838388443,
      "num_tokens": 1224922.0,
      "step": 75
    },
    {
      "entropy": 0.568041980266571,
      "epoch": 0.284377923292797,
      "grad_norm": 0.03862875699996948,
      "learning_rate": 0.0002,
      "loss": 0.570695698261261,
      "mean_token_accuracy": 0.7686833739280701,
      "num_tokens": 1241294.0,
      "step": 76
    },
    {
      "entropy": 0.5530785471200943,
      "epoch": 0.28811973807296537,
      "grad_norm": 0.03997069224715233,
      "learning_rate": 0.0002,
      "loss": 0.5623512268066406,
      "mean_token_accuracy": 0.7745240479707718,
      "num_tokens": 1257616.0,
      "step": 77
    },
    {
      "entropy": 0.5595529079437256,
      "epoch": 0.29186155285313375,
      "grad_norm": 0.03598308190703392,
      "learning_rate": 0.0002,
      "loss": 0.5686611533164978,
      "mean_token_accuracy": 0.7718778103590012,
      "num_tokens": 1274217.0,
      "step": 78
    },
    {
      "entropy": 0.5654617100954056,
      "epoch": 0.29560336763330214,
      "grad_norm": 0.03698718175292015,
      "learning_rate": 0.0002,
      "loss": 0.5718352794647217,
      "mean_token_accuracy": 0.7710111141204834,
      "num_tokens": 1290502.0,
      "step": 79
    },
    {
      "entropy": 0.5769922882318497,
      "epoch": 0.2993451824134705,
      "grad_norm": 0.03608345612883568,
      "learning_rate": 0.0002,
      "loss": 0.5771495699882507,
      "mean_token_accuracy": 0.7671397477388382,
      "num_tokens": 1307057.0,
      "step": 80
    },
    {
      "entropy": 0.5775998532772064,
      "epoch": 0.3030869971936389,
      "grad_norm": 0.04129846766591072,
      "learning_rate": 0.0002,
      "loss": 0.5648953318595886,
      "mean_token_accuracy": 0.7740987688302994,
      "num_tokens": 1323158.0,
      "step": 81
    },
    {
      "entropy": 0.578661784529686,
      "epoch": 0.3068288119738073,
      "grad_norm": 0.04035583510994911,
      "learning_rate": 0.0002,
      "loss": 0.572229266166687,
      "mean_token_accuracy": 0.769649401307106,
      "num_tokens": 1339671.0,
      "step": 82
    },
    {
      "entropy": 0.5630823224782944,
      "epoch": 0.3105706267539757,
      "grad_norm": 0.035164687782526016,
      "learning_rate": 0.0002,
      "loss": 0.5634369254112244,
      "mean_token_accuracy": 0.7725345641374588,
      "num_tokens": 1355922.0,
      "step": 83
    },
    {
      "entropy": 0.5712268948554993,
      "epoch": 0.31431244153414406,
      "grad_norm": 0.038266371935606,
      "learning_rate": 0.0002,
      "loss": 0.5790088772773743,
      "mean_token_accuracy": 0.7660410851240158,
      "num_tokens": 1372241.0,
      "step": 84
    },
    {
      "entropy": 0.5503551959991455,
      "epoch": 0.31805425631431244,
      "grad_norm": 0.04355614632368088,
      "learning_rate": 0.0002,
      "loss": 0.5594754815101624,
      "mean_token_accuracy": 0.7743213176727295,
      "num_tokens": 1388447.0,
      "step": 85
    },
    {
      "entropy": 0.5567754805088043,
      "epoch": 0.32179607109448083,
      "grad_norm": 0.034040167927742004,
      "learning_rate": 0.0002,
      "loss": 0.5562305450439453,
      "mean_token_accuracy": 0.7782892882823944,
      "num_tokens": 1404595.0,
      "step": 86
    },
    {
      "entropy": 0.5897853374481201,
      "epoch": 0.3255378858746492,
      "grad_norm": 0.04141312837600708,
      "learning_rate": 0.0002,
      "loss": 0.5811256766319275,
      "mean_token_accuracy": 0.7645350694656372,
      "num_tokens": 1421046.0,
      "step": 87
    },
    {
      "entropy": 0.5651004612445831,
      "epoch": 0.3292797006548176,
      "grad_norm": 0.039186883717775345,
      "learning_rate": 0.0002,
      "loss": 0.5626670122146606,
      "mean_token_accuracy": 0.771001011133194,
      "num_tokens": 1437307.0,
      "step": 88
    },
    {
      "entropy": 0.5479820519685745,
      "epoch": 0.333021515434986,
      "grad_norm": 0.038090839982032776,
      "learning_rate": 0.0002,
      "loss": 0.5517987012863159,
      "mean_token_accuracy": 0.7779913991689682,
      "num_tokens": 1453625.0,
      "step": 89
    },
    {
      "entropy": 0.5513372272253036,
      "epoch": 0.33676333021515437,
      "grad_norm": 0.033073123544454575,
      "learning_rate": 0.0002,
      "loss": 0.5521109700202942,
      "mean_token_accuracy": 0.7770368456840515,
      "num_tokens": 1470001.0,
      "step": 90
    },
    {
      "entropy": 0.5538579821586609,
      "epoch": 0.34050514499532275,
      "grad_norm": 0.03432928025722504,
      "learning_rate": 0.0002,
      "loss": 0.5595468878746033,
      "mean_token_accuracy": 0.7756330221891403,
      "num_tokens": 1486202.0,
      "step": 91
    },
    {
      "entropy": 0.5441462099552155,
      "epoch": 0.34424695977549113,
      "grad_norm": 0.03260473906993866,
      "learning_rate": 0.0002,
      "loss": 0.5527001023292542,
      "mean_token_accuracy": 0.7777194529771805,
      "num_tokens": 1502337.0,
      "step": 92
    },
    {
      "entropy": 0.5642740428447723,
      "epoch": 0.3479887745556595,
      "grad_norm": 0.041720353066921234,
      "learning_rate": 0.0002,
      "loss": 0.5752084255218506,
      "mean_token_accuracy": 0.7667101472616196,
      "num_tokens": 1518821.0,
      "step": 93
    },
    {
      "entropy": 0.565082237124443,
      "epoch": 0.3517305893358279,
      "grad_norm": 0.03507543355226517,
      "learning_rate": 0.0002,
      "loss": 0.5699793696403503,
      "mean_token_accuracy": 0.770054817199707,
      "num_tokens": 1535163.0,
      "step": 94
    },
    {
      "entropy": 0.5870088040828705,
      "epoch": 0.35547240411599623,
      "grad_norm": 0.034236419945955276,
      "learning_rate": 0.0002,
      "loss": 0.5850114226341248,
      "mean_token_accuracy": 0.7608266621828079,
      "num_tokens": 1551565.0,
      "step": 95
    },
    {
      "entropy": 0.5530053824186325,
      "epoch": 0.3592142188961646,
      "grad_norm": 0.03369399905204773,
      "learning_rate": 0.0002,
      "loss": 0.5534529685974121,
      "mean_token_accuracy": 0.7759882658720016,
      "num_tokens": 1567750.0,
      "step": 96
    },
    {
      "entropy": 0.5754924863576889,
      "epoch": 0.362956033676333,
      "grad_norm": 0.036406002938747406,
      "learning_rate": 0.0002,
      "loss": 0.5705168843269348,
      "mean_token_accuracy": 0.7698172330856323,
      "num_tokens": 1584023.0,
      "step": 97
    },
    {
      "entropy": 0.5771925449371338,
      "epoch": 0.3666978484565014,
      "grad_norm": 0.032233767211437225,
      "learning_rate": 0.0002,
      "loss": 0.5738174319267273,
      "mean_token_accuracy": 0.7679109573364258,
      "num_tokens": 1600377.0,
      "step": 98
    },
    {
      "entropy": 0.566839799284935,
      "epoch": 0.37043966323666977,
      "grad_norm": 0.029388124123215675,
      "learning_rate": 0.0002,
      "loss": 0.5624303817749023,
      "mean_token_accuracy": 0.771264523267746,
      "num_tokens": 1616664.0,
      "step": 99
    },
    {
      "entropy": 0.5605880320072174,
      "epoch": 0.37418147801683815,
      "grad_norm": 0.034897759556770325,
      "learning_rate": 0.0002,
      "loss": 0.5609456896781921,
      "mean_token_accuracy": 0.7745639681816101,
      "num_tokens": 1632981.0,
      "step": 100
    },
    {
      "entropy": 0.5694979727268219,
      "epoch": 0.37792329279700654,
      "grad_norm": 0.03481722250580788,
      "learning_rate": 0.0002,
      "loss": 0.5728567838668823,
      "mean_token_accuracy": 0.7689409404993057,
      "num_tokens": 1649432.0,
      "step": 101
    },
    {
      "entropy": 0.5804490298032761,
      "epoch": 0.3816651075771749,
      "grad_norm": 0.03589940071105957,
      "learning_rate": 0.0002,
      "loss": 0.5847839713096619,
      "mean_token_accuracy": 0.7632083743810654,
      "num_tokens": 1666031.0,
      "step": 102
    },
    {
      "entropy": 0.5580839961767197,
      "epoch": 0.3854069223573433,
      "grad_norm": 0.031488265842199326,
      "learning_rate": 0.0002,
      "loss": 0.5667596459388733,
      "mean_token_accuracy": 0.7720794081687927,
      "num_tokens": 1682406.0,
      "step": 103
    },
    {
      "entropy": 0.5474104434251785,
      "epoch": 0.3891487371375117,
      "grad_norm": 0.03187083452939987,
      "learning_rate": 0.0002,
      "loss": 0.5499236583709717,
      "mean_token_accuracy": 0.7772009670734406,
      "num_tokens": 1698795.0,
      "step": 104
    },
    {
      "entropy": 0.5527014136314392,
      "epoch": 0.3928905519176801,
      "grad_norm": 0.03492984548211098,
      "learning_rate": 0.0002,
      "loss": 0.5512747168540955,
      "mean_token_accuracy": 0.776108130812645,
      "num_tokens": 1715480.0,
      "step": 105
    },
    {
      "entropy": 0.579165443778038,
      "epoch": 0.39663236669784846,
      "grad_norm": 0.03257554769515991,
      "learning_rate": 0.0002,
      "loss": 0.5810192823410034,
      "mean_token_accuracy": 0.7663566768169403,
      "num_tokens": 1731889.0,
      "step": 106
    },
    {
      "entropy": 0.5633712112903595,
      "epoch": 0.40037418147801684,
      "grad_norm": 0.03179244324564934,
      "learning_rate": 0.0002,
      "loss": 0.5622086524963379,
      "mean_token_accuracy": 0.7680526524782181,
      "num_tokens": 1748318.0,
      "step": 107
    },
    {
      "entropy": 0.5600844174623489,
      "epoch": 0.40411599625818523,
      "grad_norm": 0.029808223247528076,
      "learning_rate": 0.0002,
      "loss": 0.5606282949447632,
      "mean_token_accuracy": 0.7708232551813126,
      "num_tokens": 1764619.0,
      "step": 108
    },
    {
      "entropy": 0.5492478907108307,
      "epoch": 0.4078578110383536,
      "grad_norm": 0.031120680272579193,
      "learning_rate": 0.0002,
      "loss": 0.5484419465065002,
      "mean_token_accuracy": 0.775683268904686,
      "num_tokens": 1780851.0,
      "step": 109
    },
    {
      "entropy": 0.5517283380031586,
      "epoch": 0.411599625818522,
      "grad_norm": 0.03694352135062218,
      "learning_rate": 0.0002,
      "loss": 0.5580882430076599,
      "mean_token_accuracy": 0.774466261267662,
      "num_tokens": 1796890.0,
      "step": 110
    },
    {
      "entropy": 0.5656300336122513,
      "epoch": 0.4153414405986904,
      "grad_norm": 0.03588038682937622,
      "learning_rate": 0.0002,
      "loss": 0.5704593658447266,
      "mean_token_accuracy": 0.7691588401794434,
      "num_tokens": 1813404.0,
      "step": 111
    },
    {
      "entropy": 0.564102292060852,
      "epoch": 0.41908325537885877,
      "grad_norm": 0.03264907747507095,
      "learning_rate": 0.0002,
      "loss": 0.5655107498168945,
      "mean_token_accuracy": 0.7724602967500687,
      "num_tokens": 1829724.0,
      "step": 112
    },
    {
      "entropy": 0.5644495040178299,
      "epoch": 0.42282507015902715,
      "grad_norm": 0.03256542608141899,
      "learning_rate": 0.0002,
      "loss": 0.5646591782569885,
      "mean_token_accuracy": 0.7743334770202637,
      "num_tokens": 1846177.0,
      "step": 113
    },
    {
      "entropy": 0.545789897441864,
      "epoch": 0.42656688493919553,
      "grad_norm": 0.034160368144512177,
      "learning_rate": 0.0002,
      "loss": 0.5457491874694824,
      "mean_token_accuracy": 0.7793226093053818,
      "num_tokens": 1862412.0,
      "step": 114
    },
    {
      "entropy": 0.5670842975378036,
      "epoch": 0.4303086997193639,
      "grad_norm": 0.02954726107418537,
      "learning_rate": 0.0002,
      "loss": 0.5644434690475464,
      "mean_token_accuracy": 0.7711858153343201,
      "num_tokens": 1878518.0,
      "step": 115
    },
    {
      "entropy": 0.5647070705890656,
      "epoch": 0.43405051449953225,
      "grad_norm": 0.028261123225092888,
      "learning_rate": 0.0002,
      "loss": 0.5621106624603271,
      "mean_token_accuracy": 0.776775136590004,
      "num_tokens": 1895135.0,
      "step": 116
    },
    {
      "entropy": 0.529420793056488,
      "epoch": 0.43779232927970063,
      "grad_norm": 0.03301499783992767,
      "learning_rate": 0.0002,
      "loss": 0.536541759967804,
      "mean_token_accuracy": 0.7836042046546936,
      "num_tokens": 1911161.0,
      "step": 117
    },
    {
      "entropy": 0.5451334565877914,
      "epoch": 0.441534144059869,
      "grad_norm": 0.033271510154008865,
      "learning_rate": 0.0002,
      "loss": 0.5523592829704285,
      "mean_token_accuracy": 0.7769709676504135,
      "num_tokens": 1927550.0,
      "step": 118
    },
    {
      "entropy": 0.536512017250061,
      "epoch": 0.4452759588400374,
      "grad_norm": 0.03425843268632889,
      "learning_rate": 0.0002,
      "loss": 0.5380823612213135,
      "mean_token_accuracy": 0.780797928571701,
      "num_tokens": 1943788.0,
      "step": 119
    },
    {
      "entropy": 0.536301851272583,
      "epoch": 0.4490177736202058,
      "grad_norm": 0.03248719125986099,
      "learning_rate": 0.0002,
      "loss": 0.5470737218856812,
      "mean_token_accuracy": 0.7803975343704224,
      "num_tokens": 1959878.0,
      "step": 120
    },
    {
      "entropy": 0.5517153441905975,
      "epoch": 0.45275958840037417,
      "grad_norm": 0.03530304506421089,
      "learning_rate": 0.0002,
      "loss": 0.5577021241188049,
      "mean_token_accuracy": 0.7733452618122101,
      "num_tokens": 1976131.0,
      "step": 121
    },
    {
      "entropy": 0.5619277656078339,
      "epoch": 0.45650140318054255,
      "grad_norm": 0.03460797667503357,
      "learning_rate": 0.0002,
      "loss": 0.5516164898872375,
      "mean_token_accuracy": 0.7756523787975311,
      "num_tokens": 1992627.0,
      "step": 122
    },
    {
      "entropy": 0.5761916935443878,
      "epoch": 0.46024321796071094,
      "grad_norm": 0.03172283619642258,
      "learning_rate": 0.0002,
      "loss": 0.571029543876648,
      "mean_token_accuracy": 0.7667981088161469,
      "num_tokens": 2009019.0,
      "step": 123
    },
    {
      "entropy": 0.5743123888969421,
      "epoch": 0.4639850327408793,
      "grad_norm": 0.0364689975976944,
      "learning_rate": 0.0002,
      "loss": 0.5712283849716187,
      "mean_token_accuracy": 0.7701593190431595,
      "num_tokens": 2025188.0,
      "step": 124
    },
    {
      "entropy": 0.5582910478115082,
      "epoch": 0.4677268475210477,
      "grad_norm": 0.03056769073009491,
      "learning_rate": 0.0002,
      "loss": 0.56070876121521,
      "mean_token_accuracy": 0.7755492180585861,
      "num_tokens": 2041572.0,
      "step": 125
    },
    {
      "entropy": 0.5542439967393875,
      "epoch": 0.4714686623012161,
      "grad_norm": 0.03697546571493149,
      "learning_rate": 0.0002,
      "loss": 0.5604549646377563,
      "mean_token_accuracy": 0.7751918882131577,
      "num_tokens": 2057989.0,
      "step": 126
    },
    {
      "entropy": 0.5463303178548813,
      "epoch": 0.4752104770813845,
      "grad_norm": 0.033879246562719345,
      "learning_rate": 0.0002,
      "loss": 0.5539431571960449,
      "mean_token_accuracy": 0.7758707851171494,
      "num_tokens": 2074129.0,
      "step": 127
    },
    {
      "entropy": 0.5522827506065369,
      "epoch": 0.47895229186155286,
      "grad_norm": 0.03316348418593407,
      "learning_rate": 0.0002,
      "loss": 0.5581960082054138,
      "mean_token_accuracy": 0.7748778462409973,
      "num_tokens": 2090225.0,
      "step": 128
    },
    {
      "entropy": 0.5740112662315369,
      "epoch": 0.48269410664172124,
      "grad_norm": 0.03274102881550789,
      "learning_rate": 0.0002,
      "loss": 0.5653910040855408,
      "mean_token_accuracy": 0.7719868570566177,
      "num_tokens": 2106644.0,
      "step": 129
    },
    {
      "entropy": 0.5553925186395645,
      "epoch": 0.4864359214218896,
      "grad_norm": 0.028283284977078438,
      "learning_rate": 0.0002,
      "loss": 0.5513849258422852,
      "mean_token_accuracy": 0.7774856984615326,
      "num_tokens": 2123137.0,
      "step": 130
    },
    {
      "entropy": 0.5579676181077957,
      "epoch": 0.490177736202058,
      "grad_norm": 0.029911885038018227,
      "learning_rate": 0.0002,
      "loss": 0.5568463802337646,
      "mean_token_accuracy": 0.7730498015880585,
      "num_tokens": 2139285.0,
      "step": 131
    },
    {
      "entropy": 0.5664242058992386,
      "epoch": 0.4939195509822264,
      "grad_norm": 0.03227100148797035,
      "learning_rate": 0.0002,
      "loss": 0.5754393339157104,
      "mean_token_accuracy": 0.7667475491762161,
      "num_tokens": 2155517.0,
      "step": 132
    },
    {
      "entropy": 0.5501858294010162,
      "epoch": 0.4976613657623948,
      "grad_norm": 0.03013962134718895,
      "learning_rate": 0.0002,
      "loss": 0.5513433218002319,
      "mean_token_accuracy": 0.7747298777103424,
      "num_tokens": 2171722.0,
      "step": 133
    },
    {
      "entropy": 0.5627453327178955,
      "epoch": 0.5014031805425632,
      "grad_norm": 0.034450363367795944,
      "learning_rate": 0.0002,
      "loss": 0.5604255199432373,
      "mean_token_accuracy": 0.7740208506584167,
      "num_tokens": 2188054.0,
      "step": 134
    },
    {
      "entropy": 0.5634363293647766,
      "epoch": 0.5051449953227315,
      "grad_norm": 0.03803717717528343,
      "learning_rate": 0.0002,
      "loss": 0.558170735836029,
      "mean_token_accuracy": 0.7775739133358002,
      "num_tokens": 2204313.0,
      "step": 135
    },
    {
      "entropy": 0.5590767562389374,
      "epoch": 0.5088868101028999,
      "grad_norm": 0.029813330620527267,
      "learning_rate": 0.0002,
      "loss": 0.5652009844779968,
      "mean_token_accuracy": 0.7706311643123627,
      "num_tokens": 2220687.0,
      "step": 136
    },
    {
      "entropy": 0.5706852972507477,
      "epoch": 0.5126286248830683,
      "grad_norm": 0.0418686643242836,
      "learning_rate": 0.0002,
      "loss": 0.5734685063362122,
      "mean_token_accuracy": 0.7665899097919464,
      "num_tokens": 2237258.0,
      "step": 137
    },
    {
      "entropy": 0.5638300180435181,
      "epoch": 0.5163704396632367,
      "grad_norm": 0.03304136171936989,
      "learning_rate": 0.0002,
      "loss": 0.5663323402404785,
      "mean_token_accuracy": 0.7701692581176758,
      "num_tokens": 2253553.0,
      "step": 138
    },
    {
      "entropy": 0.5560389012098312,
      "epoch": 0.520112254443405,
      "grad_norm": 0.032340649515390396,
      "learning_rate": 0.0002,
      "loss": 0.5557302832603455,
      "mean_token_accuracy": 0.7773910611867905,
      "num_tokens": 2269787.0,
      "step": 139
    },
    {
      "entropy": 0.5491623729467392,
      "epoch": 0.5238540692235735,
      "grad_norm": 0.03743594512343407,
      "learning_rate": 0.0002,
      "loss": 0.5475925803184509,
      "mean_token_accuracy": 0.7796913385391235,
      "num_tokens": 2286052.0,
      "step": 140
    },
    {
      "entropy": 0.5624114125967026,
      "epoch": 0.5275958840037418,
      "grad_norm": 0.03084268979728222,
      "learning_rate": 0.0002,
      "loss": 0.5612790584564209,
      "mean_token_accuracy": 0.7745496481657028,
      "num_tokens": 2302516.0,
      "step": 141
    },
    {
      "entropy": 0.5638779103755951,
      "epoch": 0.5313376987839102,
      "grad_norm": 0.02851773053407669,
      "learning_rate": 0.0002,
      "loss": 0.568551778793335,
      "mean_token_accuracy": 0.7703356891870499,
      "num_tokens": 2318761.0,
      "step": 142
    },
    {
      "entropy": 0.5524759441614151,
      "epoch": 0.5350795135640786,
      "grad_norm": 0.03449970856308937,
      "learning_rate": 0.0002,
      "loss": 0.5582625865936279,
      "mean_token_accuracy": 0.7745357155799866,
      "num_tokens": 2335227.0,
      "step": 143
    },
    {
      "entropy": 0.5538729876279831,
      "epoch": 0.538821328344247,
      "grad_norm": 0.036926597356796265,
      "learning_rate": 0.0002,
      "loss": 0.5551813840866089,
      "mean_token_accuracy": 0.7734793871641159,
      "num_tokens": 2351743.0,
      "step": 144
    },
    {
      "entropy": 0.556109830737114,
      "epoch": 0.5425631431244153,
      "grad_norm": 0.032143596559762955,
      "learning_rate": 0.0002,
      "loss": 0.5621770620346069,
      "mean_token_accuracy": 0.7720111310482025,
      "num_tokens": 2368312.0,
      "step": 145
    },
    {
      "entropy": 0.5528390407562256,
      "epoch": 0.5463049579045838,
      "grad_norm": 0.027878830209374428,
      "learning_rate": 0.0002,
      "loss": 0.551728367805481,
      "mean_token_accuracy": 0.7765467911958694,
      "num_tokens": 2384834.0,
      "step": 146
    },
    {
      "entropy": 0.569217711687088,
      "epoch": 0.5500467726847521,
      "grad_norm": 0.03398638963699341,
      "learning_rate": 0.0002,
      "loss": 0.5663697123527527,
      "mean_token_accuracy": 0.7732102274894714,
      "num_tokens": 2401144.0,
      "step": 147
    },
    {
      "entropy": 0.5385106950998306,
      "epoch": 0.5537885874649204,
      "grad_norm": 0.034567005932331085,
      "learning_rate": 0.0002,
      "loss": 0.5383309721946716,
      "mean_token_accuracy": 0.781255692243576,
      "num_tokens": 2417158.0,
      "step": 148
    },
    {
      "entropy": 0.5630964189767838,
      "epoch": 0.5575304022450889,
      "grad_norm": 0.029897838830947876,
      "learning_rate": 0.0002,
      "loss": 0.5677754282951355,
      "mean_token_accuracy": 0.7685458660125732,
      "num_tokens": 2433487.0,
      "step": 149
    },
    {
      "entropy": 0.5507898777723312,
      "epoch": 0.5612722170252572,
      "grad_norm": 0.02974529378116131,
      "learning_rate": 0.0002,
      "loss": 0.5534771680831909,
      "mean_token_accuracy": 0.7748892605304718,
      "num_tokens": 2449770.0,
      "step": 150
    },
    {
      "entropy": 0.5639528781175613,
      "epoch": 0.5650140318054256,
      "grad_norm": 0.03235238045454025,
      "learning_rate": 0.0002,
      "loss": 0.5681154131889343,
      "mean_token_accuracy": 0.7700216770172119,
      "num_tokens": 2466229.0,
      "step": 151
    },
    {
      "entropy": 0.5683706551790237,
      "epoch": 0.568755846585594,
      "grad_norm": 0.028963793069124222,
      "learning_rate": 0.0002,
      "loss": 0.569283127784729,
      "mean_token_accuracy": 0.7688962519168854,
      "num_tokens": 2482737.0,
      "step": 152
    },
    {
      "entropy": 0.5595172494649887,
      "epoch": 0.5724976613657624,
      "grad_norm": 0.02971002459526062,
      "learning_rate": 0.0002,
      "loss": 0.5543393492698669,
      "mean_token_accuracy": 0.7762883901596069,
      "num_tokens": 2499145.0,
      "step": 153
    },
    {
      "entropy": 0.55421943962574,
      "epoch": 0.5762394761459307,
      "grad_norm": 0.030361918732523918,
      "learning_rate": 0.0002,
      "loss": 0.5593795776367188,
      "mean_token_accuracy": 0.7707612812519073,
      "num_tokens": 2515460.0,
      "step": 154
    },
    {
      "entropy": 0.5604497343301773,
      "epoch": 0.5799812909260992,
      "grad_norm": 0.03249987214803696,
      "learning_rate": 0.0002,
      "loss": 0.559572696685791,
      "mean_token_accuracy": 0.7736714631319046,
      "num_tokens": 2531731.0,
      "step": 155
    },
    {
      "entropy": 0.5572012811899185,
      "epoch": 0.5837231057062675,
      "grad_norm": 0.028877906501293182,
      "learning_rate": 0.0002,
      "loss": 0.5557632446289062,
      "mean_token_accuracy": 0.7749307751655579,
      "num_tokens": 2547934.0,
      "step": 156
    },
    {
      "entropy": 0.5711070001125336,
      "epoch": 0.587464920486436,
      "grad_norm": 0.030351407825946808,
      "learning_rate": 0.0002,
      "loss": 0.5682122707366943,
      "mean_token_accuracy": 0.7715558409690857,
      "num_tokens": 2564252.0,
      "step": 157
    },
    {
      "entropy": 0.5656052529811859,
      "epoch": 0.5912067352666043,
      "grad_norm": 0.029292697086930275,
      "learning_rate": 0.0002,
      "loss": 0.5643728375434875,
      "mean_token_accuracy": 0.7730299234390259,
      "num_tokens": 2580465.0,
      "step": 158
    },
    {
      "entropy": 0.5565295219421387,
      "epoch": 0.5949485500467727,
      "grad_norm": 0.028714049607515335,
      "learning_rate": 0.0002,
      "loss": 0.5634271502494812,
      "mean_token_accuracy": 0.7702697217464447,
      "num_tokens": 2596985.0,
      "step": 159
    },
    {
      "entropy": 0.5631282031536102,
      "epoch": 0.598690364826941,
      "grad_norm": 0.030091576278209686,
      "learning_rate": 0.0002,
      "loss": 0.5721826553344727,
      "mean_token_accuracy": 0.7689475417137146,
      "num_tokens": 2613206.0,
      "step": 160
    },
    {
      "entropy": 0.5607286393642426,
      "epoch": 0.6024321796071095,
      "grad_norm": 0.03013305738568306,
      "learning_rate": 0.0002,
      "loss": 0.5609285235404968,
      "mean_token_accuracy": 0.7740870416164398,
      "num_tokens": 2629766.0,
      "step": 161
    },
    {
      "entropy": 0.5548760294914246,
      "epoch": 0.6061739943872778,
      "grad_norm": 0.03615036979317665,
      "learning_rate": 0.0002,
      "loss": 0.561907172203064,
      "mean_token_accuracy": 0.7704312056303024,
      "num_tokens": 2645841.0,
      "step": 162
    },
    {
      "entropy": 0.5578597337007523,
      "epoch": 0.6099158091674463,
      "grad_norm": 0.029693420976400375,
      "learning_rate": 0.0002,
      "loss": 0.5573199391365051,
      "mean_token_accuracy": 0.7728497833013535,
      "num_tokens": 2662175.0,
      "step": 163
    },
    {
      "entropy": 0.5612762272357941,
      "epoch": 0.6136576239476146,
      "grad_norm": 0.030115241184830666,
      "learning_rate": 0.0002,
      "loss": 0.5610560178756714,
      "mean_token_accuracy": 0.7720479369163513,
      "num_tokens": 2678456.0,
      "step": 164
    },
    {
      "entropy": 0.5692281126976013,
      "epoch": 0.617399438727783,
      "grad_norm": 0.030713427811861038,
      "learning_rate": 0.0002,
      "loss": 0.567272961139679,
      "mean_token_accuracy": 0.7701284140348434,
      "num_tokens": 2694886.0,
      "step": 165
    },
    {
      "entropy": 0.5571814477443695,
      "epoch": 0.6211412535079514,
      "grad_norm": 0.030081165954470634,
      "learning_rate": 0.0002,
      "loss": 0.5578005313873291,
      "mean_token_accuracy": 0.7734847068786621,
      "num_tokens": 2711066.0,
      "step": 166
    },
    {
      "entropy": 0.5701806098222733,
      "epoch": 0.6248830682881198,
      "grad_norm": 0.024519717320799828,
      "learning_rate": 0.0002,
      "loss": 0.5707820057868958,
      "mean_token_accuracy": 0.765745609998703,
      "num_tokens": 2727604.0,
      "step": 167
    },
    {
      "entropy": 0.546685203909874,
      "epoch": 0.6286248830682881,
      "grad_norm": 0.030948853120207787,
      "learning_rate": 0.0002,
      "loss": 0.5538927912712097,
      "mean_token_accuracy": 0.7749418467283249,
      "num_tokens": 2743937.0,
      "step": 168
    },
    {
      "entropy": 0.5537951737642288,
      "epoch": 0.6323666978484564,
      "grad_norm": 0.03693117946386337,
      "learning_rate": 0.0002,
      "loss": 0.5586614608764648,
      "mean_token_accuracy": 0.7715347409248352,
      "num_tokens": 2760525.0,
      "step": 169
    },
    {
      "entropy": 0.5430830717086792,
      "epoch": 0.6361085126286249,
      "grad_norm": 0.029782412573695183,
      "learning_rate": 0.0002,
      "loss": 0.5412864685058594,
      "mean_token_accuracy": 0.7784539759159088,
      "num_tokens": 2776721.0,
      "step": 170
    },
    {
      "entropy": 0.5351588726043701,
      "epoch": 0.6398503274087932,
      "grad_norm": 0.03263084217905998,
      "learning_rate": 0.0002,
      "loss": 0.5388463139533997,
      "mean_token_accuracy": 0.781808465719223,
      "num_tokens": 2792933.0,
      "step": 171
    },
    {
      "entropy": 0.5568130016326904,
      "epoch": 0.6435921421889617,
      "grad_norm": 0.031154213473200798,
      "learning_rate": 0.0002,
      "loss": 0.5626617670059204,
      "mean_token_accuracy": 0.7720103710889816,
      "num_tokens": 2809451.0,
      "step": 172
    },
    {
      "entropy": 0.5607169568538666,
      "epoch": 0.64733395696913,
      "grad_norm": 0.03371235355734825,
      "learning_rate": 0.0002,
      "loss": 0.5647063255310059,
      "mean_token_accuracy": 0.7718498706817627,
      "num_tokens": 2825932.0,
      "step": 173
    },
    {
      "entropy": 0.555529311299324,
      "epoch": 0.6510757717492984,
      "grad_norm": 0.030816521495580673,
      "learning_rate": 0.0002,
      "loss": 0.5564374327659607,
      "mean_token_accuracy": 0.7758121490478516,
      "num_tokens": 2842314.0,
      "step": 174
    },
    {
      "entropy": 0.5513110458850861,
      "epoch": 0.6548175865294668,
      "grad_norm": 0.02944033220410347,
      "learning_rate": 0.0002,
      "loss": 0.5524051189422607,
      "mean_token_accuracy": 0.77901391685009,
      "num_tokens": 2858741.0,
      "step": 175
    },
    {
      "entropy": 0.5570909082889557,
      "epoch": 0.6585594013096352,
      "grad_norm": 0.030563851818442345,
      "learning_rate": 0.0002,
      "loss": 0.552980899810791,
      "mean_token_accuracy": 0.7785744369029999,
      "num_tokens": 2874790.0,
      "step": 176
    },
    {
      "entropy": 0.5531197637319565,
      "epoch": 0.6623012160898035,
      "grad_norm": 0.026769133284687996,
      "learning_rate": 0.0002,
      "loss": 0.5503875017166138,
      "mean_token_accuracy": 0.7756068855524063,
      "num_tokens": 2890991.0,
      "step": 177
    },
    {
      "entropy": 0.5576685070991516,
      "epoch": 0.666043030869972,
      "grad_norm": 0.031243668869137764,
      "learning_rate": 0.0002,
      "loss": 0.5595083236694336,
      "mean_token_accuracy": 0.7736776024103165,
      "num_tokens": 2907372.0,
      "step": 178
    },
    {
      "entropy": 0.561943918466568,
      "epoch": 0.6697848456501403,
      "grad_norm": 0.029022254049777985,
      "learning_rate": 0.0002,
      "loss": 0.5671570301055908,
      "mean_token_accuracy": 0.7722343951463699,
      "num_tokens": 2923921.0,
      "step": 179
    },
    {
      "entropy": 0.5484957844018936,
      "epoch": 0.6735266604303087,
      "grad_norm": 0.030121706426143646,
      "learning_rate": 0.0002,
      "loss": 0.5546964406967163,
      "mean_token_accuracy": 0.7751270681619644,
      "num_tokens": 2940247.0,
      "step": 180
    },
    {
      "entropy": 0.554192379117012,
      "epoch": 0.6772684752104771,
      "grad_norm": 0.030762923881411552,
      "learning_rate": 0.0002,
      "loss": 0.5602478981018066,
      "mean_token_accuracy": 0.7732126861810684,
      "num_tokens": 2956527.0,
      "step": 181
    },
    {
      "entropy": 0.5684338361024857,
      "epoch": 0.6810102899906455,
      "grad_norm": 0.036885276436805725,
      "learning_rate": 0.0002,
      "loss": 0.5655561685562134,
      "mean_token_accuracy": 0.769650399684906,
      "num_tokens": 2972654.0,
      "step": 182
    },
    {
      "entropy": 0.5733159780502319,
      "epoch": 0.6847521047708138,
      "grad_norm": 0.03168238326907158,
      "learning_rate": 0.0002,
      "loss": 0.5698360800743103,
      "mean_token_accuracy": 0.7700367867946625,
      "num_tokens": 2989101.0,
      "step": 183
    },
    {
      "entropy": 0.556915819644928,
      "epoch": 0.6884939195509823,
      "grad_norm": 0.03091347962617874,
      "learning_rate": 0.0002,
      "loss": 0.5448244214057922,
      "mean_token_accuracy": 0.7791603803634644,
      "num_tokens": 3005335.0,
      "step": 184
    },
    {
      "entropy": 0.5490943491458893,
      "epoch": 0.6922357343311506,
      "grad_norm": 0.032818131148815155,
      "learning_rate": 0.0002,
      "loss": 0.5487899780273438,
      "mean_token_accuracy": 0.7768953591585159,
      "num_tokens": 3021621.0,
      "step": 185
    },
    {
      "entropy": 0.5296357423067093,
      "epoch": 0.695977549111319,
      "grad_norm": 0.03200080245733261,
      "learning_rate": 0.0002,
      "loss": 0.5386063456535339,
      "mean_token_accuracy": 0.7796643227338791,
      "num_tokens": 3037785.0,
      "step": 186
    },
    {
      "entropy": 0.5606788247823715,
      "epoch": 0.6997193638914874,
      "grad_norm": 0.03352601081132889,
      "learning_rate": 0.0002,
      "loss": 0.5720128417015076,
      "mean_token_accuracy": 0.7676278650760651,
      "num_tokens": 3053806.0,
      "step": 187
    },
    {
      "entropy": 0.5525215566158295,
      "epoch": 0.7034611786716558,
      "grad_norm": 0.03217856585979462,
      "learning_rate": 0.0002,
      "loss": 0.5599426627159119,
      "mean_token_accuracy": 0.7706687748432159,
      "num_tokens": 3070070.0,
      "step": 188
    },
    {
      "entropy": 0.5785647034645081,
      "epoch": 0.7072029934518241,
      "grad_norm": 0.03108043409883976,
      "learning_rate": 0.0002,
      "loss": 0.5753121376037598,
      "mean_token_accuracy": 0.7674888074398041,
      "num_tokens": 3086407.0,
      "step": 189
    },
    {
      "entropy": 0.572156235575676,
      "epoch": 0.7109448082319925,
      "grad_norm": 0.036022067070007324,
      "learning_rate": 0.0002,
      "loss": 0.5567526817321777,
      "mean_token_accuracy": 0.7726783901453018,
      "num_tokens": 3102575.0,
      "step": 190
    },
    {
      "entropy": 0.5531092137098312,
      "epoch": 0.7146866230121609,
      "grad_norm": 0.028695300221443176,
      "learning_rate": 0.0002,
      "loss": 0.545417070388794,
      "mean_token_accuracy": 0.7790848612785339,
      "num_tokens": 3118942.0,
      "step": 191
    },
    {
      "entropy": 0.542072057723999,
      "epoch": 0.7184284377923292,
      "grad_norm": 0.02768511138856411,
      "learning_rate": 0.0002,
      "loss": 0.5424788594245911,
      "mean_token_accuracy": 0.7790149599313736,
      "num_tokens": 3134996.0,
      "step": 192
    },
    {
      "entropy": 0.5440382957458496,
      "epoch": 0.7221702525724977,
      "grad_norm": 0.044699691236019135,
      "learning_rate": 0.0002,
      "loss": 0.5630879402160645,
      "mean_token_accuracy": 0.7720867395401001,
      "num_tokens": 3151144.0,
      "step": 193
    },
    {
      "entropy": 0.5484438389539719,
      "epoch": 0.725912067352666,
      "grad_norm": 0.033284809440374374,
      "learning_rate": 0.0002,
      "loss": 0.5586625933647156,
      "mean_token_accuracy": 0.7742896676063538,
      "num_tokens": 3167431.0,
      "step": 194
    },
    {
      "entropy": 0.5585122853517532,
      "epoch": 0.7296538821328344,
      "grad_norm": 0.029940789565443993,
      "learning_rate": 0.0002,
      "loss": 0.5640571117401123,
      "mean_token_accuracy": 0.7736721932888031,
      "num_tokens": 3183584.0,
      "step": 195
    },
    {
      "entropy": 0.5803828984498978,
      "epoch": 0.7333956969130028,
      "grad_norm": 0.03922640532255173,
      "learning_rate": 0.0002,
      "loss": 0.5756028294563293,
      "mean_token_accuracy": 0.7650134712457657,
      "num_tokens": 3199936.0,
      "step": 196
    },
    {
      "entropy": 0.5695553570985794,
      "epoch": 0.7371375116931712,
      "grad_norm": 0.02914128266274929,
      "learning_rate": 0.0002,
      "loss": 0.5552971959114075,
      "mean_token_accuracy": 0.7738740146160126,
      "num_tokens": 3216327.0,
      "step": 197
    },
    {
      "entropy": 0.5402019023895264,
      "epoch": 0.7408793264733395,
      "grad_norm": 0.02753686159849167,
      "learning_rate": 0.0002,
      "loss": 0.5362023711204529,
      "mean_token_accuracy": 0.7808489948511124,
      "num_tokens": 3232411.0,
      "step": 198
    },
    {
      "entropy": 0.5661509037017822,
      "epoch": 0.744621141253508,
      "grad_norm": 0.029173044487833977,
      "learning_rate": 0.0002,
      "loss": 0.5666989088058472,
      "mean_token_accuracy": 0.7697858512401581,
      "num_tokens": 3248516.0,
      "step": 199
    },
    {
      "entropy": 0.5394262075424194,
      "epoch": 0.7483629560336763,
      "grad_norm": 0.03222000226378441,
      "learning_rate": 0.0002,
      "loss": 0.5493192076683044,
      "mean_token_accuracy": 0.7756218761205673,
      "num_tokens": 3264724.0,
      "step": 200
    },
    {
      "entropy": 0.5624162256717682,
      "epoch": 0.7521047708138447,
      "grad_norm": 0.03587524592876434,
      "learning_rate": 0.0002,
      "loss": 0.5728610157966614,
      "mean_token_accuracy": 0.7661173194646835,
      "num_tokens": 3280953.0,
      "step": 201
    },
    {
      "entropy": 0.5574640333652496,
      "epoch": 0.7558465855940131,
      "grad_norm": 0.030263541266322136,
      "learning_rate": 0.0002,
      "loss": 0.5545740127563477,
      "mean_token_accuracy": 0.7747018188238144,
      "num_tokens": 3297315.0,
      "step": 202
    },
    {
      "entropy": 0.5598777681589127,
      "epoch": 0.7595884003741815,
      "grad_norm": 0.0284356027841568,
      "learning_rate": 0.0002,
      "loss": 0.5577300190925598,
      "mean_token_accuracy": 0.7724722474813461,
      "num_tokens": 3313688.0,
      "step": 203
    },
    {
      "entropy": 0.5658386498689651,
      "epoch": 0.7633302151543498,
      "grad_norm": 0.03470136970281601,
      "learning_rate": 0.0002,
      "loss": 0.5591439008712769,
      "mean_token_accuracy": 0.7761197835206985,
      "num_tokens": 3329826.0,
      "step": 204
    },
    {
      "entropy": 0.5585865527391434,
      "epoch": 0.7670720299345183,
      "grad_norm": 0.027583830058574677,
      "learning_rate": 0.0002,
      "loss": 0.5561191439628601,
      "mean_token_accuracy": 0.7717861980199814,
      "num_tokens": 3346401.0,
      "step": 205
    },
    {
      "entropy": 0.5518056601285934,
      "epoch": 0.7708138447146866,
      "grad_norm": 0.034380193799734116,
      "learning_rate": 0.0002,
      "loss": 0.56368488073349,
      "mean_token_accuracy": 0.7690371572971344,
      "num_tokens": 3362862.0,
      "step": 206
    },
    {
      "entropy": 0.5423950105905533,
      "epoch": 0.774555659494855,
      "grad_norm": 0.027748677879571915,
      "learning_rate": 0.0002,
      "loss": 0.5500733256340027,
      "mean_token_accuracy": 0.7782405465841293,
      "num_tokens": 3379133.0,
      "step": 207
    },
    {
      "entropy": 0.5392836630344391,
      "epoch": 0.7782974742750234,
      "grad_norm": 0.030424097552895546,
      "learning_rate": 0.0002,
      "loss": 0.5452281832695007,
      "mean_token_accuracy": 0.7790029048919678,
      "num_tokens": 3395406.0,
      "step": 208
    },
    {
      "entropy": 0.5665347129106522,
      "epoch": 0.7820392890551918,
      "grad_norm": 0.02836509235203266,
      "learning_rate": 0.0002,
      "loss": 0.5655370950698853,
      "mean_token_accuracy": 0.768405556678772,
      "num_tokens": 3411686.0,
      "step": 209
    },
    {
      "entropy": 0.5624722540378571,
      "epoch": 0.7857811038353602,
      "grad_norm": 0.028227761387825012,
      "learning_rate": 0.0002,
      "loss": 0.5540167689323425,
      "mean_token_accuracy": 0.7740924656391144,
      "num_tokens": 3427914.0,
      "step": 210
    },
    {
      "entropy": 0.555148720741272,
      "epoch": 0.7895229186155285,
      "grad_norm": 0.03054502047598362,
      "learning_rate": 0.0002,
      "loss": 0.5572685599327087,
      "mean_token_accuracy": 0.7746326923370361,
      "num_tokens": 3444170.0,
      "step": 211
    },
    {
      "entropy": 0.5449056923389435,
      "epoch": 0.7932647333956969,
      "grad_norm": 0.03224708139896393,
      "learning_rate": 0.0002,
      "loss": 0.5572819113731384,
      "mean_token_accuracy": 0.7724157273769379,
      "num_tokens": 3460305.0,
      "step": 212
    },
    {
      "entropy": 0.5533578097820282,
      "epoch": 0.7970065481758652,
      "grad_norm": 0.031917959451675415,
      "learning_rate": 0.0002,
      "loss": 0.557055652141571,
      "mean_token_accuracy": 0.7715483158826828,
      "num_tokens": 3476772.0,
      "step": 213
    },
    {
      "entropy": 0.5611972808837891,
      "epoch": 0.8007483629560337,
      "grad_norm": 0.031701650470495224,
      "learning_rate": 0.0002,
      "loss": 0.5658101439476013,
      "mean_token_accuracy": 0.7677106559276581,
      "num_tokens": 3493499.0,
      "step": 214
    },
    {
      "entropy": 0.5572656095027924,
      "epoch": 0.804490177736202,
      "grad_norm": 0.02719227597117424,
      "learning_rate": 0.0002,
      "loss": 0.5549203157424927,
      "mean_token_accuracy": 0.774790808558464,
      "num_tokens": 3509811.0,
      "step": 215
    },
    {
      "entropy": 0.5471508800983429,
      "epoch": 0.8082319925163705,
      "grad_norm": 0.025823380798101425,
      "learning_rate": 0.0002,
      "loss": 0.5506555438041687,
      "mean_token_accuracy": 0.7770570069551468,
      "num_tokens": 3526157.0,
      "step": 216
    },
    {
      "entropy": 0.5587919056415558,
      "epoch": 0.8119738072965388,
      "grad_norm": 0.027526551857590675,
      "learning_rate": 0.0002,
      "loss": 0.5553531050682068,
      "mean_token_accuracy": 0.7733194231987,
      "num_tokens": 3542353.0,
      "step": 217
    },
    {
      "entropy": 0.5590764433145523,
      "epoch": 0.8157156220767072,
      "grad_norm": 0.027686061337590218,
      "learning_rate": 0.0002,
      "loss": 0.553832471370697,
      "mean_token_accuracy": 0.7726568281650543,
      "num_tokens": 3558723.0,
      "step": 218
    },
    {
      "entropy": 0.5684271901845932,
      "epoch": 0.8194574368568756,
      "grad_norm": 0.027071600779891014,
      "learning_rate": 0.0002,
      "loss": 0.5699101686477661,
      "mean_token_accuracy": 0.7687496989965439,
      "num_tokens": 3575290.0,
      "step": 219
    },
    {
      "entropy": 0.5384210348129272,
      "epoch": 0.823199251637044,
      "grad_norm": 0.030755044892430305,
      "learning_rate": 0.0002,
      "loss": 0.5439192652702332,
      "mean_token_accuracy": 0.7772842049598694,
      "num_tokens": 3591563.0,
      "step": 220
    },
    {
      "entropy": 0.524935394525528,
      "epoch": 0.8269410664172123,
      "grad_norm": 0.02740432508289814,
      "learning_rate": 0.0002,
      "loss": 0.529310941696167,
      "mean_token_accuracy": 0.784336507320404,
      "num_tokens": 3607814.0,
      "step": 221
    },
    {
      "entropy": 0.5532049238681793,
      "epoch": 0.8306828811973808,
      "grad_norm": 0.034083202481269836,
      "learning_rate": 0.0002,
      "loss": 0.5611142516136169,
      "mean_token_accuracy": 0.7706895172595978,
      "num_tokens": 3624047.0,
      "step": 222
    },
    {
      "entropy": 0.5380610376596451,
      "epoch": 0.8344246959775491,
      "grad_norm": 0.029454410076141357,
      "learning_rate": 0.0002,
      "loss": 0.5438103675842285,
      "mean_token_accuracy": 0.7790344655513763,
      "num_tokens": 3640194.0,
      "step": 223
    },
    {
      "entropy": 0.5661721527576447,
      "epoch": 0.8381665107577175,
      "grad_norm": 0.029397280886769295,
      "learning_rate": 0.0002,
      "loss": 0.558972954750061,
      "mean_token_accuracy": 0.7724218964576721,
      "num_tokens": 3656608.0,
      "step": 224
    },
    {
      "entropy": 0.5514093935489655,
      "epoch": 0.8419083255378859,
      "grad_norm": 0.029793422669172287,
      "learning_rate": 0.0002,
      "loss": 0.550917387008667,
      "mean_token_accuracy": 0.7733565121889114,
      "num_tokens": 3672523.0,
      "step": 225
    },
    {
      "entropy": 0.5508118569850922,
      "epoch": 0.8456501403180543,
      "grad_norm": 0.030908716842532158,
      "learning_rate": 0.0002,
      "loss": 0.5537383556365967,
      "mean_token_accuracy": 0.7725334316492081,
      "num_tokens": 3688658.0,
      "step": 226
    },
    {
      "entropy": 0.5521706193685532,
      "epoch": 0.8493919550982226,
      "grad_norm": 0.03186751529574394,
      "learning_rate": 0.0002,
      "loss": 0.5577634572982788,
      "mean_token_accuracy": 0.7732146978378296,
      "num_tokens": 3704875.0,
      "step": 227
    },
    {
      "entropy": 0.543274000287056,
      "epoch": 0.8531337698783911,
      "grad_norm": 0.030743638053536415,
      "learning_rate": 0.0002,
      "loss": 0.5453194379806519,
      "mean_token_accuracy": 0.7776961177587509,
      "num_tokens": 3720936.0,
      "step": 228
    },
    {
      "entropy": 0.5507763624191284,
      "epoch": 0.8568755846585594,
      "grad_norm": 0.030140401795506477,
      "learning_rate": 0.0002,
      "loss": 0.5504044890403748,
      "mean_token_accuracy": 0.7767813801765442,
      "num_tokens": 3737279.0,
      "step": 229
    },
    {
      "entropy": 0.5462870597839355,
      "epoch": 0.8606173994387278,
      "grad_norm": 0.026473646983504295,
      "learning_rate": 0.0002,
      "loss": 0.5481734275817871,
      "mean_token_accuracy": 0.7772915065288544,
      "num_tokens": 3753415.0,
      "step": 230
    },
    {
      "entropy": 0.5563444495201111,
      "epoch": 0.8643592142188962,
      "grad_norm": 0.02921387553215027,
      "learning_rate": 0.0002,
      "loss": 0.5546942949295044,
      "mean_token_accuracy": 0.7731446027755737,
      "num_tokens": 3769803.0,
      "step": 231
    },
    {
      "entropy": 0.559598296880722,
      "epoch": 0.8681010289990645,
      "grad_norm": 0.03972897306084633,
      "learning_rate": 0.0002,
      "loss": 0.5572680234909058,
      "mean_token_accuracy": 0.773430734872818,
      "num_tokens": 3785892.0,
      "step": 232
    },
    {
      "entropy": 0.539952963590622,
      "epoch": 0.8718428437792329,
      "grad_norm": 0.028981171548366547,
      "learning_rate": 0.0002,
      "loss": 0.5390475988388062,
      "mean_token_accuracy": 0.7811980247497559,
      "num_tokens": 3802184.0,
      "step": 233
    },
    {
      "entropy": 0.5387761145830154,
      "epoch": 0.8755846585594013,
      "grad_norm": 0.026351595297455788,
      "learning_rate": 0.0002,
      "loss": 0.5407798290252686,
      "mean_token_accuracy": 0.7787132114171982,
      "num_tokens": 3818418.0,
      "step": 234
    },
    {
      "entropy": 0.5693282037973404,
      "epoch": 0.8793264733395697,
      "grad_norm": 0.033158186823129654,
      "learning_rate": 0.0002,
      "loss": 0.5714267492294312,
      "mean_token_accuracy": 0.7690801620483398,
      "num_tokens": 3834874.0,
      "step": 235
    },
    {
      "entropy": 0.5534514784812927,
      "epoch": 0.883068288119738,
      "grad_norm": 0.0280459001660347,
      "learning_rate": 0.0002,
      "loss": 0.5574108362197876,
      "mean_token_accuracy": 0.7764205187559128,
      "num_tokens": 3851261.0,
      "step": 236
    },
    {
      "entropy": 0.5554600358009338,
      "epoch": 0.8868101028999065,
      "grad_norm": 0.027284014970064163,
      "learning_rate": 0.0002,
      "loss": 0.5592954754829407,
      "mean_token_accuracy": 0.7728679180145264,
      "num_tokens": 3867826.0,
      "step": 237
    },
    {
      "entropy": 0.5611312091350555,
      "epoch": 0.8905519176800748,
      "grad_norm": 0.027675554156303406,
      "learning_rate": 0.0002,
      "loss": 0.5633160471916199,
      "mean_token_accuracy": 0.7716223746538162,
      "num_tokens": 3884424.0,
      "step": 238
    },
    {
      "entropy": 0.5698042660951614,
      "epoch": 0.8942937324602432,
      "grad_norm": 0.02734820544719696,
      "learning_rate": 0.0002,
      "loss": 0.5722016096115112,
      "mean_token_accuracy": 0.767684668302536,
      "num_tokens": 3900993.0,
      "step": 239
    },
    {
      "entropy": 0.5487347990274429,
      "epoch": 0.8980355472404116,
      "grad_norm": 0.030463971197605133,
      "learning_rate": 0.0002,
      "loss": 0.5459187626838684,
      "mean_token_accuracy": 0.7788650244474411,
      "num_tokens": 3917455.0,
      "step": 240
    },
    {
      "entropy": 0.5684353709220886,
      "epoch": 0.90177736202058,
      "grad_norm": 0.028492476791143417,
      "learning_rate": 0.0002,
      "loss": 0.5674321055412292,
      "mean_token_accuracy": 0.7663144171237946,
      "num_tokens": 3934049.0,
      "step": 241
    },
    {
      "entropy": 0.5689758509397507,
      "epoch": 0.9055191768007483,
      "grad_norm": 0.02926958166062832,
      "learning_rate": 0.0002,
      "loss": 0.5745148658752441,
      "mean_token_accuracy": 0.7678453773260117,
      "num_tokens": 3950533.0,
      "step": 242
    },
    {
      "entropy": 0.549301877617836,
      "epoch": 0.9092609915809168,
      "grad_norm": 0.03295575827360153,
      "learning_rate": 0.0002,
      "loss": 0.5597534775733948,
      "mean_token_accuracy": 0.7714426666498184,
      "num_tokens": 3966986.0,
      "step": 243
    },
    {
      "entropy": 0.5338816940784454,
      "epoch": 0.9130028063610851,
      "grad_norm": 0.030206363648176193,
      "learning_rate": 0.0002,
      "loss": 0.5326100587844849,
      "mean_token_accuracy": 0.7836355268955231,
      "num_tokens": 3983434.0,
      "step": 244
    },
    {
      "entropy": 0.5674562901258469,
      "epoch": 0.9167446211412535,
      "grad_norm": 0.026608271524310112,
      "learning_rate": 0.0002,
      "loss": 0.5644797682762146,
      "mean_token_accuracy": 0.7716486304998398,
      "num_tokens": 3999756.0,
      "step": 245
    },
    {
      "entropy": 0.5831885486841202,
      "epoch": 0.9204864359214219,
      "grad_norm": 0.03711472824215889,
      "learning_rate": 0.0002,
      "loss": 0.5693003535270691,
      "mean_token_accuracy": 0.7677270174026489,
      "num_tokens": 4016084.0,
      "step": 246
    },
    {
      "entropy": 0.5590741783380508,
      "epoch": 0.9242282507015903,
      "grad_norm": 0.027594709768891335,
      "learning_rate": 0.0002,
      "loss": 0.5590558052062988,
      "mean_token_accuracy": 0.7732381373643875,
      "num_tokens": 4032464.0,
      "step": 247
    },
    {
      "entropy": 0.5414686352014542,
      "epoch": 0.9279700654817586,
      "grad_norm": 0.037102047353982925,
      "learning_rate": 0.0002,
      "loss": 0.5545523762702942,
      "mean_token_accuracy": 0.775322362780571,
      "num_tokens": 4048853.0,
      "step": 248
    },
    {
      "entropy": 0.5506337434053421,
      "epoch": 0.9317118802619271,
      "grad_norm": 0.03612777963280678,
      "learning_rate": 0.0002,
      "loss": 0.5673890709877014,
      "mean_token_accuracy": 0.7688823938369751,
      "num_tokens": 4065031.0,
      "step": 249
    },
    {
      "entropy": 0.542187824845314,
      "epoch": 0.9354536950420954,
      "grad_norm": 0.031235933303833008,
      "learning_rate": 0.0002,
      "loss": 0.5464475750923157,
      "mean_token_accuracy": 0.7789596170186996,
      "num_tokens": 4081635.0,
      "step": 250
    },
    {
      "entropy": 0.5568290203809738,
      "epoch": 0.9391955098222639,
      "grad_norm": 0.027413224801421165,
      "learning_rate": 0.0002,
      "loss": 0.5562602877616882,
      "mean_token_accuracy": 0.7737423926591873,
      "num_tokens": 4098011.0,
      "step": 251
    },
    {
      "entropy": 0.558889165520668,
      "epoch": 0.9429373246024322,
      "grad_norm": 0.029295574873685837,
      "learning_rate": 0.0002,
      "loss": 0.5547473430633545,
      "mean_token_accuracy": 0.7740904539823532,
      "num_tokens": 4114268.0,
      "step": 252
    },
    {
      "entropy": 0.5764719247817993,
      "epoch": 0.9466791393826005,
      "grad_norm": 0.03225071728229523,
      "learning_rate": 0.0002,
      "loss": 0.5729030966758728,
      "mean_token_accuracy": 0.7659229934215546,
      "num_tokens": 4130552.0,
      "step": 253
    },
    {
      "entropy": 0.5606585443019867,
      "epoch": 0.950420954162769,
      "grad_norm": 0.02834608033299446,
      "learning_rate": 0.0002,
      "loss": 0.5623061656951904,
      "mean_token_accuracy": 0.7708321511745453,
      "num_tokens": 4146844.0,
      "step": 254
    },
    {
      "entropy": 0.5444774627685547,
      "epoch": 0.9541627689429373,
      "grad_norm": 0.03255439177155495,
      "learning_rate": 0.0002,
      "loss": 0.5524637699127197,
      "mean_token_accuracy": 0.7744161784648895,
      "num_tokens": 4163084.0,
      "step": 255
    },
    {
      "entropy": 0.5229519456624985,
      "epoch": 0.9579045837231057,
      "grad_norm": 0.027845216915011406,
      "learning_rate": 0.0002,
      "loss": 0.5284432768821716,
      "mean_token_accuracy": 0.785067692399025,
      "num_tokens": 4179192.0,
      "step": 256
    },
    {
      "entropy": 0.5287301391363144,
      "epoch": 0.961646398503274,
      "grad_norm": 0.03511723130941391,
      "learning_rate": 0.0002,
      "loss": 0.5364463329315186,
      "mean_token_accuracy": 0.7782928943634033,
      "num_tokens": 4195604.0,
      "step": 257
    },
    {
      "entropy": 0.5621770173311234,
      "epoch": 0.9653882132834425,
      "grad_norm": 0.02962673269212246,
      "learning_rate": 0.0002,
      "loss": 0.5591749548912048,
      "mean_token_accuracy": 0.7710652500391006,
      "num_tokens": 4211743.0,
      "step": 258
    },
    {
      "entropy": 0.5636511147022247,
      "epoch": 0.9691300280636108,
      "grad_norm": 0.04087170958518982,
      "learning_rate": 0.0002,
      "loss": 0.5626160502433777,
      "mean_token_accuracy": 0.771452471613884,
      "num_tokens": 4228198.0,
      "step": 259
    },
    {
      "entropy": 0.5522175580263138,
      "epoch": 0.9728718428437793,
      "grad_norm": 0.029492903500795364,
      "learning_rate": 0.0002,
      "loss": 0.5516583323478699,
      "mean_token_accuracy": 0.7742890268564224,
      "num_tokens": 4244501.0,
      "step": 260
    },
    {
      "entropy": 0.5577979236841202,
      "epoch": 0.9766136576239476,
      "grad_norm": 0.02768765017390251,
      "learning_rate": 0.0002,
      "loss": 0.5573770403862,
      "mean_token_accuracy": 0.7728449106216431,
      "num_tokens": 4260800.0,
      "step": 261
    },
    {
      "entropy": 0.5833724588155746,
      "epoch": 0.980355472404116,
      "grad_norm": 0.030149318277835846,
      "learning_rate": 0.0002,
      "loss": 0.5790048837661743,
      "mean_token_accuracy": 0.7645868510007858,
      "num_tokens": 4277242.0,
      "step": 262
    },
    {
      "entropy": 0.5686817467212677,
      "epoch": 0.9840972871842844,
      "grad_norm": 0.03200973942875862,
      "learning_rate": 0.0002,
      "loss": 0.5704789161682129,
      "mean_token_accuracy": 0.7688680738210678,
      "num_tokens": 4293490.0,
      "step": 263
    },
    {
      "entropy": 0.5522599965333939,
      "epoch": 0.9878391019644528,
      "grad_norm": 0.02735111489892006,
      "learning_rate": 0.0002,
      "loss": 0.5483981370925903,
      "mean_token_accuracy": 0.7776431888341904,
      "num_tokens": 4309713.0,
      "step": 264
    },
    {
      "entropy": 0.5510786324739456,
      "epoch": 0.9915809167446211,
      "grad_norm": 0.027222398668527603,
      "learning_rate": 0.0002,
      "loss": 0.5519858598709106,
      "mean_token_accuracy": 0.7740090191364288,
      "num_tokens": 4325978.0,
      "step": 265
    },
    {
      "entropy": 0.5590775907039642,
      "epoch": 0.9953227315247896,
      "grad_norm": 0.030459199100732803,
      "learning_rate": 0.0002,
      "loss": 0.5638831853866577,
      "mean_token_accuracy": 0.7691285163164139,
      "num_tokens": 4342145.0,
      "step": 266
    },
    {
      "entropy": 0.5396278500556946,
      "epoch": 0.9990645463049579,
      "grad_norm": 0.029775220900774002,
      "learning_rate": 0.0002,
      "loss": 0.551082968711853,
      "mean_token_accuracy": 0.777344822883606,
      "num_tokens": 4358366.0,
      "step": 267
    },
    {
      "entropy": 0.5386617183685303,
      "epoch": 1.0,
      "grad_norm": 0.05107063427567482,
      "learning_rate": 0.0002,
      "loss": 0.56319260597229,
      "mean_token_accuracy": 0.7758007049560547,
      "num_tokens": 4359498.0,
      "step": 268
    },
    {
      "entropy": 0.5456036031246185,
      "epoch": 1.0037418147801684,
      "grad_norm": 0.034975565969944,
      "learning_rate": 0.0002,
      "loss": 0.5444031953811646,
      "mean_token_accuracy": 0.7782553881406784,
      "num_tokens": 4375874.0,
      "step": 269
    },
    {
      "entropy": 0.554328516125679,
      "epoch": 1.0074836295603367,
      "grad_norm": 0.030762778595089912,
      "learning_rate": 0.0002,
      "loss": 0.5493590235710144,
      "mean_token_accuracy": 0.7769091576337814,
      "num_tokens": 4392309.0,
      "step": 270
    },
    {
      "entropy": 0.544586181640625,
      "epoch": 1.011225444340505,
      "grad_norm": 0.027982227504253387,
      "learning_rate": 0.0002,
      "loss": 0.5366782546043396,
      "mean_token_accuracy": 0.7823053598403931,
      "num_tokens": 4408365.0,
      "step": 271
    },
    {
      "entropy": 0.5558233559131622,
      "epoch": 1.0149672591206735,
      "grad_norm": 0.029144754633307457,
      "learning_rate": 0.0002,
      "loss": 0.5538930296897888,
      "mean_token_accuracy": 0.7747932523488998,
      "num_tokens": 4424690.0,
      "step": 272
    },
    {
      "entropy": 0.5521434098482132,
      "epoch": 1.018709073900842,
      "grad_norm": 0.031630512326955795,
      "learning_rate": 0.0002,
      "loss": 0.5583912134170532,
      "mean_token_accuracy": 0.773905873298645,
      "num_tokens": 4441085.0,
      "step": 273
    },
    {
      "entropy": 0.5409824252128601,
      "epoch": 1.0224508886810102,
      "grad_norm": 0.03298581764101982,
      "learning_rate": 0.0002,
      "loss": 0.5436674356460571,
      "mean_token_accuracy": 0.7784581035375595,
      "num_tokens": 4457337.0,
      "step": 274
    },
    {
      "entropy": 0.5269698351621628,
      "epoch": 1.0261927034611786,
      "grad_norm": 0.03633208945393562,
      "learning_rate": 0.0002,
      "loss": 0.530029833316803,
      "mean_token_accuracy": 0.786719799041748,
      "num_tokens": 4473532.0,
      "step": 275
    },
    {
      "entropy": 0.572344645857811,
      "epoch": 1.029934518241347,
      "grad_norm": 0.03007793240249157,
      "learning_rate": 0.0002,
      "loss": 0.5664374828338623,
      "mean_token_accuracy": 0.768335297703743,
      "num_tokens": 4489887.0,
      "step": 276
    },
    {
      "entropy": 0.5445250272750854,
      "epoch": 1.0336763330215155,
      "grad_norm": 0.027243314310908318,
      "learning_rate": 0.0002,
      "loss": 0.5401641726493835,
      "mean_token_accuracy": 0.7808064818382263,
      "num_tokens": 4505862.0,
      "step": 277
    },
    {
      "entropy": 0.5509742796421051,
      "epoch": 1.0374181478016837,
      "grad_norm": 0.032545655965805054,
      "learning_rate": 0.0002,
      "loss": 0.5521466732025146,
      "mean_token_accuracy": 0.7762803286314011,
      "num_tokens": 4522135.0,
      "step": 278
    },
    {
      "entropy": 0.5502415001392365,
      "epoch": 1.0411599625818522,
      "grad_norm": 0.030756743624806404,
      "learning_rate": 0.0002,
      "loss": 0.5506622195243835,
      "mean_token_accuracy": 0.7758103907108307,
      "num_tokens": 4538594.0,
      "step": 279
    },
    {
      "entropy": 0.5414353311061859,
      "epoch": 1.0449017773620206,
      "grad_norm": 0.030841531231999397,
      "learning_rate": 0.0002,
      "loss": 0.5470583438873291,
      "mean_token_accuracy": 0.7776292413473129,
      "num_tokens": 4555119.0,
      "step": 280
    },
    {
      "entropy": 0.5487425029277802,
      "epoch": 1.048643592142189,
      "grad_norm": 0.03335481509566307,
      "learning_rate": 0.0002,
      "loss": 0.5511153936386108,
      "mean_token_accuracy": 0.7753961086273193,
      "num_tokens": 4571676.0,
      "step": 281
    },
    {
      "entropy": 0.5364932715892792,
      "epoch": 1.0523854069223573,
      "grad_norm": 0.03433723747730255,
      "learning_rate": 0.0002,
      "loss": 0.5388063788414001,
      "mean_token_accuracy": 0.7791535705327988,
      "num_tokens": 4587803.0,
      "step": 282
    },
    {
      "entropy": 0.5218682438135147,
      "epoch": 1.0561272217025257,
      "grad_norm": 0.03049764409661293,
      "learning_rate": 0.0002,
      "loss": 0.5254226922988892,
      "mean_token_accuracy": 0.7847179919481277,
      "num_tokens": 4603856.0,
      "step": 283
    },
    {
      "entropy": 0.5384526699781418,
      "epoch": 1.0598690364826941,
      "grad_norm": 0.02954094670712948,
      "learning_rate": 0.0002,
      "loss": 0.5442904829978943,
      "mean_token_accuracy": 0.7810987532138824,
      "num_tokens": 4619957.0,
      "step": 284
    },
    {
      "entropy": 0.5648271888494492,
      "epoch": 1.0636108512628626,
      "grad_norm": 0.029273223131895065,
      "learning_rate": 0.0002,
      "loss": 0.565851628780365,
      "mean_token_accuracy": 0.7694031447172165,
      "num_tokens": 4636366.0,
      "step": 285
    },
    {
      "entropy": 0.5445346832275391,
      "epoch": 1.0673526660430308,
      "grad_norm": 0.04154031351208687,
      "learning_rate": 0.0002,
      "loss": 0.5437869429588318,
      "mean_token_accuracy": 0.7786456942558289,
      "num_tokens": 4652409.0,
      "step": 286
    },
    {
      "entropy": 0.5666444450616837,
      "epoch": 1.0710944808231992,
      "grad_norm": 0.027274858206510544,
      "learning_rate": 0.0002,
      "loss": 0.5619191527366638,
      "mean_token_accuracy": 0.7713726609945297,
      "num_tokens": 4668805.0,
      "step": 287
    },
    {
      "entropy": 0.5560373812913895,
      "epoch": 1.0748362956033677,
      "grad_norm": 0.03042946569621563,
      "learning_rate": 0.0002,
      "loss": 0.5536933541297913,
      "mean_token_accuracy": 0.7707109302282333,
      "num_tokens": 4685281.0,
      "step": 288
    },
    {
      "entropy": 0.5522497296333313,
      "epoch": 1.078578110383536,
      "grad_norm": 0.026407577097415924,
      "learning_rate": 0.0002,
      "loss": 0.554541826248169,
      "mean_token_accuracy": 0.7723578214645386,
      "num_tokens": 4701429.0,
      "step": 289
    },
    {
      "entropy": 0.5493666082620621,
      "epoch": 1.0823199251637043,
      "grad_norm": 0.03922448307275772,
      "learning_rate": 0.0002,
      "loss": 0.5535799860954285,
      "mean_token_accuracy": 0.7752141654491425,
      "num_tokens": 4717787.0,
      "step": 290
    },
    {
      "entropy": 0.5579231083393097,
      "epoch": 1.0860617399438728,
      "grad_norm": 0.029233764857053757,
      "learning_rate": 0.0002,
      "loss": 0.5569900274276733,
      "mean_token_accuracy": 0.7733462601900101,
      "num_tokens": 4734144.0,
      "step": 291
    },
    {
      "entropy": 0.544972226023674,
      "epoch": 1.0898035547240412,
      "grad_norm": 0.030961396172642708,
      "learning_rate": 0.0002,
      "loss": 0.5413874983787537,
      "mean_token_accuracy": 0.7801695913076401,
      "num_tokens": 4750509.0,
      "step": 292
    },
    {
      "entropy": 0.550209566950798,
      "epoch": 1.0935453695042094,
      "grad_norm": 0.03252837061882019,
      "learning_rate": 0.0002,
      "loss": 0.5514767169952393,
      "mean_token_accuracy": 0.7740490287542343,
      "num_tokens": 4766708.0,
      "step": 293
    },
    {
      "entropy": 0.545928418636322,
      "epoch": 1.0972871842843779,
      "grad_norm": 0.02844078466296196,
      "learning_rate": 0.0002,
      "loss": 0.5454370975494385,
      "mean_token_accuracy": 0.7802854478359222,
      "num_tokens": 4783110.0,
      "step": 294
    },
    {
      "entropy": 0.550410658121109,
      "epoch": 1.1010289990645463,
      "grad_norm": 0.0395023413002491,
      "learning_rate": 0.0002,
      "loss": 0.5610683560371399,
      "mean_token_accuracy": 0.7725012004375458,
      "num_tokens": 4799492.0,
      "step": 295
    },
    {
      "entropy": 0.5291745737195015,
      "epoch": 1.1047708138447148,
      "grad_norm": 0.028669750317931175,
      "learning_rate": 0.0002,
      "loss": 0.5332962274551392,
      "mean_token_accuracy": 0.7820043116807938,
      "num_tokens": 4815864.0,
      "step": 296
    },
    {
      "entropy": 0.5454689562320709,
      "epoch": 1.108512628624883,
      "grad_norm": 0.02827887050807476,
      "learning_rate": 0.0002,
      "loss": 0.5511517524719238,
      "mean_token_accuracy": 0.7747574001550674,
      "num_tokens": 4832267.0,
      "step": 297
    },
    {
      "entropy": 0.5417342334985733,
      "epoch": 1.1122544434050514,
      "grad_norm": 0.026385854929685593,
      "learning_rate": 0.0002,
      "loss": 0.5412203669548035,
      "mean_token_accuracy": 0.780335083603859,
      "num_tokens": 4848653.0,
      "step": 298
    },
    {
      "entropy": 0.5629215389490128,
      "epoch": 1.1159962581852199,
      "grad_norm": 0.030779633671045303,
      "learning_rate": 0.0002,
      "loss": 0.5625781416893005,
      "mean_token_accuracy": 0.7703746110200882,
      "num_tokens": 4865192.0,
      "step": 299
    },
    {
      "entropy": 0.5278398767113686,
      "epoch": 1.1197380729653883,
      "grad_norm": 0.02865917608141899,
      "learning_rate": 0.0002,
      "loss": 0.5246303081512451,
      "mean_token_accuracy": 0.7881903648376465,
      "num_tokens": 4881315.0,
      "step": 300
    },
    {
      "entropy": 0.5360843688249588,
      "epoch": 1.1234798877455565,
      "grad_norm": 0.02863423153758049,
      "learning_rate": 0.0002,
      "loss": 0.5405621528625488,
      "mean_token_accuracy": 0.7765359878540039,
      "num_tokens": 4897572.0,
      "step": 301
    },
    {
      "entropy": 0.5270702391862869,
      "epoch": 1.127221702525725,
      "grad_norm": 0.027807647362351418,
      "learning_rate": 0.0002,
      "loss": 0.5271122455596924,
      "mean_token_accuracy": 0.7830122262239456,
      "num_tokens": 4913718.0,
      "step": 302
    },
    {
      "entropy": 0.5291232466697693,
      "epoch": 1.1309635173058934,
      "grad_norm": 0.03156433254480362,
      "learning_rate": 0.0002,
      "loss": 0.5328850746154785,
      "mean_token_accuracy": 0.7853387147188187,
      "num_tokens": 4930253.0,
      "step": 303
    },
    {
      "entropy": 0.5468447655439377,
      "epoch": 1.1347053320860618,
      "grad_norm": 0.033552881330251694,
      "learning_rate": 0.0002,
      "loss": 0.5545834898948669,
      "mean_token_accuracy": 0.7716294378042221,
      "num_tokens": 4946382.0,
      "step": 304
    },
    {
      "entropy": 0.5517953187227249,
      "epoch": 1.13844714686623,
      "grad_norm": 0.030561944469809532,
      "learning_rate": 0.0002,
      "loss": 0.5540879964828491,
      "mean_token_accuracy": 0.7759448438882828,
      "num_tokens": 4962652.0,
      "step": 305
    },
    {
      "entropy": 0.544833779335022,
      "epoch": 1.1421889616463985,
      "grad_norm": 0.030571507290005684,
      "learning_rate": 0.0002,
      "loss": 0.5443115234375,
      "mean_token_accuracy": 0.7782190293073654,
      "num_tokens": 4978959.0,
      "step": 306
    },
    {
      "entropy": 0.5475269705057144,
      "epoch": 1.145930776426567,
      "grad_norm": 0.0296931229531765,
      "learning_rate": 0.0002,
      "loss": 0.541431188583374,
      "mean_token_accuracy": 0.7753712236881256,
      "num_tokens": 4995357.0,
      "step": 307
    },
    {
      "entropy": 0.5446912348270416,
      "epoch": 1.1496725912067354,
      "grad_norm": 0.025116927921772003,
      "learning_rate": 0.0002,
      "loss": 0.5437968373298645,
      "mean_token_accuracy": 0.7787619084119797,
      "num_tokens": 5011590.0,
      "step": 308
    },
    {
      "entropy": 0.5292570069432259,
      "epoch": 1.1534144059869036,
      "grad_norm": 0.027315491810441017,
      "learning_rate": 0.0002,
      "loss": 0.5277875065803528,
      "mean_token_accuracy": 0.7833113670349121,
      "num_tokens": 5027873.0,
      "step": 309
    },
    {
      "entropy": 0.5242628306150436,
      "epoch": 1.157156220767072,
      "grad_norm": 0.027830073609948158,
      "learning_rate": 0.0002,
      "loss": 0.523070752620697,
      "mean_token_accuracy": 0.7879849672317505,
      "num_tokens": 5044361.0,
      "step": 310
    },
    {
      "entropy": 0.536102682352066,
      "epoch": 1.1608980355472405,
      "grad_norm": 0.031033379957079887,
      "learning_rate": 0.0002,
      "loss": 0.5378351211547852,
      "mean_token_accuracy": 0.7815344035625458,
      "num_tokens": 5060644.0,
      "step": 311
    },
    {
      "entropy": 0.5573316812515259,
      "epoch": 1.1646398503274087,
      "grad_norm": 0.03297853097319603,
      "learning_rate": 0.0002,
      "loss": 0.5643618106842041,
      "mean_token_accuracy": 0.7715043723583221,
      "num_tokens": 5077003.0,
      "step": 312
    },
    {
      "entropy": 0.526486948132515,
      "epoch": 1.1683816651075771,
      "grad_norm": 0.029532574117183685,
      "learning_rate": 0.0002,
      "loss": 0.5367429256439209,
      "mean_token_accuracy": 0.7818453460931778,
      "num_tokens": 5093120.0,
      "step": 313
    },
    {
      "entropy": 0.545007973909378,
      "epoch": 1.1721234798877456,
      "grad_norm": 0.0302292387932539,
      "learning_rate": 0.0002,
      "loss": 0.5474991798400879,
      "mean_token_accuracy": 0.7770297825336456,
      "num_tokens": 5109333.0,
      "step": 314
    },
    {
      "entropy": 0.5457079261541367,
      "epoch": 1.175865294667914,
      "grad_norm": 0.03628959506750107,
      "learning_rate": 0.0002,
      "loss": 0.5456429719924927,
      "mean_token_accuracy": 0.779505044221878,
      "num_tokens": 5125459.0,
      "step": 315
    },
    {
      "entropy": 0.5526050478219986,
      "epoch": 1.1796071094480822,
      "grad_norm": 0.031634826213121414,
      "learning_rate": 0.0002,
      "loss": 0.5504459738731384,
      "mean_token_accuracy": 0.7756629437208176,
      "num_tokens": 5141755.0,
      "step": 316
    },
    {
      "entropy": 0.5621381402015686,
      "epoch": 1.1833489242282507,
      "grad_norm": 0.02932395227253437,
      "learning_rate": 0.0002,
      "loss": 0.5631870627403259,
      "mean_token_accuracy": 0.767949178814888,
      "num_tokens": 5158305.0,
      "step": 317
    },
    {
      "entropy": 0.5412058234214783,
      "epoch": 1.187090739008419,
      "grad_norm": 0.03077547252178192,
      "learning_rate": 0.0002,
      "loss": 0.5441724061965942,
      "mean_token_accuracy": 0.7769438326358795,
      "num_tokens": 5174825.0,
      "step": 318
    },
    {
      "entropy": 0.5375640690326691,
      "epoch": 1.1908325537885875,
      "grad_norm": 0.0300463754683733,
      "learning_rate": 0.0002,
      "loss": 0.5393084287643433,
      "mean_token_accuracy": 0.782392755150795,
      "num_tokens": 5190829.0,
      "step": 319
    },
    {
      "entropy": 0.5544911473989487,
      "epoch": 1.1945743685687558,
      "grad_norm": 0.03089406155049801,
      "learning_rate": 0.0002,
      "loss": 0.5512977838516235,
      "mean_token_accuracy": 0.7745725959539413,
      "num_tokens": 5207283.0,
      "step": 320
    },
    {
      "entropy": 0.5496610552072525,
      "epoch": 1.1983161833489242,
      "grad_norm": 0.03022005409002304,
      "learning_rate": 0.0002,
      "loss": 0.5407426357269287,
      "mean_token_accuracy": 0.7819069474935532,
      "num_tokens": 5223759.0,
      "step": 321
    },
    {
      "entropy": 0.5536633729934692,
      "epoch": 1.2020579981290926,
      "grad_norm": 0.03297387808561325,
      "learning_rate": 0.0002,
      "loss": 0.5543879866600037,
      "mean_token_accuracy": 0.7727649062871933,
      "num_tokens": 5240096.0,
      "step": 322
    },
    {
      "entropy": 0.5441806763410568,
      "epoch": 1.205799812909261,
      "grad_norm": 0.029116200283169746,
      "learning_rate": 0.0002,
      "loss": 0.5444720387458801,
      "mean_token_accuracy": 0.7814431339502335,
      "num_tokens": 5256670.0,
      "step": 323
    },
    {
      "entropy": 0.5429923981428146,
      "epoch": 1.2095416276894293,
      "grad_norm": 0.03505397588014603,
      "learning_rate": 0.0002,
      "loss": 0.5506747961044312,
      "mean_token_accuracy": 0.7763912379741669,
      "num_tokens": 5272766.0,
      "step": 324
    },
    {
      "entropy": 0.5270697474479675,
      "epoch": 1.2132834424695977,
      "grad_norm": 0.039405617862939835,
      "learning_rate": 0.0002,
      "loss": 0.5409681797027588,
      "mean_token_accuracy": 0.7786189615726471,
      "num_tokens": 5289123.0,
      "step": 325
    },
    {
      "entropy": 0.558641791343689,
      "epoch": 1.2170252572497662,
      "grad_norm": 0.029413288459181786,
      "learning_rate": 0.0002,
      "loss": 0.5564137697219849,
      "mean_token_accuracy": 0.7740890085697174,
      "num_tokens": 5305503.0,
      "step": 326
    },
    {
      "entropy": 0.5550449192523956,
      "epoch": 1.2207670720299344,
      "grad_norm": 0.031028373166918755,
      "learning_rate": 0.0002,
      "loss": 0.5544853210449219,
      "mean_token_accuracy": 0.7716324329376221,
      "num_tokens": 5321885.0,
      "step": 327
    },
    {
      "entropy": 0.5564998090267181,
      "epoch": 1.2245088868101028,
      "grad_norm": 0.034970104694366455,
      "learning_rate": 0.0002,
      "loss": 0.5547239184379578,
      "mean_token_accuracy": 0.7719462513923645,
      "num_tokens": 5338376.0,
      "step": 328
    },
    {
      "entropy": 0.5593426823616028,
      "epoch": 1.2282507015902713,
      "grad_norm": 0.030654314905405045,
      "learning_rate": 0.0002,
      "loss": 0.5594889521598816,
      "mean_token_accuracy": 0.7690505534410477,
      "num_tokens": 5354745.0,
      "step": 329
    },
    {
      "entropy": 0.5594028532505035,
      "epoch": 1.2319925163704397,
      "grad_norm": 0.02985675260424614,
      "learning_rate": 0.0002,
      "loss": 0.560926079750061,
      "mean_token_accuracy": 0.771067887544632,
      "num_tokens": 5371364.0,
      "step": 330
    },
    {
      "entropy": 0.5444284975528717,
      "epoch": 1.2357343311506082,
      "grad_norm": 0.0331130288541317,
      "learning_rate": 0.0002,
      "loss": 0.5528807044029236,
      "mean_token_accuracy": 0.7744182050228119,
      "num_tokens": 5387884.0,
      "step": 331
    },
    {
      "entropy": 0.5535553693771362,
      "epoch": 1.2394761459307764,
      "grad_norm": 0.035860270261764526,
      "learning_rate": 0.0002,
      "loss": 0.5612154603004456,
      "mean_token_accuracy": 0.7728609591722488,
      "num_tokens": 5404143.0,
      "step": 332
    },
    {
      "entropy": 0.5594320446252823,
      "epoch": 1.2432179607109448,
      "grad_norm": 0.030857175588607788,
      "learning_rate": 0.0002,
      "loss": 0.5495461225509644,
      "mean_token_accuracy": 0.7783895283937454,
      "num_tokens": 5420613.0,
      "step": 333
    },
    {
      "entropy": 0.5738644152879715,
      "epoch": 1.2469597754911133,
      "grad_norm": 0.02752659097313881,
      "learning_rate": 0.0002,
      "loss": 0.5670571327209473,
      "mean_token_accuracy": 0.7706948518753052,
      "num_tokens": 5437025.0,
      "step": 334
    },
    {
      "entropy": 0.5468066483736038,
      "epoch": 1.2507015902712815,
      "grad_norm": 0.030105959624052048,
      "learning_rate": 0.0002,
      "loss": 0.5448632836341858,
      "mean_token_accuracy": 0.7777069211006165,
      "num_tokens": 5453431.0,
      "step": 335
    },
    {
      "entropy": 0.5508809983730316,
      "epoch": 1.25444340505145,
      "grad_norm": 0.031137077137827873,
      "learning_rate": 0.0002,
      "loss": 0.5581130981445312,
      "mean_token_accuracy": 0.7730289697647095,
      "num_tokens": 5469727.0,
      "step": 336
    },
    {
      "entropy": 0.5199557095766068,
      "epoch": 1.2581852198316184,
      "grad_norm": 0.033218562602996826,
      "learning_rate": 0.0002,
      "loss": 0.5353677272796631,
      "mean_token_accuracy": 0.7836348563432693,
      "num_tokens": 5485615.0,
      "step": 337
    },
    {
      "entropy": 0.5402327626943588,
      "epoch": 1.2619270346117868,
      "grad_norm": 0.02909061312675476,
      "learning_rate": 0.0002,
      "loss": 0.5445257425308228,
      "mean_token_accuracy": 0.7775768637657166,
      "num_tokens": 5501846.0,
      "step": 338
    },
    {
      "entropy": 0.5657909214496613,
      "epoch": 1.2656688493919552,
      "grad_norm": 0.03052118793129921,
      "learning_rate": 0.0002,
      "loss": 0.5672930479049683,
      "mean_token_accuracy": 0.7675611525774002,
      "num_tokens": 5518365.0,
      "step": 339
    },
    {
      "entropy": 0.5483649671077728,
      "epoch": 1.2694106641721234,
      "grad_norm": 0.02786743827164173,
      "learning_rate": 0.0002,
      "loss": 0.5456503033638,
      "mean_token_accuracy": 0.7791422605514526,
      "num_tokens": 5534639.0,
      "step": 340
    },
    {
      "entropy": 0.5500437468290329,
      "epoch": 1.2731524789522919,
      "grad_norm": 0.03155668452382088,
      "learning_rate": 0.0002,
      "loss": 0.545000433921814,
      "mean_token_accuracy": 0.7803118973970413,
      "num_tokens": 5551093.0,
      "step": 341
    },
    {
      "entropy": 0.5697951167821884,
      "epoch": 1.27689429373246,
      "grad_norm": 0.03075268305838108,
      "learning_rate": 0.0002,
      "loss": 0.5609626173973083,
      "mean_token_accuracy": 0.7723665684461594,
      "num_tokens": 5567707.0,
      "step": 342
    },
    {
      "entropy": 0.544351652264595,
      "epoch": 1.2806361085126285,
      "grad_norm": 0.03238390013575554,
      "learning_rate": 0.0002,
      "loss": 0.5533734560012817,
      "mean_token_accuracy": 0.7754608392715454,
      "num_tokens": 5584155.0,
      "step": 343
    },
    {
      "entropy": 0.5441059172153473,
      "epoch": 1.284377923292797,
      "grad_norm": 0.02793728932738304,
      "learning_rate": 0.0002,
      "loss": 0.5470475554466248,
      "mean_token_accuracy": 0.7781476378440857,
      "num_tokens": 5600585.0,
      "step": 344
    },
    {
      "entropy": 0.5576403886079788,
      "epoch": 1.2881197380729654,
      "grad_norm": 0.0332297645509243,
      "learning_rate": 0.0002,
      "loss": 0.5591012835502625,
      "mean_token_accuracy": 0.7717157751321793,
      "num_tokens": 5616865.0,
      "step": 345
    },
    {
      "entropy": 0.5582529455423355,
      "epoch": 1.2918615528531339,
      "grad_norm": 0.028861626982688904,
      "learning_rate": 0.0002,
      "loss": 0.5597870349884033,
      "mean_token_accuracy": 0.7722600847482681,
      "num_tokens": 5633131.0,
      "step": 346
    },
    {
      "entropy": 0.5537585616111755,
      "epoch": 1.295603367633302,
      "grad_norm": 0.027739623561501503,
      "learning_rate": 0.0002,
      "loss": 0.5517114996910095,
      "mean_token_accuracy": 0.7751765549182892,
      "num_tokens": 5649621.0,
      "step": 347
    },
    {
      "entropy": 0.5722759366035461,
      "epoch": 1.2993451824134705,
      "grad_norm": 0.029868733137845993,
      "learning_rate": 0.0002,
      "loss": 0.5697493553161621,
      "mean_token_accuracy": 0.769178032875061,
      "num_tokens": 5666058.0,
      "step": 348
    },
    {
      "entropy": 0.5482298284769058,
      "epoch": 1.303086997193639,
      "grad_norm": 0.02905650995671749,
      "learning_rate": 0.0002,
      "loss": 0.5505189895629883,
      "mean_token_accuracy": 0.7772009968757629,
      "num_tokens": 5682272.0,
      "step": 349
    },
    {
      "entropy": 0.5623439997434616,
      "epoch": 1.3068288119738072,
      "grad_norm": 0.028680406510829926,
      "learning_rate": 0.0002,
      "loss": 0.5615631937980652,
      "mean_token_accuracy": 0.7712025493383408,
      "num_tokens": 5698796.0,
      "step": 350
    },
    {
      "entropy": 0.5541074424982071,
      "epoch": 1.3105706267539756,
      "grad_norm": 0.03431180492043495,
      "learning_rate": 0.0002,
      "loss": 0.5617666244506836,
      "mean_token_accuracy": 0.7705400139093399,
      "num_tokens": 5714994.0,
      "step": 351
    },
    {
      "entropy": 0.5405305176973343,
      "epoch": 1.314312441534144,
      "grad_norm": 0.03283194825053215,
      "learning_rate": 0.0002,
      "loss": 0.538750946521759,
      "mean_token_accuracy": 0.7778624445199966,
      "num_tokens": 5731263.0,
      "step": 352
    },
    {
      "entropy": 0.5537361800670624,
      "epoch": 1.3180542563143125,
      "grad_norm": 0.03157467022538185,
      "learning_rate": 0.0002,
      "loss": 0.556831955909729,
      "mean_token_accuracy": 0.7720046639442444,
      "num_tokens": 5747576.0,
      "step": 353
    },
    {
      "entropy": 0.5540541112422943,
      "epoch": 1.321796071094481,
      "grad_norm": 0.03315872326493263,
      "learning_rate": 0.0002,
      "loss": 0.5560564398765564,
      "mean_token_accuracy": 0.7747179567813873,
      "num_tokens": 5763875.0,
      "step": 354
    },
    {
      "entropy": 0.5485205948352814,
      "epoch": 1.3255378858746492,
      "grad_norm": 0.029158933088183403,
      "learning_rate": 0.0002,
      "loss": 0.5474769473075867,
      "mean_token_accuracy": 0.7769359052181244,
      "num_tokens": 5780494.0,
      "step": 355
    },
    {
      "entropy": 0.5560560077428818,
      "epoch": 1.3292797006548176,
      "grad_norm": 0.03023948147892952,
      "learning_rate": 0.0002,
      "loss": 0.5578330159187317,
      "mean_token_accuracy": 0.7706339210271835,
      "num_tokens": 5796776.0,
      "step": 356
    },
    {
      "entropy": 0.5549474805593491,
      "epoch": 1.333021515434986,
      "grad_norm": 0.03123750351369381,
      "learning_rate": 0.0002,
      "loss": 0.5531733632087708,
      "mean_token_accuracy": 0.7738355994224548,
      "num_tokens": 5813225.0,
      "step": 357
    },
    {
      "entropy": 0.5446926355361938,
      "epoch": 1.3367633302151543,
      "grad_norm": 0.03854469954967499,
      "learning_rate": 0.0002,
      "loss": 0.5561398863792419,
      "mean_token_accuracy": 0.7719077616930008,
      "num_tokens": 5829411.0,
      "step": 358
    },
    {
      "entropy": 0.5601906925439835,
      "epoch": 1.3405051449953227,
      "grad_norm": 0.025615639984607697,
      "learning_rate": 0.0002,
      "loss": 0.5579116940498352,
      "mean_token_accuracy": 0.7725162506103516,
      "num_tokens": 5845753.0,
      "step": 359
    },
    {
      "entropy": 0.557614728808403,
      "epoch": 1.3442469597754911,
      "grad_norm": 0.026924598962068558,
      "learning_rate": 0.0002,
      "loss": 0.5500644445419312,
      "mean_token_accuracy": 0.7740714848041534,
      "num_tokens": 5861927.0,
      "step": 360
    },
    {
      "entropy": 0.5535576045513153,
      "epoch": 1.3479887745556596,
      "grad_norm": 0.031272657215595245,
      "learning_rate": 0.0002,
      "loss": 0.5418438911437988,
      "mean_token_accuracy": 0.780152902007103,
      "num_tokens": 5878289.0,
      "step": 361
    },
    {
      "entropy": 0.5407048761844635,
      "epoch": 1.351730589335828,
      "grad_norm": 0.031007423996925354,
      "learning_rate": 0.0002,
      "loss": 0.5493313670158386,
      "mean_token_accuracy": 0.7764623165130615,
      "num_tokens": 5894592.0,
      "step": 362
    },
    {
      "entropy": 0.5239751785993576,
      "epoch": 1.3554724041159962,
      "grad_norm": 0.03374086320400238,
      "learning_rate": 0.0002,
      "loss": 0.5344395041465759,
      "mean_token_accuracy": 0.7812817394733429,
      "num_tokens": 5910863.0,
      "step": 363
    },
    {
      "entropy": 0.5377437621355057,
      "epoch": 1.3592142188961647,
      "grad_norm": 0.04066803306341171,
      "learning_rate": 0.0002,
      "loss": 0.5502558946609497,
      "mean_token_accuracy": 0.7735230922698975,
      "num_tokens": 5927169.0,
      "step": 364
    },
    {
      "entropy": 0.5404135584831238,
      "epoch": 1.362956033676333,
      "grad_norm": 0.030103564262390137,
      "learning_rate": 0.0002,
      "loss": 0.5431765913963318,
      "mean_token_accuracy": 0.780334860086441,
      "num_tokens": 5943288.0,
      "step": 365
    },
    {
      "entropy": 0.5349705293774605,
      "epoch": 1.3666978484565013,
      "grad_norm": 0.031804051250219345,
      "learning_rate": 0.0002,
      "loss": 0.5298077464103699,
      "mean_token_accuracy": 0.7834766954183578,
      "num_tokens": 5959662.0,
      "step": 366
    },
    {
      "entropy": 0.5429814159870148,
      "epoch": 1.3704396632366698,
      "grad_norm": 0.04628051444888115,
      "learning_rate": 0.0002,
      "loss": 0.5361793041229248,
      "mean_token_accuracy": 0.7793655544519424,
      "num_tokens": 5976139.0,
      "step": 367
    },
    {
      "entropy": 0.5505317896604538,
      "epoch": 1.3741814780168382,
      "grad_norm": 0.03267182409763336,
      "learning_rate": 0.0002,
      "loss": 0.5444616675376892,
      "mean_token_accuracy": 0.7798040062189102,
      "num_tokens": 5992476.0,
      "step": 368
    },
    {
      "entropy": 0.5407690107822418,
      "epoch": 1.3779232927970066,
      "grad_norm": 0.0353633388876915,
      "learning_rate": 0.0002,
      "loss": 0.5501353740692139,
      "mean_token_accuracy": 0.7760691344738007,
      "num_tokens": 6008641.0,
      "step": 369
    },
    {
      "entropy": 0.5465443283319473,
      "epoch": 1.3816651075771749,
      "grad_norm": 0.044324446469545364,
      "learning_rate": 0.0002,
      "loss": 0.5564755201339722,
      "mean_token_accuracy": 0.775538980960846,
      "num_tokens": 6024769.0,
      "step": 370
    },
    {
      "entropy": 0.5609740614891052,
      "epoch": 1.3854069223573433,
      "grad_norm": 0.03593122959136963,
      "learning_rate": 0.0002,
      "loss": 0.5629419088363647,
      "mean_token_accuracy": 0.7691068351268768,
      "num_tokens": 6041060.0,
      "step": 371
    },
    {
      "entropy": 0.5421721637248993,
      "epoch": 1.3891487371375117,
      "grad_norm": 0.03346877172589302,
      "learning_rate": 0.0002,
      "loss": 0.5368991494178772,
      "mean_token_accuracy": 0.7809954136610031,
      "num_tokens": 6057328.0,
      "step": 372
    },
    {
      "entropy": 0.5421962440013885,
      "epoch": 1.39289055191768,
      "grad_norm": 0.036160413175821304,
      "learning_rate": 0.0002,
      "loss": 0.5371009111404419,
      "mean_token_accuracy": 0.7804526090621948,
      "num_tokens": 6073633.0,
      "step": 373
    },
    {
      "entropy": 0.5545593798160553,
      "epoch": 1.3966323666978484,
      "grad_norm": 0.03285996615886688,
      "learning_rate": 0.0002,
      "loss": 0.5528316497802734,
      "mean_token_accuracy": 0.7778345346450806,
      "num_tokens": 6090142.0,
      "step": 374
    },
    {
      "entropy": 0.5461311042308807,
      "epoch": 1.4003741814780168,
      "grad_norm": 0.03481744974851608,
      "learning_rate": 0.0002,
      "loss": 0.5470185279846191,
      "mean_token_accuracy": 0.7769876271486282,
      "num_tokens": 6106491.0,
      "step": 375
    },
    {
      "entropy": 0.5363553166389465,
      "epoch": 1.4041159962581853,
      "grad_norm": 0.029494671151041985,
      "learning_rate": 0.0002,
      "loss": 0.5371567010879517,
      "mean_token_accuracy": 0.78060382604599,
      "num_tokens": 6122724.0,
      "step": 376
    },
    {
      "entropy": 0.5401545614004135,
      "epoch": 1.4078578110383537,
      "grad_norm": 0.030447613447904587,
      "learning_rate": 0.0002,
      "loss": 0.5506365299224854,
      "mean_token_accuracy": 0.7772665321826935,
      "num_tokens": 6139127.0,
      "step": 377
    },
    {
      "entropy": 0.5432114005088806,
      "epoch": 1.411599625818522,
      "grad_norm": 0.03443232551217079,
      "learning_rate": 0.0002,
      "loss": 0.5483974814414978,
      "mean_token_accuracy": 0.7753057479858398,
      "num_tokens": 6155228.0,
      "step": 378
    },
    {
      "entropy": 0.5419820547103882,
      "epoch": 1.4153414405986904,
      "grad_norm": 0.030418474227190018,
      "learning_rate": 0.0002,
      "loss": 0.5432078838348389,
      "mean_token_accuracy": 0.7786633670330048,
      "num_tokens": 6171661.0,
      "step": 379
    },
    {
      "entropy": 0.5554294884204865,
      "epoch": 1.4190832553788588,
      "grad_norm": 0.028558963909745216,
      "learning_rate": 0.0002,
      "loss": 0.5531105995178223,
      "mean_token_accuracy": 0.7719776481389999,
      "num_tokens": 6187948.0,
      "step": 380
    },
    {
      "entropy": 0.5308730006217957,
      "epoch": 1.422825070159027,
      "grad_norm": 0.03490149602293968,
      "learning_rate": 0.0002,
      "loss": 0.5338871479034424,
      "mean_token_accuracy": 0.7831013798713684,
      "num_tokens": 6203996.0,
      "step": 381
    },
    {
      "entropy": 0.5621105879545212,
      "epoch": 1.4265668849391955,
      "grad_norm": 0.03489487245678902,
      "learning_rate": 0.0002,
      "loss": 0.5650954246520996,
      "mean_token_accuracy": 0.7674195319414139,
      "num_tokens": 6220346.0,
      "step": 382
    },
    {
      "entropy": 0.5624908655881882,
      "epoch": 1.430308699719364,
      "grad_norm": 0.02940392680466175,
      "learning_rate": 0.0002,
      "loss": 0.5624366998672485,
      "mean_token_accuracy": 0.769148588180542,
      "num_tokens": 6236743.0,
      "step": 383
    },
    {
      "entropy": 0.5363715589046478,
      "epoch": 1.4340505144995324,
      "grad_norm": 0.028942115604877472,
      "learning_rate": 0.0002,
      "loss": 0.5339908599853516,
      "mean_token_accuracy": 0.7834934592247009,
      "num_tokens": 6252708.0,
      "step": 384
    },
    {
      "entropy": 0.5408411026000977,
      "epoch": 1.4377923292797006,
      "grad_norm": 0.0305769219994545,
      "learning_rate": 0.0002,
      "loss": 0.5352215766906738,
      "mean_token_accuracy": 0.7860714495182037,
      "num_tokens": 6268903.0,
      "step": 385
    },
    {
      "entropy": 0.5410628318786621,
      "epoch": 1.441534144059869,
      "grad_norm": 0.029285579919815063,
      "learning_rate": 0.0002,
      "loss": 0.5426855087280273,
      "mean_token_accuracy": 0.7768432199954987,
      "num_tokens": 6284894.0,
      "step": 386
    },
    {
      "entropy": 0.5362880975008011,
      "epoch": 1.4452759588400375,
      "grad_norm": 0.03178134933114052,
      "learning_rate": 0.0002,
      "loss": 0.5503253936767578,
      "mean_token_accuracy": 0.7759049534797668,
      "num_tokens": 6301216.0,
      "step": 387
    },
    {
      "entropy": 0.5453620404005051,
      "epoch": 1.4490177736202057,
      "grad_norm": 0.029615160077810287,
      "learning_rate": 0.0002,
      "loss": 0.5539615154266357,
      "mean_token_accuracy": 0.7736871391534805,
      "num_tokens": 6317584.0,
      "step": 388
    },
    {
      "entropy": 0.5552696138620377,
      "epoch": 1.4527595884003741,
      "grad_norm": 0.03214653581380844,
      "learning_rate": 0.0002,
      "loss": 0.5597580671310425,
      "mean_token_accuracy": 0.7707493901252747,
      "num_tokens": 6333884.0,
      "step": 389
    },
    {
      "entropy": 0.553122490644455,
      "epoch": 1.4565014031805426,
      "grad_norm": 0.029804600402712822,
      "learning_rate": 0.0002,
      "loss": 0.552976131439209,
      "mean_token_accuracy": 0.778336301445961,
      "num_tokens": 6350141.0,
      "step": 390
    },
    {
      "entropy": 0.5826992094516754,
      "epoch": 1.460243217960711,
      "grad_norm": 0.03438711538910866,
      "learning_rate": 0.0002,
      "loss": 0.5765487551689148,
      "mean_token_accuracy": 0.7643037289381027,
      "num_tokens": 6366374.0,
      "step": 391
    },
    {
      "entropy": 0.5606750249862671,
      "epoch": 1.4639850327408794,
      "grad_norm": 0.030389849096536636,
      "learning_rate": 0.0002,
      "loss": 0.5595695376396179,
      "mean_token_accuracy": 0.7718200087547302,
      "num_tokens": 6382848.0,
      "step": 392
    },
    {
      "entropy": 0.5619854032993317,
      "epoch": 1.4677268475210477,
      "grad_norm": 0.032461296766996384,
      "learning_rate": 0.0002,
      "loss": 0.5576058030128479,
      "mean_token_accuracy": 0.7746401876211166,
      "num_tokens": 6399173.0,
      "step": 393
    },
    {
      "entropy": 0.5408260822296143,
      "epoch": 1.471468662301216,
      "grad_norm": 0.03529435396194458,
      "learning_rate": 0.0002,
      "loss": 0.5456345081329346,
      "mean_token_accuracy": 0.7788489162921906,
      "num_tokens": 6415565.0,
      "step": 394
    },
    {
      "entropy": 0.5425965934991837,
      "epoch": 1.4752104770813845,
      "grad_norm": 0.03692852333188057,
      "learning_rate": 0.0002,
      "loss": 0.5488424301147461,
      "mean_token_accuracy": 0.7782263904809952,
      "num_tokens": 6431912.0,
      "step": 395
    },
    {
      "entropy": 0.5516340583562851,
      "epoch": 1.4789522918615527,
      "grad_norm": 0.031000891700387,
      "learning_rate": 0.0002,
      "loss": 0.5553445219993591,
      "mean_token_accuracy": 0.7752650529146194,
      "num_tokens": 6448548.0,
      "step": 396
    },
    {
      "entropy": 0.538574829697609,
      "epoch": 1.4826941066417212,
      "grad_norm": 0.030864855274558067,
      "learning_rate": 0.0002,
      "loss": 0.5368215441703796,
      "mean_token_accuracy": 0.7809993326663971,
      "num_tokens": 6465030.0,
      "step": 397
    },
    {
      "entropy": 0.5717963427305222,
      "epoch": 1.4864359214218896,
      "grad_norm": 0.033221229910850525,
      "learning_rate": 0.0002,
      "loss": 0.571186363697052,
      "mean_token_accuracy": 0.7653579860925674,
      "num_tokens": 6481528.0,
      "step": 398
    },
    {
      "entropy": 0.5418017208576202,
      "epoch": 1.490177736202058,
      "grad_norm": 0.04067196696996689,
      "learning_rate": 0.0002,
      "loss": 0.5442001223564148,
      "mean_token_accuracy": 0.7763307839632034,
      "num_tokens": 6497840.0,
      "step": 399
    },
    {
      "entropy": 0.5547621697187424,
      "epoch": 1.4939195509822265,
      "grad_norm": 0.03348267823457718,
      "learning_rate": 0.0002,
      "loss": 0.5626781582832336,
      "mean_token_accuracy": 0.7712242007255554,
      "num_tokens": 6514349.0,
      "step": 400
    },
    {
      "entropy": 0.5494479835033417,
      "epoch": 1.4976613657623947,
      "grad_norm": 0.03362090513110161,
      "learning_rate": 0.0002,
      "loss": 0.548977792263031,
      "mean_token_accuracy": 0.7767577767372131,
      "num_tokens": 6530749.0,
      "step": 401
    },
    {
      "entropy": 0.5626181960105896,
      "epoch": 1.5014031805425632,
      "grad_norm": 0.03137248754501343,
      "learning_rate": 0.0002,
      "loss": 0.5654096603393555,
      "mean_token_accuracy": 0.7723931819200516,
      "num_tokens": 6547276.0,
      "step": 402
    },
    {
      "entropy": 0.5499662905931473,
      "epoch": 1.5051449953227314,
      "grad_norm": 0.034359052777290344,
      "learning_rate": 0.0002,
      "loss": 0.5508401393890381,
      "mean_token_accuracy": 0.7756681442260742,
      "num_tokens": 6563580.0,
      "step": 403
    },
    {
      "entropy": 0.5658421665430069,
      "epoch": 1.5088868101028998,
      "grad_norm": 0.030933788046240807,
      "learning_rate": 0.0002,
      "loss": 0.5622308254241943,
      "mean_token_accuracy": 0.769567608833313,
      "num_tokens": 6579736.0,
      "step": 404
    },
    {
      "entropy": 0.547087088227272,
      "epoch": 1.5126286248830683,
      "grad_norm": 0.030160700902342796,
      "learning_rate": 0.0002,
      "loss": 0.5470564961433411,
      "mean_token_accuracy": 0.7781479358673096,
      "num_tokens": 6596131.0,
      "step": 405
    },
    {
      "entropy": 0.5563077032566071,
      "epoch": 1.5163704396632367,
      "grad_norm": 0.029513506218791008,
      "learning_rate": 0.0002,
      "loss": 0.5557488799095154,
      "mean_token_accuracy": 0.7776722609996796,
      "num_tokens": 6612499.0,
      "step": 406
    },
    {
      "entropy": 0.5473329573869705,
      "epoch": 1.5201122544434051,
      "grad_norm": 0.031187692657113075,
      "learning_rate": 0.0002,
      "loss": 0.5444590449333191,
      "mean_token_accuracy": 0.7770859450101852,
      "num_tokens": 6628905.0,
      "step": 407
    },
    {
      "entropy": 0.5493151396512985,
      "epoch": 1.5238540692235736,
      "grad_norm": 0.027274703606963158,
      "learning_rate": 0.0002,
      "loss": 0.5559489130973816,
      "mean_token_accuracy": 0.774099811911583,
      "num_tokens": 6645207.0,
      "step": 408
    },
    {
      "entropy": 0.5369315445423126,
      "epoch": 1.5275958840037418,
      "grad_norm": 0.03280489146709442,
      "learning_rate": 0.0002,
      "loss": 0.5494750738143921,
      "mean_token_accuracy": 0.7781352549791336,
      "num_tokens": 6661441.0,
      "step": 409
    },
    {
      "entropy": 0.543188214302063,
      "epoch": 1.5313376987839102,
      "grad_norm": 0.0317704938352108,
      "learning_rate": 0.0002,
      "loss": 0.548348069190979,
      "mean_token_accuracy": 0.7779366374015808,
      "num_tokens": 6677890.0,
      "step": 410
    },
    {
      "entropy": 0.5514375120401382,
      "epoch": 1.5350795135640785,
      "grad_norm": 0.02904539741575718,
      "learning_rate": 0.0002,
      "loss": 0.5532687902450562,
      "mean_token_accuracy": 0.776079460978508,
      "num_tokens": 6694229.0,
      "step": 411
    },
    {
      "entropy": 0.5228893607854843,
      "epoch": 1.538821328344247,
      "grad_norm": 0.027841076254844666,
      "learning_rate": 0.0002,
      "loss": 0.522330641746521,
      "mean_token_accuracy": 0.7864255011081696,
      "num_tokens": 6710250.0,
      "step": 412
    },
    {
      "entropy": 0.5390310734510422,
      "epoch": 1.5425631431244153,
      "grad_norm": 0.02716185338795185,
      "learning_rate": 0.0002,
      "loss": 0.5395499467849731,
      "mean_token_accuracy": 0.7826422601938248,
      "num_tokens": 6726768.0,
      "step": 413
    },
    {
      "entropy": 0.5508141964673996,
      "epoch": 1.5463049579045838,
      "grad_norm": 0.030815092846751213,
      "learning_rate": 0.0002,
      "loss": 0.5503819584846497,
      "mean_token_accuracy": 0.7755144089460373,
      "num_tokens": 6743055.0,
      "step": 414
    },
    {
      "entropy": 0.5312939435243607,
      "epoch": 1.5500467726847522,
      "grad_norm": 0.028637485578656197,
      "learning_rate": 0.0002,
      "loss": 0.5298642516136169,
      "mean_token_accuracy": 0.7852569371461868,
      "num_tokens": 6759442.0,
      "step": 415
    },
    {
      "entropy": 0.5471786260604858,
      "epoch": 1.5537885874649204,
      "grad_norm": 0.030604762956500053,
      "learning_rate": 0.0002,
      "loss": 0.5502840876579285,
      "mean_token_accuracy": 0.7758130580186844,
      "num_tokens": 6775919.0,
      "step": 416
    },
    {
      "entropy": 0.5734788477420807,
      "epoch": 1.5575304022450889,
      "grad_norm": 0.033530574291944504,
      "learning_rate": 0.0002,
      "loss": 0.573567807674408,
      "mean_token_accuracy": 0.7666918784379959,
      "num_tokens": 6792496.0,
      "step": 417
    },
    {
      "entropy": 0.5556947290897369,
      "epoch": 1.561272217025257,
      "grad_norm": 0.029095808044075966,
      "learning_rate": 0.0002,
      "loss": 0.5506360530853271,
      "mean_token_accuracy": 0.7765111029148102,
      "num_tokens": 6809055.0,
      "step": 418
    },
    {
      "entropy": 0.5287731885910034,
      "epoch": 1.5650140318054255,
      "grad_norm": 0.03587370365858078,
      "learning_rate": 0.0002,
      "loss": 0.5343160033226013,
      "mean_token_accuracy": 0.7836072146892548,
      "num_tokens": 6825353.0,
      "step": 419
    },
    {
      "entropy": 0.5342409163713455,
      "epoch": 1.568755846585594,
      "grad_norm": 0.03603408485651016,
      "learning_rate": 0.0002,
      "loss": 0.5409013628959656,
      "mean_token_accuracy": 0.7804750800132751,
      "num_tokens": 6841745.0,
      "step": 420
    },
    {
      "entropy": 0.5486701726913452,
      "epoch": 1.5724976613657624,
      "grad_norm": 0.02864743210375309,
      "learning_rate": 0.0002,
      "loss": 0.5528161525726318,
      "mean_token_accuracy": 0.7741836905479431,
      "num_tokens": 6857942.0,
      "step": 421
    },
    {
      "entropy": 0.5741837024688721,
      "epoch": 1.5762394761459309,
      "grad_norm": 0.0320119671523571,
      "learning_rate": 0.0002,
      "loss": 0.5608420372009277,
      "mean_token_accuracy": 0.7707283794879913,
      "num_tokens": 6874193.0,
      "step": 422
    },
    {
      "entropy": 0.5495482236146927,
      "epoch": 1.5799812909260993,
      "grad_norm": 0.02604423463344574,
      "learning_rate": 0.0002,
      "loss": 0.5479333400726318,
      "mean_token_accuracy": 0.7773087471723557,
      "num_tokens": 6890547.0,
      "step": 423
    },
    {
      "entropy": 0.5387884378433228,
      "epoch": 1.5837231057062675,
      "grad_norm": 0.03170885518193245,
      "learning_rate": 0.0002,
      "loss": 0.5462484359741211,
      "mean_token_accuracy": 0.7735171020030975,
      "num_tokens": 6906920.0,
      "step": 424
    },
    {
      "entropy": 0.539916068315506,
      "epoch": 1.587464920486436,
      "grad_norm": 0.03372619301080704,
      "learning_rate": 0.0002,
      "loss": 0.542754590511322,
      "mean_token_accuracy": 0.7796132117509842,
      "num_tokens": 6923352.0,
      "step": 425
    },
    {
      "entropy": 0.5413663387298584,
      "epoch": 1.5912067352666042,
      "grad_norm": 0.02999868616461754,
      "learning_rate": 0.0002,
      "loss": 0.5444542765617371,
      "mean_token_accuracy": 0.7786892652511597,
      "num_tokens": 6939337.0,
      "step": 426
    },
    {
      "entropy": 0.556038424372673,
      "epoch": 1.5949485500467726,
      "grad_norm": 0.03419700264930725,
      "learning_rate": 0.0002,
      "loss": 0.550898015499115,
      "mean_token_accuracy": 0.7760495245456696,
      "num_tokens": 6955389.0,
      "step": 427
    },
    {
      "entropy": 0.5516718029975891,
      "epoch": 1.598690364826941,
      "grad_norm": 0.0298128854483366,
      "learning_rate": 0.0002,
      "loss": 0.5519053339958191,
      "mean_token_accuracy": 0.7739587277173996,
      "num_tokens": 6971808.0,
      "step": 428
    },
    {
      "entropy": 0.5532359778881073,
      "epoch": 1.6024321796071095,
      "grad_norm": 0.03213290125131607,
      "learning_rate": 0.0002,
      "loss": 0.5568399429321289,
      "mean_token_accuracy": 0.7753729224205017,
      "num_tokens": 6988128.0,
      "step": 429
    },
    {
      "entropy": 0.5382643342018127,
      "epoch": 1.606173994387278,
      "grad_norm": 0.031161464750766754,
      "learning_rate": 0.0002,
      "loss": 0.5440113544464111,
      "mean_token_accuracy": 0.7779531329870224,
      "num_tokens": 7004368.0,
      "step": 430
    },
    {
      "entropy": 0.5313677787780762,
      "epoch": 1.6099158091674464,
      "grad_norm": 0.036605071276426315,
      "learning_rate": 0.0002,
      "loss": 0.5367435216903687,
      "mean_token_accuracy": 0.7821811884641647,
      "num_tokens": 7020480.0,
      "step": 431
    },
    {
      "entropy": 0.5567297488451004,
      "epoch": 1.6136576239476146,
      "grad_norm": 0.027995243668556213,
      "learning_rate": 0.0002,
      "loss": 0.5547551512718201,
      "mean_token_accuracy": 0.7722228318452835,
      "num_tokens": 7036925.0,
      "step": 432
    },
    {
      "entropy": 0.5448314994573593,
      "epoch": 1.617399438727783,
      "grad_norm": 0.03725632280111313,
      "learning_rate": 0.0002,
      "loss": 0.5465018153190613,
      "mean_token_accuracy": 0.7780062705278397,
      "num_tokens": 7053019.0,
      "step": 433
    },
    {
      "entropy": 0.5258296579122543,
      "epoch": 1.6211412535079512,
      "grad_norm": 0.03214319422841072,
      "learning_rate": 0.0002,
      "loss": 0.5300624370574951,
      "mean_token_accuracy": 0.7829313278198242,
      "num_tokens": 7069021.0,
      "step": 434
    },
    {
      "entropy": 0.5569266527891159,
      "epoch": 1.6248830682881197,
      "grad_norm": 0.03432042896747589,
      "learning_rate": 0.0002,
      "loss": 0.5578755140304565,
      "mean_token_accuracy": 0.7711293399333954,
      "num_tokens": 7085450.0,
      "step": 435
    },
    {
      "entropy": 0.5638464391231537,
      "epoch": 1.6286248830682881,
      "grad_norm": 0.03862602636218071,
      "learning_rate": 0.0002,
      "loss": 0.5726134777069092,
      "mean_token_accuracy": 0.7694450467824936,
      "num_tokens": 7101666.0,
      "step": 436
    },
    {
      "entropy": 0.564548671245575,
      "epoch": 1.6323666978484566,
      "grad_norm": 0.032345570623874664,
      "learning_rate": 0.0002,
      "loss": 0.5651994943618774,
      "mean_token_accuracy": 0.7711433917284012,
      "num_tokens": 7117907.0,
      "step": 437
    },
    {
      "entropy": 0.5587478131055832,
      "epoch": 1.636108512628625,
      "grad_norm": 0.031082862988114357,
      "learning_rate": 0.0002,
      "loss": 0.5588955879211426,
      "mean_token_accuracy": 0.7725447416305542,
      "num_tokens": 7134131.0,
      "step": 438
    },
    {
      "entropy": 0.5472389608621597,
      "epoch": 1.6398503274087932,
      "grad_norm": 0.03695904091000557,
      "learning_rate": 0.0002,
      "loss": 0.5445616245269775,
      "mean_token_accuracy": 0.778590515255928,
      "num_tokens": 7150298.0,
      "step": 439
    },
    {
      "entropy": 0.5535961091518402,
      "epoch": 1.6435921421889617,
      "grad_norm": 0.031128892675042152,
      "learning_rate": 0.0002,
      "loss": 0.5437783598899841,
      "mean_token_accuracy": 0.7785230875015259,
      "num_tokens": 7166639.0,
      "step": 440
    },
    {
      "entropy": 0.5351960062980652,
      "epoch": 1.6473339569691299,
      "grad_norm": 0.03949431702494621,
      "learning_rate": 0.0002,
      "loss": 0.5358127355575562,
      "mean_token_accuracy": 0.7802053093910217,
      "num_tokens": 7182613.0,
      "step": 441
    },
    {
      "entropy": 0.524370513856411,
      "epoch": 1.6510757717492983,
      "grad_norm": 0.03402510657906532,
      "learning_rate": 0.0002,
      "loss": 0.5297942161560059,
      "mean_token_accuracy": 0.7861316353082657,
      "num_tokens": 7198598.0,
      "step": 442
    },
    {
      "entropy": 0.5440799742937088,
      "epoch": 1.6548175865294668,
      "grad_norm": 0.03908916562795639,
      "learning_rate": 0.0002,
      "loss": 0.5563719868659973,
      "mean_token_accuracy": 0.773345485329628,
      "num_tokens": 7214953.0,
      "step": 443
    },
    {
      "entropy": 0.5496329516172409,
      "epoch": 1.6585594013096352,
      "grad_norm": 0.036347340792417526,
      "learning_rate": 0.0002,
      "loss": 0.5566647052764893,
      "mean_token_accuracy": 0.7736042439937592,
      "num_tokens": 7231069.0,
      "step": 444
    },
    {
      "entropy": 0.5510213375091553,
      "epoch": 1.6623012160898036,
      "grad_norm": 0.027416400611400604,
      "learning_rate": 0.0002,
      "loss": 0.5495529174804688,
      "mean_token_accuracy": 0.7757058292627335,
      "num_tokens": 7247326.0,
      "step": 445
    },
    {
      "entropy": 0.5782728493213654,
      "epoch": 1.666043030869972,
      "grad_norm": 0.03216573968529701,
      "learning_rate": 0.0002,
      "loss": 0.5692035555839539,
      "mean_token_accuracy": 0.7700701951980591,
      "num_tokens": 7263765.0,
      "step": 446
    },
    {
      "entropy": 0.5769474655389786,
      "epoch": 1.6697848456501403,
      "grad_norm": 0.03461449593305588,
      "learning_rate": 0.0002,
      "loss": 0.5692911148071289,
      "mean_token_accuracy": 0.7688308656215668,
      "num_tokens": 7280095.0,
      "step": 447
    },
    {
      "entropy": 0.5636246651411057,
      "epoch": 1.6735266604303087,
      "grad_norm": 0.02763124369084835,
      "learning_rate": 0.0002,
      "loss": 0.5576487183570862,
      "mean_token_accuracy": 0.7748333811759949,
      "num_tokens": 7296592.0,
      "step": 448
    },
    {
      "entropy": 0.5515684485435486,
      "epoch": 1.677268475210477,
      "grad_norm": 0.03505739942193031,
      "learning_rate": 0.0002,
      "loss": 0.562554121017456,
      "mean_token_accuracy": 0.7732807844877243,
      "num_tokens": 7313071.0,
      "step": 449
    },
    {
      "entropy": 0.529756709933281,
      "epoch": 1.6810102899906454,
      "grad_norm": 0.035316504538059235,
      "learning_rate": 0.0002,
      "loss": 0.5393928289413452,
      "mean_token_accuracy": 0.7774565666913986,
      "num_tokens": 7329531.0,
      "step": 450
    },
    {
      "entropy": 0.5509119927883148,
      "epoch": 1.6847521047708138,
      "grad_norm": 0.03525395318865776,
      "learning_rate": 0.0002,
      "loss": 0.5650572180747986,
      "mean_token_accuracy": 0.7679217755794525,
      "num_tokens": 7345852.0,
      "step": 451
    },
    {
      "entropy": 0.5615872442722321,
      "epoch": 1.6884939195509823,
      "grad_norm": 0.032941099256277084,
      "learning_rate": 0.0002,
      "loss": 0.5626966953277588,
      "mean_token_accuracy": 0.7703739553689957,
      "num_tokens": 7362126.0,
      "step": 452
    },
    {
      "entropy": 0.555547222495079,
      "epoch": 1.6922357343311507,
      "grad_norm": 0.03228066489100456,
      "learning_rate": 0.0002,
      "loss": 0.544800877571106,
      "mean_token_accuracy": 0.7767430245876312,
      "num_tokens": 7378671.0,
      "step": 453
    },
    {
      "entropy": 0.554116278886795,
      "epoch": 1.6959775491113191,
      "grad_norm": 0.029597081243991852,
      "learning_rate": 0.0002,
      "loss": 0.5413352847099304,
      "mean_token_accuracy": 0.7784619033336639,
      "num_tokens": 7394967.0,
      "step": 454
    },
    {
      "entropy": 0.5580686628818512,
      "epoch": 1.6997193638914874,
      "grad_norm": 0.02839960716664791,
      "learning_rate": 0.0002,
      "loss": 0.5585195422172546,
      "mean_token_accuracy": 0.7723167389631271,
      "num_tokens": 7411309.0,
      "step": 455
    },
    {
      "entropy": 0.5392096787691116,
      "epoch": 1.7034611786716558,
      "grad_norm": 0.03588644042611122,
      "learning_rate": 0.0002,
      "loss": 0.5462691187858582,
      "mean_token_accuracy": 0.7782226353883743,
      "num_tokens": 7427429.0,
      "step": 456
    },
    {
      "entropy": 0.535987101495266,
      "epoch": 1.707202993451824,
      "grad_norm": 0.03534339368343353,
      "learning_rate": 0.0002,
      "loss": 0.549435019493103,
      "mean_token_accuracy": 0.7765841335058212,
      "num_tokens": 7443721.0,
      "step": 457
    },
    {
      "entropy": 0.5456487089395523,
      "epoch": 1.7109448082319925,
      "grad_norm": 0.03618441894650459,
      "learning_rate": 0.0002,
      "loss": 0.5485998392105103,
      "mean_token_accuracy": 0.7757130116224289,
      "num_tokens": 7460111.0,
      "step": 458
    },
    {
      "entropy": 0.5436663031578064,
      "epoch": 1.714686623012161,
      "grad_norm": 0.02979116700589657,
      "learning_rate": 0.0002,
      "loss": 0.5414945483207703,
      "mean_token_accuracy": 0.7812917977571487,
      "num_tokens": 7476124.0,
      "step": 459
    },
    {
      "entropy": 0.5709712207317352,
      "epoch": 1.7184284377923293,
      "grad_norm": 0.03200547397136688,
      "learning_rate": 0.0002,
      "loss": 0.5619422197341919,
      "mean_token_accuracy": 0.7735306322574615,
      "num_tokens": 7492499.0,
      "step": 460
    },
    {
      "entropy": 0.5626240521669388,
      "epoch": 1.7221702525724978,
      "grad_norm": 0.03815503418445587,
      "learning_rate": 0.0002,
      "loss": 0.5533303618431091,
      "mean_token_accuracy": 0.7753702253103256,
      "num_tokens": 7508641.0,
      "step": 461
    },
    {
      "entropy": 0.5480938106775284,
      "epoch": 1.725912067352666,
      "grad_norm": 0.03169892355799675,
      "learning_rate": 0.0002,
      "loss": 0.5524613261222839,
      "mean_token_accuracy": 0.7751649022102356,
      "num_tokens": 7525219.0,
      "step": 462
    },
    {
      "entropy": 0.5562078654766083,
      "epoch": 1.7296538821328344,
      "grad_norm": 0.03617829084396362,
      "learning_rate": 0.0002,
      "loss": 0.5619810819625854,
      "mean_token_accuracy": 0.7714113295078278,
      "num_tokens": 7541689.0,
      "step": 463
    },
    {
      "entropy": 0.5358584523200989,
      "epoch": 1.7333956969130027,
      "grad_norm": 0.03426409512758255,
      "learning_rate": 0.0002,
      "loss": 0.5471996068954468,
      "mean_token_accuracy": 0.7751270979642868,
      "num_tokens": 7558097.0,
      "step": 464
    },
    {
      "entropy": 0.5273950546979904,
      "epoch": 1.737137511693171,
      "grad_norm": 0.03135877847671509,
      "learning_rate": 0.0002,
      "loss": 0.5319076776504517,
      "mean_token_accuracy": 0.7831837683916092,
      "num_tokens": 7574193.0,
      "step": 465
    },
    {
      "entropy": 0.5745384991168976,
      "epoch": 1.7408793264733395,
      "grad_norm": 0.03335622698068619,
      "learning_rate": 0.0002,
      "loss": 0.5716018676757812,
      "mean_token_accuracy": 0.7669582962989807,
      "num_tokens": 7590824.0,
      "step": 466
    },
    {
      "entropy": 0.5475277155637741,
      "epoch": 1.744621141253508,
      "grad_norm": 0.02866513840854168,
      "learning_rate": 0.0002,
      "loss": 0.5436227321624756,
      "mean_token_accuracy": 0.777054488658905,
      "num_tokens": 7607042.0,
      "step": 467
    },
    {
      "entropy": 0.5518149137496948,
      "epoch": 1.7483629560336764,
      "grad_norm": 0.029388844966888428,
      "learning_rate": 0.0002,
      "loss": 0.5495098233222961,
      "mean_token_accuracy": 0.7773433327674866,
      "num_tokens": 7623420.0,
      "step": 468
    },
    {
      "entropy": 0.5374390631914139,
      "epoch": 1.7521047708138449,
      "grad_norm": 0.0325518473982811,
      "learning_rate": 0.0002,
      "loss": 0.5412787795066833,
      "mean_token_accuracy": 0.7788903117179871,
      "num_tokens": 7639630.0,
      "step": 469
    },
    {
      "entropy": 0.5380698144435883,
      "epoch": 1.755846585594013,
      "grad_norm": 0.029125649482011795,
      "learning_rate": 0.0002,
      "loss": 0.5411547422409058,
      "mean_token_accuracy": 0.7780955582857132,
      "num_tokens": 7655842.0,
      "step": 470
    },
    {
      "entropy": 0.5518491268157959,
      "epoch": 1.7595884003741815,
      "grad_norm": 0.03188946843147278,
      "learning_rate": 0.0002,
      "loss": 0.5559889674186707,
      "mean_token_accuracy": 0.7736992090940475,
      "num_tokens": 7672101.0,
      "step": 471
    },
    {
      "entropy": 0.5442283153533936,
      "epoch": 1.7633302151543497,
      "grad_norm": 0.034016743302345276,
      "learning_rate": 0.0002,
      "loss": 0.5500984191894531,
      "mean_token_accuracy": 0.7761438190937042,
      "num_tokens": 7688113.0,
      "step": 472
    },
    {
      "entropy": 0.5488689690828323,
      "epoch": 1.7670720299345182,
      "grad_norm": 0.02747703716158867,
      "learning_rate": 0.0002,
      "loss": 0.5475065112113953,
      "mean_token_accuracy": 0.775134801864624,
      "num_tokens": 7704497.0,
      "step": 473
    },
    {
      "entropy": 0.568826898932457,
      "epoch": 1.7708138447146866,
      "grad_norm": 0.03434092178940773,
      "learning_rate": 0.0002,
      "loss": 0.5651647448539734,
      "mean_token_accuracy": 0.7715141028165817,
      "num_tokens": 7720786.0,
      "step": 474
    },
    {
      "entropy": 0.5751989632844925,
      "epoch": 1.774555659494855,
      "grad_norm": 0.03127957507967949,
      "learning_rate": 0.0002,
      "loss": 0.5659101605415344,
      "mean_token_accuracy": 0.7694416791200638,
      "num_tokens": 7737241.0,
      "step": 475
    },
    {
      "entropy": 0.5532206594944,
      "epoch": 1.7782974742750235,
      "grad_norm": 0.02908439189195633,
      "learning_rate": 0.0002,
      "loss": 0.5514166355133057,
      "mean_token_accuracy": 0.7745979428291321,
      "num_tokens": 7753654.0,
      "step": 476
    },
    {
      "entropy": 0.5416929870843887,
      "epoch": 1.782039289055192,
      "grad_norm": 0.03806254267692566,
      "learning_rate": 0.0002,
      "loss": 0.5534486770629883,
      "mean_token_accuracy": 0.7739390730857849,
      "num_tokens": 7770019.0,
      "step": 477
    },
    {
      "entropy": 0.5363457053899765,
      "epoch": 1.7857811038353602,
      "grad_norm": 0.032926302403211594,
      "learning_rate": 0.0002,
      "loss": 0.5503825545310974,
      "mean_token_accuracy": 0.7768030315637589,
      "num_tokens": 7786449.0,
      "step": 478
    },
    {
      "entropy": 0.5420104712247849,
      "epoch": 1.7895229186155284,
      "grad_norm": 0.02965935505926609,
      "learning_rate": 0.0002,
      "loss": 0.5425794124603271,
      "mean_token_accuracy": 0.7801303416490555,
      "num_tokens": 7802671.0,
      "step": 479
    },
    {
      "entropy": 0.549240380525589,
      "epoch": 1.7932647333956968,
      "grad_norm": 0.029267581179738045,
      "learning_rate": 0.0002,
      "loss": 0.5447797179222107,
      "mean_token_accuracy": 0.7785746455192566,
      "num_tokens": 7819171.0,
      "step": 480
    },
    {
      "entropy": 0.5564038902521133,
      "epoch": 1.7970065481758652,
      "grad_norm": 0.027819465845823288,
      "learning_rate": 0.0002,
      "loss": 0.5569280385971069,
      "mean_token_accuracy": 0.7717359662055969,
      "num_tokens": 7835514.0,
      "step": 481
    },
    {
      "entropy": 0.5513341128826141,
      "epoch": 1.8007483629560337,
      "grad_norm": 0.032080937176942825,
      "learning_rate": 0.0002,
      "loss": 0.5565280318260193,
      "mean_token_accuracy": 0.7745318114757538,
      "num_tokens": 7851901.0,
      "step": 482
    },
    {
      "entropy": 0.5669872015714645,
      "epoch": 1.8044901777362021,
      "grad_norm": 0.031251415610313416,
      "learning_rate": 0.0002,
      "loss": 0.5653026103973389,
      "mean_token_accuracy": 0.7678168416023254,
      "num_tokens": 7868506.0,
      "step": 483
    },
    {
      "entropy": 0.5539208799600601,
      "epoch": 1.8082319925163706,
      "grad_norm": 0.02905306965112686,
      "learning_rate": 0.0002,
      "loss": 0.5545270442962646,
      "mean_token_accuracy": 0.7701525986194611,
      "num_tokens": 7884991.0,
      "step": 484
    },
    {
      "entropy": 0.5545967519283295,
      "epoch": 1.8119738072965388,
      "grad_norm": 0.028621984645724297,
      "learning_rate": 0.0002,
      "loss": 0.5514732003211975,
      "mean_token_accuracy": 0.7761166989803314,
      "num_tokens": 7901376.0,
      "step": 485
    },
    {
      "entropy": 0.5499511659145355,
      "epoch": 1.8157156220767072,
      "grad_norm": 0.03022296354174614,
      "learning_rate": 0.0002,
      "loss": 0.5498670339584351,
      "mean_token_accuracy": 0.7770126014947891,
      "num_tokens": 7917862.0,
      "step": 486
    },
    {
      "entropy": 0.5304104536771774,
      "epoch": 1.8194574368568754,
      "grad_norm": 0.03297071531414986,
      "learning_rate": 0.0002,
      "loss": 0.5350517630577087,
      "mean_token_accuracy": 0.7801762819290161,
      "num_tokens": 7933992.0,
      "step": 487
    },
    {
      "entropy": 0.5290692076086998,
      "epoch": 1.8231992516370439,
      "grad_norm": 0.03105652704834938,
      "learning_rate": 0.0002,
      "loss": 0.5332382917404175,
      "mean_token_accuracy": 0.7827692329883575,
      "num_tokens": 7949802.0,
      "step": 488
    },
    {
      "entropy": 0.5513493865728378,
      "epoch": 1.8269410664172123,
      "grad_norm": 0.027769237756729126,
      "learning_rate": 0.0002,
      "loss": 0.5537266135215759,
      "mean_token_accuracy": 0.7724474370479584,
      "num_tokens": 7966264.0,
      "step": 489
    },
    {
      "entropy": 0.559148445725441,
      "epoch": 1.8306828811973808,
      "grad_norm": 0.03133245185017586,
      "learning_rate": 0.0002,
      "loss": 0.5547972321510315,
      "mean_token_accuracy": 0.7729021608829498,
      "num_tokens": 7982562.0,
      "step": 490
    },
    {
      "entropy": 0.5613508969545364,
      "epoch": 1.8344246959775492,
      "grad_norm": 0.031487561762332916,
      "learning_rate": 0.0002,
      "loss": 0.5589193105697632,
      "mean_token_accuracy": 0.7691849023103714,
      "num_tokens": 7999101.0,
      "step": 491
    },
    {
      "entropy": 0.552077904343605,
      "epoch": 1.8381665107577176,
      "grad_norm": 0.030901558697223663,
      "learning_rate": 0.0002,
      "loss": 0.5548684597015381,
      "mean_token_accuracy": 0.7746628671884537,
      "num_tokens": 8015580.0,
      "step": 492
    },
    {
      "entropy": 0.5537288337945938,
      "epoch": 1.8419083255378859,
      "grad_norm": 0.032475873827934265,
      "learning_rate": 0.0002,
      "loss": 0.554737389087677,
      "mean_token_accuracy": 0.7736551910638809,
      "num_tokens": 8031933.0,
      "step": 493
    },
    {
      "entropy": 0.548131912946701,
      "epoch": 1.8456501403180543,
      "grad_norm": 0.034645676612854004,
      "learning_rate": 0.0002,
      "loss": 0.5518745183944702,
      "mean_token_accuracy": 0.7750734686851501,
      "num_tokens": 8048122.0,
      "step": 494
    },
    {
      "entropy": 0.5457621365785599,
      "epoch": 1.8493919550982225,
      "grad_norm": 0.0346519835293293,
      "learning_rate": 0.0002,
      "loss": 0.5511569380760193,
      "mean_token_accuracy": 0.774482324719429,
      "num_tokens": 8064371.0,
      "step": 495
    },
    {
      "entropy": 0.5622203350067139,
      "epoch": 1.853133769878391,
      "grad_norm": 0.04098769649863243,
      "learning_rate": 0.0002,
      "loss": 0.5641219615936279,
      "mean_token_accuracy": 0.7717546820640564,
      "num_tokens": 8080811.0,
      "step": 496
    },
    {
      "entropy": 0.5483545809984207,
      "epoch": 1.8568755846585594,
      "grad_norm": 0.03688424080610275,
      "learning_rate": 0.0002,
      "loss": 0.5510388612747192,
      "mean_token_accuracy": 0.7764346599578857,
      "num_tokens": 8097126.0,
      "step": 497
    },
    {
      "entropy": 0.5505103766918182,
      "epoch": 1.8606173994387278,
      "grad_norm": 0.03670699521899223,
      "learning_rate": 0.0002,
      "loss": 0.5573628544807434,
      "mean_token_accuracy": 0.7726601958274841,
      "num_tokens": 8113420.0,
      "step": 498
    },
    {
      "entropy": 0.529410183429718,
      "epoch": 1.8643592142188963,
      "grad_norm": 0.0299246683716774,
      "learning_rate": 0.0002,
      "loss": 0.5223079919815063,
      "mean_token_accuracy": 0.787264496088028,
      "num_tokens": 8129867.0,
      "step": 499
    },
    {
      "entropy": 0.5540086030960083,
      "epoch": 1.8681010289990645,
      "grad_norm": 0.03435957059264183,
      "learning_rate": 0.0002,
      "loss": 0.5479264259338379,
      "mean_token_accuracy": 0.7777916789054871,
      "num_tokens": 8146232.0,
      "step": 500
    },
    {
      "entropy": 0.5476558804512024,
      "epoch": 1.871842843779233,
      "grad_norm": 0.032948873937129974,
      "learning_rate": 0.0002,
      "loss": 0.5458691716194153,
      "mean_token_accuracy": 0.7800754606723785,
      "num_tokens": 8162478.0,
      "step": 501
    },
    {
      "entropy": 0.5278200954198837,
      "epoch": 1.8755846585594012,
      "grad_norm": 0.02974856086075306,
      "learning_rate": 0.0002,
      "loss": 0.5305043458938599,
      "mean_token_accuracy": 0.785199910402298,
      "num_tokens": 8179046.0,
      "step": 502
    },
    {
      "entropy": 0.5498995333909988,
      "epoch": 1.8793264733395696,
      "grad_norm": 0.035161007195711136,
      "learning_rate": 0.0002,
      "loss": 0.5587770342826843,
      "mean_token_accuracy": 0.7729851007461548,
      "num_tokens": 8195430.0,
      "step": 503
    },
    {
      "entropy": 0.5525415539741516,
      "epoch": 1.883068288119738,
      "grad_norm": 0.0358411967754364,
      "learning_rate": 0.0002,
      "loss": 0.5540306568145752,
      "mean_token_accuracy": 0.7763612270355225,
      "num_tokens": 8211820.0,
      "step": 504
    },
    {
      "entropy": 0.548132598400116,
      "epoch": 1.8868101028999065,
      "grad_norm": 0.030124109238386154,
      "learning_rate": 0.0002,
      "loss": 0.5509622693061829,
      "mean_token_accuracy": 0.7774811685085297,
      "num_tokens": 8228136.0,
      "step": 505
    },
    {
      "entropy": 0.5653504580259323,
      "epoch": 1.890551917680075,
      "grad_norm": 0.03144733980298042,
      "learning_rate": 0.0002,
      "loss": 0.5578948259353638,
      "mean_token_accuracy": 0.7719802111387253,
      "num_tokens": 8244600.0,
      "step": 506
    },
    {
      "entropy": 0.5680980533361435,
      "epoch": 1.8942937324602434,
      "grad_norm": 0.03786737844347954,
      "learning_rate": 0.0002,
      "loss": 0.5742643475532532,
      "mean_token_accuracy": 0.7682982087135315,
      "num_tokens": 8260924.0,
      "step": 507
    },
    {
      "entropy": 0.5519368350505829,
      "epoch": 1.8980355472404116,
      "grad_norm": 0.03175094351172447,
      "learning_rate": 0.0002,
      "loss": 0.553012490272522,
      "mean_token_accuracy": 0.7758679240942001,
      "num_tokens": 8277138.0,
      "step": 508
    },
    {
      "entropy": 0.550408124923706,
      "epoch": 1.90177736202058,
      "grad_norm": 0.03196226805448532,
      "learning_rate": 0.0002,
      "loss": 0.5527910590171814,
      "mean_token_accuracy": 0.7774336487054825,
      "num_tokens": 8293651.0,
      "step": 509
    },
    {
      "entropy": 0.551310807466507,
      "epoch": 1.9055191768007482,
      "grad_norm": 0.032158490270376205,
      "learning_rate": 0.0002,
      "loss": 0.5532134175300598,
      "mean_token_accuracy": 0.7765610069036484,
      "num_tokens": 8310166.0,
      "step": 510
    },
    {
      "entropy": 0.554396003484726,
      "epoch": 1.9092609915809167,
      "grad_norm": 0.03265155106782913,
      "learning_rate": 0.0002,
      "loss": 0.5611427426338196,
      "mean_token_accuracy": 0.770960658788681,
      "num_tokens": 8326460.0,
      "step": 511
    },
    {
      "entropy": 0.5533443540334702,
      "epoch": 1.913002806361085,
      "grad_norm": 0.03062952496111393,
      "learning_rate": 0.0002,
      "loss": 0.5535008311271667,
      "mean_token_accuracy": 0.7743202298879623,
      "num_tokens": 8342730.0,
      "step": 512
    },
    {
      "entropy": 0.557416245341301,
      "epoch": 1.9167446211412535,
      "grad_norm": 0.032427720725536346,
      "learning_rate": 0.0002,
      "loss": 0.555341899394989,
      "mean_token_accuracy": 0.7736751586198807,
      "num_tokens": 8358790.0,
      "step": 513
    },
    {
      "entropy": 0.5498823821544647,
      "epoch": 1.920486435921422,
      "grad_norm": 0.03641689941287041,
      "learning_rate": 0.0002,
      "loss": 0.5489510893821716,
      "mean_token_accuracy": 0.7756739258766174,
      "num_tokens": 8374932.0,
      "step": 514
    },
    {
      "entropy": 0.5567668825387955,
      "epoch": 1.9242282507015904,
      "grad_norm": 0.0356590710580349,
      "learning_rate": 0.0002,
      "loss": 0.5600458979606628,
      "mean_token_accuracy": 0.7731840312480927,
      "num_tokens": 8391373.0,
      "step": 515
    },
    {
      "entropy": 0.5492214262485504,
      "epoch": 1.9279700654817586,
      "grad_norm": 0.032011594623327255,
      "learning_rate": 0.0002,
      "loss": 0.5541006326675415,
      "mean_token_accuracy": 0.7760893553495407,
      "num_tokens": 8407637.0,
      "step": 516
    },
    {
      "entropy": 0.5398948937654495,
      "epoch": 1.931711880261927,
      "grad_norm": 0.03577565401792526,
      "learning_rate": 0.0002,
      "loss": 0.5467641949653625,
      "mean_token_accuracy": 0.775809720158577,
      "num_tokens": 8423916.0,
      "step": 517
    },
    {
      "entropy": 0.5437736511230469,
      "epoch": 1.9354536950420953,
      "grad_norm": 0.031068816781044006,
      "learning_rate": 0.0002,
      "loss": 0.5446307063102722,
      "mean_token_accuracy": 0.7766688168048859,
      "num_tokens": 8440387.0,
      "step": 518
    },
    {
      "entropy": 0.551026239991188,
      "epoch": 1.9391955098222637,
      "grad_norm": 0.03239775449037552,
      "learning_rate": 0.0002,
      "loss": 0.5448942184448242,
      "mean_token_accuracy": 0.7764843702316284,
      "num_tokens": 8456844.0,
      "step": 519
    },
    {
      "entropy": 0.5524020791053772,
      "epoch": 1.9429373246024322,
      "grad_norm": 0.03006759099662304,
      "learning_rate": 0.0002,
      "loss": 0.5508519411087036,
      "mean_token_accuracy": 0.7757467180490494,
      "num_tokens": 8473098.0,
      "step": 520
    },
    {
      "entropy": 0.5465254038572311,
      "epoch": 1.9466791393826006,
      "grad_norm": 0.03377439081668854,
      "learning_rate": 0.0002,
      "loss": 0.5440271496772766,
      "mean_token_accuracy": 0.7764104902744293,
      "num_tokens": 8489284.0,
      "step": 521
    },
    {
      "entropy": 0.5479972213506699,
      "epoch": 1.950420954162769,
      "grad_norm": 0.03804773464798927,
      "learning_rate": 0.0002,
      "loss": 0.5570059418678284,
      "mean_token_accuracy": 0.7720707058906555,
      "num_tokens": 8505659.0,
      "step": 522
    },
    {
      "entropy": 0.5531162023544312,
      "epoch": 1.9541627689429373,
      "grad_norm": 0.0431046187877655,
      "learning_rate": 0.0002,
      "loss": 0.5670960545539856,
      "mean_token_accuracy": 0.7688823044300079,
      "num_tokens": 8522329.0,
      "step": 523
    },
    {
      "entropy": 0.5688248574733734,
      "epoch": 1.9579045837231057,
      "grad_norm": 0.026841329410672188,
      "learning_rate": 0.0002,
      "loss": 0.5626019835472107,
      "mean_token_accuracy": 0.7691622525453568,
      "num_tokens": 8538842.0,
      "step": 524
    },
    {
      "entropy": 0.5459724515676498,
      "epoch": 1.961646398503274,
      "grad_norm": 0.03493349626660347,
      "learning_rate": 0.0002,
      "loss": 0.5443795919418335,
      "mean_token_accuracy": 0.7770666480064392,
      "num_tokens": 8554945.0,
      "step": 525
    },
    {
      "entropy": 0.5657712519168854,
      "epoch": 1.9653882132834424,
      "grad_norm": 0.03769686445593834,
      "learning_rate": 0.0002,
      "loss": 0.5527753829956055,
      "mean_token_accuracy": 0.7778369933366776,
      "num_tokens": 8570989.0,
      "step": 526
    },
    {
      "entropy": 0.550276130437851,
      "epoch": 1.9691300280636108,
      "grad_norm": 0.03369564935564995,
      "learning_rate": 0.0002,
      "loss": 0.5424638986587524,
      "mean_token_accuracy": 0.7803192138671875,
      "num_tokens": 8587072.0,
      "step": 527
    },
    {
      "entropy": 0.5489895343780518,
      "epoch": 1.9728718428437793,
      "grad_norm": 0.03569629415869713,
      "learning_rate": 0.0002,
      "loss": 0.559888482093811,
      "mean_token_accuracy": 0.7720399796962738,
      "num_tokens": 8603352.0,
      "step": 528
    },
    {
      "entropy": 0.530121460556984,
      "epoch": 1.9766136576239477,
      "grad_norm": 0.037291910499334335,
      "learning_rate": 0.0002,
      "loss": 0.5450345873832703,
      "mean_token_accuracy": 0.7796709537506104,
      "num_tokens": 8619760.0,
      "step": 529
    },
    {
      "entropy": 0.5523941069841385,
      "epoch": 1.9803554724041161,
      "grad_norm": 0.027196237817406654,
      "learning_rate": 0.0002,
      "loss": 0.5566985011100769,
      "mean_token_accuracy": 0.773260235786438,
      "num_tokens": 8636140.0,
      "step": 530
    },
    {
      "entropy": 0.5579734891653061,
      "epoch": 1.9840972871842844,
      "grad_norm": 0.029088523238897324,
      "learning_rate": 0.0002,
      "loss": 0.5540033578872681,
      "mean_token_accuracy": 0.7756596505641937,
      "num_tokens": 8652295.0,
      "step": 531
    },
    {
      "entropy": 0.5574969351291656,
      "epoch": 1.9878391019644528,
      "grad_norm": 0.029939375817775726,
      "learning_rate": 0.0002,
      "loss": 0.5501161217689514,
      "mean_token_accuracy": 0.7750376909971237,
      "num_tokens": 8668973.0,
      "step": 532
    },
    {
      "entropy": 0.5492955148220062,
      "epoch": 1.991580916744621,
      "grad_norm": 0.03092138096690178,
      "learning_rate": 0.0002,
      "loss": 0.5422185063362122,
      "mean_token_accuracy": 0.7804518193006516,
      "num_tokens": 8685148.0,
      "step": 533
    },
    {
      "entropy": 0.5466224402189255,
      "epoch": 1.9953227315247895,
      "grad_norm": 0.03692883625626564,
      "learning_rate": 0.0002,
      "loss": 0.5514038801193237,
      "mean_token_accuracy": 0.7737534046173096,
      "num_tokens": 8701543.0,
      "step": 534
    },
    {
      "entropy": 0.5537078529596329,
      "epoch": 1.999064546304958,
      "grad_norm": 0.03208556026220322,
      "learning_rate": 0.0002,
      "loss": 0.5545927286148071,
      "mean_token_accuracy": 0.777570441365242,
      "num_tokens": 8717790.0,
      "step": 535
    },
    {
      "entropy": 0.5328470468521118,
      "epoch": 2.0,
      "grad_norm": 0.056387241929769516,
      "learning_rate": 0.0002,
      "loss": 0.5407091379165649,
      "mean_token_accuracy": 0.7980132699012756,
      "num_tokens": 8719006.0,
      "step": 536
    },
    {
      "entropy": 0.5399350374937057,
      "epoch": 2.0037418147801684,
      "grad_norm": 0.030944975093007088,
      "learning_rate": 0.0002,
      "loss": 0.5385851263999939,
      "mean_token_accuracy": 0.7820405662059784,
      "num_tokens": 8735642.0,
      "step": 537
    },
    {
      "entropy": 0.5494481921195984,
      "epoch": 2.007483629560337,
      "grad_norm": 0.037696994841098785,
      "learning_rate": 0.0002,
      "loss": 0.5568894147872925,
      "mean_token_accuracy": 0.7728834450244904,
      "num_tokens": 8752037.0,
      "step": 538
    },
    {
      "entropy": 0.5218051299452782,
      "epoch": 2.0112254443405053,
      "grad_norm": 0.03197522833943367,
      "learning_rate": 0.0002,
      "loss": 0.5231513977050781,
      "mean_token_accuracy": 0.7889297753572464,
      "num_tokens": 8768180.0,
      "step": 539
    },
    {
      "entropy": 0.5204869955778122,
      "epoch": 2.0149672591206733,
      "grad_norm": 0.03365905210375786,
      "learning_rate": 0.0002,
      "loss": 0.5204414129257202,
      "mean_token_accuracy": 0.7887504994869232,
      "num_tokens": 8784385.0,
      "step": 540
    },
    {
      "entropy": 0.5250371545553207,
      "epoch": 2.0187090739008418,
      "grad_norm": 0.03206612914800644,
      "learning_rate": 0.0002,
      "loss": 0.5264713764190674,
      "mean_token_accuracy": 0.7865318804979324,
      "num_tokens": 8800264.0,
      "step": 541
    },
    {
      "entropy": 0.5362996757030487,
      "epoch": 2.02245088868101,
      "grad_norm": 0.035737182945013046,
      "learning_rate": 0.0002,
      "loss": 0.5328425765037537,
      "mean_token_accuracy": 0.7832369208335876,
      "num_tokens": 8816869.0,
      "step": 542
    },
    {
      "entropy": 0.5211998522281647,
      "epoch": 2.0261927034611786,
      "grad_norm": 0.03382508456707001,
      "learning_rate": 0.0002,
      "loss": 0.5247855186462402,
      "mean_token_accuracy": 0.7869311422109604,
      "num_tokens": 8833119.0,
      "step": 543
    },
    {
      "entropy": 0.5350741446018219,
      "epoch": 2.029934518241347,
      "grad_norm": 0.03478322923183441,
      "learning_rate": 0.0002,
      "loss": 0.5424962639808655,
      "mean_token_accuracy": 0.7780940532684326,
      "num_tokens": 8849384.0,
      "step": 544
    },
    {
      "entropy": 0.5465849786996841,
      "epoch": 2.0336763330215155,
      "grad_norm": 0.04140733554959297,
      "learning_rate": 0.0002,
      "loss": 0.5555759072303772,
      "mean_token_accuracy": 0.7771580815315247,
      "num_tokens": 8865580.0,
      "step": 545
    },
    {
      "entropy": 0.5315355062484741,
      "epoch": 2.037418147801684,
      "grad_norm": 0.037138681858778,
      "learning_rate": 0.0002,
      "loss": 0.5277940630912781,
      "mean_token_accuracy": 0.7869007289409637,
      "num_tokens": 8882160.0,
      "step": 546
    },
    {
      "entropy": 0.5415049940347672,
      "epoch": 2.0411599625818524,
      "grad_norm": 0.0382317453622818,
      "learning_rate": 0.0002,
      "loss": 0.52928626537323,
      "mean_token_accuracy": 0.783332422375679,
      "num_tokens": 8898284.0,
      "step": 547
    },
    {
      "entropy": 0.5444429516792297,
      "epoch": 2.0449017773620204,
      "grad_norm": 0.03212872892618179,
      "learning_rate": 0.0002,
      "loss": 0.5390786528587341,
      "mean_token_accuracy": 0.7800189107656479,
      "num_tokens": 8914317.0,
      "step": 548
    },
    {
      "entropy": 0.5368607640266418,
      "epoch": 2.048643592142189,
      "grad_norm": 0.03962872177362442,
      "learning_rate": 0.0002,
      "loss": 0.5424067974090576,
      "mean_token_accuracy": 0.7807967215776443,
      "num_tokens": 8930503.0,
      "step": 549
    },
    {
      "entropy": 0.5316442102193832,
      "epoch": 2.0523854069223573,
      "grad_norm": 0.04042808711528778,
      "learning_rate": 0.0002,
      "loss": 0.5394030809402466,
      "mean_token_accuracy": 0.7808849960565567,
      "num_tokens": 8946862.0,
      "step": 550
    },
    {
      "entropy": 0.5393616110086441,
      "epoch": 2.0561272217025257,
      "grad_norm": 0.04134383797645569,
      "learning_rate": 0.0002,
      "loss": 0.5422969460487366,
      "mean_token_accuracy": 0.778337299823761,
      "num_tokens": 8963159.0,
      "step": 551
    },
    {
      "entropy": 0.5272297635674477,
      "epoch": 2.059869036482694,
      "grad_norm": 0.03908038139343262,
      "learning_rate": 0.0002,
      "loss": 0.5269819498062134,
      "mean_token_accuracy": 0.7861954718828201,
      "num_tokens": 8979486.0,
      "step": 552
    },
    {
      "entropy": 0.5292486846446991,
      "epoch": 2.0636108512628626,
      "grad_norm": 0.03547659516334534,
      "learning_rate": 0.0002,
      "loss": 0.531383752822876,
      "mean_token_accuracy": 0.7845012545585632,
      "num_tokens": 8995728.0,
      "step": 553
    },
    {
      "entropy": 0.537693664431572,
      "epoch": 2.067352666043031,
      "grad_norm": 0.04505831003189087,
      "learning_rate": 0.0002,
      "loss": 0.5415912866592407,
      "mean_token_accuracy": 0.7810403853654861,
      "num_tokens": 9012262.0,
      "step": 554
    },
    {
      "entropy": 0.542693018913269,
      "epoch": 2.0710944808231995,
      "grad_norm": 0.03637455403804779,
      "learning_rate": 0.0002,
      "loss": 0.5454283356666565,
      "mean_token_accuracy": 0.7768286317586899,
      "num_tokens": 9028450.0,
      "step": 555
    },
    {
      "entropy": 0.5359488427639008,
      "epoch": 2.0748362956033675,
      "grad_norm": 0.038283299654722214,
      "learning_rate": 0.0002,
      "loss": 0.5341436266899109,
      "mean_token_accuracy": 0.7861706465482712,
      "num_tokens": 9044691.0,
      "step": 556
    },
    {
      "entropy": 0.5348773896694183,
      "epoch": 2.078578110383536,
      "grad_norm": 0.038720738142728806,
      "learning_rate": 0.0002,
      "loss": 0.5340168476104736,
      "mean_token_accuracy": 0.7848398089408875,
      "num_tokens": 9061090.0,
      "step": 557
    },
    {
      "entropy": 0.5301378965377808,
      "epoch": 2.0823199251637043,
      "grad_norm": 0.03610686585307121,
      "learning_rate": 0.0002,
      "loss": 0.5331196784973145,
      "mean_token_accuracy": 0.7825122624635696,
      "num_tokens": 9077457.0,
      "step": 558
    },
    {
      "entropy": 0.5627280175685883,
      "epoch": 2.086061739943873,
      "grad_norm": 0.0459170863032341,
      "learning_rate": 0.0002,
      "loss": 0.5622618198394775,
      "mean_token_accuracy": 0.7731509357690811,
      "num_tokens": 9093892.0,
      "step": 559
    },
    {
      "entropy": 0.5291252806782722,
      "epoch": 2.0898035547240412,
      "grad_norm": 0.03501354530453682,
      "learning_rate": 0.0002,
      "loss": 0.5241326689720154,
      "mean_token_accuracy": 0.7903649061918259,
      "num_tokens": 9110195.0,
      "step": 560
    },
    {
      "entropy": 0.5336360484361649,
      "epoch": 2.0935453695042097,
      "grad_norm": 0.03297366574406624,
      "learning_rate": 0.0002,
      "loss": 0.5302354097366333,
      "mean_token_accuracy": 0.7871804982423782,
      "num_tokens": 9126264.0,
      "step": 561
    },
    {
      "entropy": 0.5324128270149231,
      "epoch": 2.097287184284378,
      "grad_norm": 0.040097158402204514,
      "learning_rate": 0.0002,
      "loss": 0.5449591875076294,
      "mean_token_accuracy": 0.7766915112733841,
      "num_tokens": 9142405.0,
      "step": 562
    },
    {
      "entropy": 0.5327176600694656,
      "epoch": 2.101028999064546,
      "grad_norm": 0.03983257710933685,
      "learning_rate": 0.0002,
      "loss": 0.5427699089050293,
      "mean_token_accuracy": 0.780575692653656,
      "num_tokens": 9158550.0,
      "step": 563
    },
    {
      "entropy": 0.5298762768507004,
      "epoch": 2.1047708138447145,
      "grad_norm": 0.035936590284109116,
      "learning_rate": 0.0002,
      "loss": 0.5320777297019958,
      "mean_token_accuracy": 0.7820149213075638,
      "num_tokens": 9174783.0,
      "step": 564
    },
    {
      "entropy": 0.5250122100114822,
      "epoch": 2.108512628624883,
      "grad_norm": 0.03537021949887276,
      "learning_rate": 0.0002,
      "loss": 0.5220876932144165,
      "mean_token_accuracy": 0.7874044477939606,
      "num_tokens": 9190734.0,
      "step": 565
    },
    {
      "entropy": 0.5498971343040466,
      "epoch": 2.1122544434050514,
      "grad_norm": 0.03972788527607918,
      "learning_rate": 0.0002,
      "loss": 0.5416819453239441,
      "mean_token_accuracy": 0.7811024487018585,
      "num_tokens": 9207046.0,
      "step": 566
    },
    {
      "entropy": 0.5510820746421814,
      "epoch": 2.11599625818522,
      "grad_norm": 0.03674028813838959,
      "learning_rate": 0.0002,
      "loss": 0.5430952906608582,
      "mean_token_accuracy": 0.7772987484931946,
      "num_tokens": 9223541.0,
      "step": 567
    },
    {
      "entropy": 0.5243249386548996,
      "epoch": 2.1197380729653883,
      "grad_norm": 0.03868189826607704,
      "learning_rate": 0.0002,
      "loss": 0.5305947065353394,
      "mean_token_accuracy": 0.7821440249681473,
      "num_tokens": 9239944.0,
      "step": 568
    },
    {
      "entropy": 0.5186186358332634,
      "epoch": 2.1234798877455567,
      "grad_norm": 0.03420955687761307,
      "learning_rate": 0.0002,
      "loss": 0.5219792127609253,
      "mean_token_accuracy": 0.787507027387619,
      "num_tokens": 9256323.0,
      "step": 569
    },
    {
      "entropy": 0.5048380643129349,
      "epoch": 2.127221702525725,
      "grad_norm": 0.043813057243824005,
      "learning_rate": 0.0002,
      "loss": 0.511600911617279,
      "mean_token_accuracy": 0.7919255346059799,
      "num_tokens": 9272250.0,
      "step": 570
    },
    {
      "entropy": 0.5333007425069809,
      "epoch": 2.130963517305893,
      "grad_norm": 0.03591044992208481,
      "learning_rate": 0.0002,
      "loss": 0.5382859110832214,
      "mean_token_accuracy": 0.7790134996175766,
      "num_tokens": 9288633.0,
      "step": 571
    },
    {
      "entropy": 0.5432953387498856,
      "epoch": 2.1347053320860616,
      "grad_norm": 0.03850630670785904,
      "learning_rate": 0.0002,
      "loss": 0.5398726463317871,
      "mean_token_accuracy": 0.7803007066249847,
      "num_tokens": 9304977.0,
      "step": 572
    },
    {
      "entropy": 0.5424948632717133,
      "epoch": 2.13844714686623,
      "grad_norm": 0.042041826993227005,
      "learning_rate": 0.0002,
      "loss": 0.5371389389038086,
      "mean_token_accuracy": 0.7817080616950989,
      "num_tokens": 9321211.0,
      "step": 573
    },
    {
      "entropy": 0.5420571565628052,
      "epoch": 2.1421889616463985,
      "grad_norm": 0.03702463209629059,
      "learning_rate": 0.0002,
      "loss": 0.5405826568603516,
      "mean_token_accuracy": 0.7787773013114929,
      "num_tokens": 9337519.0,
      "step": 574
    },
    {
      "entropy": 0.5343386083841324,
      "epoch": 2.145930776426567,
      "grad_norm": 0.0367942713201046,
      "learning_rate": 0.0002,
      "loss": 0.5343334078788757,
      "mean_token_accuracy": 0.7813169211149216,
      "num_tokens": 9353930.0,
      "step": 575
    },
    {
      "entropy": 0.5107736587524414,
      "epoch": 2.1496725912067354,
      "grad_norm": 0.04816743731498718,
      "learning_rate": 0.0002,
      "loss": 0.5181273221969604,
      "mean_token_accuracy": 0.790352001786232,
      "num_tokens": 9370151.0,
      "step": 576
    },
    {
      "entropy": 0.5483916699886322,
      "epoch": 2.153414405986904,
      "grad_norm": 0.03954138606786728,
      "learning_rate": 0.0002,
      "loss": 0.5537930130958557,
      "mean_token_accuracy": 0.7744487076997757,
      "num_tokens": 9386529.0,
      "step": 577
    },
    {
      "entropy": 0.5222444832324982,
      "epoch": 2.157156220767072,
      "grad_norm": 0.04258863255381584,
      "learning_rate": 0.0002,
      "loss": 0.5331015586853027,
      "mean_token_accuracy": 0.7828160971403122,
      "num_tokens": 9402702.0,
      "step": 578
    },
    {
      "entropy": 0.5395079553127289,
      "epoch": 2.1608980355472402,
      "grad_norm": 0.036775294691324234,
      "learning_rate": 0.0002,
      "loss": 0.5392586588859558,
      "mean_token_accuracy": 0.7785846441984177,
      "num_tokens": 9418983.0,
      "step": 579
    },
    {
      "entropy": 0.5308848768472672,
      "epoch": 2.1646398503274087,
      "grad_norm": 0.041630957275629044,
      "learning_rate": 0.0002,
      "loss": 0.5223425030708313,
      "mean_token_accuracy": 0.7881145030260086,
      "num_tokens": 9435130.0,
      "step": 580
    },
    {
      "entropy": 0.5460510104894638,
      "epoch": 2.168381665107577,
      "grad_norm": 0.040873266756534576,
      "learning_rate": 0.0002,
      "loss": 0.5389937162399292,
      "mean_token_accuracy": 0.7796555161476135,
      "num_tokens": 9451384.0,
      "step": 581
    },
    {
      "entropy": 0.5144870802760124,
      "epoch": 2.1721234798877456,
      "grad_norm": 0.04395061731338501,
      "learning_rate": 0.0002,
      "loss": 0.5220937132835388,
      "mean_token_accuracy": 0.7867953330278397,
      "num_tokens": 9467676.0,
      "step": 582
    },
    {
      "entropy": 0.5361004173755646,
      "epoch": 2.175865294667914,
      "grad_norm": 0.03444032743573189,
      "learning_rate": 0.0002,
      "loss": 0.5381976962089539,
      "mean_token_accuracy": 0.7804248631000519,
      "num_tokens": 9484105.0,
      "step": 583
    },
    {
      "entropy": 0.5315199941396713,
      "epoch": 2.1796071094480824,
      "grad_norm": 0.04019028693437576,
      "learning_rate": 0.0002,
      "loss": 0.538859486579895,
      "mean_token_accuracy": 0.7802779376506805,
      "num_tokens": 9500441.0,
      "step": 584
    },
    {
      "entropy": 0.5049743205308914,
      "epoch": 2.183348924228251,
      "grad_norm": 0.038020916283130646,
      "learning_rate": 0.0002,
      "loss": 0.5077824592590332,
      "mean_token_accuracy": 0.794673815369606,
      "num_tokens": 9516632.0,
      "step": 585
    },
    {
      "entropy": 0.542245015501976,
      "epoch": 2.187090739008419,
      "grad_norm": 0.03803880140185356,
      "learning_rate": 0.0002,
      "loss": 0.5457203388214111,
      "mean_token_accuracy": 0.7765202075242996,
      "num_tokens": 9532790.0,
      "step": 586
    },
    {
      "entropy": 0.545234277844429,
      "epoch": 2.1908325537885873,
      "grad_norm": 0.03659515827894211,
      "learning_rate": 0.0002,
      "loss": 0.5328729748725891,
      "mean_token_accuracy": 0.7851473838090897,
      "num_tokens": 9549021.0,
      "step": 587
    },
    {
      "entropy": 0.5441733747720718,
      "epoch": 2.1945743685687558,
      "grad_norm": 0.03839794918894768,
      "learning_rate": 0.0002,
      "loss": 0.541313648223877,
      "mean_token_accuracy": 0.7806493043899536,
      "num_tokens": 9565414.0,
      "step": 588
    },
    {
      "entropy": 0.5392065942287445,
      "epoch": 2.198316183348924,
      "grad_norm": 0.03657695651054382,
      "learning_rate": 0.0002,
      "loss": 0.5446825623512268,
      "mean_token_accuracy": 0.7759186178445816,
      "num_tokens": 9581834.0,
      "step": 589
    },
    {
      "entropy": 0.5343391597270966,
      "epoch": 2.2020579981290926,
      "grad_norm": 0.03904880955815315,
      "learning_rate": 0.0002,
      "loss": 0.5319048166275024,
      "mean_token_accuracy": 0.7858142107725143,
      "num_tokens": 9598306.0,
      "step": 590
    },
    {
      "entropy": 0.5127864703536034,
      "epoch": 2.205799812909261,
      "grad_norm": 0.041219562292099,
      "learning_rate": 0.0002,
      "loss": 0.5198400616645813,
      "mean_token_accuracy": 0.7894931733608246,
      "num_tokens": 9614512.0,
      "step": 591
    },
    {
      "entropy": 0.5380221456289291,
      "epoch": 2.2095416276894295,
      "grad_norm": 0.03763064742088318,
      "learning_rate": 0.0002,
      "loss": 0.5350849032402039,
      "mean_token_accuracy": 0.779957503080368,
      "num_tokens": 9630831.0,
      "step": 592
    },
    {
      "entropy": 0.5404982268810272,
      "epoch": 2.213283442469598,
      "grad_norm": 0.03594009950757027,
      "learning_rate": 0.0002,
      "loss": 0.5446127653121948,
      "mean_token_accuracy": 0.7765700072050095,
      "num_tokens": 9647260.0,
      "step": 593
    },
    {
      "entropy": 0.5349030494689941,
      "epoch": 2.217025257249766,
      "grad_norm": 0.039131198078393936,
      "learning_rate": 0.0002,
      "loss": 0.5407675504684448,
      "mean_token_accuracy": 0.7807668596506119,
      "num_tokens": 9663454.0,
      "step": 594
    },
    {
      "entropy": 0.5357907861471176,
      "epoch": 2.2207670720299344,
      "grad_norm": 0.03754086792469025,
      "learning_rate": 0.0002,
      "loss": 0.5390987396240234,
      "mean_token_accuracy": 0.7814063429832458,
      "num_tokens": 9679665.0,
      "step": 595
    },
    {
      "entropy": 0.539327397942543,
      "epoch": 2.224508886810103,
      "grad_norm": 0.042121171951293945,
      "learning_rate": 0.0002,
      "loss": 0.5349074006080627,
      "mean_token_accuracy": 0.7835494577884674,
      "num_tokens": 9695690.0,
      "step": 596
    },
    {
      "entropy": 0.5527440309524536,
      "epoch": 2.2282507015902713,
      "grad_norm": 0.034759730100631714,
      "learning_rate": 0.0002,
      "loss": 0.546990156173706,
      "mean_token_accuracy": 0.7748693376779556,
      "num_tokens": 9711925.0,
      "step": 597
    },
    {
      "entropy": 0.5339156091213226,
      "epoch": 2.2319925163704397,
      "grad_norm": 0.03824164718389511,
      "learning_rate": 0.0002,
      "loss": 0.5315659642219543,
      "mean_token_accuracy": 0.7847660332918167,
      "num_tokens": 9728568.0,
      "step": 598
    },
    {
      "entropy": 0.5418261140584946,
      "epoch": 2.235734331150608,
      "grad_norm": 0.03952635079622269,
      "learning_rate": 0.0002,
      "loss": 0.5444273948669434,
      "mean_token_accuracy": 0.7786458134651184,
      "num_tokens": 9744937.0,
      "step": 599
    },
    {
      "entropy": 0.5325147211551666,
      "epoch": 2.2394761459307766,
      "grad_norm": 0.038507163524627686,
      "learning_rate": 0.0002,
      "loss": 0.538148045539856,
      "mean_token_accuracy": 0.7803481221199036,
      "num_tokens": 9761521.0,
      "step": 600
    },
    {
      "entropy": 0.5348295122385025,
      "epoch": 2.243217960710945,
      "grad_norm": 0.035764180123806,
      "learning_rate": 0.0002,
      "loss": 0.5350884199142456,
      "mean_token_accuracy": 0.7832496911287308,
      "num_tokens": 9777702.0,
      "step": 601
    },
    {
      "entropy": 0.549017146229744,
      "epoch": 2.246959775491113,
      "grad_norm": 0.037822045385837555,
      "learning_rate": 0.0002,
      "loss": 0.5440195798873901,
      "mean_token_accuracy": 0.7799560874700546,
      "num_tokens": 9794070.0,
      "step": 602
    },
    {
      "entropy": 0.5402355939149857,
      "epoch": 2.2507015902712815,
      "grad_norm": 0.04137027636170387,
      "learning_rate": 0.0002,
      "loss": 0.552240788936615,
      "mean_token_accuracy": 0.7787455171346664,
      "num_tokens": 9810307.0,
      "step": 603
    },
    {
      "entropy": 0.5575389862060547,
      "epoch": 2.25444340505145,
      "grad_norm": 0.03639021888375282,
      "learning_rate": 0.0002,
      "loss": 0.555095911026001,
      "mean_token_accuracy": 0.7715982496738434,
      "num_tokens": 9826944.0,
      "step": 604
    },
    {
      "entropy": 0.5453804582357407,
      "epoch": 2.2581852198316184,
      "grad_norm": 0.0329916886985302,
      "learning_rate": 0.0002,
      "loss": 0.5451047420501709,
      "mean_token_accuracy": 0.778001993894577,
      "num_tokens": 9843174.0,
      "step": 605
    },
    {
      "entropy": 0.5351513028144836,
      "epoch": 2.261927034611787,
      "grad_norm": 0.04027882218360901,
      "learning_rate": 0.0002,
      "loss": 0.5335583686828613,
      "mean_token_accuracy": 0.7831520736217499,
      "num_tokens": 9859568.0,
      "step": 606
    },
    {
      "entropy": 0.5303051620721817,
      "epoch": 2.2656688493919552,
      "grad_norm": 0.037942592054605484,
      "learning_rate": 0.0002,
      "loss": 0.5293945670127869,
      "mean_token_accuracy": 0.7875201851129532,
      "num_tokens": 9876127.0,
      "step": 607
    },
    {
      "entropy": 0.5205637887120247,
      "epoch": 2.2694106641721237,
      "grad_norm": 0.039965420961380005,
      "learning_rate": 0.0002,
      "loss": 0.5284023284912109,
      "mean_token_accuracy": 0.7851175218820572,
      "num_tokens": 9892336.0,
      "step": 608
    },
    {
      "entropy": 0.5270423293113708,
      "epoch": 2.2731524789522917,
      "grad_norm": 0.045534420758485794,
      "learning_rate": 0.0002,
      "loss": 0.5361034274101257,
      "mean_token_accuracy": 0.7813378870487213,
      "num_tokens": 9908677.0,
      "step": 609
    },
    {
      "entropy": 0.5461472570896149,
      "epoch": 2.27689429373246,
      "grad_norm": 0.03911803662776947,
      "learning_rate": 0.0002,
      "loss": 0.5419346690177917,
      "mean_token_accuracy": 0.7793000787496567,
      "num_tokens": 9925188.0,
      "step": 610
    },
    {
      "entropy": 0.5332899391651154,
      "epoch": 2.2806361085126285,
      "grad_norm": 0.03753461316227913,
      "learning_rate": 0.0002,
      "loss": 0.5261275172233582,
      "mean_token_accuracy": 0.7856169193983078,
      "num_tokens": 9941232.0,
      "step": 611
    },
    {
      "entropy": 0.5298324078321457,
      "epoch": 2.284377923292797,
      "grad_norm": 0.03578303009271622,
      "learning_rate": 0.0002,
      "loss": 0.525759220123291,
      "mean_token_accuracy": 0.7869399040937424,
      "num_tokens": 9957312.0,
      "step": 612
    },
    {
      "entropy": 0.5350215286016464,
      "epoch": 2.2881197380729654,
      "grad_norm": 0.04014569893479347,
      "learning_rate": 0.0002,
      "loss": 0.5390491485595703,
      "mean_token_accuracy": 0.7834457159042358,
      "num_tokens": 9973629.0,
      "step": 613
    },
    {
      "entropy": 0.5366346836090088,
      "epoch": 2.291861552853134,
      "grad_norm": 0.03635207563638687,
      "learning_rate": 0.0002,
      "loss": 0.5361836552619934,
      "mean_token_accuracy": 0.7822949439287186,
      "num_tokens": 9990003.0,
      "step": 614
    },
    {
      "entropy": 0.5358218550682068,
      "epoch": 2.2956033676333023,
      "grad_norm": 0.04499870166182518,
      "learning_rate": 0.0002,
      "loss": 0.5433334708213806,
      "mean_token_accuracy": 0.781024381518364,
      "num_tokens": 10006594.0,
      "step": 615
    },
    {
      "entropy": 0.5238985568284988,
      "epoch": 2.2993451824134707,
      "grad_norm": 0.041404612362384796,
      "learning_rate": 0.0002,
      "loss": 0.5319328308105469,
      "mean_token_accuracy": 0.7816060185432434,
      "num_tokens": 10022841.0,
      "step": 616
    },
    {
      "entropy": 0.5418704599142075,
      "epoch": 2.3030869971936387,
      "grad_norm": 0.03798811510205269,
      "learning_rate": 0.0002,
      "loss": 0.5385047793388367,
      "mean_token_accuracy": 0.781515583395958,
      "num_tokens": 10039191.0,
      "step": 617
    },
    {
      "entropy": 0.5519637167453766,
      "epoch": 2.306828811973807,
      "grad_norm": 0.03714706003665924,
      "learning_rate": 0.0002,
      "loss": 0.5444304347038269,
      "mean_token_accuracy": 0.779953271150589,
      "num_tokens": 10055793.0,
      "step": 618
    },
    {
      "entropy": 0.5363687425851822,
      "epoch": 2.3105706267539756,
      "grad_norm": 0.0435946062207222,
      "learning_rate": 0.0002,
      "loss": 0.538260817527771,
      "mean_token_accuracy": 0.7822400480508804,
      "num_tokens": 10072406.0,
      "step": 619
    },
    {
      "entropy": 0.5363148003816605,
      "epoch": 2.314312441534144,
      "grad_norm": 0.03934507444500923,
      "learning_rate": 0.0002,
      "loss": 0.5490261316299438,
      "mean_token_accuracy": 0.7775698453187943,
      "num_tokens": 10088893.0,
      "step": 620
    },
    {
      "entropy": 0.5337411910295486,
      "epoch": 2.3180542563143125,
      "grad_norm": 0.040114130824804306,
      "learning_rate": 0.0002,
      "loss": 0.5454047322273254,
      "mean_token_accuracy": 0.7799661755561829,
      "num_tokens": 10105348.0,
      "step": 621
    },
    {
      "entropy": 0.5429546684026718,
      "epoch": 2.321796071094481,
      "grad_norm": 0.04296046867966652,
      "learning_rate": 0.0002,
      "loss": 0.543846070766449,
      "mean_token_accuracy": 0.7779647558927536,
      "num_tokens": 10121753.0,
      "step": 622
    },
    {
      "entropy": 0.5331653952598572,
      "epoch": 2.3255378858746494,
      "grad_norm": 0.03862839564681053,
      "learning_rate": 0.0002,
      "loss": 0.5329957008361816,
      "mean_token_accuracy": 0.7838963121175766,
      "num_tokens": 10138069.0,
      "step": 623
    },
    {
      "entropy": 0.5332556366920471,
      "epoch": 2.3292797006548174,
      "grad_norm": 0.03637029603123665,
      "learning_rate": 0.0002,
      "loss": 0.5306488871574402,
      "mean_token_accuracy": 0.7843363881111145,
      "num_tokens": 10154386.0,
      "step": 624
    },
    {
      "entropy": 0.5389147102832794,
      "epoch": 2.333021515434986,
      "grad_norm": 0.04242001101374626,
      "learning_rate": 0.0002,
      "loss": 0.5379246473312378,
      "mean_token_accuracy": 0.7805036455392838,
      "num_tokens": 10170602.0,
      "step": 625
    },
    {
      "entropy": 0.529606968164444,
      "epoch": 2.3367633302151543,
      "grad_norm": 0.04366292059421539,
      "learning_rate": 0.0002,
      "loss": 0.5345982909202576,
      "mean_token_accuracy": 0.7849325835704803,
      "num_tokens": 10186681.0,
      "step": 626
    },
    {
      "entropy": 0.5343451648950577,
      "epoch": 2.3405051449953227,
      "grad_norm": 0.04901853948831558,
      "learning_rate": 0.0002,
      "loss": 0.5390074253082275,
      "mean_token_accuracy": 0.7809460461139679,
      "num_tokens": 10202735.0,
      "step": 627
    },
    {
      "entropy": 0.5364287346601486,
      "epoch": 2.344246959775491,
      "grad_norm": 0.03992681950330734,
      "learning_rate": 0.0002,
      "loss": 0.5428602695465088,
      "mean_token_accuracy": 0.7803080379962921,
      "num_tokens": 10219104.0,
      "step": 628
    },
    {
      "entropy": 0.5363292992115021,
      "epoch": 2.3479887745556596,
      "grad_norm": 0.04561900347471237,
      "learning_rate": 0.0002,
      "loss": 0.5422950983047485,
      "mean_token_accuracy": 0.7803726643323898,
      "num_tokens": 10235450.0,
      "step": 629
    },
    {
      "entropy": 0.5503382086753845,
      "epoch": 2.351730589335828,
      "grad_norm": 0.036633238196372986,
      "learning_rate": 0.0002,
      "loss": 0.5429909229278564,
      "mean_token_accuracy": 0.777814120054245,
      "num_tokens": 10251744.0,
      "step": 630
    },
    {
      "entropy": 0.5556712299585342,
      "epoch": 2.3554724041159965,
      "grad_norm": 0.03755469620227814,
      "learning_rate": 0.0002,
      "loss": 0.5372464060783386,
      "mean_token_accuracy": 0.7816385924816132,
      "num_tokens": 10268228.0,
      "step": 631
    },
    {
      "entropy": 0.54240882396698,
      "epoch": 2.3592142188961645,
      "grad_norm": 0.04244554787874222,
      "learning_rate": 0.0002,
      "loss": 0.5416730046272278,
      "mean_token_accuracy": 0.7805517017841339,
      "num_tokens": 10284594.0,
      "step": 632
    },
    {
      "entropy": 0.5457853078842163,
      "epoch": 2.362956033676333,
      "grad_norm": 0.03768390789628029,
      "learning_rate": 0.0002,
      "loss": 0.5503990054130554,
      "mean_token_accuracy": 0.7760391384363174,
      "num_tokens": 10300645.0,
      "step": 633
    },
    {
      "entropy": 0.5061568543314934,
      "epoch": 2.3666978484565013,
      "grad_norm": 0.04066069424152374,
      "learning_rate": 0.0002,
      "loss": 0.5147897601127625,
      "mean_token_accuracy": 0.7923619449138641,
      "num_tokens": 10317035.0,
      "step": 634
    },
    {
      "entropy": 0.5265238285064697,
      "epoch": 2.3704396632366698,
      "grad_norm": 0.045070137828588486,
      "learning_rate": 0.0002,
      "loss": 0.5342065691947937,
      "mean_token_accuracy": 0.7828978300094604,
      "num_tokens": 10333097.0,
      "step": 635
    },
    {
      "entropy": 0.5213058292865753,
      "epoch": 2.374181478016838,
      "grad_norm": 0.04251949489116669,
      "learning_rate": 0.0002,
      "loss": 0.5242940783500671,
      "mean_token_accuracy": 0.7875875681638718,
      "num_tokens": 10349477.0,
      "step": 636
    },
    {
      "entropy": 0.532469779253006,
      "epoch": 2.3779232927970066,
      "grad_norm": 0.04180033504962921,
      "learning_rate": 0.0002,
      "loss": 0.5338732600212097,
      "mean_token_accuracy": 0.7874448299407959,
      "num_tokens": 10365855.0,
      "step": 637
    },
    {
      "entropy": 0.5583899617195129,
      "epoch": 2.381665107577175,
      "grad_norm": 0.036461617797613144,
      "learning_rate": 0.0002,
      "loss": 0.5522404313087463,
      "mean_token_accuracy": 0.7765318900346756,
      "num_tokens": 10382454.0,
      "step": 638
    },
    {
      "entropy": 0.5361616462469101,
      "epoch": 2.385406922357343,
      "grad_norm": 0.03820829838514328,
      "learning_rate": 0.0002,
      "loss": 0.5331661701202393,
      "mean_token_accuracy": 0.7812754958868027,
      "num_tokens": 10398570.0,
      "step": 639
    },
    {
      "entropy": 0.5388377606868744,
      "epoch": 2.3891487371375115,
      "grad_norm": 0.03890148177742958,
      "learning_rate": 0.0002,
      "loss": 0.535783052444458,
      "mean_token_accuracy": 0.7837421149015427,
      "num_tokens": 10415136.0,
      "step": 640
    },
    {
      "entropy": 0.5403297692537308,
      "epoch": 2.39289055191768,
      "grad_norm": 0.037266530096530914,
      "learning_rate": 0.0002,
      "loss": 0.5458592176437378,
      "mean_token_accuracy": 0.7799215018749237,
      "num_tokens": 10431595.0,
      "step": 641
    },
    {
      "entropy": 0.5327188819646835,
      "epoch": 2.3966323666978484,
      "grad_norm": 0.04411016404628754,
      "learning_rate": 0.0002,
      "loss": 0.5372153520584106,
      "mean_token_accuracy": 0.7820907682180405,
      "num_tokens": 10448092.0,
      "step": 642
    },
    {
      "entropy": 0.5483715236186981,
      "epoch": 2.400374181478017,
      "grad_norm": 0.03909829258918762,
      "learning_rate": 0.0002,
      "loss": 0.5454411506652832,
      "mean_token_accuracy": 0.781398132443428,
      "num_tokens": 10464267.0,
      "step": 643
    },
    {
      "entropy": 0.5467081367969513,
      "epoch": 2.4041159962581853,
      "grad_norm": 0.04295220598578453,
      "learning_rate": 0.0002,
      "loss": 0.5442530512809753,
      "mean_token_accuracy": 0.7759910225868225,
      "num_tokens": 10480622.0,
      "step": 644
    },
    {
      "entropy": 0.545724093914032,
      "epoch": 2.4078578110383537,
      "grad_norm": 0.04099191352725029,
      "learning_rate": 0.0002,
      "loss": 0.5471324324607849,
      "mean_token_accuracy": 0.7780001610517502,
      "num_tokens": 10497093.0,
      "step": 645
    },
    {
      "entropy": 0.5526789277791977,
      "epoch": 2.411599625818522,
      "grad_norm": 0.03481397032737732,
      "learning_rate": 0.0002,
      "loss": 0.5524189472198486,
      "mean_token_accuracy": 0.7738725692033768,
      "num_tokens": 10513288.0,
      "step": 646
    },
    {
      "entropy": 0.5496002286672592,
      "epoch": 2.4153414405986906,
      "grad_norm": 0.04474830627441406,
      "learning_rate": 0.0002,
      "loss": 0.5568821430206299,
      "mean_token_accuracy": 0.7747314423322678,
      "num_tokens": 10529966.0,
      "step": 647
    },
    {
      "entropy": 0.5191539749503136,
      "epoch": 2.4190832553788586,
      "grad_norm": 0.04506181180477142,
      "learning_rate": 0.0002,
      "loss": 0.5247750878334045,
      "mean_token_accuracy": 0.7888272404670715,
      "num_tokens": 10546217.0,
      "step": 648
    },
    {
      "entropy": 0.5462011098861694,
      "epoch": 2.422825070159027,
      "grad_norm": 0.03946157172322273,
      "learning_rate": 0.0002,
      "loss": 0.5449219942092896,
      "mean_token_accuracy": 0.7763949930667877,
      "num_tokens": 10562587.0,
      "step": 649
    },
    {
      "entropy": 0.5374903529882431,
      "epoch": 2.4265668849391955,
      "grad_norm": 0.035694316029548645,
      "learning_rate": 0.0002,
      "loss": 0.5298718214035034,
      "mean_token_accuracy": 0.7844248116016388,
      "num_tokens": 10578673.0,
      "step": 650
    },
    {
      "entropy": 0.5490742027759552,
      "epoch": 2.430308699719364,
      "grad_norm": 0.040128957480192184,
      "learning_rate": 0.0002,
      "loss": 0.5476623773574829,
      "mean_token_accuracy": 0.7761844098567963,
      "num_tokens": 10594904.0,
      "step": 651
    },
    {
      "entropy": 0.5350600033998489,
      "epoch": 2.4340505144995324,
      "grad_norm": 0.04965779185295105,
      "learning_rate": 0.0002,
      "loss": 0.5467137694358826,
      "mean_token_accuracy": 0.7777107208967209,
      "num_tokens": 10611301.0,
      "step": 652
    },
    {
      "entropy": 0.5389928370714188,
      "epoch": 2.437792329279701,
      "grad_norm": 0.038716454058885574,
      "learning_rate": 0.0002,
      "loss": 0.5406030416488647,
      "mean_token_accuracy": 0.7798842638731003,
      "num_tokens": 10627924.0,
      "step": 653
    },
    {
      "entropy": 0.5396043509244919,
      "epoch": 2.441534144059869,
      "grad_norm": 0.04796689748764038,
      "learning_rate": 0.0002,
      "loss": 0.5485687255859375,
      "mean_token_accuracy": 0.7767132520675659,
      "num_tokens": 10643995.0,
      "step": 654
    },
    {
      "entropy": 0.5651813000440598,
      "epoch": 2.4452759588400372,
      "grad_norm": 0.03899235278367996,
      "learning_rate": 0.0002,
      "loss": 0.5558621883392334,
      "mean_token_accuracy": 0.7751055210828781,
      "num_tokens": 10660611.0,
      "step": 655
    },
    {
      "entropy": 0.5467101633548737,
      "epoch": 2.4490177736202057,
      "grad_norm": 0.041317425668239594,
      "learning_rate": 0.0002,
      "loss": 0.544463574886322,
      "mean_token_accuracy": 0.7791299223899841,
      "num_tokens": 10676939.0,
      "step": 656
    },
    {
      "entropy": 0.5405649244785309,
      "epoch": 2.452759588400374,
      "grad_norm": 0.03767058625817299,
      "learning_rate": 0.0002,
      "loss": 0.5359505414962769,
      "mean_token_accuracy": 0.7838631421327591,
      "num_tokens": 10693242.0,
      "step": 657
    },
    {
      "entropy": 0.5295758992433548,
      "epoch": 2.4565014031805426,
      "grad_norm": 0.03993664309382439,
      "learning_rate": 0.0002,
      "loss": 0.5338568091392517,
      "mean_token_accuracy": 0.7815168350934982,
      "num_tokens": 10709228.0,
      "step": 658
    },
    {
      "entropy": 0.5318661481142044,
      "epoch": 2.460243217960711,
      "grad_norm": 0.04673660546541214,
      "learning_rate": 0.0002,
      "loss": 0.5387503504753113,
      "mean_token_accuracy": 0.7823595702648163,
      "num_tokens": 10725743.0,
      "step": 659
    },
    {
      "entropy": 0.5362888127565384,
      "epoch": 2.4639850327408794,
      "grad_norm": 0.0443369522690773,
      "learning_rate": 0.0002,
      "loss": 0.5374599099159241,
      "mean_token_accuracy": 0.7816221117973328,
      "num_tokens": 10742450.0,
      "step": 660
    },
    {
      "entropy": 0.5324875563383102,
      "epoch": 2.467726847521048,
      "grad_norm": 0.037758708000183105,
      "learning_rate": 0.0002,
      "loss": 0.5326871871948242,
      "mean_token_accuracy": 0.7862564772367477,
      "num_tokens": 10758610.0,
      "step": 661
    },
    {
      "entropy": 0.5277500152587891,
      "epoch": 2.4714686623012163,
      "grad_norm": 0.042098864912986755,
      "learning_rate": 0.0002,
      "loss": 0.5331279635429382,
      "mean_token_accuracy": 0.7840241938829422,
      "num_tokens": 10774701.0,
      "step": 662
    },
    {
      "entropy": 0.5366615355014801,
      "epoch": 2.4752104770813843,
      "grad_norm": 0.040946412831544876,
      "learning_rate": 0.0002,
      "loss": 0.5397564768791199,
      "mean_token_accuracy": 0.7829322069883347,
      "num_tokens": 10790740.0,
      "step": 663
    },
    {
      "entropy": 0.5435209423303604,
      "epoch": 2.4789522918615527,
      "grad_norm": 0.04173668473958969,
      "learning_rate": 0.0002,
      "loss": 0.5457897186279297,
      "mean_token_accuracy": 0.7782775014638901,
      "num_tokens": 10806903.0,
      "step": 664
    },
    {
      "entropy": 0.5472803115844727,
      "epoch": 2.482694106641721,
      "grad_norm": 0.040667202323675156,
      "learning_rate": 0.0002,
      "loss": 0.5462859869003296,
      "mean_token_accuracy": 0.7769711166620255,
      "num_tokens": 10823042.0,
      "step": 665
    },
    {
      "entropy": 0.5469382554292679,
      "epoch": 2.4864359214218896,
      "grad_norm": 0.04248496890068054,
      "learning_rate": 0.0002,
      "loss": 0.5395170450210571,
      "mean_token_accuracy": 0.7798823863267899,
      "num_tokens": 10839340.0,
      "step": 666
    },
    {
      "entropy": 0.5202000439167023,
      "epoch": 2.490177736202058,
      "grad_norm": 0.03368566930294037,
      "learning_rate": 0.0002,
      "loss": 0.5234949588775635,
      "mean_token_accuracy": 0.786568820476532,
      "num_tokens": 10855502.0,
      "step": 667
    },
    {
      "entropy": 0.5273594409227371,
      "epoch": 2.4939195509822265,
      "grad_norm": 0.04516978561878204,
      "learning_rate": 0.0002,
      "loss": 0.5360161066055298,
      "mean_token_accuracy": 0.7853840887546539,
      "num_tokens": 10871840.0,
      "step": 668
    },
    {
      "entropy": 0.5393954515457153,
      "epoch": 2.497661365762395,
      "grad_norm": 0.03674040734767914,
      "learning_rate": 0.0002,
      "loss": 0.5378697514533997,
      "mean_token_accuracy": 0.7824258059263229,
      "num_tokens": 10888120.0,
      "step": 669
    },
    {
      "entropy": 0.5479197651147842,
      "epoch": 2.501403180542563,
      "grad_norm": 0.03727351129055023,
      "learning_rate": 0.0002,
      "loss": 0.5392875671386719,
      "mean_token_accuracy": 0.7811300158500671,
      "num_tokens": 10904483.0,
      "step": 670
    },
    {
      "entropy": 0.552995502948761,
      "epoch": 2.5051449953227314,
      "grad_norm": 0.036775074899196625,
      "learning_rate": 0.0002,
      "loss": 0.5475963950157166,
      "mean_token_accuracy": 0.7784164547920227,
      "num_tokens": 10920853.0,
      "step": 671
    },
    {
      "entropy": 0.5446810871362686,
      "epoch": 2.5088868101029,
      "grad_norm": 0.038499053567647934,
      "learning_rate": 0.0002,
      "loss": 0.5511402487754822,
      "mean_token_accuracy": 0.7761510908603668,
      "num_tokens": 10937231.0,
      "step": 672
    },
    {
      "entropy": 0.5175495520234108,
      "epoch": 2.5126286248830683,
      "grad_norm": 0.039775073528289795,
      "learning_rate": 0.0002,
      "loss": 0.5242205858230591,
      "mean_token_accuracy": 0.7848553359508514,
      "num_tokens": 10953429.0,
      "step": 673
    },
    {
      "entropy": 0.5237327665090561,
      "epoch": 2.5163704396632367,
      "grad_norm": 0.04171684384346008,
      "learning_rate": 0.0002,
      "loss": 0.5307218432426453,
      "mean_token_accuracy": 0.7838338315486908,
      "num_tokens": 10969808.0,
      "step": 674
    },
    {
      "entropy": 0.5405460149049759,
      "epoch": 2.520112254443405,
      "grad_norm": 0.04240800440311432,
      "learning_rate": 0.0002,
      "loss": 0.5408159494400024,
      "mean_token_accuracy": 0.7787611186504364,
      "num_tokens": 10986049.0,
      "step": 675
    },
    {
      "entropy": 0.5486787706613541,
      "epoch": 2.5238540692235736,
      "grad_norm": 0.039784692227840424,
      "learning_rate": 0.0002,
      "loss": 0.5455769896507263,
      "mean_token_accuracy": 0.7784162014722824,
      "num_tokens": 11002254.0,
      "step": 676
    },
    {
      "entropy": 0.5363409966230392,
      "epoch": 2.527595884003742,
      "grad_norm": 0.03736806660890579,
      "learning_rate": 0.0002,
      "loss": 0.5266451239585876,
      "mean_token_accuracy": 0.7866665124893188,
      "num_tokens": 11018914.0,
      "step": 677
    },
    {
      "entropy": 0.5279175043106079,
      "epoch": 2.5313376987839105,
      "grad_norm": 0.035363830626010895,
      "learning_rate": 0.0002,
      "loss": 0.5288829207420349,
      "mean_token_accuracy": 0.7874743491411209,
      "num_tokens": 11034952.0,
      "step": 678
    },
    {
      "entropy": 0.5376022309064865,
      "epoch": 2.5350795135640785,
      "grad_norm": 0.051831189543008804,
      "learning_rate": 0.0002,
      "loss": 0.5518858432769775,
      "mean_token_accuracy": 0.7750970423221588,
      "num_tokens": 11051172.0,
      "step": 679
    },
    {
      "entropy": 0.5426171720027924,
      "epoch": 2.538821328344247,
      "grad_norm": 0.04189771041274071,
      "learning_rate": 0.0002,
      "loss": 0.5544742345809937,
      "mean_token_accuracy": 0.7774394005537033,
      "num_tokens": 11067538.0,
      "step": 680
    },
    {
      "entropy": 0.5293037593364716,
      "epoch": 2.5425631431244153,
      "grad_norm": 0.04074425622820854,
      "learning_rate": 0.0002,
      "loss": 0.5310404896736145,
      "mean_token_accuracy": 0.7826415598392487,
      "num_tokens": 11083927.0,
      "step": 681
    },
    {
      "entropy": 0.5473333150148392,
      "epoch": 2.5463049579045838,
      "grad_norm": 0.03279516100883484,
      "learning_rate": 0.0002,
      "loss": 0.5383847951889038,
      "mean_token_accuracy": 0.7836183458566666,
      "num_tokens": 11100675.0,
      "step": 682
    },
    {
      "entropy": 0.5422270894050598,
      "epoch": 2.550046772684752,
      "grad_norm": 0.039768971502780914,
      "learning_rate": 0.0002,
      "loss": 0.543849766254425,
      "mean_token_accuracy": 0.7796186804771423,
      "num_tokens": 11116748.0,
      "step": 683
    },
    {
      "entropy": 0.5384610444307327,
      "epoch": 2.55378858746492,
      "grad_norm": 0.037385329604148865,
      "learning_rate": 0.0002,
      "loss": 0.54084312915802,
      "mean_token_accuracy": 0.7830232381820679,
      "num_tokens": 11133051.0,
      "step": 684
    },
    {
      "entropy": 0.5261296629905701,
      "epoch": 2.5575304022450887,
      "grad_norm": 0.039306074380874634,
      "learning_rate": 0.0002,
      "loss": 0.531363844871521,
      "mean_token_accuracy": 0.785315752029419,
      "num_tokens": 11149362.0,
      "step": 685
    },
    {
      "entropy": 0.5491520762443542,
      "epoch": 2.561272217025257,
      "grad_norm": 0.04143069311976433,
      "learning_rate": 0.0002,
      "loss": 0.5444177389144897,
      "mean_token_accuracy": 0.7807131856679916,
      "num_tokens": 11165746.0,
      "step": 686
    },
    {
      "entropy": 0.53914874792099,
      "epoch": 2.5650140318054255,
      "grad_norm": 0.03408098593354225,
      "learning_rate": 0.0002,
      "loss": 0.5294961929321289,
      "mean_token_accuracy": 0.7870545238256454,
      "num_tokens": 11182138.0,
      "step": 687
    },
    {
      "entropy": 0.5346123576164246,
      "epoch": 2.568755846585594,
      "grad_norm": 0.04301401227712631,
      "learning_rate": 0.0002,
      "loss": 0.5353041887283325,
      "mean_token_accuracy": 0.784915953874588,
      "num_tokens": 11198330.0,
      "step": 688
    },
    {
      "entropy": 0.5318583697080612,
      "epoch": 2.5724976613657624,
      "grad_norm": 0.04231448844075203,
      "learning_rate": 0.0002,
      "loss": 0.5399123430252075,
      "mean_token_accuracy": 0.7802146077156067,
      "num_tokens": 11214613.0,
      "step": 689
    },
    {
      "entropy": 0.5280211716890335,
      "epoch": 2.576239476145931,
      "grad_norm": 0.04549930989742279,
      "learning_rate": 0.0002,
      "loss": 0.5432953238487244,
      "mean_token_accuracy": 0.777678519487381,
      "num_tokens": 11230987.0,
      "step": 690
    },
    {
      "entropy": 0.5567438304424286,
      "epoch": 2.5799812909260993,
      "grad_norm": 0.03926197439432144,
      "learning_rate": 0.0002,
      "loss": 0.5588645339012146,
      "mean_token_accuracy": 0.7713411450386047,
      "num_tokens": 11247503.0,
      "step": 691
    },
    {
      "entropy": 0.542352095246315,
      "epoch": 2.5837231057062677,
      "grad_norm": 0.035485655069351196,
      "learning_rate": 0.0002,
      "loss": 0.5354308485984802,
      "mean_token_accuracy": 0.7822972387075424,
      "num_tokens": 11263949.0,
      "step": 692
    },
    {
      "entropy": 0.5373577028512955,
      "epoch": 2.587464920486436,
      "grad_norm": 0.04045470058917999,
      "learning_rate": 0.0002,
      "loss": 0.524779200553894,
      "mean_token_accuracy": 0.785191684961319,
      "num_tokens": 11280345.0,
      "step": 693
    },
    {
      "entropy": 0.5388759598135948,
      "epoch": 2.591206735266604,
      "grad_norm": 0.03759071230888367,
      "learning_rate": 0.0002,
      "loss": 0.5312530994415283,
      "mean_token_accuracy": 0.7809051126241684,
      "num_tokens": 11296587.0,
      "step": 694
    },
    {
      "entropy": 0.5210207849740982,
      "epoch": 2.5949485500467726,
      "grad_norm": 0.03664049878716469,
      "learning_rate": 0.0002,
      "loss": 0.526019275188446,
      "mean_token_accuracy": 0.7867360413074493,
      "num_tokens": 11313101.0,
      "step": 695
    },
    {
      "entropy": 0.5182994976639748,
      "epoch": 2.598690364826941,
      "grad_norm": 0.05368485301733017,
      "learning_rate": 0.0002,
      "loss": 0.5354053974151611,
      "mean_token_accuracy": 0.7826909422874451,
      "num_tokens": 11329367.0,
      "step": 696
    },
    {
      "entropy": 0.5452821850776672,
      "epoch": 2.6024321796071095,
      "grad_norm": 0.04641703888773918,
      "learning_rate": 0.0002,
      "loss": 0.5546022057533264,
      "mean_token_accuracy": 0.7768976241350174,
      "num_tokens": 11345547.0,
      "step": 697
    },
    {
      "entropy": 0.5391091257333755,
      "epoch": 2.606173994387278,
      "grad_norm": 0.04271511733531952,
      "learning_rate": 0.0002,
      "loss": 0.541153073310852,
      "mean_token_accuracy": 0.7804041355848312,
      "num_tokens": 11361574.0,
      "step": 698
    },
    {
      "entropy": 0.5462173670530319,
      "epoch": 2.6099158091674464,
      "grad_norm": 0.03939999267458916,
      "learning_rate": 0.0002,
      "loss": 0.5369886159896851,
      "mean_token_accuracy": 0.7804831266403198,
      "num_tokens": 11377812.0,
      "step": 699
    },
    {
      "entropy": 0.5714237540960312,
      "epoch": 2.6136576239476144,
      "grad_norm": 0.03745459020137787,
      "learning_rate": 0.0002,
      "loss": 0.5620177984237671,
      "mean_token_accuracy": 0.7719487398862839,
      "num_tokens": 11394403.0,
      "step": 700
    },
    {
      "entropy": 0.5377793908119202,
      "epoch": 2.617399438727783,
      "grad_norm": 0.03732477128505707,
      "learning_rate": 0.0002,
      "loss": 0.5375291109085083,
      "mean_token_accuracy": 0.7813573330640793,
      "num_tokens": 11410706.0,
      "step": 701
    },
    {
      "entropy": 0.5385070145130157,
      "epoch": 2.6211412535079512,
      "grad_norm": 0.04680998623371124,
      "learning_rate": 0.0002,
      "loss": 0.5455629825592041,
      "mean_token_accuracy": 0.776125431060791,
      "num_tokens": 11427143.0,
      "step": 702
    },
    {
      "entropy": 0.5411592125892639,
      "epoch": 2.6248830682881197,
      "grad_norm": 0.037070900201797485,
      "learning_rate": 0.0002,
      "loss": 0.5470774173736572,
      "mean_token_accuracy": 0.7772253155708313,
      "num_tokens": 11443536.0,
      "step": 703
    },
    {
      "entropy": 0.5268983989953995,
      "epoch": 2.628624883068288,
      "grad_norm": 0.04107747972011566,
      "learning_rate": 0.0002,
      "loss": 0.5320890545845032,
      "mean_token_accuracy": 0.7819889187812805,
      "num_tokens": 11459635.0,
      "step": 704
    },
    {
      "entropy": 0.5278744846582413,
      "epoch": 2.6323666978484566,
      "grad_norm": 0.03608566150069237,
      "learning_rate": 0.0002,
      "loss": 0.5288647413253784,
      "mean_token_accuracy": 0.7842333018779755,
      "num_tokens": 11476037.0,
      "step": 705
    },
    {
      "entropy": 0.5504002794623375,
      "epoch": 2.636108512628625,
      "grad_norm": 0.041055019944906235,
      "learning_rate": 0.0002,
      "loss": 0.5523802638053894,
      "mean_token_accuracy": 0.7737344652414322,
      "num_tokens": 11492344.0,
      "step": 706
    },
    {
      "entropy": 0.541622132062912,
      "epoch": 2.6398503274087934,
      "grad_norm": 0.03790360316634178,
      "learning_rate": 0.0002,
      "loss": 0.5410860776901245,
      "mean_token_accuracy": 0.7775967717170715,
      "num_tokens": 11508715.0,
      "step": 707
    },
    {
      "entropy": 0.53721022605896,
      "epoch": 2.643592142188962,
      "grad_norm": 0.048964016139507294,
      "learning_rate": 0.0002,
      "loss": 0.5369323492050171,
      "mean_token_accuracy": 0.7816558331251144,
      "num_tokens": 11525153.0,
      "step": 708
    },
    {
      "entropy": 0.5321754217147827,
      "epoch": 2.64733395696913,
      "grad_norm": 0.048466358333826065,
      "learning_rate": 0.0002,
      "loss": 0.5365191698074341,
      "mean_token_accuracy": 0.7804320156574249,
      "num_tokens": 11541270.0,
      "step": 709
    },
    {
      "entropy": 0.5573434978723526,
      "epoch": 2.6510757717492983,
      "grad_norm": 0.045038264244794846,
      "learning_rate": 0.0002,
      "loss": 0.5563772320747375,
      "mean_token_accuracy": 0.7737798243761063,
      "num_tokens": 11557694.0,
      "step": 710
    },
    {
      "entropy": 0.5524247735738754,
      "epoch": 2.6548175865294668,
      "grad_norm": 0.038673996925354004,
      "learning_rate": 0.0002,
      "loss": 0.5518113970756531,
      "mean_token_accuracy": 0.7768261432647705,
      "num_tokens": 11574308.0,
      "step": 711
    },
    {
      "entropy": 0.5358691960573196,
      "epoch": 2.658559401309635,
      "grad_norm": 0.03978041559457779,
      "learning_rate": 0.0002,
      "loss": 0.5338990688323975,
      "mean_token_accuracy": 0.7842043936252594,
      "num_tokens": 11590586.0,
      "step": 712
    },
    {
      "entropy": 0.5332267433404922,
      "epoch": 2.6623012160898036,
      "grad_norm": 0.03574821725487709,
      "learning_rate": 0.0002,
      "loss": 0.5405697822570801,
      "mean_token_accuracy": 0.7808981388807297,
      "num_tokens": 11606867.0,
      "step": 713
    },
    {
      "entropy": 0.5254797339439392,
      "epoch": 2.666043030869972,
      "grad_norm": 0.040162764489650726,
      "learning_rate": 0.0002,
      "loss": 0.5316233038902283,
      "mean_token_accuracy": 0.7839036136865616,
      "num_tokens": 11623321.0,
      "step": 714
    },
    {
      "entropy": 0.5194612145423889,
      "epoch": 2.66978484565014,
      "grad_norm": 0.0536888912320137,
      "learning_rate": 0.0002,
      "loss": 0.5308873057365417,
      "mean_token_accuracy": 0.7844232022762299,
      "num_tokens": 11639616.0,
      "step": 715
    },
    {
      "entropy": 0.5397140085697174,
      "epoch": 2.6735266604303085,
      "grad_norm": 0.034708283841609955,
      "learning_rate": 0.0002,
      "loss": 0.5418391227722168,
      "mean_token_accuracy": 0.7771459370851517,
      "num_tokens": 11655924.0,
      "step": 716
    },
    {
      "entropy": 0.5523687899112701,
      "epoch": 2.677268475210477,
      "grad_norm": 0.03549209609627724,
      "learning_rate": 0.0002,
      "loss": 0.5451604127883911,
      "mean_token_accuracy": 0.7780284285545349,
      "num_tokens": 11672448.0,
      "step": 717
    },
    {
      "entropy": 0.5573620796203613,
      "epoch": 2.6810102899906454,
      "grad_norm": 0.03517598658800125,
      "learning_rate": 0.0002,
      "loss": 0.5482261180877686,
      "mean_token_accuracy": 0.7732254415750504,
      "num_tokens": 11688985.0,
      "step": 718
    },
    {
      "entropy": 0.5521951466798782,
      "epoch": 2.684752104770814,
      "grad_norm": 0.03560207411646843,
      "learning_rate": 0.0002,
      "loss": 0.5395568609237671,
      "mean_token_accuracy": 0.7822758108377457,
      "num_tokens": 11705608.0,
      "step": 719
    },
    {
      "entropy": 0.5614044666290283,
      "epoch": 2.6884939195509823,
      "grad_norm": 0.04236432537436485,
      "learning_rate": 0.0002,
      "loss": 0.5560280084609985,
      "mean_token_accuracy": 0.7751108258962631,
      "num_tokens": 11721966.0,
      "step": 720
    },
    {
      "entropy": 0.5331545174121857,
      "epoch": 2.6922357343311507,
      "grad_norm": 0.03850049898028374,
      "learning_rate": 0.0002,
      "loss": 0.5384074449539185,
      "mean_token_accuracy": 0.7795211225748062,
      "num_tokens": 11738118.0,
      "step": 721
    },
    {
      "entropy": 0.5322619527578354,
      "epoch": 2.695977549111319,
      "grad_norm": 0.04224139824509621,
      "learning_rate": 0.0002,
      "loss": 0.5480450987815857,
      "mean_token_accuracy": 0.7758100479841232,
      "num_tokens": 11754350.0,
      "step": 722
    },
    {
      "entropy": 0.53462353348732,
      "epoch": 2.6997193638914876,
      "grad_norm": 0.03856648504734039,
      "learning_rate": 0.0002,
      "loss": 0.5420241355895996,
      "mean_token_accuracy": 0.7794053852558136,
      "num_tokens": 11770468.0,
      "step": 723
    },
    {
      "entropy": 0.5529629737138748,
      "epoch": 2.703461178671656,
      "grad_norm": 0.03881238028407097,
      "learning_rate": 0.0002,
      "loss": 0.5515606999397278,
      "mean_token_accuracy": 0.777623638510704,
      "num_tokens": 11786891.0,
      "step": 724
    },
    {
      "entropy": 0.5365050584077835,
      "epoch": 2.707202993451824,
      "grad_norm": 0.030840173363685608,
      "learning_rate": 0.0002,
      "loss": 0.5374981760978699,
      "mean_token_accuracy": 0.7810342460870743,
      "num_tokens": 11803202.0,
      "step": 725
    },
    {
      "entropy": 0.5490061491727829,
      "epoch": 2.7109448082319925,
      "grad_norm": 0.03318411111831665,
      "learning_rate": 0.0002,
      "loss": 0.5416221022605896,
      "mean_token_accuracy": 0.7810187339782715,
      "num_tokens": 11819633.0,
      "step": 726
    },
    {
      "entropy": 0.5287661999464035,
      "epoch": 2.714686623012161,
      "grad_norm": 0.033848777413368225,
      "learning_rate": 0.0002,
      "loss": 0.5285395383834839,
      "mean_token_accuracy": 0.785768449306488,
      "num_tokens": 11835951.0,
      "step": 727
    },
    {
      "entropy": 0.5228402391076088,
      "epoch": 2.7184284377923293,
      "grad_norm": 0.037826504558324814,
      "learning_rate": 0.0002,
      "loss": 0.5267374515533447,
      "mean_token_accuracy": 0.7853263914585114,
      "num_tokens": 11852172.0,
      "step": 728
    },
    {
      "entropy": 0.5451251715421677,
      "epoch": 2.722170252572498,
      "grad_norm": 0.03935185819864273,
      "learning_rate": 0.0002,
      "loss": 0.5431327223777771,
      "mean_token_accuracy": 0.7800047546625137,
      "num_tokens": 11868665.0,
      "step": 729
    },
    {
      "entropy": 0.5370529890060425,
      "epoch": 2.725912067352666,
      "grad_norm": 0.040121592581272125,
      "learning_rate": 0.0002,
      "loss": 0.5504775643348694,
      "mean_token_accuracy": 0.7777304202318192,
      "num_tokens": 11884782.0,
      "step": 730
    },
    {
      "entropy": 0.5336936116218567,
      "epoch": 2.729653882132834,
      "grad_norm": 0.046451181173324585,
      "learning_rate": 0.0002,
      "loss": 0.5401822328567505,
      "mean_token_accuracy": 0.7810492217540741,
      "num_tokens": 11900966.0,
      "step": 731
    },
    {
      "entropy": 0.5421666949987411,
      "epoch": 2.7333956969130027,
      "grad_norm": 0.03996991366147995,
      "learning_rate": 0.0002,
      "loss": 0.5425142645835876,
      "mean_token_accuracy": 0.7759256362915039,
      "num_tokens": 11917559.0,
      "step": 732
    },
    {
      "entropy": 0.5548020005226135,
      "epoch": 2.737137511693171,
      "grad_norm": 0.039705440402030945,
      "learning_rate": 0.0002,
      "loss": 0.5471047163009644,
      "mean_token_accuracy": 0.7788440138101578,
      "num_tokens": 11933791.0,
      "step": 733
    },
    {
      "entropy": 0.5459768623113632,
      "epoch": 2.7408793264733395,
      "grad_norm": 0.044193848967552185,
      "learning_rate": 0.0002,
      "loss": 0.5505638718605042,
      "mean_token_accuracy": 0.7753681987524033,
      "num_tokens": 11949788.0,
      "step": 734
    },
    {
      "entropy": 0.5197051167488098,
      "epoch": 2.744621141253508,
      "grad_norm": 0.04006953909993172,
      "learning_rate": 0.0002,
      "loss": 0.5269069671630859,
      "mean_token_accuracy": 0.7862325310707092,
      "num_tokens": 11965909.0,
      "step": 735
    },
    {
      "entropy": 0.5576485246419907,
      "epoch": 2.7483629560336764,
      "grad_norm": 0.03677723556756973,
      "learning_rate": 0.0002,
      "loss": 0.5640283823013306,
      "mean_token_accuracy": 0.7697114050388336,
      "num_tokens": 11982388.0,
      "step": 736
    },
    {
      "entropy": 0.5379237085580826,
      "epoch": 2.752104770813845,
      "grad_norm": 0.03523614630103111,
      "learning_rate": 0.0002,
      "loss": 0.5367957353591919,
      "mean_token_accuracy": 0.7794550508260727,
      "num_tokens": 11998589.0,
      "step": 737
    },
    {
      "entropy": 0.5357311069965363,
      "epoch": 2.7558465855940133,
      "grad_norm": 0.03599949926137924,
      "learning_rate": 0.0002,
      "loss": 0.5299929976463318,
      "mean_token_accuracy": 0.784047082066536,
      "num_tokens": 12014892.0,
      "step": 738
    },
    {
      "entropy": 0.5434677302837372,
      "epoch": 2.7595884003741817,
      "grad_norm": 0.03983872011303902,
      "learning_rate": 0.0002,
      "loss": 0.537936806678772,
      "mean_token_accuracy": 0.7832438200712204,
      "num_tokens": 12030925.0,
      "step": 739
    },
    {
      "entropy": 0.5472689718008041,
      "epoch": 2.7633302151543497,
      "grad_norm": 0.03287053480744362,
      "learning_rate": 0.0002,
      "loss": 0.5477735996246338,
      "mean_token_accuracy": 0.7759514302015305,
      "num_tokens": 12047168.0,
      "step": 740
    },
    {
      "entropy": 0.5356525778770447,
      "epoch": 2.767072029934518,
      "grad_norm": 0.03699969872832298,
      "learning_rate": 0.0002,
      "loss": 0.5401504635810852,
      "mean_token_accuracy": 0.7797222137451172,
      "num_tokens": 12063859.0,
      "step": 741
    },
    {
      "entropy": 0.522783175110817,
      "epoch": 2.7708138447146866,
      "grad_norm": 0.04751390591263771,
      "learning_rate": 0.0002,
      "loss": 0.5334336161613464,
      "mean_token_accuracy": 0.785777673125267,
      "num_tokens": 12080092.0,
      "step": 742
    },
    {
      "entropy": 0.5513002574443817,
      "epoch": 2.774555659494855,
      "grad_norm": 0.04812496900558472,
      "learning_rate": 0.0002,
      "loss": 0.5542380809783936,
      "mean_token_accuracy": 0.7760861963033676,
      "num_tokens": 12096314.0,
      "step": 743
    },
    {
      "entropy": 0.5436785966157913,
      "epoch": 2.7782974742750235,
      "grad_norm": 0.03719832003116608,
      "learning_rate": 0.0002,
      "loss": 0.5375255346298218,
      "mean_token_accuracy": 0.7817601412534714,
      "num_tokens": 12112385.0,
      "step": 744
    },
    {
      "entropy": 0.5392426550388336,
      "epoch": 2.782039289055192,
      "grad_norm": 0.036235589534044266,
      "learning_rate": 0.0002,
      "loss": 0.5315327644348145,
      "mean_token_accuracy": 0.783770278096199,
      "num_tokens": 12128749.0,
      "step": 745
    },
    {
      "entropy": 0.5371043086051941,
      "epoch": 2.78578110383536,
      "grad_norm": 0.04002665355801582,
      "learning_rate": 0.0002,
      "loss": 0.5355648994445801,
      "mean_token_accuracy": 0.7825834453105927,
      "num_tokens": 12145069.0,
      "step": 746
    },
    {
      "entropy": 0.5386099964380264,
      "epoch": 2.7895229186155284,
      "grad_norm": 0.0372973270714283,
      "learning_rate": 0.0002,
      "loss": 0.5449782609939575,
      "mean_token_accuracy": 0.7772656977176666,
      "num_tokens": 12161381.0,
      "step": 747
    },
    {
      "entropy": 0.49367938190698624,
      "epoch": 2.793264733395697,
      "grad_norm": 0.042931776493787766,
      "learning_rate": 0.0002,
      "loss": 0.49913763999938965,
      "mean_token_accuracy": 0.795563668012619,
      "num_tokens": 12177674.0,
      "step": 748
    },
    {
      "entropy": 0.5577136278152466,
      "epoch": 2.7970065481758652,
      "grad_norm": 0.03464139625430107,
      "learning_rate": 0.0002,
      "loss": 0.563284158706665,
      "mean_token_accuracy": 0.7712576389312744,
      "num_tokens": 12194200.0,
      "step": 749
    },
    {
      "entropy": 0.5163726359605789,
      "epoch": 2.8007483629560337,
      "grad_norm": 0.043806042522192,
      "learning_rate": 0.0002,
      "loss": 0.5230565071105957,
      "mean_token_accuracy": 0.7878428548574448,
      "num_tokens": 12210649.0,
      "step": 750
    },
    {
      "entropy": 0.5474874824285507,
      "epoch": 2.804490177736202,
      "grad_norm": 0.03748728707432747,
      "learning_rate": 0.0002,
      "loss": 0.5494849681854248,
      "mean_token_accuracy": 0.777756467461586,
      "num_tokens": 12226971.0,
      "step": 751
    },
    {
      "entropy": 0.5351517200469971,
      "epoch": 2.8082319925163706,
      "grad_norm": 0.045867737382650375,
      "learning_rate": 0.0002,
      "loss": 0.539400577545166,
      "mean_token_accuracy": 0.7824986279010773,
      "num_tokens": 12243263.0,
      "step": 752
    },
    {
      "entropy": 0.5563795119524002,
      "epoch": 2.811973807296539,
      "grad_norm": 0.03956415131688118,
      "learning_rate": 0.0002,
      "loss": 0.5521907210350037,
      "mean_token_accuracy": 0.7774280607700348,
      "num_tokens": 12259518.0,
      "step": 753
    },
    {
      "entropy": 0.56000916659832,
      "epoch": 2.8157156220767074,
      "grad_norm": 0.038831926882267,
      "learning_rate": 0.0002,
      "loss": 0.5568797588348389,
      "mean_token_accuracy": 0.7727828919887543,
      "num_tokens": 12276004.0,
      "step": 754
    },
    {
      "entropy": 0.5431783348321915,
      "epoch": 2.8194574368568754,
      "grad_norm": 0.04772892966866493,
      "learning_rate": 0.0002,
      "loss": 0.5474101901054382,
      "mean_token_accuracy": 0.7786049693822861,
      "num_tokens": 12292373.0,
      "step": 755
    },
    {
      "entropy": 0.5570650398731232,
      "epoch": 2.823199251637044,
      "grad_norm": 0.03613967075943947,
      "learning_rate": 0.0002,
      "loss": 0.5507438778877258,
      "mean_token_accuracy": 0.7748661190271378,
      "num_tokens": 12309010.0,
      "step": 756
    },
    {
      "entropy": 0.5275236368179321,
      "epoch": 2.8269410664172123,
      "grad_norm": 0.04989537596702576,
      "learning_rate": 0.0002,
      "loss": 0.5294247269630432,
      "mean_token_accuracy": 0.7852834612131119,
      "num_tokens": 12325334.0,
      "step": 757
    },
    {
      "entropy": 0.5346865504980087,
      "epoch": 2.8306828811973808,
      "grad_norm": 0.03763777017593384,
      "learning_rate": 0.0002,
      "loss": 0.536054790019989,
      "mean_token_accuracy": 0.7806695699691772,
      "num_tokens": 12341700.0,
      "step": 758
    },
    {
      "entropy": 0.5543745011091232,
      "epoch": 2.834424695977549,
      "grad_norm": 0.045101623982191086,
      "learning_rate": 0.0002,
      "loss": 0.5560649037361145,
      "mean_token_accuracy": 0.7761011719703674,
      "num_tokens": 12358184.0,
      "step": 759
    },
    {
      "entropy": 0.5500671565532684,
      "epoch": 2.8381665107577176,
      "grad_norm": 0.042196061462163925,
      "learning_rate": 0.0002,
      "loss": 0.5577619075775146,
      "mean_token_accuracy": 0.7745834439992905,
      "num_tokens": 12374727.0,
      "step": 760
    },
    {
      "entropy": 0.5422725081443787,
      "epoch": 2.8419083255378856,
      "grad_norm": 0.037925731390714645,
      "learning_rate": 0.0002,
      "loss": 0.5486158132553101,
      "mean_token_accuracy": 0.7735314965248108,
      "num_tokens": 12391054.0,
      "step": 761
    },
    {
      "entropy": 0.5447213500738144,
      "epoch": 2.845650140318054,
      "grad_norm": 0.039297524839639664,
      "learning_rate": 0.0002,
      "loss": 0.5439249277114868,
      "mean_token_accuracy": 0.7782430201768875,
      "num_tokens": 12407240.0,
      "step": 762
    },
    {
      "entropy": 0.5623101443052292,
      "epoch": 2.8493919550982225,
      "grad_norm": 0.03727223724126816,
      "learning_rate": 0.0002,
      "loss": 0.5529690980911255,
      "mean_token_accuracy": 0.7783486098051071,
      "num_tokens": 12423651.0,
      "step": 763
    },
    {
      "entropy": 0.5487337410449982,
      "epoch": 2.853133769878391,
      "grad_norm": 0.041605204343795776,
      "learning_rate": 0.0002,
      "loss": 0.5483216047286987,
      "mean_token_accuracy": 0.7777005285024643,
      "num_tokens": 12439865.0,
      "step": 764
    },
    {
      "entropy": 0.5403908789157867,
      "epoch": 2.8568755846585594,
      "grad_norm": 0.042009830474853516,
      "learning_rate": 0.0002,
      "loss": 0.5446419715881348,
      "mean_token_accuracy": 0.7782749831676483,
      "num_tokens": 12456283.0,
      "step": 765
    },
    {
      "entropy": 0.5366557389497757,
      "epoch": 2.860617399438728,
      "grad_norm": 0.03936697915196419,
      "learning_rate": 0.0002,
      "loss": 0.542513370513916,
      "mean_token_accuracy": 0.7779817581176758,
      "num_tokens": 12472812.0,
      "step": 766
    },
    {
      "entropy": 0.5674513280391693,
      "epoch": 2.8643592142188963,
      "grad_norm": 0.050604403018951416,
      "learning_rate": 0.0002,
      "loss": 0.5683247447013855,
      "mean_token_accuracy": 0.7713179588317871,
      "num_tokens": 12489449.0,
      "step": 767
    },
    {
      "entropy": 0.5182722359895706,
      "epoch": 2.8681010289990647,
      "grad_norm": 0.036767635494470596,
      "learning_rate": 0.0002,
      "loss": 0.5209700465202332,
      "mean_token_accuracy": 0.7906691282987595,
      "num_tokens": 12505831.0,
      "step": 768
    },
    {
      "entropy": 0.5400542318820953,
      "epoch": 2.871842843779233,
      "grad_norm": 0.0423893928527832,
      "learning_rate": 0.0002,
      "loss": 0.5363757014274597,
      "mean_token_accuracy": 0.7849675416946411,
      "num_tokens": 12522266.0,
      "step": 769
    },
    {
      "entropy": 0.5384216755628586,
      "epoch": 2.875584658559401,
      "grad_norm": 0.03423478081822395,
      "learning_rate": 0.0002,
      "loss": 0.539215087890625,
      "mean_token_accuracy": 0.7803387194871902,
      "num_tokens": 12538797.0,
      "step": 770
    },
    {
      "entropy": 0.5494250059127808,
      "epoch": 2.8793264733395696,
      "grad_norm": 0.03864506259560585,
      "learning_rate": 0.0002,
      "loss": 0.5536534786224365,
      "mean_token_accuracy": 0.7749843001365662,
      "num_tokens": 12554840.0,
      "step": 771
    },
    {
      "entropy": 0.5292802900075912,
      "epoch": 2.883068288119738,
      "grad_norm": 0.03668517246842384,
      "learning_rate": 0.0002,
      "loss": 0.531915009021759,
      "mean_token_accuracy": 0.7857315242290497,
      "num_tokens": 12571194.0,
      "step": 772
    },
    {
      "entropy": 0.5444097071886063,
      "epoch": 2.8868101028999065,
      "grad_norm": 0.03593030199408531,
      "learning_rate": 0.0002,
      "loss": 0.5466811060905457,
      "mean_token_accuracy": 0.7787587195634842,
      "num_tokens": 12587746.0,
      "step": 773
    },
    {
      "entropy": 0.5468859821557999,
      "epoch": 2.890551917680075,
      "grad_norm": 0.042690832167863846,
      "learning_rate": 0.0002,
      "loss": 0.5463913679122925,
      "mean_token_accuracy": 0.779534175992012,
      "num_tokens": 12604183.0,
      "step": 774
    },
    {
      "entropy": 0.5508814752101898,
      "epoch": 2.8942937324602434,
      "grad_norm": 0.04205498844385147,
      "learning_rate": 0.0002,
      "loss": 0.5481387376785278,
      "mean_token_accuracy": 0.776447519659996,
      "num_tokens": 12620732.0,
      "step": 775
    },
    {
      "entropy": 0.5370959490537643,
      "epoch": 2.8980355472404113,
      "grad_norm": 0.04001722112298012,
      "learning_rate": 0.0002,
      "loss": 0.5357980728149414,
      "mean_token_accuracy": 0.7828036099672318,
      "num_tokens": 12636847.0,
      "step": 776
    },
    {
      "entropy": 0.5336840003728867,
      "epoch": 2.90177736202058,
      "grad_norm": 0.04124586284160614,
      "learning_rate": 0.0002,
      "loss": 0.5350784063339233,
      "mean_token_accuracy": 0.7848693281412125,
      "num_tokens": 12653376.0,
      "step": 777
    },
    {
      "entropy": 0.5422462821006775,
      "epoch": 2.9055191768007482,
      "grad_norm": 0.04322974756360054,
      "learning_rate": 0.0002,
      "loss": 0.5437650680541992,
      "mean_token_accuracy": 0.7811295241117477,
      "num_tokens": 12669838.0,
      "step": 778
    },
    {
      "entropy": 0.5301967561244965,
      "epoch": 2.9092609915809167,
      "grad_norm": 0.040180791169404984,
      "learning_rate": 0.0002,
      "loss": 0.5413050055503845,
      "mean_token_accuracy": 0.7816843837499619,
      "num_tokens": 12686338.0,
      "step": 779
    },
    {
      "entropy": 0.5494007170200348,
      "epoch": 2.913002806361085,
      "grad_norm": 0.03727947920560837,
      "learning_rate": 0.0002,
      "loss": 0.551271915435791,
      "mean_token_accuracy": 0.7756839543581009,
      "num_tokens": 12702976.0,
      "step": 780
    },
    {
      "entropy": 0.557955801486969,
      "epoch": 2.9167446211412535,
      "grad_norm": 0.03641374036669731,
      "learning_rate": 0.0002,
      "loss": 0.5591468214988708,
      "mean_token_accuracy": 0.7722364217042923,
      "num_tokens": 12719319.0,
      "step": 781
    },
    {
      "entropy": 0.5437477082014084,
      "epoch": 2.920486435921422,
      "grad_norm": 0.03696129098534584,
      "learning_rate": 0.0002,
      "loss": 0.539549708366394,
      "mean_token_accuracy": 0.7802012413740158,
      "num_tokens": 12735691.0,
      "step": 782
    },
    {
      "entropy": 0.5459663569927216,
      "epoch": 2.9242282507015904,
      "grad_norm": 0.03394176810979843,
      "learning_rate": 0.0002,
      "loss": 0.5432969331741333,
      "mean_token_accuracy": 0.7803399115800858,
      "num_tokens": 12752042.0,
      "step": 783
    },
    {
      "entropy": 0.540153980255127,
      "epoch": 2.927970065481759,
      "grad_norm": 0.04523579031229019,
      "learning_rate": 0.0002,
      "loss": 0.5408099889755249,
      "mean_token_accuracy": 0.7797322869300842,
      "num_tokens": 12768264.0,
      "step": 784
    },
    {
      "entropy": 0.5484558641910553,
      "epoch": 2.9317118802619273,
      "grad_norm": 0.03857382759451866,
      "learning_rate": 0.0002,
      "loss": 0.554611325263977,
      "mean_token_accuracy": 0.7754960358142853,
      "num_tokens": 12784469.0,
      "step": 785
    },
    {
      "entropy": 0.5373403131961823,
      "epoch": 2.9354536950420953,
      "grad_norm": 0.04521877318620682,
      "learning_rate": 0.0002,
      "loss": 0.5412609577178955,
      "mean_token_accuracy": 0.7812603563070297,
      "num_tokens": 12800714.0,
      "step": 786
    },
    {
      "entropy": 0.5420941710472107,
      "epoch": 2.9391955098222637,
      "grad_norm": 0.037385161966085434,
      "learning_rate": 0.0002,
      "loss": 0.5446354746818542,
      "mean_token_accuracy": 0.7783695161342621,
      "num_tokens": 12816921.0,
      "step": 787
    },
    {
      "entropy": 0.5351656675338745,
      "epoch": 2.942937324602432,
      "grad_norm": 0.041876692324876785,
      "learning_rate": 0.0002,
      "loss": 0.5376321077346802,
      "mean_token_accuracy": 0.7807199209928513,
      "num_tokens": 12833350.0,
      "step": 788
    },
    {
      "entropy": 0.5680812299251556,
      "epoch": 2.9466791393826006,
      "grad_norm": 0.040565043687820435,
      "learning_rate": 0.0002,
      "loss": 0.5634538531303406,
      "mean_token_accuracy": 0.7689831405878067,
      "num_tokens": 12849646.0,
      "step": 789
    },
    {
      "entropy": 0.5357328206300735,
      "epoch": 2.950420954162769,
      "grad_norm": 0.04082103073596954,
      "learning_rate": 0.0002,
      "loss": 0.5352612733840942,
      "mean_token_accuracy": 0.7824973464012146,
      "num_tokens": 12865840.0,
      "step": 790
    },
    {
      "entropy": 0.5547877848148346,
      "epoch": 2.954162768942937,
      "grad_norm": 0.04521463066339493,
      "learning_rate": 0.0002,
      "loss": 0.5542868971824646,
      "mean_token_accuracy": 0.7752365618944168,
      "num_tokens": 12882266.0,
      "step": 791
    },
    {
      "entropy": 0.5343262106180191,
      "epoch": 2.9579045837231055,
      "grad_norm": 0.039067838340997696,
      "learning_rate": 0.0002,
      "loss": 0.5333149433135986,
      "mean_token_accuracy": 0.783295214176178,
      "num_tokens": 12898704.0,
      "step": 792
    },
    {
      "entropy": 0.5165642648935318,
      "epoch": 2.961646398503274,
      "grad_norm": 0.04161246493458748,
      "learning_rate": 0.0002,
      "loss": 0.5219287276268005,
      "mean_token_accuracy": 0.790781170129776,
      "num_tokens": 12914733.0,
      "step": 793
    },
    {
      "entropy": 0.5363114923238754,
      "epoch": 2.9653882132834424,
      "grad_norm": 0.03739769384264946,
      "learning_rate": 0.0002,
      "loss": 0.5376189351081848,
      "mean_token_accuracy": 0.7812457233667374,
      "num_tokens": 12931042.0,
      "step": 794
    },
    {
      "entropy": 0.5318800210952759,
      "epoch": 2.969130028063611,
      "grad_norm": 0.047191355377435684,
      "learning_rate": 0.0002,
      "loss": 0.5360404849052429,
      "mean_token_accuracy": 0.7821078598499298,
      "num_tokens": 12947442.0,
      "step": 795
    },
    {
      "entropy": 0.5284593552350998,
      "epoch": 2.9728718428437793,
      "grad_norm": 0.03614107519388199,
      "learning_rate": 0.0002,
      "loss": 0.5247491598129272,
      "mean_token_accuracy": 0.7871349304914474,
      "num_tokens": 12963611.0,
      "step": 796
    },
    {
      "entropy": 0.5265946090221405,
      "epoch": 2.9766136576239477,
      "grad_norm": 0.04248823598027229,
      "learning_rate": 0.0002,
      "loss": 0.53187096118927,
      "mean_token_accuracy": 0.78339883685112,
      "num_tokens": 12979965.0,
      "step": 797
    },
    {
      "entropy": 0.5121617913246155,
      "epoch": 2.980355472404116,
      "grad_norm": 0.042288120836019516,
      "learning_rate": 0.0002,
      "loss": 0.5201407670974731,
      "mean_token_accuracy": 0.7870761901140213,
      "num_tokens": 12996017.0,
      "step": 798
    },
    {
      "entropy": 0.5229809135198593,
      "epoch": 2.9840972871842846,
      "grad_norm": 0.040804166346788406,
      "learning_rate": 0.0002,
      "loss": 0.5307119488716125,
      "mean_token_accuracy": 0.7831887602806091,
      "num_tokens": 13012277.0,
      "step": 799
    },
    {
      "entropy": 0.5386293828487396,
      "epoch": 2.987839101964453,
      "grad_norm": 0.04149458184838295,
      "learning_rate": 0.0002,
      "loss": 0.5341092348098755,
      "mean_token_accuracy": 0.783338725566864,
      "num_tokens": 13028574.0,
      "step": 800
    },
    {
      "entropy": 0.5334920659661293,
      "epoch": 2.991580916744621,
      "grad_norm": 0.04282135143876076,
      "learning_rate": 0.0002,
      "loss": 0.531876802444458,
      "mean_token_accuracy": 0.7834694683551788,
      "num_tokens": 13044829.0,
      "step": 801
    },
    {
      "entropy": 0.5673989802598953,
      "epoch": 2.9953227315247895,
      "grad_norm": 0.03961246460676193,
      "learning_rate": 0.0002,
      "loss": 0.5678121447563171,
      "mean_token_accuracy": 0.7711912542581558,
      "num_tokens": 13061330.0,
      "step": 802
    },
    {
      "entropy": 0.531833752989769,
      "epoch": 2.999064546304958,
      "grad_norm": 0.03890501707792282,
      "learning_rate": 0.0002,
      "loss": 0.5328924655914307,
      "mean_token_accuracy": 0.7814844250679016,
      "num_tokens": 13077343.0,
      "step": 803
    },
    {
      "entropy": 0.5831514596939087,
      "epoch": 3.0,
      "grad_norm": 0.06591155380010605,
      "learning_rate": 0.0002,
      "loss": 0.5364804267883301,
      "mean_token_accuracy": 0.7760791182518005,
      "num_tokens": 13078463.0,
      "step": 804
    }
  ],
  "logging_steps": 1,
  "max_steps": 804,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.218543283492356e+18,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}