{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 2.0,
  "eval_steps": 250,
  "global_step": 530,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "entropy": 0.825,
      "epoch": 0.01890359168241966,
      "grad_norm": 157.0,
      "learning_rate": 5.925925925925926e-06,
      "loss": 2.9876,
      "mean_token_accuracy": 0.6893173575401306,
      "num_input_tokens_seen": 115216,
      "num_tokens": 114489.0,
      "step": 5,
      "train_runtime": 4.4379,
      "train_tokens_per_second": 25961.602
    },
    {
      "entropy": 0.8890625,
      "epoch": 0.03780718336483932,
      "grad_norm": 24.5,
      "learning_rate": 1.3333333333333333e-05,
      "loss": 0.6662,
      "mean_token_accuracy": 0.8326915562152862,
      "num_input_tokens_seen": 230592,
      "num_tokens": 229109.0,
      "step": 10,
      "train_runtime": 7.7641,
      "train_tokens_per_second": 29699.859
    },
    {
      "entropy": 1.02890625,
      "epoch": 0.05671077504725898,
      "grad_norm": 18.625,
      "learning_rate": 2.074074074074074e-05,
      "loss": 0.6027,
      "mean_token_accuracy": 0.8529165983200073,
      "num_input_tokens_seen": 345600,
      "num_tokens": 343545.0,
      "step": 15,
      "train_runtime": 13.2817,
      "train_tokens_per_second": 26020.836
    },
    {
      "entropy": 1.1421875,
      "epoch": 0.07561436672967864,
      "grad_norm": 19.125,
      "learning_rate": 2.814814814814815e-05,
      "loss": 0.4447,
      "mean_token_accuracy": 0.881816154718399,
      "num_input_tokens_seen": 461282,
      "num_tokens": 458335.0,
      "step": 20,
      "train_runtime": 16.8766,
      "train_tokens_per_second": 27332.56
    },
    {
      "entropy": 1.21640625,
      "epoch": 0.0945179584120983,
      "grad_norm": 21.75,
      "learning_rate": 3.555555555555555e-05,
      "loss": 0.3989,
      "mean_token_accuracy": 0.8929793298244476,
      "num_input_tokens_seen": 576346,
      "num_tokens": 572824.0,
      "step": 25,
      "train_runtime": 22.5256,
      "train_tokens_per_second": 25586.277
    },
    {
      "entropy": 1.26484375,
      "epoch": 0.11342155009451796,
      "grad_norm": 13.625,
      "learning_rate": 3.999843966403289e-05,
      "loss": 0.4872,
      "mean_token_accuracy": 0.8781549751758575,
      "num_input_tokens_seen": 691188,
      "num_tokens": 687152.0,
      "step": 30,
      "train_runtime": 26.0077,
      "train_tokens_per_second": 26576.234
    },
    {
      "entropy": 1.28515625,
      "epoch": 0.1323251417769376,
      "grad_norm": 17.375,
      "learning_rate": 3.99808886803243e-05,
      "loss": 0.28,
      "mean_token_accuracy": 0.9074305832386017,
      "num_input_tokens_seen": 806740,
      "num_tokens": 801973.0,
      "step": 35,
      "train_runtime": 29.7225,
      "train_tokens_per_second": 27142.403
    },
    {
      "entropy": 1.2984375,
      "epoch": 0.15122873345935728,
      "grad_norm": 12.625,
      "learning_rate": 3.994385346473689e-05,
      "loss": 0.356,
      "mean_token_accuracy": 0.9146295249462127,
      "num_input_tokens_seen": 921796,
      "num_tokens": 916426.0,
      "step": 40,
      "train_runtime": 34.6767,
      "train_tokens_per_second": 26582.553
    },
    {
      "entropy": 1.56953125,
      "epoch": 0.17013232514177692,
      "grad_norm": 11.4375,
      "learning_rate": 3.9887370131917e-05,
      "loss": 0.3933,
      "mean_token_accuracy": 0.9064954161643982,
      "num_input_tokens_seen": 1036824,
      "num_tokens": 1030824.0,
      "step": 45,
      "train_runtime": 38.0075,
      "train_tokens_per_second": 27279.472
    },
    {
      "entropy": 1.7515625,
      "epoch": 0.1890359168241966,
      "grad_norm": 15.1875,
      "learning_rate": 3.981149376121427e-05,
      "loss": 0.2873,
      "mean_token_accuracy": 0.9260397672653198,
      "num_input_tokens_seen": 1152356,
      "num_tokens": 1145500.0,
      "step": 50,
      "train_runtime": 43.1792,
      "train_tokens_per_second": 26687.759
    },
    {
      "entropy": 1.75859375,
      "epoch": 0.20793950850661624,
      "grad_norm": 8.5625,
      "learning_rate": 3.97162983429714e-05,
      "loss": 0.3322,
      "mean_token_accuracy": 0.9256749033927918,
      "num_input_tokens_seen": 1267634,
      "num_tokens": 1260057.0,
      "step": 55,
      "train_runtime": 46.6166,
      "train_tokens_per_second": 27192.755
    },
    {
      "entropy": 1.734375,
      "epoch": 0.22684310018903592,
      "grad_norm": 11.6875,
      "learning_rate": 3.960187670637294e-05,
      "loss": 0.2865,
      "mean_token_accuracy": 0.9282522916793823,
      "num_input_tokens_seen": 1383494,
      "num_tokens": 1374973.0,
      "step": 60,
      "train_runtime": 50.5007,
      "train_tokens_per_second": 27395.522
    },
    {
      "entropy": 1.70859375,
      "epoch": 0.24574669187145556,
      "grad_norm": 9.75,
      "learning_rate": 3.946834042892355e-05,
      "loss": 0.2277,
      "mean_token_accuracy": 0.9320353448390961,
      "num_input_tokens_seen": 1499052,
      "num_tokens": 1489683.0,
      "step": 65,
      "train_runtime": 55.2907,
      "train_tokens_per_second": 27112.206
    },
    {
      "entropy": 1.6578125,
      "epoch": 0.2646502835538752,
      "grad_norm": 10.125,
      "learning_rate": 3.931581972764386e-05,
      "loss": 0.2733,
      "mean_token_accuracy": 0.9363594233989716,
      "num_input_tokens_seen": 1614146,
      "num_tokens": 1604106.0,
      "step": 70,
      "train_runtime": 58.5263,
      "train_tokens_per_second": 27579.832
    },
    {
      "entropy": 1.57109375,
      "epoch": 0.2835538752362949,
      "grad_norm": 6.34375,
      "learning_rate": 3.91444633320903e-05,
      "loss": 0.2164,
      "mean_token_accuracy": 0.9349239528179168,
      "num_input_tokens_seen": 1729362,
      "num_tokens": 1718632.0,
      "step": 75,
      "train_runtime": 63.5177,
      "train_tokens_per_second": 27226.454
    },
    {
      "entropy": 1.57734375,
      "epoch": 0.30245746691871456,
      "grad_norm": 10.875,
      "learning_rate": 3.8954438339322366e-05,
      "loss": 0.2173,
      "mean_token_accuracy": 0.9350460767745972,
      "num_input_tokens_seen": 1844444,
      "num_tokens": 1833068.0,
      "step": 80,
      "train_runtime": 66.8194,
      "train_tokens_per_second": 27603.402
    },
    {
      "entropy": 1.62421875,
      "epoch": 0.32136105860113423,
      "grad_norm": 11.0,
      "learning_rate": 3.874593005095909e-05,
      "loss": 0.2337,
      "mean_token_accuracy": 0.929820317029953,
      "num_input_tokens_seen": 1959682,
      "num_tokens": 1947640.0,
      "step": 85,
      "train_runtime": 70.4744,
      "train_tokens_per_second": 27806.99
    },
    {
      "entropy": 1.71171875,
      "epoch": 0.34026465028355385,
      "grad_norm": 8.625,
      "learning_rate": 3.851914179248333e-05,
      "loss": 0.2156,
      "mean_token_accuracy": 0.9308744966983795,
      "num_input_tokens_seen": 2075138,
      "num_tokens": 2062310.0,
      "step": 90,
      "train_runtime": 75.9345,
      "train_tokens_per_second": 27327.991
    },
    {
      "entropy": 1.86875,
      "epoch": 0.3591682419659735,
      "grad_norm": 13.5625,
      "learning_rate": 3.82742947149703e-05,
      "loss": 0.2718,
      "mean_token_accuracy": 0.9264281988143921,
      "num_input_tokens_seen": 2190160,
      "num_tokens": 2176716.0,
      "step": 95,
      "train_runtime": 79.4416,
      "train_tokens_per_second": 27569.42
    },
    {
      "entropy": 1.94765625,
      "epoch": 0.3780718336483932,
      "grad_norm": 6.125,
      "learning_rate": 3.801162757943359e-05,
      "loss": 0.3385,
      "mean_token_accuracy": 0.9164456725120544,
      "num_input_tokens_seen": 2305250,
      "num_tokens": 2291230.0,
      "step": 100,
      "train_runtime": 84.7105,
      "train_tokens_per_second": 27213.265
    },
    {
      "entropy": 1.846875,
      "epoch": 0.39697542533081287,
      "grad_norm": 15.1875,
      "learning_rate": 3.773139652399884e-05,
      "loss": 0.1811,
      "mean_token_accuracy": 0.944804173707962,
      "num_input_tokens_seen": 2420666,
      "num_tokens": 2405904.0,
      "step": 105,
      "train_runtime": 88.7231,
      "train_tokens_per_second": 27283.383
    },
    {
      "entropy": 1.84765625,
      "epoch": 0.4158790170132325,
      "grad_norm": 6.3125,
      "learning_rate": 3.743387481413243e-05,
      "loss": 0.1974,
      "mean_token_accuracy": 0.9379207909107208,
      "num_input_tokens_seen": 2535606,
      "num_tokens": 2520235.0,
      "step": 110,
      "train_runtime": 93.0343,
      "train_tokens_per_second": 27254.523
    },
    {
      "entropy": 1.83984375,
      "epoch": 0.43478260869565216,
      "grad_norm": 2.875,
      "learning_rate": 3.711935257616842e-05,
      "loss": 0.1266,
      "mean_token_accuracy": 0.9594786465167999,
      "num_input_tokens_seen": 2650514,
      "num_tokens": 2634592.0,
      "step": 115,
      "train_runtime": 98.3865,
      "train_tokens_per_second": 26939.815
    },
    {
      "entropy": 1.78984375,
      "epoch": 0.45368620037807184,
      "grad_norm": 3.6875,
      "learning_rate": 3.678813651439376e-05,
      "loss": 0.1993,
      "mean_token_accuracy": 0.9459972441196441,
      "num_input_tokens_seen": 2766004,
      "num_tokens": 2749299.0,
      "step": 120,
      "train_runtime": 102.0946,
      "train_tokens_per_second": 27092.567
    },
    {
      "entropy": 1.78828125,
      "epoch": 0.4725897920604915,
      "grad_norm": 9.1875,
      "learning_rate": 3.6440549611967656e-05,
      "loss": 0.2075,
      "mean_token_accuracy": 0.940614128112793,
      "num_input_tokens_seen": 2880990,
      "num_tokens": 2863713.0,
      "step": 125,
      "train_runtime": 107.8735,
      "train_tokens_per_second": 26707.121
    },
    {
      "entropy": 1.85234375,
      "epoch": 0.4914933837429111,
      "grad_norm": 7.15625,
      "learning_rate": 3.6076930815966654e-05,
      "loss": 0.236,
      "mean_token_accuracy": 0.9343804061412812,
      "num_input_tokens_seen": 2995844,
      "num_tokens": 2978032.0,
      "step": 130,
      "train_runtime": 111.3362,
      "train_tokens_per_second": 26908.095
    },
    {
      "entropy": 1.95859375,
      "epoch": 0.5103969754253308,
      "grad_norm": 7.375,
      "learning_rate": 3.569763470686262e-05,
      "loss": 0.162,
      "mean_token_accuracy": 0.9484993875026703,
      "num_input_tokens_seen": 3111092,
      "num_tokens": 3092605.0,
      "step": 135,
      "train_runtime": 115.8418,
      "train_tokens_per_second": 26856.393
    },
    {
      "entropy": 1.99921875,
      "epoch": 0.5293005671077504,
      "grad_norm": 7.125,
      "learning_rate": 3.530303115275597e-05,
      "loss": 0.1892,
      "mean_token_accuracy": 0.9394895970821381,
      "num_input_tokens_seen": 3226396,
      "num_tokens": 3207190.0,
      "step": 140,
      "train_runtime": 120.7172,
      "train_tokens_per_second": 26726.892
    },
    {
      "entropy": 1.96484375,
      "epoch": 0.5482041587901701,
      "grad_norm": 4.5625,
      "learning_rate": 3.4893504948701185e-05,
      "loss": 0.1614,
      "mean_token_accuracy": 0.9600624740123749,
      "num_input_tokens_seen": 3341802,
      "num_tokens": 3321840.0,
      "step": 145,
      "train_runtime": 124.4268,
      "train_tokens_per_second": 26857.576
    },
    {
      "entropy": 1.90859375,
      "epoch": 0.5671077504725898,
      "grad_norm": 6.96875,
      "learning_rate": 3.4469455441476475e-05,
      "loss": 0.1334,
      "mean_token_accuracy": 0.9625543296337128,
      "num_input_tokens_seen": 3456964,
      "num_tokens": 3436339.0,
      "step": 150,
      "train_runtime": 130.3081,
      "train_tokens_per_second": 26529.148
    },
    {
      "entropy": 1.92421875,
      "epoch": 0.5860113421550095,
      "grad_norm": 12.4375,
      "learning_rate": 3.403129614016339e-05,
      "loss": 0.1427,
      "mean_token_accuracy": 0.9588114261627197,
      "num_input_tokens_seen": 3572084,
      "num_tokens": 3550813.0,
      "step": 155,
      "train_runtime": 133.8989,
      "train_tokens_per_second": 26677.47
    },
    {
      "entropy": 1.98671875,
      "epoch": 0.6049149338374291,
      "grad_norm": 7.3125,
      "learning_rate": 3.357945431291618e-05,
      "loss": 0.2129,
      "mean_token_accuracy": 0.9367718935012818,
      "num_input_tokens_seen": 3687248,
      "num_tokens": 3665300.0,
      "step": 160,
      "train_runtime": 138.2948,
      "train_tokens_per_second": 26662.235
    },
    {
      "entropy": 2.1359375,
      "epoch": 0.6238185255198487,
      "grad_norm": 3.09375,
      "learning_rate": 3.311437057031406e-05,
      "loss": 0.2219,
      "mean_token_accuracy": 0.9387097895145416,
      "num_input_tokens_seen": 3802458,
      "num_tokens": 3779809.0,
      "step": 165,
      "train_runtime": 142.569,
      "train_tokens_per_second": 26671.004
    },
    {
      "entropy": 2.0859375,
      "epoch": 0.6427221172022685,
      "grad_norm": 4.53125,
      "learning_rate": 3.263649843570271e-05,
      "loss": 0.1355,
      "mean_token_accuracy": 0.9585716307163239,
      "num_input_tokens_seen": 3917580,
      "num_tokens": 3894322.0,
      "step": 170,
      "train_runtime": 145.9767,
      "train_tokens_per_second": 26837.021
    },
    {
      "entropy": 1.946875,
      "epoch": 0.6616257088846881,
      "grad_norm": 6.53125,
      "learning_rate": 3.214630390294396e-05,
      "loss": 0.2962,
      "mean_token_accuracy": 0.9372412860393524,
      "num_input_tokens_seen": 4032748,
      "num_tokens": 4008844.0,
      "step": 175,
      "train_runtime": 151.6027,
      "train_tokens_per_second": 26600.765
    },
    {
      "entropy": 1.98671875,
      "epoch": 0.6805293005671077,
      "grad_norm": 6.96875,
      "learning_rate": 3.1644264982005e-05,
      "loss": 0.1841,
      "mean_token_accuracy": 0.9490657150745392,
      "num_input_tokens_seen": 4148142,
      "num_tokens": 4123487.0,
      "step": 180,
      "train_runtime": 154.9764,
      "train_tokens_per_second": 26766.274
    },
    {
      "entropy": 2.021875,
      "epoch": 0.6994328922495274,
      "grad_norm": 2.953125,
      "learning_rate": 3.113087123283002e-05,
      "loss": 0.124,
      "mean_token_accuracy": 0.964401924610138,
      "num_input_tokens_seen": 4263312,
      "num_tokens": 4238014.0,
      "step": 185,
      "train_runtime": 159.4694,
      "train_tokens_per_second": 26734.354
    },
    {
      "entropy": 1.96171875,
      "epoch": 0.718336483931947,
      "grad_norm": 3.4375,
      "learning_rate": 3.060662328794916e-05,
      "loss": 0.1498,
      "mean_token_accuracy": 0.9481843888759613,
      "num_input_tokens_seen": 4378630,
      "num_tokens": 4352627.0,
      "step": 190,
      "train_runtime": 163.6223,
      "train_tokens_per_second": 26760.595
    },
    {
      "entropy": 1.9640625,
      "epoch": 0.7372400756143668,
      "grad_norm": 4.1875,
      "learning_rate": 3.0072032364289914e-05,
      "loss": 0.1076,
      "mean_token_accuracy": 0.9691859900951385,
      "num_input_tokens_seen": 4493600,
      "num_tokens": 4467053.0,
      "step": 195,
      "train_runtime": 166.9247,
      "train_tokens_per_second": 26919.915
    },
    {
      "entropy": 2.02734375,
      "epoch": 0.7561436672967864,
      "grad_norm": 3.875,
      "learning_rate": 2.9527619764667376e-05,
      "loss": 0.2501,
      "mean_token_accuracy": 0.9455641567707062,
      "num_input_tokens_seen": 4609216,
      "num_tokens": 4581812.0,
      "step": 200,
      "train_runtime": 172.0695,
      "train_tokens_per_second": 26786.938
    },
    {
      "entropy": 2.14375,
      "epoch": 0.775047258979206,
      "grad_norm": 5.4375,
      "learning_rate": 2.8973916369439194e-05,
      "loss": 0.2157,
      "mean_token_accuracy": 0.9492439985275268,
      "num_input_tokens_seen": 4724086,
      "num_tokens": 4696178.0,
      "step": 205,
      "train_runtime": 175.6473,
      "train_tokens_per_second": 26895.294
    },
    {
      "entropy": 2.2625,
      "epoch": 0.7939508506616257,
      "grad_norm": 3.75,
      "learning_rate": 2.84114621188211e-05,
      "loss": 0.1762,
      "mean_token_accuracy": 0.9574925601482391,
      "num_input_tokens_seen": 4839702,
      "num_tokens": 4810939.0,
      "step": 210,
      "train_runtime": 180.4712,
      "train_tokens_per_second": 26817.036
    },
    {
      "entropy": 2.2953125,
      "epoch": 0.8128544423440454,
      "grad_norm": 3.9375,
      "learning_rate": 2.7840805486367792e-05,
      "loss": 0.1703,
      "mean_token_accuracy": 0.9540181159973145,
      "num_input_tokens_seen": 4955098,
      "num_tokens": 4925591.0,
      "step": 215,
      "train_runtime": 184.4177,
      "train_tokens_per_second": 26868.891
    },
    {
      "entropy": 2.2828125,
      "epoch": 0.831758034026465,
      "grad_norm": 4.625,
      "learning_rate": 2.7262502944132526e-05,
      "loss": 0.0938,
      "mean_token_accuracy": 0.9725252389907837,
      "num_input_tokens_seen": 5070258,
      "num_tokens": 5040089.0,
      "step": 220,
      "train_runtime": 188.065,
      "train_tokens_per_second": 26960.132
    },
    {
      "entropy": 2.1265625,
      "epoch": 0.8506616257088847,
      "grad_norm": 5.71875,
      "learning_rate": 2.667711842002707e-05,
      "loss": 0.1704,
      "mean_token_accuracy": 0.9579161703586578,
      "num_input_tokens_seen": 5185478,
      "num_tokens": 5154604.0,
      "step": 225,
      "train_runtime": 192.8301,
      "train_tokens_per_second": 26891.43
    },
    {
      "entropy": 2.0484375,
      "epoch": 0.8695652173913043,
      "grad_norm": 4.3125,
      "learning_rate": 2.6085222747911155e-05,
      "loss": 0.4284,
      "mean_token_accuracy": 0.9190201222896576,
      "num_input_tokens_seen": 5301020,
      "num_tokens": 5269357.0,
      "step": 230,
      "train_runtime": 196.1744,
      "train_tokens_per_second": 27021.971
    },
    {
      "entropy": 1.98671875,
      "epoch": 0.888468809073724,
      "grad_norm": 13.3125,
      "learning_rate": 2.5487393110947557e-05,
      "loss": 0.1346,
      "mean_token_accuracy": 0.9579481542110443,
      "num_input_tokens_seen": 5416464,
      "num_tokens": 5384069.0,
      "step": 235,
      "train_runtime": 201.21,
      "train_tokens_per_second": 26919.463
    },
    {
      "entropy": 1.9875,
      "epoch": 0.9073724007561437,
      "grad_norm": 3.84375,
      "learning_rate": 2.4884212478765747e-05,
      "loss": 0.097,
      "mean_token_accuracy": 0.9672803819179535,
      "num_input_tokens_seen": 5531644,
      "num_tokens": 5498568.0,
      "step": 240,
      "train_runtime": 205.075,
      "train_tokens_per_second": 26973.766
    },
    {
      "entropy": 2.00234375,
      "epoch": 0.9262759924385633,
      "grad_norm": 4.9375,
      "learning_rate": 2.427626903898292e-05,
      "loss": 0.2298,
      "mean_token_accuracy": 0.9443018674850464,
      "num_input_tokens_seen": 5646952,
      "num_tokens": 5613157.0,
      "step": 245,
      "train_runtime": 208.4891,
      "train_tokens_per_second": 27085.115
    },
    {
      "entropy": 2.0140625,
      "epoch": 0.945179584120983,
      "grad_norm": 6.03125,
      "learning_rate": 2.3664155623636715e-05,
      "loss": 0.1732,
      "mean_token_accuracy": 0.9442705571651459,
      "num_input_tokens_seen": 5762366,
      "num_tokens": 5727795.0,
      "step": 250,
      "train_runtime": 214.059,
      "train_tokens_per_second": 26919.525
    },
    {
      "entropy": 2.0125,
      "epoch": 0.9640831758034026,
      "grad_norm": 3.546875,
      "learning_rate": 2.304846913108891e-05,
      "loss": 0.1083,
      "mean_token_accuracy": 0.9664817750453949,
      "num_input_tokens_seen": 5877646,
      "num_tokens": 5842437.0,
      "step": 255,
      "train_runtime": 275.7098,
      "train_tokens_per_second": 21318.232
    },
    {
      "entropy": 2.0,
      "epoch": 0.9829867674858223,
      "grad_norm": 2.671875,
      "learning_rate": 2.242980994396401e-05,
      "loss": 0.0875,
      "mean_token_accuracy": 0.9795427262783051,
      "num_input_tokens_seen": 5992710,
      "num_tokens": 5956870.0,
      "step": 260,
      "train_runtime": 280.9684,
      "train_tokens_per_second": 21328.766
    },
    {
      "entropy": 1.9513888888888888,
      "epoch": 1.0,
      "grad_norm": 7.4375,
      "learning_rate": 2.1808781343690027e-05,
      "loss": 0.1654,
      "mean_token_accuracy": 0.9603289763132731,
      "num_input_tokens_seen": 6096342,
      "num_tokens": 6059927.0,
      "step": 265,
      "train_runtime": 284.3725,
      "train_tokens_per_second": 21437.877
    },
    {
      "entropy": 1.903125,
      "epoch": 1.0189035916824196,
      "grad_norm": 3.453125,
      "learning_rate": 2.118598892221257e-05,
      "loss": 0.0783,
      "mean_token_accuracy": 0.9817151129245758,
      "num_input_tokens_seen": 6211574,
      "num_tokens": 6174483.0,
      "step": 270,
      "train_runtime": 288.2049,
      "train_tokens_per_second": 21552.63
    },
    {
      "entropy": 1.84375,
      "epoch": 1.0378071833648392,
      "grad_norm": 1.734375,
      "learning_rate": 2.0562039991455877e-05,
      "loss": 0.1214,
      "mean_token_accuracy": 0.9741188943386078,
      "num_input_tokens_seen": 6327000,
      "num_tokens": 6289163.0,
      "step": 275,
      "train_runtime": 293.7126,
      "train_tokens_per_second": 21541.469
    },
    {
      "entropy": 1.8421875,
      "epoch": 1.056710775047259,
      "grad_norm": 3.78125,
      "learning_rate": 1.99375429911066e-05,
      "loss": 0.1393,
      "mean_token_accuracy": 0.9579156279563904,
      "num_input_tokens_seen": 6442290,
      "num_tokens": 6403766.0,
      "step": 280,
      "train_runtime": 297.1668,
      "train_tokens_per_second": 21679.038
    },
    {
      "entropy": 1.85078125,
      "epoch": 1.0756143667296787,
      "grad_norm": 3.953125,
      "learning_rate": 1.931310689529781e-05,
      "loss": 0.0872,
      "mean_token_accuracy": 0.9788394093513488,
      "num_input_tokens_seen": 6557852,
      "num_tokens": 6518469.0,
      "step": 285,
      "train_runtime": 301.7702,
      "train_tokens_per_second": 21731.276
    },
    {
      "entropy": 1.8234375,
      "epoch": 1.0945179584120983,
      "grad_norm": 7.1875,
      "learning_rate": 1.8689340618771937e-05,
      "loss": 0.0637,
      "mean_token_accuracy": 0.972537738084793,
      "num_input_tokens_seen": 6673032,
      "num_tokens": 6632963.0,
      "step": 290,
      "train_runtime": 306.4769,
      "train_tokens_per_second": 21773.362
    },
    {
      "entropy": 1.78359375,
      "epoch": 1.113421550094518,
      "grad_norm": 5.78125,
      "learning_rate": 1.806685242310156e-05,
      "loss": 0.0565,
      "mean_token_accuracy": 0.9854797184467315,
      "num_input_tokens_seen": 6788174,
      "num_tokens": 6747403.0,
      "step": 295,
      "train_runtime": 310.3851,
      "train_tokens_per_second": 21870.17
    },
    {
      "entropy": 1.76015625,
      "epoch": 1.1323251417769375,
      "grad_norm": 8.8125,
      "learning_rate": 1.7446249323547117e-05,
      "loss": 0.0973,
      "mean_token_accuracy": 0.9734237968921662,
      "num_input_tokens_seen": 6903146,
      "num_tokens": 6861788.0,
      "step": 300,
      "train_runtime": 315.4655,
      "train_tokens_per_second": 21882.41
    },
    {
      "entropy": 1.75078125,
      "epoch": 1.1512287334593574,
      "grad_norm": 1.4453125,
      "learning_rate": 1.6828136497130014e-05,
      "loss": 0.0681,
      "mean_token_accuracy": 0.9820096373558045,
      "num_input_tokens_seen": 7018350,
      "num_tokens": 6976277.0,
      "step": 305,
      "train_runtime": 319.0527,
      "train_tokens_per_second": 21997.465
    },
    {
      "entropy": 1.740625,
      "epoch": 1.170132325141777,
      "grad_norm": 4.90625,
      "learning_rate": 1.6213116692498206e-05,
      "loss": 0.0625,
      "mean_token_accuracy": 0.9826828062534332,
      "num_input_tokens_seen": 7133636,
      "num_tokens": 7090874.0,
      "step": 310,
      "train_runtime": 323.8986,
      "train_tokens_per_second": 22024.29
    },
    {
      "entropy": 1.7328125,
      "epoch": 1.1890359168241966,
      "grad_norm": 0.66015625,
      "learning_rate": 1.560178964215987e-05,
      "loss": 0.077,
      "mean_token_accuracy": 0.978941410779953,
      "num_input_tokens_seen": 7248866,
      "num_tokens": 7205391.0,
      "step": 315,
      "train_runtime": 327.5895,
      "train_tokens_per_second": 22127.897
    },
    {
      "entropy": 1.73203125,
      "epoch": 1.2079395085066162,
      "grad_norm": 4.0625,
      "learning_rate": 1.4994751477658139e-05,
      "loss": 0.067,
      "mean_token_accuracy": 0.9818780541419982,
      "num_input_tokens_seen": 7363900,
      "num_tokens": 7319827.0,
      "step": 320,
      "train_runtime": 331.4598,
      "train_tokens_per_second": 22216.571
    },
    {
      "entropy": 1.73515625,
      "epoch": 1.2268431001890359,
      "grad_norm": 2.734375,
      "learning_rate": 1.4392594148257426e-05,
      "loss": 0.1153,
      "mean_token_accuracy": 0.9638942897319793,
      "num_input_tokens_seen": 7479394,
      "num_tokens": 7434543.0,
      "step": 325,
      "train_runtime": 336.2629,
      "train_tokens_per_second": 22242.696
    },
    {
      "entropy": 1.74609375,
      "epoch": 1.2457466918714555,
      "grad_norm": 2.046875,
      "learning_rate": 1.3795904843707959e-05,
      "loss": 0.0359,
      "mean_token_accuracy": 0.9886789560317993,
      "num_input_tokens_seen": 7594632,
      "num_tokens": 7549134.0,
      "step": 330,
      "train_runtime": 339.6052,
      "train_tokens_per_second": 22363.12
    },
    {
      "entropy": 1.740625,
      "epoch": 1.264650283553875,
      "grad_norm": 2.25,
      "learning_rate": 1.3205265421651588e-05,
      "loss": 0.0808,
      "mean_token_accuracy": 0.9852688193321228,
      "num_input_tokens_seen": 7709704,
      "num_tokens": 7663583.0,
      "step": 335,
      "train_runtime": 344.9458,
      "train_tokens_per_second": 22350.48
    },
    {
      "entropy": 1.75078125,
      "epoch": 1.283553875236295,
      "grad_norm": 1.8125,
      "learning_rate": 1.2621251840227112e-05,
      "loss": 0.0663,
      "mean_token_accuracy": 0.9817369997501373,
      "num_input_tokens_seen": 7824834,
      "num_tokens": 7778064.0,
      "step": 340,
      "train_runtime": 348.223,
      "train_tokens_per_second": 22470.756
    },
    {
      "entropy": 1.75234375,
      "epoch": 1.3024574669187146,
      "grad_norm": 4.28125,
      "learning_rate": 1.2044433596428537e-05,
      "loss": 0.0678,
      "mean_token_accuracy": 0.9812626421451569,
      "num_input_tokens_seen": 7939832,
      "num_tokens": 7892415.0,
      "step": 345,
      "train_runtime": 352.0847,
      "train_tokens_per_second": 22550.916
    },
    {
      "entropy": 1.746875,
      "epoch": 1.3213610586011342,
      "grad_norm": 2.703125,
      "learning_rate": 1.1475373170763819e-05,
      "loss": 0.0465,
      "mean_token_accuracy": 0.9823280215263367,
      "num_input_tokens_seen": 8054988,
      "num_tokens": 8006926.0,
      "step": 350,
      "train_runtime": 357.1271,
      "train_tokens_per_second": 22554.962
    },
    {
      "entropy": 1.74765625,
      "epoch": 1.3402646502835538,
      "grad_norm": 1.4921875,
      "learning_rate": 1.0914625478755672e-05,
      "loss": 0.1174,
      "mean_token_accuracy": 0.9695515096187591,
      "num_input_tokens_seen": 8170098,
      "num_tokens": 8121373.0,
      "step": 355,
      "train_runtime": 360.7524,
      "train_tokens_per_second": 22647.381
    },
    {
      "entropy": 1.74453125,
      "epoch": 1.3591682419659734,
      "grad_norm": 1.1015625,
      "learning_rate": 1.0362737329819413e-05,
      "loss": 0.045,
      "mean_token_accuracy": 0.9885900497436524,
      "num_input_tokens_seen": 8285346,
      "num_tokens": 8235981.0,
      "step": 360,
      "train_runtime": 366.0216,
      "train_tokens_per_second": 22636.221
    },
    {
      "entropy": 1.74296875,
      "epoch": 1.3780718336483933,
      "grad_norm": 5.15625,
      "learning_rate": 9.820246894045316e-06,
      "loss": 0.0428,
      "mean_token_accuracy": 0.9822307825088501,
      "num_input_tokens_seen": 8400240,
      "num_tokens": 8350356.0,
      "step": 365,
      "train_runtime": 369.6364,
      "train_tokens_per_second": 22725.685
    },
    {
      "entropy": 1.73515625,
      "epoch": 1.3969754253308129,
      "grad_norm": 4.09375,
      "learning_rate": 9.28768317740564e-06,
      "loss": 0.099,
      "mean_token_accuracy": 0.9710565328598022,
      "num_input_tokens_seen": 8515740,
      "num_tokens": 8465025.0,
      "step": 370,
      "train_runtime": 373.5701,
      "train_tokens_per_second": 22795.56
    },
    {
      "entropy": 1.7328125,
      "epoch": 1.4158790170132325,
      "grad_norm": 4.96875,
      "learning_rate": 8.765565505897902e-06,
      "loss": 0.0736,
      "mean_token_accuracy": 0.9741575241088867,
      "num_input_tokens_seen": 8631054,
      "num_tokens": 8579648.0,
      "step": 375,
      "train_runtime": 378.7394,
      "train_tokens_per_second": 22788.901
    },
    {
      "entropy": 1.73359375,
      "epoch": 1.434782608695652,
      "grad_norm": 3.265625,
      "learning_rate": 8.254403019127566e-06,
      "loss": 0.0806,
      "mean_token_accuracy": 0.9791056990623475,
      "num_input_tokens_seen": 8746364,
      "num_tokens": 8694249.0,
      "step": 380,
      "train_runtime": 382.0615,
      "train_tokens_per_second": 22892.552
    },
    {
      "entropy": 1.73515625,
      "epoch": 1.4536862003780717,
      "grad_norm": 3.75,
      "learning_rate": 7.754694173823947e-06,
      "loss": 0.0404,
      "mean_token_accuracy": 0.9839386224746705,
      "num_input_tokens_seen": 8861574,
      "num_tokens": 8808789.0,
      "step": 385,
      "train_runtime": 387.2205,
      "train_tokens_per_second": 22885.084
    },
    {
      "entropy": 1.73359375,
      "epoch": 1.4725897920604916,
      "grad_norm": 5.09375,
      "learning_rate": 7.266926257773346e-06,
      "loss": 0.0926,
      "mean_token_accuracy": 0.9714232623577118,
      "num_input_tokens_seen": 8976944,
      "num_tokens": 8923407.0,
      "step": 390,
      "train_runtime": 390.891,
      "train_tokens_per_second": 22965.336
    },
    {
      "entropy": 1.72265625,
      "epoch": 1.4914933837429112,
      "grad_norm": 5.0,
      "learning_rate": 6.7915749146436415e-06,
      "loss": 0.0519,
      "mean_token_accuracy": 0.9837916433811188,
      "num_input_tokens_seen": 9092050,
      "num_tokens": 9037924.0,
      "step": 395,
      "train_runtime": 395.3397,
      "train_tokens_per_second": 22998.071
    },
    {
      "entropy": 1.71796875,
      "epoch": 1.5103969754253308,
      "grad_norm": 3.875,
      "learning_rate": 6.329103680163495e-06,
      "loss": 0.2115,
      "mean_token_accuracy": 0.9516554296016693,
      "num_input_tokens_seen": 9207594,
      "num_tokens": 9152659.0,
      "step": 400,
      "train_runtime": 399.5499,
      "train_tokens_per_second": 23044.916
    },
    {
      "entropy": 1.71640625,
      "epoch": 1.5293005671077504,
      "grad_norm": 0.51953125,
      "learning_rate": 5.879963530108506e-06,
      "loss": 0.0348,
      "mean_token_accuracy": 0.9919346511363983,
      "num_input_tokens_seen": 9322572,
      "num_tokens": 9267059.0,
      "step": 405,
      "train_runtime": 403.4031,
      "train_tokens_per_second": 23109.815
    },
    {
      "entropy": 1.7125,
      "epoch": 1.54820415879017,
      "grad_norm": 2.234375,
      "learning_rate": 5.444592440535177e-06,
      "loss": 0.0374,
      "mean_token_accuracy": 0.9837370038032531,
      "num_input_tokens_seen": 9438004,
      "num_tokens": 9381725.0,
      "step": 410,
      "train_runtime": 407.9692,
      "train_tokens_per_second": 23134.111
    },
    {
      "entropy": 1.7078125,
      "epoch": 1.5671077504725899,
      "grad_norm": 3.09375,
      "learning_rate": 5.023414960691469e-06,
      "loss": 0.0325,
      "mean_token_accuracy": 0.9918534696102143,
      "num_input_tokens_seen": 9553156,
      "num_tokens": 9496255.0,
      "step": 415,
      "train_runtime": 412.1408,
      "train_tokens_per_second": 23179.35
    },
    {
      "entropy": 1.703125,
      "epoch": 1.5860113421550095,
      "grad_norm": 4.78125,
      "learning_rate": 4.616841799020364e-06,
      "loss": 0.0618,
      "mean_token_accuracy": 0.9808044970035553,
      "num_input_tokens_seen": 9668364,
      "num_tokens": 9610808.0,
      "step": 420,
      "train_runtime": 416.3235,
      "train_tokens_per_second": 23223.203
    },
    {
      "entropy": 1.703125,
      "epoch": 1.6049149338374291,
      "grad_norm": 6.1875,
      "learning_rate": 4.225269422660258e-06,
      "loss": 0.0493,
      "mean_token_accuracy": 0.9843941271305084,
      "num_input_tokens_seen": 9783552,
      "num_tokens": 9725283.0,
      "step": 425,
      "train_runtime": 421.1316,
      "train_tokens_per_second": 23231.576
    },
    {
      "entropy": 1.70390625,
      "epoch": 1.6238185255198487,
      "grad_norm": 1.5078125,
      "learning_rate": 3.8490796708326404e-06,
      "loss": 0.0595,
      "mean_token_accuracy": 0.9822299420833588,
      "num_input_tokens_seen": 9898934,
      "num_tokens": 9839878.0,
      "step": 430,
      "train_runtime": 424.7606,
      "train_tokens_per_second": 23304.735
    },
    {
      "entropy": 1.7015625,
      "epoch": 1.6427221172022684,
      "grad_norm": 1.328125,
      "learning_rate": 3.4886393824940924e-06,
      "loss": 0.059,
      "mean_token_accuracy": 0.9807979345321656,
      "num_input_tokens_seen": 10014142,
      "num_tokens": 9954403.0,
      "step": 435,
      "train_runtime": 429.8927,
      "train_tokens_per_second": 23294.514
    },
    {
      "entropy": 1.70390625,
      "epoch": 1.6616257088846882,
      "grad_norm": 2.09375,
      "learning_rate": 3.144300038615691e-06,
      "loss": 0.0574,
      "mean_token_accuracy": 0.9839386105537414,
      "num_input_tokens_seen": 10129264,
      "num_tokens": 10068933.0,
      "step": 440,
      "train_runtime": 433.4828,
      "train_tokens_per_second": 23367.164
    },
    {
      "entropy": 1.6984375,
      "epoch": 1.6805293005671076,
      "grad_norm": 4.25,
      "learning_rate": 2.8163974194386766e-06,
      "loss": 0.0669,
      "mean_token_accuracy": 0.9792383193969727,
      "num_input_tokens_seen": 10244732,
      "num_tokens": 10183591.0,
      "step": 445,
      "train_runtime": 437.9792,
      "train_tokens_per_second": 23390.909
    },
    {
      "entropy": 1.7015625,
      "epoch": 1.6994328922495274,
      "grad_norm": 3.46875,
      "learning_rate": 2.5052512770405434e-06,
      "loss": 0.0801,
      "mean_token_accuracy": 0.9761136710643769,
      "num_input_tokens_seen": 10360212,
      "num_tokens": 10298251.0,
      "step": 450,
      "train_runtime": 442.481,
      "train_tokens_per_second": 23413.915
    },
    {
      "entropy": 1.70234375,
      "epoch": 1.718336483931947,
      "grad_norm": 0.59765625,
      "learning_rate": 2.2111650235309147e-06,
      "loss": 0.0297,
      "mean_token_accuracy": 0.9904489517211914,
      "num_input_tokens_seen": 10475400,
      "num_tokens": 10412810.0,
      "step": 455,
      "train_runtime": 446.3738,
      "train_tokens_per_second": 23467.773
    },
    {
      "entropy": 1.69921875,
      "epoch": 1.7372400756143667,
      "grad_norm": 4.0625,
      "learning_rate": 1.9344254351812287e-06,
      "loss": 0.0989,
      "mean_token_accuracy": 0.9743396818637848,
      "num_input_tokens_seen": 10590710,
      "num_tokens": 10527389.0,
      "step": 460,
      "train_runtime": 451.1755,
      "train_tokens_per_second": 23473.591
    },
    {
      "entropy": 1.703125,
      "epoch": 1.7561436672967865,
      "grad_norm": 0.890625,
      "learning_rate": 1.6753023727767436e-06,
      "loss": 0.0476,
      "mean_token_accuracy": 0.9838890075683594,
      "num_input_tokens_seen": 10705900,
      "num_tokens": 10641918.0,
      "step": 465,
      "train_runtime": 454.754,
      "train_tokens_per_second": 23542.179
    },
    {
      "entropy": 1.7,
      "epoch": 1.775047258979206,
      "grad_norm": 1.359375,
      "learning_rate": 1.4340485184635712e-06,
      "loss": 0.0556,
      "mean_token_accuracy": 0.9777659058570862,
      "num_input_tokens_seen": 10821144,
      "num_tokens": 10756496.0,
      "step": 470,
      "train_runtime": 459.2027,
      "train_tokens_per_second": 23565.072
    },
    {
      "entropy": 1.69921875,
      "epoch": 1.7939508506616257,
      "grad_norm": 1.171875,
      "learning_rate": 1.2108991293473627e-06,
      "loss": 0.0595,
      "mean_token_accuracy": 0.9741835057735443,
      "num_input_tokens_seen": 10936460,
      "num_tokens": 10871124.0,
      "step": 475,
      "train_runtime": 463.6099,
      "train_tokens_per_second": 23589.79
    },
    {
      "entropy": 1.69765625,
      "epoch": 1.8128544423440454,
      "grad_norm": 3.265625,
      "learning_rate": 1.0060718080838683e-06,
      "loss": 0.0541,
      "mean_token_accuracy": 0.9831156551837921,
      "num_input_tokens_seen": 11051508,
      "num_tokens": 10985594.0,
      "step": 480,
      "train_runtime": 467.1593,
      "train_tokens_per_second": 23656.828
    },
    {
      "entropy": 1.70078125,
      "epoch": 1.831758034026465,
      "grad_norm": 2.4375,
      "learning_rate": 8.197662906851534e-07,
      "loss": 0.0835,
      "mean_token_accuracy": 0.9726030707359314,
      "num_input_tokens_seen": 11166904,
      "num_tokens": 11100230.0,
      "step": 485,
      "train_runtime": 472.195,
      "train_tokens_per_second": 23648.922
    },
    {
      "entropy": 1.69921875,
      "epoch": 1.8506616257088848,
      "grad_norm": 2.765625,
      "learning_rate": 6.521642517483573e-07,
      "loss": 0.0532,
      "mean_token_accuracy": 0.9853454470634461,
      "num_input_tokens_seen": 11281802,
      "num_tokens": 11214624.0,
      "step": 490,
      "train_runtime": 475.7718,
      "train_tokens_per_second": 23712.635
    },
    {
      "entropy": 1.70078125,
      "epoch": 1.8695652173913042,
      "grad_norm": 2.171875,
      "learning_rate": 5.034291272968772e-07,
      "loss": 0.027,
      "mean_token_accuracy": 0.9934648215770722,
      "num_input_tokens_seen": 11396946,
      "num_tokens": 11329098.0,
      "step": 495,
      "train_runtime": 480.2436,
      "train_tokens_per_second": 23731.596
    },
    {
      "entropy": 1.6984375,
      "epoch": 1.888468809073724,
      "grad_norm": 4.0625,
      "learning_rate": 3.737059554068334e-07,
      "loss": 0.0742,
      "mean_token_accuracy": 0.9744843065738678,
      "num_input_tokens_seen": 11512282,
      "num_tokens": 11443715.0,
      "step": 500,
      "train_runtime": 484.6792,
      "train_tokens_per_second": 23752.376
    },
    {
      "entropy": 1.69921875,
      "epoch": 1.9073724007561437,
      "grad_norm": 6.84375,
      "learning_rate": 2.631212347741352e-07,
      "loss": 0.1322,
      "mean_token_accuracy": 0.9680740118026734,
      "num_input_tokens_seen": 11627828,
      "num_tokens": 11558513.0,
      "step": 505,
      "train_runtime": 544.5283,
      "train_tokens_per_second": 21353.945
    },
    {
      "entropy": 1.69921875,
      "epoch": 1.9262759924385633,
      "grad_norm": 1.0078125,
      "learning_rate": 1.7178280136011417e-07,
      "loss": 0.0864,
      "mean_token_accuracy": 0.9749818980693817,
      "num_input_tokens_seen": 11743010,
      "num_tokens": 11673010.0,
      "step": 510,
      "train_runtime": 549.7569,
      "train_tokens_per_second": 21360.369
    },
    {
      "entropy": 1.69921875,
      "epoch": 1.9451795841209831,
      "grad_norm": 2.5625,
      "learning_rate": 9.977972323599095e-08,
      "loss": 0.1175,
      "mean_token_accuracy": 0.9680160820484162,
      "num_input_tokens_seen": 11858430,
      "num_tokens": 11787637.0,
      "step": 515,
      "train_runtime": 553.6509,
      "train_tokens_per_second": 21418.605
    },
    {
      "entropy": 1.69765625,
      "epoch": 1.9640831758034025,
      "grad_norm": 2.921875,
      "learning_rate": 4.718221372874254e-08,
      "loss": 0.0695,
      "mean_token_accuracy": 0.9804269134998321,
      "num_input_tokens_seen": 11973576,
      "num_tokens": 11902111.0,
      "step": 520,
      "train_runtime": 557.8609,
      "train_tokens_per_second": 21463.371
    },
    {
      "entropy": 1.69609375,
      "epoch": 1.9829867674858224,
      "grad_norm": 5.8125,
      "learning_rate": 1.4041562953031051e-08,
      "loss": 0.1152,
      "mean_token_accuracy": 0.9696780204772949,
      "num_input_tokens_seen": 12088990,
      "num_tokens": 12016759.0,
      "step": 525,
      "train_runtime": 561.9991,
      "train_tokens_per_second": 21510.694
    },
    {
      "entropy": 1.6961805555555556,
      "epoch": 2.0,
      "grad_norm": 3.75,
      "learning_rate": 3.900877959917004e-10,
      "loss": 0.0989,
      "mean_token_accuracy": 0.9715293182267083,
      "num_input_tokens_seen": 12192662,
      "num_tokens": 12119827.0,
      "step": 530,
      "train_runtime": 565.5622,
      "train_tokens_per_second": 21558.482
    },
    {
      "epoch": 2.0,
      "num_input_tokens_seen": 12192662,
      "step": 530,
      "total_flos": 3.3226637176733696e+16,
      "train_loss": 0.1822078584218925,
      "train_runtime": 612.9949,
      "train_samples_per_second": 27.592,
      "train_steps_per_second": 0.865,
      "train_tokens_per_second": 2486.879
    }
  ],
  "logging_steps": 5,
  "max_steps": 530,
  "num_input_tokens_seen": 12192662,
  "num_train_epochs": 2,
  "save_steps": 250,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 3.3226637176733696e+16,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}