{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 20.0,
  "eval_steps": 500,
  "global_step": 383360,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.026085141903171953,
      "grad_norm": 3.252858877182007,
      "learning_rate": 4.978305856983862e-05,
      "loss": 1.9218,
      "num_input_tokens_seen": 283536,
      "step": 500,
      "train_runtime": 18.7004,
      "train_tokens_per_second": 15162.068
    },
    {
      "epoch": 0.052170283806343906,
      "grad_norm": 3.500765085220337,
      "learning_rate": 4.956568238731219e-05,
      "loss": 1.7605,
      "num_input_tokens_seen": 574552,
      "step": 1000,
      "train_runtime": 38.0018,
      "train_tokens_per_second": 15119.085
    },
    {
      "epoch": 0.07825542570951587,
      "grad_norm": 3.4590671062469482,
      "learning_rate": 4.934830620478575e-05,
      "loss": 1.6898,
      "num_input_tokens_seen": 859976,
      "step": 1500,
      "train_runtime": 57.2593,
      "train_tokens_per_second": 15018.978
    },
    {
      "epoch": 0.10434056761268781,
      "grad_norm": 3.67798113822937,
      "learning_rate": 4.9130930022259324e-05,
      "loss": 1.6968,
      "num_input_tokens_seen": 1151232,
      "step": 2000,
      "train_runtime": 76.5735,
      "train_tokens_per_second": 15034.338
    },
    {
      "epoch": 0.13042570951585977,
      "grad_norm": 3.009059190750122,
      "learning_rate": 4.891355383973289e-05,
      "loss": 1.6838,
      "num_input_tokens_seen": 1439432,
      "step": 2500,
      "train_runtime": 95.8962,
      "train_tokens_per_second": 15010.309
    },
    {
      "epoch": 0.15651085141903173,
      "grad_norm": 3.1467044353485107,
      "learning_rate": 4.869617765720646e-05,
      "loss": 1.6861,
      "num_input_tokens_seen": 1727728,
      "step": 3000,
      "train_runtime": 114.9793,
      "train_tokens_per_second": 15026.424
    },
    {
      "epoch": 0.18259599332220366,
      "grad_norm": 2.8238844871520996,
      "learning_rate": 4.8478801474680025e-05,
      "loss": 1.6343,
      "num_input_tokens_seen": 2016488,
      "step": 3500,
      "train_runtime": 134.048,
      "train_tokens_per_second": 15043.024
    },
    {
      "epoch": 0.20868113522537562,
      "grad_norm": 2.7848801612854004,
      "learning_rate": 4.826142529215359e-05,
      "loss": 1.6482,
      "num_input_tokens_seen": 2310136,
      "step": 4000,
      "train_runtime": 153.775,
      "train_tokens_per_second": 15022.828
    },
    {
      "epoch": 0.23476627712854758,
      "grad_norm": 3.402919054031372,
      "learning_rate": 4.804404910962716e-05,
      "loss": 1.6326,
      "num_input_tokens_seen": 2601800,
      "step": 4500,
      "train_runtime": 173.1573,
      "train_tokens_per_second": 15025.64
    },
    {
      "epoch": 0.26085141903171954,
      "grad_norm": 4.777134418487549,
      "learning_rate": 4.7826672927100726e-05,
      "loss": 1.6236,
      "num_input_tokens_seen": 2889448,
      "step": 5000,
      "train_runtime": 192.4563,
      "train_tokens_per_second": 15013.531
    },
    {
      "epoch": 0.2869365609348915,
      "grad_norm": 2.45479416847229,
      "learning_rate": 4.760929674457429e-05,
      "loss": 1.5949,
      "num_input_tokens_seen": 3180128,
      "step": 5500,
      "train_runtime": 211.2052,
      "train_tokens_per_second": 15057.053
    },
    {
      "epoch": 0.31302170283806346,
      "grad_norm": 2.6998794078826904,
      "learning_rate": 4.7391920562047856e-05,
      "loss": 1.6117,
      "num_input_tokens_seen": 3470912,
      "step": 6000,
      "train_runtime": 230.9915,
      "train_tokens_per_second": 15026.144
    },
    {
      "epoch": 0.33910684474123537,
      "grad_norm": 2.838428258895874,
      "learning_rate": 4.717454437952143e-05,
      "loss": 1.6056,
      "num_input_tokens_seen": 3764848,
      "step": 6500,
      "train_runtime": 251.0138,
      "train_tokens_per_second": 14998.572
    },
    {
      "epoch": 0.36519198664440733,
      "grad_norm": 2.8896422386169434,
      "learning_rate": 4.695716819699499e-05,
      "loss": 1.6002,
      "num_input_tokens_seen": 4049200,
      "step": 7000,
      "train_runtime": 270.653,
      "train_tokens_per_second": 14960.855
    },
    {
      "epoch": 0.3912771285475793,
      "grad_norm": 2.878220558166504,
      "learning_rate": 4.673979201446856e-05,
      "loss": 1.5839,
      "num_input_tokens_seen": 4340488,
      "step": 7500,
      "train_runtime": 290.1843,
      "train_tokens_per_second": 14957.693
    },
    {
      "epoch": 0.41736227045075125,
      "grad_norm": 2.7241406440734863,
      "learning_rate": 4.652241583194213e-05,
      "loss": 1.5844,
      "num_input_tokens_seen": 4631904,
      "step": 8000,
      "train_runtime": 309.2754,
      "train_tokens_per_second": 14976.633
    },
    {
      "epoch": 0.4434474123539232,
      "grad_norm": 2.727529287338257,
      "learning_rate": 4.630503964941569e-05,
      "loss": 1.5936,
      "num_input_tokens_seen": 4919576,
      "step": 8500,
      "train_runtime": 328.4961,
      "train_tokens_per_second": 14976.057
    },
    {
      "epoch": 0.46953255425709517,
      "grad_norm": 3.117870330810547,
      "learning_rate": 4.6087663466889265e-05,
      "loss": 1.5695,
      "num_input_tokens_seen": 5211016,
      "step": 9000,
      "train_runtime": 348.3435,
      "train_tokens_per_second": 14959.417
    },
    {
      "epoch": 0.49561769616026713,
      "grad_norm": 2.490983724594116,
      "learning_rate": 4.587028728436283e-05,
      "loss": 1.5802,
      "num_input_tokens_seen": 5507568,
      "step": 9500,
      "train_runtime": 368.0383,
      "train_tokens_per_second": 14964.661
    },
    {
      "epoch": 0.5217028380634391,
      "grad_norm": 2.392632246017456,
      "learning_rate": 4.56529111018364e-05,
      "loss": 1.5806,
      "num_input_tokens_seen": 5798840,
      "step": 10000,
      "train_runtime": 387.6945,
      "train_tokens_per_second": 14957.241
    },
    {
      "epoch": 0.547787979966611,
      "grad_norm": 2.6862573623657227,
      "learning_rate": 4.5435534919309966e-05,
      "loss": 1.5801,
      "num_input_tokens_seen": 6085768,
      "step": 10500,
      "train_runtime": 407.4294,
      "train_tokens_per_second": 14936.988
    },
    {
      "epoch": 0.573873121869783,
      "grad_norm": 3.164522647857666,
      "learning_rate": 4.521815873678353e-05,
      "loss": 1.5636,
      "num_input_tokens_seen": 6371672,
      "step": 11000,
      "train_runtime": 426.5237,
      "train_tokens_per_second": 14938.61
    },
    {
      "epoch": 0.5999582637729549,
      "grad_norm": 2.5483455657958984,
      "learning_rate": 4.5000782554257095e-05,
      "loss": 1.5541,
      "num_input_tokens_seen": 6659744,
      "step": 11500,
      "train_runtime": 445.61,
      "train_tokens_per_second": 14945.23
    },
    {
      "epoch": 0.6260434056761269,
      "grad_norm": 2.6326119899749756,
      "learning_rate": 4.478340637173066e-05,
      "loss": 1.5801,
      "num_input_tokens_seen": 6947616,
      "step": 12000,
      "train_runtime": 465.2155,
      "train_tokens_per_second": 14934.188
    },
    {
      "epoch": 0.6521285475792988,
      "grad_norm": 2.5993449687957764,
      "learning_rate": 4.456603018920423e-05,
      "loss": 1.5497,
      "num_input_tokens_seen": 7236800,
      "step": 12500,
      "train_runtime": 484.6648,
      "train_tokens_per_second": 14931.556
    },
    {
      "epoch": 0.6782136894824707,
      "grad_norm": 2.419832468032837,
      "learning_rate": 4.4348654006677796e-05,
      "loss": 1.5692,
      "num_input_tokens_seen": 7525160,
      "step": 13000,
      "train_runtime": 504.4097,
      "train_tokens_per_second": 14918.745
    },
    {
      "epoch": 0.7042988313856428,
      "grad_norm": 2.346853017807007,
      "learning_rate": 4.413127782415137e-05,
      "loss": 1.568,
      "num_input_tokens_seen": 7815704,
      "step": 13500,
      "train_runtime": 523.0681,
      "train_tokens_per_second": 14942.039
    },
    {
      "epoch": 0.7303839732888147,
      "grad_norm": 2.47847580909729,
      "learning_rate": 4.391390164162493e-05,
      "loss": 1.5597,
      "num_input_tokens_seen": 8107760,
      "step": 14000,
      "train_runtime": 542.052,
      "train_tokens_per_second": 14957.533
    },
    {
      "epoch": 0.7564691151919867,
      "grad_norm": 2.5489418506622314,
      "learning_rate": 4.36965254590985e-05,
      "loss": 1.5588,
      "num_input_tokens_seen": 8400096,
      "step": 14500,
      "train_runtime": 562.4429,
      "train_tokens_per_second": 14935.019
    },
    {
      "epoch": 0.7825542570951586,
      "grad_norm": 3.1929831504821777,
      "learning_rate": 4.347914927657207e-05,
      "loss": 1.5409,
      "num_input_tokens_seen": 8679112,
      "step": 15000,
      "train_runtime": 581.6704,
      "train_tokens_per_second": 14921.014
    },
    {
      "epoch": 0.8086393989983306,
      "grad_norm": 2.6714396476745605,
      "learning_rate": 4.3261773094045634e-05,
      "loss": 1.5494,
      "num_input_tokens_seen": 8969456,
      "step": 15500,
      "train_runtime": 600.81,
      "train_tokens_per_second": 14928.94
    },
    {
      "epoch": 0.8347245409015025,
      "grad_norm": 2.379903554916382,
      "learning_rate": 4.3044396911519205e-05,
      "loss": 1.5589,
      "num_input_tokens_seen": 9261064,
      "step": 16000,
      "train_runtime": 619.9911,
      "train_tokens_per_second": 14937.414
    },
    {
      "epoch": 0.8608096828046744,
      "grad_norm": 2.5801916122436523,
      "learning_rate": 4.282702072899277e-05,
      "loss": 1.5594,
      "num_input_tokens_seen": 9550752,
      "step": 16500,
      "train_runtime": 639.7359,
      "train_tokens_per_second": 14929.21
    },
    {
      "epoch": 0.8868948247078464,
      "grad_norm": 2.8763697147369385,
      "learning_rate": 4.2609644546466335e-05,
      "loss": 1.5768,
      "num_input_tokens_seen": 9839304,
      "step": 17000,
      "train_runtime": 659.5206,
      "train_tokens_per_second": 14918.873
    },
    {
      "epoch": 0.9129799666110183,
      "grad_norm": 3.0146758556365967,
      "learning_rate": 4.23922683639399e-05,
      "loss": 1.5499,
      "num_input_tokens_seen": 10132792,
      "step": 17500,
      "train_runtime": 679.4357,
      "train_tokens_per_second": 14913.541
    },
    {
      "epoch": 0.9390651085141903,
      "grad_norm": 2.629668951034546,
      "learning_rate": 4.2174892181413464e-05,
      "loss": 1.5469,
      "num_input_tokens_seen": 10417368,
      "step": 18000,
      "train_runtime": 699.3592,
      "train_tokens_per_second": 14895.589
    },
    {
      "epoch": 0.9651502504173622,
      "grad_norm": 2.527364492416382,
      "learning_rate": 4.1957515998887036e-05,
      "loss": 1.5396,
      "num_input_tokens_seen": 10711800,
      "step": 18500,
      "train_runtime": 719.3221,
      "train_tokens_per_second": 14891.522
    },
    {
      "epoch": 0.9912353923205343,
      "grad_norm": 2.3071608543395996,
      "learning_rate": 4.17401398163606e-05,
      "loss": 1.5194,
      "num_input_tokens_seen": 10994712,
      "step": 19000,
      "train_runtime": 738.6768,
      "train_tokens_per_second": 14884.334
    },
    {
      "epoch": 1.0,
      "eval_loss": 1.3842333555221558,
      "eval_runtime": 47.3762,
      "eval_samples_per_second": 809.161,
      "eval_steps_per_second": 101.148,
      "num_input_tokens_seen": 11091734,
      "step": 19168
    },
    {
      "epoch": 1.0173205342237062,
      "grad_norm": 2.8192083835601807,
      "learning_rate": 4.152276363383417e-05,
      "loss": 1.4963,
      "num_input_tokens_seen": 11281086,
      "step": 19500,
      "train_runtime": 806.5637,
      "train_tokens_per_second": 13986.603
    },
    {
      "epoch": 1.0434056761268782,
      "grad_norm": 3.121436595916748,
      "learning_rate": 4.130538745130774e-05,
      "loss": 1.5117,
      "num_input_tokens_seen": 11574638,
      "step": 20000,
      "train_runtime": 825.9512,
      "train_tokens_per_second": 14013.707
    },
    {
      "epoch": 1.06949081803005,
      "grad_norm": 2.0136849880218506,
      "learning_rate": 4.108801126878131e-05,
      "loss": 1.5143,
      "num_input_tokens_seen": 11864494,
      "step": 20500,
      "train_runtime": 845.2133,
      "train_tokens_per_second": 14037.278
    },
    {
      "epoch": 1.095575959933222,
      "grad_norm": 2.6219029426574707,
      "learning_rate": 4.087063508625487e-05,
      "loss": 1.5055,
      "num_input_tokens_seen": 12158550,
      "step": 21000,
      "train_runtime": 864.7079,
      "train_tokens_per_second": 14060.876
    },
    {
      "epoch": 1.121661101836394,
      "grad_norm": 3.265441656112671,
      "learning_rate": 4.065325890372844e-05,
      "loss": 1.4973,
      "num_input_tokens_seen": 12445726,
      "step": 21500,
      "train_runtime": 885.5348,
      "train_tokens_per_second": 14054.474
    },
    {
      "epoch": 1.147746243739566,
      "grad_norm": 2.6268465518951416,
      "learning_rate": 4.043588272120201e-05,
      "loss": 1.5264,
      "num_input_tokens_seen": 12733878,
      "step": 22000,
      "train_runtime": 905.2864,
      "train_tokens_per_second": 14066.131
    },
    {
      "epoch": 1.1738313856427378,
      "grad_norm": 4.112071990966797,
      "learning_rate": 4.0218506538675574e-05,
      "loss": 1.4786,
      "num_input_tokens_seen": 13017478,
      "step": 22500,
      "train_runtime": 924.8642,
      "train_tokens_per_second": 14075.016
    },
    {
      "epoch": 1.1999165275459098,
      "grad_norm": 3.13775897026062,
      "learning_rate": 4.000113035614914e-05,
      "loss": 1.4809,
      "num_input_tokens_seen": 13308726,
      "step": 23000,
      "train_runtime": 944.4145,
      "train_tokens_per_second": 14092.038
    },
    {
      "epoch": 1.2260016694490818,
      "grad_norm": 2.7305409908294678,
      "learning_rate": 3.9783754173622704e-05,
      "loss": 1.5037,
      "num_input_tokens_seen": 13600462,
      "step": 23500,
      "train_runtime": 964.343,
      "train_tokens_per_second": 14103.346
    },
    {
      "epoch": 1.2520868113522536,
      "grad_norm": 3.8625481128692627,
      "learning_rate": 3.9566377991096275e-05,
      "loss": 1.4744,
      "num_input_tokens_seen": 13886382,
      "step": 24000,
      "train_runtime": 983.6134,
      "train_tokens_per_second": 14117.723
    },
    {
      "epoch": 1.2781719532554257,
      "grad_norm": 3.4027693271636963,
      "learning_rate": 3.934900180856984e-05,
      "loss": 1.4796,
      "num_input_tokens_seen": 14171390,
      "step": 24500,
      "train_runtime": 1003.0211,
      "train_tokens_per_second": 14128.706
    },
    {
      "epoch": 1.3042570951585977,
      "grad_norm": 2.1200718879699707,
      "learning_rate": 3.9131625626043405e-05,
      "loss": 1.5107,
      "num_input_tokens_seen": 14461470,
      "step": 25000,
      "train_runtime": 1022.6959,
      "train_tokens_per_second": 14140.538
    },
    {
      "epoch": 1.3303422370617697,
      "grad_norm": 2.7789530754089355,
      "learning_rate": 3.8914249443516976e-05,
      "loss": 1.4596,
      "num_input_tokens_seen": 14747598,
      "step": 25500,
      "train_runtime": 1042.1868,
      "train_tokens_per_second": 14150.628
    },
    {
      "epoch": 1.3564273789649417,
      "grad_norm": 2.1225244998931885,
      "learning_rate": 3.869687326099054e-05,
      "loss": 1.4669,
      "num_input_tokens_seen": 15036278,
      "step": 26000,
      "train_runtime": 1061.7955,
      "train_tokens_per_second": 14161.181
    },
    {
      "epoch": 1.3825125208681135,
      "grad_norm": 2.9342072010040283,
      "learning_rate": 3.847949707846411e-05,
      "loss": 1.4947,
      "num_input_tokens_seen": 15322110,
      "step": 26500,
      "train_runtime": 1081.7408,
      "train_tokens_per_second": 14164.308
    },
    {
      "epoch": 1.4085976627712855,
      "grad_norm": 2.25174880027771,
      "learning_rate": 3.826212089593768e-05,
      "loss": 1.472,
      "num_input_tokens_seen": 15619830,
      "step": 27000,
      "train_runtime": 1101.4139,
      "train_tokens_per_second": 14181.616
    },
    {
      "epoch": 1.4346828046744573,
      "grad_norm": 2.1327219009399414,
      "learning_rate": 3.804474471341124e-05,
      "loss": 1.4745,
      "num_input_tokens_seen": 15910494,
      "step": 27500,
      "train_runtime": 1120.8296,
      "train_tokens_per_second": 14195.283
    },
    {
      "epoch": 1.4607679465776293,
      "grad_norm": 2.2169244289398193,
      "learning_rate": 3.782736853088481e-05,
      "loss": 1.4961,
      "num_input_tokens_seen": 16202854,
      "step": 28000,
      "train_runtime": 1140.1942,
      "train_tokens_per_second": 14210.609
    },
    {
      "epoch": 1.4868530884808013,
      "grad_norm": 2.7171308994293213,
      "learning_rate": 3.760999234835837e-05,
      "loss": 1.4707,
      "num_input_tokens_seen": 16491582,
      "step": 28500,
      "train_runtime": 1160.3313,
      "train_tokens_per_second": 14212.822
    },
    {
      "epoch": 1.5129382303839733,
      "grad_norm": 2.9756038188934326,
      "learning_rate": 3.739261616583194e-05,
      "loss": 1.4584,
      "num_input_tokens_seen": 16778886,
      "step": 29000,
      "train_runtime": 1180.225,
      "train_tokens_per_second": 14216.684
    },
    {
      "epoch": 1.5390233722871454,
      "grad_norm": 2.1410768032073975,
      "learning_rate": 3.717523998330551e-05,
      "loss": 1.4856,
      "num_input_tokens_seen": 17072582,
      "step": 29500,
      "train_runtime": 1199.0906,
      "train_tokens_per_second": 14237.942
    },
    {
      "epoch": 1.5651085141903172,
      "grad_norm": 2.650392532348633,
      "learning_rate": 3.695786380077908e-05,
      "loss": 1.4821,
      "num_input_tokens_seen": 17362110,
      "step": 30000,
      "train_runtime": 1218.8129,
      "train_tokens_per_second": 14245.098
    },
    {
      "epoch": 1.5911936560934892,
      "grad_norm": 2.675250291824341,
      "learning_rate": 3.6740487618252644e-05,
      "loss": 1.4694,
      "num_input_tokens_seen": 17647902,
      "step": 30500,
      "train_runtime": 1238.9908,
      "train_tokens_per_second": 14243.772
    },
    {
      "epoch": 1.617278797996661,
      "grad_norm": 2.670755386352539,
      "learning_rate": 3.652311143572621e-05,
      "loss": 1.5342,
      "num_input_tokens_seen": 17943398,
      "step": 31000,
      "train_runtime": 1259.7818,
      "train_tokens_per_second": 14243.259
    },
    {
      "epoch": 1.643363939899833,
      "grad_norm": 2.637608051300049,
      "learning_rate": 3.630573525319978e-05,
      "loss": 1.4575,
      "num_input_tokens_seen": 18231966,
      "step": 31500,
      "train_runtime": 1279.0356,
      "train_tokens_per_second": 14254.464
    },
    {
      "epoch": 1.669449081803005,
      "grad_norm": 2.5078988075256348,
      "learning_rate": 3.6088359070673345e-05,
      "loss": 1.4518,
      "num_input_tokens_seen": 18525670,
      "step": 32000,
      "train_runtime": 1297.7662,
      "train_tokens_per_second": 14275.044
    },
    {
      "epoch": 1.695534223706177,
      "grad_norm": 2.266803503036499,
      "learning_rate": 3.587098288814692e-05,
      "loss": 1.5014,
      "num_input_tokens_seen": 18815526,
      "step": 32500,
      "train_runtime": 1316.4234,
      "train_tokens_per_second": 14292.914
    },
    {
      "epoch": 1.721619365609349,
      "grad_norm": 3.0197086334228516,
      "learning_rate": 3.565360670562048e-05,
      "loss": 1.4843,
      "num_input_tokens_seen": 19112486,
      "step": 33000,
      "train_runtime": 1335.2332,
      "train_tokens_per_second": 14313.968
    },
    {
      "epoch": 1.7477045075125208,
      "grad_norm": 2.791066884994507,
      "learning_rate": 3.5436230523094046e-05,
      "loss": 1.4878,
      "num_input_tokens_seen": 19396846,
      "step": 33500,
      "train_runtime": 1353.9271,
      "train_tokens_per_second": 14326.359
    },
    {
      "epoch": 1.7737896494156928,
      "grad_norm": 2.995617628097534,
      "learning_rate": 3.521885434056761e-05,
      "loss": 1.4606,
      "num_input_tokens_seen": 19683174,
      "step": 34000,
      "train_runtime": 1372.6447,
      "train_tokens_per_second": 14339.599
    },
    {
      "epoch": 1.7998747913188646,
      "grad_norm": 2.561185836791992,
      "learning_rate": 3.5001478158041176e-05,
      "loss": 1.4802,
      "num_input_tokens_seen": 19973646,
      "step": 34500,
      "train_runtime": 1391.2808,
      "train_tokens_per_second": 14356.301
    },
    {
      "epoch": 1.8259599332220366,
      "grad_norm": 3.1782171726226807,
      "learning_rate": 3.478410197551475e-05,
      "loss": 1.4588,
      "num_input_tokens_seen": 20264526,
      "step": 35000,
      "train_runtime": 1409.9676,
      "train_tokens_per_second": 14372.334
    },
    {
      "epoch": 1.8520450751252087,
      "grad_norm": 5.561634063720703,
      "learning_rate": 3.456672579298831e-05,
      "loss": 1.4609,
      "num_input_tokens_seen": 20553006,
      "step": 35500,
      "train_runtime": 1428.6129,
      "train_tokens_per_second": 14386.686
    },
    {
      "epoch": 1.8781302170283807,
      "grad_norm": 2.784186363220215,
      "learning_rate": 3.4349349610461884e-05,
      "loss": 1.4682,
      "num_input_tokens_seen": 20844014,
      "step": 36000,
      "train_runtime": 1447.2777,
      "train_tokens_per_second": 14402.221
    },
    {
      "epoch": 1.9042153589315527,
      "grad_norm": 2.59779691696167,
      "learning_rate": 3.413197342793545e-05,
      "loss": 1.5035,
      "num_input_tokens_seen": 21130910,
      "step": 36500,
      "train_runtime": 1465.9615,
      "train_tokens_per_second": 14414.369
    },
    {
      "epoch": 1.9303005008347245,
      "grad_norm": 2.6355996131896973,
      "learning_rate": 3.391459724540902e-05,
      "loss": 1.4815,
      "num_input_tokens_seen": 21419886,
      "step": 37000,
      "train_runtime": 1484.6953,
      "train_tokens_per_second": 14427.126
    },
    {
      "epoch": 1.9563856427378965,
      "grad_norm": 2.1540422439575195,
      "learning_rate": 3.3697221062882585e-05,
      "loss": 1.4686,
      "num_input_tokens_seen": 21706222,
      "step": 37500,
      "train_runtime": 1503.3619,
      "train_tokens_per_second": 14438.454
    },
    {
      "epoch": 1.9824707846410683,
      "grad_norm": 2.1270930767059326,
      "learning_rate": 3.347984488035615e-05,
      "loss": 1.4853,
      "num_input_tokens_seen": 21997414,
      "step": 38000,
      "train_runtime": 1522.056,
      "train_tokens_per_second": 14452.434
    },
    {
      "epoch": 2.0,
      "eval_loss": 1.347296118736267,
      "eval_runtime": 45.0902,
      "eval_samples_per_second": 850.185,
      "eval_steps_per_second": 106.276,
      "num_input_tokens_seen": 22196446,
      "step": 38336
    },
    {
      "epoch": 2.0085559265442403,
      "grad_norm": 2.812293767929077,
      "learning_rate": 3.326246869782972e-05,
      "loss": 1.4672,
      "num_input_tokens_seen": 22289118,
      "step": 38500,
      "train_runtime": 1586.651,
      "train_tokens_per_second": 14047.902
    },
    {
      "epoch": 2.0346410684474123,
      "grad_norm": 3.67232346534729,
      "learning_rate": 3.3045092515303286e-05,
      "loss": 1.4381,
      "num_input_tokens_seen": 22577710,
      "step": 39000,
      "train_runtime": 1605.3175,
      "train_tokens_per_second": 14064.327
    },
    {
      "epoch": 2.0607262103505843,
      "grad_norm": 2.2775866985321045,
      "learning_rate": 3.282771633277685e-05,
      "loss": 1.4397,
      "num_input_tokens_seen": 22866142,
      "step": 39500,
      "train_runtime": 1623.9658,
      "train_tokens_per_second": 14080.434
    },
    {
      "epoch": 2.0868113522537564,
      "grad_norm": 3.0156877040863037,
      "learning_rate": 3.2610340150250415e-05,
      "loss": 1.4657,
      "num_input_tokens_seen": 23163734,
      "step": 40000,
      "train_runtime": 1642.6646,
      "train_tokens_per_second": 14101.317
    },
    {
      "epoch": 2.1128964941569284,
      "grad_norm": 3.8104028701782227,
      "learning_rate": 3.239296396772399e-05,
      "loss": 1.4687,
      "num_input_tokens_seen": 23451982,
      "step": 40500,
      "train_runtime": 1661.3261,
      "train_tokens_per_second": 14116.423
    },
    {
      "epoch": 2.1389816360601,
      "grad_norm": 1.780987024307251,
      "learning_rate": 3.217558778519755e-05,
      "loss": 1.4432,
      "num_input_tokens_seen": 23743406,
      "step": 41000,
      "train_runtime": 1679.966,
      "train_tokens_per_second": 14133.266
    },
    {
      "epoch": 2.165066777963272,
      "grad_norm": 2.234935998916626,
      "learning_rate": 3.1958211602671117e-05,
      "loss": 1.447,
      "num_input_tokens_seen": 24037990,
      "step": 41500,
      "train_runtime": 1698.6679,
      "train_tokens_per_second": 14151.082
    },
    {
      "epoch": 2.191151919866444,
      "grad_norm": 2.599027395248413,
      "learning_rate": 3.174083542014469e-05,
      "loss": 1.4307,
      "num_input_tokens_seen": 24333206,
      "step": 42000,
      "train_runtime": 1717.3337,
      "train_tokens_per_second": 14169.177
    },
    {
      "epoch": 2.217237061769616,
      "grad_norm": 3.104538917541504,
      "learning_rate": 3.152345923761825e-05,
      "loss": 1.4165,
      "num_input_tokens_seen": 24623262,
      "step": 42500,
      "train_runtime": 1735.9704,
      "train_tokens_per_second": 14184.149
    },
    {
      "epoch": 2.243322203672788,
      "grad_norm": 2.5183098316192627,
      "learning_rate": 3.1306083055091824e-05,
      "loss": 1.4251,
      "num_input_tokens_seen": 24910790,
      "step": 43000,
      "train_runtime": 1754.6301,
      "train_tokens_per_second": 14197.175
    },
    {
      "epoch": 2.26940734557596,
      "grad_norm": 3.010117530822754,
      "learning_rate": 3.108870687256539e-05,
      "loss": 1.4719,
      "num_input_tokens_seen": 25200606,
      "step": 43500,
      "train_runtime": 1773.3028,
      "train_tokens_per_second": 14211.112
    },
    {
      "epoch": 2.295492487479132,
      "grad_norm": 3.781156063079834,
      "learning_rate": 3.087133069003896e-05,
      "loss": 1.44,
      "num_input_tokens_seen": 25494558,
      "step": 44000,
      "train_runtime": 1791.9661,
      "train_tokens_per_second": 14227.143
    },
    {
      "epoch": 2.321577629382304,
      "grad_norm": 2.3171684741973877,
      "learning_rate": 3.0653954507512525e-05,
      "loss": 1.4048,
      "num_input_tokens_seen": 25783878,
      "step": 44500,
      "train_runtime": 1810.6406,
      "train_tokens_per_second": 14240.196
    },
    {
      "epoch": 2.3476627712854756,
      "grad_norm": 2.785936117172241,
      "learning_rate": 3.0436578324986087e-05,
      "loss": 1.4333,
      "num_input_tokens_seen": 26074006,
      "step": 45000,
      "train_runtime": 1829.2827,
      "train_tokens_per_second": 14253.677
    },
    {
      "epoch": 2.3737479131886476,
      "grad_norm": 3.067204475402832,
      "learning_rate": 3.021920214245966e-05,
      "loss": 1.412,
      "num_input_tokens_seen": 26362862,
      "step": 45500,
      "train_runtime": 1847.9255,
      "train_tokens_per_second": 14266.193
    },
    {
      "epoch": 2.3998330550918197,
      "grad_norm": 3.440131902694702,
      "learning_rate": 3.0001825959933223e-05,
      "loss": 1.4343,
      "num_input_tokens_seen": 26659222,
      "step": 46000,
      "train_runtime": 1866.6572,
      "train_tokens_per_second": 14281.799
    },
    {
      "epoch": 2.4259181969949917,
      "grad_norm": 4.180527210235596,
      "learning_rate": 2.978444977740679e-05,
      "loss": 1.4231,
      "num_input_tokens_seen": 26945814,
      "step": 46500,
      "train_runtime": 1885.3282,
      "train_tokens_per_second": 14292.373
    },
    {
      "epoch": 2.4520033388981637,
      "grad_norm": 4.318091869354248,
      "learning_rate": 2.9567073594880356e-05,
      "loss": 1.4234,
      "num_input_tokens_seen": 27240518,
      "step": 47000,
      "train_runtime": 1904.0251,
      "train_tokens_per_second": 14306.806
    },
    {
      "epoch": 2.4780884808013357,
      "grad_norm": 2.4914376735687256,
      "learning_rate": 2.9349697412353928e-05,
      "loss": 1.4466,
      "num_input_tokens_seen": 27523134,
      "step": 47500,
      "train_runtime": 1922.7393,
      "train_tokens_per_second": 14314.543
    },
    {
      "epoch": 2.5041736227045073,
      "grad_norm": 2.4933414459228516,
      "learning_rate": 2.9132321229827492e-05,
      "loss": 1.4219,
      "num_input_tokens_seen": 27811630,
      "step": 48000,
      "train_runtime": 1941.4401,
      "train_tokens_per_second": 14325.258
    },
    {
      "epoch": 2.5302587646076793,
      "grad_norm": 3.3003621101379395,
      "learning_rate": 2.8914945047301057e-05,
      "loss": 1.4167,
      "num_input_tokens_seen": 28103582,
      "step": 48500,
      "train_runtime": 1960.1495,
      "train_tokens_per_second": 14337.469
    },
    {
      "epoch": 2.5563439065108513,
      "grad_norm": 2.9343557357788086,
      "learning_rate": 2.8697568864774625e-05,
      "loss": 1.4343,
      "num_input_tokens_seen": 28395062,
      "step": 49000,
      "train_runtime": 1978.7726,
      "train_tokens_per_second": 14349.836
    },
    {
      "epoch": 2.5824290484140233,
      "grad_norm": 2.247775077819824,
      "learning_rate": 2.848019268224819e-05,
      "loss": 1.44,
      "num_input_tokens_seen": 28682022,
      "step": 49500,
      "train_runtime": 1997.425,
      "train_tokens_per_second": 14359.499
    },
    {
      "epoch": 2.6085141903171953,
      "grad_norm": 3.329780101776123,
      "learning_rate": 2.826281649972176e-05,
      "loss": 1.4366,
      "num_input_tokens_seen": 28966702,
      "step": 50000,
      "train_runtime": 2016.0551,
      "train_tokens_per_second": 14368.011
    },
    {
      "epoch": 2.6345993322203674,
      "grad_norm": 2.639854907989502,
      "learning_rate": 2.8045440317195326e-05,
      "loss": 1.4175,
      "num_input_tokens_seen": 29256878,
      "step": 50500,
      "train_runtime": 2034.718,
      "train_tokens_per_second": 14378.837
    },
    {
      "epoch": 2.6606844741235394,
      "grad_norm": 4.10645055770874,
      "learning_rate": 2.7828064134668898e-05,
      "loss": 1.4229,
      "num_input_tokens_seen": 29545014,
      "step": 51000,
      "train_runtime": 2053.4349,
      "train_tokens_per_second": 14388.094
    },
    {
      "epoch": 2.6867696160267114,
      "grad_norm": 3.233084201812744,
      "learning_rate": 2.7610687952142463e-05,
      "loss": 1.4396,
      "num_input_tokens_seen": 29832302,
      "step": 51500,
      "train_runtime": 2072.1004,
      "train_tokens_per_second": 14397.132
    },
    {
      "epoch": 2.7128547579298834,
      "grad_norm": 3.0811736583709717,
      "learning_rate": 2.7393311769616027e-05,
      "loss": 1.4417,
      "num_input_tokens_seen": 30124678,
      "step": 52000,
      "train_runtime": 2090.765,
      "train_tokens_per_second": 14408.448
    },
    {
      "epoch": 2.738939899833055,
      "grad_norm": 3.9066579341888428,
      "learning_rate": 2.7175935587089595e-05,
      "loss": 1.42,
      "num_input_tokens_seen": 30411006,
      "step": 52500,
      "train_runtime": 2109.4596,
      "train_tokens_per_second": 14416.492
    },
    {
      "epoch": 2.765025041736227,
      "grad_norm": 3.752941131591797,
      "learning_rate": 2.695855940456316e-05,
      "loss": 1.4416,
      "num_input_tokens_seen": 30697118,
      "step": 53000,
      "train_runtime": 2128.1961,
      "train_tokens_per_second": 14424.008
    },
    {
      "epoch": 2.791110183639399,
      "grad_norm": 2.2906174659729004,
      "learning_rate": 2.6741183222036732e-05,
      "loss": 1.434,
      "num_input_tokens_seen": 30985038,
      "step": 53500,
      "train_runtime": 2146.9172,
      "train_tokens_per_second": 14432.339
    },
    {
      "epoch": 2.817195325542571,
      "grad_norm": 4.612029075622559,
      "learning_rate": 2.6523807039510297e-05,
      "loss": 1.4167,
      "num_input_tokens_seen": 31273350,
      "step": 54000,
      "train_runtime": 2165.6016,
      "train_tokens_per_second": 14440.952
    },
    {
      "epoch": 2.843280467445743,
      "grad_norm": 2.9580113887786865,
      "learning_rate": 2.6306430856983865e-05,
      "loss": 1.4059,
      "num_input_tokens_seen": 31560206,
      "step": 54500,
      "train_runtime": 2184.355,
      "train_tokens_per_second": 14448.295
    },
    {
      "epoch": 2.8693656093489146,
      "grad_norm": 3.1787197589874268,
      "learning_rate": 2.608905467445743e-05,
      "loss": 1.4472,
      "num_input_tokens_seen": 31852006,
      "step": 55000,
      "train_runtime": 2203.0469,
      "train_tokens_per_second": 14458.161
    },
    {
      "epoch": 2.8954507512520866,
      "grad_norm": 2.0112416744232178,
      "learning_rate": 2.5871678491930994e-05,
      "loss": 1.4311,
      "num_input_tokens_seen": 32138366,
      "step": 55500,
      "train_runtime": 2221.6719,
      "train_tokens_per_second": 14465.847
    },
    {
      "epoch": 2.9215358931552586,
      "grad_norm": 1.9806029796600342,
      "learning_rate": 2.5654302309404566e-05,
      "loss": 1.4348,
      "num_input_tokens_seen": 32427294,
      "step": 56000,
      "train_runtime": 2240.3821,
      "train_tokens_per_second": 14474.002
    },
    {
      "epoch": 2.9476210350584306,
      "grad_norm": 1.9818835258483887,
      "learning_rate": 2.543692612687813e-05,
      "loss": 1.4442,
      "num_input_tokens_seen": 32714750,
      "step": 56500,
      "train_runtime": 2259.0685,
      "train_tokens_per_second": 14481.522
    },
    {
      "epoch": 2.9737061769616027,
      "grad_norm": 2.794255256652832,
      "learning_rate": 2.52195499443517e-05,
      "loss": 1.4452,
      "num_input_tokens_seen": 33004950,
      "step": 57000,
      "train_runtime": 2277.7337,
      "train_tokens_per_second": 14490.258
    },
    {
      "epoch": 2.9997913188647747,
      "grad_norm": 3.825054407119751,
      "learning_rate": 2.5002173761825263e-05,
      "loss": 1.4031,
      "num_input_tokens_seen": 33292886,
      "step": 57500,
      "train_runtime": 2296.3777,
      "train_tokens_per_second": 14498.001
    },
    {
      "epoch": 3.0,
      "eval_loss": 1.3332206010818481,
      "eval_runtime": 45.0681,
      "eval_samples_per_second": 850.602,
      "eval_steps_per_second": 106.328,
      "num_input_tokens_seen": 33294704,
      "step": 57504
    },
    {
      "epoch": 3.0258764607679467,
      "grad_norm": 3.42480731010437,
      "learning_rate": 2.478479757929883e-05,
      "loss": 1.3848,
      "num_input_tokens_seen": 33584784,
      "step": 58000,
      "train_runtime": 2361.2516,
      "train_tokens_per_second": 14223.298
    },
    {
      "epoch": 3.0519616026711187,
      "grad_norm": 2.5299935340881348,
      "learning_rate": 2.45674213967724e-05,
      "loss": 1.3964,
      "num_input_tokens_seen": 33871192,
      "step": 58500,
      "train_runtime": 2379.8401,
      "train_tokens_per_second": 14232.55
    },
    {
      "epoch": 3.0780467445742903,
      "grad_norm": 2.3154349327087402,
      "learning_rate": 2.4350045214245968e-05,
      "loss": 1.4092,
      "num_input_tokens_seen": 34162736,
      "step": 59000,
      "train_runtime": 2398.5047,
      "train_tokens_per_second": 14243.348
    },
    {
      "epoch": 3.1041318864774623,
      "grad_norm": 3.183199167251587,
      "learning_rate": 2.4132669031719536e-05,
      "loss": 1.4007,
      "num_input_tokens_seen": 34452880,
      "step": 59500,
      "train_runtime": 2417.223,
      "train_tokens_per_second": 14253.083
    },
    {
      "epoch": 3.1302170283806343,
      "grad_norm": 2.856942892074585,
      "learning_rate": 2.39152928491931e-05,
      "loss": 1.407,
      "num_input_tokens_seen": 34740064,
      "step": 60000,
      "train_runtime": 2435.9312,
      "train_tokens_per_second": 14261.513
    },
    {
      "epoch": 3.1563021702838063,
      "grad_norm": 3.0104143619537354,
      "learning_rate": 2.3697916666666666e-05,
      "loss": 1.3869,
      "num_input_tokens_seen": 35033296,
      "step": 60500,
      "train_runtime": 2454.6106,
      "train_tokens_per_second": 14272.446
    },
    {
      "epoch": 3.1823873121869783,
      "grad_norm": 2.1120755672454834,
      "learning_rate": 2.3480540484140234e-05,
      "loss": 1.4128,
      "num_input_tokens_seen": 35326400,
      "step": 61000,
      "train_runtime": 2473.3018,
      "train_tokens_per_second": 14283.093
    },
    {
      "epoch": 3.2084724540901504,
      "grad_norm": 2.3867533206939697,
      "learning_rate": 2.3263164301613802e-05,
      "loss": 1.421,
      "num_input_tokens_seen": 35610096,
      "step": 61500,
      "train_runtime": 2491.98,
      "train_tokens_per_second": 14289.88
    },
    {
      "epoch": 3.2345575959933224,
      "grad_norm": 2.934441566467285,
      "learning_rate": 2.304578811908737e-05,
      "loss": 1.4507,
      "num_input_tokens_seen": 35899736,
      "step": 62000,
      "train_runtime": 2510.6844,
      "train_tokens_per_second": 14298.785
    },
    {
      "epoch": 3.260642737896494,
      "grad_norm": 1.9727118015289307,
      "learning_rate": 2.2828411936560938e-05,
      "loss": 1.4167,
      "num_input_tokens_seen": 36185200,
      "step": 62500,
      "train_runtime": 2529.3663,
      "train_tokens_per_second": 14306.034
    },
    {
      "epoch": 3.286727879799666,
      "grad_norm": 2.6939632892608643,
      "learning_rate": 2.2611035754034503e-05,
      "loss": 1.4152,
      "num_input_tokens_seen": 36476040,
      "step": 63000,
      "train_runtime": 2548.104,
      "train_tokens_per_second": 14314.973
    },
    {
      "epoch": 3.312813021702838,
      "grad_norm": 2.878223180770874,
      "learning_rate": 2.2393659571508068e-05,
      "loss": 1.4027,
      "num_input_tokens_seen": 36776288,
      "step": 63500,
      "train_runtime": 2566.9571,
      "train_tokens_per_second": 14326.803
    },
    {
      "epoch": 3.33889816360601,
      "grad_norm": 2.485452175140381,
      "learning_rate": 2.2176283388981636e-05,
      "loss": 1.3992,
      "num_input_tokens_seen": 37063960,
      "step": 64000,
      "train_runtime": 2585.6586,
      "train_tokens_per_second": 14334.437
    },
    {
      "epoch": 3.364983305509182,
      "grad_norm": 3.862046241760254,
      "learning_rate": 2.1958907206455204e-05,
      "loss": 1.3968,
      "num_input_tokens_seen": 37353184,
      "step": 64500,
      "train_runtime": 2604.3949,
      "train_tokens_per_second": 14342.366
    },
    {
      "epoch": 3.391068447412354,
      "grad_norm": 2.4618258476257324,
      "learning_rate": 2.1741531023928772e-05,
      "loss": 1.4059,
      "num_input_tokens_seen": 37648648,
      "step": 65000,
      "train_runtime": 2623.1097,
      "train_tokens_per_second": 14352.678
    },
    {
      "epoch": 3.417153589315526,
      "grad_norm": 2.7443792819976807,
      "learning_rate": 2.152415484140234e-05,
      "loss": 1.3809,
      "num_input_tokens_seen": 37936072,
      "step": 65500,
      "train_runtime": 2641.8438,
      "train_tokens_per_second": 14359.695
    },
    {
      "epoch": 3.443238731218698,
      "grad_norm": 2.808088541030884,
      "learning_rate": 2.1306778658875905e-05,
      "loss": 1.4118,
      "num_input_tokens_seen": 38225568,
      "step": 66000,
      "train_runtime": 2660.549,
      "train_tokens_per_second": 14367.549
    },
    {
      "epoch": 3.4693238731218696,
      "grad_norm": 2.7997331619262695,
      "learning_rate": 2.1089402476349473e-05,
      "loss": 1.404,
      "num_input_tokens_seen": 38512144,
      "step": 66500,
      "train_runtime": 2679.274,
      "train_tokens_per_second": 14374.097
    },
    {
      "epoch": 3.4954090150250416,
      "grad_norm": 2.4735493659973145,
      "learning_rate": 2.0872026293823038e-05,
      "loss": 1.4271,
      "num_input_tokens_seen": 38797344,
      "step": 67000,
      "train_runtime": 2697.9506,
      "train_tokens_per_second": 14380.302
    },
    {
      "epoch": 3.5214941569282137,
      "grad_norm": 4.414172172546387,
      "learning_rate": 2.0654650111296606e-05,
      "loss": 1.3969,
      "num_input_tokens_seen": 39085088,
      "step": 67500,
      "train_runtime": 2716.6451,
      "train_tokens_per_second": 14387.263
    },
    {
      "epoch": 3.5475792988313857,
      "grad_norm": 2.165419340133667,
      "learning_rate": 2.0437273928770174e-05,
      "loss": 1.4137,
      "num_input_tokens_seen": 39369904,
      "step": 68000,
      "train_runtime": 2735.364,
      "train_tokens_per_second": 14392.93
    },
    {
      "epoch": 3.5736644407345577,
      "grad_norm": 2.251249074935913,
      "learning_rate": 2.021989774624374e-05,
      "loss": 1.4066,
      "num_input_tokens_seen": 39661008,
      "step": 68500,
      "train_runtime": 2754.1198,
      "train_tokens_per_second": 14400.611
    },
    {
      "epoch": 3.5997495826377297,
      "grad_norm": 2.874959945678711,
      "learning_rate": 2.0002521563717307e-05,
      "loss": 1.3949,
      "num_input_tokens_seen": 39953968,
      "step": 69000,
      "train_runtime": 2772.8706,
      "train_tokens_per_second": 14408.883
    },
    {
      "epoch": 3.6258347245409013,
      "grad_norm": 2.662647008895874,
      "learning_rate": 1.9785145381190875e-05,
      "loss": 1.4054,
      "num_input_tokens_seen": 40240768,
      "step": 69500,
      "train_runtime": 2791.6372,
      "train_tokens_per_second": 14414.756
    },
    {
      "epoch": 3.6519198664440733,
      "grad_norm": 2.5272815227508545,
      "learning_rate": 1.9567769198664444e-05,
      "loss": 1.4323,
      "num_input_tokens_seen": 40533416,
      "step": 70000,
      "train_runtime": 2810.3654,
      "train_tokens_per_second": 14422.827
    },
    {
      "epoch": 3.6780050083472453,
      "grad_norm": 2.721334457397461,
      "learning_rate": 1.9350393016138008e-05,
      "loss": 1.3872,
      "num_input_tokens_seen": 40825024,
      "step": 70500,
      "train_runtime": 2829.08,
      "train_tokens_per_second": 14430.495
    },
    {
      "epoch": 3.7040901502504173,
      "grad_norm": 2.5722897052764893,
      "learning_rate": 1.9133016833611576e-05,
      "loss": 1.372,
      "num_input_tokens_seen": 41113376,
      "step": 71000,
      "train_runtime": 2847.8223,
      "train_tokens_per_second": 14436.777
    },
    {
      "epoch": 3.7301752921535893,
      "grad_norm": 2.262794256210327,
      "learning_rate": 1.891564065108514e-05,
      "loss": 1.3728,
      "num_input_tokens_seen": 41401936,
      "step": 71500,
      "train_runtime": 2866.4955,
      "train_tokens_per_second": 14443.398
    },
    {
      "epoch": 3.7562604340567614,
      "grad_norm": 2.6011643409729004,
      "learning_rate": 1.869826446855871e-05,
      "loss": 1.3901,
      "num_input_tokens_seen": 41689120,
      "step": 72000,
      "train_runtime": 2885.163,
      "train_tokens_per_second": 14449.485
    },
    {
      "epoch": 3.7823455759599334,
      "grad_norm": 2.6435554027557373,
      "learning_rate": 1.8480888286032277e-05,
      "loss": 1.4071,
      "num_input_tokens_seen": 41974720,
      "step": 72500,
      "train_runtime": 2903.8827,
      "train_tokens_per_second": 14454.689
    },
    {
      "epoch": 3.8084307178631054,
      "grad_norm": 2.489372730255127,
      "learning_rate": 1.8263512103505846e-05,
      "loss": 1.4023,
      "num_input_tokens_seen": 42264016,
      "step": 73000,
      "train_runtime": 2922.5501,
      "train_tokens_per_second": 14461.349
    },
    {
      "epoch": 3.8345158597662774,
      "grad_norm": 2.4132964611053467,
      "learning_rate": 1.8046135920979414e-05,
      "loss": 1.4153,
      "num_input_tokens_seen": 42558416,
      "step": 73500,
      "train_runtime": 2941.2299,
      "train_tokens_per_second": 14469.599
    },
    {
      "epoch": 3.860601001669449,
      "grad_norm": 3.1832597255706787,
      "learning_rate": 1.782875973845298e-05,
      "loss": 1.4076,
      "num_input_tokens_seen": 42847504,
      "step": 74000,
      "train_runtime": 2959.9571,
      "train_tokens_per_second": 14475.718
    },
    {
      "epoch": 3.886686143572621,
      "grad_norm": 2.246975898742676,
      "learning_rate": 1.7611383555926543e-05,
      "loss": 1.3755,
      "num_input_tokens_seen": 43137392,
      "step": 74500,
      "train_runtime": 2978.6745,
      "train_tokens_per_second": 14482.077
    },
    {
      "epoch": 3.912771285475793,
      "grad_norm": 3.47536039352417,
      "learning_rate": 1.739400737340011e-05,
      "loss": 1.3837,
      "num_input_tokens_seen": 43421200,
      "step": 75000,
      "train_runtime": 2997.3314,
      "train_tokens_per_second": 14486.62
    },
    {
      "epoch": 3.938856427378965,
      "grad_norm": 2.817647695541382,
      "learning_rate": 1.717663119087368e-05,
      "loss": 1.3869,
      "num_input_tokens_seen": 43714432,
      "step": 75500,
      "train_runtime": 3015.9535,
      "train_tokens_per_second": 14494.399
    },
    {
      "epoch": 3.964941569282137,
      "grad_norm": 2.670565366744995,
      "learning_rate": 1.6959255008347248e-05,
      "loss": 1.3875,
      "num_input_tokens_seen": 44005040,
      "step": 76000,
      "train_runtime": 3034.653,
      "train_tokens_per_second": 14500.847
    },
    {
      "epoch": 3.9910267111853086,
      "grad_norm": 3.01701021194458,
      "learning_rate": 1.6741878825820816e-05,
      "loss": 1.3875,
      "num_input_tokens_seen": 44295304,
      "step": 76500,
      "train_runtime": 3053.3496,
      "train_tokens_per_second": 14507.118
    },
    {
      "epoch": 4.0,
      "eval_loss": 1.3256505727767944,
      "eval_runtime": 45.046,
      "eval_samples_per_second": 851.018,
      "eval_steps_per_second": 106.38,
      "num_input_tokens_seen": 44395724,
      "step": 76672
    },
    {
      "epoch": 4.017111853088481,
      "grad_norm": 2.520019292831421,
      "learning_rate": 1.652450264329438e-05,
      "loss": 1.3838,
      "num_input_tokens_seen": 44585564,
      "step": 77000,
      "train_runtime": 3118.0069,
      "train_tokens_per_second": 14299.379
    },
    {
      "epoch": 4.043196994991653,
      "grad_norm": 4.146509170532227,
      "learning_rate": 1.6307126460767945e-05,
      "loss": 1.3596,
      "num_input_tokens_seen": 44870940,
      "step": 77500,
      "train_runtime": 3136.5879,
      "train_tokens_per_second": 14305.654
    },
    {
      "epoch": 4.069282136894825,
      "grad_norm": 2.3407187461853027,
      "learning_rate": 1.6089750278241514e-05,
      "loss": 1.3979,
      "num_input_tokens_seen": 45165140,
      "step": 78000,
      "train_runtime": 3155.153,
      "train_tokens_per_second": 14314.723
    },
    {
      "epoch": 4.095367278797997,
      "grad_norm": 2.992572069168091,
      "learning_rate": 1.5872374095715082e-05,
      "loss": 1.4121,
      "num_input_tokens_seen": 45458076,
      "step": 78500,
      "train_runtime": 3173.7885,
      "train_tokens_per_second": 14322.97
    },
    {
      "epoch": 4.121452420701169,
      "grad_norm": 3.490511655807495,
      "learning_rate": 1.565499791318865e-05,
      "loss": 1.37,
      "num_input_tokens_seen": 45746588,
      "step": 79000,
      "train_runtime": 3192.4179,
      "train_tokens_per_second": 14329.762
    },
    {
      "epoch": 4.147537562604341,
      "grad_norm": 3.6620404720306396,
      "learning_rate": 1.5437621730662215e-05,
      "loss": 1.398,
      "num_input_tokens_seen": 46037020,
      "step": 79500,
      "train_runtime": 3212.1684,
      "train_tokens_per_second": 14332.069
    },
    {
      "epoch": 4.173622704507513,
      "grad_norm": 2.709702253341675,
      "learning_rate": 1.5220245548135783e-05,
      "loss": 1.3714,
      "num_input_tokens_seen": 46327764,
      "step": 80000,
      "train_runtime": 3232.3645,
      "train_tokens_per_second": 14332.469
    },
    {
      "epoch": 4.199707846410685,
      "grad_norm": 3.0171260833740234,
      "learning_rate": 1.5002869365609348e-05,
      "loss": 1.3777,
      "num_input_tokens_seen": 46608924,
      "step": 80500,
      "train_runtime": 3252.0642,
      "train_tokens_per_second": 14332.104
    },
    {
      "epoch": 4.225792988313857,
      "grad_norm": 2.588928461074829,
      "learning_rate": 1.4785493183082916e-05,
      "loss": 1.3768,
      "num_input_tokens_seen": 46898436,
      "step": 81000,
      "train_runtime": 3271.9745,
      "train_tokens_per_second": 14333.375
    },
    {
      "epoch": 4.251878130217029,
      "grad_norm": 2.5653598308563232,
      "learning_rate": 1.4568117000556484e-05,
      "loss": 1.3753,
      "num_input_tokens_seen": 47187548,
      "step": 81500,
      "train_runtime": 3291.5411,
      "train_tokens_per_second": 14336.005
    },
    {
      "epoch": 4.2779632721202,
      "grad_norm": 3.236936330795288,
      "learning_rate": 1.435074081803005e-05,
      "loss": 1.3987,
      "num_input_tokens_seen": 47475276,
      "step": 82000,
      "train_runtime": 3311.1953,
      "train_tokens_per_second": 14337.806
    },
    {
      "epoch": 4.304048414023372,
      "grad_norm": 2.4497241973876953,
      "learning_rate": 1.4133364635503618e-05,
      "loss": 1.36,
      "num_input_tokens_seen": 47768556,
      "step": 82500,
      "train_runtime": 3330.633,
      "train_tokens_per_second": 14342.185
    },
    {
      "epoch": 4.330133555926544,
      "grad_norm": 3.381693124771118,
      "learning_rate": 1.3915988452977185e-05,
      "loss": 1.4122,
      "num_input_tokens_seen": 48056012,
      "step": 83000,
      "train_runtime": 3350.0565,
      "train_tokens_per_second": 14344.836
    },
    {
      "epoch": 4.356218697829716,
      "grad_norm": 2.8100342750549316,
      "learning_rate": 1.3698612270450753e-05,
      "loss": 1.3836,
      "num_input_tokens_seen": 48341348,
      "step": 83500,
      "train_runtime": 3369.3072,
      "train_tokens_per_second": 14347.563
    },
    {
      "epoch": 4.382303839732888,
      "grad_norm": 3.380335569381714,
      "learning_rate": 1.3481236087924318e-05,
      "loss": 1.3726,
      "num_input_tokens_seen": 48631420,
      "step": 84000,
      "train_runtime": 3389.3206,
      "train_tokens_per_second": 14348.427
    },
    {
      "epoch": 4.40838898163606,
      "grad_norm": 2.434285879135132,
      "learning_rate": 1.3263859905397884e-05,
      "loss": 1.3937,
      "num_input_tokens_seen": 48915972,
      "step": 84500,
      "train_runtime": 3409.284,
      "train_tokens_per_second": 14347.873
    },
    {
      "epoch": 4.434474123539232,
      "grad_norm": 2.8802988529205322,
      "learning_rate": 1.3046483722871452e-05,
      "loss": 1.3761,
      "num_input_tokens_seen": 49203916,
      "step": 85000,
      "train_runtime": 3428.2362,
      "train_tokens_per_second": 14352.545
    },
    {
      "epoch": 4.460559265442404,
      "grad_norm": 3.350780963897705,
      "learning_rate": 1.282910754034502e-05,
      "loss": 1.3766,
      "num_input_tokens_seen": 49493860,
      "step": 85500,
      "train_runtime": 3447.3803,
      "train_tokens_per_second": 14356.948
    },
    {
      "epoch": 4.486644407345576,
      "grad_norm": 2.4271440505981445,
      "learning_rate": 1.2611731357818587e-05,
      "loss": 1.3672,
      "num_input_tokens_seen": 49778012,
      "step": 86000,
      "train_runtime": 3466.8453,
      "train_tokens_per_second": 14358.302
    },
    {
      "epoch": 4.512729549248748,
      "grad_norm": 2.5384743213653564,
      "learning_rate": 1.2394355175292154e-05,
      "loss": 1.3701,
      "num_input_tokens_seen": 50065764,
      "step": 86500,
      "train_runtime": 3486.5719,
      "train_tokens_per_second": 14359.596
    },
    {
      "epoch": 4.53881469115192,
      "grad_norm": 3.011307716369629,
      "learning_rate": 1.2176978992765722e-05,
      "loss": 1.3884,
      "num_input_tokens_seen": 50349860,
      "step": 87000,
      "train_runtime": 3505.9535,
      "train_tokens_per_second": 14361.246
    },
    {
      "epoch": 4.564899833055092,
      "grad_norm": 2.5870578289031982,
      "learning_rate": 1.1959602810239288e-05,
      "loss": 1.3991,
      "num_input_tokens_seen": 50643260,
      "step": 87500,
      "train_runtime": 3525.1982,
      "train_tokens_per_second": 14366.074
    },
    {
      "epoch": 4.590984974958264,
      "grad_norm": 3.0917413234710693,
      "learning_rate": 1.1742226627712856e-05,
      "loss": 1.3876,
      "num_input_tokens_seen": 50934732,
      "step": 88000,
      "train_runtime": 3544.4536,
      "train_tokens_per_second": 14370.264
    },
    {
      "epoch": 4.617070116861436,
      "grad_norm": 2.181250810623169,
      "learning_rate": 1.1524850445186423e-05,
      "loss": 1.3801,
      "num_input_tokens_seen": 51225644,
      "step": 88500,
      "train_runtime": 3563.7836,
      "train_tokens_per_second": 14373.949
    },
    {
      "epoch": 4.643155258764608,
      "grad_norm": 3.146324872970581,
      "learning_rate": 1.130747426265999e-05,
      "loss": 1.3451,
      "num_input_tokens_seen": 51515932,
      "step": 89000,
      "train_runtime": 3583.4863,
      "train_tokens_per_second": 14375.925
    },
    {
      "epoch": 4.66924040066778,
      "grad_norm": 2.4125654697418213,
      "learning_rate": 1.1090098080133557e-05,
      "loss": 1.3759,
      "num_input_tokens_seen": 51803372,
      "step": 89500,
      "train_runtime": 3602.6645,
      "train_tokens_per_second": 14379.183
    },
    {
      "epoch": 4.695325542570951,
      "grad_norm": 3.1065971851348877,
      "learning_rate": 1.0872721897607122e-05,
      "loss": 1.3846,
      "num_input_tokens_seen": 52096660,
      "step": 90000,
      "train_runtime": 3621.3864,
      "train_tokens_per_second": 14385.833
    },
    {
      "epoch": 4.721410684474123,
      "grad_norm": 2.9472384452819824,
      "learning_rate": 1.065534571508069e-05,
      "loss": 1.3826,
      "num_input_tokens_seen": 52385124,
      "step": 90500,
      "train_runtime": 3640.3069,
      "train_tokens_per_second": 14390.304
    },
    {
      "epoch": 4.747495826377295,
      "grad_norm": 3.2821028232574463,
      "learning_rate": 1.0437969532554258e-05,
      "loss": 1.3913,
      "num_input_tokens_seen": 52675284,
      "step": 91000,
      "train_runtime": 3659.1435,
      "train_tokens_per_second": 14395.523
    },
    {
      "epoch": 4.773580968280467,
      "grad_norm": 2.897390604019165,
      "learning_rate": 1.0220593350027825e-05,
      "loss": 1.3745,
      "num_input_tokens_seen": 52966012,
      "step": 91500,
      "train_runtime": 3677.8728,
      "train_tokens_per_second": 14401.263
    },
    {
      "epoch": 4.799666110183639,
      "grad_norm": 2.4328722953796387,
      "learning_rate": 1.0003217167501391e-05,
      "loss": 1.3675,
      "num_input_tokens_seen": 53260060,
      "step": 92000,
      "train_runtime": 3696.7483,
      "train_tokens_per_second": 14407.272
    },
    {
      "epoch": 4.825751252086811,
      "grad_norm": 2.3648526668548584,
      "learning_rate": 9.78584098497496e-06,
      "loss": 1.348,
      "num_input_tokens_seen": 53549900,
      "step": 92500,
      "train_runtime": 3715.4001,
      "train_tokens_per_second": 14412.956
    },
    {
      "epoch": 4.851836393989983,
      "grad_norm": 2.3531742095947266,
      "learning_rate": 9.568464802448526e-06,
      "loss": 1.3779,
      "num_input_tokens_seen": 53844180,
      "step": 93000,
      "train_runtime": 3734.2446,
      "train_tokens_per_second": 14419.029
    },
    {
      "epoch": 4.877921535893155,
      "grad_norm": 2.4701406955718994,
      "learning_rate": 9.351088619922092e-06,
      "loss": 1.3688,
      "num_input_tokens_seen": 54132452,
      "step": 93500,
      "train_runtime": 3752.9114,
      "train_tokens_per_second": 14424.122
    },
    {
      "epoch": 4.904006677796327,
      "grad_norm": 3.4860074520111084,
      "learning_rate": 9.13371243739566e-06,
      "loss": 1.3786,
      "num_input_tokens_seen": 54424212,
      "step": 94000,
      "train_runtime": 3771.7803,
      "train_tokens_per_second": 14429.316
    },
    {
      "epoch": 4.930091819699499,
      "grad_norm": 2.331005811691284,
      "learning_rate": 8.916336254869227e-06,
      "loss": 1.3582,
      "num_input_tokens_seen": 54719684,
      "step": 94500,
      "train_runtime": 3790.6832,
      "train_tokens_per_second": 14435.309
    },
    {
      "epoch": 4.956176961602671,
      "grad_norm": 2.379862070083618,
      "learning_rate": 8.698960072342793e-06,
      "loss": 1.3838,
      "num_input_tokens_seen": 55006740,
      "step": 95000,
      "train_runtime": 3809.755,
      "train_tokens_per_second": 14438.393
    },
    {
      "epoch": 4.982262103505843,
      "grad_norm": 3.527317523956299,
      "learning_rate": 8.481583889816362e-06,
      "loss": 1.3944,
      "num_input_tokens_seen": 55294876,
      "step": 95500,
      "train_runtime": 3829.1057,
      "train_tokens_per_second": 14440.676
    },
    {
      "epoch": 5.0,
      "eval_loss": 1.3229724168777466,
      "eval_runtime": 46.7304,
      "eval_samples_per_second": 820.343,
      "eval_steps_per_second": 102.546,
      "num_input_tokens_seen": 55492754,
      "step": 95840
    },
    {
      "epoch": 5.008347245409015,
      "grad_norm": 2.8223490715026855,
      "learning_rate": 8.264207707289928e-06,
      "loss": 1.3501,
      "num_input_tokens_seen": 55585722,
      "step": 96000,
      "train_runtime": 3896.8789,
      "train_tokens_per_second": 14264.165
    },
    {
      "epoch": 5.034432387312187,
      "grad_norm": 3.312976360321045,
      "learning_rate": 8.046831524763496e-06,
      "loss": 1.364,
      "num_input_tokens_seen": 55873162,
      "step": 96500,
      "train_runtime": 3916.5275,
      "train_tokens_per_second": 14265.995
    },
    {
      "epoch": 5.060517529215359,
      "grad_norm": 4.365355491638184,
      "learning_rate": 7.829455342237061e-06,
      "loss": 1.3657,
      "num_input_tokens_seen": 56159210,
      "step": 97000,
      "train_runtime": 3935.5771,
      "train_tokens_per_second": 14269.625
    },
    {
      "epoch": 5.086602671118531,
      "grad_norm": 2.77451753616333,
      "learning_rate": 7.612079159710629e-06,
      "loss": 1.3722,
      "num_input_tokens_seen": 56450234,
      "step": 97500,
      "train_runtime": 3954.8081,
      "train_tokens_per_second": 14273.824
    },
    {
      "epoch": 5.112687813021703,
      "grad_norm": 2.028353214263916,
      "learning_rate": 7.3947029771841964e-06,
      "loss": 1.3778,
      "num_input_tokens_seen": 56740002,
      "step": 98000,
      "train_runtime": 3973.4854,
      "train_tokens_per_second": 14279.655
    },
    {
      "epoch": 5.138772954924875,
      "grad_norm": 2.0676374435424805,
      "learning_rate": 7.177326794657763e-06,
      "loss": 1.3462,
      "num_input_tokens_seen": 57027226,
      "step": 98500,
      "train_runtime": 3992.3304,
      "train_tokens_per_second": 14284.195
    },
    {
      "epoch": 5.164858096828047,
      "grad_norm": 2.0867531299591064,
      "learning_rate": 6.95995061213133e-06,
      "loss": 1.3739,
      "num_input_tokens_seen": 57316978,
      "step": 99000,
      "train_runtime": 4012.1011,
      "train_tokens_per_second": 14286.025
    },
    {
      "epoch": 5.190943238731219,
      "grad_norm": 2.3995723724365234,
      "learning_rate": 6.7425744296048975e-06,
      "loss": 1.3821,
      "num_input_tokens_seen": 57607834,
      "step": 99500,
      "train_runtime": 4031.6912,
      "train_tokens_per_second": 14288.752
    },
    {
      "epoch": 5.217028380634391,
      "grad_norm": 3.466399669647217,
      "learning_rate": 6.525198247078465e-06,
      "loss": 1.3499,
      "num_input_tokens_seen": 57896786,
      "step": 100000,
      "train_runtime": 4051.2038,
      "train_tokens_per_second": 14291.255
    },
    {
      "epoch": 5.243113522537563,
      "grad_norm": 2.673947811126709,
      "learning_rate": 6.307822064552031e-06,
      "loss": 1.3703,
      "num_input_tokens_seen": 58184506,
      "step": 100500,
      "train_runtime": 4070.3919,
      "train_tokens_per_second": 14294.571
    },
    {
      "epoch": 5.269198664440735,
      "grad_norm": 2.0675642490386963,
      "learning_rate": 6.0904458820255986e-06,
      "loss": 1.3759,
      "num_input_tokens_seen": 58473186,
      "step": 101000,
      "train_runtime": 4090.425,
      "train_tokens_per_second": 14295.137
    },
    {
      "epoch": 5.295283806343907,
      "grad_norm": 2.8680272102355957,
      "learning_rate": 5.873069699499165e-06,
      "loss": 1.3811,
      "num_input_tokens_seen": 58764498,
      "step": 101500,
      "train_runtime": 4109.7435,
      "train_tokens_per_second": 14298.824
    },
    {
      "epoch": 5.321368948247079,
      "grad_norm": 3.1335153579711914,
      "learning_rate": 5.655693516972733e-06,
      "loss": 1.3914,
      "num_input_tokens_seen": 59053762,
      "step": 102000,
      "train_runtime": 4129.2443,
      "train_tokens_per_second": 14301.348
    },
    {
      "epoch": 5.347454090150251,
      "grad_norm": 4.179940223693848,
      "learning_rate": 5.4383173344463e-06,
      "loss": 1.3353,
      "num_input_tokens_seen": 59346138,
      "step": 102500,
      "train_runtime": 4148.9629,
      "train_tokens_per_second": 14303.849
    },
    {
      "epoch": 5.373539232053423,
      "grad_norm": 2.837871551513672,
      "learning_rate": 5.220941151919867e-06,
      "loss": 1.3592,
      "num_input_tokens_seen": 59634050,
      "step": 103000,
      "train_runtime": 4172.193,
      "train_tokens_per_second": 14293.215
    },
    {
      "epoch": 5.399624373956595,
      "grad_norm": 2.620933771133423,
      "learning_rate": 5.003564969393433e-06,
      "loss": 1.3438,
      "num_input_tokens_seen": 59920002,
      "step": 103500,
      "train_runtime": 4191.8017,
      "train_tokens_per_second": 14294.57
    },
    {
      "epoch": 5.425709515859766,
      "grad_norm": 2.974597454071045,
      "learning_rate": 4.786188786867001e-06,
      "loss": 1.3848,
      "num_input_tokens_seen": 60208490,
      "step": 104000,
      "train_runtime": 4210.5451,
      "train_tokens_per_second": 14299.453
    },
    {
      "epoch": 5.451794657762938,
      "grad_norm": 2.7892649173736572,
      "learning_rate": 4.568812604340568e-06,
      "loss": 1.3947,
      "num_input_tokens_seen": 60497570,
      "step": 104500,
      "train_runtime": 4229.6543,
      "train_tokens_per_second": 14303.195
    },
    {
      "epoch": 5.47787979966611,
      "grad_norm": 2.9217751026153564,
      "learning_rate": 4.3514364218141344e-06,
      "loss": 1.3637,
      "num_input_tokens_seen": 60791682,
      "step": 105000,
      "train_runtime": 4249.1377,
      "train_tokens_per_second": 14306.828
    },
    {
      "epoch": 5.503964941569282,
      "grad_norm": 2.3021788597106934,
      "learning_rate": 4.134060239287702e-06,
      "loss": 1.3772,
      "num_input_tokens_seen": 61081546,
      "step": 105500,
      "train_runtime": 4268.0879,
      "train_tokens_per_second": 14311.22
    },
    {
      "epoch": 5.530050083472454,
      "grad_norm": 2.520854949951172,
      "learning_rate": 3.916684056761269e-06,
      "loss": 1.3595,
      "num_input_tokens_seen": 61376714,
      "step": 106000,
      "train_runtime": 4287.1193,
      "train_tokens_per_second": 14316.54
    },
    {
      "epoch": 5.556135225375626,
      "grad_norm": 2.5124387741088867,
      "learning_rate": 3.6993078742348355e-06,
      "loss": 1.3755,
      "num_input_tokens_seen": 61670282,
      "step": 106500,
      "train_runtime": 4306.7613,
      "train_tokens_per_second": 14319.41
    },
    {
      "epoch": 5.582220367278798,
      "grad_norm": 3.6542813777923584,
      "learning_rate": 3.4819316917084032e-06,
      "loss": 1.3299,
      "num_input_tokens_seen": 61959530,
      "step": 107000,
      "train_runtime": 4325.9495,
      "train_tokens_per_second": 14322.758
    },
    {
      "epoch": 5.60830550918197,
      "grad_norm": 2.480987787246704,
      "learning_rate": 3.2645555091819697e-06,
      "loss": 1.3488,
      "num_input_tokens_seen": 62248610,
      "step": 107500,
      "train_runtime": 4344.6789,
      "train_tokens_per_second": 14327.551
    },
    {
      "epoch": 5.634390651085142,
      "grad_norm": 3.620051383972168,
      "learning_rate": 3.047179326655537e-06,
      "loss": 1.3663,
      "num_input_tokens_seen": 62535434,
      "step": 108000,
      "train_runtime": 4363.4204,
      "train_tokens_per_second": 14331.746
    },
    {
      "epoch": 5.660475792988314,
      "grad_norm": 2.9154930114746094,
      "learning_rate": 2.8298031441291043e-06,
      "loss": 1.3719,
      "num_input_tokens_seen": 62824930,
      "step": 108500,
      "train_runtime": 4382.1169,
      "train_tokens_per_second": 14336.662
    },
    {
      "epoch": 5.686560934891486,
      "grad_norm": 2.5228476524353027,
      "learning_rate": 2.612426961602671e-06,
      "loss": 1.3476,
      "num_input_tokens_seen": 63114954,
      "step": 109000,
      "train_runtime": 4400.737,
      "train_tokens_per_second": 14341.905
    },
    {
      "epoch": 5.712646076794658,
      "grad_norm": 2.6546239852905273,
      "learning_rate": 2.3950507790762385e-06,
      "loss": 1.3474,
      "num_input_tokens_seen": 63403826,
      "step": 109500,
      "train_runtime": 4419.5486,
      "train_tokens_per_second": 14346.222
    },
    {
      "epoch": 5.73873121869783,
      "grad_norm": 3.8582890033721924,
      "learning_rate": 2.1776745965498054e-06,
      "loss": 1.3451,
      "num_input_tokens_seen": 63689762,
      "step": 110000,
      "train_runtime": 4438.8474,
      "train_tokens_per_second": 14348.266
    },
    {
      "epoch": 5.764816360601001,
      "grad_norm": 3.4054343700408936,
      "learning_rate": 1.9602984140233727e-06,
      "loss": 1.3811,
      "num_input_tokens_seen": 63978794,
      "step": 110500,
      "train_runtime": 4458.4476,
      "train_tokens_per_second": 14350.016
    },
    {
      "epoch": 5.790901502504173,
      "grad_norm": 2.907578468322754,
      "learning_rate": 1.7429222314969393e-06,
      "loss": 1.3843,
      "num_input_tokens_seen": 64270234,
      "step": 111000,
      "train_runtime": 4478.4361,
      "train_tokens_per_second": 14351.044
    },
    {
      "epoch": 5.816986644407345,
      "grad_norm": 2.72294020652771,
      "learning_rate": 1.5255460489705064e-06,
      "loss": 1.3511,
      "num_input_tokens_seen": 64557130,
      "step": 111500,
      "train_runtime": 4498.1115,
      "train_tokens_per_second": 14352.052
    },
    {
      "epoch": 5.843071786310517,
      "grad_norm": 2.910423755645752,
      "learning_rate": 1.3081698664440735e-06,
      "loss": 1.355,
      "num_input_tokens_seen": 64847634,
      "step": 112000,
      "train_runtime": 4517.4916,
      "train_tokens_per_second": 14354.788
    },
    {
      "epoch": 5.869156928213689,
      "grad_norm": 2.3920516967773438,
      "learning_rate": 1.0907936839176406e-06,
      "loss": 1.3696,
      "num_input_tokens_seen": 65135722,
      "step": 112500,
      "train_runtime": 4536.2006,
      "train_tokens_per_second": 14359.092
    },
    {
      "epoch": 5.895242070116861,
      "grad_norm": 2.619903087615967,
      "learning_rate": 8.734175013912075e-07,
      "loss": 1.3515,
      "num_input_tokens_seen": 65423234,
      "step": 113000,
      "train_runtime": 4554.8848,
      "train_tokens_per_second": 14363.312
    },
    {
      "epoch": 5.921327212020033,
      "grad_norm": 2.61676025390625,
      "learning_rate": 6.560413188647746e-07,
      "loss": 1.3784,
      "num_input_tokens_seen": 65718338,
      "step": 113500,
      "train_runtime": 4573.7838,
      "train_tokens_per_second": 14368.484
    },
    {
      "epoch": 5.947412353923205,
      "grad_norm": 2.6655712127685547,
      "learning_rate": 4.3866513633834173e-07,
      "loss": 1.3672,
      "num_input_tokens_seen": 66007642,
      "step": 114000,
      "train_runtime": 4592.9685,
      "train_tokens_per_second": 14371.456
    },
    {
      "epoch": 5.973497495826377,
      "grad_norm": 2.606362819671631,
      "learning_rate": 2.2128895381190875e-07,
      "loss": 1.3579,
      "num_input_tokens_seen": 66290722,
      "step": 114500,
      "train_runtime": 4612.1986,
      "train_tokens_per_second": 14372.911
    },
    {
      "epoch": 5.999582637729549,
      "grad_norm": 2.8683297634124756,
      "learning_rate": 3.912771285475793e-09,
      "loss": 1.3687,
      "num_input_tokens_seen": 66581138,
      "step": 115000,
      "train_runtime": 4632.4758,
      "train_tokens_per_second": 14372.69
    },
    {
      "epoch": 6.0,
      "eval_loss": 1.319564938545227,
      "eval_runtime": 45.0275,
      "eval_samples_per_second": 851.369,
      "eval_steps_per_second": 106.424,
      "num_input_tokens_seen": 66585670,
      "step": 115008
    },
    {
      "epoch": 6.025667779632721,
      "grad_norm": 3.327254295349121,
      "learning_rate": 1.9871921953255425e-05,
      "loss": 1.3775,
      "num_input_tokens_seen": 66874998,
      "step": 115500,
      "train_runtime": 18.7889,
      "train_tokens_per_second": 3559284.107
    },
    {
      "epoch": 6.051752921535893,
      "grad_norm": 2.0363502502441406,
      "learning_rate": 1.9741496243739565e-05,
      "loss": 1.3598,
      "num_input_tokens_seen": 67165902,
      "step": 116000,
      "train_runtime": 38.0722,
      "train_tokens_per_second": 1764173.697
    },
    {
      "epoch": 6.077838063439065,
      "grad_norm": 3.2186789512634277,
      "learning_rate": 1.9611070534223708e-05,
      "loss": 1.3582,
      "num_input_tokens_seen": 67454310,
      "step": 116500,
      "train_runtime": 56.9892,
      "train_tokens_per_second": 1183632.851
    },
    {
      "epoch": 6.103923205342237,
      "grad_norm": 3.1102960109710693,
      "learning_rate": 1.9480644824707847e-05,
      "loss": 1.342,
      "num_input_tokens_seen": 67741886,
      "step": 117000,
      "train_runtime": 76.1489,
      "train_tokens_per_second": 889597.261
    },
    {
      "epoch": 6.130008347245409,
      "grad_norm": 2.1836190223693848,
      "learning_rate": 1.9350219115191987e-05,
      "loss": 1.3578,
      "num_input_tokens_seen": 68030070,
      "step": 117500,
      "train_runtime": 95.3289,
      "train_tokens_per_second": 713635.053
    },
    {
      "epoch": 6.156093489148581,
      "grad_norm": 2.637117624282837,
      "learning_rate": 1.921979340567613e-05,
      "loss": 1.3561,
      "num_input_tokens_seen": 68313278,
      "step": 118000,
      "train_runtime": 114.4954,
      "train_tokens_per_second": 596646.246
    },
    {
      "epoch": 6.182178631051753,
      "grad_norm": 2.454594612121582,
      "learning_rate": 1.908936769616027e-05,
      "loss": 1.3897,
      "num_input_tokens_seen": 68603790,
      "step": 118500,
      "train_runtime": 133.1929,
      "train_tokens_per_second": 515071.035
    },
    {
      "epoch": 6.208263772954925,
      "grad_norm": 2.6059861183166504,
      "learning_rate": 1.895894198664441e-05,
      "loss": 1.3662,
      "num_input_tokens_seen": 68897534,
      "step": 119000,
      "train_runtime": 152.3637,
      "train_tokens_per_second": 452191.312
    },
    {
      "epoch": 6.234348914858097,
      "grad_norm": 2.963710308074951,
      "learning_rate": 1.8828516277128548e-05,
      "loss": 1.3688,
      "num_input_tokens_seen": 69185822,
      "step": 119500,
      "train_runtime": 171.3295,
      "train_tokens_per_second": 403817.306
    },
    {
      "epoch": 6.260434056761269,
      "grad_norm": 2.3006739616394043,
      "learning_rate": 1.8698090567612688e-05,
      "loss": 1.3867,
      "num_input_tokens_seen": 69477766,
      "step": 120000,
      "train_runtime": 189.6964,
      "train_tokens_per_second": 366257.718
    },
    {
      "epoch": 6.286519198664441,
      "grad_norm": 2.4806406497955322,
      "learning_rate": 1.8567664858096827e-05,
      "loss": 1.349,
      "num_input_tokens_seen": 69770974,
      "step": 120500,
      "train_runtime": 208.9904,
      "train_tokens_per_second": 333847.728
    },
    {
      "epoch": 6.312604340567613,
      "grad_norm": 2.4395639896392822,
      "learning_rate": 1.843723914858097e-05,
      "loss": 1.3733,
      "num_input_tokens_seen": 70062350,
      "step": 121000,
      "train_runtime": 228.9771,
      "train_tokens_per_second": 305979.777
    },
    {
      "epoch": 6.338689482470785,
      "grad_norm": 2.7110908031463623,
      "learning_rate": 1.830681343906511e-05,
      "loss": 1.3708,
      "num_input_tokens_seen": 70351870,
      "step": 121500,
      "train_runtime": 248.7026,
      "train_tokens_per_second": 282875.484
    },
    {
      "epoch": 6.364774624373957,
      "grad_norm": 2.789796829223633,
      "learning_rate": 1.817638772954925e-05,
      "loss": 1.3688,
      "num_input_tokens_seen": 70642750,
      "step": 122000,
      "train_runtime": 268.6462,
      "train_tokens_per_second": 262958.28
    },
    {
      "epoch": 6.390859766277129,
      "grad_norm": 2.9111709594726562,
      "learning_rate": 1.8045962020033392e-05,
      "loss": 1.3518,
      "num_input_tokens_seen": 70931190,
      "step": 122500,
      "train_runtime": 288.3677,
      "train_tokens_per_second": 245974.799
    },
    {
      "epoch": 6.416944908180301,
      "grad_norm": 2.4599456787109375,
      "learning_rate": 1.791553631051753e-05,
      "loss": 1.3431,
      "num_input_tokens_seen": 71224646,
      "step": 123000,
      "train_runtime": 307.3647,
      "train_tokens_per_second": 231726.811
    },
    {
      "epoch": 6.443030050083473,
      "grad_norm": 2.365891456604004,
      "learning_rate": 1.778511060100167e-05,
      "loss": 1.3865,
      "num_input_tokens_seen": 71511326,
      "step": 123500,
      "train_runtime": 326.1759,
      "train_tokens_per_second": 219241.597
    },
    {
      "epoch": 6.469115191986645,
      "grad_norm": 2.6345105171203613,
      "learning_rate": 1.765468489148581e-05,
      "loss": 1.3734,
      "num_input_tokens_seen": 71797622,
      "step": 124000,
      "train_runtime": 344.951,
      "train_tokens_per_second": 208138.626
    },
    {
      "epoch": 6.495200333889817,
      "grad_norm": 3.2426106929779053,
      "learning_rate": 1.752425918196995e-05,
      "loss": 1.3628,
      "num_input_tokens_seen": 72088862,
      "step": 124500,
      "train_runtime": 363.8685,
      "train_tokens_per_second": 198117.913
    },
    {
      "epoch": 6.521285475792988,
      "grad_norm": 2.608137845993042,
      "learning_rate": 1.739383347245409e-05,
      "loss": 1.3723,
      "num_input_tokens_seen": 72378534,
      "step": 125000,
      "train_runtime": 383.5577,
      "train_tokens_per_second": 188703.107
    },
    {
      "epoch": 6.54737061769616,
      "grad_norm": 4.101028919219971,
      "learning_rate": 1.726340776293823e-05,
      "loss": 1.3776,
      "num_input_tokens_seen": 72669942,
      "step": 125500,
      "train_runtime": 402.8471,
      "train_tokens_per_second": 180390.889
    },
    {
      "epoch": 6.573455759599332,
      "grad_norm": 2.356037139892578,
      "learning_rate": 1.7132982053422372e-05,
      "loss": 1.376,
      "num_input_tokens_seen": 72956998,
      "step": 126000,
      "train_runtime": 422.9625,
      "train_tokens_per_second": 172490.455
    },
    {
      "epoch": 6.599540901502504,
      "grad_norm": 2.768091917037964,
      "learning_rate": 1.7002556343906512e-05,
      "loss": 1.3849,
      "num_input_tokens_seen": 73246278,
      "step": 126500,
      "train_runtime": 442.5677,
      "train_tokens_per_second": 165503.005
    },
    {
      "epoch": 6.625626043405676,
      "grad_norm": 2.1557633876800537,
      "learning_rate": 1.687213063439065e-05,
      "loss": 1.3692,
      "num_input_tokens_seen": 73532518,
      "step": 127000,
      "train_runtime": 461.2902,
      "train_tokens_per_second": 159406.192
    },
    {
      "epoch": 6.651711185308848,
      "grad_norm": 2.739330768585205,
      "learning_rate": 1.6741704924874794e-05,
      "loss": 1.3853,
      "num_input_tokens_seen": 73816374,
      "step": 127500,
      "train_runtime": 480.2569,
      "train_tokens_per_second": 153701.835
    },
    {
      "epoch": 6.67779632721202,
      "grad_norm": 2.28963303565979,
      "learning_rate": 1.6611279215358934e-05,
      "loss": 1.3539,
      "num_input_tokens_seen": 74103334,
      "step": 128000,
      "train_runtime": 499.0026,
      "train_tokens_per_second": 148502.901
    },
    {
      "epoch": 6.703881469115192,
      "grad_norm": 3.2728097438812256,
      "learning_rate": 1.6480853505843073e-05,
      "loss": 1.3519,
      "num_input_tokens_seen": 74392214,
      "step": 128500,
      "train_runtime": 517.9355,
      "train_tokens_per_second": 143632.196
    },
    {
      "epoch": 6.729966611018364,
      "grad_norm": 3.280041217803955,
      "learning_rate": 1.6350427796327213e-05,
      "loss": 1.3064,
      "num_input_tokens_seen": 74677654,
      "step": 129000,
      "train_runtime": 536.8375,
      "train_tokens_per_second": 139106.624
    },
    {
      "epoch": 6.756051752921536,
      "grad_norm": 3.9127538204193115,
      "learning_rate": 1.6220002086811352e-05,
      "loss": 1.3779,
      "num_input_tokens_seen": 74968646,
      "step": 129500,
      "train_runtime": 555.72,
      "train_tokens_per_second": 134903.621
    },
    {
      "epoch": 6.782136894824708,
      "grad_norm": 2.7960000038146973,
      "learning_rate": 1.6089576377295492e-05,
      "loss": 1.3327,
      "num_input_tokens_seen": 75257286,
      "step": 130000,
      "train_runtime": 574.6797,
      "train_tokens_per_second": 130955.186
    },
    {
      "epoch": 6.80822203672788,
      "grad_norm": 2.997286796569824,
      "learning_rate": 1.5959150667779635e-05,
      "loss": 1.3684,
      "num_input_tokens_seen": 75546398,
      "step": 130500,
      "train_runtime": 593.4532,
      "train_tokens_per_second": 127299.662
    },
    {
      "epoch": 6.834307178631052,
      "grad_norm": 2.6267356872558594,
      "learning_rate": 1.5828724958263774e-05,
      "loss": 1.3416,
      "num_input_tokens_seen": 75840662,
      "step": 131000,
      "train_runtime": 612.3615,
      "train_tokens_per_second": 123849.503
    },
    {
      "epoch": 6.860392320534224,
      "grad_norm": 2.1126062870025635,
      "learning_rate": 1.5698299248747914e-05,
      "loss": 1.3606,
      "num_input_tokens_seen": 76125694,
      "step": 131500,
      "train_runtime": 631.2618,
      "train_tokens_per_second": 120592.897
    },
    {
      "epoch": 6.886477462437396,
      "grad_norm": 2.9131317138671875,
      "learning_rate": 1.5567873539232053e-05,
      "loss": 1.3813,
      "num_input_tokens_seen": 76417118,
      "step": 132000,
      "train_runtime": 650.1892,
      "train_tokens_per_second": 117530.578
    },
    {
      "epoch": 6.912562604340567,
      "grad_norm": 3.5298712253570557,
      "learning_rate": 1.5437447829716196e-05,
      "loss": 1.3617,
      "num_input_tokens_seen": 76703430,
      "step": 132500,
      "train_runtime": 669.1223,
      "train_tokens_per_second": 114632.907
    },
    {
      "epoch": 6.938647746243739,
      "grad_norm": 2.850775718688965,
      "learning_rate": 1.5307022120200336e-05,
      "loss": 1.3672,
      "num_input_tokens_seen": 76992342,
      "step": 133000,
      "train_runtime": 687.9389,
      "train_tokens_per_second": 111917.419
    },
    {
      "epoch": 6.964732888146911,
      "grad_norm": 3.314821481704712,
      "learning_rate": 1.5176596410684474e-05,
      "loss": 1.3715,
      "num_input_tokens_seen": 77284374,
      "step": 133500,
      "train_runtime": 706.8708,
      "train_tokens_per_second": 109333.091
    },
    {
      "epoch": 6.990818030050083,
      "grad_norm": 3.3693618774414062,
      "learning_rate": 1.5046170701168617e-05,
      "loss": 1.3858,
      "num_input_tokens_seen": 77571966,
      "step": 134000,
      "train_runtime": 725.7267,
      "train_tokens_per_second": 106888.674
    },
    {
      "epoch": 7.0,
      "eval_loss": 1.3148815631866455,
      "eval_runtime": 45.8848,
      "eval_samples_per_second": 835.462,
      "eval_steps_per_second": 104.435,
      "num_input_tokens_seen": 77673096,
      "step": 134176
    },
    {
      "epoch": 7.016903171953255,
      "grad_norm": 2.7694716453552246,
      "learning_rate": 1.4915744991652755e-05,
      "loss": 1.3419,
      "num_input_tokens_seen": 77861608,
      "step": 134500,
      "train_runtime": 791.8621,
      "train_tokens_per_second": 98327.231
    },
    {
      "epoch": 7.042988313856427,
      "grad_norm": 2.7334187030792236,
      "learning_rate": 1.4785319282136894e-05,
      "loss": 1.3308,
      "num_input_tokens_seen": 78149784,
      "step": 135000,
      "train_runtime": 810.7343,
      "train_tokens_per_second": 96393.825
    },
    {
      "epoch": 7.069073455759599,
      "grad_norm": 2.9365265369415283,
      "learning_rate": 1.4654893572621037e-05,
      "loss": 1.3525,
      "num_input_tokens_seen": 78438792,
      "step": 135500,
      "train_runtime": 829.7324,
      "train_tokens_per_second": 94535.049
    },
    {
      "epoch": 7.095158597662771,
      "grad_norm": 4.147580146789551,
      "learning_rate": 1.4524467863105177e-05,
      "loss": 1.3465,
      "num_input_tokens_seen": 78732384,
      "step": 136000,
      "train_runtime": 848.5615,
      "train_tokens_per_second": 92783.357
    },
    {
      "epoch": 7.121243739565943,
      "grad_norm": 2.915922164916992,
      "learning_rate": 1.4394042153589316e-05,
      "loss": 1.3614,
      "num_input_tokens_seen": 79016208,
      "step": 136500,
      "train_runtime": 867.5653,
      "train_tokens_per_second": 91078.111
    },
    {
      "epoch": 7.147328881469115,
      "grad_norm": 2.549786329269409,
      "learning_rate": 1.4263616444073457e-05,
      "loss": 1.318,
      "num_input_tokens_seen": 79301784,
      "step": 137000,
      "train_runtime": 886.659,
      "train_tokens_per_second": 89438.871
    },
    {
      "epoch": 7.173414023372287,
      "grad_norm": 2.5047004222869873,
      "learning_rate": 1.4133190734557597e-05,
      "loss": 1.368,
      "num_input_tokens_seen": 79590400,
      "step": 137500,
      "train_runtime": 905.5133,
      "train_tokens_per_second": 87895.338
    },
    {
      "epoch": 7.199499165275459,
      "grad_norm": 3.0781052112579346,
      "learning_rate": 1.4002765025041736e-05,
      "loss": 1.3653,
      "num_input_tokens_seen": 79879504,
      "step": 138000,
      "train_runtime": 924.4454,
      "train_tokens_per_second": 86408.029
    },
    {
      "epoch": 7.225584307178631,
      "grad_norm": 3.6476972103118896,
      "learning_rate": 1.387233931552588e-05,
      "loss": 1.3514,
      "num_input_tokens_seen": 80167640,
      "step": 138500,
      "train_runtime": 943.229,
      "train_tokens_per_second": 84992.766
    },
    {
      "epoch": 7.2516694490818026,
      "grad_norm": 5.114116191864014,
      "learning_rate": 1.3741913606010017e-05,
      "loss": 1.3413,
      "num_input_tokens_seen": 80456216,
      "step": 139000,
      "train_runtime": 962.1141,
      "train_tokens_per_second": 83624.399
    },
    {
      "epoch": 7.277754590984975,
      "grad_norm": 2.5727877616882324,
      "learning_rate": 1.3611487896494157e-05,
      "loss": 1.3414,
      "num_input_tokens_seen": 80747832,
      "step": 139500,
      "train_runtime": 980.9921,
      "train_tokens_per_second": 82312.418
    },
    {
      "epoch": 7.303839732888147,
      "grad_norm": 2.9491872787475586,
      "learning_rate": 1.3481062186978296e-05,
      "loss": 1.3412,
      "num_input_tokens_seen": 81043216,
      "step": 140000,
      "train_runtime": 999.9989,
      "train_tokens_per_second": 81043.309
    },
    {
      "epoch": 7.329924874791319,
      "grad_norm": 2.045164108276367,
      "learning_rate": 1.3350636477462439e-05,
      "loss": 1.3729,
      "num_input_tokens_seen": 81333232,
      "step": 140500,
      "train_runtime": 1018.8484,
      "train_tokens_per_second": 79828.588
    },
    {
      "epoch": 7.356010016694491,
      "grad_norm": 3.922563314437866,
      "learning_rate": 1.3220210767946579e-05,
      "loss": 1.3443,
      "num_input_tokens_seen": 81622416,
      "step": 141000,
      "train_runtime": 1037.8422,
      "train_tokens_per_second": 78646.268
    },
    {
      "epoch": 7.382095158597663,
      "grad_norm": 2.426223039627075,
      "learning_rate": 1.3089785058430718e-05,
      "loss": 1.3544,
      "num_input_tokens_seen": 81911608,
      "step": 141500,
      "train_runtime": 1056.8045,
      "train_tokens_per_second": 77508.763
    },
    {
      "epoch": 7.408180300500835,
      "grad_norm": 2.67075514793396,
      "learning_rate": 1.295935934891486e-05,
      "loss": 1.3246,
      "num_input_tokens_seen": 82202544,
      "step": 142000,
      "train_runtime": 1075.733,
      "train_tokens_per_second": 76415.38
    },
    {
      "epoch": 7.434265442404007,
      "grad_norm": 2.5923829078674316,
      "learning_rate": 1.2828933639398999e-05,
      "loss": 1.3388,
      "num_input_tokens_seen": 82493944,
      "step": 142500,
      "train_runtime": 1094.8433,
      "train_tokens_per_second": 75347.716
    },
    {
      "epoch": 7.460350584307179,
      "grad_norm": 2.602835178375244,
      "learning_rate": 1.2698507929883138e-05,
      "loss": 1.3423,
      "num_input_tokens_seen": 82784656,
      "step": 143000,
      "train_runtime": 1113.7237,
      "train_tokens_per_second": 74331.413
    },
    {
      "epoch": 7.486435726210351,
      "grad_norm": 3.1531965732574463,
      "learning_rate": 1.256808222036728e-05,
      "loss": 1.3452,
      "num_input_tokens_seen": 83068624,
      "step": 143500,
      "train_runtime": 1132.6794,
      "train_tokens_per_second": 73338.162
    },
    {
      "epoch": 7.512520868113523,
      "grad_norm": 2.2403712272644043,
      "learning_rate": 1.243765651085142e-05,
      "loss": 1.3618,
      "num_input_tokens_seen": 83351920,
      "step": 144000,
      "train_runtime": 1151.592,
      "train_tokens_per_second": 72379.733
    },
    {
      "epoch": 7.538606010016695,
      "grad_norm": 3.465223550796509,
      "learning_rate": 1.2307230801335559e-05,
      "loss": 1.3632,
      "num_input_tokens_seen": 83638888,
      "step": 144500,
      "train_runtime": 1170.6851,
      "train_tokens_per_second": 71444.392
    },
    {
      "epoch": 7.564691151919867,
      "grad_norm": 2.3392977714538574,
      "learning_rate": 1.21768050918197e-05,
      "loss": 1.3318,
      "num_input_tokens_seen": 83931992,
      "step": 145000,
      "train_runtime": 1189.5906,
      "train_tokens_per_second": 70555.362
    },
    {
      "epoch": 7.590776293823039,
      "grad_norm": 3.0218007564544678,
      "learning_rate": 1.2046379382303841e-05,
      "loss": 1.3636,
      "num_input_tokens_seen": 84220168,
      "step": 145500,
      "train_runtime": 1208.5932,
      "train_tokens_per_second": 69684.461
    },
    {
      "epoch": 7.616861435726211,
      "grad_norm": 3.329549789428711,
      "learning_rate": 1.191595367278798e-05,
      "loss": 1.355,
      "num_input_tokens_seen": 84509512,
      "step": 146000,
      "train_runtime": 1227.4823,
      "train_tokens_per_second": 68847.845
    },
    {
      "epoch": 7.642946577629383,
      "grad_norm": 6.515806198120117,
      "learning_rate": 1.178552796327212e-05,
      "loss": 1.3414,
      "num_input_tokens_seen": 84808104,
      "step": 146500,
      "train_runtime": 1246.4918,
      "train_tokens_per_second": 68037.434
    },
    {
      "epoch": 7.669031719532554,
      "grad_norm": 3.5463063716888428,
      "learning_rate": 1.1655102253756262e-05,
      "loss": 1.3617,
      "num_input_tokens_seen": 85099704,
      "step": 147000,
      "train_runtime": 1265.5528,
      "train_tokens_per_second": 67243.109
    },
    {
      "epoch": 7.695116861435726,
      "grad_norm": 2.877112627029419,
      "learning_rate": 1.1524676544240401e-05,
      "loss": 1.3524,
      "num_input_tokens_seen": 85387272,
      "step": 147500,
      "train_runtime": 1284.3298,
      "train_tokens_per_second": 66483.913
    },
    {
      "epoch": 7.721202003338898,
      "grad_norm": 2.8873534202575684,
      "learning_rate": 1.1394250834724542e-05,
      "loss": 1.3442,
      "num_input_tokens_seen": 85671272,
      "step": 148000,
      "train_runtime": 1303.2108,
      "train_tokens_per_second": 65738.615
    },
    {
      "epoch": 7.74728714524207,
      "grad_norm": 3.5610382556915283,
      "learning_rate": 1.126382512520868e-05,
      "loss": 1.3505,
      "num_input_tokens_seen": 85959168,
      "step": 148500,
      "train_runtime": 1322.1598,
      "train_tokens_per_second": 65014.207
    },
    {
      "epoch": 7.773372287145242,
      "grad_norm": 2.6103343963623047,
      "learning_rate": 1.1133399415692821e-05,
      "loss": 1.3616,
      "num_input_tokens_seen": 86255128,
      "step": 149000,
      "train_runtime": 1341.3928,
      "train_tokens_per_second": 64302.661
    },
    {
      "epoch": 7.799457429048414,
      "grad_norm": 2.5157065391540527,
      "learning_rate": 1.1002973706176963e-05,
      "loss": 1.3422,
      "num_input_tokens_seen": 86546848,
      "step": 149500,
      "train_runtime": 1360.2395,
      "train_tokens_per_second": 63626.184
    },
    {
      "epoch": 7.825542570951586,
      "grad_norm": 2.315091371536255,
      "learning_rate": 1.0872547996661102e-05,
      "loss": 1.3511,
      "num_input_tokens_seen": 86837440,
      "step": 150000,
      "train_runtime": 1379.3034,
      "train_tokens_per_second": 62957.46
    },
    {
      "epoch": 7.851627712854758,
      "grad_norm": 2.2483925819396973,
      "learning_rate": 1.0742122287145243e-05,
      "loss": 1.3355,
      "num_input_tokens_seen": 87120032,
      "step": 150500,
      "train_runtime": 1398.2422,
      "train_tokens_per_second": 62306.824
    },
    {
      "epoch": 7.87771285475793,
      "grad_norm": 2.340362071990967,
      "learning_rate": 1.0611696577629383e-05,
      "loss": 1.3537,
      "num_input_tokens_seen": 87415824,
      "step": 151000,
      "train_runtime": 1417.1731,
      "train_tokens_per_second": 61683.236
    },
    {
      "epoch": 7.903797996661102,
      "grad_norm": 2.813960552215576,
      "learning_rate": 1.0481270868113522e-05,
      "loss": 1.3479,
      "num_input_tokens_seen": 87701680,
      "step": 151500,
      "train_runtime": 1436.1799,
      "train_tokens_per_second": 61065.945
    },
    {
      "epoch": 7.929883138564274,
      "grad_norm": 2.2960751056671143,
      "learning_rate": 1.0350845158597664e-05,
      "loss": 1.3475,
      "num_input_tokens_seen": 87992448,
      "step": 152000,
      "train_runtime": 1455.0801,
      "train_tokens_per_second": 60472.578
    },
    {
      "epoch": 7.955968280467446,
      "grad_norm": 3.048780918121338,
      "learning_rate": 1.0220419449081803e-05,
      "loss": 1.3619,
      "num_input_tokens_seen": 88281416,
      "step": 152500,
      "train_runtime": 1474.0153,
      "train_tokens_per_second": 59891.791
    },
    {
      "epoch": 7.982053422370617,
      "grad_norm": 2.816805362701416,
      "learning_rate": 1.0089993739565943e-05,
      "loss": 1.357,
      "num_input_tokens_seen": 88572368,
      "step": 153000,
      "train_runtime": 1492.8602,
      "train_tokens_per_second": 59330.65
    },
    {
      "epoch": 8.0,
      "eval_loss": 1.310753345489502,
      "eval_runtime": 45.8622,
      "eval_samples_per_second": 835.874,
      "eval_steps_per_second": 104.487,
      "num_input_tokens_seen": 88772850,
      "step": 153344
    },
    {
      "epoch": 8.00813856427379,
      "grad_norm": 2.93835186958313,
      "learning_rate": 9.959568030050084e-06,
      "loss": 1.3378,
      "num_input_tokens_seen": 88861818,
      "step": 153500,
      "train_runtime": 1558.6187,
      "train_tokens_per_second": 57013.187
    },
    {
      "epoch": 8.034223706176961,
      "grad_norm": 3.2679965496063232,
      "learning_rate": 9.829142320534224e-06,
      "loss": 1.3403,
      "num_input_tokens_seen": 89148626,
      "step": 154000,
      "train_runtime": 1577.6034,
      "train_tokens_per_second": 56508.897
    },
    {
      "epoch": 8.060308848080133,
      "grad_norm": 1.7137473821640015,
      "learning_rate": 9.698716611018365e-06,
      "loss": 1.3357,
      "num_input_tokens_seen": 89432242,
      "step": 154500,
      "train_runtime": 1596.5679,
      "train_tokens_per_second": 56015.306
    },
    {
      "epoch": 8.086393989983305,
      "grad_norm": 2.5696284770965576,
      "learning_rate": 9.568290901502506e-06,
      "loss": 1.3465,
      "num_input_tokens_seen": 89721890,
      "step": 155000,
      "train_runtime": 1615.4358,
      "train_tokens_per_second": 55540.364
    },
    {
      "epoch": 8.112479131886477,
      "grad_norm": 3.715364694595337,
      "learning_rate": 9.437865191986644e-06,
      "loss": 1.3407,
      "num_input_tokens_seen": 90009618,
      "step": 155500,
      "train_runtime": 1634.2407,
      "train_tokens_per_second": 55077.332
    },
    {
      "epoch": 8.13856427378965,
      "grad_norm": 2.7199196815490723,
      "learning_rate": 9.307439482470785e-06,
      "loss": 1.3444,
      "num_input_tokens_seen": 90299538,
      "step": 156000,
      "train_runtime": 1653.1786,
      "train_tokens_per_second": 54621.767
    },
    {
      "epoch": 8.164649415692821,
      "grad_norm": 2.546076774597168,
      "learning_rate": 9.177013772954925e-06,
      "loss": 1.3201,
      "num_input_tokens_seen": 90585634,
      "step": 156500,
      "train_runtime": 1671.9571,
      "train_tokens_per_second": 54179.401
    },
    {
      "epoch": 8.190734557595993,
      "grad_norm": 2.7355287075042725,
      "learning_rate": 9.046588063439066e-06,
      "loss": 1.3286,
      "num_input_tokens_seen": 90875986,
      "step": 157000,
      "train_runtime": 1690.8444,
      "train_tokens_per_second": 53745.919
    },
    {
      "epoch": 8.216819699499165,
      "grad_norm": 2.610476016998291,
      "learning_rate": 8.916162353923205e-06,
      "loss": 1.3624,
      "num_input_tokens_seen": 91165682,
      "step": 157500,
      "train_runtime": 1709.7962,
      "train_tokens_per_second": 53319.619
    },
    {
      "epoch": 8.242904841402337,
      "grad_norm": 3.424274444580078,
      "learning_rate": 8.785736644407345e-06,
      "loss": 1.3615,
      "num_input_tokens_seen": 91458162,
      "step": 158000,
      "train_runtime": 1728.5683,
      "train_tokens_per_second": 52909.776
    },
    {
      "epoch": 8.26898998330551,
      "grad_norm": 2.9222910404205322,
      "learning_rate": 8.655310934891486e-06,
      "loss": 1.3359,
      "num_input_tokens_seen": 91748050,
      "step": 158500,
      "train_runtime": 1747.5127,
      "train_tokens_per_second": 52502.078
    },
    {
      "epoch": 8.295075125208681,
      "grad_norm": 3.5217490196228027,
      "learning_rate": 8.524885225375627e-06,
      "loss": 1.3414,
      "num_input_tokens_seen": 92035050,
      "step": 159000,
      "train_runtime": 1766.4856,
      "train_tokens_per_second": 52100.651
    },
    {
      "epoch": 8.321160267111853,
      "grad_norm": 2.656613826751709,
      "learning_rate": 8.394459515859767e-06,
      "loss": 1.3436,
      "num_input_tokens_seen": 92326378,
      "step": 159500,
      "train_runtime": 1785.3077,
      "train_tokens_per_second": 51714.547
    },
    {
      "epoch": 8.347245409015025,
      "grad_norm": 2.8764595985412598,
      "learning_rate": 8.264033806343906e-06,
      "loss": 1.316,
      "num_input_tokens_seen": 92617586,
      "step": 160000,
      "train_runtime": 1804.1264,
      "train_tokens_per_second": 51336.529
    },
    {
      "epoch": 8.373330550918197,
      "grad_norm": 2.635450839996338,
      "learning_rate": 8.133608096828046e-06,
      "loss": 1.3745,
      "num_input_tokens_seen": 92904010,
      "step": 160500,
      "train_runtime": 1823.1613,
      "train_tokens_per_second": 50957.647
    },
    {
      "epoch": 8.39941569282137,
      "grad_norm": 3.4129796028137207,
      "learning_rate": 8.003182387312187e-06,
      "loss": 1.3278,
      "num_input_tokens_seen": 93189170,
      "step": 161000,
      "train_runtime": 1842.0126,
      "train_tokens_per_second": 50590.953
    },
    {
      "epoch": 8.425500834724541,
      "grad_norm": 3.2952401638031006,
      "learning_rate": 7.872756677796328e-06,
      "loss": 1.337,
      "num_input_tokens_seen": 93475210,
      "step": 161500,
      "train_runtime": 1861.0469,
      "train_tokens_per_second": 50227.218
    },
    {
      "epoch": 8.451585976627713,
      "grad_norm": 2.8078572750091553,
      "learning_rate": 7.742330968280468e-06,
      "loss": 1.3511,
      "num_input_tokens_seen": 93764458,
      "step": 162000,
      "train_runtime": 1880.0164,
      "train_tokens_per_second": 49874.278
    },
    {
      "epoch": 8.477671118530886,
      "grad_norm": 3.6334028244018555,
      "learning_rate": 7.611905258764608e-06,
      "loss": 1.3214,
      "num_input_tokens_seen": 94054690,
      "step": 162500,
      "train_runtime": 1898.9183,
      "train_tokens_per_second": 49530.666
    },
    {
      "epoch": 8.503756260434058,
      "grad_norm": 2.255051851272583,
      "learning_rate": 7.481479549248749e-06,
      "loss": 1.3181,
      "num_input_tokens_seen": 94342986,
      "step": 163000,
      "train_runtime": 1917.8935,
      "train_tokens_per_second": 49190.941
    },
    {
      "epoch": 8.52984140233723,
      "grad_norm": 2.2999086380004883,
      "learning_rate": 7.351053839732888e-06,
      "loss": 1.3468,
      "num_input_tokens_seen": 94628458,
      "step": 163500,
      "train_runtime": 1936.8254,
      "train_tokens_per_second": 48857.505
    },
    {
      "epoch": 8.5559265442404,
      "grad_norm": 2.8126626014709473,
      "learning_rate": 7.220628130217029e-06,
      "loss": 1.3442,
      "num_input_tokens_seen": 94916450,
      "step": 164000,
      "train_runtime": 1955.7716,
      "train_tokens_per_second": 48531.459
    },
    {
      "epoch": 8.582011686143572,
      "grad_norm": 3.6833460330963135,
      "learning_rate": 7.090202420701168e-06,
      "loss": 1.3097,
      "num_input_tokens_seen": 95209610,
      "step": 164500,
      "train_runtime": 1974.6708,
      "train_tokens_per_second": 48215.434
    },
    {
      "epoch": 8.608096828046744,
      "grad_norm": 2.2948975563049316,
      "learning_rate": 6.959776711185309e-06,
      "loss": 1.3158,
      "num_input_tokens_seen": 95500162,
      "step": 165000,
      "train_runtime": 1993.7313,
      "train_tokens_per_second": 47900.216
    },
    {
      "epoch": 8.634181969949916,
      "grad_norm": 2.677102565765381,
      "learning_rate": 6.82935100166945e-06,
      "loss": 1.3492,
      "num_input_tokens_seen": 95791218,
      "step": 165500,
      "train_runtime": 2012.6562,
      "train_tokens_per_second": 47594.428
    },
    {
      "epoch": 8.660267111853088,
      "grad_norm": 2.8302109241485596,
      "learning_rate": 6.698925292153589e-06,
      "loss": 1.3176,
      "num_input_tokens_seen": 96078250,
      "step": 166000,
      "train_runtime": 2031.6856,
      "train_tokens_per_second": 47289.919
    },
    {
      "epoch": 8.68635225375626,
      "grad_norm": 2.7552695274353027,
      "learning_rate": 6.56849958263773e-06,
      "loss": 1.3259,
      "num_input_tokens_seen": 96363322,
      "step": 166500,
      "train_runtime": 2050.6873,
      "train_tokens_per_second": 46990.744
    },
    {
      "epoch": 8.712437395659432,
      "grad_norm": 2.76167368888855,
      "learning_rate": 6.438073873121871e-06,
      "loss": 1.341,
      "num_input_tokens_seen": 96655826,
      "step": 167000,
      "train_runtime": 2069.5519,
      "train_tokens_per_second": 46703.746
    },
    {
      "epoch": 8.738522537562604,
      "grad_norm": 2.799135208129883,
      "learning_rate": 6.3076481636060104e-06,
      "loss": 1.3516,
      "num_input_tokens_seen": 96941474,
      "step": 167500,
      "train_runtime": 2088.6051,
      "train_tokens_per_second": 46414.458
    },
    {
      "epoch": 8.764607679465776,
      "grad_norm": 2.185119390487671,
      "learning_rate": 6.177222454090151e-06,
      "loss": 1.3495,
      "num_input_tokens_seen": 97236010,
      "step": 168000,
      "train_runtime": 2107.5825,
      "train_tokens_per_second": 46136.277
    },
    {
      "epoch": 8.790692821368948,
      "grad_norm": 2.787100315093994,
      "learning_rate": 6.046796744574291e-06,
      "loss": 1.3059,
      "num_input_tokens_seen": 97526826,
      "step": 168500,
      "train_runtime": 2126.4823,
      "train_tokens_per_second": 45862.984
    },
    {
      "epoch": 8.81677796327212,
      "grad_norm": 2.6303234100341797,
      "learning_rate": 5.916371035058431e-06,
      "loss": 1.3463,
      "num_input_tokens_seen": 97816378,
      "step": 169000,
      "train_runtime": 2145.3741,
      "train_tokens_per_second": 45594.088
    },
    {
      "epoch": 8.842863105175292,
      "grad_norm": 2.5196168422698975,
      "learning_rate": 5.785945325542571e-06,
      "loss": 1.3462,
      "num_input_tokens_seen": 98111226,
      "step": 169500,
      "train_runtime": 2164.4052,
      "train_tokens_per_second": 45329.417
    },
    {
      "epoch": 8.868948247078464,
      "grad_norm": 3.008777141571045,
      "learning_rate": 5.6555196160267115e-06,
      "loss": 1.3463,
      "num_input_tokens_seen": 98404994,
      "step": 170000,
      "train_runtime": 2183.2406,
      "train_tokens_per_second": 45072.904
    },
    {
      "epoch": 8.895033388981636,
      "grad_norm": 2.664883613586426,
      "learning_rate": 5.525093906510852e-06,
      "loss": 1.3505,
      "num_input_tokens_seen": 98691458,
      "step": 170500,
      "train_runtime": 2202.2373,
      "train_tokens_per_second": 44814.179
    },
    {
      "epoch": 8.921118530884808,
      "grad_norm": 3.8976974487304688,
      "learning_rate": 5.3946681969949914e-06,
      "loss": 1.3325,
      "num_input_tokens_seen": 98980730,
      "step": 171000,
      "train_runtime": 2221.2328,
      "train_tokens_per_second": 44561.169
    },
    {
      "epoch": 8.94720367278798,
      "grad_norm": 2.5917086601257324,
      "learning_rate": 5.264242487479132e-06,
      "loss": 1.333,
      "num_input_tokens_seen": 99265698,
      "step": 171500,
      "train_runtime": 2240.1093,
      "train_tokens_per_second": 44312.882
    },
    {
      "epoch": 8.973288814691152,
      "grad_norm": 3.012345314025879,
      "learning_rate": 5.133816777963272e-06,
      "loss": 1.3493,
      "num_input_tokens_seen": 99562818,
      "step": 172000,
      "train_runtime": 2259.2484,
      "train_tokens_per_second": 44069.001
    },
    {
      "epoch": 8.999373956594324,
      "grad_norm": 1.994488000869751,
      "learning_rate": 5.0033910684474126e-06,
      "loss": 1.3704,
      "num_input_tokens_seen": 99855026,
      "step": 172500,
      "train_runtime": 2278.2393,
      "train_tokens_per_second": 43829.912
    },
    {
      "epoch": 9.0,
      "eval_loss": 1.3092994689941406,
      "eval_runtime": 45.6876,
      "eval_samples_per_second": 839.069,
      "eval_steps_per_second": 104.886,
      "num_input_tokens_seen": 99861888,
      "step": 172512
    },
    {
      "epoch": 9.025459098497496,
      "grad_norm": 3.0312609672546387,
      "learning_rate": 4.872965358931553e-06,
      "loss": 1.3012,
      "num_input_tokens_seen": 100137840,
      "step": 173000,
      "train_runtime": 2343.9004,
      "train_tokens_per_second": 42722.738
    },
    {
      "epoch": 9.051544240400668,
      "grad_norm": 2.9846737384796143,
      "learning_rate": 4.7425396494156925e-06,
      "loss": 1.3416,
      "num_input_tokens_seen": 100428752,
      "step": 173500,
      "train_runtime": 2362.9108,
      "train_tokens_per_second": 42502.134
    },
    {
      "epoch": 9.07762938230384,
      "grad_norm": 2.700178623199463,
      "learning_rate": 4.612113939899834e-06,
      "loss": 1.3509,
      "num_input_tokens_seen": 100714360,
      "step": 174000,
      "train_runtime": 2381.7919,
      "train_tokens_per_second": 42285.122
    },
    {
      "epoch": 9.103714524207012,
      "grad_norm": 2.5982463359832764,
      "learning_rate": 4.481688230383973e-06,
      "loss": 1.33,
      "num_input_tokens_seen": 101010096,
      "step": 174500,
      "train_runtime": 2400.7332,
      "train_tokens_per_second": 42074.685
    },
    {
      "epoch": 9.129799666110184,
      "grad_norm": 3.2345430850982666,
      "learning_rate": 4.351262520868114e-06,
      "loss": 1.3127,
      "num_input_tokens_seen": 101301448,
      "step": 175000,
      "train_runtime": 2419.7,
      "train_tokens_per_second": 41865.292
    },
    {
      "epoch": 9.155884808013356,
      "grad_norm": 2.8651511669158936,
      "learning_rate": 4.220836811352254e-06,
      "loss": 1.3198,
      "num_input_tokens_seen": 101583952,
      "step": 175500,
      "train_runtime": 2438.5641,
      "train_tokens_per_second": 41657.282
    },
    {
      "epoch": 9.181969949916528,
      "grad_norm": 2.723923921585083,
      "learning_rate": 4.090411101836394e-06,
      "loss": 1.3486,
      "num_input_tokens_seen": 101879904,
      "step": 176000,
      "train_runtime": 2457.6414,
      "train_tokens_per_second": 41454.341
    },
    {
      "epoch": 9.2080550918197,
      "grad_norm": 2.9765188694000244,
      "learning_rate": 3.959985392320535e-06,
      "loss": 1.3247,
      "num_input_tokens_seen": 102169192,
      "step": 176500,
      "train_runtime": 2476.4667,
      "train_tokens_per_second": 41256.033
    },
    {
      "epoch": 9.234140233722872,
      "grad_norm": 2.14411997795105,
      "learning_rate": 3.829559682804674e-06,
      "loss": 1.3542,
      "num_input_tokens_seen": 102454992,
      "step": 177000,
      "train_runtime": 2495.3856,
      "train_tokens_per_second": 41057.779
    },
    {
      "epoch": 9.260225375626044,
      "grad_norm": 2.7752788066864014,
      "learning_rate": 3.6991339732888147e-06,
      "loss": 1.3469,
      "num_input_tokens_seen": 102739160,
      "step": 177500,
      "train_runtime": 2514.175,
      "train_tokens_per_second": 40863.966
    },
    {
      "epoch": 9.286310517529216,
      "grad_norm": 2.3828213214874268,
      "learning_rate": 3.5687082637729555e-06,
      "loss": 1.3267,
      "num_input_tokens_seen": 103027896,
      "step": 178000,
      "train_runtime": 2533.1537,
      "train_tokens_per_second": 40671.791
    },
    {
      "epoch": 9.312395659432386,
      "grad_norm": 2.554948329925537,
      "learning_rate": 3.4382825542570955e-06,
      "loss": 1.3218,
      "num_input_tokens_seen": 103314672,
      "step": 178500,
      "train_runtime": 2552.0027,
      "train_tokens_per_second": 40483.762
    },
    {
      "epoch": 9.338480801335558,
      "grad_norm": 2.6806468963623047,
      "learning_rate": 3.3078568447412354e-06,
      "loss": 1.3384,
      "num_input_tokens_seen": 103602648,
      "step": 179000,
      "train_runtime": 2571.0574,
      "train_tokens_per_second": 40295.735
    },
    {
      "epoch": 9.36456594323873,
      "grad_norm": 3.95470929145813,
      "learning_rate": 3.1774311352253754e-06,
      "loss": 1.3187,
      "num_input_tokens_seen": 103892480,
      "step": 179500,
      "train_runtime": 2590.0953,
      "train_tokens_per_second": 40111.45
    },
    {
      "epoch": 9.390651085141902,
      "grad_norm": 2.708707332611084,
      "learning_rate": 3.0470054257095158e-06,
      "loss": 1.335,
      "num_input_tokens_seen": 104178104,
      "step": 180000,
      "train_runtime": 2608.9847,
      "train_tokens_per_second": 39930.515
    },
    {
      "epoch": 9.416736227045075,
      "grad_norm": 3.4441354274749756,
      "learning_rate": 2.916579716193656e-06,
      "loss": 1.3204,
      "num_input_tokens_seen": 104470488,
      "step": 180500,
      "train_runtime": 2627.985,
      "train_tokens_per_second": 39753.076
    },
    {
      "epoch": 9.442821368948247,
      "grad_norm": 3.5723414421081543,
      "learning_rate": 2.7861540066777965e-06,
      "loss": 1.3457,
      "num_input_tokens_seen": 104759104,
      "step": 181000,
      "train_runtime": 2646.9218,
      "train_tokens_per_second": 39577.71
    },
    {
      "epoch": 9.468906510851419,
      "grad_norm": 3.956160068511963,
      "learning_rate": 2.655728297161937e-06,
      "loss": 1.3717,
      "num_input_tokens_seen": 105044408,
      "step": 181500,
      "train_runtime": 2665.9278,
      "train_tokens_per_second": 39402.571
    },
    {
      "epoch": 9.49499165275459,
      "grad_norm": 2.565819025039673,
      "learning_rate": 2.525302587646077e-06,
      "loss": 1.3413,
      "num_input_tokens_seen": 105327088,
      "step": 182000,
      "train_runtime": 2684.8097,
      "train_tokens_per_second": 39230.746
    },
    {
      "epoch": 9.521076794657763,
      "grad_norm": 3.5526235103607178,
      "learning_rate": 2.3948768781302173e-06,
      "loss": 1.2786,
      "num_input_tokens_seen": 105615560,
      "step": 182500,
      "train_runtime": 2703.8493,
      "train_tokens_per_second": 39061.185
    },
    {
      "epoch": 9.547161936560935,
      "grad_norm": 2.816168785095215,
      "learning_rate": 2.264451168614357e-06,
      "loss": 1.3268,
      "num_input_tokens_seen": 105904984,
      "step": 183000,
      "train_runtime": 2722.6828,
      "train_tokens_per_second": 38897.29
    },
    {
      "epoch": 9.573247078464107,
      "grad_norm": 3.1430675983428955,
      "learning_rate": 2.1340254590984976e-06,
      "loss": 1.3181,
      "num_input_tokens_seen": 106197728,
      "step": 183500,
      "train_runtime": 2741.6799,
      "train_tokens_per_second": 38734.547
    },
    {
      "epoch": 9.599332220367279,
      "grad_norm": 3.099498748779297,
      "learning_rate": 2.0035997495826376e-06,
      "loss": 1.321,
      "num_input_tokens_seen": 106489536,
      "step": 184000,
      "train_runtime": 2760.6349,
      "train_tokens_per_second": 38574.292
    },
    {
      "epoch": 9.62541736227045,
      "grad_norm": 3.0963542461395264,
      "learning_rate": 1.8731740400667781e-06,
      "loss": 1.3177,
      "num_input_tokens_seen": 106779640,
      "step": 184500,
      "train_runtime": 2779.5118,
      "train_tokens_per_second": 38416.688
    },
    {
      "epoch": 9.651502504173623,
      "grad_norm": 2.6030497550964355,
      "learning_rate": 1.742748330550918e-06,
      "loss": 1.3052,
      "num_input_tokens_seen": 107073888,
      "step": 185000,
      "train_runtime": 2798.5054,
      "train_tokens_per_second": 38261.097
    },
    {
      "epoch": 9.677587646076795,
      "grad_norm": 3.022160768508911,
      "learning_rate": 1.6123226210350585e-06,
      "loss": 1.3436,
      "num_input_tokens_seen": 107364848,
      "step": 185500,
      "train_runtime": 2817.3417,
      "train_tokens_per_second": 38108.565
    },
    {
      "epoch": 9.703672787979967,
      "grad_norm": 2.626763105392456,
      "learning_rate": 1.4818969115191989e-06,
      "loss": 1.3352,
      "num_input_tokens_seen": 107659488,
      "step": 186000,
      "train_runtime": 2836.337,
      "train_tokens_per_second": 37957.227
    },
    {
      "epoch": 9.729757929883139,
      "grad_norm": 3.0171899795532227,
      "learning_rate": 1.351471202003339e-06,
      "loss": 1.317,
      "num_input_tokens_seen": 107949608,
      "step": 186500,
      "train_runtime": 2855.247,
      "train_tokens_per_second": 37807.45
    },
    {
      "epoch": 9.75584307178631,
      "grad_norm": 2.22269868850708,
      "learning_rate": 1.2210454924874792e-06,
      "loss": 1.3193,
      "num_input_tokens_seen": 108245936,
      "step": 187000,
      "train_runtime": 2874.2964,
      "train_tokens_per_second": 37659.977
    },
    {
      "epoch": 9.781928213689483,
      "grad_norm": 2.8673713207244873,
      "learning_rate": 1.0906197829716196e-06,
      "loss": 1.3392,
      "num_input_tokens_seen": 108539552,
      "step": 187500,
      "train_runtime": 2893.1693,
      "train_tokens_per_second": 37515.798
    },
    {
      "epoch": 9.808013355592655,
      "grad_norm": 2.645888566970825,
      "learning_rate": 9.601940734557598e-07,
      "loss": 1.3395,
      "num_input_tokens_seen": 108827736,
      "step": 188000,
      "train_runtime": 2912.2618,
      "train_tokens_per_second": 37368.802
    },
    {
      "epoch": 9.834098497495827,
      "grad_norm": 3.0480117797851562,
      "learning_rate": 8.297683639398999e-07,
      "loss": 1.3325,
      "num_input_tokens_seen": 109119720,
      "step": 188500,
      "train_runtime": 2931.2115,
      "train_tokens_per_second": 37226.832
    },
    {
      "epoch": 9.860183639398999,
      "grad_norm": 3.1074326038360596,
      "learning_rate": 6.993426544240401e-07,
      "loss": 1.3365,
      "num_input_tokens_seen": 109406600,
      "step": 189000,
      "train_runtime": 2950.1291,
      "train_tokens_per_second": 37085.361
    },
    {
      "epoch": 9.88626878130217,
      "grad_norm": 2.7331807613372803,
      "learning_rate": 5.689169449081803e-07,
      "loss": 1.346,
      "num_input_tokens_seen": 109694976,
      "step": 189500,
      "train_runtime": 2969.1526,
      "train_tokens_per_second": 36944.877
    },
    {
      "epoch": 9.912353923205343,
      "grad_norm": 2.5716543197631836,
      "learning_rate": 4.3849123539232055e-07,
      "loss": 1.3331,
      "num_input_tokens_seen": 109985584,
      "step": 190000,
      "train_runtime": 2988.0525,
      "train_tokens_per_second": 36808.451
    },
    {
      "epoch": 9.938439065108515,
      "grad_norm": 2.6166512966156006,
      "learning_rate": 3.080655258764608e-07,
      "loss": 1.3292,
      "num_input_tokens_seen": 110272368,
      "step": 190500,
      "train_runtime": 3007.0207,
      "train_tokens_per_second": 36671.636
    },
    {
      "epoch": 9.964524207011687,
      "grad_norm": 2.8893744945526123,
      "learning_rate": 1.77639816360601e-07,
      "loss": 1.3166,
      "num_input_tokens_seen": 110557664,
      "step": 191000,
      "train_runtime": 3025.9068,
      "train_tokens_per_second": 36537.035
    },
    {
      "epoch": 9.990609348914859,
      "grad_norm": 2.441220998764038,
      "learning_rate": 4.721410684474124e-08,
      "loss": 1.3429,
      "num_input_tokens_seen": 110851304,
      "step": 191500,
      "train_runtime": 3044.8849,
      "train_tokens_per_second": 36405.745
    },
    {
      "epoch": 10.0,
      "eval_loss": 1.3094313144683838,
      "eval_runtime": 45.924,
      "eval_samples_per_second": 834.748,
      "eval_steps_per_second": 104.346,
      "num_input_tokens_seen": 110955972,
      "step": 191680
    },
    {
      "epoch": 10.01669449081803,
      "grad_norm": 3.2865073680877686,
      "learning_rate": 2.495839419866444e-05,
      "loss": 1.3149,
      "num_input_tokens_seen": 111137740,
      "step": 192000,
      "train_runtime": 12.5405,
      "train_tokens_per_second": 8862327.118
    },
    {
      "epoch": 10.042779632721203,
      "grad_norm": 1.945192813873291,
      "learning_rate": 2.4893181343906512e-05,
      "loss": 1.3105,
      "num_input_tokens_seen": 111433348,
      "step": 192500,
      "train_runtime": 31.7519,
      "train_tokens_per_second": 3509506.821
    },
    {
      "epoch": 10.068864774624373,
      "grad_norm": 2.5163190364837646,
      "learning_rate": 2.482796848914858e-05,
      "loss": 1.3183,
      "num_input_tokens_seen": 111720916,
      "step": 193000,
      "train_runtime": 52.2905,
      "train_tokens_per_second": 2136543.334
    },
    {
      "epoch": 10.094949916527545,
      "grad_norm": 2.6350646018981934,
      "learning_rate": 2.4762755634390652e-05,
      "loss": 1.3066,
      "num_input_tokens_seen": 112012948,
      "step": 193500,
      "train_runtime": 72.2858,
      "train_tokens_per_second": 1549584.477
    },
    {
      "epoch": 10.121035058430717,
      "grad_norm": 2.0416669845581055,
      "learning_rate": 2.4697542779632723e-05,
      "loss": 1.3383,
      "num_input_tokens_seen": 112299028,
      "step": 194000,
      "train_runtime": 92.8402,
      "train_tokens_per_second": 1209594.915
    },
    {
      "epoch": 10.14712020033389,
      "grad_norm": 2.219244956970215,
      "learning_rate": 2.463232992487479e-05,
      "loss": 1.3436,
      "num_input_tokens_seen": 112590044,
      "step": 194500,
      "train_runtime": 113.0832,
      "train_tokens_per_second": 995639.026
    },
    {
      "epoch": 10.173205342237061,
      "grad_norm": 3.015204429626465,
      "learning_rate": 2.4567117070116863e-05,
      "loss": 1.3393,
      "num_input_tokens_seen": 112885940,
      "step": 195000,
      "train_runtime": 133.1713,
      "train_tokens_per_second": 847674.91
    },
    {
      "epoch": 10.199290484140233,
      "grad_norm": 2.1486213207244873,
      "learning_rate": 2.4501904215358934e-05,
      "loss": 1.3463,
      "num_input_tokens_seen": 113169852,
      "step": 195500,
      "train_runtime": 153.2143,
      "train_tokens_per_second": 738637.549
    },
    {
      "epoch": 10.225375626043405,
      "grad_norm": 2.8701765537261963,
      "learning_rate": 2.4436691360601002e-05,
      "loss": 1.3125,
      "num_input_tokens_seen": 113459500,
      "step": 196000,
      "train_runtime": 173.4235,
      "train_tokens_per_second": 654233.54
    },
    {
      "epoch": 10.251460767946577,
      "grad_norm": 2.4410154819488525,
      "learning_rate": 2.4371478505843074e-05,
      "loss": 1.3423,
      "num_input_tokens_seen": 113754868,
      "step": 196500,
      "train_runtime": 193.1046,
      "train_tokens_per_second": 589084.328
    },
    {
      "epoch": 10.27754590984975,
      "grad_norm": 2.3649730682373047,
      "learning_rate": 2.4306265651085145e-05,
      "loss": 1.3583,
      "num_input_tokens_seen": 114041052,
      "step": 197000,
      "train_runtime": 211.6778,
      "train_tokens_per_second": 538748.365
    },
    {
      "epoch": 10.303631051752921,
      "grad_norm": 2.661882162094116,
      "learning_rate": 2.4241052796327213e-05,
      "loss": 1.3226,
      "num_input_tokens_seen": 114327300,
      "step": 197500,
      "train_runtime": 230.1549,
      "train_tokens_per_second": 496740.752
    },
    {
      "epoch": 10.329716193656093,
      "grad_norm": 3.2307496070861816,
      "learning_rate": 2.4175839941569285e-05,
      "loss": 1.3317,
      "num_input_tokens_seen": 114614836,
      "step": 198000,
      "train_runtime": 248.6123,
      "train_tokens_per_second": 461018.428
    },
    {
      "epoch": 10.355801335559265,
      "grad_norm": 2.0446155071258545,
      "learning_rate": 2.4110627086811353e-05,
      "loss": 1.3289,
      "num_input_tokens_seen": 114898460,
      "step": 198500,
      "train_runtime": 267.0794,
      "train_tokens_per_second": 430203.456
    },
    {
      "epoch": 10.381886477462437,
      "grad_norm": 2.149264335632324,
      "learning_rate": 2.4045414232053424e-05,
      "loss": 1.3479,
      "num_input_tokens_seen": 115190612,
      "step": 199000,
      "train_runtime": 285.5801,
      "train_tokens_per_second": 403356.593
    },
    {
      "epoch": 10.40797161936561,
      "grad_norm": 2.5007822513580322,
      "learning_rate": 2.3980201377295496e-05,
      "loss": 1.3398,
      "num_input_tokens_seen": 115480604,
      "step": 199500,
      "train_runtime": 304.0559,
      "train_tokens_per_second": 379800.589
    },
    {
      "epoch": 10.434056761268781,
      "grad_norm": 2.485358238220215,
      "learning_rate": 2.3914988522537564e-05,
      "loss": 1.3471,
      "num_input_tokens_seen": 115772396,
      "step": 200000,
      "train_runtime": 322.5534,
      "train_tokens_per_second": 358924.703
    },
    {
      "epoch": 10.460141903171953,
      "grad_norm": 3.0661306381225586,
      "learning_rate": 2.3849775667779635e-05,
      "loss": 1.3459,
      "num_input_tokens_seen": 116055028,
      "step": 200500,
      "train_runtime": 341.0251,
      "train_tokens_per_second": 340312.297
    },
    {
      "epoch": 10.486227045075125,
      "grad_norm": 3.0374038219451904,
      "learning_rate": 2.3784562813021703e-05,
      "loss": 1.3294,
      "num_input_tokens_seen": 116342956,
      "step": 201000,
      "train_runtime": 359.5564,
      "train_tokens_per_second": 323573.635
    },
    {
      "epoch": 10.512312186978297,
      "grad_norm": 2.4844298362731934,
      "learning_rate": 2.371934995826377e-05,
      "loss": 1.347,
      "num_input_tokens_seen": 116629444,
      "step": 201500,
      "train_runtime": 378.1517,
      "train_tokens_per_second": 308419.724
    },
    {
      "epoch": 10.53839732888147,
      "grad_norm": 3.5257129669189453,
      "learning_rate": 2.3654137103505843e-05,
      "loss": 1.3621,
      "num_input_tokens_seen": 116918476,
      "step": 202000,
      "train_runtime": 396.7415,
      "train_tokens_per_second": 294696.879
    },
    {
      "epoch": 10.564482470784641,
      "grad_norm": 2.989980936050415,
      "learning_rate": 2.3588924248747914e-05,
      "loss": 1.3474,
      "num_input_tokens_seen": 117203300,
      "step": 202500,
      "train_runtime": 415.3093,
      "train_tokens_per_second": 282207.249
    },
    {
      "epoch": 10.590567612687813,
      "grad_norm": 2.9134278297424316,
      "learning_rate": 2.3523711393989982e-05,
      "loss": 1.3293,
      "num_input_tokens_seen": 117490356,
      "step": 203000,
      "train_runtime": 433.8487,
      "train_tokens_per_second": 270809.506
    },
    {
      "epoch": 10.616652754590985,
      "grad_norm": 3.4408249855041504,
      "learning_rate": 2.3458498539232054e-05,
      "loss": 1.3323,
      "num_input_tokens_seen": 117778116,
      "step": 203500,
      "train_runtime": 452.4151,
      "train_tokens_per_second": 260331.947
    },
    {
      "epoch": 10.642737896494157,
      "grad_norm": 2.5976977348327637,
      "learning_rate": 2.3393285684474125e-05,
      "loss": 1.326,
      "num_input_tokens_seen": 118066028,
      "step": 204000,
      "train_runtime": 471.0506,
      "train_tokens_per_second": 250644.038
    },
    {
      "epoch": 10.66882303839733,
      "grad_norm": 2.8414862155914307,
      "learning_rate": 2.3328072829716193e-05,
      "loss": 1.3268,
      "num_input_tokens_seen": 118349812,
      "step": 204500,
      "train_runtime": 489.6127,
      "train_tokens_per_second": 241721.304
    },
    {
      "epoch": 10.694908180300501,
      "grad_norm": 2.9611923694610596,
      "learning_rate": 2.3262859974958265e-05,
      "loss": 1.3183,
      "num_input_tokens_seen": 118641012,
      "step": 205000,
      "train_runtime": 508.2873,
      "train_tokens_per_second": 233413.297
    },
    {
      "epoch": 10.720993322203674,
      "grad_norm": 3.3537490367889404,
      "learning_rate": 2.3197647120200336e-05,
      "loss": 1.3344,
      "num_input_tokens_seen": 118928020,
      "step": 205500,
      "train_runtime": 526.9474,
      "train_tokens_per_second": 225692.395
    },
    {
      "epoch": 10.747078464106846,
      "grad_norm": 2.557131290435791,
      "learning_rate": 2.3132434265442404e-05,
      "loss": 1.341,
      "num_input_tokens_seen": 119221628,
      "step": 206000,
      "train_runtime": 545.6837,
      "train_tokens_per_second": 218481.209
    },
    {
      "epoch": 10.773163606010016,
      "grad_norm": 3.0086355209350586,
      "learning_rate": 2.3067221410684476e-05,
      "loss": 1.3298,
      "num_input_tokens_seen": 119513436,
      "step": 206500,
      "train_runtime": 564.4783,
      "train_tokens_per_second": 211723.717
    },
    {
      "epoch": 10.79924874791319,
      "grad_norm": 3.600940227508545,
      "learning_rate": 2.3002008555926547e-05,
      "loss": 1.3572,
      "num_input_tokens_seen": 119801196,
      "step": 207000,
      "train_runtime": 583.2037,
      "train_tokens_per_second": 205419.144
    },
    {
      "epoch": 10.82533388981636,
      "grad_norm": 2.5225415229797363,
      "learning_rate": 2.2936795701168615e-05,
      "loss": 1.3173,
      "num_input_tokens_seen": 120090740,
      "step": 207500,
      "train_runtime": 601.9046,
      "train_tokens_per_second": 199517.884
    },
    {
      "epoch": 10.851419031719532,
      "grad_norm": 2.092555046081543,
      "learning_rate": 2.2871582846410687e-05,
      "loss": 1.3557,
      "num_input_tokens_seen": 120377796,
      "step": 208000,
      "train_runtime": 620.6064,
      "train_tokens_per_second": 193968.023
    },
    {
      "epoch": 10.877504173622704,
      "grad_norm": 2.5600435733795166,
      "learning_rate": 2.2806369991652758e-05,
      "loss": 1.3432,
      "num_input_tokens_seen": 120669548,
      "step": 208500,
      "train_runtime": 639.2536,
      "train_tokens_per_second": 188766.325
    },
    {
      "epoch": 10.903589315525876,
      "grad_norm": 2.583836793899536,
      "learning_rate": 2.2741157136894826e-05,
      "loss": 1.3376,
      "num_input_tokens_seen": 120961348,
      "step": 209000,
      "train_runtime": 657.9319,
      "train_tokens_per_second": 183850.86
    },
    {
      "epoch": 10.929674457429048,
      "grad_norm": 3.099386692047119,
      "learning_rate": 2.2675944282136898e-05,
      "loss": 1.3296,
      "num_input_tokens_seen": 121257580,
      "step": 209500,
      "train_runtime": 676.7145,
      "train_tokens_per_second": 179185.735
    },
    {
      "epoch": 10.95575959933222,
      "grad_norm": 3.329822063446045,
      "learning_rate": 2.2610731427378966e-05,
      "loss": 1.3424,
      "num_input_tokens_seen": 121550684,
      "step": 210000,
      "train_runtime": 695.457,
      "train_tokens_per_second": 174778.155
    },
    {
      "epoch": 10.981844741235392,
      "grad_norm": 2.160890817642212,
      "learning_rate": 2.2545518572621034e-05,
      "loss": 1.3391,
      "num_input_tokens_seen": 121840244,
      "step": 210500,
      "train_runtime": 714.1173,
      "train_tokens_per_second": 170616.572
    },
    {
      "epoch": 11.0,
      "eval_loss": 1.3036798238754272,
      "eval_runtime": 45.5874,
      "eval_samples_per_second": 840.912,
      "eval_steps_per_second": 105.117,
      "num_input_tokens_seen": 122042976,
      "step": 210848
    },
    {
      "epoch": 11.007929883138564,
      "grad_norm": 2.8093433380126953,
      "learning_rate": 2.2480305717863105e-05,
      "loss": 1.3252,
      "num_input_tokens_seen": 122133808,
      "step": 211000,
      "train_runtime": 779.5622,
      "train_tokens_per_second": 156669.744
    },
    {
      "epoch": 11.034015025041736,
      "grad_norm": 2.5687525272369385,
      "learning_rate": 2.2415092863105177e-05,
      "loss": 1.3285,
      "num_input_tokens_seen": 122424408,
      "step": 211500,
      "train_runtime": 798.366,
      "train_tokens_per_second": 153343.713
    },
    {
      "epoch": 11.060100166944908,
      "grad_norm": 2.920220136642456,
      "learning_rate": 2.2349880008347245e-05,
      "loss": 1.2892,
      "num_input_tokens_seen": 122706872,
      "step": 212000,
      "train_runtime": 817.1043,
      "train_tokens_per_second": 150172.829
    },
    {
      "epoch": 11.08618530884808,
      "grad_norm": 2.7014081478118896,
      "learning_rate": 2.2284667153589316e-05,
      "loss": 1.3207,
      "num_input_tokens_seen": 122993992,
      "step": 212500,
      "train_runtime": 835.8914,
      "train_tokens_per_second": 147141.106
    },
    {
      "epoch": 11.112270450751252,
      "grad_norm": 2.6697499752044678,
      "learning_rate": 2.2219454298831388e-05,
      "loss": 1.3299,
      "num_input_tokens_seen": 123284616,
      "step": 213000,
      "train_runtime": 854.6172,
      "train_tokens_per_second": 144257.114
    },
    {
      "epoch": 11.138355592654424,
      "grad_norm": 3.0389206409454346,
      "learning_rate": 2.2154241444073456e-05,
      "loss": 1.3267,
      "num_input_tokens_seen": 123574760,
      "step": 213500,
      "train_runtime": 873.3482,
      "train_tokens_per_second": 141495.405
    },
    {
      "epoch": 11.164440734557596,
      "grad_norm": 2.5090649127960205,
      "learning_rate": 2.2089028589315527e-05,
      "loss": 1.3173,
      "num_input_tokens_seen": 123863512,
      "step": 214000,
      "train_runtime": 892.119,
      "train_tokens_per_second": 138841.92
    },
    {
      "epoch": 11.190525876460768,
      "grad_norm": 2.458717107772827,
      "learning_rate": 2.2023815734557595e-05,
      "loss": 1.3488,
      "num_input_tokens_seen": 124153280,
      "step": 214500,
      "train_runtime": 910.8704,
      "train_tokens_per_second": 136301.807
    },
    {
      "epoch": 11.21661101836394,
      "grad_norm": 2.2780613899230957,
      "learning_rate": 2.1958602879799667e-05,
      "loss": 1.3227,
      "num_input_tokens_seen": 124441304,
      "step": 215000,
      "train_runtime": 929.5347,
      "train_tokens_per_second": 133874.841
    },
    {
      "epoch": 11.242696160267112,
      "grad_norm": 2.2592554092407227,
      "learning_rate": 2.189339002504174e-05,
      "loss": 1.3417,
      "num_input_tokens_seen": 124732192,
      "step": 215500,
      "train_runtime": 948.4081,
      "train_tokens_per_second": 131517.428
    },
    {
      "epoch": 11.268781302170284,
      "grad_norm": 1.9092062711715698,
      "learning_rate": 2.1828177170283806e-05,
      "loss": 1.3168,
      "num_input_tokens_seen": 125026840,
      "step": 216000,
      "train_runtime": 967.1853,
      "train_tokens_per_second": 129268.756
    },
    {
      "epoch": 11.294866444073456,
      "grad_norm": 2.6668968200683594,
      "learning_rate": 2.1762964315525878e-05,
      "loss": 1.3158,
      "num_input_tokens_seen": 125322792,
      "step": 216500,
      "train_runtime": 985.9404,
      "train_tokens_per_second": 127109.902
    },
    {
      "epoch": 11.320951585976628,
      "grad_norm": 2.6406455039978027,
      "learning_rate": 2.169775146076795e-05,
      "loss": 1.3155,
      "num_input_tokens_seen": 125610912,
      "step": 217000,
      "train_runtime": 1004.7846,
      "train_tokens_per_second": 125012.78
    },
    {
      "epoch": 11.3470367278798,
      "grad_norm": 3.033663272857666,
      "learning_rate": 2.1632538606010017e-05,
      "loss": 1.3048,
      "num_input_tokens_seen": 125899904,
      "step": 217500,
      "train_runtime": 1023.5588,
      "train_tokens_per_second": 123002.125
    },
    {
      "epoch": 11.373121869782972,
      "grad_norm": 2.4079842567443848,
      "learning_rate": 2.156732575125209e-05,
      "loss": 1.3217,
      "num_input_tokens_seen": 126190608,
      "step": 218000,
      "train_runtime": 1042.2822,
      "train_tokens_per_second": 121071.437
    },
    {
      "epoch": 11.399207011686144,
      "grad_norm": 2.4821534156799316,
      "learning_rate": 2.150211289649416e-05,
      "loss": 1.3127,
      "num_input_tokens_seen": 126477736,
      "step": 218500,
      "train_runtime": 1060.9849,
      "train_tokens_per_second": 119207.852
    },
    {
      "epoch": 11.425292153589316,
      "grad_norm": 3.1184568405151367,
      "learning_rate": 2.143690004173623e-05,
      "loss": 1.3191,
      "num_input_tokens_seen": 126768304,
      "step": 219000,
      "train_runtime": 1079.744,
      "train_tokens_per_second": 117405.884
    },
    {
      "epoch": 11.451377295492488,
      "grad_norm": 2.4726860523223877,
      "learning_rate": 2.1371687186978297e-05,
      "loss": 1.3,
      "num_input_tokens_seen": 127057344,
      "step": 219500,
      "train_runtime": 1098.4724,
      "train_tokens_per_second": 115667.311
    },
    {
      "epoch": 11.47746243739566,
      "grad_norm": 2.8745577335357666,
      "learning_rate": 2.1306474332220368e-05,
      "loss": 1.3066,
      "num_input_tokens_seen": 127342264,
      "step": 220000,
      "train_runtime": 1117.2372,
      "train_tokens_per_second": 113979.609
    },
    {
      "epoch": 11.503547579298832,
      "grad_norm": 2.5106630325317383,
      "learning_rate": 2.1241261477462436e-05,
      "loss": 1.3081,
      "num_input_tokens_seen": 127636384,
      "step": 220500,
      "train_runtime": 1136.0017,
      "train_tokens_per_second": 112355.806
    },
    {
      "epoch": 11.529632721202002,
      "grad_norm": 2.9184515476226807,
      "learning_rate": 2.1176048622704508e-05,
      "loss": 1.3162,
      "num_input_tokens_seen": 127929168,
      "step": 221000,
      "train_runtime": 1154.8123,
      "train_tokens_per_second": 110779.183
    },
    {
      "epoch": 11.555717863105176,
      "grad_norm": 2.631758689880371,
      "learning_rate": 2.111083576794658e-05,
      "loss": 1.3154,
      "num_input_tokens_seen": 128214768,
      "step": 221500,
      "train_runtime": 1173.5738,
      "train_tokens_per_second": 109251.562
    },
    {
      "epoch": 11.581803005008346,
      "grad_norm": 3.0632224082946777,
      "learning_rate": 2.1045622913188647e-05,
      "loss": 1.3265,
      "num_input_tokens_seen": 128502040,
      "step": 222000,
      "train_runtime": 1192.3765,
      "train_tokens_per_second": 107769.681
    },
    {
      "epoch": 11.607888146911518,
      "grad_norm": 3.1149165630340576,
      "learning_rate": 2.098041005843072e-05,
      "loss": 1.321,
      "num_input_tokens_seen": 128788576,
      "step": 222500,
      "train_runtime": 1211.1873,
      "train_tokens_per_second": 106332.503
    },
    {
      "epoch": 11.63397328881469,
      "grad_norm": 3.4126601219177246,
      "learning_rate": 2.091519720367279e-05,
      "loss": 1.3089,
      "num_input_tokens_seen": 129075456,
      "step": 223000,
      "train_runtime": 1229.9696,
      "train_tokens_per_second": 104941.986
    },
    {
      "epoch": 11.660058430717863,
      "grad_norm": 2.5633208751678467,
      "learning_rate": 2.0849984348914858e-05,
      "loss": 1.3354,
      "num_input_tokens_seen": 129363864,
      "step": 223500,
      "train_runtime": 1248.7371,
      "train_tokens_per_second": 103595.756
    },
    {
      "epoch": 11.686143572621035,
      "grad_norm": 2.816091775894165,
      "learning_rate": 2.078477149415693e-05,
      "loss": 1.3338,
      "num_input_tokens_seen": 129649336,
      "step": 224000,
      "train_runtime": 1267.5029,
      "train_tokens_per_second": 102287.208
    },
    {
      "epoch": 11.712228714524207,
      "grad_norm": 3.5613439083099365,
      "learning_rate": 2.0719558639399e-05,
      "loss": 1.3199,
      "num_input_tokens_seen": 129942320,
      "step": 224500,
      "train_runtime": 1286.259,
      "train_tokens_per_second": 101023.451
    },
    {
      "epoch": 11.738313856427379,
      "grad_norm": 2.822772741317749,
      "learning_rate": 2.065434578464107e-05,
      "loss": 1.3044,
      "num_input_tokens_seen": 130232704,
      "step": 225000,
      "train_runtime": 1305.0245,
      "train_tokens_per_second": 99793.304
    },
    {
      "epoch": 11.76439899833055,
      "grad_norm": 2.610865592956543,
      "learning_rate": 2.058913292988314e-05,
      "loss": 1.3334,
      "num_input_tokens_seen": 130524424,
      "step": 225500,
      "train_runtime": 1323.7569,
      "train_tokens_per_second": 98601.505
    },
    {
      "epoch": 11.790484140233723,
      "grad_norm": 2.68410325050354,
      "learning_rate": 2.0523920075125212e-05,
      "loss": 1.3042,
      "num_input_tokens_seen": 130811008,
      "step": 226000,
      "train_runtime": 1342.504,
      "train_tokens_per_second": 97438.079
    },
    {
      "epoch": 11.816569282136895,
      "grad_norm": 2.4882125854492188,
      "learning_rate": 2.045870722036728e-05,
      "loss": 1.365,
      "num_input_tokens_seen": 131095640,
      "step": 226500,
      "train_runtime": 1361.2815,
      "train_tokens_per_second": 96303.109
    },
    {
      "epoch": 11.842654424040067,
      "grad_norm": 2.4496724605560303,
      "learning_rate": 2.039349436560935e-05,
      "loss": 1.3053,
      "num_input_tokens_seen": 131380824,
      "step": 227000,
      "train_runtime": 1380.0428,
      "train_tokens_per_second": 95200.546
    },
    {
      "epoch": 11.868739565943239,
      "grad_norm": 2.1208622455596924,
      "learning_rate": 2.032828151085142e-05,
      "loss": 1.3387,
      "num_input_tokens_seen": 131669800,
      "step": 227500,
      "train_runtime": 1398.7962,
      "train_tokens_per_second": 94130.797
    },
    {
      "epoch": 11.89482470784641,
      "grad_norm": 2.5656790733337402,
      "learning_rate": 2.026306865609349e-05,
      "loss": 1.3109,
      "num_input_tokens_seen": 131956504,
      "step": 228000,
      "train_runtime": 1417.5824,
      "train_tokens_per_second": 93085.598
    },
    {
      "epoch": 11.920909849749583,
      "grad_norm": 2.894057035446167,
      "learning_rate": 2.019785580133556e-05,
      "loss": 1.3385,
      "num_input_tokens_seen": 132249552,
      "step": 228500,
      "train_runtime": 1436.3884,
      "train_tokens_per_second": 92070.886
    },
    {
      "epoch": 11.946994991652755,
      "grad_norm": 4.0213446617126465,
      "learning_rate": 2.013264294657763e-05,
      "loss": 1.3252,
      "num_input_tokens_seen": 132541072,
      "step": 229000,
      "train_runtime": 1455.1937,
      "train_tokens_per_second": 91081.394
    },
    {
      "epoch": 11.973080133555927,
      "grad_norm": 2.279191255569458,
      "learning_rate": 2.00674300918197e-05,
      "loss": 1.3362,
      "num_input_tokens_seen": 132831104,
      "step": 229500,
      "train_runtime": 1473.9285,
      "train_tokens_per_second": 90120.453
    },
    {
      "epoch": 11.999165275459099,
      "grad_norm": 2.1568970680236816,
      "learning_rate": 2.000221723706177e-05,
      "loss": 1.293,
      "num_input_tokens_seen": 133123320,
      "step": 230000,
      "train_runtime": 1492.6888,
      "train_tokens_per_second": 89183.575
    },
    {
      "epoch": 12.0,
      "eval_loss": 1.303634762763977,
      "eval_runtime": 45.533,
      "eval_samples_per_second": 841.917,
      "eval_steps_per_second": 105.242,
      "num_input_tokens_seen": 133131832,
      "step": 230016
    },
    {
      "epoch": 12.02525041736227,
      "grad_norm": 2.564668655395508,
      "learning_rate": 1.9937004382303838e-05,
      "loss": 1.2803,
      "num_input_tokens_seen": 133411856,
      "step": 230500,
      "train_runtime": 1558.1778,
      "train_tokens_per_second": 85620.431
    },
    {
      "epoch": 12.051335559265443,
      "grad_norm": 1.8836562633514404,
      "learning_rate": 1.987179152754591e-05,
      "loss": 1.3323,
      "num_input_tokens_seen": 133703544,
      "step": 231000,
      "train_runtime": 1576.9538,
      "train_tokens_per_second": 84785.959
    },
    {
      "epoch": 12.077420701168615,
      "grad_norm": 3.665679693222046,
      "learning_rate": 1.980657867278798e-05,
      "loss": 1.3101,
      "num_input_tokens_seen": 133990048,
      "step": 231500,
      "train_runtime": 1595.7021,
      "train_tokens_per_second": 83969.336
    },
    {
      "epoch": 12.103505843071787,
      "grad_norm": 2.481233596801758,
      "learning_rate": 1.974136581803005e-05,
      "loss": 1.3122,
      "num_input_tokens_seen": 134279720,
      "step": 232000,
      "train_runtime": 1614.4866,
      "train_tokens_per_second": 83171.778
    },
    {
      "epoch": 12.129590984974959,
      "grad_norm": 2.0712811946868896,
      "learning_rate": 1.967615296327212e-05,
      "loss": 1.3191,
      "num_input_tokens_seen": 134570152,
      "step": 232500,
      "train_runtime": 1633.2616,
      "train_tokens_per_second": 82393.51
    },
    {
      "epoch": 12.15567612687813,
      "grad_norm": 2.377253293991089,
      "learning_rate": 1.9610940108514192e-05,
      "loss": 1.303,
      "num_input_tokens_seen": 134859336,
      "step": 233000,
      "train_runtime": 1652.0277,
      "train_tokens_per_second": 81632.612
    },
    {
      "epoch": 12.181761268781303,
      "grad_norm": 2.749286651611328,
      "learning_rate": 1.954572725375626e-05,
      "loss": 1.3219,
      "num_input_tokens_seen": 135151088,
      "step": 233500,
      "train_runtime": 1670.9562,
      "train_tokens_per_second": 80882.482
    },
    {
      "epoch": 12.207846410684475,
      "grad_norm": 1.9715009927749634,
      "learning_rate": 1.948051439899833e-05,
      "loss": 1.3164,
      "num_input_tokens_seen": 135441304,
      "step": 234000,
      "train_runtime": 1689.8315,
      "train_tokens_per_second": 80150.776
    },
    {
      "epoch": 12.233931552587647,
      "grad_norm": 2.8835082054138184,
      "learning_rate": 1.9415301544240403e-05,
      "loss": 1.3164,
      "num_input_tokens_seen": 135728888,
      "step": 234500,
      "train_runtime": 1708.6414,
      "train_tokens_per_second": 79436.731
    },
    {
      "epoch": 12.260016694490819,
      "grad_norm": 2.7887117862701416,
      "learning_rate": 1.935008868948247e-05,
      "loss": 1.3003,
      "num_input_tokens_seen": 136016392,
      "step": 235000,
      "train_runtime": 1727.3834,
      "train_tokens_per_second": 78741.287
    },
    {
      "epoch": 12.28610183639399,
      "grad_norm": 2.219428777694702,
      "learning_rate": 1.9284875834724543e-05,
      "loss": 1.2853,
      "num_input_tokens_seen": 136304528,
      "step": 235500,
      "train_runtime": 1746.1346,
      "train_tokens_per_second": 78060.723
    },
    {
      "epoch": 12.312186978297161,
      "grad_norm": 2.7682409286499023,
      "learning_rate": 1.9219662979966614e-05,
      "loss": 1.3175,
      "num_input_tokens_seen": 136593504,
      "step": 236000,
      "train_runtime": 1764.8652,
      "train_tokens_per_second": 77395.999
    },
    {
      "epoch": 12.338272120200333,
      "grad_norm": 4.289463520050049,
      "learning_rate": 1.9154450125208682e-05,
      "loss": 1.2741,
      "num_input_tokens_seen": 136885144,
      "step": 236500,
      "train_runtime": 1783.6052,
      "train_tokens_per_second": 76746.323
    },
    {
      "epoch": 12.364357262103505,
      "grad_norm": 3.1798133850097656,
      "learning_rate": 1.9089237270450754e-05,
      "loss": 1.2896,
      "num_input_tokens_seen": 137168736,
      "step": 237000,
      "train_runtime": 1802.3604,
      "train_tokens_per_second": 76105.055
    },
    {
      "epoch": 12.390442404006677,
      "grad_norm": 3.9631903171539307,
      "learning_rate": 1.9024024415692822e-05,
      "loss": 1.3425,
      "num_input_tokens_seen": 137463960,
      "step": 237500,
      "train_runtime": 1821.2214,
      "train_tokens_per_second": 75478.997
    },
    {
      "epoch": 12.41652754590985,
      "grad_norm": 3.6029210090637207,
      "learning_rate": 1.8958811560934893e-05,
      "loss": 1.3134,
      "num_input_tokens_seen": 137751968,
      "step": 238000,
      "train_runtime": 1839.9397,
      "train_tokens_per_second": 74867.655
    },
    {
      "epoch": 12.442612687813021,
      "grad_norm": 2.178394317626953,
      "learning_rate": 1.889359870617696e-05,
      "loss": 1.2797,
      "num_input_tokens_seen": 138044520,
      "step": 238500,
      "train_runtime": 1858.64,
      "train_tokens_per_second": 74271.788
    },
    {
      "epoch": 12.468697829716193,
      "grad_norm": 2.5995266437530518,
      "learning_rate": 1.8828385851419033e-05,
      "loss": 1.3029,
      "num_input_tokens_seen": 138334136,
      "step": 239000,
      "train_runtime": 1877.3231,
      "train_tokens_per_second": 73686.909
    },
    {
      "epoch": 12.494782971619365,
      "grad_norm": 2.1378602981567383,
      "learning_rate": 1.87631729966611e-05,
      "loss": 1.3092,
      "num_input_tokens_seen": 138621760,
      "step": 239500,
      "train_runtime": 1895.9609,
      "train_tokens_per_second": 73114.252
    },
    {
      "epoch": 12.520868113522537,
      "grad_norm": 2.3101305961608887,
      "learning_rate": 1.8697960141903172e-05,
      "loss": 1.3457,
      "num_input_tokens_seen": 138914632,
      "step": 240000,
      "train_runtime": 1914.6876,
      "train_tokens_per_second": 72552.113
    },
    {
      "epoch": 12.54695325542571,
      "grad_norm": 2.8269946575164795,
      "learning_rate": 1.8632747287145244e-05,
      "loss": 1.3055,
      "num_input_tokens_seen": 139199064,
      "step": 240500,
      "train_runtime": 1933.403,
      "train_tokens_per_second": 71996.923
    },
    {
      "epoch": 12.573038397328881,
      "grad_norm": 4.536306858062744,
      "learning_rate": 1.8567534432387312e-05,
      "loss": 1.3104,
      "num_input_tokens_seen": 139488888,
      "step": 241000,
      "train_runtime": 1952.205,
      "train_tokens_per_second": 71451.969
    },
    {
      "epoch": 12.599123539232053,
      "grad_norm": 2.898843765258789,
      "learning_rate": 1.8502321577629383e-05,
      "loss": 1.2751,
      "num_input_tokens_seen": 139777560,
      "step": 241500,
      "train_runtime": 1970.9694,
      "train_tokens_per_second": 70918.18
    },
    {
      "epoch": 12.625208681135225,
      "grad_norm": 2.233572006225586,
      "learning_rate": 1.8437108722871455e-05,
      "loss": 1.2931,
      "num_input_tokens_seen": 140065240,
      "step": 242000,
      "train_runtime": 1989.7056,
      "train_tokens_per_second": 70394.956
    },
    {
      "epoch": 12.651293823038397,
      "grad_norm": 4.327518939971924,
      "learning_rate": 1.8371895868113523e-05,
      "loss": 1.2964,
      "num_input_tokens_seen": 140353912,
      "step": 242500,
      "train_runtime": 2008.5433,
      "train_tokens_per_second": 69878.458
    },
    {
      "epoch": 12.67737896494157,
      "grad_norm": 2.5169992446899414,
      "learning_rate": 1.8306683013355594e-05,
      "loss": 1.3056,
      "num_input_tokens_seen": 140643424,
      "step": 243000,
      "train_runtime": 2027.3392,
      "train_tokens_per_second": 69373.405
    },
    {
      "epoch": 12.703464106844741,
      "grad_norm": 2.1607372760772705,
      "learning_rate": 1.8241470158597666e-05,
      "loss": 1.2978,
      "num_input_tokens_seen": 140936888,
      "step": 243500,
      "train_runtime": 2046.1461,
      "train_tokens_per_second": 68879.19
    },
    {
      "epoch": 12.729549248747913,
      "grad_norm": 3.104569673538208,
      "learning_rate": 1.8176257303839734e-05,
      "loss": 1.3203,
      "num_input_tokens_seen": 141227736,
      "step": 244000,
      "train_runtime": 2064.9328,
      "train_tokens_per_second": 68393.38
    },
    {
      "epoch": 12.755634390651085,
      "grad_norm": 2.6793630123138428,
      "learning_rate": 1.8111044449081805e-05,
      "loss": 1.2928,
      "num_input_tokens_seen": 141513976,
      "step": 244500,
      "train_runtime": 2083.7183,
      "train_tokens_per_second": 67914.159
    },
    {
      "epoch": 12.781719532554257,
      "grad_norm": 2.779440402984619,
      "learning_rate": 1.8045831594323873e-05,
      "loss": 1.2963,
      "num_input_tokens_seen": 141801952,
      "step": 245000,
      "train_runtime": 2102.5169,
      "train_tokens_per_second": 67443.905
    },
    {
      "epoch": 12.80780467445743,
      "grad_norm": 2.685547351837158,
      "learning_rate": 1.7980618739565945e-05,
      "loss": 1.3113,
      "num_input_tokens_seen": 142087288,
      "step": 245500,
      "train_runtime": 2121.2928,
      "train_tokens_per_second": 66981.458
    },
    {
      "epoch": 12.833889816360601,
      "grad_norm": 3.5041792392730713,
      "learning_rate": 1.7915405884808016e-05,
      "loss": 1.3062,
      "num_input_tokens_seen": 142379312,
      "step": 246000,
      "train_runtime": 2140.0752,
      "train_tokens_per_second": 66530.051
    },
    {
      "epoch": 12.859974958263773,
      "grad_norm": 3.0701446533203125,
      "learning_rate": 1.7850193030050084e-05,
      "loss": 1.3036,
      "num_input_tokens_seen": 142666568,
      "step": 246500,
      "train_runtime": 2158.8062,
      "train_tokens_per_second": 66085.862
    },
    {
      "epoch": 12.886060100166945,
      "grad_norm": 1.8722320795059204,
      "learning_rate": 1.7784980175292152e-05,
      "loss": 1.3004,
      "num_input_tokens_seen": 142954624,
      "step": 247000,
      "train_runtime": 2177.6361,
      "train_tokens_per_second": 65646.701
    },
    {
      "epoch": 12.912145242070117,
      "grad_norm": 3.499333381652832,
      "learning_rate": 1.7719767320534224e-05,
      "loss": 1.3213,
      "num_input_tokens_seen": 143246680,
      "step": 247500,
      "train_runtime": 2196.4459,
      "train_tokens_per_second": 65217.486
    },
    {
      "epoch": 12.93823038397329,
      "grad_norm": 4.5629353523254395,
      "learning_rate": 1.7654554465776292e-05,
      "loss": 1.3231,
      "num_input_tokens_seen": 143537736,
      "step": 248000,
      "train_runtime": 2215.2759,
      "train_tokens_per_second": 64794.52
    },
    {
      "epoch": 12.964315525876462,
      "grad_norm": 3.0510342121124268,
      "learning_rate": 1.7589341611018363e-05,
      "loss": 1.2966,
      "num_input_tokens_seen": 143823008,
      "step": 248500,
      "train_runtime": 2233.9986,
      "train_tokens_per_second": 64379.186
    },
    {
      "epoch": 12.990400667779634,
      "grad_norm": 3.152311325073242,
      "learning_rate": 1.7524128756260435e-05,
      "loss": 1.2741,
      "num_input_tokens_seen": 144116976,
      "step": 249000,
      "train_runtime": 2252.7592,
      "train_tokens_per_second": 63973.537
    },
    {
      "epoch": 13.0,
      "eval_loss": 1.3037497997283936,
      "eval_runtime": 45.363,
      "eval_samples_per_second": 845.072,
      "eval_steps_per_second": 105.637,
      "num_input_tokens_seen": 144224222,
      "step": 249184
    },
    {
      "epoch": 13.016485809682806,
      "grad_norm": 2.950641632080078,
      "learning_rate": 1.7458915901502503e-05,
      "loss": 1.2892,
      "num_input_tokens_seen": 144404846,
      "step": 249500,
      "train_runtime": 2317.872,
      "train_tokens_per_second": 62300.612
    },
    {
      "epoch": 13.042570951585976,
      "grad_norm": 3.1258602142333984,
      "learning_rate": 1.7393703046744574e-05,
      "loss": 1.279,
      "num_input_tokens_seen": 144697406,
      "step": 250000,
      "train_runtime": 2336.6661,
      "train_tokens_per_second": 61924.725
    },
    {
      "epoch": 13.068656093489148,
      "grad_norm": 2.8600733280181885,
      "learning_rate": 1.7328490191986646e-05,
      "loss": 1.2856,
      "num_input_tokens_seen": 144992526,
      "step": 250500,
      "train_runtime": 2355.4549,
      "train_tokens_per_second": 61556.062
    },
    {
      "epoch": 13.09474123539232,
      "grad_norm": 2.740837335586548,
      "learning_rate": 1.7263277337228714e-05,
      "loss": 1.2793,
      "num_input_tokens_seen": 145286206,
      "step": 251000,
      "train_runtime": 2374.3019,
      "train_tokens_per_second": 61191.125
    },
    {
      "epoch": 13.120826377295492,
      "grad_norm": 2.514106035232544,
      "learning_rate": 1.7198064482470785e-05,
      "loss": 1.2966,
      "num_input_tokens_seen": 145576638,
      "step": 251500,
      "train_runtime": 2393.1024,
      "train_tokens_per_second": 60831.763
    },
    {
      "epoch": 13.146911519198664,
      "grad_norm": 2.3407087326049805,
      "learning_rate": 1.7132851627712857e-05,
      "loss": 1.288,
      "num_input_tokens_seen": 145861950,
      "step": 252000,
      "train_runtime": 2411.8629,
      "train_tokens_per_second": 60476.884
    },
    {
      "epoch": 13.172996661101836,
      "grad_norm": 2.940520763397217,
      "learning_rate": 1.7067638772954925e-05,
      "loss": 1.2828,
      "num_input_tokens_seen": 146153318,
      "step": 252500,
      "train_runtime": 2430.6861,
      "train_tokens_per_second": 60128.423
    },
    {
      "epoch": 13.199081803005008,
      "grad_norm": 2.352440595626831,
      "learning_rate": 1.7002425918196996e-05,
      "loss": 1.3483,
      "num_input_tokens_seen": 146442846,
      "step": 253000,
      "train_runtime": 2449.4406,
      "train_tokens_per_second": 59786.24
    },
    {
      "epoch": 13.22516694490818,
      "grad_norm": 3.5476200580596924,
      "learning_rate": 1.6937213063439068e-05,
      "loss": 1.286,
      "num_input_tokens_seen": 146729830,
      "step": 253500,
      "train_runtime": 2468.227,
      "train_tokens_per_second": 59447.462
    },
    {
      "epoch": 13.251252086811352,
      "grad_norm": 3.1068811416625977,
      "learning_rate": 1.6872000208681136e-05,
      "loss": 1.2873,
      "num_input_tokens_seen": 147026030,
      "step": 254000,
      "train_runtime": 2486.9722,
      "train_tokens_per_second": 59118.484
    },
    {
      "epoch": 13.277337228714524,
      "grad_norm": 3.000011920928955,
      "learning_rate": 1.6806787353923207e-05,
      "loss": 1.2832,
      "num_input_tokens_seen": 147309830,
      "step": 254500,
      "train_runtime": 2505.7198,
      "train_tokens_per_second": 58789.428
    },
    {
      "epoch": 13.303422370617696,
      "grad_norm": 3.2478373050689697,
      "learning_rate": 1.674157449916528e-05,
      "loss": 1.3025,
      "num_input_tokens_seen": 147604054,
      "step": 255000,
      "train_runtime": 2524.5534,
      "train_tokens_per_second": 58467.393
    },
    {
      "epoch": 13.329507512520868,
      "grad_norm": 2.5078775882720947,
      "learning_rate": 1.6676361644407347e-05,
      "loss": 1.2669,
      "num_input_tokens_seen": 147894782,
      "step": 255500,
      "train_runtime": 2543.3336,
      "train_tokens_per_second": 58149.974
    },
    {
      "epoch": 13.35559265442404,
      "grad_norm": 2.6515934467315674,
      "learning_rate": 1.6611148789649415e-05,
      "loss": 1.2827,
      "num_input_tokens_seen": 148189078,
      "step": 256000,
      "train_runtime": 2562.0637,
      "train_tokens_per_second": 57839.731
    },
    {
      "epoch": 13.381677796327212,
      "grad_norm": 3.669487237930298,
      "learning_rate": 1.6545935934891486e-05,
      "loss": 1.3063,
      "num_input_tokens_seen": 148477710,
      "step": 256500,
      "train_runtime": 2580.8969,
      "train_tokens_per_second": 57529.5
    },
    {
      "epoch": 13.407762938230384,
      "grad_norm": 2.5362067222595215,
      "learning_rate": 1.6480723080133555e-05,
      "loss": 1.311,
      "num_input_tokens_seen": 148771438,
      "step": 257000,
      "train_runtime": 2599.7745,
      "train_tokens_per_second": 57224.747
    },
    {
      "epoch": 13.433848080133556,
      "grad_norm": 1.743450403213501,
      "learning_rate": 1.6415510225375626e-05,
      "loss": 1.2843,
      "num_input_tokens_seen": 149060526,
      "step": 257500,
      "train_runtime": 2618.5247,
      "train_tokens_per_second": 56925.386
    },
    {
      "epoch": 13.459933222036728,
      "grad_norm": 2.875257968902588,
      "learning_rate": 1.6350297370617697e-05,
      "loss": 1.2692,
      "num_input_tokens_seen": 149346974,
      "step": 258000,
      "train_runtime": 2637.3123,
      "train_tokens_per_second": 56628.474
    },
    {
      "epoch": 13.4860183639399,
      "grad_norm": 3.3050479888916016,
      "learning_rate": 1.6285084515859766e-05,
      "loss": 1.2869,
      "num_input_tokens_seen": 149633070,
      "step": 258500,
      "train_runtime": 2656.0943,
      "train_tokens_per_second": 56335.751
    },
    {
      "epoch": 13.512103505843072,
      "grad_norm": 2.2370221614837646,
      "learning_rate": 1.6219871661101837e-05,
      "loss": 1.3004,
      "num_input_tokens_seen": 149926758,
      "step": 259000,
      "train_runtime": 2674.8246,
      "train_tokens_per_second": 56051.06
    },
    {
      "epoch": 13.538188647746244,
      "grad_norm": 4.20009183883667,
      "learning_rate": 1.615465880634391e-05,
      "loss": 1.2629,
      "num_input_tokens_seen": 150212054,
      "step": 259500,
      "train_runtime": 2693.5708,
      "train_tokens_per_second": 55766.885
    },
    {
      "epoch": 13.564273789649416,
      "grad_norm": 2.247492551803589,
      "learning_rate": 1.6089445951585977e-05,
      "loss": 1.3251,
      "num_input_tokens_seen": 150502366,
      "step": 260000,
      "train_runtime": 2712.3292,
      "train_tokens_per_second": 55488.237
    },
    {
      "epoch": 13.590358931552588,
      "grad_norm": 2.1950037479400635,
      "learning_rate": 1.6024233096828048e-05,
      "loss": 1.2798,
      "num_input_tokens_seen": 150787110,
      "step": 260500,
      "train_runtime": 2731.1083,
      "train_tokens_per_second": 55210.959
    },
    {
      "epoch": 13.61644407345576,
      "grad_norm": 2.5948126316070557,
      "learning_rate": 1.5959020242070116e-05,
      "loss": 1.2685,
      "num_input_tokens_seen": 151072982,
      "step": 261000,
      "train_runtime": 2749.822,
      "train_tokens_per_second": 54939.185
    },
    {
      "epoch": 13.642529215358932,
      "grad_norm": 3.1042332649230957,
      "learning_rate": 1.5893807387312188e-05,
      "loss": 1.2917,
      "num_input_tokens_seen": 151366958,
      "step": 261500,
      "train_runtime": 2768.6641,
      "train_tokens_per_second": 54671.478
    },
    {
      "epoch": 13.668614357262104,
      "grad_norm": 2.2142746448516846,
      "learning_rate": 1.582859453255426e-05,
      "loss": 1.2928,
      "num_input_tokens_seen": 151651278,
      "step": 262000,
      "train_runtime": 2787.4176,
      "train_tokens_per_second": 54405.653
    },
    {
      "epoch": 13.694699499165276,
      "grad_norm": 2.406888008117676,
      "learning_rate": 1.5763381677796327e-05,
      "loss": 1.2888,
      "num_input_tokens_seen": 151940174,
      "step": 262500,
      "train_runtime": 2806.1465,
      "train_tokens_per_second": 54145.488
    },
    {
      "epoch": 13.720784641068448,
      "grad_norm": 2.989021062850952,
      "learning_rate": 1.56981688230384e-05,
      "loss": 1.3058,
      "num_input_tokens_seen": 152226926,
      "step": 263000,
      "train_runtime": 2824.9214,
      "train_tokens_per_second": 53887.137
    },
    {
      "epoch": 13.746869782971618,
      "grad_norm": 2.4519472122192383,
      "learning_rate": 1.563295596828047e-05,
      "loss": 1.3242,
      "num_input_tokens_seen": 152519390,
      "step": 263500,
      "train_runtime": 2843.6976,
      "train_tokens_per_second": 53634.181
    },
    {
      "epoch": 13.772954924874792,
      "grad_norm": 3.375582456588745,
      "learning_rate": 1.5567743113522538e-05,
      "loss": 1.2878,
      "num_input_tokens_seen": 152810446,
      "step": 264000,
      "train_runtime": 2862.4801,
      "train_tokens_per_second": 53383.932
    },
    {
      "epoch": 13.799040066777962,
      "grad_norm": 2.5288329124450684,
      "learning_rate": 1.550253025876461e-05,
      "loss": 1.279,
      "num_input_tokens_seen": 153100030,
      "step": 264500,
      "train_runtime": 2881.2536,
      "train_tokens_per_second": 53136.604
    },
    {
      "epoch": 13.825125208681134,
      "grad_norm": 2.273123025894165,
      "learning_rate": 1.5437317404006678e-05,
      "loss": 1.2912,
      "num_input_tokens_seen": 153385646,
      "step": 265000,
      "train_runtime": 2900.0148,
      "train_tokens_per_second": 52891.332
    },
    {
      "epoch": 13.851210350584306,
      "grad_norm": 5.488306522369385,
      "learning_rate": 1.537210454924875e-05,
      "loss": 1.3079,
      "num_input_tokens_seen": 153672086,
      "step": 265500,
      "train_runtime": 2918.7985,
      "train_tokens_per_second": 52649.091
    },
    {
      "epoch": 13.877295492487479,
      "grad_norm": 2.2071919441223145,
      "learning_rate": 1.5306891694490817e-05,
      "loss": 1.3046,
      "num_input_tokens_seen": 153960638,
      "step": 266000,
      "train_runtime": 2937.5127,
      "train_tokens_per_second": 52411.906
    },
    {
      "epoch": 13.90338063439065,
      "grad_norm": 3.046309471130371,
      "learning_rate": 1.524167883973289e-05,
      "loss": 1.2832,
      "num_input_tokens_seen": 154246150,
      "step": 266500,
      "train_runtime": 2956.2532,
      "train_tokens_per_second": 52176.231
    },
    {
      "epoch": 13.929465776293823,
      "grad_norm": 2.4747865200042725,
      "learning_rate": 1.5176465984974958e-05,
      "loss": 1.2976,
      "num_input_tokens_seen": 154534870,
      "step": 267000,
      "train_runtime": 2975.0146,
      "train_tokens_per_second": 51944.238
    },
    {
      "epoch": 13.955550918196995,
      "grad_norm": 2.148017168045044,
      "learning_rate": 1.511125313021703e-05,
      "loss": 1.3016,
      "num_input_tokens_seen": 154821518,
      "step": 267500,
      "train_runtime": 2993.7975,
      "train_tokens_per_second": 51714.091
    },
    {
      "epoch": 13.981636060100167,
      "grad_norm": 2.248180389404297,
      "learning_rate": 1.50460402754591e-05,
      "loss": 1.2983,
      "num_input_tokens_seen": 155115046,
      "step": 268000,
      "train_runtime": 3012.5625,
      "train_tokens_per_second": 51489.403
    },
    {
      "epoch": 14.0,
      "eval_loss": 1.2995389699935913,
      "eval_runtime": 45.4147,
      "eval_samples_per_second": 844.109,
      "eval_steps_per_second": 105.516,
      "num_input_tokens_seen": 155319448,
      "step": 268352
    },
    {
      "epoch": 14.007721202003339,
      "grad_norm": 3.0312399864196777,
      "learning_rate": 1.4980827420701168e-05,
      "loss": 1.3027,
      "num_input_tokens_seen": 155408024,
      "step": 268500,
      "train_runtime": 3077.7818,
      "train_tokens_per_second": 50493.516
    },
    {
      "epoch": 14.03380634390651,
      "grad_norm": 4.309081077575684,
      "learning_rate": 1.4915614565943239e-05,
      "loss": 1.2652,
      "num_input_tokens_seen": 155690152,
      "step": 269000,
      "train_runtime": 3096.5771,
      "train_tokens_per_second": 50278.144
    },
    {
      "epoch": 14.059891485809683,
      "grad_norm": 2.96939754486084,
      "learning_rate": 1.485040171118531e-05,
      "loss": 1.271,
      "num_input_tokens_seen": 155981000,
      "step": 269500,
      "train_runtime": 3115.3826,
      "train_tokens_per_second": 50068.008
    },
    {
      "epoch": 14.085976627712855,
      "grad_norm": 2.4417145252227783,
      "learning_rate": 1.4785188856427379e-05,
      "loss": 1.2753,
      "num_input_tokens_seen": 156272536,
      "step": 270000,
      "train_runtime": 3134.181,
      "train_tokens_per_second": 49860.724
    },
    {
      "epoch": 14.112061769616027,
      "grad_norm": 3.6525328159332275,
      "learning_rate": 1.471997600166945e-05,
      "loss": 1.2708,
      "num_input_tokens_seen": 156564232,
      "step": 270500,
      "train_runtime": 3152.9933,
      "train_tokens_per_second": 49655.746
    },
    {
      "epoch": 14.138146911519199,
      "grad_norm": 2.702702045440674,
      "learning_rate": 1.4654763146911522e-05,
      "loss": 1.2644,
      "num_input_tokens_seen": 156847192,
      "step": 271000,
      "train_runtime": 3171.767,
      "train_tokens_per_second": 49451.045
    },
    {
      "epoch": 14.16423205342237,
      "grad_norm": 2.738504648208618,
      "learning_rate": 1.458955029215359e-05,
      "loss": 1.2735,
      "num_input_tokens_seen": 157138056,
      "step": 271500,
      "train_runtime": 3190.5858,
      "train_tokens_per_second": 49250.534
    },
    {
      "epoch": 14.190317195325543,
      "grad_norm": 2.680459976196289,
      "learning_rate": 1.4524337437395661e-05,
      "loss": 1.2923,
      "num_input_tokens_seen": 157427656,
      "step": 272000,
      "train_runtime": 3209.3923,
      "train_tokens_per_second": 49052.17
    },
    {
      "epoch": 14.216402337228715,
      "grad_norm": 2.5472817420959473,
      "learning_rate": 1.4459124582637731e-05,
      "loss": 1.2812,
      "num_input_tokens_seen": 157714904,
      "step": 272500,
      "train_runtime": 3228.1634,
      "train_tokens_per_second": 48855.924
    },
    {
      "epoch": 14.242487479131887,
      "grad_norm": 2.909809112548828,
      "learning_rate": 1.4393911727879799e-05,
      "loss": 1.3002,
      "num_input_tokens_seen": 158004216,
      "step": 273000,
      "train_runtime": 3246.9319,
      "train_tokens_per_second": 48662.621
    },
    {
      "epoch": 14.268572621035059,
      "grad_norm": 3.222720146179199,
      "learning_rate": 1.432869887312187e-05,
      "loss": 1.2887,
      "num_input_tokens_seen": 158292352,
      "step": 273500,
      "train_runtime": 3265.647,
      "train_tokens_per_second": 48471.973
    },
    {
      "epoch": 14.29465776293823,
      "grad_norm": 1.991113543510437,
      "learning_rate": 1.4263486018363942e-05,
      "loss": 1.2627,
      "num_input_tokens_seen": 158587024,
      "step": 274000,
      "train_runtime": 3284.4013,
      "train_tokens_per_second": 48284.91
    },
    {
      "epoch": 14.320742904841403,
      "grad_norm": 2.8505282402038574,
      "learning_rate": 1.419827316360601e-05,
      "loss": 1.2836,
      "num_input_tokens_seen": 158886520,
      "step": 274500,
      "train_runtime": 3303.3083,
      "train_tokens_per_second": 48099.209
    },
    {
      "epoch": 14.346828046744575,
      "grad_norm": 2.9469573497772217,
      "learning_rate": 1.4133060308848081e-05,
      "loss": 1.2749,
      "num_input_tokens_seen": 159177696,
      "step": 275000,
      "train_runtime": 3322.098,
      "train_tokens_per_second": 47914.811
    },
    {
      "epoch": 14.372913188647747,
      "grad_norm": 4.244631767272949,
      "learning_rate": 1.4067847454090153e-05,
      "loss": 1.2695,
      "num_input_tokens_seen": 159460280,
      "step": 275500,
      "train_runtime": 3340.8943,
      "train_tokens_per_second": 47729.819
    },
    {
      "epoch": 14.398998330550919,
      "grad_norm": 3.174166440963745,
      "learning_rate": 1.4002634599332221e-05,
      "loss": 1.2888,
      "num_input_tokens_seen": 159745000,
      "step": 276000,
      "train_runtime": 3359.6609,
      "train_tokens_per_second": 47547.953
    },
    {
      "epoch": 14.42508347245409,
      "grad_norm": 2.760267496109009,
      "learning_rate": 1.3937421744574292e-05,
      "loss": 1.2714,
      "num_input_tokens_seen": 160037624,
      "step": 276500,
      "train_runtime": 3378.4646,
      "train_tokens_per_second": 47369.928
    },
    {
      "epoch": 14.451168614357263,
      "grad_norm": 3.1717495918273926,
      "learning_rate": 1.387220888981636e-05,
      "loss": 1.2967,
      "num_input_tokens_seen": 160328736,
      "step": 277000,
      "train_runtime": 3397.3414,
      "train_tokens_per_second": 47192.412
    },
    {
      "epoch": 14.477253756260435,
      "grad_norm": 2.68973708152771,
      "learning_rate": 1.380699603505843e-05,
      "loss": 1.2688,
      "num_input_tokens_seen": 160619656,
      "step": 277500,
      "train_runtime": 3416.1542,
      "train_tokens_per_second": 47017.683
    },
    {
      "epoch": 14.503338898163605,
      "grad_norm": 2.4333648681640625,
      "learning_rate": 1.3741783180300502e-05,
      "loss": 1.2797,
      "num_input_tokens_seen": 160908592,
      "step": 278000,
      "train_runtime": 3434.8918,
      "train_tokens_per_second": 46845.316
    },
    {
      "epoch": 14.529424040066779,
      "grad_norm": 2.4637181758880615,
      "learning_rate": 1.367657032554257e-05,
      "loss": 1.2733,
      "num_input_tokens_seen": 161202600,
      "step": 278500,
      "train_runtime": 3453.6295,
      "train_tokens_per_second": 46676.287
    },
    {
      "epoch": 14.55550918196995,
      "grad_norm": 2.199878215789795,
      "learning_rate": 1.3611357470784641e-05,
      "loss": 1.2812,
      "num_input_tokens_seen": 161493960,
      "step": 279000,
      "train_runtime": 3472.3475,
      "train_tokens_per_second": 46508.583
    },
    {
      "epoch": 14.581594323873121,
      "grad_norm": 2.7561452388763428,
      "learning_rate": 1.3546144616026713e-05,
      "loss": 1.2981,
      "num_input_tokens_seen": 161780984,
      "step": 279500,
      "train_runtime": 3491.0873,
      "train_tokens_per_second": 46341.146
    },
    {
      "epoch": 14.607679465776293,
      "grad_norm": 2.5802223682403564,
      "learning_rate": 1.348093176126878e-05,
      "loss": 1.2772,
      "num_input_tokens_seen": 162067272,
      "step": 280000,
      "train_runtime": 3509.8281,
      "train_tokens_per_second": 46175.274
    },
    {
      "epoch": 14.633764607679465,
      "grad_norm": 2.8847203254699707,
      "learning_rate": 1.3415718906510852e-05,
      "loss": 1.2868,
      "num_input_tokens_seen": 162356640,
      "step": 280500,
      "train_runtime": 3528.574,
      "train_tokens_per_second": 46011.97
    },
    {
      "epoch": 14.659849749582637,
      "grad_norm": 2.8300564289093018,
      "learning_rate": 1.3350506051752924e-05,
      "loss": 1.3286,
      "num_input_tokens_seen": 162645952,
      "step": 281000,
      "train_runtime": 3547.3388,
      "train_tokens_per_second": 45850.132
    },
    {
      "epoch": 14.68593489148581,
      "grad_norm": 2.2055959701538086,
      "learning_rate": 1.3285293196994992e-05,
      "loss": 1.2874,
      "num_input_tokens_seen": 162937608,
      "step": 281500,
      "train_runtime": 3566.1498,
      "train_tokens_per_second": 45690.063
    },
    {
      "epoch": 14.712020033388981,
      "grad_norm": 2.794443368911743,
      "learning_rate": 1.3220080342237062e-05,
      "loss": 1.2976,
      "num_input_tokens_seen": 163226160,
      "step": 282000,
      "train_runtime": 3584.9392,
      "train_tokens_per_second": 45531.081
    },
    {
      "epoch": 14.738105175292153,
      "grad_norm": 2.3322718143463135,
      "learning_rate": 1.3154867487479133e-05,
      "loss": 1.3031,
      "num_input_tokens_seen": 163520392,
      "step": 282500,
      "train_runtime": 3603.7244,
      "train_tokens_per_second": 45375.388
    },
    {
      "epoch": 14.764190317195325,
      "grad_norm": 2.4972341060638428,
      "learning_rate": 1.3089654632721201e-05,
      "loss": 1.2688,
      "num_input_tokens_seen": 163814080,
      "step": 283000,
      "train_runtime": 3622.5289,
      "train_tokens_per_second": 45220.917
    },
    {
      "epoch": 14.790275459098497,
      "grad_norm": 2.5767734050750732,
      "learning_rate": 1.3024441777963273e-05,
      "loss": 1.2623,
      "num_input_tokens_seen": 164098944,
      "step": 283500,
      "train_runtime": 3641.3406,
      "train_tokens_per_second": 45065.531
    },
    {
      "epoch": 14.81636060100167,
      "grad_norm": 2.557332992553711,
      "learning_rate": 1.2959228923205344e-05,
      "loss": 1.2782,
      "num_input_tokens_seen": 164388472,
      "step": 284000,
      "train_runtime": 3660.0837,
      "train_tokens_per_second": 44913.856
    },
    {
      "epoch": 14.842445742904841,
      "grad_norm": 2.9156086444854736,
      "learning_rate": 1.2894016068447412e-05,
      "loss": 1.2929,
      "num_input_tokens_seen": 164678824,
      "step": 284500,
      "train_runtime": 3678.8815,
      "train_tokens_per_second": 44763.286
    },
    {
      "epoch": 14.868530884808013,
      "grad_norm": 2.550926685333252,
      "learning_rate": 1.2828803213689484e-05,
      "loss": 1.2843,
      "num_input_tokens_seen": 164964520,
      "step": 285000,
      "train_runtime": 3697.6895,
      "train_tokens_per_second": 44612.864
    },
    {
      "epoch": 14.894616026711185,
      "grad_norm": 3.0715761184692383,
      "learning_rate": 1.2763590358931555e-05,
      "loss": 1.2791,
      "num_input_tokens_seen": 165252424,
      "step": 285500,
      "train_runtime": 3716.4903,
      "train_tokens_per_second": 44464.646
    },
    {
      "epoch": 14.920701168614357,
      "grad_norm": 3.2298481464385986,
      "learning_rate": 1.2698377504173623e-05,
      "loss": 1.286,
      "num_input_tokens_seen": 165546752,
      "step": 286000,
      "train_runtime": 3735.2292,
      "train_tokens_per_second": 44320.373
    },
    {
      "epoch": 14.94678631051753,
      "grad_norm": 2.6789731979370117,
      "learning_rate": 1.2633164649415693e-05,
      "loss": 1.2922,
      "num_input_tokens_seen": 165831800,
      "step": 286500,
      "train_runtime": 3754.0295,
      "train_tokens_per_second": 44174.346
    },
    {
      "epoch": 14.972871452420701,
      "grad_norm": 2.6322739124298096,
      "learning_rate": 1.2567951794657764e-05,
      "loss": 1.2873,
      "num_input_tokens_seen": 166125192,
      "step": 287000,
      "train_runtime": 3772.8414,
      "train_tokens_per_second": 44031.852
    },
    {
      "epoch": 14.998956594323873,
      "grad_norm": 2.762434244155884,
      "learning_rate": 1.2502738939899832e-05,
      "loss": 1.2715,
      "num_input_tokens_seen": 166410264,
      "step": 287500,
      "train_runtime": 3791.6838,
      "train_tokens_per_second": 43888.222
    },
    {
      "epoch": 15.0,
      "eval_loss": 1.2970120906829834,
      "eval_runtime": 45.5176,
      "eval_samples_per_second": 842.201,
      "eval_steps_per_second": 105.278,
      "num_input_tokens_seen": 166422516,
      "step": 287520
    },
    {
      "epoch": 15.025041736227045,
      "grad_norm": 2.177825927734375,
      "learning_rate": 1.2437526085141904e-05,
      "loss": 1.2801,
      "num_input_tokens_seen": 166697628,
      "step": 288000,
      "train_runtime": 3857.3769,
      "train_tokens_per_second": 43215.282
    },
    {
      "epoch": 15.051126878130217,
      "grad_norm": 3.206347703933716,
      "learning_rate": 1.2372313230383974e-05,
      "loss": 1.2709,
      "num_input_tokens_seen": 166992924,
      "step": 288500,
      "train_runtime": 3876.1711,
      "train_tokens_per_second": 43081.927
    },
    {
      "epoch": 15.07721202003339,
      "grad_norm": 2.4079601764678955,
      "learning_rate": 1.2307100375626043e-05,
      "loss": 1.2744,
      "num_input_tokens_seen": 167286132,
      "step": 289000,
      "train_runtime": 3895.0066,
      "train_tokens_per_second": 42948.869
    },
    {
      "epoch": 15.103297161936561,
      "grad_norm": 1.9692761898040771,
      "learning_rate": 1.2241887520868115e-05,
      "loss": 1.2559,
      "num_input_tokens_seen": 167572372,
      "step": 289500,
      "train_runtime": 3913.7506,
      "train_tokens_per_second": 42816.313
    },
    {
      "epoch": 15.129382303839733,
      "grad_norm": 2.694408416748047,
      "learning_rate": 1.2176674666110185e-05,
      "loss": 1.2661,
      "num_input_tokens_seen": 167863284,
      "step": 290000,
      "train_runtime": 3932.5501,
      "train_tokens_per_second": 42685.606
    },
    {
      "epoch": 15.155467445742905,
      "grad_norm": 2.9768283367156982,
      "learning_rate": 1.2111461811352254e-05,
      "loss": 1.2868,
      "num_input_tokens_seen": 168153292,
      "step": 290500,
      "train_runtime": 3951.2884,
      "train_tokens_per_second": 42556.573
    },
    {
      "epoch": 15.181552587646078,
      "grad_norm": 3.165743112564087,
      "learning_rate": 1.2046248956594324e-05,
      "loss": 1.2598,
      "num_input_tokens_seen": 168442780,
      "step": 291000,
      "train_runtime": 3970.108,
      "train_tokens_per_second": 42427.758
    },
    {
      "epoch": 15.20763772954925,
      "grad_norm": 2.1122047901153564,
      "learning_rate": 1.1981036101836394e-05,
      "loss": 1.2777,
      "num_input_tokens_seen": 168730764,
      "step": 291500,
      "train_runtime": 3989.0323,
      "train_tokens_per_second": 42298.671
    },
    {
      "epoch": 15.233722871452422,
      "grad_norm": 2.8908307552337646,
      "learning_rate": 1.1915823247078464e-05,
      "loss": 1.2524,
      "num_input_tokens_seen": 169023804,
      "step": 292000,
      "train_runtime": 4008.0188,
      "train_tokens_per_second": 42171.41
    },
    {
      "epoch": 15.259808013355592,
      "grad_norm": 5.693580627441406,
      "learning_rate": 1.1850610392320535e-05,
      "loss": 1.2636,
      "num_input_tokens_seen": 169313124,
      "step": 292500,
      "train_runtime": 4028.3264,
      "train_tokens_per_second": 42030.637
    },
    {
      "epoch": 15.285893155258764,
      "grad_norm": 2.3008134365081787,
      "learning_rate": 1.1785397537562605e-05,
      "loss": 1.2828,
      "num_input_tokens_seen": 169601124,
      "step": 293000,
      "train_runtime": 4048.6666,
      "train_tokens_per_second": 41890.613
    },
    {
      "epoch": 15.311978297161936,
      "grad_norm": 2.8285107612609863,
      "learning_rate": 1.1720184682804675e-05,
      "loss": 1.2528,
      "num_input_tokens_seen": 169887028,
      "step": 293500,
      "train_runtime": 4068.1864,
      "train_tokens_per_second": 41759.893
    },
    {
      "epoch": 15.338063439065108,
      "grad_norm": 2.4193263053894043,
      "learning_rate": 1.1654971828046746e-05,
      "loss": 1.272,
      "num_input_tokens_seen": 170171812,
      "step": 294000,
      "train_runtime": 4087.6299,
      "train_tokens_per_second": 41630.925
    },
    {
      "epoch": 15.36414858096828,
      "grad_norm": 2.8411006927490234,
      "learning_rate": 1.1589758973288816e-05,
      "loss": 1.2846,
      "num_input_tokens_seen": 170459652,
      "step": 294500,
      "train_runtime": 4106.8845,
      "train_tokens_per_second": 41505.83
    },
    {
      "epoch": 15.390233722871452,
      "grad_norm": 3.2765908241271973,
      "learning_rate": 1.1524546118530886e-05,
      "loss": 1.283,
      "num_input_tokens_seen": 170746052,
      "step": 295000,
      "train_runtime": 4125.6554,
      "train_tokens_per_second": 41386.407
    },
    {
      "epoch": 15.416318864774624,
      "grad_norm": 4.315444469451904,
      "learning_rate": 1.1459333263772955e-05,
      "loss": 1.2499,
      "num_input_tokens_seen": 171039820,
      "step": 295500,
      "train_runtime": 4144.6159,
      "train_tokens_per_second": 41267.954
    },
    {
      "epoch": 15.442404006677796,
      "grad_norm": 2.635226249694824,
      "learning_rate": 1.1394120409015025e-05,
      "loss": 1.271,
      "num_input_tokens_seen": 171325612,
      "step": 296000,
      "train_runtime": 4164.0018,
      "train_tokens_per_second": 41144.461
    },
    {
      "epoch": 15.468489148580968,
      "grad_norm": 2.699335813522339,
      "learning_rate": 1.1328907554257095e-05,
      "loss": 1.276,
      "num_input_tokens_seen": 171612740,
      "step": 296500,
      "train_runtime": 4184.2714,
      "train_tokens_per_second": 41013.768
    },
    {
      "epoch": 15.49457429048414,
      "grad_norm": 2.0063083171844482,
      "learning_rate": 1.1263694699499165e-05,
      "loss": 1.2596,
      "num_input_tokens_seen": 171906348,
      "step": 297000,
      "train_runtime": 4203.2579,
      "train_tokens_per_second": 40898.358
    },
    {
      "epoch": 15.520659432387312,
      "grad_norm": 2.836402654647827,
      "learning_rate": 1.1198481844741236e-05,
      "loss": 1.2578,
      "num_input_tokens_seen": 172189356,
      "step": 297500,
      "train_runtime": 4222.1833,
      "train_tokens_per_second": 40782.066
    },
    {
      "epoch": 15.546744574290484,
      "grad_norm": 3.0927999019622803,
      "learning_rate": 1.1133268989983306e-05,
      "loss": 1.2973,
      "num_input_tokens_seen": 172482468,
      "step": 298000,
      "train_runtime": 4241.2002,
      "train_tokens_per_second": 40668.316
    },
    {
      "epoch": 15.572829716193656,
      "grad_norm": 3.955559492111206,
      "learning_rate": 1.1068056135225376e-05,
      "loss": 1.272,
      "num_input_tokens_seen": 172775212,
      "step": 298500,
      "train_runtime": 4260.8077,
      "train_tokens_per_second": 40549.873
    },
    {
      "epoch": 15.598914858096828,
      "grad_norm": 2.954066753387451,
      "learning_rate": 1.1002843280467447e-05,
      "loss": 1.2696,
      "num_input_tokens_seen": 173066468,
      "step": 299000,
      "train_runtime": 4279.6208,
      "train_tokens_per_second": 40439.674
    },
    {
      "epoch": 15.625,
      "grad_norm": 2.927549362182617,
      "learning_rate": 1.0937630425709517e-05,
      "loss": 1.2947,
      "num_input_tokens_seen": 173362372,
      "step": 299500,
      "train_runtime": 4298.4621,
      "train_tokens_per_second": 40331.255
    },
    {
      "epoch": 15.651085141903172,
      "grad_norm": 3.2571945190429688,
      "learning_rate": 1.0872417570951587e-05,
      "loss": 1.2612,
      "num_input_tokens_seen": 173657292,
      "step": 300000,
      "train_runtime": 4317.6857,
      "train_tokens_per_second": 40219.994
    },
    {
      "epoch": 15.677170283806344,
      "grad_norm": 4.016629695892334,
      "learning_rate": 1.0807204716193657e-05,
      "loss": 1.2903,
      "num_input_tokens_seen": 173953028,
      "step": 300500,
      "train_runtime": 4337.5188,
      "train_tokens_per_second": 40104.27
    },
    {
      "epoch": 15.703255425709516,
      "grad_norm": 3.677175998687744,
      "learning_rate": 1.0741991861435726e-05,
      "loss": 1.2654,
      "num_input_tokens_seen": 174243612,
      "step": 301000,
      "train_runtime": 4357.6686,
      "train_tokens_per_second": 39985.512
    },
    {
      "epoch": 15.729340567612688,
      "grad_norm": 2.5401861667633057,
      "learning_rate": 1.0676779006677796e-05,
      "loss": 1.2785,
      "num_input_tokens_seen": 174528492,
      "step": 301500,
      "train_runtime": 4377.8182,
      "train_tokens_per_second": 39866.546
    },
    {
      "epoch": 15.75542570951586,
      "grad_norm": 3.0386669635772705,
      "learning_rate": 1.0611566151919868e-05,
      "loss": 1.2672,
      "num_input_tokens_seen": 174824740,
      "step": 302000,
      "train_runtime": 4397.7063,
      "train_tokens_per_second": 39753.619
    },
    {
      "epoch": 15.781510851419032,
      "grad_norm": 2.869920253753662,
      "learning_rate": 1.0546353297161937e-05,
      "loss": 1.2971,
      "num_input_tokens_seen": 175115884,
      "step": 302500,
      "train_runtime": 4417.5927,
      "train_tokens_per_second": 39640.568
    },
    {
      "epoch": 15.807595993322204,
      "grad_norm": 2.551456928253174,
      "learning_rate": 1.0481140442404007e-05,
      "loss": 1.2603,
      "num_input_tokens_seen": 175404964,
      "step": 303000,
      "train_runtime": 4437.075,
      "train_tokens_per_second": 39531.665
    },
    {
      "epoch": 15.833681135225376,
      "grad_norm": 2.8451788425445557,
      "learning_rate": 1.0415927587646079e-05,
      "loss": 1.3059,
      "num_input_tokens_seen": 175694332,
      "step": 303500,
      "train_runtime": 4456.4315,
      "train_tokens_per_second": 39424.893
    },
    {
      "epoch": 15.859766277128548,
      "grad_norm": 3.364713668823242,
      "learning_rate": 1.0350714732888148e-05,
      "loss": 1.2669,
      "num_input_tokens_seen": 175983324,
      "step": 304000,
      "train_runtime": 4475.8992,
      "train_tokens_per_second": 39317.982
    },
    {
      "epoch": 15.88585141903172,
      "grad_norm": 3.5180881023406982,
      "learning_rate": 1.0285501878130218e-05,
      "loss": 1.2704,
      "num_input_tokens_seen": 176271988,
      "step": 304500,
      "train_runtime": 4494.9616,
      "train_tokens_per_second": 39215.46
    },
    {
      "epoch": 15.911936560934892,
      "grad_norm": 3.1893362998962402,
      "learning_rate": 1.0220289023372288e-05,
      "loss": 1.2689,
      "num_input_tokens_seen": 176565276,
      "step": 305000,
      "train_runtime": 4513.98,
      "train_tokens_per_second": 39115.21
    },
    {
      "epoch": 15.938021702838064,
      "grad_norm": 3.272306442260742,
      "learning_rate": 1.0155076168614358e-05,
      "loss": 1.27,
      "num_input_tokens_seen": 176847788,
      "step": 305500,
      "train_runtime": 4533.1414,
      "train_tokens_per_second": 39012.193
    },
    {
      "epoch": 15.964106844741236,
      "grad_norm": 2.6090383529663086,
      "learning_rate": 1.0089863313856427e-05,
      "loss": 1.2684,
      "num_input_tokens_seen": 177132460,
      "step": 306000,
      "train_runtime": 4551.9653,
      "train_tokens_per_second": 38913.403
    },
    {
      "epoch": 15.990191986644408,
      "grad_norm": 2.874281644821167,
      "learning_rate": 1.0024650459098497e-05,
      "loss": 1.2839,
      "num_input_tokens_seen": 177417428,
      "step": 306500,
      "train_runtime": 4571.3016,
      "train_tokens_per_second": 38811.141
    },
    {
      "epoch": 16.0,
      "eval_loss": 1.2972913980484009,
      "eval_runtime": 46.7515,
      "eval_samples_per_second": 819.974,
      "eval_steps_per_second": 102.499,
      "num_input_tokens_seen": 177522072,
      "step": 306688
    },
    {
      "epoch": 16.01627712854758,
      "grad_norm": 2.4503226280212402,
      "learning_rate": 9.959437604340569e-06,
      "loss": 1.2666,
      "num_input_tokens_seen": 177704312,
      "step": 307000,
      "train_runtime": 4639.2676,
      "train_tokens_per_second": 38304.389
    },
    {
      "epoch": 16.042362270450752,
      "grad_norm": 2.57148814201355,
      "learning_rate": 9.894224749582638e-06,
      "loss": 1.2827,
      "num_input_tokens_seen": 177987984,
      "step": 307500,
      "train_runtime": 4658.9243,
      "train_tokens_per_second": 38203.665
    },
    {
      "epoch": 16.068447412353922,
      "grad_norm": 2.241555690765381,
      "learning_rate": 9.829011894824708e-06,
      "loss": 1.2417,
      "num_input_tokens_seen": 178276096,
      "step": 308000,
      "train_runtime": 4678.6926,
      "train_tokens_per_second": 38103.828
    },
    {
      "epoch": 16.094532554257096,
      "grad_norm": 3.140139579772949,
      "learning_rate": 9.76379904006678e-06,
      "loss": 1.2696,
      "num_input_tokens_seen": 178568312,
      "step": 308500,
      "train_runtime": 4698.0151,
      "train_tokens_per_second": 38009.31
    },
    {
      "epoch": 16.120617696160267,
      "grad_norm": 2.9327456951141357,
      "learning_rate": 9.69858618530885e-06,
      "loss": 1.2835,
      "num_input_tokens_seen": 178856160,
      "step": 309000,
      "train_runtime": 4717.2135,
      "train_tokens_per_second": 37915.638
    },
    {
      "epoch": 16.14670283806344,
      "grad_norm": 3.2067556381225586,
      "learning_rate": 9.633373330550919e-06,
      "loss": 1.2688,
      "num_input_tokens_seen": 179143944,
      "step": 309500,
      "train_runtime": 4736.2008,
      "train_tokens_per_second": 37824.398
    },
    {
      "epoch": 16.17278797996661,
      "grad_norm": 2.4767651557922363,
      "learning_rate": 9.568160475792989e-06,
      "loss": 1.2721,
      "num_input_tokens_seen": 179434664,
      "step": 310000,
      "train_runtime": 4755.3615,
      "train_tokens_per_second": 37733.128
    },
    {
      "epoch": 16.198873121869784,
      "grad_norm": 2.9996862411499023,
      "learning_rate": 9.502947621035059e-06,
      "loss": 1.2569,
      "num_input_tokens_seen": 179724792,
      "step": 310500,
      "train_runtime": 4774.7367,
      "train_tokens_per_second": 37640.776
    },
    {
      "epoch": 16.224958263772955,
      "grad_norm": 2.587339162826538,
      "learning_rate": 9.437734766277128e-06,
      "loss": 1.2562,
      "num_input_tokens_seen": 180020736,
      "step": 311000,
      "train_runtime": 4794.2064,
      "train_tokens_per_second": 37549.642
    },
    {
      "epoch": 16.25104340567613,
      "grad_norm": 2.425332546234131,
      "learning_rate": 9.3725219115192e-06,
      "loss": 1.2859,
      "num_input_tokens_seen": 180308088,
      "step": 311500,
      "train_runtime": 4813.4723,
      "train_tokens_per_second": 37459.048
    },
    {
      "epoch": 16.2771285475793,
      "grad_norm": 3.213170289993286,
      "learning_rate": 9.30730905676127e-06,
      "loss": 1.2648,
      "num_input_tokens_seen": 180593256,
      "step": 312000,
      "train_runtime": 4832.7472,
      "train_tokens_per_second": 37368.653
    },
    {
      "epoch": 16.303213689482472,
      "grad_norm": 2.971393346786499,
      "learning_rate": 9.24209620200334e-06,
      "loss": 1.2565,
      "num_input_tokens_seen": 180883912,
      "step": 312500,
      "train_runtime": 4853.0289,
      "train_tokens_per_second": 37272.375
    },
    {
      "epoch": 16.329298831385643,
      "grad_norm": 3.2865586280822754,
      "learning_rate": 9.17688334724541e-06,
      "loss": 1.2695,
      "num_input_tokens_seen": 181172920,
      "step": 313000,
      "train_runtime": 4872.3486,
      "train_tokens_per_second": 37183.899
    },
    {
      "epoch": 16.355383973288816,
      "grad_norm": 2.691861867904663,
      "learning_rate": 9.11167049248748e-06,
      "loss": 1.2742,
      "num_input_tokens_seen": 181457952,
      "step": 313500,
      "train_runtime": 4891.6907,
      "train_tokens_per_second": 37095.14
    },
    {
      "epoch": 16.381469115191987,
      "grad_norm": 3.302048444747925,
      "learning_rate": 9.04645763772955e-06,
      "loss": 1.261,
      "num_input_tokens_seen": 181746184,
      "step": 314000,
      "train_runtime": 4911.0159,
      "train_tokens_per_second": 37007.859
    },
    {
      "epoch": 16.407554257095157,
      "grad_norm": 3.427002191543579,
      "learning_rate": 8.981244782971618e-06,
      "loss": 1.2763,
      "num_input_tokens_seen": 182036728,
      "step": 314500,
      "train_runtime": 4930.339,
      "train_tokens_per_second": 36921.747
    },
    {
      "epoch": 16.43363939899833,
      "grad_norm": 2.194302558898926,
      "learning_rate": 8.91603192821369e-06,
      "loss": 1.2347,
      "num_input_tokens_seen": 182327360,
      "step": 315000,
      "train_runtime": 4949.6263,
      "train_tokens_per_second": 36836.591
    },
    {
      "epoch": 16.4597245409015,
      "grad_norm": 2.6108365058898926,
      "learning_rate": 8.85081907345576e-06,
      "loss": 1.3033,
      "num_input_tokens_seen": 182614776,
      "step": 315500,
      "train_runtime": 4968.861,
      "train_tokens_per_second": 36751.839
    },
    {
      "epoch": 16.485809682804675,
      "grad_norm": 3.398846387863159,
      "learning_rate": 8.78560621869783e-06,
      "loss": 1.231,
      "num_input_tokens_seen": 182898920,
      "step": 316000,
      "train_runtime": 4988.2986,
      "train_tokens_per_second": 36665.592
    },
    {
      "epoch": 16.511894824707845,
      "grad_norm": 3.175825357437134,
      "learning_rate": 8.720393363939901e-06,
      "loss": 1.2653,
      "num_input_tokens_seen": 183194016,
      "step": 316500,
      "train_runtime": 5007.4717,
      "train_tokens_per_second": 36584.134
    },
    {
      "epoch": 16.53797996661102,
      "grad_norm": 3.3755290508270264,
      "learning_rate": 8.65518050918197e-06,
      "loss": 1.2382,
      "num_input_tokens_seen": 183486192,
      "step": 317000,
      "train_runtime": 5026.7596,
      "train_tokens_per_second": 36501.883
    },
    {
      "epoch": 16.56406510851419,
      "grad_norm": 3.120741128921509,
      "learning_rate": 8.58996765442404e-06,
      "loss": 1.2661,
      "num_input_tokens_seen": 183774000,
      "step": 317500,
      "train_runtime": 5045.8839,
      "train_tokens_per_second": 36420.577
    },
    {
      "epoch": 16.590150250417363,
      "grad_norm": 4.2182440757751465,
      "learning_rate": 8.524754799666112e-06,
      "loss": 1.254,
      "num_input_tokens_seen": 184064816,
      "step": 318000,
      "train_runtime": 5065.2521,
      "train_tokens_per_second": 36338.727
    },
    {
      "epoch": 16.616235392320533,
      "grad_norm": 3.3010435104370117,
      "learning_rate": 8.459541944908182e-06,
      "loss": 1.2621,
      "num_input_tokens_seen": 184350480,
      "step": 318500,
      "train_runtime": 5084.6874,
      "train_tokens_per_second": 36256.011
    },
    {
      "epoch": 16.642320534223707,
      "grad_norm": 3.2120778560638428,
      "learning_rate": 8.39432909015025e-06,
      "loss": 1.2563,
      "num_input_tokens_seen": 184642440,
      "step": 319000,
      "train_runtime": 5103.9372,
      "train_tokens_per_second": 36176.472
    },
    {
      "epoch": 16.668405676126877,
      "grad_norm": 2.9939897060394287,
      "learning_rate": 8.329116235392321e-06,
      "loss": 1.2594,
      "num_input_tokens_seen": 184928112,
      "step": 319500,
      "train_runtime": 5123.0191,
      "train_tokens_per_second": 36097.486
    },
    {
      "epoch": 16.69449081803005,
      "grad_norm": 3.710550308227539,
      "learning_rate": 8.263903380634391e-06,
      "loss": 1.2634,
      "num_input_tokens_seen": 185211440,
      "step": 320000,
      "train_runtime": 5142.5889,
      "train_tokens_per_second": 36015.214
    },
    {
      "epoch": 16.72057595993322,
      "grad_norm": 2.5137531757354736,
      "learning_rate": 8.19869052587646e-06,
      "loss": 1.2601,
      "num_input_tokens_seen": 185506864,
      "step": 320500,
      "train_runtime": 5162.7072,
      "train_tokens_per_second": 35932.091
    },
    {
      "epoch": 16.746661101836395,
      "grad_norm": 4.654266834259033,
      "learning_rate": 8.13347767111853e-06,
      "loss": 1.282,
      "num_input_tokens_seen": 185792944,
      "step": 321000,
      "train_runtime": 5181.946,
      "train_tokens_per_second": 35853.894
    },
    {
      "epoch": 16.772746243739565,
      "grad_norm": 2.9473636150360107,
      "learning_rate": 8.068264816360602e-06,
      "loss": 1.2839,
      "num_input_tokens_seen": 186086024,
      "step": 321500,
      "train_runtime": 5201.2933,
      "train_tokens_per_second": 35776.876
    },
    {
      "epoch": 16.79883138564274,
      "grad_norm": 2.2345118522644043,
      "learning_rate": 8.003051961602672e-06,
      "loss": 1.249,
      "num_input_tokens_seen": 186378104,
      "step": 322000,
      "train_runtime": 5221.502,
      "train_tokens_per_second": 35694.347
    },
    {
      "epoch": 16.82491652754591,
      "grad_norm": 2.1228227615356445,
      "learning_rate": 7.937839106844742e-06,
      "loss": 1.2856,
      "num_input_tokens_seen": 186672776,
      "step": 322500,
      "train_runtime": 5242.0802,
      "train_tokens_per_second": 35610.438
    },
    {
      "epoch": 16.851001669449083,
      "grad_norm": 3.548326253890991,
      "learning_rate": 7.872626252086811e-06,
      "loss": 1.2777,
      "num_input_tokens_seen": 186964952,
      "step": 323000,
      "train_runtime": 5262.7553,
      "train_tokens_per_second": 35526.058
    },
    {
      "epoch": 16.877086811352253,
      "grad_norm": 3.222048044204712,
      "learning_rate": 7.807413397328881e-06,
      "loss": 1.288,
      "num_input_tokens_seen": 187250864,
      "step": 323500,
      "train_runtime": 5283.1207,
      "train_tokens_per_second": 35443.23
    },
    {
      "epoch": 16.903171953255427,
      "grad_norm": 3.267969846725464,
      "learning_rate": 7.74220054257095e-06,
      "loss": 1.2746,
      "num_input_tokens_seen": 187543856,
      "step": 324000,
      "train_runtime": 5303.6214,
      "train_tokens_per_second": 35361.471
    },
    {
      "epoch": 16.929257095158597,
      "grad_norm": 2.1591436862945557,
      "learning_rate": 7.676987687813022e-06,
      "loss": 1.2524,
      "num_input_tokens_seen": 187833368,
      "step": 324500,
      "train_runtime": 5324.0933,
      "train_tokens_per_second": 35279.879
    },
    {
      "epoch": 16.95534223706177,
      "grad_norm": 5.07979154586792,
      "learning_rate": 7.611774833055092e-06,
      "loss": 1.2888,
      "num_input_tokens_seen": 188120672,
      "step": 325000,
      "train_runtime": 5344.7171,
      "train_tokens_per_second": 35197.499
    },
    {
      "epoch": 16.98142737896494,
      "grad_norm": 3.134291410446167,
      "learning_rate": 7.546561978297162e-06,
      "loss": 1.2575,
      "num_input_tokens_seen": 188407336,
      "step": 325500,
      "train_runtime": 5365.0524,
      "train_tokens_per_second": 35117.52
    },
    {
      "epoch": 17.0,
      "eval_loss": 1.2976926565170288,
      "eval_runtime": 49.7121,
      "eval_samples_per_second": 771.141,
      "eval_steps_per_second": 96.395,
      "num_input_tokens_seen": 188612114,
      "step": 325856
    },
    {
      "epoch": 17.007512520868115,
      "grad_norm": 2.3629326820373535,
      "learning_rate": 7.481349123539233e-06,
      "loss": 1.2388,
      "num_input_tokens_seen": 188700266,
      "step": 326000,
      "train_runtime": 5436.6369,
      "train_tokens_per_second": 34709.007
    },
    {
      "epoch": 17.033597662771285,
      "grad_norm": 2.8408102989196777,
      "learning_rate": 7.416136268781303e-06,
      "loss": 1.2502,
      "num_input_tokens_seen": 188990786,
      "step": 326500,
      "train_runtime": 5458.7072,
      "train_tokens_per_second": 34621.894
    },
    {
      "epoch": 17.05968280467446,
      "grad_norm": 3.5564496517181396,
      "learning_rate": 7.350923414023372e-06,
      "loss": 1.2586,
      "num_input_tokens_seen": 189289114,
      "step": 327000,
      "train_runtime": 5481.0865,
      "train_tokens_per_second": 34534.962
    },
    {
      "epoch": 17.08576794657763,
      "grad_norm": 2.573309898376465,
      "learning_rate": 7.2857105592654434e-06,
      "loss": 1.255,
      "num_input_tokens_seen": 189582338,
      "step": 327500,
      "train_runtime": 5502.6097,
      "train_tokens_per_second": 34453.168
    },
    {
      "epoch": 17.1118530884808,
      "grad_norm": 2.900810718536377,
      "learning_rate": 7.220497704507513e-06,
      "loss": 1.2625,
      "num_input_tokens_seen": 189873506,
      "step": 328000,
      "train_runtime": 5523.9124,
      "train_tokens_per_second": 34373.012
    },
    {
      "epoch": 17.137938230383973,
      "grad_norm": 2.80328106880188,
      "learning_rate": 7.155284849749583e-06,
      "loss": 1.2621,
      "num_input_tokens_seen": 190163986,
      "step": 328500,
      "train_runtime": 5545.2522,
      "train_tokens_per_second": 34293.117
    },
    {
      "epoch": 17.164023372287144,
      "grad_norm": 2.8359973430633545,
      "learning_rate": 7.090071994991653e-06,
      "loss": 1.2276,
      "num_input_tokens_seen": 190454602,
      "step": 329000,
      "train_runtime": 5566.6958,
      "train_tokens_per_second": 34213.223
    },
    {
      "epoch": 17.190108514190317,
      "grad_norm": 2.6880123615264893,
      "learning_rate": 7.024859140233723e-06,
      "loss": 1.2414,
      "num_input_tokens_seen": 190749178,
      "step": 329500,
      "train_runtime": 5587.661,
      "train_tokens_per_second": 34137.572
    },
    {
      "epoch": 17.216193656093488,
      "grad_norm": 2.2190914154052734,
      "learning_rate": 6.959646285475793e-06,
      "loss": 1.2697,
      "num_input_tokens_seen": 191041514,
      "step": 330000,
      "train_runtime": 5608.8953,
      "train_tokens_per_second": 34060.453
    },
    {
      "epoch": 17.24227879799666,
      "grad_norm": 2.855161428451538,
      "learning_rate": 6.894433430717863e-06,
      "loss": 1.2656,
      "num_input_tokens_seen": 191333666,
      "step": 330500,
      "train_runtime": 5629.9424,
      "train_tokens_per_second": 33985.013
    },
    {
      "epoch": 17.26836393989983,
      "grad_norm": 2.8625779151916504,
      "learning_rate": 6.829220575959934e-06,
      "loss": 1.2595,
      "num_input_tokens_seen": 191622570,
      "step": 331000,
      "train_runtime": 5650.9098,
      "train_tokens_per_second": 33910.039
    },
    {
      "epoch": 17.294449081803005,
      "grad_norm": 2.630918502807617,
      "learning_rate": 6.764007721202003e-06,
      "loss": 1.2521,
      "num_input_tokens_seen": 191911738,
      "step": 331500,
      "train_runtime": 5671.7949,
      "train_tokens_per_second": 33836.156
    },
    {
      "epoch": 17.320534223706176,
      "grad_norm": 2.7609314918518066,
      "learning_rate": 6.698794866444073e-06,
      "loss": 1.2586,
      "num_input_tokens_seen": 192200466,
      "step": 332000,
      "train_runtime": 5692.6673,
      "train_tokens_per_second": 33762.814
    },
    {
      "epoch": 17.34661936560935,
      "grad_norm": 2.250659465789795,
      "learning_rate": 6.6335820116861445e-06,
      "loss": 1.2388,
      "num_input_tokens_seen": 192489178,
      "step": 332500,
      "train_runtime": 5713.6569,
      "train_tokens_per_second": 33689.313
    },
    {
      "epoch": 17.37270450751252,
      "grad_norm": 3.1896932125091553,
      "learning_rate": 6.568369156928214e-06,
      "loss": 1.2559,
      "num_input_tokens_seen": 192778922,
      "step": 333000,
      "train_runtime": 5734.7257,
      "train_tokens_per_second": 33616.067
    },
    {
      "epoch": 17.398789649415694,
      "grad_norm": 3.3856568336486816,
      "learning_rate": 6.503156302170284e-06,
      "loss": 1.267,
      "num_input_tokens_seen": 193066674,
      "step": 333500,
      "train_runtime": 5755.6678,
      "train_tokens_per_second": 33543.748
    },
    {
      "epoch": 17.424874791318864,
      "grad_norm": 2.031611919403076,
      "learning_rate": 6.437943447412355e-06,
      "loss": 1.2624,
      "num_input_tokens_seen": 193346250,
      "step": 334000,
      "train_runtime": 5776.7111,
      "train_tokens_per_second": 33469.953
    },
    {
      "epoch": 17.450959933222038,
      "grad_norm": 6.999661922454834,
      "learning_rate": 6.3727305926544244e-06,
      "loss": 1.25,
      "num_input_tokens_seen": 193636658,
      "step": 334500,
      "train_runtime": 5797.5543,
      "train_tokens_per_second": 33399.715
    },
    {
      "epoch": 17.477045075125208,
      "grad_norm": 3.335151433944702,
      "learning_rate": 6.307517737896494e-06,
      "loss": 1.2646,
      "num_input_tokens_seen": 193927418,
      "step": 335000,
      "train_runtime": 5818.5663,
      "train_tokens_per_second": 33329.072
    },
    {
      "epoch": 17.50313021702838,
      "grad_norm": 3.0118470191955566,
      "learning_rate": 6.242304883138565e-06,
      "loss": 1.2595,
      "num_input_tokens_seen": 194220626,
      "step": 335500,
      "train_runtime": 5839.6078,
      "train_tokens_per_second": 33259.19
    },
    {
      "epoch": 17.529215358931552,
      "grad_norm": 2.819512128829956,
      "learning_rate": 6.177092028380635e-06,
      "loss": 1.2604,
      "num_input_tokens_seen": 194507882,
      "step": 336000,
      "train_runtime": 5860.9533,
      "train_tokens_per_second": 33187.072
    },
    {
      "epoch": 17.555300500834726,
      "grad_norm": 2.87508225440979,
      "learning_rate": 6.111879173622704e-06,
      "loss": 1.2855,
      "num_input_tokens_seen": 194796762,
      "step": 336500,
      "train_runtime": 5882.4096,
      "train_tokens_per_second": 33115.13
    },
    {
      "epoch": 17.581385642737896,
      "grad_norm": 2.2459728717803955,
      "learning_rate": 6.046666318864775e-06,
      "loss": 1.2522,
      "num_input_tokens_seen": 195084282,
      "step": 337000,
      "train_runtime": 5904.0114,
      "train_tokens_per_second": 33042.667
    },
    {
      "epoch": 17.60747078464107,
      "grad_norm": 2.935845375061035,
      "learning_rate": 5.981453464106846e-06,
      "loss": 1.2545,
      "num_input_tokens_seen": 195375162,
      "step": 337500,
      "train_runtime": 5925.5481,
      "train_tokens_per_second": 32971.661
    },
    {
      "epoch": 17.63355592654424,
      "grad_norm": 3.0520784854888916,
      "learning_rate": 5.916240609348915e-06,
      "loss": 1.2587,
      "num_input_tokens_seen": 195666498,
      "step": 338000,
      "train_runtime": 5946.9563,
      "train_tokens_per_second": 32901.957
    },
    {
      "epoch": 17.659641068447414,
      "grad_norm": 1.9762933254241943,
      "learning_rate": 5.851027754590985e-06,
      "loss": 1.2714,
      "num_input_tokens_seen": 195952418,
      "step": 338500,
      "train_runtime": 5968.684,
      "train_tokens_per_second": 32830.087
    },
    {
      "epoch": 17.685726210350584,
      "grad_norm": 3.0459036827087402,
      "learning_rate": 5.785814899833055e-06,
      "loss": 1.2819,
      "num_input_tokens_seen": 196243738,
      "step": 339000,
      "train_runtime": 5990.4534,
      "train_tokens_per_second": 32759.413
    },
    {
      "epoch": 17.711811352253758,
      "grad_norm": 2.7781834602355957,
      "learning_rate": 5.7206020450751255e-06,
      "loss": 1.253,
      "num_input_tokens_seen": 196532034,
      "step": 339500,
      "train_runtime": 6011.9799,
      "train_tokens_per_second": 32690.068
    },
    {
      "epoch": 17.737896494156928,
      "grad_norm": 3.383931875228882,
      "learning_rate": 5.655389190317196e-06,
      "loss": 1.2521,
      "num_input_tokens_seen": 196822202,
      "step": 340000,
      "train_runtime": 6033.5216,
      "train_tokens_per_second": 32621.446
    },
    {
      "epoch": 17.7639816360601,
      "grad_norm": 2.72835373878479,
      "learning_rate": 5.590176335559266e-06,
      "loss": 1.2494,
      "num_input_tokens_seen": 197110802,
      "step": 340500,
      "train_runtime": 6054.9604,
      "train_tokens_per_second": 32553.607
    },
    {
      "epoch": 17.790066777963272,
      "grad_norm": 2.868680000305176,
      "learning_rate": 5.524963480801336e-06,
      "loss": 1.2436,
      "num_input_tokens_seen": 197396914,
      "step": 341000,
      "train_runtime": 6076.2211,
      "train_tokens_per_second": 32486.789
    },
    {
      "epoch": 17.816151919866446,
      "grad_norm": 2.985006809234619,
      "learning_rate": 5.459750626043405e-06,
      "loss": 1.269,
      "num_input_tokens_seen": 197687178,
      "step": 341500,
      "train_runtime": 6097.2778,
      "train_tokens_per_second": 32422.203
    },
    {
      "epoch": 17.842237061769616,
      "grad_norm": 2.457155704498291,
      "learning_rate": 5.394537771285476e-06,
      "loss": 1.2725,
      "num_input_tokens_seen": 197978106,
      "step": 342000,
      "train_runtime": 6118.3065,
      "train_tokens_per_second": 32358.318
    },
    {
      "epoch": 17.86832220367279,
      "grad_norm": 2.6323978900909424,
      "learning_rate": 5.329324916527547e-06,
      "loss": 1.2691,
      "num_input_tokens_seen": 198267826,
      "step": 342500,
      "train_runtime": 6138.9907,
      "train_tokens_per_second": 32296.486
    },
    {
      "epoch": 17.89440734557596,
      "grad_norm": 2.9683570861816406,
      "learning_rate": 5.264112061769616e-06,
      "loss": 1.2606,
      "num_input_tokens_seen": 198555794,
      "step": 343000,
      "train_runtime": 6159.8347,
      "train_tokens_per_second": 32233.948
    },
    {
      "epoch": 17.92049248747913,
      "grad_norm": 2.6426734924316406,
      "learning_rate": 5.198899207011686e-06,
      "loss": 1.2572,
      "num_input_tokens_seen": 198837802,
      "step": 343500,
      "train_runtime": 6180.7096,
      "train_tokens_per_second": 32170.708
    },
    {
      "epoch": 17.946577629382304,
      "grad_norm": 2.743959426879883,
      "learning_rate": 5.133686352253757e-06,
      "loss": 1.2584,
      "num_input_tokens_seen": 199125674,
      "step": 344000,
      "train_runtime": 6201.5223,
      "train_tokens_per_second": 32109.16
    },
    {
      "epoch": 17.972662771285474,
      "grad_norm": 2.5115082263946533,
      "learning_rate": 5.0684734974958266e-06,
      "loss": 1.2496,
      "num_input_tokens_seen": 199418034,
      "step": 344500,
      "train_runtime": 6222.8136,
      "train_tokens_per_second": 32046.281
    },
    {
      "epoch": 17.998747913188648,
      "grad_norm": 2.3742177486419678,
      "learning_rate": 5.003260642737897e-06,
      "loss": 1.2601,
      "num_input_tokens_seen": 199702842,
      "step": 345000,
      "train_runtime": 6244.2476,
      "train_tokens_per_second": 31981.89
    },
    {
      "epoch": 18.0,
      "eval_loss": 1.296248197555542,
      "eval_runtime": 50.1469,
      "eval_samples_per_second": 764.454,
      "eval_steps_per_second": 95.559,
      "num_input_tokens_seen": 199715854,
      "step": 345024
    },
    {
      "epoch": 18.02483305509182,
      "grad_norm": 2.2281575202941895,
      "learning_rate": 4.938047787979966e-06,
      "loss": 1.2228,
      "num_input_tokens_seen": 199990102,
      "step": 345500,
      "train_runtime": 6316.4242,
      "train_tokens_per_second": 31661.917
    },
    {
      "epoch": 18.050918196994992,
      "grad_norm": 2.840803384780884,
      "learning_rate": 4.872834933222037e-06,
      "loss": 1.2581,
      "num_input_tokens_seen": 200279302,
      "step": 346000,
      "train_runtime": 6337.2304,
      "train_tokens_per_second": 31603.601
    },
    {
      "epoch": 18.077003338898162,
      "grad_norm": 2.4082562923431396,
      "learning_rate": 4.807622078464107e-06,
      "loss": 1.2566,
      "num_input_tokens_seen": 200566038,
      "step": 346500,
      "train_runtime": 6358.142,
      "train_tokens_per_second": 31544.756
    },
    {
      "epoch": 18.103088480801336,
      "grad_norm": 3.136262893676758,
      "learning_rate": 4.742409223706177e-06,
      "loss": 1.2631,
      "num_input_tokens_seen": 200854406,
      "step": 347000,
      "train_runtime": 6379.2543,
      "train_tokens_per_second": 31485.562
    },
    {
      "epoch": 18.129173622704506,
      "grad_norm": 2.251553535461426,
      "learning_rate": 4.677196368948248e-06,
      "loss": 1.2434,
      "num_input_tokens_seen": 201141734,
      "step": 347500,
      "train_runtime": 6400.5038,
      "train_tokens_per_second": 31425.922
    },
    {
      "epoch": 18.15525876460768,
      "grad_norm": 2.587162971496582,
      "learning_rate": 4.6119835141903175e-06,
      "loss": 1.2481,
      "num_input_tokens_seen": 201429926,
      "step": 348000,
      "train_runtime": 6421.5455,
      "train_tokens_per_second": 31367.827
    },
    {
      "epoch": 18.18134390651085,
      "grad_norm": 2.8229830265045166,
      "learning_rate": 4.546770659432387e-06,
      "loss": 1.2536,
      "num_input_tokens_seen": 201720902,
      "step": 348500,
      "train_runtime": 6442.673,
      "train_tokens_per_second": 31310.126
    },
    {
      "epoch": 18.207429048414024,
      "grad_norm": 2.943593740463257,
      "learning_rate": 4.481557804674458e-06,
      "loss": 1.2687,
      "num_input_tokens_seen": 202015494,
      "step": 349000,
      "train_runtime": 6463.8115,
      "train_tokens_per_second": 31253.308
    },
    {
      "epoch": 18.233514190317194,
      "grad_norm": 2.8468620777130127,
      "learning_rate": 4.416344949916528e-06,
      "loss": 1.2475,
      "num_input_tokens_seen": 202301734,
      "step": 349500,
      "train_runtime": 6484.7729,
      "train_tokens_per_second": 31196.426
    },
    {
      "epoch": 18.25959933222037,
      "grad_norm": 2.5584495067596436,
      "learning_rate": 4.351132095158597e-06,
      "loss": 1.2464,
      "num_input_tokens_seen": 202582798,
      "step": 350000,
      "train_runtime": 6505.8233,
      "train_tokens_per_second": 31138.688
    },
    {
      "epoch": 18.28568447412354,
      "grad_norm": 3.42409348487854,
      "learning_rate": 4.285919240400668e-06,
      "loss": 1.2696,
      "num_input_tokens_seen": 202872662,
      "step": 350500,
      "train_runtime": 6526.8475,
      "train_tokens_per_second": 31082.795
    },
    {
      "epoch": 18.311769616026712,
      "grad_norm": 2.7311031818389893,
      "learning_rate": 4.220706385642738e-06,
      "loss": 1.249,
      "num_input_tokens_seen": 203159246,
      "step": 351000,
      "train_runtime": 6547.7257,
      "train_tokens_per_second": 31027.452
    },
    {
      "epoch": 18.337854757929883,
      "grad_norm": 3.2200024127960205,
      "learning_rate": 4.155493530884808e-06,
      "loss": 1.2766,
      "num_input_tokens_seen": 203449598,
      "step": 351500,
      "train_runtime": 6568.6802,
      "train_tokens_per_second": 30972.675
    },
    {
      "epoch": 18.363939899833056,
      "grad_norm": 3.4853382110595703,
      "learning_rate": 4.090280676126879e-06,
      "loss": 1.2478,
      "num_input_tokens_seen": 203737350,
      "step": 352000,
      "train_runtime": 6589.7847,
      "train_tokens_per_second": 30917.148
    },
    {
      "epoch": 18.390025041736227,
      "grad_norm": 2.6248600482940674,
      "learning_rate": 4.025067821368948e-06,
      "loss": 1.2461,
      "num_input_tokens_seen": 204033470,
      "step": 352500,
      "train_runtime": 6610.8585,
      "train_tokens_per_second": 30863.385
    },
    {
      "epoch": 18.4161101836394,
      "grad_norm": 3.1528148651123047,
      "learning_rate": 3.9598549666110185e-06,
      "loss": 1.2487,
      "num_input_tokens_seen": 204320822,
      "step": 353000,
      "train_runtime": 6632.008,
      "train_tokens_per_second": 30808.289
    },
    {
      "epoch": 18.44219532554257,
      "grad_norm": 2.4708855152130127,
      "learning_rate": 3.894642111853088e-06,
      "loss": 1.2493,
      "num_input_tokens_seen": 204615126,
      "step": 353500,
      "train_runtime": 6653.2853,
      "train_tokens_per_second": 30753.998
    },
    {
      "epoch": 18.468280467445744,
      "grad_norm": 2.8539340496063232,
      "learning_rate": 3.829429257095159e-06,
      "loss": 1.2469,
      "num_input_tokens_seen": 204908238,
      "step": 354000,
      "train_runtime": 6674.3465,
      "train_tokens_per_second": 30700.869
    },
    {
      "epoch": 18.494365609348915,
      "grad_norm": 3.047869920730591,
      "learning_rate": 3.764216402337229e-06,
      "loss": 1.2571,
      "num_input_tokens_seen": 205200078,
      "step": 354500,
      "train_runtime": 6695.2164,
      "train_tokens_per_second": 30648.759
    },
    {
      "epoch": 18.52045075125209,
      "grad_norm": 3.70831298828125,
      "learning_rate": 3.699003547579299e-06,
      "loss": 1.2544,
      "num_input_tokens_seen": 205493198,
      "step": 355000,
      "train_runtime": 6716.2607,
      "train_tokens_per_second": 30596.37
    },
    {
      "epoch": 18.54653589315526,
      "grad_norm": 2.9419515132904053,
      "learning_rate": 3.633790692821369e-06,
      "loss": 1.2406,
      "num_input_tokens_seen": 205782654,
      "step": 355500,
      "train_runtime": 6737.4279,
      "train_tokens_per_second": 30543.207
    },
    {
      "epoch": 18.572621035058432,
      "grad_norm": 3.3979151248931885,
      "learning_rate": 3.5685778380634397e-06,
      "loss": 1.2387,
      "num_input_tokens_seen": 206078310,
      "step": 356000,
      "train_runtime": 6758.4267,
      "train_tokens_per_second": 30492.054
    },
    {
      "epoch": 18.598706176961603,
      "grad_norm": 2.5537753105163574,
      "learning_rate": 3.503364983305509e-06,
      "loss": 1.2454,
      "num_input_tokens_seen": 206364678,
      "step": 356500,
      "train_runtime": 6779.3225,
      "train_tokens_per_second": 30440.31
    },
    {
      "epoch": 18.624791318864773,
      "grad_norm": 3.0519020557403564,
      "learning_rate": 3.4381521285475796e-06,
      "loss": 1.2617,
      "num_input_tokens_seen": 206651694,
      "step": 357000,
      "train_runtime": 6800.2161,
      "train_tokens_per_second": 30388.989
    },
    {
      "epoch": 18.650876460767947,
      "grad_norm": 2.832632541656494,
      "learning_rate": 3.3729392737896494e-06,
      "loss": 1.2594,
      "num_input_tokens_seen": 206935862,
      "step": 357500,
      "train_runtime": 6821.3364,
      "train_tokens_per_second": 30336.557
    },
    {
      "epoch": 18.676961602671117,
      "grad_norm": 3.5510575771331787,
      "learning_rate": 3.3077264190317196e-06,
      "loss": 1.2576,
      "num_input_tokens_seen": 207225006,
      "step": 358000,
      "train_runtime": 6842.5612,
      "train_tokens_per_second": 30284.713
    },
    {
      "epoch": 18.70304674457429,
      "grad_norm": 2.7018370628356934,
      "learning_rate": 3.24251356427379e-06,
      "loss": 1.2524,
      "num_input_tokens_seen": 207518494,
      "step": 358500,
      "train_runtime": 6863.6965,
      "train_tokens_per_second": 30234.218
    },
    {
      "epoch": 18.72913188647746,
      "grad_norm": 2.3896238803863525,
      "learning_rate": 3.1773007095158596e-06,
      "loss": 1.2787,
      "num_input_tokens_seen": 207806854,
      "step": 359000,
      "train_runtime": 6884.7293,
      "train_tokens_per_second": 30183.736
    },
    {
      "epoch": 18.755217028380635,
      "grad_norm": 2.3457329273223877,
      "learning_rate": 3.11208785475793e-06,
      "loss": 1.2612,
      "num_input_tokens_seen": 208104358,
      "step": 359500,
      "train_runtime": 6906.0499,
      "train_tokens_per_second": 30133.631
    },
    {
      "epoch": 18.781302170283805,
      "grad_norm": 3.7799017429351807,
      "learning_rate": 3.046875e-06,
      "loss": 1.2278,
      "num_input_tokens_seen": 208395230,
      "step": 360000,
      "train_runtime": 6927.2417,
      "train_tokens_per_second": 30083.436
    },
    {
      "epoch": 18.80738731218698,
      "grad_norm": 2.9162731170654297,
      "learning_rate": 2.98166214524207e-06,
      "loss": 1.2495,
      "num_input_tokens_seen": 208684190,
      "step": 360500,
      "train_runtime": 6948.3051,
      "train_tokens_per_second": 30033.826
    },
    {
      "epoch": 18.83347245409015,
      "grad_norm": 3.2956576347351074,
      "learning_rate": 2.9164492904841403e-06,
      "loss": 1.2556,
      "num_input_tokens_seen": 208972206,
      "step": 361000,
      "train_runtime": 6969.2518,
      "train_tokens_per_second": 29984.884
    },
    {
      "epoch": 18.859557595993323,
      "grad_norm": 2.974874496459961,
      "learning_rate": 2.8512364357262105e-06,
      "loss": 1.2433,
      "num_input_tokens_seen": 209260382,
      "step": 361500,
      "train_runtime": 6990.1944,
      "train_tokens_per_second": 29936.275
    },
    {
      "epoch": 18.885642737896493,
      "grad_norm": 2.385434150695801,
      "learning_rate": 2.7860235809682807e-06,
      "loss": 1.2529,
      "num_input_tokens_seen": 209544430,
      "step": 362000,
      "train_runtime": 7011.1006,
      "train_tokens_per_second": 29887.523
    },
    {
      "epoch": 18.911727879799667,
      "grad_norm": 2.289966344833374,
      "learning_rate": 2.7208107262103505e-06,
      "loss": 1.262,
      "num_input_tokens_seen": 209834774,
      "step": 362500,
      "train_runtime": 7032.3451,
      "train_tokens_per_second": 29838.521
    },
    {
      "epoch": 18.937813021702837,
      "grad_norm": 2.8906939029693604,
      "learning_rate": 2.655597871452421e-06,
      "loss": 1.2716,
      "num_input_tokens_seen": 210123054,
      "step": 363000,
      "train_runtime": 7053.702,
      "train_tokens_per_second": 29789.046
    },
    {
      "epoch": 18.96389816360601,
      "grad_norm": 3.4153401851654053,
      "learning_rate": 2.590385016694491e-06,
      "loss": 1.2774,
      "num_input_tokens_seen": 210412382,
      "step": 363500,
      "train_runtime": 7075.1001,
      "train_tokens_per_second": 29739.845
    },
    {
      "epoch": 18.98998330550918,
      "grad_norm": 3.0862789154052734,
      "learning_rate": 2.525172161936561e-06,
      "loss": 1.2665,
      "num_input_tokens_seen": 210705166,
      "step": 364000,
      "train_runtime": 7096.4466,
      "train_tokens_per_second": 29691.644
    },
    {
      "epoch": 19.0,
      "eval_loss": 1.296281337738037,
      "eval_runtime": 51.4225,
      "eval_samples_per_second": 745.49,
      "eval_steps_per_second": 93.189,
      "num_input_tokens_seen": 210813428,
      "step": 364192
    },
    {
      "epoch": 19.016068447412355,
      "grad_norm": 2.282921314239502,
      "learning_rate": 2.459959307178631e-06,
      "loss": 1.2246,
      "num_input_tokens_seen": 210992604,
      "step": 364500,
      "train_runtime": 7170.5972,
      "train_tokens_per_second": 29424.69
    },
    {
      "epoch": 19.042153589315525,
      "grad_norm": 2.1377789974212646,
      "learning_rate": 2.3947464524207014e-06,
      "loss": 1.2377,
      "num_input_tokens_seen": 211280204,
      "step": 365000,
      "train_runtime": 7192.2041,
      "train_tokens_per_second": 29376.28
    },
    {
      "epoch": 19.0682387312187,
      "grad_norm": 3.454662799835205,
      "learning_rate": 2.3295335976627716e-06,
      "loss": 1.2658,
      "num_input_tokens_seen": 211569500,
      "step": 365500,
      "train_runtime": 7213.663,
      "train_tokens_per_second": 29328.997
    },
    {
      "epoch": 19.09432387312187,
      "grad_norm": 2.45365309715271,
      "learning_rate": 2.2643207429048414e-06,
      "loss": 1.2296,
      "num_input_tokens_seen": 211851156,
      "step": 366000,
      "train_runtime": 7235.0182,
      "train_tokens_per_second": 29281.358
    },
    {
      "epoch": 19.120409015025043,
      "grad_norm": 2.841344118118286,
      "learning_rate": 2.1991078881469116e-06,
      "loss": 1.2817,
      "num_input_tokens_seen": 212137660,
      "step": 366500,
      "train_runtime": 7256.1778,
      "train_tokens_per_second": 29235.455
    },
    {
      "epoch": 19.146494156928213,
      "grad_norm": 2.386323928833008,
      "learning_rate": 2.1338950333889818e-06,
      "loss": 1.2336,
      "num_input_tokens_seen": 212425948,
      "step": 367000,
      "train_runtime": 7277.2221,
      "train_tokens_per_second": 29190.527
    },
    {
      "epoch": 19.172579298831387,
      "grad_norm": 3.1663670539855957,
      "learning_rate": 2.068682178631052e-06,
      "loss": 1.2755,
      "num_input_tokens_seen": 212713028,
      "step": 367500,
      "train_runtime": 7298.2567,
      "train_tokens_per_second": 29145.731
    },
    {
      "epoch": 19.198664440734557,
      "grad_norm": 2.1720612049102783,
      "learning_rate": 2.0034693238731217e-06,
      "loss": 1.2636,
      "num_input_tokens_seen": 213002716,
      "step": 368000,
      "train_runtime": 7318.2656,
      "train_tokens_per_second": 29105.628
    },
    {
      "epoch": 19.22474958263773,
      "grad_norm": 2.9212682247161865,
      "learning_rate": 1.938256469115192e-06,
      "loss": 1.2423,
      "num_input_tokens_seen": 213288196,
      "step": 368500,
      "train_runtime": 7337.9518,
      "train_tokens_per_second": 29066.448
    },
    {
      "epoch": 19.2508347245409,
      "grad_norm": 2.7475364208221436,
      "learning_rate": 1.8730436143572623e-06,
      "loss": 1.2443,
      "num_input_tokens_seen": 213574692,
      "step": 369000,
      "train_runtime": 7356.9693,
      "train_tokens_per_second": 29030.255
    },
    {
      "epoch": 19.276919866444075,
      "grad_norm": 2.422600030899048,
      "learning_rate": 1.8078307595993323e-06,
      "loss": 1.2201,
      "num_input_tokens_seen": 213864116,
      "step": 369500,
      "train_runtime": 7375.605,
      "train_tokens_per_second": 28996.146
    },
    {
      "epoch": 19.303005008347245,
      "grad_norm": 2.7195160388946533,
      "learning_rate": 1.7426179048414023e-06,
      "loss": 1.2481,
      "num_input_tokens_seen": 214150676,
      "step": 370000,
      "train_runtime": 7396.4144,
      "train_tokens_per_second": 28953.31
    },
    {
      "epoch": 19.32909015025042,
      "grad_norm": 2.50443172454834,
      "learning_rate": 1.6774050500834725e-06,
      "loss": 1.2302,
      "num_input_tokens_seen": 214440244,
      "step": 370500,
      "train_runtime": 7416.7831,
      "train_tokens_per_second": 28912.837
    },
    {
      "epoch": 19.35517529215359,
      "grad_norm": 2.887474775314331,
      "learning_rate": 1.6121921953255427e-06,
      "loss": 1.2449,
      "num_input_tokens_seen": 214730132,
      "step": 371000,
      "train_runtime": 7437.2553,
      "train_tokens_per_second": 28872.228
    },
    {
      "epoch": 19.38126043405676,
      "grad_norm": 2.5884950160980225,
      "learning_rate": 1.5469793405676129e-06,
      "loss": 1.2521,
      "num_input_tokens_seen": 215019220,
      "step": 371500,
      "train_runtime": 7457.6502,
      "train_tokens_per_second": 28832.033
    },
    {
      "epoch": 19.407345575959933,
      "grad_norm": 2.357685089111328,
      "learning_rate": 1.4817664858096828e-06,
      "loss": 1.2443,
      "num_input_tokens_seen": 215310132,
      "step": 372000,
      "train_runtime": 7478.2575,
      "train_tokens_per_second": 28791.484
    },
    {
      "epoch": 19.433430717863104,
      "grad_norm": 2.3335018157958984,
      "learning_rate": 1.416553631051753e-06,
      "loss": 1.2469,
      "num_input_tokens_seen": 215600084,
      "step": 372500,
      "train_runtime": 7498.6623,
      "train_tokens_per_second": 28751.806
    },
    {
      "epoch": 19.459515859766277,
      "grad_norm": 2.7641124725341797,
      "learning_rate": 1.351340776293823e-06,
      "loss": 1.228,
      "num_input_tokens_seen": 215888340,
      "step": 373000,
      "train_runtime": 7519.0798,
      "train_tokens_per_second": 28712.069
    },
    {
      "epoch": 19.485601001669448,
      "grad_norm": 2.7597529888153076,
      "learning_rate": 1.2861279215358932e-06,
      "loss": 1.2499,
      "num_input_tokens_seen": 216178932,
      "step": 373500,
      "train_runtime": 7539.4463,
      "train_tokens_per_second": 28673.051
    },
    {
      "epoch": 19.51168614357262,
      "grad_norm": 2.3733975887298584,
      "learning_rate": 1.2209150667779632e-06,
      "loss": 1.2484,
      "num_input_tokens_seen": 216470580,
      "step": 374000,
      "train_runtime": 7559.9641,
      "train_tokens_per_second": 28633.811
    },
    {
      "epoch": 19.53777128547579,
      "grad_norm": 2.3238165378570557,
      "learning_rate": 1.1557022120200334e-06,
      "loss": 1.2364,
      "num_input_tokens_seen": 216763740,
      "step": 374500,
      "train_runtime": 7579.7748,
      "train_tokens_per_second": 28597.649
    },
    {
      "epoch": 19.563856427378965,
      "grad_norm": 2.8229446411132812,
      "learning_rate": 1.0904893572621036e-06,
      "loss": 1.2358,
      "num_input_tokens_seen": 217053292,
      "step": 375000,
      "train_runtime": 7598.7817,
      "train_tokens_per_second": 28564.223
    },
    {
      "epoch": 19.589941569282136,
      "grad_norm": 2.4836158752441406,
      "learning_rate": 1.0252765025041738e-06,
      "loss": 1.2606,
      "num_input_tokens_seen": 217344428,
      "step": 375500,
      "train_runtime": 7618.304,
      "train_tokens_per_second": 28529.241
    },
    {
      "epoch": 19.61602671118531,
      "grad_norm": 2.7675931453704834,
      "learning_rate": 9.600636477462437e-07,
      "loss": 1.2629,
      "num_input_tokens_seen": 217634524,
      "step": 376000,
      "train_runtime": 7637.288,
      "train_tokens_per_second": 28496.31
    },
    {
      "epoch": 19.64211185308848,
      "grad_norm": 2.331380844116211,
      "learning_rate": 8.948507929883139e-07,
      "loss": 1.2521,
      "num_input_tokens_seen": 217924508,
      "step": 376500,
      "train_runtime": 7656.4955,
      "train_tokens_per_second": 28462.697
    },
    {
      "epoch": 19.668196994991654,
      "grad_norm": 3.3577489852905273,
      "learning_rate": 8.29637938230384e-07,
      "loss": 1.2571,
      "num_input_tokens_seen": 218217084,
      "step": 377000,
      "train_runtime": 7675.4197,
      "train_tokens_per_second": 28430.639
    },
    {
      "epoch": 19.694282136894824,
      "grad_norm": 2.872344970703125,
      "learning_rate": 7.644250834724542e-07,
      "loss": 1.271,
      "num_input_tokens_seen": 218508180,
      "step": 377500,
      "train_runtime": 7694.4779,
      "train_tokens_per_second": 28398.052
    },
    {
      "epoch": 19.720367278797998,
      "grad_norm": 2.9395909309387207,
      "learning_rate": 6.992122287145243e-07,
      "loss": 1.25,
      "num_input_tokens_seen": 218798076,
      "step": 378000,
      "train_runtime": 7712.7627,
      "train_tokens_per_second": 28368.314
    },
    {
      "epoch": 19.746452420701168,
      "grad_norm": 2.5424513816833496,
      "learning_rate": 6.339993739565944e-07,
      "loss": 1.2817,
      "num_input_tokens_seen": 219089308,
      "step": 378500,
      "train_runtime": 7731.9549,
      "train_tokens_per_second": 28335.565
    },
    {
      "epoch": 19.77253756260434,
      "grad_norm": 2.9725682735443115,
      "learning_rate": 5.687865191986645e-07,
      "loss": 1.2418,
      "num_input_tokens_seen": 219383604,
      "step": 379000,
      "train_runtime": 7751.6984,
      "train_tokens_per_second": 28301.36
    },
    {
      "epoch": 19.798622704507512,
      "grad_norm": 3.3688950538635254,
      "learning_rate": 5.035736644407346e-07,
      "loss": 1.2449,
      "num_input_tokens_seen": 219679124,
      "step": 379500,
      "train_runtime": 7771.8118,
      "train_tokens_per_second": 28266.14
    },
    {
      "epoch": 19.824707846410686,
      "grad_norm": 2.398789882659912,
      "learning_rate": 4.3836080968280473e-07,
      "loss": 1.2362,
      "num_input_tokens_seen": 219963660,
      "step": 380000,
      "train_runtime": 7790.6642,
      "train_tokens_per_second": 28234.263
    },
    {
      "epoch": 19.850792988313856,
      "grad_norm": 2.845128059387207,
      "learning_rate": 3.731479549248748e-07,
      "loss": 1.2803,
      "num_input_tokens_seen": 220255900,
      "step": 380500,
      "train_runtime": 7809.3731,
      "train_tokens_per_second": 28204.044
    },
    {
      "epoch": 19.87687813021703,
      "grad_norm": 2.6180248260498047,
      "learning_rate": 3.079351001669449e-07,
      "loss": 1.2634,
      "num_input_tokens_seen": 220547100,
      "step": 381000,
      "train_runtime": 7827.8518,
      "train_tokens_per_second": 28174.665
    },
    {
      "epoch": 19.9029632721202,
      "grad_norm": 2.5833303928375244,
      "learning_rate": 2.4272224540901504e-07,
      "loss": 1.2482,
      "num_input_tokens_seen": 220835100,
      "step": 381500,
      "train_runtime": 7847.7813,
      "train_tokens_per_second": 28139.813
    },
    {
      "epoch": 19.929048414023374,
      "grad_norm": 2.800402879714966,
      "learning_rate": 1.7750939065108515e-07,
      "loss": 1.2335,
      "num_input_tokens_seen": 221122004,
      "step": 382000,
      "train_runtime": 7866.365,
      "train_tokens_per_second": 28109.807
    },
    {
      "epoch": 19.955133555926544,
      "grad_norm": 2.8612380027770996,
      "learning_rate": 1.1229653589315525e-07,
      "loss": 1.2251,
      "num_input_tokens_seen": 221409964,
      "step": 382500,
      "train_runtime": 7884.8107,
      "train_tokens_per_second": 28080.568
    },
    {
      "epoch": 19.981218697829718,
      "grad_norm": 3.3842055797576904,
      "learning_rate": 4.7083681135225376e-08,
      "loss": 1.2888,
      "num_input_tokens_seen": 221700476,
      "step": 383000,
      "train_runtime": 7903.5539,
      "train_tokens_per_second": 28050.732
    },
    {
      "epoch": 20.0,
      "eval_loss": 1.2961275577545166,
      "eval_runtime": 46.2863,
      "eval_samples_per_second": 828.215,
      "eval_steps_per_second": 103.53,
      "num_input_tokens_seen": 221910640,
      "step": 383360
    },
    {
      "epoch": 20.0,
      "num_input_tokens_seen": 221910640,
      "step": 383360,
      "total_flos": 8.056851732185088e+16,
      "train_loss": 0.641815161904031,
      "train_runtime": 7964.4512,
      "train_samples_per_second": 385.056,
      "train_steps_per_second": 48.134,
      "train_tokens_per_second": 27853.103
    }
  ],
  "logging_steps": 500,
  "max_steps": 383360,
  "num_input_tokens_seen": 221910640,
  "num_train_epochs": 20,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 8.056851732185088e+16,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}