{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 100000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.001,
      "grad_norm": 3.9445953369140625,
      "learning_rate": 2.97e-05,
      "loss": 6.7008,
      "num_input_tokens_seen": 6553600,
      "step": 100,
      "train_runtime": 61.1942,
      "train_tokens_per_second": 107095.166
    },
    {
      "epoch": 0.002,
      "grad_norm": 0.6828203797340393,
      "learning_rate": 5.97e-05,
      "loss": 3.3177,
      "num_input_tokens_seen": 13107200,
      "step": 200,
      "train_runtime": 107.6856,
      "train_tokens_per_second": 121717.274
    },
    {
      "epoch": 0.003,
      "grad_norm": 16.05720329284668,
      "learning_rate": 8.969999999999998e-05,
      "loss": 3.0024,
      "num_input_tokens_seen": 19660800,
      "step": 300,
      "train_runtime": 154.3564,
      "train_tokens_per_second": 127372.748
    },
    {
      "epoch": 0.004,
      "grad_norm": 13.74783706665039,
      "learning_rate": 0.0001197,
      "loss": 2.6797,
      "num_input_tokens_seen": 26214400,
      "step": 400,
      "train_runtime": 200.698,
      "train_tokens_per_second": 130616.167
    },
    {
      "epoch": 0.005,
      "grad_norm": 12.893468856811523,
      "learning_rate": 0.00014969999999999998,
      "loss": 2.4588,
      "num_input_tokens_seen": 32768000,
      "step": 500,
      "train_runtime": 252.1632,
      "train_tokens_per_second": 129947.566
    },
    {
      "epoch": 0.006,
      "grad_norm": 9.021939277648926,
      "learning_rate": 0.00017969999999999998,
      "loss": 2.276,
      "num_input_tokens_seen": 39321600,
      "step": 600,
      "train_runtime": 299.2712,
      "train_tokens_per_second": 131391.184
    },
    {
      "epoch": 0.007,
      "grad_norm": 8.669090270996094,
      "learning_rate": 0.00020969999999999997,
      "loss": 2.1203,
      "num_input_tokens_seen": 45875200,
      "step": 700,
      "train_runtime": 346.3366,
      "train_tokens_per_second": 132458.429
    },
    {
      "epoch": 0.008,
      "grad_norm": 7.335177898406982,
      "learning_rate": 0.0002397,
      "loss": 1.9886,
      "num_input_tokens_seen": 52428800,
      "step": 800,
      "train_runtime": 393.5299,
      "train_tokens_per_second": 133226.965
    },
    {
      "epoch": 0.009,
      "grad_norm": 6.051175117492676,
      "learning_rate": 0.0002697,
      "loss": 1.9128,
      "num_input_tokens_seen": 58982400,
      "step": 900,
      "train_runtime": 440.0136,
      "train_tokens_per_second": 134046.765
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.503482818603516,
      "learning_rate": 0.00029969999999999997,
      "loss": 1.8296,
      "num_input_tokens_seen": 65536000,
      "step": 1000,
      "train_runtime": 492.2662,
      "train_tokens_per_second": 133131.222
    },
    {
      "epoch": 0.011,
      "grad_norm": 2.8459227085113525,
      "learning_rate": 0.00029999925978027874,
      "loss": 1.779,
      "num_input_tokens_seen": 72089600,
      "step": 1100,
      "train_runtime": 538.0301,
      "train_tokens_per_second": 133988.032
    },
    {
      "epoch": 0.012,
      "grad_norm": 2.292707920074463,
      "learning_rate": 0.0002999970091452017,
      "loss": 1.7037,
      "num_input_tokens_seen": 78643200,
      "step": 1200,
      "train_runtime": 585.618,
      "train_tokens_per_second": 134290.951
    },
    {
      "epoch": 0.013,
      "grad_norm": 3.362025737762451,
      "learning_rate": 0.00029999324804190795,
      "loss": 1.6688,
      "num_input_tokens_seen": 85196800,
      "step": 1300,
      "train_runtime": 632.1008,
      "train_tokens_per_second": 134783.565
    },
    {
      "epoch": 0.014,
      "grad_norm": 2.2756998538970947,
      "learning_rate": 0.0002999879765082716,
      "loss": 1.6397,
      "num_input_tokens_seen": 91750400,
      "step": 1400,
      "train_runtime": 684.3545,
      "train_tokens_per_second": 134068.525
    },
    {
      "epoch": 0.015,
      "grad_norm": 2.5730831623077393,
      "learning_rate": 0.000299981194597377,
      "loss": 1.605,
      "num_input_tokens_seen": 98304000,
      "step": 1500,
      "train_runtime": 730.5087,
      "train_tokens_per_second": 134569.247
    },
    {
      "epoch": 0.016,
      "grad_norm": 1.7514433860778809,
      "learning_rate": 0.0002999729023775179,
      "loss": 1.5838,
      "num_input_tokens_seen": 104857600,
      "step": 1600,
      "train_runtime": 781.9407,
      "train_tokens_per_second": 134099.179
    },
    {
      "epoch": 0.017,
      "grad_norm": 1.8343929052352905,
      "learning_rate": 0.0002999630999321969,
      "loss": 1.6037,
      "num_input_tokens_seen": 111411200,
      "step": 1700,
      "train_runtime": 824.7241,
      "train_tokens_per_second": 135089.057
    },
    {
      "epoch": 0.018,
      "grad_norm": 1.5672227144241333,
      "learning_rate": 0.00029995178736012443,
      "loss": 1.5627,
      "num_input_tokens_seen": 117964800,
      "step": 1800,
      "train_runtime": 871.9564,
      "train_tokens_per_second": 135287.497
    },
    {
      "epoch": 0.019,
      "grad_norm": 1.6202061176300049,
      "learning_rate": 0.0002999389647752181,
      "loss": 1.5398,
      "num_input_tokens_seen": 124518400,
      "step": 1900,
      "train_runtime": 923.402,
      "train_tokens_per_second": 134847.439
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.5145666599273682,
      "learning_rate": 0.00029992463230660104,
      "loss": 1.5389,
      "num_input_tokens_seen": 131072000,
      "step": 2000,
      "train_runtime": 968.9283,
      "train_tokens_per_second": 135275.229
    },
    {
      "epoch": 0.021,
      "grad_norm": 1.0306257009506226,
      "learning_rate": 0.00029990879009860117,
      "loss": 1.5098,
      "num_input_tokens_seen": 137625600,
      "step": 2100,
      "train_runtime": 1020.8371,
      "train_tokens_per_second": 134816.412
    },
    {
      "epoch": 0.022,
      "grad_norm": 2.0710599422454834,
      "learning_rate": 0.0002998914383107493,
      "loss": 1.5081,
      "num_input_tokens_seen": 144179200,
      "step": 2200,
      "train_runtime": 1067.2796,
      "train_tokens_per_second": 135090.368
    },
    {
      "epoch": 0.023,
      "grad_norm": 1.4022581577301025,
      "learning_rate": 0.0002998725771177778,
      "loss": 1.521,
      "num_input_tokens_seen": 150732800,
      "step": 2300,
      "train_runtime": 1114.7094,
      "train_tokens_per_second": 135221.616
    },
    {
      "epoch": 0.024,
      "grad_norm": 1.4328904151916504,
      "learning_rate": 0.00029985220670961847,
      "loss": 1.4855,
      "num_input_tokens_seen": 157286400,
      "step": 2400,
      "train_runtime": 1160.6217,
      "train_tokens_per_second": 135519.092
    },
    {
      "epoch": 0.025,
      "grad_norm": 1.3760366439819336,
      "learning_rate": 0.0002998303272914014,
      "loss": 1.4966,
      "num_input_tokens_seen": 163840000,
      "step": 2500,
      "train_runtime": 1212.6489,
      "train_tokens_per_second": 135109.18
    },
    {
      "epoch": 0.026,
      "grad_norm": 0.9530190825462341,
      "learning_rate": 0.00029980693908345185,
      "loss": 1.4795,
      "num_input_tokens_seen": 170393600,
      "step": 2600,
      "train_runtime": 1258.3106,
      "train_tokens_per_second": 135414.576
    },
    {
      "epoch": 0.027,
      "grad_norm": 0.8715839385986328,
      "learning_rate": 0.00029978204232128895,
      "loss": 1.4601,
      "num_input_tokens_seen": 176947200,
      "step": 2700,
      "train_runtime": 1304.6837,
      "train_tokens_per_second": 135624.597
    },
    {
      "epoch": 0.028,
      "grad_norm": 1.1879854202270508,
      "learning_rate": 0.0002997556372556227,
      "loss": 1.487,
      "num_input_tokens_seen": 183500800,
      "step": 2800,
      "train_runtime": 1358.2195,
      "train_tokens_per_second": 135103.938
    },
    {
      "epoch": 0.029,
      "grad_norm": 1.0949848890304565,
      "learning_rate": 0.0002997277241523519,
      "loss": 1.4658,
      "num_input_tokens_seen": 190054400,
      "step": 2900,
      "train_runtime": 1404.4203,
      "train_tokens_per_second": 135325.869
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.465809941291809,
      "learning_rate": 0.00029969830329256125,
      "loss": 1.4463,
      "num_input_tokens_seen": 196608000,
      "step": 3000,
      "train_runtime": 1451.3838,
      "train_tokens_per_second": 135462.45
    },
    {
      "epoch": 0.031,
      "grad_norm": 0.9500088095664978,
      "learning_rate": 0.00029966737497251836,
      "loss": 1.4533,
      "num_input_tokens_seen": 203161600,
      "step": 3100,
      "train_runtime": 1496.7114,
      "train_tokens_per_second": 135738.657
    },
    {
      "epoch": 0.032,
      "grad_norm": 1.3393683433532715,
      "learning_rate": 0.0002996349395036711,
      "loss": 1.4402,
      "num_input_tokens_seen": 209715200,
      "step": 3200,
      "train_runtime": 1549.2536,
      "train_tokens_per_second": 135365.316
    },
    {
      "epoch": 0.033,
      "grad_norm": 0.7998270988464355,
      "learning_rate": 0.00029960099721264435,
      "loss": 1.4467,
      "num_input_tokens_seen": 216268800,
      "step": 3300,
      "train_runtime": 1596.5035,
      "train_tokens_per_second": 135464.03
    },
    {
      "epoch": 0.034,
      "grad_norm": 0.8441318273544312,
      "learning_rate": 0.0002995655484412365,
      "loss": 1.4353,
      "num_input_tokens_seen": 222822400,
      "step": 3400,
      "train_runtime": 1642.6114,
      "train_tokens_per_second": 135651.317
    },
    {
      "epoch": 0.035,
      "grad_norm": 0.7577129006385803,
      "learning_rate": 0.00029952859354641636,
      "loss": 1.4253,
      "num_input_tokens_seen": 229376000,
      "step": 3500,
      "train_runtime": 1690.0779,
      "train_tokens_per_second": 135719.187
    },
    {
      "epoch": 0.036,
      "grad_norm": 0.8359817862510681,
      "learning_rate": 0.00029949013290031924,
      "loss": 1.4348,
      "num_input_tokens_seen": 235929600,
      "step": 3600,
      "train_runtime": 1736.0232,
      "train_tokens_per_second": 135902.33
    },
    {
      "epoch": 0.037,
      "grad_norm": 0.7565376162528992,
      "learning_rate": 0.00029945016689024353,
      "loss": 1.4114,
      "num_input_tokens_seen": 242483200,
      "step": 3700,
      "train_runtime": 1788.0113,
      "train_tokens_per_second": 135616.148
    },
    {
      "epoch": 0.038,
      "grad_norm": 0.9537010788917542,
      "learning_rate": 0.0002994086959186464,
      "loss": 1.4134,
      "num_input_tokens_seen": 249036800,
      "step": 3800,
      "train_runtime": 1835.9254,
      "train_tokens_per_second": 135646.47
    },
    {
      "epoch": 0.039,
      "grad_norm": 0.8911266922950745,
      "learning_rate": 0.00029936572040314014,
      "loss": 1.4224,
      "num_input_tokens_seen": 255590400,
      "step": 3900,
      "train_runtime": 1882.537,
      "train_tokens_per_second": 135769.123
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.7832906246185303,
      "learning_rate": 0.0002993212407764877,
      "loss": 1.4177,
      "num_input_tokens_seen": 262144000,
      "step": 4000,
      "train_runtime": 1928.8118,
      "train_tokens_per_second": 135909.579
    },
    {
      "epoch": 0.041,
      "grad_norm": 0.8426671624183655,
      "learning_rate": 0.00029927525748659834,
      "loss": 1.4194,
      "num_input_tokens_seen": 268697600,
      "step": 4100,
      "train_runtime": 1981.7143,
      "train_tokens_per_second": 135588.467
    },
    {
      "epoch": 0.042,
      "grad_norm": 0.9675344824790955,
      "learning_rate": 0.0002992277709965234,
      "loss": 1.4059,
      "num_input_tokens_seen": 275251200,
      "step": 4200,
      "train_runtime": 2027.927,
      "train_tokens_per_second": 135730.33
    },
    {
      "epoch": 0.043,
      "grad_norm": 1.1866440773010254,
      "learning_rate": 0.0002991787817844513,
      "loss": 1.4065,
      "num_input_tokens_seen": 281804800,
      "step": 4300,
      "train_runtime": 2074.708,
      "train_tokens_per_second": 135828.659
    },
    {
      "epoch": 0.044,
      "grad_norm": 0.8417257070541382,
      "learning_rate": 0.0002991282903437028,
      "loss": 1.397,
      "num_input_tokens_seen": 288358400,
      "step": 4400,
      "train_runtime": 2126.0513,
      "train_tokens_per_second": 135630.972
    },
    {
      "epoch": 0.045,
      "grad_norm": 0.8226633071899414,
      "learning_rate": 0.0002990762971827262,
      "loss": 1.3996,
      "num_input_tokens_seen": 294912000,
      "step": 4500,
      "train_runtime": 2172.3837,
      "train_tokens_per_second": 135755.024
    },
    {
      "epoch": 0.046,
      "grad_norm": 0.8411224484443665,
      "learning_rate": 0.00029902280282509197,
      "loss": 1.4002,
      "num_input_tokens_seen": 301465600,
      "step": 4600,
      "train_runtime": 2220.1775,
      "train_tokens_per_second": 135784.456
    },
    {
      "epoch": 0.047,
      "grad_norm": 0.7082719802856445,
      "learning_rate": 0.0002989678078094878,
      "loss": 1.3804,
      "num_input_tokens_seen": 308019200,
      "step": 4700,
      "train_runtime": 2266.6848,
      "train_tokens_per_second": 135889.739
    },
    {
      "epoch": 0.048,
      "grad_norm": 0.7628137469291687,
      "learning_rate": 0.00029891131268971284,
      "loss": 1.3795,
      "num_input_tokens_seen": 314572800,
      "step": 4800,
      "train_runtime": 2318.5885,
      "train_tokens_per_second": 135674.269
    },
    {
      "epoch": 0.049,
      "grad_norm": 0.7231079936027527,
      "learning_rate": 0.0002988533180346723,
      "loss": 1.3789,
      "num_input_tokens_seen": 321126400,
      "step": 4900,
      "train_runtime": 2364.3453,
      "train_tokens_per_second": 135820.432
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.7210503816604614,
      "learning_rate": 0.0002987938244283717,
      "loss": 1.3641,
      "num_input_tokens_seen": 327680000,
      "step": 5000,
      "train_runtime": 2410.3286,
      "train_tokens_per_second": 135948.267
    },
    {
      "epoch": 0.051,
      "grad_norm": 0.729364275932312,
      "learning_rate": 0.00029873283246991105,
      "loss": 1.3756,
      "num_input_tokens_seen": 334233600,
      "step": 5100,
      "train_runtime": 2458.4762,
      "train_tokens_per_second": 135951.532
    },
    {
      "epoch": 0.052,
      "grad_norm": 0.7513293027877808,
      "learning_rate": 0.0002986703427734787,
      "loss": 1.3778,
      "num_input_tokens_seen": 340787200,
      "step": 5200,
      "train_runtime": 2506.9032,
      "train_tokens_per_second": 135939.511
    },
    {
      "epoch": 0.053,
      "grad_norm": 0.7382386326789856,
      "learning_rate": 0.00029860635596834517,
      "loss": 1.3807,
      "num_input_tokens_seen": 347340800,
      "step": 5300,
      "train_runtime": 2559.5035,
      "train_tokens_per_second": 135706.321
    },
    {
      "epoch": 0.054,
      "grad_norm": 0.5869194269180298,
      "learning_rate": 0.0002985408726988569,
      "loss": 1.3695,
      "num_input_tokens_seen": 353894400,
      "step": 5400,
      "train_runtime": 2605.4484,
      "train_tokens_per_second": 135828.598
    },
    {
      "epoch": 0.055,
      "grad_norm": 0.7805973291397095,
      "learning_rate": 0.0002984738936244296,
      "loss": 1.3746,
      "num_input_tokens_seen": 360448000,
      "step": 5500,
      "train_runtime": 2655.8515,
      "train_tokens_per_second": 135718.431
    },
    {
      "epoch": 0.056,
      "grad_norm": 0.6918448209762573,
      "learning_rate": 0.0002984054194195419,
      "loss": 1.3855,
      "num_input_tokens_seen": 367001600,
      "step": 5600,
      "train_runtime": 2703.0299,
      "train_tokens_per_second": 135774.155
    },
    {
      "epoch": 0.057,
      "grad_norm": 0.6129201054573059,
      "learning_rate": 0.0002983354507737283,
      "loss": 1.3816,
      "num_input_tokens_seen": 373555200,
      "step": 5700,
      "train_runtime": 2750.071,
      "train_tokens_per_second": 135834.747
    },
    {
      "epoch": 0.058,
      "grad_norm": 0.7457948923110962,
      "learning_rate": 0.00029826398839157215,
      "loss": 1.3748,
      "num_input_tokens_seen": 380108800,
      "step": 5800,
      "train_runtime": 2795.4164,
      "train_tokens_per_second": 135975.735
    },
    {
      "epoch": 0.059,
      "grad_norm": 0.6171481013298035,
      "learning_rate": 0.000298191032992699,
      "loss": 1.3725,
      "num_input_tokens_seen": 386662400,
      "step": 5900,
      "train_runtime": 2842.5021,
      "train_tokens_per_second": 136028.889
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.6233596205711365,
      "learning_rate": 0.0002981165853117688,
      "loss": 1.3624,
      "num_input_tokens_seen": 393216000,
      "step": 6000,
      "train_runtime": 2892.8273,
      "train_tokens_per_second": 135927.922
    },
    {
      "epoch": 0.061,
      "grad_norm": 0.5645745396614075,
      "learning_rate": 0.000298040646098469,
      "loss": 1.356,
      "num_input_tokens_seen": 399769600,
      "step": 6100,
      "train_runtime": 2940.1153,
      "train_tokens_per_second": 135970.721
    },
    {
      "epoch": 0.062,
      "grad_norm": 0.6580554246902466,
      "learning_rate": 0.0002979632161175064,
      "loss": 1.3627,
      "num_input_tokens_seen": 406323200,
      "step": 6200,
      "train_runtime": 2986.9073,
      "train_tokens_per_second": 136034.754
    },
    {
      "epoch": 0.063,
      "grad_norm": 0.6815545558929443,
      "learning_rate": 0.0002978842961486003,
      "loss": 1.3562,
      "num_input_tokens_seen": 412876800,
      "step": 6300,
      "train_runtime": 3038.4238,
      "train_tokens_per_second": 135885.191
    },
    {
      "epoch": 0.064,
      "grad_norm": 0.9602898955345154,
      "learning_rate": 0.0002978038869864738,
      "loss": 1.3562,
      "num_input_tokens_seen": 419430400,
      "step": 6400,
      "train_runtime": 3085.1228,
      "train_tokens_per_second": 135952.578
    },
    {
      "epoch": 0.065,
      "grad_norm": 0.7086384892463684,
      "learning_rate": 0.0002977219894408463,
      "loss": 1.3579,
      "num_input_tokens_seen": 425984000,
      "step": 6500,
      "train_runtime": 3130.8346,
      "train_tokens_per_second": 136060.844
    },
    {
      "epoch": 0.066,
      "grad_norm": 0.5864439010620117,
      "learning_rate": 0.0002976386043364251,
      "loss": 1.3563,
      "num_input_tokens_seen": 432537600,
      "step": 6600,
      "train_runtime": 3182.4893,
      "train_tokens_per_second": 135911.72
    },
    {
      "epoch": 0.067,
      "grad_norm": 0.6041991114616394,
      "learning_rate": 0.00029755373251289733,
      "loss": 1.3753,
      "num_input_tokens_seen": 439091200,
      "step": 6700,
      "train_runtime": 3229.4118,
      "train_tokens_per_second": 135966.308
    },
    {
      "epoch": 0.068,
      "grad_norm": 0.7153160572052002,
      "learning_rate": 0.0002974673748249213,
      "loss": 1.3475,
      "num_input_tokens_seen": 445644800,
      "step": 6800,
      "train_runtime": 3276.7034,
      "train_tokens_per_second": 136004.008
    },
    {
      "epoch": 0.069,
      "grad_norm": 0.5409119725227356,
      "learning_rate": 0.00029737953214211804,
      "loss": 1.3464,
      "num_input_tokens_seen": 452198400,
      "step": 6900,
      "train_runtime": 3324.3119,
      "train_tokens_per_second": 136027.67
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.6369441151618958,
      "learning_rate": 0.0002972902053490623,
      "loss": 1.3546,
      "num_input_tokens_seen": 458752000,
      "step": 7000,
      "train_runtime": 3370.6322,
      "train_tokens_per_second": 136102.657
    },
    {
      "epoch": 0.071,
      "grad_norm": 0.8589248061180115,
      "learning_rate": 0.00029719939534527393,
      "loss": 1.3479,
      "num_input_tokens_seen": 465305600,
      "step": 7100,
      "train_runtime": 3424.7139,
      "train_tokens_per_second": 135867.0
    },
    {
      "epoch": 0.072,
      "grad_norm": 0.8014613389968872,
      "learning_rate": 0.00029710710304520866,
      "loss": 1.3667,
      "num_input_tokens_seen": 471859200,
      "step": 7200,
      "train_runtime": 3472.985,
      "train_tokens_per_second": 135865.601
    },
    {
      "epoch": 0.073,
      "grad_norm": 0.5970280766487122,
      "learning_rate": 0.00029701332937824885,
      "loss": 1.3423,
      "num_input_tokens_seen": 478412800,
      "step": 7300,
      "train_runtime": 3519.3052,
      "train_tokens_per_second": 135939.558
    },
    {
      "epoch": 0.074,
      "grad_norm": 0.6963617205619812,
      "learning_rate": 0.0002969180752886944,
      "loss": 1.3443,
      "num_input_tokens_seen": 484966400,
      "step": 7400,
      "train_runtime": 3565.8739,
      "train_tokens_per_second": 136002.118
    },
    {
      "epoch": 0.075,
      "grad_norm": 0.5769393444061279,
      "learning_rate": 0.0002968213417357529,
      "loss": 1.3576,
      "num_input_tokens_seen": 491520000,
      "step": 7500,
      "train_runtime": 3611.5043,
      "train_tokens_per_second": 136098.411
    },
    {
      "epoch": 0.076,
      "grad_norm": 0.5492929816246033,
      "learning_rate": 0.00029672312969353015,
      "loss": 1.3422,
      "num_input_tokens_seen": 498073600,
      "step": 7600,
      "train_runtime": 3664.3633,
      "train_tokens_per_second": 135923.642
    },
    {
      "epoch": 0.077,
      "grad_norm": 0.8065637946128845,
      "learning_rate": 0.00029662344015102027,
      "loss": 1.3395,
      "num_input_tokens_seen": 504627200,
      "step": 7700,
      "train_runtime": 3711.2689,
      "train_tokens_per_second": 135971.608
    },
    {
      "epoch": 0.078,
      "grad_norm": 0.552871584892273,
      "learning_rate": 0.00029652227411209594,
      "loss": 1.3427,
      "num_input_tokens_seen": 511180800,
      "step": 7800,
      "train_runtime": 3758.1209,
      "train_tokens_per_second": 136020.319
    },
    {
      "epoch": 0.079,
      "grad_norm": 0.6378001570701599,
      "learning_rate": 0.0002964196325954979,
      "loss": 1.3339,
      "num_input_tokens_seen": 517734400,
      "step": 7900,
      "train_runtime": 3804.2295,
      "train_tokens_per_second": 136094.417
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.6196131706237793,
      "learning_rate": 0.0002963155166348253,
      "loss": 1.341,
      "num_input_tokens_seen": 524288000,
      "step": 8000,
      "train_runtime": 3855.6562,
      "train_tokens_per_second": 135978.93
    },
    {
      "epoch": 0.081,
      "grad_norm": 0.5841253399848938,
      "learning_rate": 0.0002962099272785246,
      "loss": 1.3366,
      "num_input_tokens_seen": 530841600,
      "step": 8100,
      "train_runtime": 3903.5348,
      "train_tokens_per_second": 135989.977
    },
    {
      "epoch": 0.082,
      "grad_norm": 0.5912770628929138,
      "learning_rate": 0.0002961028655898794,
      "loss": 1.3417,
      "num_input_tokens_seen": 537395200,
      "step": 8200,
      "train_runtime": 3951.3698,
      "train_tokens_per_second": 136002.255
    },
    {
      "epoch": 0.083,
      "grad_norm": 0.5480249524116516,
      "learning_rate": 0.0002959943326469998,
      "loss": 1.3419,
      "num_input_tokens_seen": 543948800,
      "step": 8300,
      "train_runtime": 3997.3554,
      "train_tokens_per_second": 136077.166
    },
    {
      "epoch": 0.084,
      "grad_norm": 0.49880343675613403,
      "learning_rate": 0.0002958843295428112,
      "loss": 1.3165,
      "num_input_tokens_seen": 550502400,
      "step": 8400,
      "train_runtime": 4044.3967,
      "train_tokens_per_second": 136114.838
    },
    {
      "epoch": 0.085,
      "grad_norm": 0.5670176148414612,
      "learning_rate": 0.0002957728573850438,
      "loss": 1.3314,
      "num_input_tokens_seen": 557056000,
      "step": 8500,
      "train_runtime": 4095.7201,
      "train_tokens_per_second": 136009.294
    },
    {
      "epoch": 0.086,
      "grad_norm": 2.3274426460266113,
      "learning_rate": 0.0002956599172962209,
      "loss": 1.3323,
      "num_input_tokens_seen": 563609600,
      "step": 8600,
      "train_runtime": 4143.1443,
      "train_tokens_per_second": 136034.268
    },
    {
      "epoch": 0.087,
      "grad_norm": 0.7660558819770813,
      "learning_rate": 0.0002955455104136479,
      "loss": 1.3382,
      "num_input_tokens_seen": 570163200,
      "step": 8700,
      "train_runtime": 4190.7065,
      "train_tokens_per_second": 136054.194
    },
    {
      "epoch": 0.088,
      "grad_norm": 0.5114762783050537,
      "learning_rate": 0.00029542963788940096,
      "loss": 1.3252,
      "num_input_tokens_seen": 576716800,
      "step": 8800,
      "train_runtime": 4237.8545,
      "train_tokens_per_second": 136086.974
    },
    {
      "epoch": 0.089,
      "grad_norm": 0.6698548197746277,
      "learning_rate": 0.00029531230089031505,
      "loss": 1.3449,
      "num_input_tokens_seen": 583270400,
      "step": 8900,
      "train_runtime": 4285.2299,
      "train_tokens_per_second": 136111.81
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5562598705291748,
      "learning_rate": 0.0002951935005979724,
      "loss": 1.3204,
      "num_input_tokens_seen": 589824000,
      "step": 9000,
      "train_runtime": 4336.4907,
      "train_tokens_per_second": 136014.126
    },
    {
      "epoch": 0.091,
      "grad_norm": 0.6327181458473206,
      "learning_rate": 0.0002950732382086907,
      "loss": 1.3178,
      "num_input_tokens_seen": 596377600,
      "step": 9100,
      "train_runtime": 4383.0811,
      "train_tokens_per_second": 136063.555
    },
    {
      "epoch": 0.092,
      "grad_norm": 0.6857426166534424,
      "learning_rate": 0.0002949515149335108,
      "loss": 1.3332,
      "num_input_tokens_seen": 602931200,
      "step": 9200,
      "train_runtime": 4431.4231,
      "train_tokens_per_second": 136058.142
    },
    {
      "epoch": 0.093,
      "grad_norm": 0.6040679812431335,
      "learning_rate": 0.0002948283319981848,
      "loss": 1.307,
      "num_input_tokens_seen": 609484800,
      "step": 9300,
      "train_runtime": 4478.1663,
      "train_tokens_per_second": 136101.423
    },
    {
      "epoch": 0.094,
      "grad_norm": 1.0060901641845703,
      "learning_rate": 0.00029470369064316354,
      "loss": 1.3108,
      "num_input_tokens_seen": 616038400,
      "step": 9400,
      "train_runtime": 4524.7167,
      "train_tokens_per_second": 136149.607
    },
    {
      "epoch": 0.095,
      "grad_norm": 0.504460871219635,
      "learning_rate": 0.00029457759212358397,
      "loss": 1.3169,
      "num_input_tokens_seen": 622592000,
      "step": 9500,
      "train_runtime": 4575.869,
      "train_tokens_per_second": 136059.84
    },
    {
      "epoch": 0.096,
      "grad_norm": 0.5062097907066345,
      "learning_rate": 0.00029445003770925686,
      "loss": 1.3137,
      "num_input_tokens_seen": 629145600,
      "step": 9600,
      "train_runtime": 4621.4422,
      "train_tokens_per_second": 136136.203
    },
    {
      "epoch": 0.097,
      "grad_norm": 0.5388786792755127,
      "learning_rate": 0.00029432102868465367,
      "loss": 1.3128,
      "num_input_tokens_seen": 635699200,
      "step": 9700,
      "train_runtime": 4668.6149,
      "train_tokens_per_second": 136164.411
    },
    {
      "epoch": 0.098,
      "grad_norm": 0.5705980062484741,
      "learning_rate": 0.0002941905663488939,
      "loss": 1.3065,
      "num_input_tokens_seen": 642252800,
      "step": 9800,
      "train_runtime": 4715.2389,
      "train_tokens_per_second": 136207.903
    },
    {
      "epoch": 0.099,
      "grad_norm": 0.5500839352607727,
      "learning_rate": 0.0002940586520157318,
      "loss": 1.3222,
      "num_input_tokens_seen": 648806400,
      "step": 9900,
      "train_runtime": 4767.1995,
      "train_tokens_per_second": 136098.019
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5740068554878235,
      "learning_rate": 0.00029392528701354325,
      "loss": 1.3173,
      "num_input_tokens_seen": 655360000,
      "step": 10000,
      "train_runtime": 4814.2762,
      "train_tokens_per_second": 136128.458
    },
    {
      "epoch": 0.101,
      "grad_norm": 0.47691279649734497,
      "learning_rate": 0.00029379047268531243,
      "loss": 1.3084,
      "num_input_tokens_seen": 661913600,
      "step": 10100,
      "train_runtime": 4861.0919,
      "train_tokens_per_second": 136165.622
    },
    {
      "epoch": 0.102,
      "grad_norm": 0.5993319153785706,
      "learning_rate": 0.00029365421038861795,
      "loss": 1.3299,
      "num_input_tokens_seen": 668467200,
      "step": 10200,
      "train_runtime": 4908.6949,
      "train_tokens_per_second": 136180.229
    },
    {
      "epoch": 0.103,
      "grad_norm": 0.556516170501709,
      "learning_rate": 0.0002935165014956198,
      "loss": 1.316,
      "num_input_tokens_seen": 675020800,
      "step": 10300,
      "train_runtime": 4956.5309,
      "train_tokens_per_second": 136188.156
    },
    {
      "epoch": 0.104,
      "grad_norm": 0.6757346391677856,
      "learning_rate": 0.0002933773473930448,
      "loss": 1.3048,
      "num_input_tokens_seen": 681574400,
      "step": 10400,
      "train_runtime": 5003.7965,
      "train_tokens_per_second": 136211.454
    },
    {
      "epoch": 0.105,
      "grad_norm": 0.9610360860824585,
      "learning_rate": 0.0002932367494821734,
      "loss": 1.3043,
      "num_input_tokens_seen": 688128000,
      "step": 10500,
      "train_runtime": 5050.8058,
      "train_tokens_per_second": 136241.232
    },
    {
      "epoch": 0.106,
      "grad_norm": 0.5780071020126343,
      "learning_rate": 0.00029309470917882497,
      "loss": 1.3015,
      "num_input_tokens_seen": 694681600,
      "step": 10600,
      "train_runtime": 5104.0171,
      "train_tokens_per_second": 136104.873
    },
    {
      "epoch": 0.107,
      "grad_norm": 0.6387894749641418,
      "learning_rate": 0.0002929512279133437,
      "loss": 1.3342,
      "num_input_tokens_seen": 701235200,
      "step": 10700,
      "train_runtime": 5151.2508,
      "train_tokens_per_second": 136129.112
    },
    {
      "epoch": 0.108,
      "grad_norm": 0.48744165897369385,
      "learning_rate": 0.0002928063071305844,
      "loss": 1.2999,
      "num_input_tokens_seen": 707788800,
      "step": 10800,
      "train_runtime": 5198.4813,
      "train_tokens_per_second": 136152.995
    },
    {
      "epoch": 0.109,
      "grad_norm": 0.5223510265350342,
      "learning_rate": 0.0002926599482898978,
      "loss": 1.2996,
      "num_input_tokens_seen": 714342400,
      "step": 10900,
      "train_runtime": 5244.0735,
      "train_tokens_per_second": 136218.99
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.6020687222480774,
      "learning_rate": 0.00029251215286511573,
      "loss": 1.3029,
      "num_input_tokens_seen": 720896000,
      "step": 11000,
      "train_runtime": 5291.0983,
      "train_tokens_per_second": 136246.948
    },
    {
      "epoch": 0.111,
      "grad_norm": 0.5317751169204712,
      "learning_rate": 0.00029236292234453647,
      "loss": 1.316,
      "num_input_tokens_seen": 727449600,
      "step": 11100,
      "train_runtime": 5342.4851,
      "train_tokens_per_second": 136163.15
    },
    {
      "epoch": 0.112,
      "grad_norm": 1.2369730472564697,
      "learning_rate": 0.0002922122582309097,
      "loss": 1.298,
      "num_input_tokens_seen": 734003200,
      "step": 11200,
      "train_runtime": 5391.0041,
      "train_tokens_per_second": 136153.338
    },
    {
      "epoch": 0.113,
      "grad_norm": 0.5294257998466492,
      "learning_rate": 0.0002920601620414215,
      "loss": 1.316,
      "num_input_tokens_seen": 740556800,
      "step": 11300,
      "train_runtime": 5437.8422,
      "train_tokens_per_second": 136185.784
    },
    {
      "epoch": 0.114,
      "grad_norm": 0.5318885445594788,
      "learning_rate": 0.0002919066353076786,
      "loss": 1.2993,
      "num_input_tokens_seen": 747110400,
      "step": 11400,
      "train_runtime": 5484.1183,
      "train_tokens_per_second": 136231.635
    },
    {
      "epoch": 0.115,
      "grad_norm": 0.5208443403244019,
      "learning_rate": 0.00029175167957569366,
      "loss": 1.3066,
      "num_input_tokens_seen": 753664000,
      "step": 11500,
      "train_runtime": 5531.5155,
      "train_tokens_per_second": 136249.099
    },
    {
      "epoch": 0.116,
      "grad_norm": 0.5068408250808716,
      "learning_rate": 0.0002915952964058691,
      "loss": 1.3041,
      "num_input_tokens_seen": 760217600,
      "step": 11600,
      "train_runtime": 5578.6188,
      "train_tokens_per_second": 136273.445
    },
    {
      "epoch": 0.117,
      "grad_norm": 0.6206523776054382,
      "learning_rate": 0.00029143748737298173,
      "loss": 1.3061,
      "num_input_tokens_seen": 766771200,
      "step": 11700,
      "train_runtime": 5631.31,
      "train_tokens_per_second": 136162.136
    },
    {
      "epoch": 0.118,
      "grad_norm": 0.5741725564002991,
      "learning_rate": 0.00029127825406616677,
      "loss": 1.3097,
      "num_input_tokens_seen": 773324800,
      "step": 11800,
      "train_runtime": 5678.817,
      "train_tokens_per_second": 136177.096
    },
    {
      "epoch": 0.119,
      "grad_norm": 0.5251154899597168,
      "learning_rate": 0.0002911175980889019,
      "loss": 1.3054,
      "num_input_tokens_seen": 779878400,
      "step": 11900,
      "train_runtime": 5725.8659,
      "train_tokens_per_second": 136202.701
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4509083032608032,
      "learning_rate": 0.00029095552105899095,
      "loss": 1.301,
      "num_input_tokens_seen": 786432000,
      "step": 12000,
      "train_runtime": 5772.0962,
      "train_tokens_per_second": 136247.211
    },
    {
      "epoch": 0.121,
      "grad_norm": 0.4560108184814453,
      "learning_rate": 0.0002907920246085478,
      "loss": 1.2981,
      "num_input_tokens_seen": 792985600,
      "step": 12100,
      "train_runtime": 5817.8977,
      "train_tokens_per_second": 136301.056
    },
    {
      "epoch": 0.122,
      "grad_norm": 1.227121114730835,
      "learning_rate": 0.00029062711038397996,
      "loss": 1.302,
      "num_input_tokens_seen": 799539200,
      "step": 12200,
      "train_runtime": 5870.3451,
      "train_tokens_per_second": 136199.693
    },
    {
      "epoch": 0.123,
      "grad_norm": 0.4861258864402771,
      "learning_rate": 0.00029046078004597175,
      "loss": 1.318,
      "num_input_tokens_seen": 806092800,
      "step": 12300,
      "train_runtime": 5916.8489,
      "train_tokens_per_second": 136236.84
    },
    {
      "epoch": 0.124,
      "grad_norm": 0.9702387452125549,
      "learning_rate": 0.00029029303526946796,
      "loss": 1.2869,
      "num_input_tokens_seen": 812646400,
      "step": 12400,
      "train_runtime": 5964.0243,
      "train_tokens_per_second": 136258.063
    },
    {
      "epoch": 0.125,
      "grad_norm": 0.4712119400501251,
      "learning_rate": 0.0002901238777436565,
      "loss": 1.2924,
      "num_input_tokens_seen": 819200000,
      "step": 12500,
      "train_runtime": 6009.6089,
      "train_tokens_per_second": 136315.026
    },
    {
      "epoch": 0.126,
      "grad_norm": 0.4670332372188568,
      "learning_rate": 0.00028995330917195184,
      "loss": 1.2942,
      "num_input_tokens_seen": 825753600,
      "step": 12600,
      "train_runtime": 6061.3166,
      "train_tokens_per_second": 136233.371
    },
    {
      "epoch": 0.127,
      "grad_norm": 0.4821685552597046,
      "learning_rate": 0.00028978133127197765,
      "loss": 1.2856,
      "num_input_tokens_seen": 832307200,
      "step": 12700,
      "train_runtime": 6108.5206,
      "train_tokens_per_second": 136253.481
    },
    {
      "epoch": 0.128,
      "grad_norm": 0.5634518265724182,
      "learning_rate": 0.0002896079457755493,
      "loss": 1.2982,
      "num_input_tokens_seen": 838860800,
      "step": 12800,
      "train_runtime": 6155.2503,
      "train_tokens_per_second": 136283.785
    },
    {
      "epoch": 0.129,
      "grad_norm": 0.45673057436943054,
      "learning_rate": 0.000289433154428657,
      "loss": 1.2997,
      "num_input_tokens_seen": 845414400,
      "step": 12900,
      "train_runtime": 6202.1106,
      "train_tokens_per_second": 136310.758
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4386661648750305,
      "learning_rate": 0.0002892569589914476,
      "loss": 1.2985,
      "num_input_tokens_seen": 851968000,
      "step": 13000,
      "train_runtime": 6249.4681,
      "train_tokens_per_second": 136326.482
    },
    {
      "epoch": 0.131,
      "grad_norm": 0.4749270975589752,
      "learning_rate": 0.0002890793612382072,
      "loss": 1.2946,
      "num_input_tokens_seen": 858521600,
      "step": 13100,
      "train_runtime": 6301.6638,
      "train_tokens_per_second": 136237.291
    },
    {
      "epoch": 0.132,
      "grad_norm": 0.5405780673027039,
      "learning_rate": 0.0002889003629573432,
      "loss": 1.2857,
      "num_input_tokens_seen": 865075200,
      "step": 13200,
      "train_runtime": 6349.664,
      "train_tokens_per_second": 136239.523
    },
    {
      "epoch": 0.133,
      "grad_norm": 0.4045722782611847,
      "learning_rate": 0.00028871996595136626,
      "loss": 1.3009,
      "num_input_tokens_seen": 871628800,
      "step": 13300,
      "train_runtime": 6396.2349,
      "train_tokens_per_second": 136272.169
    },
    {
      "epoch": 0.134,
      "grad_norm": 0.5851114392280579,
      "learning_rate": 0.0002885381720368723,
      "loss": 1.3026,
      "num_input_tokens_seen": 878182400,
      "step": 13400,
      "train_runtime": 6442.8884,
      "train_tokens_per_second": 136302.594
    },
    {
      "epoch": 0.135,
      "grad_norm": 0.5135608315467834,
      "learning_rate": 0.000288354983044524,
      "loss": 1.2778,
      "num_input_tokens_seen": 884736000,
      "step": 13500,
      "train_runtime": 6489.2417,
      "train_tokens_per_second": 136338.889
    },
    {
      "epoch": 0.136,
      "grad_norm": 0.4828953742980957,
      "learning_rate": 0.00028817040081903245,
      "loss": 1.2864,
      "num_input_tokens_seen": 891289600,
      "step": 13600,
      "train_runtime": 6540.9813,
      "train_tokens_per_second": 136262.368
    },
    {
      "epoch": 0.137,
      "grad_norm": 0.5756350755691528,
      "learning_rate": 0.00028798442721913867,
      "loss": 1.2858,
      "num_input_tokens_seen": 897843200,
      "step": 13700,
      "train_runtime": 6588.3179,
      "train_tokens_per_second": 136278.063
    },
    {
      "epoch": 0.138,
      "grad_norm": 0.5231483578681946,
      "learning_rate": 0.00028779706411759465,
      "loss": 1.282,
      "num_input_tokens_seen": 904396800,
      "step": 13800,
      "train_runtime": 6635.0521,
      "train_tokens_per_second": 136305.909
    },
    {
      "epoch": 0.139,
      "grad_norm": 0.5475858449935913,
      "learning_rate": 0.00028760831340114484,
      "loss": 1.2797,
      "num_input_tokens_seen": 910950400,
      "step": 13900,
      "train_runtime": 6681.4731,
      "train_tokens_per_second": 136339.754
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7064163684844971,
      "learning_rate": 0.00028741817697050683,
      "loss": 1.2927,
      "num_input_tokens_seen": 917504000,
      "step": 14000,
      "train_runtime": 6730.4553,
      "train_tokens_per_second": 136321.238
    },
    {
      "epoch": 0.141,
      "grad_norm": 0.5267386436462402,
      "learning_rate": 0.00028722665674035233,
      "loss": 1.2815,
      "num_input_tokens_seen": 924057600,
      "step": 14100,
      "train_runtime": 6782.7717,
      "train_tokens_per_second": 136235.987
    },
    {
      "epoch": 0.142,
      "grad_norm": 0.5816136598587036,
      "learning_rate": 0.0002870337546392879,
      "loss": 1.2983,
      "num_input_tokens_seen": 930611200,
      "step": 14200,
      "train_runtime": 6829.7567,
      "train_tokens_per_second": 136258.323
    },
    {
      "epoch": 0.143,
      "grad_norm": 0.4982451796531677,
      "learning_rate": 0.00028683947260983576,
      "loss": 1.3026,
      "num_input_tokens_seen": 937164800,
      "step": 14300,
      "train_runtime": 6877.8163,
      "train_tokens_per_second": 136259.063
    },
    {
      "epoch": 0.144,
      "grad_norm": 0.49408379197120667,
      "learning_rate": 0.00028664381260841356,
      "loss": 1.2869,
      "num_input_tokens_seen": 943718400,
      "step": 14400,
      "train_runtime": 6923.5994,
      "train_tokens_per_second": 136304.593
    },
    {
      "epoch": 0.145,
      "grad_norm": 0.4885796904563904,
      "learning_rate": 0.0002864467766053154,
      "loss": 1.2768,
      "num_input_tokens_seen": 950272000,
      "step": 14500,
      "train_runtime": 6969.9199,
      "train_tokens_per_second": 136339.014
    },
    {
      "epoch": 0.146,
      "grad_norm": 0.5424348711967468,
      "learning_rate": 0.00028624836658469165,
      "loss": 1.2806,
      "num_input_tokens_seen": 956825600,
      "step": 14600,
      "train_runtime": 7020.7829,
      "train_tokens_per_second": 136284.743
    },
    {
      "epoch": 0.147,
      "grad_norm": 0.4333992898464203,
      "learning_rate": 0.00028604858454452906,
      "loss": 1.2776,
      "num_input_tokens_seen": 963379200,
      "step": 14700,
      "train_runtime": 7066.7012,
      "train_tokens_per_second": 136326.58
    },
    {
      "epoch": 0.148,
      "grad_norm": 1.3118066787719727,
      "learning_rate": 0.00028584743249663057,
      "loss": 1.3039,
      "num_input_tokens_seen": 969932800,
      "step": 14800,
      "train_runtime": 7115.8691,
      "train_tokens_per_second": 136305.6
    },
    {
      "epoch": 0.149,
      "grad_norm": 0.5320950150489807,
      "learning_rate": 0.000285644912466595,
      "loss": 1.2801,
      "num_input_tokens_seen": 976486400,
      "step": 14900,
      "train_runtime": 7162.6662,
      "train_tokens_per_second": 136330.016
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.6902542114257812,
      "learning_rate": 0.00028544102649379684,
      "loss": 1.2832,
      "num_input_tokens_seen": 983040000,
      "step": 15000,
      "train_runtime": 7209.6657,
      "train_tokens_per_second": 136350.29
    },
    {
      "epoch": 0.151,
      "grad_norm": 0.544683039188385,
      "learning_rate": 0.00028523577663136556,
      "loss": 1.2948,
      "num_input_tokens_seen": 989593600,
      "step": 15100,
      "train_runtime": 7261.0326,
      "train_tokens_per_second": 136288.275
    },
    {
      "epoch": 0.152,
      "grad_norm": 0.500091552734375,
      "learning_rate": 0.000285029164946165,
      "loss": 1.2746,
      "num_input_tokens_seen": 996147200,
      "step": 15200,
      "train_runtime": 7306.6445,
      "train_tokens_per_second": 136334.427
    },
    {
      "epoch": 0.153,
      "grad_norm": 0.4995329678058624,
      "learning_rate": 0.0002848211935187725,
      "loss": 1.2893,
      "num_input_tokens_seen": 1002700800,
      "step": 15300,
      "train_runtime": 7353.2711,
      "train_tokens_per_second": 136361.19
    },
    {
      "epoch": 0.154,
      "grad_norm": 0.42985284328460693,
      "learning_rate": 0.0002846118644434581,
      "loss": 1.3077,
      "num_input_tokens_seen": 1009254400,
      "step": 15400,
      "train_runtime": 7400.7889,
      "train_tokens_per_second": 136371.192
    },
    {
      "epoch": 0.155,
      "grad_norm": 0.4847468137741089,
      "learning_rate": 0.00028440117982816326,
      "loss": 1.2723,
      "num_input_tokens_seen": 1015808000,
      "step": 15500,
      "train_runtime": 7452.7433,
      "train_tokens_per_second": 136299.877
    },
    {
      "epoch": 0.156,
      "grad_norm": 0.47867411375045776,
      "learning_rate": 0.0002841891417944796,
      "loss": 1.2754,
      "num_input_tokens_seen": 1022361600,
      "step": 15600,
      "train_runtime": 7498.8195,
      "train_tokens_per_second": 136336.339
    },
    {
      "epoch": 0.157,
      "grad_norm": 0.43365904688835144,
      "learning_rate": 0.0002839757524776279,
      "loss": 1.2737,
      "num_input_tokens_seen": 1028915200,
      "step": 15700,
      "train_runtime": 7545.0284,
      "train_tokens_per_second": 136369.957
    },
    {
      "epoch": 0.158,
      "grad_norm": 0.5739541053771973,
      "learning_rate": 0.0002837610140264361,
      "loss": 1.286,
      "num_input_tokens_seen": 1035468800,
      "step": 15800,
      "train_runtime": 7597.8039,
      "train_tokens_per_second": 136285.275
    },
    {
      "epoch": 0.159,
      "grad_norm": 0.4836307168006897,
      "learning_rate": 0.0002835449286033182,
      "loss": 1.2779,
      "num_input_tokens_seen": 1042022400,
      "step": 15900,
      "train_runtime": 7643.6023,
      "train_tokens_per_second": 136326.088
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.5712729692459106,
      "learning_rate": 0.0002833274983842518,
      "loss": 1.2702,
      "num_input_tokens_seen": 1048576000,
      "step": 16000,
      "train_runtime": 7691.0096,
      "train_tokens_per_second": 136337.887
    },
    {
      "epoch": 0.161,
      "grad_norm": 0.48568034172058105,
      "learning_rate": 0.0002831087255587569,
      "loss": 1.2696,
      "num_input_tokens_seen": 1055129600,
      "step": 16100,
      "train_runtime": 7737.6132,
      "train_tokens_per_second": 136363.705
    },
    {
      "epoch": 0.162,
      "grad_norm": 0.5240116715431213,
      "learning_rate": 0.0002828886123298734,
      "loss": 1.2636,
      "num_input_tokens_seen": 1061683200,
      "step": 16200,
      "train_runtime": 7790.0975,
      "train_tokens_per_second": 136286.253
    },
    {
      "epoch": 0.163,
      "grad_norm": 0.4505080580711365,
      "learning_rate": 0.00028266716091413906,
      "loss": 1.2679,
      "num_input_tokens_seen": 1068236800,
      "step": 16300,
      "train_runtime": 7837.0156,
      "train_tokens_per_second": 136306.581
    },
    {
      "epoch": 0.164,
      "grad_norm": 0.38184958696365356,
      "learning_rate": 0.0002824443735415673,
      "loss": 1.2801,
      "num_input_tokens_seen": 1074790400,
      "step": 16400,
      "train_runtime": 7884.0198,
      "train_tokens_per_second": 136325.178
    },
    {
      "epoch": 0.165,
      "grad_norm": 0.860382616519928,
      "learning_rate": 0.0002822202524556243,
      "loss": 1.2737,
      "num_input_tokens_seen": 1081344000,
      "step": 16500,
      "train_runtime": 7930.486,
      "train_tokens_per_second": 136352.803
    },
    {
      "epoch": 0.166,
      "grad_norm": 0.771594226360321,
      "learning_rate": 0.00028199479991320695,
      "loss": 1.2876,
      "num_input_tokens_seen": 1087897600,
      "step": 16600,
      "train_runtime": 7977.0943,
      "train_tokens_per_second": 136377.678
    },
    {
      "epoch": 0.167,
      "grad_norm": 0.4533759653568268,
      "learning_rate": 0.00028176801818461994,
      "loss": 1.2769,
      "num_input_tokens_seen": 1094451200,
      "step": 16700,
      "train_runtime": 8024.6165,
      "train_tokens_per_second": 136386.73
    },
    {
      "epoch": 0.168,
      "grad_norm": 0.548772394657135,
      "learning_rate": 0.00028153990955355273,
      "loss": 1.2647,
      "num_input_tokens_seen": 1101004800,
      "step": 16800,
      "train_runtime": 8077.0632,
      "train_tokens_per_second": 136312.515
    },
    {
      "epoch": 0.169,
      "grad_norm": 0.5390068888664246,
      "learning_rate": 0.00028131047631705665,
      "loss": 1.2799,
      "num_input_tokens_seen": 1107558400,
      "step": 16900,
      "train_runtime": 8123.3347,
      "train_tokens_per_second": 136342.824
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4429817795753479,
      "learning_rate": 0.00028107972078552187,
      "loss": 1.2727,
      "num_input_tokens_seen": 1114112000,
      "step": 17000,
      "train_runtime": 8169.0719,
      "train_tokens_per_second": 136381.71
    },
    {
      "epoch": 0.171,
      "grad_norm": 0.6212127208709717,
      "learning_rate": 0.0002808476452826541,
      "loss": 1.2743,
      "num_input_tokens_seen": 1120665600,
      "step": 17100,
      "train_runtime": 8217.1136,
      "train_tokens_per_second": 136381.904
    },
    {
      "epoch": 0.172,
      "grad_norm": 0.44569867849349976,
      "learning_rate": 0.00028061425214545094,
      "loss": 1.2628,
      "num_input_tokens_seen": 1127219200,
      "step": 17200,
      "train_runtime": 8268.2495,
      "train_tokens_per_second": 136331.057
    },
    {
      "epoch": 0.173,
      "grad_norm": 0.5025371313095093,
      "learning_rate": 0.00028037954372417883,
      "loss": 1.2651,
      "num_input_tokens_seen": 1133772800,
      "step": 17300,
      "train_runtime": 8315.4333,
      "train_tokens_per_second": 136345.607
    },
    {
      "epoch": 0.174,
      "grad_norm": 0.5257975459098816,
      "learning_rate": 0.0002801435223823488,
      "loss": 1.2701,
      "num_input_tokens_seen": 1140326400,
      "step": 17400,
      "train_runtime": 8361.8666,
      "train_tokens_per_second": 136372.23
    },
    {
      "epoch": 0.175,
      "grad_norm": 0.6858969926834106,
      "learning_rate": 0.00027990619049669336,
      "loss": 1.2759,
      "num_input_tokens_seen": 1146880000,
      "step": 17500,
      "train_runtime": 8408.7431,
      "train_tokens_per_second": 136391.371
    },
    {
      "epoch": 0.176,
      "grad_norm": 0.5586578845977783,
      "learning_rate": 0.00027966755045714177,
      "loss": 1.2782,
      "num_input_tokens_seen": 1153433600,
      "step": 17600,
      "train_runtime": 8455.5155,
      "train_tokens_per_second": 136411.978
    },
    {
      "epoch": 0.177,
      "grad_norm": 0.583242654800415,
      "learning_rate": 0.00027942760466679673,
      "loss": 1.287,
      "num_input_tokens_seen": 1159987200,
      "step": 17700,
      "train_runtime": 8508.2754,
      "train_tokens_per_second": 136336.349
    },
    {
      "epoch": 0.178,
      "grad_norm": 0.5521747469902039,
      "learning_rate": 0.00027918635554190956,
      "loss": 1.2704,
      "num_input_tokens_seen": 1166540800,
      "step": 17800,
      "train_runtime": 8555.5497,
      "train_tokens_per_second": 136349.018
    },
    {
      "epoch": 0.179,
      "grad_norm": 0.6325215697288513,
      "learning_rate": 0.00027894380551185636,
      "loss": 1.2912,
      "num_input_tokens_seen": 1173094400,
      "step": 17900,
      "train_runtime": 8602.3857,
      "train_tokens_per_second": 136368.495
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.44643789529800415,
      "learning_rate": 0.00027869995701911314,
      "loss": 1.2762,
      "num_input_tokens_seen": 1179648000,
      "step": 18000,
      "train_runtime": 8649.7648,
      "train_tokens_per_second": 136379.2
    },
    {
      "epoch": 0.181,
      "grad_norm": 0.49556615948677063,
      "learning_rate": 0.0002784548125192316,
      "loss": 1.2577,
      "num_input_tokens_seen": 1186201600,
      "step": 18100,
      "train_runtime": 8701.0558,
      "train_tokens_per_second": 136328.467
    },
    {
      "epoch": 0.182,
      "grad_norm": 0.5336231589317322,
      "learning_rate": 0.0002782083744808141,
      "loss": 1.2629,
      "num_input_tokens_seen": 1192755200,
      "step": 18200,
      "train_runtime": 8748.3794,
      "train_tokens_per_second": 136340.131
    },
    {
      "epoch": 0.183,
      "grad_norm": 0.3993295431137085,
      "learning_rate": 0.000277960645385489,
      "loss": 1.2621,
      "num_input_tokens_seen": 1199308800,
      "step": 18300,
      "train_runtime": 8795.9903,
      "train_tokens_per_second": 136347.217
    },
    {
      "epoch": 0.184,
      "grad_norm": 0.5608197450637817,
      "learning_rate": 0.00027771162772788544,
      "loss": 1.2746,
      "num_input_tokens_seen": 1205862400,
      "step": 18400,
      "train_runtime": 8844.0918,
      "train_tokens_per_second": 136346.663
    },
    {
      "epoch": 0.185,
      "grad_norm": 0.5299677848815918,
      "learning_rate": 0.00027746132401560857,
      "loss": 1.2608,
      "num_input_tokens_seen": 1212416000,
      "step": 18500,
      "train_runtime": 8890.974,
      "train_tokens_per_second": 136364.812
    },
    {
      "epoch": 0.186,
      "grad_norm": 0.5247559547424316,
      "learning_rate": 0.0002772097367692139,
      "loss": 1.2628,
      "num_input_tokens_seen": 1218969600,
      "step": 18600,
      "train_runtime": 8937.3092,
      "train_tokens_per_second": 136391.119
    },
    {
      "epoch": 0.187,
      "grad_norm": 0.4991471469402313,
      "learning_rate": 0.00027695686852218226,
      "loss": 1.2617,
      "num_input_tokens_seen": 1225523200,
      "step": 18700,
      "train_runtime": 8984.1463,
      "train_tokens_per_second": 136409.532
    },
    {
      "epoch": 0.188,
      "grad_norm": 0.4922790229320526,
      "learning_rate": 0.00027670272182089416,
      "loss": 1.277,
      "num_input_tokens_seen": 1232076800,
      "step": 18800,
      "train_runtime": 9036.4876,
      "train_tokens_per_second": 136344.656
    },
    {
      "epoch": 0.189,
      "grad_norm": 0.49377188086509705,
      "learning_rate": 0.0002764472992246039,
      "loss": 1.2767,
      "num_input_tokens_seen": 1238630400,
      "step": 18900,
      "train_runtime": 9084.3866,
      "train_tokens_per_second": 136347.169
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6417357921600342,
      "learning_rate": 0.0002761906033054143,
      "loss": 1.2616,
      "num_input_tokens_seen": 1245184000,
      "step": 19000,
      "train_runtime": 9130.7221,
      "train_tokens_per_second": 136373.004
    },
    {
      "epoch": 0.191,
      "grad_norm": 0.44580140709877014,
      "learning_rate": 0.00027593263664825045,
      "loss": 1.2686,
      "num_input_tokens_seen": 1251737600,
      "step": 19100,
      "train_runtime": 9176.6051,
      "train_tokens_per_second": 136405.303
    },
    {
      "epoch": 0.192,
      "grad_norm": 0.5867856740951538,
      "learning_rate": 0.00027567340185083363,
      "loss": 1.2638,
      "num_input_tokens_seen": 1258291200,
      "step": 19200,
      "train_runtime": 9229.719,
      "train_tokens_per_second": 136330.391
    },
    {
      "epoch": 0.193,
      "grad_norm": 0.4900195896625519,
      "learning_rate": 0.00027541290152365537,
      "loss": 1.263,
      "num_input_tokens_seen": 1264844800,
      "step": 19300,
      "train_runtime": 9276.2421,
      "train_tokens_per_second": 136353.147
    },
    {
      "epoch": 0.194,
      "grad_norm": 0.49572521448135376,
      "learning_rate": 0.00027515113828995117,
      "loss": 1.273,
      "num_input_tokens_seen": 1271398400,
      "step": 19400,
      "train_runtime": 9323.5363,
      "train_tokens_per_second": 136364.396
    },
    {
      "epoch": 0.195,
      "grad_norm": 0.440213680267334,
      "learning_rate": 0.00027488811478567374,
      "loss": 1.2657,
      "num_input_tokens_seen": 1277952000,
      "step": 19500,
      "train_runtime": 9371.4717,
      "train_tokens_per_second": 136366.201
    },
    {
      "epoch": 0.196,
      "grad_norm": 0.5604475736618042,
      "learning_rate": 0.0002746238336594671,
      "loss": 1.2619,
      "num_input_tokens_seen": 1284505600,
      "step": 19600,
      "train_runtime": 9417.129,
      "train_tokens_per_second": 136400.978
    },
    {
      "epoch": 0.197,
      "grad_norm": 0.45344123244285583,
      "learning_rate": 0.00027435829757263894,
      "loss": 1.2573,
      "num_input_tokens_seen": 1291059200,
      "step": 19700,
      "train_runtime": 9468.5748,
      "train_tokens_per_second": 136352.009
    },
    {
      "epoch": 0.198,
      "grad_norm": 0.7260287404060364,
      "learning_rate": 0.0002740915091991349,
      "loss": 1.2668,
      "num_input_tokens_seen": 1297612800,
      "step": 19800,
      "train_runtime": 9515.3702,
      "train_tokens_per_second": 136370.186
    },
    {
      "epoch": 0.199,
      "grad_norm": 0.47865310311317444,
      "learning_rate": 0.0002738234712255109,
      "loss": 1.2674,
      "num_input_tokens_seen": 1304166400,
      "step": 19900,
      "train_runtime": 9562.0606,
      "train_tokens_per_second": 136389.682
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.8422930240631104,
      "learning_rate": 0.00027355418635090635,
      "loss": 1.2671,
      "num_input_tokens_seen": 1310720000,
      "step": 20000,
      "train_runtime": 9614.8867,
      "train_tokens_per_second": 136321.939
    },
    {
      "epoch": 0.201,
      "grad_norm": 0.8500565886497498,
      "learning_rate": 0.000273283657287017,
      "loss": 1.2722,
      "num_input_tokens_seen": 1317273600,
      "step": 20100,
      "train_runtime": 9662.5316,
      "train_tokens_per_second": 136327.999
    },
    {
      "epoch": 0.202,
      "grad_norm": 0.4511219263076782,
      "learning_rate": 0.00027301188675806745,
      "loss": 1.257,
      "num_input_tokens_seen": 1323827200,
      "step": 20200,
      "train_runtime": 9710.3614,
      "train_tokens_per_second": 136331.404
    },
    {
      "epoch": 0.203,
      "grad_norm": 0.6040441393852234,
      "learning_rate": 0.0002727388775007839,
      "loss": 1.2787,
      "num_input_tokens_seen": 1330380800,
      "step": 20300,
      "train_runtime": 9757.2415,
      "train_tokens_per_second": 136348.045
    },
    {
      "epoch": 0.204,
      "grad_norm": 0.531548798084259,
      "learning_rate": 0.0002724646322643666,
      "loss": 1.2567,
      "num_input_tokens_seen": 1336934400,
      "step": 20400,
      "train_runtime": 9803.907,
      "train_tokens_per_second": 136367.512
    },
    {
      "epoch": 0.205,
      "grad_norm": 0.5128377079963684,
      "learning_rate": 0.000272189153810462,
      "loss": 1.2634,
      "num_input_tokens_seen": 1343488000,
      "step": 20500,
      "train_runtime": 9849.6975,
      "train_tokens_per_second": 136398.909
    },
    {
      "epoch": 0.206,
      "grad_norm": 0.5763120651245117,
      "learning_rate": 0.0002719124449131351,
      "loss": 1.2708,
      "num_input_tokens_seen": 1350041600,
      "step": 20600,
      "train_runtime": 9902.5747,
      "train_tokens_per_second": 136332.382
    },
    {
      "epoch": 0.207,
      "grad_norm": 0.5266316533088684,
      "learning_rate": 0.00027163450835884144,
      "loss": 1.2579,
      "num_input_tokens_seen": 1356595200,
      "step": 20700,
      "train_runtime": 9950.4471,
      "train_tokens_per_second": 136335.1
    },
    {
      "epoch": 0.208,
      "grad_norm": 0.6279749274253845,
      "learning_rate": 0.00027135534694639894,
      "loss": 1.2566,
      "num_input_tokens_seen": 1363148800,
      "step": 20800,
      "train_runtime": 9997.0613,
      "train_tokens_per_second": 136354.951
    },
    {
      "epoch": 0.209,
      "grad_norm": 0.5421542525291443,
      "learning_rate": 0.00027107496348696003,
      "loss": 1.2687,
      "num_input_tokens_seen": 1369702400,
      "step": 20900,
      "train_runtime": 10044.3146,
      "train_tokens_per_second": 136365.939
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.5376498699188232,
      "learning_rate": 0.00027079336080398296,
      "loss": 1.2772,
      "num_input_tokens_seen": 1376256000,
      "step": 21000,
      "train_runtime": 10090.6051,
      "train_tokens_per_second": 136389.839
    },
    {
      "epoch": 0.211,
      "grad_norm": 0.41719597578048706,
      "learning_rate": 0.00027051054173320366,
      "loss": 1.2502,
      "num_input_tokens_seen": 1382809600,
      "step": 21100,
      "train_runtime": 10143.3243,
      "train_tokens_per_second": 136327.063
    },
    {
      "epoch": 0.212,
      "grad_norm": 0.4714694321155548,
      "learning_rate": 0.000270226509122607,
      "loss": 1.2537,
      "num_input_tokens_seen": 1389363200,
      "step": 21200,
      "train_runtime": 10188.8874,
      "train_tokens_per_second": 136360.639
    },
    {
      "epoch": 0.213,
      "grad_norm": 0.4616274833679199,
      "learning_rate": 0.0002699412658323983,
      "loss": 1.2571,
      "num_input_tokens_seen": 1395916800,
      "step": 21300,
      "train_runtime": 10236.5378,
      "train_tokens_per_second": 136366.107
    },
    {
      "epoch": 0.214,
      "grad_norm": 0.4215717911720276,
      "learning_rate": 0.00026965481473497423,
      "loss": 1.2687,
      "num_input_tokens_seen": 1402470400,
      "step": 21400,
      "train_runtime": 10282.9404,
      "train_tokens_per_second": 136388.071
    },
    {
      "epoch": 0.215,
      "grad_norm": 0.5976271033287048,
      "learning_rate": 0.0002693671587148942,
      "loss": 1.2573,
      "num_input_tokens_seen": 1409024000,
      "step": 21500,
      "train_runtime": 10329.955,
      "train_tokens_per_second": 136401.756
    },
    {
      "epoch": 0.216,
      "grad_norm": 0.5200098752975464,
      "learning_rate": 0.0002690783006688511,
      "loss": 1.247,
      "num_input_tokens_seen": 1415577600,
      "step": 21600,
      "train_runtime": 10382.0767,
      "train_tokens_per_second": 136348.213
    },
    {
      "epoch": 0.217,
      "grad_norm": 0.8170623779296875,
      "learning_rate": 0.0002687882435056423,
      "loss": 1.2562,
      "num_input_tokens_seen": 1422131200,
      "step": 21700,
      "train_runtime": 10429.827,
      "train_tokens_per_second": 136352.329
    },
    {
      "epoch": 0.218,
      "grad_norm": 0.52497398853302,
      "learning_rate": 0.0002684969901461402,
      "loss": 1.2533,
      "num_input_tokens_seen": 1428684800,
      "step": 21800,
      "train_runtime": 10476.8104,
      "train_tokens_per_second": 136366.388
    },
    {
      "epoch": 0.219,
      "grad_norm": 0.4417087137699127,
      "learning_rate": 0.000268204543523263,
      "loss": 1.2721,
      "num_input_tokens_seen": 1435238400,
      "step": 21900,
      "train_runtime": 10524.1028,
      "train_tokens_per_second": 136376.319
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.5729189515113831,
      "learning_rate": 0.0002679109065819447,
      "loss": 1.2654,
      "num_input_tokens_seen": 1441792000,
      "step": 22000,
      "train_runtime": 10572.3447,
      "train_tokens_per_second": 136373.911
    },
    {
      "epoch": 0.221,
      "grad_norm": 0.5111753940582275,
      "learning_rate": 0.0002676160822791062,
      "loss": 1.2581,
      "num_input_tokens_seen": 1448345600,
      "step": 22100,
      "train_runtime": 10619.3771,
      "train_tokens_per_second": 136387.057
    },
    {
      "epoch": 0.222,
      "grad_norm": 0.4302677512168884,
      "learning_rate": 0.00026732007358362496,
      "loss": 1.2581,
      "num_input_tokens_seen": 1454899200,
      "step": 22200,
      "train_runtime": 10666.0714,
      "train_tokens_per_second": 136404.413
    },
    {
      "epoch": 0.223,
      "grad_norm": 3.9242477416992188,
      "learning_rate": 0.0002670228834763052,
      "loss": 1.2872,
      "num_input_tokens_seen": 1461452800,
      "step": 22300,
      "train_runtime": 10719.3985,
      "train_tokens_per_second": 136337.203
    },
    {
      "epoch": 0.224,
      "grad_norm": 0.7662601470947266,
      "learning_rate": 0.00026672451494984804,
      "loss": 1.2602,
      "num_input_tokens_seen": 1468006400,
      "step": 22400,
      "train_runtime": 10767.2807,
      "train_tokens_per_second": 136339.568
    },
    {
      "epoch": 0.225,
      "grad_norm": 0.48544740676879883,
      "learning_rate": 0.0002664249710088213,
      "loss": 1.257,
      "num_input_tokens_seen": 1474560000,
      "step": 22500,
      "train_runtime": 10813.982,
      "train_tokens_per_second": 136356.802
    },
    {
      "epoch": 0.226,
      "grad_norm": 0.4495686888694763,
      "learning_rate": 0.00026612425466962893,
      "loss": 1.2552,
      "num_input_tokens_seen": 1481113600,
      "step": 22600,
      "train_runtime": 10860.2948,
      "train_tokens_per_second": 136378.766
    },
    {
      "epoch": 0.227,
      "grad_norm": 0.5733143091201782,
      "learning_rate": 0.00026582236896048134,
      "loss": 1.2403,
      "num_input_tokens_seen": 1487667200,
      "step": 22700,
      "train_runtime": 10907.2107,
      "train_tokens_per_second": 136393.001
    },
    {
      "epoch": 0.228,
      "grad_norm": 0.7318263649940491,
      "learning_rate": 0.00026551931692136413,
      "loss": 1.2468,
      "num_input_tokens_seen": 1494220800,
      "step": 22800,
      "train_runtime": 10953.9499,
      "train_tokens_per_second": 136409.315
    },
    {
      "epoch": 0.229,
      "grad_norm": 0.5192084312438965,
      "learning_rate": 0.00026521510160400804,
      "loss": 1.2458,
      "num_input_tokens_seen": 1500774400,
      "step": 22900,
      "train_runtime": 11006.6198,
      "train_tokens_per_second": 136351.98
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4651305079460144,
      "learning_rate": 0.00026490972607185793,
      "loss": 1.2601,
      "num_input_tokens_seen": 1507328000,
      "step": 23000,
      "train_runtime": 11053.8305,
      "train_tokens_per_second": 136362.504
    },
    {
      "epoch": 0.231,
      "grad_norm": 0.5470275282859802,
      "learning_rate": 0.0002646031934000421,
      "loss": 1.2405,
      "num_input_tokens_seen": 1513881600,
      "step": 23100,
      "train_runtime": 11099.6418,
      "train_tokens_per_second": 136390.132
    },
    {
      "epoch": 0.232,
      "grad_norm": 0.519235372543335,
      "learning_rate": 0.00026429550667534095,
      "loss": 1.2586,
      "num_input_tokens_seen": 1520435200,
      "step": 23200,
      "train_runtime": 11152.1986,
      "train_tokens_per_second": 136335.018
    },
    {
      "epoch": 0.233,
      "grad_norm": 0.4892626404762268,
      "learning_rate": 0.0002639866689961565,
      "loss": 1.2595,
      "num_input_tokens_seen": 1526988800,
      "step": 23300,
      "train_runtime": 11199.2653,
      "train_tokens_per_second": 136347.23
    },
    {
      "epoch": 0.234,
      "grad_norm": 0.4089221656322479,
      "learning_rate": 0.00026367668347248083,
      "loss": 1.2393,
      "num_input_tokens_seen": 1533542400,
      "step": 23400,
      "train_runtime": 11247.6635,
      "train_tokens_per_second": 136343.196
    },
    {
      "epoch": 0.235,
      "grad_norm": 0.467582106590271,
      "learning_rate": 0.0002633655532258646,
      "loss": 1.2534,
      "num_input_tokens_seen": 1540096000,
      "step": 23500,
      "train_runtime": 11294.1646,
      "train_tokens_per_second": 136362.099
    },
    {
      "epoch": 0.236,
      "grad_norm": 0.48117080330848694,
      "learning_rate": 0.000263053281389386,
      "loss": 1.2644,
      "num_input_tokens_seen": 1546649600,
      "step": 23600,
      "train_runtime": 11340.9021,
      "train_tokens_per_second": 136378.004
    },
    {
      "epoch": 0.237,
      "grad_norm": 0.4495629072189331,
      "learning_rate": 0.0002627398711076189,
      "loss": 1.2442,
      "num_input_tokens_seen": 1553203200,
      "step": 23700,
      "train_runtime": 11387.7566,
      "train_tokens_per_second": 136392.377
    },
    {
      "epoch": 0.238,
      "grad_norm": 0.4376384913921356,
      "learning_rate": 0.0002624253255366014,
      "loss": 1.2489,
      "num_input_tokens_seen": 1559756800,
      "step": 23800,
      "train_runtime": 11439.8893,
      "train_tokens_per_second": 136343.696
    },
    {
      "epoch": 0.239,
      "grad_norm": 0.4419648349285126,
      "learning_rate": 0.0002621096478438039,
      "loss": 1.2353,
      "num_input_tokens_seen": 1566310400,
      "step": 23900,
      "train_runtime": 11486.001,
      "train_tokens_per_second": 136366.904
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.669739305973053,
      "learning_rate": 0.00026179284120809727,
      "loss": 1.2528,
      "num_input_tokens_seen": 1572864000,
      "step": 24000,
      "train_runtime": 11533.9608,
      "train_tokens_per_second": 136368.072
    },
    {
      "epoch": 0.241,
      "grad_norm": 0.4047415554523468,
      "learning_rate": 0.0002614749088197208,
      "loss": 1.2679,
      "num_input_tokens_seen": 1579417600,
      "step": 24100,
      "train_runtime": 11582.9583,
      "train_tokens_per_second": 136357.013
    },
    {
      "epoch": 0.242,
      "grad_norm": 0.5224933624267578,
      "learning_rate": 0.00026115585388025015,
      "loss": 1.2425,
      "num_input_tokens_seen": 1585971200,
      "step": 24200,
      "train_runtime": 11630.022,
      "train_tokens_per_second": 136368.719
    },
    {
      "epoch": 0.243,
      "grad_norm": 0.5125856399536133,
      "learning_rate": 0.00026083567960256493,
      "loss": 1.2423,
      "num_input_tokens_seen": 1592524800,
      "step": 24300,
      "train_runtime": 11677.13,
      "train_tokens_per_second": 136379.813
    },
    {
      "epoch": 0.244,
      "grad_norm": 0.5344144701957703,
      "learning_rate": 0.00026051438921081667,
      "loss": 1.2431,
      "num_input_tokens_seen": 1599078400,
      "step": 24400,
      "train_runtime": 11723.5349,
      "train_tokens_per_second": 136398.997
    },
    {
      "epoch": 0.245,
      "grad_norm": 0.4386890232563019,
      "learning_rate": 0.00026019198594039595,
      "loss": 1.2426,
      "num_input_tokens_seen": 1605632000,
      "step": 24500,
      "train_runtime": 11773.1296,
      "train_tokens_per_second": 136381.069
    },
    {
      "epoch": 0.246,
      "grad_norm": 0.4986630082130432,
      "learning_rate": 0.00025986847303790026,
      "loss": 1.2531,
      "num_input_tokens_seen": 1612185600,
      "step": 24600,
      "train_runtime": 11820.6579,
      "train_tokens_per_second": 136387.13
    },
    {
      "epoch": 0.247,
      "grad_norm": 0.5271715521812439,
      "learning_rate": 0.00025954385376110076,
      "loss": 1.249,
      "num_input_tokens_seen": 1618739200,
      "step": 24700,
      "train_runtime": 11867.4874,
      "train_tokens_per_second": 136401.172
    },
    {
      "epoch": 0.248,
      "grad_norm": 0.45263609290122986,
      "learning_rate": 0.00025921813137891005,
      "loss": 1.2507,
      "num_input_tokens_seen": 1625292800,
      "step": 24800,
      "train_runtime": 11919.9131,
      "train_tokens_per_second": 136351.061
    },
    {
      "epoch": 0.249,
      "grad_norm": 0.5932081937789917,
      "learning_rate": 0.000258891309171349,
      "loss": 1.2438,
      "num_input_tokens_seen": 1631846400,
      "step": 24900,
      "train_runtime": 11962.6395,
      "train_tokens_per_second": 136411.902
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.5539859533309937,
      "learning_rate": 0.00025856339042951344,
      "loss": 1.2548,
      "num_input_tokens_seen": 1638400000,
      "step": 25000,
      "train_runtime": 12014.9411,
      "train_tokens_per_second": 136363.548
    },
    {
      "epoch": 0.251,
      "grad_norm": 0.5236772298812866,
      "learning_rate": 0.0002582343784555415,
      "loss": 1.2386,
      "num_input_tokens_seen": 1644953600,
      "step": 25100,
      "train_runtime": 12062.3997,
      "train_tokens_per_second": 136370.344
    },
    {
      "epoch": 0.252,
      "grad_norm": 0.5913048982620239,
      "learning_rate": 0.00025790427656258017,
      "loss": 1.2354,
      "num_input_tokens_seen": 1651507200,
      "step": 25200,
      "train_runtime": 12108.5333,
      "train_tokens_per_second": 136392.01
    },
    {
      "epoch": 0.253,
      "grad_norm": 0.5929732322692871,
      "learning_rate": 0.00025757308807475185,
      "loss": 1.2582,
      "num_input_tokens_seen": 1658060800,
      "step": 25300,
      "train_runtime": 12154.8252,
      "train_tokens_per_second": 136411.736
    },
    {
      "epoch": 0.254,
      "grad_norm": 0.4542764723300934,
      "learning_rate": 0.00025724081632712086,
      "loss": 1.2488,
      "num_input_tokens_seen": 1664614400,
      "step": 25400,
      "train_runtime": 12207.8935,
      "train_tokens_per_second": 136355.58
    },
    {
      "epoch": 0.255,
      "grad_norm": 1.0848513841629028,
      "learning_rate": 0.0002569074646656601,
      "loss": 1.2375,
      "num_input_tokens_seen": 1671168000,
      "step": 25500,
      "train_runtime": 12254.3162,
      "train_tokens_per_second": 136373.827
    },
    {
      "epoch": 0.256,
      "grad_norm": 0.5190780162811279,
      "learning_rate": 0.00025657303644721695,
      "loss": 1.236,
      "num_input_tokens_seen": 1677721600,
      "step": 25600,
      "train_runtime": 12301.2378,
      "train_tokens_per_second": 136386.405
    },
    {
      "epoch": 0.257,
      "grad_norm": 0.43418362736701965,
      "learning_rate": 0.00025623753503948004,
      "loss": 1.2484,
      "num_input_tokens_seen": 1684275200,
      "step": 25700,
      "train_runtime": 12347.684,
      "train_tokens_per_second": 136404.138
    },
    {
      "epoch": 0.258,
      "grad_norm": 0.4586409032344818,
      "learning_rate": 0.00025590096382094475,
      "loss": 1.2674,
      "num_input_tokens_seen": 1690828800,
      "step": 25800,
      "train_runtime": 12394.5809,
      "train_tokens_per_second": 136416.778
    },
    {
      "epoch": 0.259,
      "grad_norm": 0.5069702863693237,
      "learning_rate": 0.00025556332618087945,
      "loss": 1.2428,
      "num_input_tokens_seen": 1697382400,
      "step": 25900,
      "train_runtime": 12447.2116,
      "train_tokens_per_second": 136366.478
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.591788649559021,
      "learning_rate": 0.00025522462551929155,
      "loss": 1.2417,
      "num_input_tokens_seen": 1703936000,
      "step": 26000,
      "train_runtime": 12492.8891,
      "train_tokens_per_second": 136392.47
    },
    {
      "epoch": 0.261,
      "grad_norm": 0.6001791954040527,
      "learning_rate": 0.00025488486524689283,
      "loss": 1.2407,
      "num_input_tokens_seen": 1710489600,
      "step": 26100,
      "train_runtime": 12539.4548,
      "train_tokens_per_second": 136408.61
    },
    {
      "epoch": 0.262,
      "grad_norm": 0.47005897760391235,
      "learning_rate": 0.00025454404878506555,
      "loss": 1.2558,
      "num_input_tokens_seen": 1717043200,
      "step": 26200,
      "train_runtime": 12587.1655,
      "train_tokens_per_second": 136412.221
    },
    {
      "epoch": 0.263,
      "grad_norm": 0.42708972096443176,
      "learning_rate": 0.0002542021795658276,
      "loss": 1.2445,
      "num_input_tokens_seen": 1723596800,
      "step": 26300,
      "train_runtime": 12634.1294,
      "train_tokens_per_second": 136423.868
    },
    {
      "epoch": 0.264,
      "grad_norm": 0.48100486397743225,
      "learning_rate": 0.0002538592610317984,
      "loss": 1.2416,
      "num_input_tokens_seen": 1730150400,
      "step": 26400,
      "train_runtime": 12686.5075,
      "train_tokens_per_second": 136377.202
    },
    {
      "epoch": 0.265,
      "grad_norm": 0.5689502954483032,
      "learning_rate": 0.00025351529663616355,
      "loss": 1.2476,
      "num_input_tokens_seen": 1736704000,
      "step": 26500,
      "train_runtime": 12733.1403,
      "train_tokens_per_second": 136392.435
    },
    {
      "epoch": 0.266,
      "grad_norm": 0.3999510705471039,
      "learning_rate": 0.00025317028984264087,
      "loss": 1.2507,
      "num_input_tokens_seen": 1743257600,
      "step": 26600,
      "train_runtime": 12780.4326,
      "train_tokens_per_second": 136400.515
    },
    {
      "epoch": 0.267,
      "grad_norm": 0.4349440336227417,
      "learning_rate": 0.0002528242441254448,
      "loss": 1.2359,
      "num_input_tokens_seen": 1749811200,
      "step": 26700,
      "train_runtime": 12826.6298,
      "train_tokens_per_second": 136420.184
    },
    {
      "epoch": 0.268,
      "grad_norm": 0.40468648076057434,
      "learning_rate": 0.000252477162969252,
      "loss": 1.2463,
      "num_input_tokens_seen": 1756364800,
      "step": 26800,
      "train_runtime": 12873.4848,
      "train_tokens_per_second": 136432.739
    },
    {
      "epoch": 0.269,
      "grad_norm": 0.5858653783798218,
      "learning_rate": 0.00025212904986916584,
      "loss": 1.2385,
      "num_input_tokens_seen": 1762918400,
      "step": 26900,
      "train_runtime": 12926.2009,
      "train_tokens_per_second": 136383.336
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4621046483516693,
      "learning_rate": 0.00025177990833068133,
      "loss": 1.2366,
      "num_input_tokens_seen": 1769472000,
      "step": 27000,
      "train_runtime": 12973.4952,
      "train_tokens_per_second": 136391.31
    },
    {
      "epoch": 0.271,
      "grad_norm": 0.4884892404079437,
      "learning_rate": 0.0002514297418696499,
      "loss": 1.2436,
      "num_input_tokens_seen": 1776025600,
      "step": 27100,
      "train_runtime": 13021.2871,
      "train_tokens_per_second": 136394.013
    },
    {
      "epoch": 0.272,
      "grad_norm": 0.5108981132507324,
      "learning_rate": 0.0002510785540122439,
      "loss": 1.2423,
      "num_input_tokens_seen": 1782579200,
      "step": 27200,
      "train_runtime": 13068.0423,
      "train_tokens_per_second": 136407.517
    },
    {
      "epoch": 0.273,
      "grad_norm": 0.3898067772388458,
      "learning_rate": 0.0002507263482949212,
      "loss": 1.2415,
      "num_input_tokens_seen": 1789132800,
      "step": 27300,
      "train_runtime": 13113.8421,
      "train_tokens_per_second": 136430.864
    },
    {
      "epoch": 0.274,
      "grad_norm": 0.5622383952140808,
      "learning_rate": 0.0002503731282643894,
      "loss": 1.2378,
      "num_input_tokens_seen": 1795686400,
      "step": 27400,
      "train_runtime": 13161.1635,
      "train_tokens_per_second": 136438.272
    },
    {
      "epoch": 0.275,
      "grad_norm": 0.7748796343803406,
      "learning_rate": 0.0002500188974775704,
      "loss": 1.248,
      "num_input_tokens_seen": 1802240000,
      "step": 27500,
      "train_runtime": 13209.4471,
      "train_tokens_per_second": 136435.688
    },
    {
      "epoch": 0.276,
      "grad_norm": 0.8867826461791992,
      "learning_rate": 0.00024966365950156416,
      "loss": 1.2409,
      "num_input_tokens_seen": 1808793600,
      "step": 27600,
      "train_runtime": 13256.4066,
      "train_tokens_per_second": 136446.751
    },
    {
      "epoch": 0.277,
      "grad_norm": 0.49997836351394653,
      "learning_rate": 0.00024930741791361326,
      "loss": 1.2382,
      "num_input_tokens_seen": 1815347200,
      "step": 27700,
      "train_runtime": 13309.6196,
      "train_tokens_per_second": 136393.62
    },
    {
      "epoch": 0.278,
      "grad_norm": 0.5048521161079407,
      "learning_rate": 0.0002489501763010664,
      "loss": 1.2351,
      "num_input_tokens_seen": 1821900800,
      "step": 27800,
      "train_runtime": 13356.706,
      "train_tokens_per_second": 136403.451
    },
    {
      "epoch": 0.279,
      "grad_norm": 0.5528578162193298,
      "learning_rate": 0.00024859193826134285,
      "loss": 1.2404,
      "num_input_tokens_seen": 1828454400,
      "step": 27900,
      "train_runtime": 13405.5813,
      "train_tokens_per_second": 136395.01
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.44376805424690247,
      "learning_rate": 0.00024823270740189556,
      "loss": 1.2461,
      "num_input_tokens_seen": 1835008000,
      "step": 28000,
      "train_runtime": 13452.7686,
      "train_tokens_per_second": 136403.743
    },
    {
      "epoch": 0.281,
      "grad_norm": 0.5072674751281738,
      "learning_rate": 0.00024787248734017527,
      "loss": 1.2301,
      "num_input_tokens_seen": 1841561600,
      "step": 28100,
      "train_runtime": 13501.0413,
      "train_tokens_per_second": 136401.449
    },
    {
      "epoch": 0.282,
      "grad_norm": 0.46835577487945557,
      "learning_rate": 0.0002475112817035941,
      "loss": 1.237,
      "num_input_tokens_seen": 1848115200,
      "step": 28200,
      "train_runtime": 13547.4814,
      "train_tokens_per_second": 136417.622
    },
    {
      "epoch": 0.283,
      "grad_norm": 0.4893036186695099,
      "learning_rate": 0.0002471490941294887,
      "loss": 1.2612,
      "num_input_tokens_seen": 1854668800,
      "step": 28300,
      "train_runtime": 13593.9904,
      "train_tokens_per_second": 136432.993
    },
    {
      "epoch": 0.284,
      "grad_norm": 0.66542649269104,
      "learning_rate": 0.000246785928265084,
      "loss": 1.2405,
      "num_input_tokens_seen": 1861222400,
      "step": 28400,
      "train_runtime": 13646.3147,
      "train_tokens_per_second": 136390.113
    },
    {
      "epoch": 0.285,
      "grad_norm": 0.669306755065918,
      "learning_rate": 0.0002464217877674562,
      "loss": 1.2409,
      "num_input_tokens_seen": 1867776000,
      "step": 28500,
      "train_runtime": 13692.502,
      "train_tokens_per_second": 136408.671
    },
    {
      "epoch": 0.286,
      "grad_norm": 0.43464845418930054,
      "learning_rate": 0.0002460566763034961,
      "loss": 1.2435,
      "num_input_tokens_seen": 1874329600,
      "step": 28600,
      "train_runtime": 13738.7564,
      "train_tokens_per_second": 136426.438
    },
    {
      "epoch": 0.287,
      "grad_norm": 0.5084187388420105,
      "learning_rate": 0.00024569059754987196,
      "loss": 1.2572,
      "num_input_tokens_seen": 1880883200,
      "step": 28700,
      "train_runtime": 13785.6191,
      "train_tokens_per_second": 136438.065
    },
    {
      "epoch": 0.288,
      "grad_norm": 0.473603755235672,
      "learning_rate": 0.00024532355519299296,
      "loss": 1.2459,
      "num_input_tokens_seen": 1887436800,
      "step": 28800,
      "train_runtime": 13838.5181,
      "train_tokens_per_second": 136390.095
    },
    {
      "epoch": 0.289,
      "grad_norm": 0.493012011051178,
      "learning_rate": 0.0002449555529289714,
      "loss": 1.243,
      "num_input_tokens_seen": 1893990400,
      "step": 28900,
      "train_runtime": 13886.1283,
      "train_tokens_per_second": 136394.419
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.7421333193778992,
      "learning_rate": 0.0002445865944635861,
      "loss": 1.2455,
      "num_input_tokens_seen": 1900544000,
      "step": 29000,
      "train_runtime": 13931.9406,
      "train_tokens_per_second": 136416.315
    },
    {
      "epoch": 0.291,
      "grad_norm": 0.5027185678482056,
      "learning_rate": 0.0002442166835122446,
      "loss": 1.2686,
      "num_input_tokens_seen": 1907097600,
      "step": 29100,
      "train_runtime": 13980.446,
      "train_tokens_per_second": 136411.785
    },
    {
      "epoch": 0.292,
      "grad_norm": 0.48427557945251465,
      "learning_rate": 0.00024384582379994614,
      "loss": 1.2369,
      "num_input_tokens_seen": 1913651200,
      "step": 29200,
      "train_runtime": 14028.0456,
      "train_tokens_per_second": 136416.095
    },
    {
      "epoch": 0.293,
      "grad_norm": 0.6620755195617676,
      "learning_rate": 0.00024347401906124388,
      "loss": 1.2317,
      "num_input_tokens_seen": 1920204800,
      "step": 29300,
      "train_runtime": 14074.3372,
      "train_tokens_per_second": 136433.054
    },
    {
      "epoch": 0.294,
      "grad_norm": 0.5745883584022522,
      "learning_rate": 0.0002431012730402075,
      "loss": 1.2443,
      "num_input_tokens_seen": 1926758400,
      "step": 29400,
      "train_runtime": 14125.645,
      "train_tokens_per_second": 136401.446
    },
    {
      "epoch": 0.295,
      "grad_norm": 0.441680908203125,
      "learning_rate": 0.00024272758949038517,
      "loss": 1.2393,
      "num_input_tokens_seen": 1933312000,
      "step": 29500,
      "train_runtime": 14172.5336,
      "train_tokens_per_second": 136412.588
    },
    {
      "epoch": 0.296,
      "grad_norm": 0.4417046904563904,
      "learning_rate": 0.00024235297217476616,
      "loss": 1.2371,
      "num_input_tokens_seen": 1939865600,
      "step": 29600,
      "train_runtime": 14220.1572,
      "train_tokens_per_second": 136416.608
    },
    {
      "epoch": 0.297,
      "grad_norm": 0.5888639688491821,
      "learning_rate": 0.00024197742486574268,
      "loss": 1.2344,
      "num_input_tokens_seen": 1946419200,
      "step": 29700,
      "train_runtime": 14267.366,
      "train_tokens_per_second": 136424.565
    },
    {
      "epoch": 0.298,
      "grad_norm": 0.4625283479690552,
      "learning_rate": 0.0002416009513450719,
      "loss": 1.2373,
      "num_input_tokens_seen": 1952972800,
      "step": 29800,
      "train_runtime": 14318.8989,
      "train_tokens_per_second": 136391.27
    },
    {
      "epoch": 0.299,
      "grad_norm": 0.47661375999450684,
      "learning_rate": 0.00024122355540383806,
      "loss": 1.2454,
      "num_input_tokens_seen": 1959526400,
      "step": 29900,
      "train_runtime": 14365.8797,
      "train_tokens_per_second": 136401.42
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.727032482624054,
      "learning_rate": 0.00024084524084241405,
      "loss": 1.2379,
      "num_input_tokens_seen": 1966080000,
      "step": 30000,
      "train_runtime": 14415.1273,
      "train_tokens_per_second": 136390.055
    },
    {
      "epoch": 0.301,
      "grad_norm": 0.45500555634498596,
      "learning_rate": 0.00024046601147042332,
      "loss": 1.2358,
      "num_input_tokens_seen": 1972633600,
      "step": 30100,
      "train_runtime": 14461.5845,
      "train_tokens_per_second": 136405.08
    },
    {
      "epoch": 0.302,
      "grad_norm": 0.44596830010414124,
      "learning_rate": 0.0002400858711067015,
      "loss": 1.2301,
      "num_input_tokens_seen": 1979187200,
      "step": 30200,
      "train_runtime": 14508.0707,
      "train_tokens_per_second": 136419.737
    },
    {
      "epoch": 0.303,
      "grad_norm": 0.4207491874694824,
      "learning_rate": 0.00023970482357925772,
      "loss": 1.2441,
      "num_input_tokens_seen": 1985740800,
      "step": 30300,
      "train_runtime": 14555.5751,
      "train_tokens_per_second": 136424.757
    },
    {
      "epoch": 0.304,
      "grad_norm": 0.4833202064037323,
      "learning_rate": 0.00023932287272523646,
      "loss": 1.2351,
      "num_input_tokens_seen": 1992294400,
      "step": 30400,
      "train_runtime": 14601.9546,
      "train_tokens_per_second": 136440.255
    },
    {
      "epoch": 0.305,
      "grad_norm": 0.5268282294273376,
      "learning_rate": 0.00023894002239087847,
      "loss": 1.2384,
      "num_input_tokens_seen": 1998848000,
      "step": 30500,
      "train_runtime": 14654.2539,
      "train_tokens_per_second": 136400.53
    },
    {
      "epoch": 0.306,
      "grad_norm": 0.4639832377433777,
      "learning_rate": 0.0002385562764314825,
      "loss": 1.3007,
      "num_input_tokens_seen": 2005401600,
      "step": 30600,
      "train_runtime": 14702.026,
      "train_tokens_per_second": 136403.078
    },
    {
      "epoch": 0.307,
      "grad_norm": 0.526703953742981,
      "learning_rate": 0.00023817163871136596,
      "loss": 1.2481,
      "num_input_tokens_seen": 2011955200,
      "step": 30700,
      "train_runtime": 14749.4458,
      "train_tokens_per_second": 136408.868
    },
    {
      "epoch": 0.308,
      "grad_norm": 0.43404075503349304,
      "learning_rate": 0.00023778611310382652,
      "loss": 1.2273,
      "num_input_tokens_seen": 2018508800,
      "step": 30800,
      "train_runtime": 14796.5936,
      "train_tokens_per_second": 136417.128
    },
    {
      "epoch": 0.309,
      "grad_norm": 0.39956456422805786,
      "learning_rate": 0.0002373997034911027,
      "loss": 1.2275,
      "num_input_tokens_seen": 2025062400,
      "step": 30900,
      "train_runtime": 14843.3887,
      "train_tokens_per_second": 136428.578
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.46024298667907715,
      "learning_rate": 0.00023701241376433506,
      "loss": 1.2353,
      "num_input_tokens_seen": 2031616000,
      "step": 31000,
      "train_runtime": 14890.8282,
      "train_tokens_per_second": 136434.05
    },
    {
      "epoch": 0.311,
      "grad_norm": 0.38429203629493713,
      "learning_rate": 0.0002366242478235268,
      "loss": 1.2403,
      "num_input_tokens_seen": 2038169600,
      "step": 31100,
      "train_runtime": 14937.8781,
      "train_tokens_per_second": 136443.047
    },
    {
      "epoch": 0.312,
      "grad_norm": 0.5401485562324524,
      "learning_rate": 0.00023623520957750471,
      "loss": 1.2273,
      "num_input_tokens_seen": 2044723200,
      "step": 31200,
      "train_runtime": 14990.0842,
      "train_tokens_per_second": 136405.051
    },
    {
      "epoch": 0.313,
      "grad_norm": 0.5360187888145447,
      "learning_rate": 0.00023584530294387953,
      "loss": 1.2312,
      "num_input_tokens_seen": 2051276800,
      "step": 31300,
      "train_runtime": 15037.4257,
      "train_tokens_per_second": 136411.434
    },
    {
      "epoch": 0.314,
      "grad_norm": 0.4468795359134674,
      "learning_rate": 0.00023545453184900682,
      "loss": 1.2383,
      "num_input_tokens_seen": 2057830400,
      "step": 31400,
      "train_runtime": 15083.4771,
      "train_tokens_per_second": 136429.444
    },
    {
      "epoch": 0.315,
      "grad_norm": 0.4575517177581787,
      "learning_rate": 0.00023506290022794706,
      "loss": 1.2354,
      "num_input_tokens_seen": 2064384000,
      "step": 31500,
      "train_runtime": 15131.2692,
      "train_tokens_per_second": 136431.648
    },
    {
      "epoch": 0.316,
      "grad_norm": 0.7983475923538208,
      "learning_rate": 0.00023467041202442643,
      "loss": 1.2309,
      "num_input_tokens_seen": 2070937600,
      "step": 31600,
      "train_runtime": 15178.6218,
      "train_tokens_per_second": 136437.789
    },
    {
      "epoch": 0.317,
      "grad_norm": 0.4316498339176178,
      "learning_rate": 0.00023427707119079669,
      "loss": 1.2462,
      "num_input_tokens_seen": 2077491200,
      "step": 31700,
      "train_runtime": 15225.1881,
      "train_tokens_per_second": 136450.938
    },
    {
      "epoch": 0.318,
      "grad_norm": 0.5765666365623474,
      "learning_rate": 0.0002338828816879957,
      "loss": 1.2367,
      "num_input_tokens_seen": 2084044800,
      "step": 31800,
      "train_runtime": 15277.5735,
      "train_tokens_per_second": 136412.029
    },
    {
      "epoch": 0.319,
      "grad_norm": 0.44825831055641174,
      "learning_rate": 0.00023348784748550744,
      "loss": 1.2354,
      "num_input_tokens_seen": 2090598400,
      "step": 31900,
      "train_runtime": 15324.8285,
      "train_tokens_per_second": 136419.04
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.5602436661720276,
      "learning_rate": 0.00023309197256132184,
      "loss": 1.2324,
      "num_input_tokens_seen": 2097152000,
      "step": 32000,
      "train_runtime": 15371.4775,
      "train_tokens_per_second": 136431.387
    },
    {
      "epoch": 0.321,
      "grad_norm": 0.4002476930618286,
      "learning_rate": 0.00023269526090189505,
      "loss": 1.2396,
      "num_input_tokens_seen": 2103705600,
      "step": 32100,
      "train_runtime": 15419.2672,
      "train_tokens_per_second": 136433.565
    },
    {
      "epoch": 0.322,
      "grad_norm": 0.4306688606739044,
      "learning_rate": 0.00023229771650210907,
      "loss": 1.2468,
      "num_input_tokens_seen": 2110259200,
      "step": 32200,
      "train_runtime": 15466.1068,
      "train_tokens_per_second": 136444.111
    },
    {
      "epoch": 0.323,
      "grad_norm": 0.584658145904541,
      "learning_rate": 0.00023189934336523163,
      "loss": 1.2459,
      "num_input_tokens_seen": 2116812800,
      "step": 32300,
      "train_runtime": 15513.277,
      "train_tokens_per_second": 136451.686
    },
    {
      "epoch": 0.324,
      "grad_norm": 0.4049496352672577,
      "learning_rate": 0.00023150014550287574,
      "loss": 1.2455,
      "num_input_tokens_seen": 2123366400,
      "step": 32400,
      "train_runtime": 15565.7808,
      "train_tokens_per_second": 136412.456
    },
    {
      "epoch": 0.325,
      "grad_norm": 0.45713433623313904,
      "learning_rate": 0.00023110012693495943,
      "loss": 1.2308,
      "num_input_tokens_seen": 2129920000,
      "step": 32500,
      "train_runtime": 15610.6324,
      "train_tokens_per_second": 136440.341
    },
    {
      "epoch": 0.326,
      "grad_norm": 0.5710960030555725,
      "learning_rate": 0.00023069929168966527,
      "loss": 1.2434,
      "num_input_tokens_seen": 2136473600,
      "step": 32600,
      "train_runtime": 15657.7335,
      "train_tokens_per_second": 136448.458
    },
    {
      "epoch": 0.327,
      "grad_norm": 0.5807371735572815,
      "learning_rate": 0.0002302976438033997,
      "loss": 1.2292,
      "num_input_tokens_seen": 2143027200,
      "step": 32700,
      "train_runtime": 15710.1819,
      "train_tokens_per_second": 136410.082
    },
    {
      "epoch": 0.328,
      "grad_norm": 0.4462313652038574,
      "learning_rate": 0.0002298951873207525,
      "loss": 1.2427,
      "num_input_tokens_seen": 2149580800,
      "step": 32800,
      "train_runtime": 15757.3708,
      "train_tokens_per_second": 136417.479
    },
    {
      "epoch": 0.329,
      "grad_norm": 0.6099971532821655,
      "learning_rate": 0.00022949192629445606,
      "loss": 1.2313,
      "num_input_tokens_seen": 2156134400,
      "step": 32900,
      "train_runtime": 15804.1823,
      "train_tokens_per_second": 136428.089
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.8630947470664978,
      "learning_rate": 0.0002290878647853443,
      "loss": 1.247,
      "num_input_tokens_seen": 2162688000,
      "step": 33000,
      "train_runtime": 15852.2039,
      "train_tokens_per_second": 136428.223
    },
    {
      "epoch": 0.331,
      "grad_norm": 0.5154317021369934,
      "learning_rate": 0.00022868300686231224,
      "loss": 1.2246,
      "num_input_tokens_seen": 2169241600,
      "step": 33100,
      "train_runtime": 15899.5617,
      "train_tokens_per_second": 136434.05
    },
    {
      "epoch": 0.332,
      "grad_norm": 0.5033185482025146,
      "learning_rate": 0.00022827735660227457,
      "loss": 1.2271,
      "num_input_tokens_seen": 2175795200,
      "step": 33200,
      "train_runtime": 15947.1716,
      "train_tokens_per_second": 136437.686
    },
    {
      "epoch": 0.333,
      "grad_norm": 0.7760284543037415,
      "learning_rate": 0.000227870918090125,
      "loss": 1.2445,
      "num_input_tokens_seen": 2182348800,
      "step": 33300,
      "train_runtime": 16000.1889,
      "train_tokens_per_second": 136395.189
    },
    {
      "epoch": 0.334,
      "grad_norm": 0.5042400360107422,
      "learning_rate": 0.00022746369541869476,
      "loss": 1.223,
      "num_input_tokens_seen": 2188902400,
      "step": 33400,
      "train_runtime": 16047.8873,
      "train_tokens_per_second": 136398.166
    },
    {
      "epoch": 0.335,
      "grad_norm": 0.421273410320282,
      "learning_rate": 0.00022705569268871163,
      "loss": 1.2222,
      "num_input_tokens_seen": 2195456000,
      "step": 33500,
      "train_runtime": 16094.6711,
      "train_tokens_per_second": 136408.876
    },
    {
      "epoch": 0.336,
      "grad_norm": 0.48292359709739685,
      "learning_rate": 0.00022664691400875865,
      "loss": 1.222,
      "num_input_tokens_seen": 2202009600,
      "step": 33600,
      "train_runtime": 16143.6943,
      "train_tokens_per_second": 136400.601
    },
    {
      "epoch": 0.337,
      "grad_norm": 0.4301004409790039,
      "learning_rate": 0.00022623736349523254,
      "loss": 1.2308,
      "num_input_tokens_seen": 2208563200,
      "step": 33700,
      "train_runtime": 16189.7469,
      "train_tokens_per_second": 136417.401
    },
    {
      "epoch": 0.338,
      "grad_norm": 0.6592893600463867,
      "learning_rate": 0.00022582704527230238,
      "loss": 1.2401,
      "num_input_tokens_seen": 2215116800,
      "step": 33800,
      "train_runtime": 16235.6512,
      "train_tokens_per_second": 136435.353
    },
    {
      "epoch": 0.339,
      "grad_norm": 0.6183221340179443,
      "learning_rate": 0.0002254159634718682,
      "loss": 1.2364,
      "num_input_tokens_seen": 2221670400,
      "step": 33900,
      "train_runtime": 16283.1306,
      "train_tokens_per_second": 136440.003
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.529971182346344,
      "learning_rate": 0.00022500412223351915,
      "loss": 1.2222,
      "num_input_tokens_seen": 2228224000,
      "step": 34000,
      "train_runtime": 16330.1955,
      "train_tokens_per_second": 136448.091
    },
    {
      "epoch": 0.341,
      "grad_norm": 0.41906896233558655,
      "learning_rate": 0.0002245915257044919,
      "loss": 1.2261,
      "num_input_tokens_seen": 2234777600,
      "step": 34100,
      "train_runtime": 16381.7912,
      "train_tokens_per_second": 136418.391
    },
    {
      "epoch": 0.342,
      "grad_norm": 0.4326164722442627,
      "learning_rate": 0.00022417817803962892,
      "loss": 1.2452,
      "num_input_tokens_seen": 2241331200,
      "step": 34200,
      "train_runtime": 16429.3997,
      "train_tokens_per_second": 136421.978
    },
    {
      "epoch": 0.343,
      "grad_norm": 0.8329346179962158,
      "learning_rate": 0.0002237640834013366,
      "loss": 1.2197,
      "num_input_tokens_seen": 2247884800,
      "step": 34300,
      "train_runtime": 16476.2139,
      "train_tokens_per_second": 136432.121
    },
    {
      "epoch": 0.344,
      "grad_norm": 0.4649752378463745,
      "learning_rate": 0.0002233492459595434,
      "loss": 1.2255,
      "num_input_tokens_seen": 2254438400,
      "step": 34400,
      "train_runtime": 16523.092,
      "train_tokens_per_second": 136441.678
    },
    {
      "epoch": 0.345,
      "grad_norm": 0.5218563675880432,
      "learning_rate": 0.00022293366989165772,
      "loss": 1.2365,
      "num_input_tokens_seen": 2260992000,
      "step": 34500,
      "train_runtime": 16575.1624,
      "train_tokens_per_second": 136408.437
    },
    {
      "epoch": 0.346,
      "grad_norm": 0.8002403974533081,
      "learning_rate": 0.00022251735938252587,
      "loss": 1.2179,
      "num_input_tokens_seen": 2267545600,
      "step": 34600,
      "train_runtime": 16622.274,
      "train_tokens_per_second": 136416.088
    },
    {
      "epoch": 0.347,
      "grad_norm": 0.5648475289344788,
      "learning_rate": 0.0002221003186243902,
      "loss": 1.2301,
      "num_input_tokens_seen": 2274099200,
      "step": 34700,
      "train_runtime": 16668.9107,
      "train_tokens_per_second": 136427.583
    },
    {
      "epoch": 0.348,
      "grad_norm": 0.4631340801715851,
      "learning_rate": 0.00022168255181684643,
      "loss": 1.2292,
      "num_input_tokens_seen": 2280652800,
      "step": 34800,
      "train_runtime": 16715.4649,
      "train_tokens_per_second": 136439.687
    },
    {
      "epoch": 0.349,
      "grad_norm": 0.4492770731449127,
      "learning_rate": 0.00022126406316680172,
      "loss": 1.226,
      "num_input_tokens_seen": 2287206400,
      "step": 34900,
      "train_runtime": 16761.744,
      "train_tokens_per_second": 136453.963
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.5984812378883362,
      "learning_rate": 0.00022084485688843208,
      "loss": 1.2332,
      "num_input_tokens_seen": 2293760000,
      "step": 35000,
      "train_runtime": 16816.4332,
      "train_tokens_per_second": 136399.912
    },
    {
      "epoch": 0.351,
      "grad_norm": 0.6245887875556946,
      "learning_rate": 0.00022042493720314003,
      "loss": 1.2324,
      "num_input_tokens_seen": 2300313600,
      "step": 35100,
      "train_runtime": 16864.2018,
      "train_tokens_per_second": 136402.163
    },
    {
      "epoch": 0.352,
      "grad_norm": 0.6719664335250854,
      "learning_rate": 0.00022000430833951228,
      "loss": 1.2272,
      "num_input_tokens_seen": 2306867200,
      "step": 35200,
      "train_runtime": 16910.313,
      "train_tokens_per_second": 136417.77
    },
    {
      "epoch": 0.353,
      "grad_norm": 0.43880173563957214,
      "learning_rate": 0.00021958297453327673,
      "loss": 1.2572,
      "num_input_tokens_seen": 2313420800,
      "step": 35300,
      "train_runtime": 16958.9376,
      "train_tokens_per_second": 136413.073
    },
    {
      "epoch": 0.354,
      "grad_norm": 0.6195557713508606,
      "learning_rate": 0.00021916094002726012,
      "loss": 1.2299,
      "num_input_tokens_seen": 2319974400,
      "step": 35400,
      "train_runtime": 17005.9814,
      "train_tokens_per_second": 136421.083
    },
    {
      "epoch": 0.355,
      "grad_norm": 0.5288188457489014,
      "learning_rate": 0.00021873820907134534,
      "loss": 1.2157,
      "num_input_tokens_seen": 2326528000,
      "step": 35500,
      "train_runtime": 17053.3579,
      "train_tokens_per_second": 136426.387
    },
    {
      "epoch": 0.356,
      "grad_norm": 0.4962466061115265,
      "learning_rate": 0.0002183147859224283,
      "loss": 1.2282,
      "num_input_tokens_seen": 2333081600,
      "step": 35600,
      "train_runtime": 17099.0541,
      "train_tokens_per_second": 136445.068
    },
    {
      "epoch": 0.357,
      "grad_norm": 0.4940129518508911,
      "learning_rate": 0.00021789067484437544,
      "loss": 1.2349,
      "num_input_tokens_seen": 2339635200,
      "step": 35700,
      "train_runtime": 17146.892,
      "train_tokens_per_second": 136446.605
    },
    {
      "epoch": 0.358,
      "grad_norm": 0.5929033160209656,
      "learning_rate": 0.00021746588010798068,
      "loss": 1.2368,
      "num_input_tokens_seen": 2346188800,
      "step": 35800,
      "train_runtime": 17199.6266,
      "train_tokens_per_second": 136409.287
    },
    {
      "epoch": 0.359,
      "grad_norm": 0.4825666546821594,
      "learning_rate": 0.00021704040599092216,
      "loss": 1.2215,
      "num_input_tokens_seen": 2352742400,
      "step": 35900,
      "train_runtime": 17246.2748,
      "train_tokens_per_second": 136420.324
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4572449028491974,
      "learning_rate": 0.00021661425677771965,
      "loss": 1.2291,
      "num_input_tokens_seen": 2359296000,
      "step": 36000,
      "train_runtime": 17292.1332,
      "train_tokens_per_second": 136437.533
    },
    {
      "epoch": 0.361,
      "grad_norm": 0.467132568359375,
      "learning_rate": 0.00021618743675969095,
      "loss": 1.2295,
      "num_input_tokens_seen": 2365849600,
      "step": 36100,
      "train_runtime": 17339.1599,
      "train_tokens_per_second": 136445.457
    },
    {
      "epoch": 0.362,
      "grad_norm": 0.4863705635070801,
      "learning_rate": 0.0002157599502349089,
      "loss": 1.2154,
      "num_input_tokens_seen": 2372403200,
      "step": 36200,
      "train_runtime": 17386.7454,
      "train_tokens_per_second": 136448.952
    },
    {
      "epoch": 0.363,
      "grad_norm": 0.43923652172088623,
      "learning_rate": 0.00021533180150815802,
      "loss": 1.2268,
      "num_input_tokens_seen": 2378956800,
      "step": 36300,
      "train_runtime": 17439.0785,
      "train_tokens_per_second": 136415.282
    },
    {
      "epoch": 0.364,
      "grad_norm": 0.5028465390205383,
      "learning_rate": 0.00021490299489089132,
      "loss": 1.2293,
      "num_input_tokens_seen": 2385510400,
      "step": 36400,
      "train_runtime": 17485.9662,
      "train_tokens_per_second": 136424.283
    },
    {
      "epoch": 0.365,
      "grad_norm": 0.4366530478000641,
      "learning_rate": 0.00021447353470118656,
      "loss": 1.2276,
      "num_input_tokens_seen": 2392064000,
      "step": 36500,
      "train_runtime": 17533.3809,
      "train_tokens_per_second": 136429.136
    },
    {
      "epoch": 0.366,
      "grad_norm": 0.46415793895721436,
      "learning_rate": 0.00021404342526370326,
      "loss": 1.2227,
      "num_input_tokens_seen": 2398617600,
      "step": 36600,
      "train_runtime": 17580.8443,
      "train_tokens_per_second": 136433.584
    },
    {
      "epoch": 0.367,
      "grad_norm": 0.6382859349250793,
      "learning_rate": 0.00021361267090963846,
      "loss": 1.2212,
      "num_input_tokens_seen": 2405171200,
      "step": 36700,
      "train_runtime": 17626.7905,
      "train_tokens_per_second": 136449.753
    },
    {
      "epoch": 0.368,
      "grad_norm": 0.6642177700996399,
      "learning_rate": 0.0002131812759766839,
      "loss": 1.2317,
      "num_input_tokens_seen": 2411724800,
      "step": 36800,
      "train_runtime": 17679.381,
      "train_tokens_per_second": 136414.55
    },
    {
      "epoch": 0.369,
      "grad_norm": 0.4071521461009979,
      "learning_rate": 0.00021274924480898169,
      "loss": 1.2262,
      "num_input_tokens_seen": 2418278400,
      "step": 36900,
      "train_runtime": 17726.5473,
      "train_tokens_per_second": 136421.288
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.5301467776298523,
      "learning_rate": 0.00021231658175708087,
      "loss": 1.2192,
      "num_input_tokens_seen": 2424832000,
      "step": 37000,
      "train_runtime": 17772.7667,
      "train_tokens_per_second": 136435.258
    },
    {
      "epoch": 0.371,
      "grad_norm": 0.5216257572174072,
      "learning_rate": 0.00021188329117789357,
      "loss": 1.213,
      "num_input_tokens_seen": 2431385600,
      "step": 37100,
      "train_runtime": 17824.6083,
      "train_tokens_per_second": 136406.116
    },
    {
      "epoch": 0.372,
      "grad_norm": 0.5098195672035217,
      "learning_rate": 0.0002114493774346512,
      "loss": 1.2311,
      "num_input_tokens_seen": 2437939200,
      "step": 37200,
      "train_runtime": 17870.9901,
      "train_tokens_per_second": 136418.81
    },
    {
      "epoch": 0.373,
      "grad_norm": 0.47295039892196655,
      "learning_rate": 0.00021101484489686025,
      "loss": 1.2211,
      "num_input_tokens_seen": 2444492800,
      "step": 37300,
      "train_runtime": 17918.4906,
      "train_tokens_per_second": 136422.919
    },
    {
      "epoch": 0.374,
      "grad_norm": 0.49752944707870483,
      "learning_rate": 0.00021057969794025866,
      "loss": 1.2292,
      "num_input_tokens_seen": 2451046400,
      "step": 37400,
      "train_runtime": 17965.5373,
      "train_tokens_per_second": 136430.453
    },
    {
      "epoch": 0.375,
      "grad_norm": 0.9500930905342102,
      "learning_rate": 0.00021014394094677128,
      "loss": 1.2187,
      "num_input_tokens_seen": 2457600000,
      "step": 37500,
      "train_runtime": 18012.267,
      "train_tokens_per_second": 136440.349
    },
    {
      "epoch": 0.376,
      "grad_norm": 0.4800110459327698,
      "learning_rate": 0.00020970757830446633,
      "loss": 1.2336,
      "num_input_tokens_seen": 2464153600,
      "step": 37600,
      "train_runtime": 18059.6653,
      "train_tokens_per_second": 136445.143
    },
    {
      "epoch": 0.377,
      "grad_norm": 0.48905813694000244,
      "learning_rate": 0.00020927061440751072,
      "loss": 1.2189,
      "num_input_tokens_seen": 2470707200,
      "step": 37700,
      "train_runtime": 18111.7548,
      "train_tokens_per_second": 136414.567
    },
    {
      "epoch": 0.378,
      "grad_norm": 0.593604564666748,
      "learning_rate": 0.00020883305365612602,
      "loss": 1.2178,
      "num_input_tokens_seen": 2477260800,
      "step": 37800,
      "train_runtime": 18157.6424,
      "train_tokens_per_second": 136430.751
    },
    {
      "epoch": 0.379,
      "grad_norm": 0.46399399638175964,
      "learning_rate": 0.00020839490045654425,
      "loss": 1.2141,
      "num_input_tokens_seen": 2483814400,
      "step": 37900,
      "train_runtime": 18204.4326,
      "train_tokens_per_second": 136440.089
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.5679593086242676,
      "learning_rate": 0.00020795615922096313,
      "loss": 1.2332,
      "num_input_tokens_seen": 2490368000,
      "step": 38000,
      "train_runtime": 18252.6627,
      "train_tokens_per_second": 136438.614
    },
    {
      "epoch": 0.381,
      "grad_norm": 0.48073315620422363,
      "learning_rate": 0.00020751683436750207,
      "loss": 1.2369,
      "num_input_tokens_seen": 2496921600,
      "step": 38100,
      "train_runtime": 18300.6025,
      "train_tokens_per_second": 136439.311
    },
    {
      "epoch": 0.382,
      "grad_norm": 0.4134567677974701,
      "learning_rate": 0.00020707693032015752,
      "loss": 1.2168,
      "num_input_tokens_seen": 2503475200,
      "step": 38200,
      "train_runtime": 18351.6848,
      "train_tokens_per_second": 136416.641
    },
    {
      "epoch": 0.383,
      "grad_norm": 0.4675845503807068,
      "learning_rate": 0.00020663645150875834,
      "loss": 1.2272,
      "num_input_tokens_seen": 2510028800,
      "step": 38300,
      "train_runtime": 18398.2852,
      "train_tokens_per_second": 136427.323
    },
    {
      "epoch": 0.384,
      "grad_norm": 0.4632211923599243,
      "learning_rate": 0.00020619540236892125,
      "loss": 1.2444,
      "num_input_tokens_seen": 2516582400,
      "step": 38400,
      "train_runtime": 18445.2271,
      "train_tokens_per_second": 136435.425
    },
    {
      "epoch": 0.385,
      "grad_norm": 0.5543389916419983,
      "learning_rate": 0.00020575378734200616,
      "loss": 1.22,
      "num_input_tokens_seen": 2523136000,
      "step": 38500,
      "train_runtime": 18492.3307,
      "train_tokens_per_second": 136442.292
    },
    {
      "epoch": 0.386,
      "grad_norm": 0.5775281190872192,
      "learning_rate": 0.0002053116108750715,
      "loss": 1.2277,
      "num_input_tokens_seen": 2529689600,
      "step": 38600,
      "train_runtime": 18544.2017,
      "train_tokens_per_second": 136414.047
    },
    {
      "epoch": 0.387,
      "grad_norm": 0.5202789306640625,
      "learning_rate": 0.0002048688774208294,
      "loss": 1.2203,
      "num_input_tokens_seen": 2536243200,
      "step": 38700,
      "train_runtime": 18591.8641,
      "train_tokens_per_second": 136416.832
    },
    {
      "epoch": 0.388,
      "grad_norm": 0.44833704829216003,
      "learning_rate": 0.0002044255914376009,
      "loss": 1.2209,
      "num_input_tokens_seen": 2542796800,
      "step": 38800,
      "train_runtime": 18637.8905,
      "train_tokens_per_second": 136431.577
    },
    {
      "epoch": 0.389,
      "grad_norm": 0.5180789828300476,
      "learning_rate": 0.00020398175738927082,
      "loss": 1.2105,
      "num_input_tokens_seen": 2549350400,
      "step": 38900,
      "train_runtime": 18684.0663,
      "train_tokens_per_second": 136445.159
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6083468794822693,
      "learning_rate": 0.00020353737974524312,
      "loss": 1.2136,
      "num_input_tokens_seen": 2555904000,
      "step": 39000,
      "train_runtime": 18730.572,
      "train_tokens_per_second": 136456.27
    },
    {
      "epoch": 0.391,
      "grad_norm": 0.39693883061408997,
      "learning_rate": 0.00020309246298039584,
      "loss": 1.2285,
      "num_input_tokens_seen": 2562457600,
      "step": 39100,
      "train_runtime": 18784.1544,
      "train_tokens_per_second": 136415.914
    },
    {
      "epoch": 0.392,
      "grad_norm": 0.5166248679161072,
      "learning_rate": 0.0002026470115750357,
      "loss": 1.223,
      "num_input_tokens_seen": 2569011200,
      "step": 39200,
      "train_runtime": 18830.687,
      "train_tokens_per_second": 136426.844
    },
    {
      "epoch": 0.393,
      "grad_norm": 0.4967111051082611,
      "learning_rate": 0.0002022010300148535,
      "loss": 1.2163,
      "num_input_tokens_seen": 2575564800,
      "step": 39300,
      "train_runtime": 18876.8963,
      "train_tokens_per_second": 136440.057
    },
    {
      "epoch": 0.394,
      "grad_norm": 0.627816915512085,
      "learning_rate": 0.0002017545227908786,
      "loss": 1.2328,
      "num_input_tokens_seen": 2582118400,
      "step": 39400,
      "train_runtime": 18923.6736,
      "train_tokens_per_second": 136449.109
    },
    {
      "epoch": 0.395,
      "grad_norm": 0.489969938993454,
      "learning_rate": 0.00020130749439943376,
      "loss": 1.224,
      "num_input_tokens_seen": 2588672000,
      "step": 39500,
      "train_runtime": 18970.0964,
      "train_tokens_per_second": 136460.666
    },
    {
      "epoch": 0.396,
      "grad_norm": 0.6713995933532715,
      "learning_rate": 0.00020085994934208998,
      "loss": 1.2156,
      "num_input_tokens_seen": 2595225600,
      "step": 39600,
      "train_runtime": 19023.1241,
      "train_tokens_per_second": 136424.784
    },
    {
      "epoch": 0.397,
      "grad_norm": 0.4549367427825928,
      "learning_rate": 0.00020041189212562094,
      "loss": 1.2094,
      "num_input_tokens_seen": 2601779200,
      "step": 39700,
      "train_runtime": 19070.6234,
      "train_tokens_per_second": 136428.639
    },
    {
      "epoch": 0.398,
      "grad_norm": 0.47548773884773254,
      "learning_rate": 0.0001999633272619579,
      "loss": 1.2244,
      "num_input_tokens_seen": 2608332800,
      "step": 39800,
      "train_runtime": 19117.4992,
      "train_tokens_per_second": 136436.925
    },
    {
      "epoch": 0.399,
      "grad_norm": 0.46569159626960754,
      "learning_rate": 0.00019951425926814404,
      "loss": 1.2189,
      "num_input_tokens_seen": 2614886400,
      "step": 39900,
      "train_runtime": 19164.3173,
      "train_tokens_per_second": 136445.581
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.5518438220024109,
      "learning_rate": 0.00019906469266628904,
      "loss": 1.2097,
      "num_input_tokens_seen": 2621440000,
      "step": 40000,
      "train_runtime": 19211.1586,
      "train_tokens_per_second": 136454.029
    },
    {
      "epoch": 0.401,
      "grad_norm": 0.4615115821361542,
      "learning_rate": 0.0001986146319835236,
      "loss": 1.2177,
      "num_input_tokens_seen": 2627993600,
      "step": 40100,
      "train_runtime": 19263.5816,
      "train_tokens_per_second": 136422.897
    },
    {
      "epoch": 0.402,
      "grad_norm": 0.4154411554336548,
      "learning_rate": 0.00019816408175195383,
      "loss": 1.2262,
      "num_input_tokens_seen": 2634547200,
      "step": 40200,
      "train_runtime": 19310.6242,
      "train_tokens_per_second": 136429.935
    },
    {
      "epoch": 0.403,
      "grad_norm": 0.48504838347435,
      "learning_rate": 0.0001977130465086155,
      "loss": 1.2205,
      "num_input_tokens_seen": 2641100800,
      "step": 40300,
      "train_runtime": 19356.9428,
      "train_tokens_per_second": 136442.042
    },
    {
      "epoch": 0.404,
      "grad_norm": 0.477006196975708,
      "learning_rate": 0.0001972615307954286,
      "loss": 1.2099,
      "num_input_tokens_seen": 2647654400,
      "step": 40400,
      "train_runtime": 19403.4467,
      "train_tokens_per_second": 136452.788
    },
    {
      "epoch": 0.405,
      "grad_norm": 0.46401214599609375,
      "learning_rate": 0.00019680953915915124,
      "loss": 1.2142,
      "num_input_tokens_seen": 2654208000,
      "step": 40500,
      "train_runtime": 19456.0604,
      "train_tokens_per_second": 136420.629
    },
    {
      "epoch": 0.406,
      "grad_norm": 0.4205267131328583,
      "learning_rate": 0.00019635707615133427,
      "loss": 1.2233,
      "num_input_tokens_seen": 2660761600,
      "step": 40600,
      "train_runtime": 19503.129,
      "train_tokens_per_second": 136427.422
    },
    {
      "epoch": 0.407,
      "grad_norm": 0.7298253178596497,
      "learning_rate": 0.00019590414632827513,
      "loss": 1.2143,
      "num_input_tokens_seen": 2667315200,
      "step": 40700,
      "train_runtime": 19550.1113,
      "train_tokens_per_second": 136434.783
    },
    {
      "epoch": 0.408,
      "grad_norm": 0.47734642028808594,
      "learning_rate": 0.00019545075425097204,
      "loss": 1.222,
      "num_input_tokens_seen": 2673868800,
      "step": 40800,
      "train_runtime": 19596.9887,
      "train_tokens_per_second": 136442.84
    },
    {
      "epoch": 0.409,
      "grad_norm": 0.4535351097583771,
      "learning_rate": 0.00019499690448507827,
      "loss": 1.2373,
      "num_input_tokens_seen": 2680422400,
      "step": 40900,
      "train_runtime": 19649.1805,
      "train_tokens_per_second": 136413.954
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.572079062461853,
      "learning_rate": 0.00019454260160085588,
      "loss": 1.2125,
      "num_input_tokens_seen": 2686976000,
      "step": 41000,
      "train_runtime": 19697.7854,
      "train_tokens_per_second": 136410.056
    },
    {
      "epoch": 0.411,
      "grad_norm": 0.4487378001213074,
      "learning_rate": 0.0001940878501731299,
      "loss": 1.2124,
      "num_input_tokens_seen": 2693529600,
      "step": 41100,
      "train_runtime": 19744.9135,
      "train_tokens_per_second": 136416.379
    },
    {
      "epoch": 0.412,
      "grad_norm": 0.47419917583465576,
      "learning_rate": 0.00019363265478124214,
      "loss": 1.2037,
      "num_input_tokens_seen": 2700083200,
      "step": 41200,
      "train_runtime": 19791.8314,
      "train_tokens_per_second": 136424.121
    },
    {
      "epoch": 0.413,
      "grad_norm": 0.6295040845870972,
      "learning_rate": 0.00019317702000900516,
      "loss": 1.2246,
      "num_input_tokens_seen": 2706636800,
      "step": 41300,
      "train_runtime": 19838.5236,
      "train_tokens_per_second": 136433.379
    },
    {
      "epoch": 0.414,
      "grad_norm": 0.53326016664505,
      "learning_rate": 0.000192720950444656,
      "loss": 1.2192,
      "num_input_tokens_seen": 2713190400,
      "step": 41400,
      "train_runtime": 19885.4264,
      "train_tokens_per_second": 136441.147
    },
    {
      "epoch": 0.415,
      "grad_norm": 0.49727046489715576,
      "learning_rate": 0.00019226445068081018,
      "loss": 1.2279,
      "num_input_tokens_seen": 2719744000,
      "step": 41500,
      "train_runtime": 19937.4737,
      "train_tokens_per_second": 136413.672
    },
    {
      "epoch": 0.416,
      "grad_norm": 0.47963398694992065,
      "learning_rate": 0.00019180752531441523,
      "loss": 1.2226,
      "num_input_tokens_seen": 2726297600,
      "step": 41600,
      "train_runtime": 19984.6667,
      "train_tokens_per_second": 136419.468
    },
    {
      "epoch": 0.417,
      "grad_norm": 0.4789304733276367,
      "learning_rate": 0.00019135017894670456,
      "loss": 1.2222,
      "num_input_tokens_seen": 2732851200,
      "step": 41700,
      "train_runtime": 20032.7071,
      "train_tokens_per_second": 136419.465
    },
    {
      "epoch": 0.418,
      "grad_norm": 0.6693325638771057,
      "learning_rate": 0.0001908924161831509,
      "loss": 1.2366,
      "num_input_tokens_seen": 2739404800,
      "step": 41800,
      "train_runtime": 20078.7138,
      "train_tokens_per_second": 136433.281
    },
    {
      "epoch": 0.419,
      "grad_norm": 0.41989439725875854,
      "learning_rate": 0.0001904342416334203,
      "loss": 1.2212,
      "num_input_tokens_seen": 2745958400,
      "step": 41900,
      "train_runtime": 20125.0521,
      "train_tokens_per_second": 136444.785
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.5444014072418213,
      "learning_rate": 0.00018997565991132532,
      "loss": 1.2164,
      "num_input_tokens_seen": 2752512000,
      "step": 42000,
      "train_runtime": 20177.4596,
      "train_tokens_per_second": 136415.191
    },
    {
      "epoch": 0.421,
      "grad_norm": 0.5790873169898987,
      "learning_rate": 0.0001895166756347789,
      "loss": 1.215,
      "num_input_tokens_seen": 2759065600,
      "step": 42100,
      "train_runtime": 20224.878,
      "train_tokens_per_second": 136419.394
    },
    {
      "epoch": 0.422,
      "grad_norm": 0.4666343927383423,
      "learning_rate": 0.0001890572934257475,
      "loss": 1.2229,
      "num_input_tokens_seen": 2765619200,
      "step": 42200,
      "train_runtime": 20270.922,
      "train_tokens_per_second": 136432.827
    },
    {
      "epoch": 0.423,
      "grad_norm": 0.4322357177734375,
      "learning_rate": 0.00018859751791020497,
      "loss": 1.2258,
      "num_input_tokens_seen": 2772172800,
      "step": 42300,
      "train_runtime": 20317.4494,
      "train_tokens_per_second": 136442.954
    },
    {
      "epoch": 0.424,
      "grad_norm": 0.6240208148956299,
      "learning_rate": 0.0001881373537180856,
      "loss": 1.221,
      "num_input_tokens_seen": 2778726400,
      "step": 42400,
      "train_runtime": 20364.5753,
      "train_tokens_per_second": 136449.023
    },
    {
      "epoch": 0.425,
      "grad_norm": 0.5865579843521118,
      "learning_rate": 0.00018767680548323766,
      "loss": 1.2244,
      "num_input_tokens_seen": 2785280000,
      "step": 42500,
      "train_runtime": 20417.9029,
      "train_tokens_per_second": 136413.617
    },
    {
      "epoch": 0.426,
      "grad_norm": 0.5201649069786072,
      "learning_rate": 0.0001872158778433768,
      "loss": 1.2076,
      "num_input_tokens_seen": 2791833600,
      "step": 42600,
      "train_runtime": 20464.7135,
      "train_tokens_per_second": 136421.827
    },
    {
      "epoch": 0.427,
      "grad_norm": 0.5092735290527344,
      "learning_rate": 0.0001867545754400392,
      "loss": 1.2057,
      "num_input_tokens_seen": 2798387200,
      "step": 42700,
      "train_runtime": 20511.0273,
      "train_tokens_per_second": 136433.303
    },
    {
      "epoch": 0.428,
      "grad_norm": 0.4439486265182495,
      "learning_rate": 0.000186292902918535,
      "loss": 1.209,
      "num_input_tokens_seen": 2804940800,
      "step": 42800,
      "train_runtime": 20558.3684,
      "train_tokens_per_second": 136437.909
    },
    {
      "epoch": 0.429,
      "grad_norm": 0.4466177225112915,
      "learning_rate": 0.00018583086492790136,
      "loss": 1.218,
      "num_input_tokens_seen": 2811494400,
      "step": 42900,
      "train_runtime": 20605.5543,
      "train_tokens_per_second": 136443.522
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.5813594460487366,
      "learning_rate": 0.00018536846612085566,
      "loss": 1.2161,
      "num_input_tokens_seen": 2818048000,
      "step": 43000,
      "train_runtime": 20658.6134,
      "train_tokens_per_second": 136410.317
    },
    {
      "epoch": 0.431,
      "grad_norm": 0.49140629172325134,
      "learning_rate": 0.00018490571115374878,
      "loss": 1.227,
      "num_input_tokens_seen": 2824601600,
      "step": 43100,
      "train_runtime": 20705.6255,
      "train_tokens_per_second": 136417.11
    },
    {
      "epoch": 0.432,
      "grad_norm": 0.4938826858997345,
      "learning_rate": 0.00018444260468651816,
      "loss": 1.2252,
      "num_input_tokens_seen": 2831155200,
      "step": 43200,
      "train_runtime": 20752.3571,
      "train_tokens_per_second": 136425.717
    },
    {
      "epoch": 0.433,
      "grad_norm": 0.5228791832923889,
      "learning_rate": 0.00018397915138264068,
      "loss": 1.2274,
      "num_input_tokens_seen": 2837708800,
      "step": 43300,
      "train_runtime": 20799.4436,
      "train_tokens_per_second": 136431.957
    },
    {
      "epoch": 0.434,
      "grad_norm": 0.46896296739578247,
      "learning_rate": 0.00018351535590908606,
      "loss": 1.2043,
      "num_input_tokens_seen": 2844262400,
      "step": 43400,
      "train_runtime": 20845.6184,
      "train_tokens_per_second": 136444.137
    },
    {
      "epoch": 0.435,
      "grad_norm": 0.4269004464149475,
      "learning_rate": 0.00018305122293626948,
      "loss": 1.2213,
      "num_input_tokens_seen": 2850816000,
      "step": 43500,
      "train_runtime": 20897.7485,
      "train_tokens_per_second": 136417.375
    },
    {
      "epoch": 0.436,
      "grad_norm": 0.6213890314102173,
      "learning_rate": 0.00018258675713800492,
      "loss": 1.2096,
      "num_input_tokens_seen": 2857369600,
      "step": 43600,
      "train_runtime": 20944.9642,
      "train_tokens_per_second": 136422.749
    },
    {
      "epoch": 0.437,
      "grad_norm": 0.4281384348869324,
      "learning_rate": 0.00018212196319145773,
      "loss": 1.2111,
      "num_input_tokens_seen": 2863923200,
      "step": 43700,
      "train_runtime": 20992.0443,
      "train_tokens_per_second": 136428.98
    },
    {
      "epoch": 0.438,
      "grad_norm": 1.044310212135315,
      "learning_rate": 0.00018165684577709778,
      "loss": 1.2142,
      "num_input_tokens_seen": 2870476800,
      "step": 43800,
      "train_runtime": 21039.718,
      "train_tokens_per_second": 136431.334
    },
    {
      "epoch": 0.439,
      "grad_norm": 0.445425808429718,
      "learning_rate": 0.0001811914095786524,
      "loss": 1.218,
      "num_input_tokens_seen": 2877030400,
      "step": 43900,
      "train_runtime": 21088.215,
      "train_tokens_per_second": 136428.351
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.43947216868400574,
      "learning_rate": 0.0001807256592830588,
      "loss": 1.2124,
      "num_input_tokens_seen": 2883584000,
      "step": 44000,
      "train_runtime": 21136.0286,
      "train_tokens_per_second": 136429.793
    },
    {
      "epoch": 0.441,
      "grad_norm": 0.5147203803062439,
      "learning_rate": 0.00018025959958041732,
      "loss": 1.2227,
      "num_input_tokens_seen": 2890137600,
      "step": 44100,
      "train_runtime": 21182.9913,
      "train_tokens_per_second": 136436.708
    },
    {
      "epoch": 0.442,
      "grad_norm": 0.473652184009552,
      "learning_rate": 0.00017979323516394407,
      "loss": 1.2277,
      "num_input_tokens_seen": 2896691200,
      "step": 44200,
      "train_runtime": 21236.5796,
      "train_tokens_per_second": 136401.024
    },
    {
      "epoch": 0.443,
      "grad_norm": 0.4356568157672882,
      "learning_rate": 0.00017932657072992344,
      "loss": 1.2018,
      "num_input_tokens_seen": 2903244800,
      "step": 44300,
      "train_runtime": 21282.9387,
      "train_tokens_per_second": 136411.838
    },
    {
      "epoch": 0.444,
      "grad_norm": 0.4458017647266388,
      "learning_rate": 0.00017885961097766117,
      "loss": 1.2124,
      "num_input_tokens_seen": 2909798400,
      "step": 44400,
      "train_runtime": 21331.1223,
      "train_tokens_per_second": 136410.938
    },
    {
      "epoch": 0.445,
      "grad_norm": 0.5065773725509644,
      "learning_rate": 0.00017839236060943674,
      "loss": 1.2262,
      "num_input_tokens_seen": 2916352000,
      "step": 44500,
      "train_runtime": 21377.5493,
      "train_tokens_per_second": 136421.25
    },
    {
      "epoch": 0.446,
      "grad_norm": 0.5424425601959229,
      "learning_rate": 0.0001779248243304562,
      "loss": 1.2171,
      "num_input_tokens_seen": 2922905600,
      "step": 44600,
      "train_runtime": 21424.9021,
      "train_tokens_per_second": 136425.622
    },
    {
      "epoch": 0.447,
      "grad_norm": 0.4595748484134674,
      "learning_rate": 0.00017745700684880465,
      "loss": 1.2039,
      "num_input_tokens_seen": 2929459200,
      "step": 44700,
      "train_runtime": 21472.2167,
      "train_tokens_per_second": 136430.218
    },
    {
      "epoch": 0.448,
      "grad_norm": 0.5353960990905762,
      "learning_rate": 0.000176988912875399,
      "loss": 1.2075,
      "num_input_tokens_seen": 2936012800,
      "step": 44800,
      "train_runtime": 21524.5148,
      "train_tokens_per_second": 136403.205
    },
    {
      "epoch": 0.449,
      "grad_norm": 0.4949302673339844,
      "learning_rate": 0.00017652054712394028,
      "loss": 1.2174,
      "num_input_tokens_seen": 2942566400,
      "step": 44900,
      "train_runtime": 21571.6626,
      "train_tokens_per_second": 136408.883
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.5596060752868652,
      "learning_rate": 0.0001760519143108665,
      "loss": 1.2178,
      "num_input_tokens_seen": 2949120000,
      "step": 45000,
      "train_runtime": 21618.3195,
      "train_tokens_per_second": 136417.634
    },
    {
      "epoch": 0.451,
      "grad_norm": 0.5348083972930908,
      "learning_rate": 0.00017558301915530483,
      "loss": 1.215,
      "num_input_tokens_seen": 2955673600,
      "step": 45100,
      "train_runtime": 21666.1069,
      "train_tokens_per_second": 136419.229
    },
    {
      "epoch": 0.452,
      "grad_norm": 0.46748441457748413,
      "learning_rate": 0.00017511386637902428,
      "loss": 1.2104,
      "num_input_tokens_seen": 2962227200,
      "step": 45200,
      "train_runtime": 21713.1957,
      "train_tokens_per_second": 136425.206
    },
    {
      "epoch": 0.453,
      "grad_norm": 0.47188806533813477,
      "learning_rate": 0.00017464446070638814,
      "loss": 1.213,
      "num_input_tokens_seen": 2968780800,
      "step": 45300,
      "train_runtime": 21760.1393,
      "train_tokens_per_second": 136432.068
    },
    {
      "epoch": 0.454,
      "grad_norm": 0.5225762128829956,
      "learning_rate": 0.00017417480686430622,
      "loss": 1.2152,
      "num_input_tokens_seen": 2975334400,
      "step": 45400,
      "train_runtime": 21812.7666,
      "train_tokens_per_second": 136403.348
    },
    {
      "epoch": 0.455,
      "grad_norm": 0.5889186263084412,
      "learning_rate": 0.00017370490958218765,
      "loss": 1.2214,
      "num_input_tokens_seen": 2981888000,
      "step": 45500,
      "train_runtime": 21859.0263,
      "train_tokens_per_second": 136414.493
    },
    {
      "epoch": 0.456,
      "grad_norm": 0.6613258719444275,
      "learning_rate": 0.00017323477359189272,
      "loss": 1.2334,
      "num_input_tokens_seen": 2988441600,
      "step": 45600,
      "train_runtime": 21905.9003,
      "train_tokens_per_second": 136421.766
    },
    {
      "epoch": 0.457,
      "grad_norm": 0.4657646715641022,
      "learning_rate": 0.00017276440362768564,
      "loss": 1.2132,
      "num_input_tokens_seen": 2994995200,
      "step": 45700,
      "train_runtime": 21952.9851,
      "train_tokens_per_second": 136427.697
    },
    {
      "epoch": 0.458,
      "grad_norm": 0.8410550355911255,
      "learning_rate": 0.0001722938044261868,
      "loss": 1.2073,
      "num_input_tokens_seen": 3001548800,
      "step": 45800,
      "train_runtime": 22005.352,
      "train_tokens_per_second": 136400.854
    },
    {
      "epoch": 0.459,
      "grad_norm": 0.7687750458717346,
      "learning_rate": 0.0001718229807263249,
      "loss": 1.2116,
      "num_input_tokens_seen": 3008102400,
      "step": 45900,
      "train_runtime": 22051.2762,
      "train_tokens_per_second": 136413.982
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.40700653195381165,
      "learning_rate": 0.0001713519372692894,
      "loss": 1.2082,
      "num_input_tokens_seen": 3014656000,
      "step": 46000,
      "train_runtime": 22102.8898,
      "train_tokens_per_second": 136391.939
    },
    {
      "epoch": 0.461,
      "grad_norm": 0.44239944219589233,
      "learning_rate": 0.0001708806787984826,
      "loss": 1.2177,
      "num_input_tokens_seen": 3021209600,
      "step": 46100,
      "train_runtime": 22149.1222,
      "train_tokens_per_second": 136403.13
    },
    {
      "epoch": 0.462,
      "grad_norm": 0.4981868267059326,
      "learning_rate": 0.00017040921005947212,
      "loss": 1.2073,
      "num_input_tokens_seen": 3027763200,
      "step": 46200,
      "train_runtime": 22195.5009,
      "train_tokens_per_second": 136413.376
    },
    {
      "epoch": 0.463,
      "grad_norm": 0.5651112198829651,
      "learning_rate": 0.0001699375357999429,
      "loss": 1.2098,
      "num_input_tokens_seen": 3034316800,
      "step": 46300,
      "train_runtime": 22241.367,
      "train_tokens_per_second": 136426.722
    },
    {
      "epoch": 0.464,
      "grad_norm": 1.1314237117767334,
      "learning_rate": 0.0001694656607696496,
      "loss": 1.2335,
      "num_input_tokens_seen": 3040870400,
      "step": 46400,
      "train_runtime": 22294.8896,
      "train_tokens_per_second": 136393.158
    },
    {
      "epoch": 0.465,
      "grad_norm": 0.568980872631073,
      "learning_rate": 0.0001689935897203684,
      "loss": 1.2096,
      "num_input_tokens_seen": 3047424000,
      "step": 46500,
      "train_runtime": 22342.7849,
      "train_tokens_per_second": 136394.098
    },
    {
      "epoch": 0.466,
      "grad_norm": 0.7110226154327393,
      "learning_rate": 0.0001685213274058496,
      "loss": 1.2136,
      "num_input_tokens_seen": 3053977600,
      "step": 46600,
      "train_runtime": 22393.3193,
      "train_tokens_per_second": 136378.96
    },
    {
      "epoch": 0.467,
      "grad_norm": 0.5052018761634827,
      "learning_rate": 0.00016804887858176944,
      "loss": 1.2237,
      "num_input_tokens_seen": 3060531200,
      "step": 46700,
      "train_runtime": 22441.2606,
      "train_tokens_per_second": 136379.647
    },
    {
      "epoch": 0.468,
      "grad_norm": 0.4663156270980835,
      "learning_rate": 0.00016757624800568238,
      "loss": 1.2071,
      "num_input_tokens_seen": 3067084800,
      "step": 46800,
      "train_runtime": 22487.9084,
      "train_tokens_per_second": 136388.175
    },
    {
      "epoch": 0.469,
      "grad_norm": 0.5441033840179443,
      "learning_rate": 0.00016710344043697301,
      "loss": 1.2078,
      "num_input_tokens_seen": 3073638400,
      "step": 46900,
      "train_runtime": 22534.6023,
      "train_tokens_per_second": 136396.39
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.4578142464160919,
      "learning_rate": 0.0001666304606368083,
      "loss": 1.1956,
      "num_input_tokens_seen": 3080192000,
      "step": 47000,
      "train_runtime": 22587.0441,
      "train_tokens_per_second": 136369.858
    },
    {
      "epoch": 0.471,
      "grad_norm": 0.6252749562263489,
      "learning_rate": 0.00016615731336808962,
      "loss": 1.1911,
      "num_input_tokens_seen": 3086745600,
      "step": 47100,
      "train_runtime": 22634.7186,
      "train_tokens_per_second": 136372.166
    },
    {
      "epoch": 0.472,
      "grad_norm": 0.45418813824653625,
      "learning_rate": 0.0001656840033954047,
      "loss": 1.22,
      "num_input_tokens_seen": 3093299200,
      "step": 47200,
      "train_runtime": 22681.221,
      "train_tokens_per_second": 136381.511
    },
    {
      "epoch": 0.473,
      "grad_norm": 0.55946284532547,
      "learning_rate": 0.00016521053548497973,
      "loss": 1.2073,
      "num_input_tokens_seen": 3099852800,
      "step": 47300,
      "train_runtime": 22728.7635,
      "train_tokens_per_second": 136384.577
    },
    {
      "epoch": 0.474,
      "grad_norm": 0.508859395980835,
      "learning_rate": 0.0001647369144046313,
      "loss": 1.1957,
      "num_input_tokens_seen": 3106406400,
      "step": 47400,
      "train_runtime": 22775.8652,
      "train_tokens_per_second": 136390.27
    },
    {
      "epoch": 0.475,
      "grad_norm": 0.5557622313499451,
      "learning_rate": 0.00016426314492371842,
      "loss": 1.1996,
      "num_input_tokens_seen": 3112960000,
      "step": 47500,
      "train_runtime": 22823.5391,
      "train_tokens_per_second": 136392.519
    },
    {
      "epoch": 0.476,
      "grad_norm": 0.5686858296394348,
      "learning_rate": 0.0001637892318130945,
      "loss": 1.201,
      "num_input_tokens_seen": 3119513600,
      "step": 47600,
      "train_runtime": 22875.0526,
      "train_tokens_per_second": 136371.866
    },
    {
      "epoch": 0.477,
      "grad_norm": 0.47568413615226746,
      "learning_rate": 0.00016331517984505934,
      "loss": 1.2132,
      "num_input_tokens_seen": 3126067200,
      "step": 47700,
      "train_runtime": 22923.2754,
      "train_tokens_per_second": 136370.878
    },
    {
      "epoch": 0.478,
      "grad_norm": 0.40612325072288513,
      "learning_rate": 0.00016284099379331092,
      "loss": 1.2085,
      "num_input_tokens_seen": 3132620800,
      "step": 47800,
      "train_runtime": 22970.2831,
      "train_tokens_per_second": 136377.109
    },
    {
      "epoch": 0.479,
      "grad_norm": 0.491755872964859,
      "learning_rate": 0.00016236667843289759,
      "loss": 1.206,
      "num_input_tokens_seen": 3139174400,
      "step": 47900,
      "train_runtime": 23016.8676,
      "train_tokens_per_second": 136385.821
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.2421867847442627,
      "learning_rate": 0.00016189223854016973,
      "loss": 1.1991,
      "num_input_tokens_seen": 3145728000,
      "step": 48000,
      "train_runtime": 23070.1067,
      "train_tokens_per_second": 136355.156
    },
    {
      "epoch": 0.481,
      "grad_norm": 0.44709935784339905,
      "learning_rate": 0.00016141767889273182,
      "loss": 1.1987,
      "num_input_tokens_seen": 3152281600,
      "step": 48100,
      "train_runtime": 23117.6704,
      "train_tokens_per_second": 136358.1
    },
    {
      "epoch": 0.482,
      "grad_norm": 0.6956078410148621,
      "learning_rate": 0.00016094300426939417,
      "loss": 1.206,
      "num_input_tokens_seen": 3158835200,
      "step": 48200,
      "train_runtime": 23164.6084,
      "train_tokens_per_second": 136364.714
    },
    {
      "epoch": 0.483,
      "grad_norm": 0.4756148159503937,
      "learning_rate": 0.00016046821945012505,
      "loss": 1.213,
      "num_input_tokens_seen": 3165388800,
      "step": 48300,
      "train_runtime": 23212.4256,
      "train_tokens_per_second": 136366.137
    },
    {
      "epoch": 0.484,
      "grad_norm": 0.4668136239051819,
      "learning_rate": 0.00015999332921600226,
      "loss": 1.2027,
      "num_input_tokens_seen": 3171942400,
      "step": 48400,
      "train_runtime": 23260.1957,
      "train_tokens_per_second": 136367.829
    },
    {
      "epoch": 0.485,
      "grad_norm": 0.48166415095329285,
      "learning_rate": 0.00015951833834916532,
      "loss": 1.1885,
      "num_input_tokens_seen": 3178496000,
      "step": 48500,
      "train_runtime": 23308.4042,
      "train_tokens_per_second": 136366.951
    },
    {
      "epoch": 0.486,
      "grad_norm": 1.4835230112075806,
      "learning_rate": 0.00015904325163276672,
      "loss": 1.2144,
      "num_input_tokens_seen": 3185049600,
      "step": 48600,
      "train_runtime": 23355.0119,
      "train_tokens_per_second": 136375.422
    },
    {
      "epoch": 0.487,
      "grad_norm": 0.47993043065071106,
      "learning_rate": 0.00015856807385092466,
      "loss": 1.2092,
      "num_input_tokens_seen": 3191603200,
      "step": 48700,
      "train_runtime": 23408.2289,
      "train_tokens_per_second": 136345.352
    },
    {
      "epoch": 0.488,
      "grad_norm": 0.4617721736431122,
      "learning_rate": 0.00015809280978867405,
      "loss": 1.2079,
      "num_input_tokens_seen": 3198156800,
      "step": 48800,
      "train_runtime": 23456.3091,
      "train_tokens_per_second": 136345.27
    },
    {
      "epoch": 0.489,
      "grad_norm": 0.4698822796344757,
      "learning_rate": 0.0001576174642319187,
      "loss": 1.2221,
      "num_input_tokens_seen": 3204710400,
      "step": 48900,
      "train_runtime": 23502.92,
      "train_tokens_per_second": 136353.713
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.5454009771347046,
      "learning_rate": 0.0001571420419673831,
      "loss": 1.201,
      "num_input_tokens_seen": 3211264000,
      "step": 49000,
      "train_runtime": 23550.5868,
      "train_tokens_per_second": 136356.008
    },
    {
      "epoch": 0.491,
      "grad_norm": 0.9021556973457336,
      "learning_rate": 0.0001566665477825642,
      "loss": 1.2047,
      "num_input_tokens_seen": 3217817600,
      "step": 49100,
      "train_runtime": 23597.4655,
      "train_tokens_per_second": 136362.848
    },
    {
      "epoch": 0.492,
      "grad_norm": 0.4959240257740021,
      "learning_rate": 0.0001561909864656831,
      "loss": 1.2042,
      "num_input_tokens_seen": 3224371200,
      "step": 49200,
      "train_runtime": 23650.6048,
      "train_tokens_per_second": 136333.562
    },
    {
      "epoch": 0.493,
      "grad_norm": 0.554251492023468,
      "learning_rate": 0.00015571536280563705,
      "loss": 1.2163,
      "num_input_tokens_seen": 3230924800,
      "step": 49300,
      "train_runtime": 23697.3685,
      "train_tokens_per_second": 136341.079
    },
    {
      "epoch": 0.494,
      "grad_norm": 0.5000952482223511,
      "learning_rate": 0.000155239681591951,
      "loss": 1.2086,
      "num_input_tokens_seen": 3237478400,
      "step": 49400,
      "train_runtime": 23745.4988,
      "train_tokens_per_second": 136340.72
    },
    {
      "epoch": 0.495,
      "grad_norm": 0.7438832521438599,
      "learning_rate": 0.00015476394761472953,
      "loss": 1.1999,
      "num_input_tokens_seen": 3244032000,
      "step": 49500,
      "train_runtime": 23793.3349,
      "train_tokens_per_second": 136342.048
    },
    {
      "epoch": 0.496,
      "grad_norm": 0.4872761368751526,
      "learning_rate": 0.00015428816566460843,
      "loss": 1.194,
      "num_input_tokens_seen": 3250585600,
      "step": 49600,
      "train_runtime": 23839.649,
      "train_tokens_per_second": 136352.074
    },
    {
      "epoch": 0.497,
      "grad_norm": 0.48635321855545044,
      "learning_rate": 0.00015381234053270669,
      "loss": 1.1957,
      "num_input_tokens_seen": 3257139200,
      "step": 49700,
      "train_runtime": 23886.4418,
      "train_tokens_per_second": 136359.33
    },
    {
      "epoch": 0.498,
      "grad_norm": 0.899361252784729,
      "learning_rate": 0.0001533364770105781,
      "loss": 1.201,
      "num_input_tokens_seen": 3263692800,
      "step": 49800,
      "train_runtime": 23933.6337,
      "train_tokens_per_second": 136364.283
    },
    {
      "epoch": 0.499,
      "grad_norm": 0.5460925698280334,
      "learning_rate": 0.0001528605798901631,
      "loss": 1.2086,
      "num_input_tokens_seen": 3270246400,
      "step": 49900,
      "train_runtime": 23985.6033,
      "train_tokens_per_second": 136342.053
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.4763907194137573,
      "learning_rate": 0.00015238465396374027,
      "loss": 1.1987,
      "num_input_tokens_seen": 3276800000,
      "step": 50000,
      "train_runtime": 24033.0829,
      "train_tokens_per_second": 136345.388
    },
    {
      "epoch": 0.501,
      "grad_norm": 0.4716530442237854,
      "learning_rate": 0.00015190870402387858,
      "loss": 1.2083,
      "num_input_tokens_seen": 3283353600,
      "step": 50100,
      "train_runtime": 24080.0017,
      "train_tokens_per_second": 136351.884
    },
    {
      "epoch": 0.502,
      "grad_norm": 0.65655517578125,
      "learning_rate": 0.00015143273486338857,
      "loss": 1.2026,
      "num_input_tokens_seen": 3289907200,
      "step": 50200,
      "train_runtime": 24132.759,
      "train_tokens_per_second": 136325.366
    },
    {
      "epoch": 0.503,
      "grad_norm": 0.494205117225647,
      "learning_rate": 0.00015095675127527438,
      "loss": 1.208,
      "num_input_tokens_seen": 3296460800,
      "step": 50300,
      "train_runtime": 24179.9126,
      "train_tokens_per_second": 136330.551
    },
    {
      "epoch": 0.504,
      "grad_norm": 0.485307902097702,
      "learning_rate": 0.00015048075805268547,
      "loss": 1.1965,
      "num_input_tokens_seen": 3303014400,
      "step": 50400,
      "train_runtime": 24227.2685,
      "train_tokens_per_second": 136334.577
    },
    {
      "epoch": 0.505,
      "grad_norm": 0.4843132793903351,
      "learning_rate": 0.00015000475998886825,
      "loss": 1.2028,
      "num_input_tokens_seen": 3309568000,
      "step": 50500,
      "train_runtime": 24274.7092,
      "train_tokens_per_second": 136338.111
    },
    {
      "epoch": 0.506,
      "grad_norm": 0.4654887020587921,
      "learning_rate": 0.00014952876187711804,
      "loss": 1.2151,
      "num_input_tokens_seen": 3316121600,
      "step": 50600,
      "train_runtime": 24321.273,
      "train_tokens_per_second": 136346.547
    },
    {
      "epoch": 0.507,
      "grad_norm": 0.4625457525253296,
      "learning_rate": 0.00014905276851073053,
      "loss": 1.209,
      "num_input_tokens_seen": 3322675200,
      "step": 50700,
      "train_runtime": 24374.7609,
      "train_tokens_per_second": 136316.217
    },
    {
      "epoch": 0.508,
      "grad_norm": 0.527594268321991,
      "learning_rate": 0.00014857678468295352,
      "loss": 1.2043,
      "num_input_tokens_seen": 3329228800,
      "step": 50800,
      "train_runtime": 24422.59,
      "train_tokens_per_second": 136317.598
    },
    {
      "epoch": 0.509,
      "grad_norm": 0.4604775011539459,
      "learning_rate": 0.00014810081518693902,
      "loss": 1.1895,
      "num_input_tokens_seen": 3335782400,
      "step": 50900,
      "train_runtime": 24468.7673,
      "train_tokens_per_second": 136328.176
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.4973219335079193,
      "learning_rate": 0.0001476248648156945,
      "loss": 1.1977,
      "num_input_tokens_seen": 3342336000,
      "step": 51000,
      "train_runtime": 24516.9703,
      "train_tokens_per_second": 136327.448
    },
    {
      "epoch": 0.511,
      "grad_norm": 0.42552006244659424,
      "learning_rate": 0.00014714893836203485,
      "loss": 1.2109,
      "num_input_tokens_seen": 3348889600,
      "step": 51100,
      "train_runtime": 24564.5614,
      "train_tokens_per_second": 136330.12
    },
    {
      "epoch": 0.512,
      "grad_norm": 0.5027197003364563,
      "learning_rate": 0.0001466730406185343,
      "loss": 1.1949,
      "num_input_tokens_seen": 3355443200,
      "step": 51200,
      "train_runtime": 24611.9784,
      "train_tokens_per_second": 136333.745
    },
    {
      "epoch": 0.513,
      "grad_norm": 0.6097121238708496,
      "learning_rate": 0.0001461971763774778,
      "loss": 1.2,
      "num_input_tokens_seen": 3361996800,
      "step": 51300,
      "train_runtime": 24665.0046,
      "train_tokens_per_second": 136306.352
    },
    {
      "epoch": 0.514,
      "grad_norm": 0.9953346848487854,
      "learning_rate": 0.0001457213504308129,
      "loss": 1.1919,
      "num_input_tokens_seen": 3368550400,
      "step": 51400,
      "train_runtime": 24711.3817,
      "train_tokens_per_second": 136315.745
    },
    {
      "epoch": 0.515,
      "grad_norm": 0.5582478642463684,
      "learning_rate": 0.00014524556757010177,
      "loss": 1.1924,
      "num_input_tokens_seen": 3375104000,
      "step": 51500,
      "train_runtime": 24758.0554,
      "train_tokens_per_second": 136323.469
    },
    {
      "epoch": 0.516,
      "grad_norm": 0.5084798336029053,
      "learning_rate": 0.00014476983258647234,
      "loss": 1.2068,
      "num_input_tokens_seen": 3381657600,
      "step": 51600,
      "train_runtime": 24807.6959,
      "train_tokens_per_second": 136314.86
    },
    {
      "epoch": 0.517,
      "grad_norm": 0.6907379627227783,
      "learning_rate": 0.0001442941502705707,
      "loss": 1.1945,
      "num_input_tokens_seen": 3388211200,
      "step": 51700,
      "train_runtime": 24855.3849,
      "train_tokens_per_second": 136316.988
    },
    {
      "epoch": 0.518,
      "grad_norm": 0.6037150025367737,
      "learning_rate": 0.0001438185254125125,
      "loss": 1.2053,
      "num_input_tokens_seen": 3394764800,
      "step": 51800,
      "train_runtime": 24901.8712,
      "train_tokens_per_second": 136325.691
    },
    {
      "epoch": 0.519,
      "grad_norm": 0.6816796064376831,
      "learning_rate": 0.00014334296280183473,
      "loss": 1.2019,
      "num_input_tokens_seen": 3401318400,
      "step": 51900,
      "train_runtime": 24955.4949,
      "train_tokens_per_second": 136295.37
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5201036930084229,
      "learning_rate": 0.00014286746722744768,
      "loss": 1.206,
      "num_input_tokens_seen": 3407872000,
      "step": 52000,
      "train_runtime": 25002.9753,
      "train_tokens_per_second": 136298.659
    },
    {
      "epoch": 0.521,
      "grad_norm": 0.5104642510414124,
      "learning_rate": 0.00014239204347758647,
      "loss": 1.2029,
      "num_input_tokens_seen": 3414425600,
      "step": 52100,
      "train_runtime": 25051.9745,
      "train_tokens_per_second": 136293.672
    },
    {
      "epoch": 0.522,
      "grad_norm": 0.4965505003929138,
      "learning_rate": 0.00014191669633976294,
      "loss": 1.1961,
      "num_input_tokens_seen": 3420979200,
      "step": 52200,
      "train_runtime": 25099.3949,
      "train_tokens_per_second": 136297.278
    },
    {
      "epoch": 0.523,
      "grad_norm": 0.5390327572822571,
      "learning_rate": 0.00014144143060071756,
      "loss": 1.194,
      "num_input_tokens_seen": 3427532800,
      "step": 52300,
      "train_runtime": 25146.6291,
      "train_tokens_per_second": 136301.879
    },
    {
      "epoch": 0.524,
      "grad_norm": 2.647089719772339,
      "learning_rate": 0.000140966251046371,
      "loss": 1.2006,
      "num_input_tokens_seen": 3434086400,
      "step": 52400,
      "train_runtime": 25194.2742,
      "train_tokens_per_second": 136304.24
    },
    {
      "epoch": 0.525,
      "grad_norm": 0.46030643582344055,
      "learning_rate": 0.0001404911624617761,
      "loss": 1.2071,
      "num_input_tokens_seen": 3440640000,
      "step": 52500,
      "train_runtime": 25247.7567,
      "train_tokens_per_second": 136275.077
    },
    {
      "epoch": 0.526,
      "grad_norm": 0.487699031829834,
      "learning_rate": 0.00014001616963106966,
      "loss": 1.2046,
      "num_input_tokens_seen": 3447193600,
      "step": 52600,
      "train_runtime": 25295.5054,
      "train_tokens_per_second": 136276.921
    },
    {
      "epoch": 0.527,
      "grad_norm": 0.4782906472682953,
      "learning_rate": 0.00013954127733742416,
      "loss": 1.1891,
      "num_input_tokens_seen": 3453747200,
      "step": 52700,
      "train_runtime": 25344.1317,
      "train_tokens_per_second": 136274.039
    },
    {
      "epoch": 0.528,
      "grad_norm": 0.595632016658783,
      "learning_rate": 0.0001390664903629998,
      "loss": 1.1867,
      "num_input_tokens_seen": 3460300800,
      "step": 52800,
      "train_runtime": 25391.6777,
      "train_tokens_per_second": 136276.966
    },
    {
      "epoch": 0.529,
      "grad_norm": 0.5201537609100342,
      "learning_rate": 0.0001385918134888961,
      "loss": 1.1955,
      "num_input_tokens_seen": 3466854400,
      "step": 52900,
      "train_runtime": 25439.3874,
      "train_tokens_per_second": 136279.005
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.4726644456386566,
      "learning_rate": 0.00013811725149510387,
      "loss": 1.206,
      "num_input_tokens_seen": 3473408000,
      "step": 53000,
      "train_runtime": 25492.0415,
      "train_tokens_per_second": 136254.603
    },
    {
      "epoch": 0.531,
      "grad_norm": 0.5846008062362671,
      "learning_rate": 0.0001376428091604572,
      "loss": 1.2117,
      "num_input_tokens_seen": 3479961600,
      "step": 53100,
      "train_runtime": 25540.3083,
      "train_tokens_per_second": 136253.704
    },
    {
      "epoch": 0.532,
      "grad_norm": 0.4758647382259369,
      "learning_rate": 0.00013716849126258512,
      "loss": 1.2042,
      "num_input_tokens_seen": 3486515200,
      "step": 53200,
      "train_runtime": 25589.0853,
      "train_tokens_per_second": 136250.091
    },
    {
      "epoch": 0.533,
      "grad_norm": 0.4607105255126953,
      "learning_rate": 0.00013669430257786354,
      "loss": 1.1992,
      "num_input_tokens_seen": 3493068800,
      "step": 53300,
      "train_runtime": 25636.4376,
      "train_tokens_per_second": 136254.063
    },
    {
      "epoch": 0.534,
      "grad_norm": 0.6885077357292175,
      "learning_rate": 0.00013622024788136728,
      "loss": 1.2006,
      "num_input_tokens_seen": 3499622400,
      "step": 53400,
      "train_runtime": 25684.4816,
      "train_tokens_per_second": 136254.352
    },
    {
      "epoch": 0.535,
      "grad_norm": 0.6578366160392761,
      "learning_rate": 0.00013574633194682185,
      "loss": 1.1948,
      "num_input_tokens_seen": 3506176000,
      "step": 53500,
      "train_runtime": 25730.7322,
      "train_tokens_per_second": 136264.136
    },
    {
      "epoch": 0.536,
      "grad_norm": 0.4718693196773529,
      "learning_rate": 0.0001352725595465555,
      "loss": 1.2,
      "num_input_tokens_seen": 3512729600,
      "step": 53600,
      "train_runtime": 25783.9922,
      "train_tokens_per_second": 136236.839
    },
    {
      "epoch": 0.537,
      "grad_norm": 0.5561531186103821,
      "learning_rate": 0.000134798935451451,
      "loss": 1.2052,
      "num_input_tokens_seen": 3519283200,
      "step": 53700,
      "train_runtime": 25832.8858,
      "train_tokens_per_second": 136232.677
    },
    {
      "epoch": 0.538,
      "grad_norm": 0.5250628590583801,
      "learning_rate": 0.00013432546443089768,
      "loss": 1.2,
      "num_input_tokens_seen": 3525836800,
      "step": 53800,
      "train_runtime": 25880.0084,
      "train_tokens_per_second": 136237.854
    },
    {
      "epoch": 0.539,
      "grad_norm": 0.5457636117935181,
      "learning_rate": 0.0001338521512527436,
      "loss": 1.1944,
      "num_input_tokens_seen": 3532390400,
      "step": 53900,
      "train_runtime": 25927.8228,
      "train_tokens_per_second": 136239.376
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.4437522292137146,
      "learning_rate": 0.00013337900068324712,
      "loss": 1.1912,
      "num_input_tokens_seen": 3538944000,
      "step": 54000,
      "train_runtime": 25975.6777,
      "train_tokens_per_second": 136240.68
    },
    {
      "epoch": 0.541,
      "grad_norm": 0.5343025326728821,
      "learning_rate": 0.00013290601748702918,
      "loss": 1.188,
      "num_input_tokens_seen": 3545497600,
      "step": 54100,
      "train_runtime": 26027.6243,
      "train_tokens_per_second": 136220.562
    },
    {
      "epoch": 0.542,
      "grad_norm": 0.4907335042953491,
      "learning_rate": 0.00013243320642702543,
      "loss": 1.1909,
      "num_input_tokens_seen": 3552051200,
      "step": 54200,
      "train_runtime": 26075.5648,
      "train_tokens_per_second": 136221.448
    },
    {
      "epoch": 0.543,
      "grad_norm": 0.7268043160438538,
      "learning_rate": 0.0001319605722644379,
      "loss": 1.1911,
      "num_input_tokens_seen": 3558604800,
      "step": 54300,
      "train_runtime": 26122.2114,
      "train_tokens_per_second": 136229.079
    },
    {
      "epoch": 0.544,
      "grad_norm": 1.3769776821136475,
      "learning_rate": 0.0001314881197586874,
      "loss": 1.224,
      "num_input_tokens_seen": 3565158400,
      "step": 54400,
      "train_runtime": 26170.2324,
      "train_tokens_per_second": 136229.528
    },
    {
      "epoch": 0.545,
      "grad_norm": 0.7141419649124146,
      "learning_rate": 0.0001310158536673654,
      "loss": 1.2025,
      "num_input_tokens_seen": 3571712000,
      "step": 54500,
      "train_runtime": 26217.6992,
      "train_tokens_per_second": 136232.854
    },
    {
      "epoch": 0.546,
      "grad_norm": 0.5124280452728271,
      "learning_rate": 0.0001305437787461862,
      "loss": 1.1972,
      "num_input_tokens_seen": 3578265600,
      "step": 54600,
      "train_runtime": 26264.9719,
      "train_tokens_per_second": 136237.176
    },
    {
      "epoch": 0.547,
      "grad_norm": 0.5609524250030518,
      "learning_rate": 0.00013007189974893903,
      "loss": 1.1924,
      "num_input_tokens_seen": 3584819200,
      "step": 54700,
      "train_runtime": 26319.2824,
      "train_tokens_per_second": 136205.051
    },
    {
      "epoch": 0.548,
      "grad_norm": 0.5220986604690552,
      "learning_rate": 0.00012960022142744016,
      "loss": 1.188,
      "num_input_tokens_seen": 3591372800,
      "step": 54800,
      "train_runtime": 26367.119,
      "train_tokens_per_second": 136206.493
    },
    {
      "epoch": 0.549,
      "grad_norm": 0.5159165263175964,
      "learning_rate": 0.00012912874853148506,
      "loss": 1.1891,
      "num_input_tokens_seen": 3597926400,
      "step": 54900,
      "train_runtime": 26415.2651,
      "train_tokens_per_second": 136206.333
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5019519925117493,
      "learning_rate": 0.00012865748580880053,
      "loss": 1.1827,
      "num_input_tokens_seen": 3604480000,
      "step": 55000,
      "train_runtime": 26462.5595,
      "train_tokens_per_second": 136210.558
    },
    {
      "epoch": 0.551,
      "grad_norm": 0.5309172868728638,
      "learning_rate": 0.0001281864380049969,
      "loss": 1.1876,
      "num_input_tokens_seen": 3611033600,
      "step": 55100,
      "train_runtime": 26514.9513,
      "train_tokens_per_second": 136188.581
    },
    {
      "epoch": 0.552,
      "grad_norm": 0.5431755781173706,
      "learning_rate": 0.00012771560986352042,
      "loss": 1.2038,
      "num_input_tokens_seen": 3617587200,
      "step": 55200,
      "train_runtime": 26562.7975,
      "train_tokens_per_second": 136189.993
    },
    {
      "epoch": 0.553,
      "grad_norm": 0.5063371658325195,
      "learning_rate": 0.0001272450061256052,
      "loss": 1.1837,
      "num_input_tokens_seen": 3624140800,
      "step": 55300,
      "train_runtime": 26609.2594,
      "train_tokens_per_second": 136198.484
    },
    {
      "epoch": 0.554,
      "grad_norm": 0.502314567565918,
      "learning_rate": 0.00012677463153022565,
      "loss": 1.1988,
      "num_input_tokens_seen": 3630694400,
      "step": 55400,
      "train_runtime": 26655.8656,
      "train_tokens_per_second": 136206.209
    },
    {
      "epoch": 0.555,
      "grad_norm": 0.5824739336967468,
      "learning_rate": 0.0001263044908140488,
      "loss": 1.1917,
      "num_input_tokens_seen": 3637248000,
      "step": 55500,
      "train_runtime": 26707.6694,
      "train_tokens_per_second": 136187.398
    },
    {
      "epoch": 0.556,
      "grad_norm": 0.5498598217964172,
      "learning_rate": 0.00012583458871138632,
      "loss": 1.1908,
      "num_input_tokens_seen": 3643801600,
      "step": 55600,
      "train_runtime": 26755.8413,
      "train_tokens_per_second": 136187.144
    },
    {
      "epoch": 0.557,
      "grad_norm": 0.5867239832878113,
      "learning_rate": 0.00012536492995414723,
      "loss": 1.193,
      "num_input_tokens_seen": 3650355200,
      "step": 55700,
      "train_runtime": 26804.5182,
      "train_tokens_per_second": 136184.324
    },
    {
      "epoch": 0.558,
      "grad_norm": 0.5584626197814941,
      "learning_rate": 0.00012489551927179007,
      "loss": 1.1833,
      "num_input_tokens_seen": 3656908800,
      "step": 55800,
      "train_runtime": 26850.8981,
      "train_tokens_per_second": 136193.165
    },
    {
      "epoch": 0.559,
      "grad_norm": 0.48578086495399475,
      "learning_rate": 0.00012442636139127508,
      "loss": 1.1919,
      "num_input_tokens_seen": 3663462400,
      "step": 55900,
      "train_runtime": 26898.2376,
      "train_tokens_per_second": 136197.116
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5344805121421814,
      "learning_rate": 0.00012395746103701695,
      "loss": 1.1978,
      "num_input_tokens_seen": 3670016000,
      "step": 56000,
      "train_runtime": 26951.1383,
      "train_tokens_per_second": 136172.95
    },
    {
      "epoch": 0.561,
      "grad_norm": 0.5378079414367676,
      "learning_rate": 0.00012348882293083708,
      "loss": 1.192,
      "num_input_tokens_seen": 3676569600,
      "step": 56100,
      "train_runtime": 26999.7429,
      "train_tokens_per_second": 136170.541
    },
    {
      "epoch": 0.562,
      "grad_norm": 0.6195780038833618,
      "learning_rate": 0.00012302045179191594,
      "loss": 1.1919,
      "num_input_tokens_seen": 3683123200,
      "step": 56200,
      "train_runtime": 27047.827,
      "train_tokens_per_second": 136170.761
    },
    {
      "epoch": 0.563,
      "grad_norm": 0.5348559617996216,
      "learning_rate": 0.00012255235233674572,
      "loss": 1.1875,
      "num_input_tokens_seen": 3689676800,
      "step": 56300,
      "train_runtime": 27094.1422,
      "train_tokens_per_second": 136179.871
    },
    {
      "epoch": 0.564,
      "grad_norm": 0.48098888993263245,
      "learning_rate": 0.00012208452927908278,
      "loss": 1.1818,
      "num_input_tokens_seen": 3696230400,
      "step": 56400,
      "train_runtime": 27141.6856,
      "train_tokens_per_second": 136182.787
    },
    {
      "epoch": 0.565,
      "grad_norm": 0.585021436214447,
      "learning_rate": 0.00012161698732990003,
      "loss": 1.1887,
      "num_input_tokens_seen": 3702784000,
      "step": 56500,
      "train_runtime": 27194.4825,
      "train_tokens_per_second": 136159.385
    },
    {
      "epoch": 0.566,
      "grad_norm": 0.5269266963005066,
      "learning_rate": 0.00012114973119733987,
      "loss": 1.187,
      "num_input_tokens_seen": 3709337600,
      "step": 56600,
      "train_runtime": 27242.6521,
      "train_tokens_per_second": 136159.196
    },
    {
      "epoch": 0.567,
      "grad_norm": 0.5563040971755981,
      "learning_rate": 0.00012068276558666616,
      "loss": 1.1996,
      "num_input_tokens_seen": 3715891200,
      "step": 56700,
      "train_runtime": 27290.3101,
      "train_tokens_per_second": 136161.56
    },
    {
      "epoch": 0.568,
      "grad_norm": 0.6131460666656494,
      "learning_rate": 0.00012021609520021752,
      "loss": 1.195,
      "num_input_tokens_seen": 3722444800,
      "step": 56800,
      "train_runtime": 27337.7804,
      "train_tokens_per_second": 136164.851
    },
    {
      "epoch": 0.569,
      "grad_norm": 0.5921023488044739,
      "learning_rate": 0.00011974972473735957,
      "loss": 1.2018,
      "num_input_tokens_seen": 3728998400,
      "step": 56900,
      "train_runtime": 27384.9126,
      "train_tokens_per_second": 136169.812
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.4582422375679016,
      "learning_rate": 0.00011928365889443764,
      "loss": 1.1914,
      "num_input_tokens_seen": 3735552000,
      "step": 57000,
      "train_runtime": 27436.2125,
      "train_tokens_per_second": 136154.07
    },
    {
      "epoch": 0.571,
      "grad_norm": 0.6521887183189392,
      "learning_rate": 0.00011881790236472966,
      "loss": 1.2041,
      "num_input_tokens_seen": 3742105600,
      "step": 57100,
      "train_runtime": 27484.9505,
      "train_tokens_per_second": 136151.076
    },
    {
      "epoch": 0.572,
      "grad_norm": 0.5971055030822754,
      "learning_rate": 0.00011835245983839869,
      "loss": 1.1992,
      "num_input_tokens_seen": 3748659200,
      "step": 57200,
      "train_runtime": 27531.7756,
      "train_tokens_per_second": 136157.553
    },
    {
      "epoch": 0.573,
      "grad_norm": 0.5187013745307922,
      "learning_rate": 0.00011788733600244575,
      "loss": 1.193,
      "num_input_tokens_seen": 3755212800,
      "step": 57300,
      "train_runtime": 27579.3239,
      "train_tokens_per_second": 136160.437
    },
    {
      "epoch": 0.574,
      "grad_norm": 0.5805628299713135,
      "learning_rate": 0.00011742253554066278,
      "loss": 1.1925,
      "num_input_tokens_seen": 3761766400,
      "step": 57400,
      "train_runtime": 27633.4529,
      "train_tokens_per_second": 136130.885
    },
    {
      "epoch": 0.575,
      "grad_norm": 0.5242844223976135,
      "learning_rate": 0.00011695806313358523,
      "loss": 1.1991,
      "num_input_tokens_seen": 3768320000,
      "step": 57500,
      "train_runtime": 27681.3237,
      "train_tokens_per_second": 136132.218
    },
    {
      "epoch": 0.576,
      "grad_norm": 0.7652018666267395,
      "learning_rate": 0.00011649392345844506,
      "loss": 1.192,
      "num_input_tokens_seen": 3774873600,
      "step": 57600,
      "train_runtime": 27728.8266,
      "train_tokens_per_second": 136135.353
    },
    {
      "epoch": 0.577,
      "grad_norm": 0.5232011675834656,
      "learning_rate": 0.00011603012118912372,
      "loss": 1.2019,
      "num_input_tokens_seen": 3781427200,
      "step": 57700,
      "train_runtime": 27778.1555,
      "train_tokens_per_second": 136129.528
    },
    {
      "epoch": 0.578,
      "grad_norm": 0.5537053942680359,
      "learning_rate": 0.00011556666099610485,
      "loss": 1.1948,
      "num_input_tokens_seen": 3787980800,
      "step": 57800,
      "train_runtime": 27824.9287,
      "train_tokens_per_second": 136136.227
    },
    {
      "epoch": 0.579,
      "grad_norm": 0.6031852960586548,
      "learning_rate": 0.00011510354754642745,
      "loss": 1.1888,
      "num_input_tokens_seen": 3794534400,
      "step": 57900,
      "train_runtime": 27872.2044,
      "train_tokens_per_second": 136140.448
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5748854875564575,
      "learning_rate": 0.00011464078550363887,
      "loss": 1.1921,
      "num_input_tokens_seen": 3801088000,
      "step": 58000,
      "train_runtime": 27925.2055,
      "train_tokens_per_second": 136116.742
    },
    {
      "epoch": 0.581,
      "grad_norm": 0.5586141347885132,
      "learning_rate": 0.0001141783795277477,
      "loss": 1.2024,
      "num_input_tokens_seen": 3807641600,
      "step": 58100,
      "train_runtime": 27972.7534,
      "train_tokens_per_second": 136119.657
    },
    {
      "epoch": 0.582,
      "grad_norm": 0.4893476366996765,
      "learning_rate": 0.00011371633427517696,
      "loss": 1.2034,
      "num_input_tokens_seen": 3814195200,
      "step": 58200,
      "train_runtime": 28020.2529,
      "train_tokens_per_second": 136122.797
    },
    {
      "epoch": 0.583,
      "grad_norm": 0.5007518529891968,
      "learning_rate": 0.00011325465439871731,
      "loss": 1.1885,
      "num_input_tokens_seen": 3820748800,
      "step": 58300,
      "train_runtime": 28067.154,
      "train_tokens_per_second": 136128.829
    },
    {
      "epoch": 0.584,
      "grad_norm": 0.5260310769081116,
      "learning_rate": 0.00011279334454747989,
      "loss": 1.1931,
      "num_input_tokens_seen": 3827302400,
      "step": 58400,
      "train_runtime": 28120.6157,
      "train_tokens_per_second": 136103.08
    },
    {
      "epoch": 0.585,
      "grad_norm": 0.5364392399787903,
      "learning_rate": 0.00011233240936684981,
      "loss": 1.1928,
      "num_input_tokens_seen": 3833856000,
      "step": 58500,
      "train_runtime": 28168.5149,
      "train_tokens_per_second": 136104.3
    },
    {
      "epoch": 0.586,
      "grad_norm": 0.49333399534225464,
      "learning_rate": 0.00011187185349843916,
      "loss": 1.1935,
      "num_input_tokens_seen": 3840409600,
      "step": 58600,
      "train_runtime": 28215.0596,
      "train_tokens_per_second": 136112.05
    },
    {
      "epoch": 0.587,
      "grad_norm": 0.5711957216262817,
      "learning_rate": 0.00011141168158004053,
      "loss": 1.1812,
      "num_input_tokens_seen": 3846963200,
      "step": 58700,
      "train_runtime": 28264.2863,
      "train_tokens_per_second": 136106.858
    },
    {
      "epoch": 0.588,
      "grad_norm": 1.0157184600830078,
      "learning_rate": 0.00011095189824557998,
      "loss": 1.1929,
      "num_input_tokens_seen": 3853516800,
      "step": 58800,
      "train_runtime": 28311.6057,
      "train_tokens_per_second": 136110.853
    },
    {
      "epoch": 0.589,
      "grad_norm": 0.552700936794281,
      "learning_rate": 0.00011049250812507054,
      "loss": 1.1909,
      "num_input_tokens_seen": 3860070400,
      "step": 58900,
      "train_runtime": 28359.0956,
      "train_tokens_per_second": 136114.016
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.46860748529434204,
      "learning_rate": 0.00011003351584456571,
      "loss": 1.1972,
      "num_input_tokens_seen": 3866624000,
      "step": 59000,
      "train_runtime": 28412.8978,
      "train_tokens_per_second": 136086.929
    },
    {
      "epoch": 0.591,
      "grad_norm": 0.5399055480957031,
      "learning_rate": 0.0001095749260261126,
      "loss": 1.1895,
      "num_input_tokens_seen": 3873177600,
      "step": 59100,
      "train_runtime": 28462.0603,
      "train_tokens_per_second": 136082.123
    },
    {
      "epoch": 0.592,
      "grad_norm": 0.49921005964279175,
      "learning_rate": 0.00010911674328770559,
      "loss": 1.1968,
      "num_input_tokens_seen": 3879731200,
      "step": 59200,
      "train_runtime": 28510.9551,
      "train_tokens_per_second": 136078.612
    },
    {
      "epoch": 0.593,
      "grad_norm": 0.5357686877250671,
      "learning_rate": 0.00010865897224323979,
      "loss": 1.1889,
      "num_input_tokens_seen": 3886284800,
      "step": 59300,
      "train_runtime": 28558.3344,
      "train_tokens_per_second": 136082.334
    },
    {
      "epoch": 0.594,
      "grad_norm": 0.5710283517837524,
      "learning_rate": 0.00010820161750246453,
      "loss": 1.1864,
      "num_input_tokens_seen": 3892838400,
      "step": 59400,
      "train_runtime": 28606.454,
      "train_tokens_per_second": 136082.522
    },
    {
      "epoch": 0.595,
      "grad_norm": 0.6333475112915039,
      "learning_rate": 0.00010774468367093696,
      "loss": 1.2009,
      "num_input_tokens_seen": 3899392000,
      "step": 59500,
      "train_runtime": 28653.986,
      "train_tokens_per_second": 136085.5
    },
    {
      "epoch": 0.596,
      "grad_norm": 0.5585243701934814,
      "learning_rate": 0.00010728817534997573,
      "loss": 1.1877,
      "num_input_tokens_seen": 3905945600,
      "step": 59600,
      "train_runtime": 28701.832,
      "train_tokens_per_second": 136086.979
    },
    {
      "epoch": 0.597,
      "grad_norm": 0.5805736184120178,
      "learning_rate": 0.00010683209713661453,
      "loss": 1.211,
      "num_input_tokens_seen": 3912499200,
      "step": 59700,
      "train_runtime": 28751.7229,
      "train_tokens_per_second": 136078.774
    },
    {
      "epoch": 0.598,
      "grad_norm": 0.5607670545578003,
      "learning_rate": 0.00010637645362355589,
      "loss": 1.196,
      "num_input_tokens_seen": 3919052800,
      "step": 59800,
      "train_runtime": 28798.1873,
      "train_tokens_per_second": 136086.788
    },
    {
      "epoch": 0.599,
      "grad_norm": 0.4962175488471985,
      "learning_rate": 0.00010592124939912497,
      "loss": 1.1889,
      "num_input_tokens_seen": 3925606400,
      "step": 59900,
      "train_runtime": 28852.3337,
      "train_tokens_per_second": 136058.54
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6488810777664185,
      "learning_rate": 0.00010546648904722326,
      "loss": 1.1968,
      "num_input_tokens_seen": 3932160000,
      "step": 60000,
      "train_runtime": 28898.713,
      "train_tokens_per_second": 136066.959
    },
    {
      "epoch": 0.601,
      "grad_norm": 0.9370976686477661,
      "learning_rate": 0.0001050121771472824,
      "loss": 1.183,
      "num_input_tokens_seen": 3938713600,
      "step": 60100,
      "train_runtime": 28946.5523,
      "train_tokens_per_second": 136068.488
    },
    {
      "epoch": 0.602,
      "grad_norm": 0.5040610432624817,
      "learning_rate": 0.0001045583182742182,
      "loss": 1.2023,
      "num_input_tokens_seen": 3945267200,
      "step": 60200,
      "train_runtime": 28994.2594,
      "train_tokens_per_second": 136070.632
    },
    {
      "epoch": 0.603,
      "grad_norm": 0.5120612382888794,
      "learning_rate": 0.00010410491699838448,
      "loss": 1.1865,
      "num_input_tokens_seen": 3951820800,
      "step": 60300,
      "train_runtime": 29042.095,
      "train_tokens_per_second": 136072.167
    },
    {
      "epoch": 0.604,
      "grad_norm": 0.8983064889907837,
      "learning_rate": 0.00010365197788552707,
      "loss": 1.1734,
      "num_input_tokens_seen": 3958374400,
      "step": 60400,
      "train_runtime": 29090.1772,
      "train_tokens_per_second": 136072.543
    },
    {
      "epoch": 0.605,
      "grad_norm": 0.5155735015869141,
      "learning_rate": 0.00010319950549673778,
      "loss": 1.1923,
      "num_input_tokens_seen": 3964928000,
      "step": 60500,
      "train_runtime": 29143.642,
      "train_tokens_per_second": 136047.787
    },
    {
      "epoch": 0.606,
      "grad_norm": 1.5562913417816162,
      "learning_rate": 0.00010274750438840855,
      "loss": 1.1877,
      "num_input_tokens_seen": 3971481600,
      "step": 60600,
      "train_runtime": 29191.8256,
      "train_tokens_per_second": 136047.73
    },
    {
      "epoch": 0.607,
      "grad_norm": 0.5603190064430237,
      "learning_rate": 0.00010229597911218554,
      "loss": 1.1862,
      "num_input_tokens_seen": 3978035200,
      "step": 60700,
      "train_runtime": 29240.4534,
      "train_tokens_per_second": 136045.606
    },
    {
      "epoch": 0.608,
      "grad_norm": 0.550956130027771,
      "learning_rate": 0.00010184493421492324,
      "loss": 1.1869,
      "num_input_tokens_seen": 3984588800,
      "step": 60800,
      "train_runtime": 29287.1822,
      "train_tokens_per_second": 136052.31
    },
    {
      "epoch": 0.609,
      "grad_norm": 0.5152813196182251,
      "learning_rate": 0.0001013943742386388,
      "loss": 1.1902,
      "num_input_tokens_seen": 3991142400,
      "step": 60900,
      "train_runtime": 29335.0152,
      "train_tokens_per_second": 136053.872
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5258508324623108,
      "learning_rate": 0.00010094430372046616,
      "loss": 1.1843,
      "num_input_tokens_seen": 3997696000,
      "step": 61000,
      "train_runtime": 29387.778,
      "train_tokens_per_second": 136032.605
    },
    {
      "epoch": 0.611,
      "grad_norm": 0.5804030895233154,
      "learning_rate": 0.0001004947271926104,
      "loss": 1.1872,
      "num_input_tokens_seen": 4004249600,
      "step": 61100,
      "train_runtime": 29435.5024,
      "train_tokens_per_second": 136034.695
    },
    {
      "epoch": 0.612,
      "grad_norm": 0.5679774284362793,
      "learning_rate": 0.00010004564918230222,
      "loss": 1.1933,
      "num_input_tokens_seen": 4010803200,
      "step": 61200,
      "train_runtime": 29483.504,
      "train_tokens_per_second": 136035.5
    },
    {
      "epoch": 0.613,
      "grad_norm": 0.611191987991333,
      "learning_rate": 9.959707421175217e-05,
      "loss": 1.1926,
      "num_input_tokens_seen": 4017356800,
      "step": 61300,
      "train_runtime": 29529.7223,
      "train_tokens_per_second": 136044.517
    },
    {
      "epoch": 0.614,
      "grad_norm": 0.5725626945495605,
      "learning_rate": 9.914900679810522e-05,
      "loss": 1.1812,
      "num_input_tokens_seen": 4023910400,
      "step": 61400,
      "train_runtime": 29577.4052,
      "train_tokens_per_second": 136046.769
    },
    {
      "epoch": 0.615,
      "grad_norm": 0.6058773398399353,
      "learning_rate": 9.870145145339529e-05,
      "loss": 1.1904,
      "num_input_tokens_seen": 4030464000,
      "step": 61500,
      "train_runtime": 29630.1636,
      "train_tokens_per_second": 136025.708
    },
    {
      "epoch": 0.616,
      "grad_norm": 0.5151665806770325,
      "learning_rate": 9.825441268449969e-05,
      "loss": 1.1783,
      "num_input_tokens_seen": 4037017600,
      "step": 61600,
      "train_runtime": 29677.4813,
      "train_tokens_per_second": 136029.657
    },
    {
      "epoch": 0.617,
      "grad_norm": 0.5461622476577759,
      "learning_rate": 9.780789499309391e-05,
      "loss": 1.1825,
      "num_input_tokens_seen": 4043571200,
      "step": 61700,
      "train_runtime": 29725.432,
      "train_tokens_per_second": 136030.696
    },
    {
      "epoch": 0.618,
      "grad_norm": 0.8243169784545898,
      "learning_rate": 9.736190287560608e-05,
      "loss": 1.1933,
      "num_input_tokens_seen": 4050124800,
      "step": 61800,
      "train_runtime": 29772.1739,
      "train_tokens_per_second": 136037.255
    },
    {
      "epoch": 0.619,
      "grad_norm": 0.4877258539199829,
      "learning_rate": 9.691644082317186e-05,
      "loss": 1.1881,
      "num_input_tokens_seen": 4056678400,
      "step": 61900,
      "train_runtime": 29825.721,
      "train_tokens_per_second": 136012.752
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5376379489898682,
      "learning_rate": 9.647151332158926e-05,
      "loss": 1.1812,
      "num_input_tokens_seen": 4063232000,
      "step": 62000,
      "train_runtime": 29872.1612,
      "train_tokens_per_second": 136020.691
    },
    {
      "epoch": 0.621,
      "grad_norm": 0.5128985643386841,
      "learning_rate": 9.60271248512732e-05,
      "loss": 1.1719,
      "num_input_tokens_seen": 4069785600,
      "step": 62100,
      "train_runtime": 29919.8698,
      "train_tokens_per_second": 136022.838
    },
    {
      "epoch": 0.622,
      "grad_norm": 0.6911051273345947,
      "learning_rate": 9.558327988721068e-05,
      "loss": 1.199,
      "num_input_tokens_seen": 4076339200,
      "step": 62200,
      "train_runtime": 29967.7263,
      "train_tokens_per_second": 136024.307
    },
    {
      "epoch": 0.623,
      "grad_norm": 0.5334423184394836,
      "learning_rate": 9.513998289891559e-05,
      "loss": 1.1922,
      "num_input_tokens_seen": 4082892800,
      "step": 62300,
      "train_runtime": 30014.7483,
      "train_tokens_per_second": 136029.553
    },
    {
      "epoch": 0.624,
      "grad_norm": 0.47934290766716003,
      "learning_rate": 9.469723835038361e-05,
      "loss": 1.1864,
      "num_input_tokens_seen": 4089446400,
      "step": 62400,
      "train_runtime": 30062.3944,
      "train_tokens_per_second": 136031.959
    },
    {
      "epoch": 0.625,
      "grad_norm": 0.6690011620521545,
      "learning_rate": 9.42550507000475e-05,
      "loss": 1.1887,
      "num_input_tokens_seen": 4096000000,
      "step": 62500,
      "train_runtime": 30115.1503,
      "train_tokens_per_second": 136011.275
    },
    {
      "epoch": 0.626,
      "grad_norm": 0.5379562973976135,
      "learning_rate": 9.381342440073194e-05,
      "loss": 1.1873,
      "num_input_tokens_seen": 4102553600,
      "step": 62600,
      "train_runtime": 30162.8214,
      "train_tokens_per_second": 136013.589
    },
    {
      "epoch": 0.627,
      "grad_norm": 0.5619449615478516,
      "learning_rate": 9.337236389960886e-05,
      "loss": 1.184,
      "num_input_tokens_seen": 4109107200,
      "step": 62700,
      "train_runtime": 30211.3171,
      "train_tokens_per_second": 136012.183
    },
    {
      "epoch": 0.628,
      "grad_norm": 0.9017994999885559,
      "learning_rate": 9.293187363815265e-05,
      "loss": 1.1869,
      "num_input_tokens_seen": 4115660800,
      "step": 62800,
      "train_runtime": 30263.5761,
      "train_tokens_per_second": 135993.869
    },
    {
      "epoch": 0.629,
      "grad_norm": 0.6502019762992859,
      "learning_rate": 9.249195805209533e-05,
      "loss": 1.1944,
      "num_input_tokens_seen": 4122214400,
      "step": 62900,
      "train_runtime": 30310.6247,
      "train_tokens_per_second": 135998.992
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5749123096466064,
      "learning_rate": 9.205262157138192e-05,
      "loss": 1.1896,
      "num_input_tokens_seen": 4128768000,
      "step": 63000,
      "train_runtime": 30359.0787,
      "train_tokens_per_second": 135997.803
    },
    {
      "epoch": 0.631,
      "grad_norm": 0.4843611419200897,
      "learning_rate": 9.161386862012601e-05,
      "loss": 1.1932,
      "num_input_tokens_seen": 4135321600,
      "step": 63100,
      "train_runtime": 30406.8492,
      "train_tokens_per_second": 135999.675
    },
    {
      "epoch": 0.632,
      "grad_norm": 0.634504497051239,
      "learning_rate": 9.11757036165649e-05,
      "loss": 1.181,
      "num_input_tokens_seen": 4141875200,
      "step": 63200,
      "train_runtime": 30453.794,
      "train_tokens_per_second": 136005.228
    },
    {
      "epoch": 0.633,
      "grad_norm": 0.605948269367218,
      "learning_rate": 9.073813097301521e-05,
      "loss": 1.1742,
      "num_input_tokens_seen": 4148428800,
      "step": 63300,
      "train_runtime": 30506.719,
      "train_tokens_per_second": 135984.102
    },
    {
      "epoch": 0.634,
      "grad_norm": 0.5731847882270813,
      "learning_rate": 9.030115509582883e-05,
      "loss": 1.1809,
      "num_input_tokens_seen": 4154982400,
      "step": 63400,
      "train_runtime": 30554.7018,
      "train_tokens_per_second": 135985.042
    },
    {
      "epoch": 0.635,
      "grad_norm": 0.9707246422767639,
      "learning_rate": 8.986478038534775e-05,
      "loss": 1.1981,
      "num_input_tokens_seen": 4161536000,
      "step": 63500,
      "train_runtime": 30602.1945,
      "train_tokens_per_second": 135988.156
    },
    {
      "epoch": 0.636,
      "grad_norm": 0.7120965719223022,
      "learning_rate": 8.942901123586059e-05,
      "loss": 1.1816,
      "num_input_tokens_seen": 4168089600,
      "step": 63600,
      "train_runtime": 30649.6499,
      "train_tokens_per_second": 135991.426
    },
    {
      "epoch": 0.637,
      "grad_norm": 0.5136720538139343,
      "learning_rate": 8.899385203555781e-05,
      "loss": 1.177,
      "num_input_tokens_seen": 4174643200,
      "step": 63700,
      "train_runtime": 30696.6221,
      "train_tokens_per_second": 135996.827
    },
    {
      "epoch": 0.638,
      "grad_norm": 0.5284336805343628,
      "learning_rate": 8.855930716648774e-05,
      "loss": 1.184,
      "num_input_tokens_seen": 4181196800,
      "step": 63800,
      "train_runtime": 30745.5123,
      "train_tokens_per_second": 135993.727
    },
    {
      "epoch": 0.639,
      "grad_norm": 0.5269259810447693,
      "learning_rate": 8.812538100451239e-05,
      "loss": 1.2174,
      "num_input_tokens_seen": 4187750400,
      "step": 63900,
      "train_runtime": 30792.1632,
      "train_tokens_per_second": 136000.526
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5354572534561157,
      "learning_rate": 8.769207791926338e-05,
      "loss": 1.1771,
      "num_input_tokens_seen": 4194304000,
      "step": 64000,
      "train_runtime": 30846.5823,
      "train_tokens_per_second": 135973.054
    },
    {
      "epoch": 0.641,
      "grad_norm": 0.7058772444725037,
      "learning_rate": 8.725940227409797e-05,
      "loss": 1.179,
      "num_input_tokens_seen": 4200857600,
      "step": 64100,
      "train_runtime": 30893.4429,
      "train_tokens_per_second": 135978.94
    },
    {
      "epoch": 0.642,
      "grad_norm": 0.5777366161346436,
      "learning_rate": 8.682735842605509e-05,
      "loss": 1.182,
      "num_input_tokens_seen": 4207411200,
      "step": 64200,
      "train_runtime": 30940.3826,
      "train_tokens_per_second": 135984.459
    },
    {
      "epoch": 0.643,
      "grad_norm": 0.5608710646629333,
      "learning_rate": 8.639595072581158e-05,
      "loss": 1.1904,
      "num_input_tokens_seen": 4213964800,
      "step": 64300,
      "train_runtime": 30988.4894,
      "train_tokens_per_second": 135984.841
    },
    {
      "epoch": 0.644,
      "grad_norm": 0.6048064231872559,
      "learning_rate": 8.596518351763806e-05,
      "loss": 1.1851,
      "num_input_tokens_seen": 4220518400,
      "step": 64400,
      "train_runtime": 31041.3711,
      "train_tokens_per_second": 135964.304
    },
    {
      "epoch": 0.645,
      "grad_norm": 0.47835734486579895,
      "learning_rate": 8.553506113935561e-05,
      "loss": 1.1803,
      "num_input_tokens_seen": 4227072000,
      "step": 64500,
      "train_runtime": 31089.9624,
      "train_tokens_per_second": 135962.596
    },
    {
      "epoch": 0.646,
      "grad_norm": 1.1150704622268677,
      "learning_rate": 8.510558792229183e-05,
      "loss": 1.1878,
      "num_input_tokens_seen": 4233625600,
      "step": 64600,
      "train_runtime": 31137.4325,
      "train_tokens_per_second": 135965.79
    },
    {
      "epoch": 0.647,
      "grad_norm": 0.6650880575180054,
      "learning_rate": 8.467676819123716e-05,
      "loss": 1.1951,
      "num_input_tokens_seen": 4240179200,
      "step": 64700,
      "train_runtime": 31185.0957,
      "train_tokens_per_second": 135968.132
    },
    {
      "epoch": 0.648,
      "grad_norm": 0.7750310897827148,
      "learning_rate": 8.424860626440158e-05,
      "loss": 1.1829,
      "num_input_tokens_seen": 4246732800,
      "step": 64800,
      "train_runtime": 31237.5852,
      "train_tokens_per_second": 135949.459
    },
    {
      "epoch": 0.649,
      "grad_norm": 0.595783531665802,
      "learning_rate": 8.382110645337102e-05,
      "loss": 1.1856,
      "num_input_tokens_seen": 4253286400,
      "step": 64900,
      "train_runtime": 31285.0064,
      "train_tokens_per_second": 135952.87
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6093938946723938,
      "learning_rate": 8.339427306306365e-05,
      "loss": 1.1842,
      "num_input_tokens_seen": 4259840000,
      "step": 65000,
      "train_runtime": 31332.1176,
      "train_tokens_per_second": 135957.615
    },
    {
      "epoch": 0.651,
      "grad_norm": 0.6823499798774719,
      "learning_rate": 8.296811039168716e-05,
      "loss": 1.1818,
      "num_input_tokens_seen": 4266393600,
      "step": 65100,
      "train_runtime": 31381.0925,
      "train_tokens_per_second": 135954.273
    },
    {
      "epoch": 0.652,
      "grad_norm": 0.5052744746208191,
      "learning_rate": 8.254262273069477e-05,
      "loss": 1.2034,
      "num_input_tokens_seen": 4272947200,
      "step": 65200,
      "train_runtime": 31428.8012,
      "train_tokens_per_second": 135956.417
    },
    {
      "epoch": 0.653,
      "grad_norm": 0.5003641247749329,
      "learning_rate": 8.211781436474263e-05,
      "loss": 1.177,
      "num_input_tokens_seen": 4279500800,
      "step": 65300,
      "train_runtime": 31476.0702,
      "train_tokens_per_second": 135960.454
    },
    {
      "epoch": 0.654,
      "grad_norm": 0.5675527453422546,
      "learning_rate": 8.169368957164613e-05,
      "loss": 1.1707,
      "num_input_tokens_seen": 4286054400,
      "step": 65400,
      "train_runtime": 31524.8831,
      "train_tokens_per_second": 135957.82
    },
    {
      "epoch": 0.655,
      "grad_norm": 0.5109818577766418,
      "learning_rate": 8.127025262233731e-05,
      "loss": 1.187,
      "num_input_tokens_seen": 4292608000,
      "step": 65500,
      "train_runtime": 31578.0721,
      "train_tokens_per_second": 135936.354
    },
    {
      "epoch": 0.656,
      "grad_norm": 0.6228885054588318,
      "learning_rate": 8.084750778082159e-05,
      "loss": 1.1944,
      "num_input_tokens_seen": 4299161600,
      "step": 65600,
      "train_runtime": 31626.6624,
      "train_tokens_per_second": 135934.723
    },
    {
      "epoch": 0.657,
      "grad_norm": 0.6139951348304749,
      "learning_rate": 8.042545930413473e-05,
      "loss": 1.1788,
      "num_input_tokens_seen": 4305715200,
      "step": 65700,
      "train_runtime": 31673.2442,
      "train_tokens_per_second": 135941.717
    },
    {
      "epoch": 0.658,
      "grad_norm": 0.6792371273040771,
      "learning_rate": 8.000411144230025e-05,
      "loss": 1.2019,
      "num_input_tokens_seen": 4312268800,
      "step": 65800,
      "train_runtime": 31721.455,
      "train_tokens_per_second": 135941.709
    },
    {
      "epoch": 0.659,
      "grad_norm": 0.546470582485199,
      "learning_rate": 7.95834684382865e-05,
      "loss": 1.1905,
      "num_input_tokens_seen": 4318822400,
      "step": 65900,
      "train_runtime": 31770.1998,
      "train_tokens_per_second": 135939.416
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5273057818412781,
      "learning_rate": 7.916353452796378e-05,
      "loss": 1.1769,
      "num_input_tokens_seen": 4325376000,
      "step": 66000,
      "train_runtime": 31818.123,
      "train_tokens_per_second": 135940.64
    },
    {
      "epoch": 0.661,
      "grad_norm": 0.5213398933410645,
      "learning_rate": 7.874431394006188e-05,
      "loss": 1.1834,
      "num_input_tokens_seen": 4331929600,
      "step": 66100,
      "train_runtime": 31870.8187,
      "train_tokens_per_second": 135921.504
    },
    {
      "epoch": 0.662,
      "grad_norm": 0.5762707591056824,
      "learning_rate": 7.832581089612762e-05,
      "loss": 1.1875,
      "num_input_tokens_seen": 4338483200,
      "step": 66200,
      "train_runtime": 31918.6258,
      "train_tokens_per_second": 135923.245
    },
    {
      "epoch": 0.663,
      "grad_norm": 0.6153529286384583,
      "learning_rate": 7.790802961048183e-05,
      "loss": 1.1895,
      "num_input_tokens_seen": 4345036800,
      "step": 66300,
      "train_runtime": 31967.5441,
      "train_tokens_per_second": 135920.257
    },
    {
      "epoch": 0.664,
      "grad_norm": 0.6668293476104736,
      "learning_rate": 7.749097429017749e-05,
      "loss": 1.1835,
      "num_input_tokens_seen": 4351590400,
      "step": 66400,
      "train_runtime": 32014.502,
      "train_tokens_per_second": 135925.6
    },
    {
      "epoch": 0.665,
      "grad_norm": 0.49117180705070496,
      "learning_rate": 7.70746491349571e-05,
      "loss": 1.1762,
      "num_input_tokens_seen": 4358144000,
      "step": 66500,
      "train_runtime": 32062.234,
      "train_tokens_per_second": 135927.646
    },
    {
      "epoch": 0.666,
      "grad_norm": 0.5580335259437561,
      "learning_rate": 7.665905833721025e-05,
      "loss": 1.1751,
      "num_input_tokens_seen": 4364697600,
      "step": 66600,
      "train_runtime": 32116.4057,
      "train_tokens_per_second": 135902.431
    },
    {
      "epoch": 0.667,
      "grad_norm": 0.4941908121109009,
      "learning_rate": 7.624420608193171e-05,
      "loss": 1.1991,
      "num_input_tokens_seen": 4371251200,
      "step": 66700,
      "train_runtime": 32164.7962,
      "train_tokens_per_second": 135901.722
    },
    {
      "epoch": 0.668,
      "grad_norm": 0.5203377604484558,
      "learning_rate": 7.583009654667912e-05,
      "loss": 1.1892,
      "num_input_tokens_seen": 4377804800,
      "step": 66800,
      "train_runtime": 32211.7614,
      "train_tokens_per_second": 135907.029
    },
    {
      "epoch": 0.669,
      "grad_norm": 0.5924380421638489,
      "learning_rate": 7.541673390153087e-05,
      "loss": 1.1749,
      "num_input_tokens_seen": 4384358400,
      "step": 66900,
      "train_runtime": 32259.5523,
      "train_tokens_per_second": 135908.842
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5180861353874207,
      "learning_rate": 7.500412230904416e-05,
      "loss": 1.1833,
      "num_input_tokens_seen": 4390912000,
      "step": 67000,
      "train_runtime": 32305.7062,
      "train_tokens_per_second": 135917.536
    },
    {
      "epoch": 0.671,
      "grad_norm": 0.5575404167175293,
      "learning_rate": 7.459226592421318e-05,
      "loss": 1.1908,
      "num_input_tokens_seen": 4397465600,
      "step": 67100,
      "train_runtime": 32353.5616,
      "train_tokens_per_second": 135919.058
    },
    {
      "epoch": 0.672,
      "grad_norm": 0.519868016242981,
      "learning_rate": 7.418116889442721e-05,
      "loss": 1.191,
      "num_input_tokens_seen": 4404019200,
      "step": 67200,
      "train_runtime": 32407.2129,
      "train_tokens_per_second": 135896.265
    },
    {
      "epoch": 0.673,
      "grad_norm": 0.5036019086837769,
      "learning_rate": 7.377083535942868e-05,
      "loss": 1.1771,
      "num_input_tokens_seen": 4410572800,
      "step": 67300,
      "train_runtime": 32454.4825,
      "train_tokens_per_second": 135900.266
    },
    {
      "epoch": 0.674,
      "grad_norm": 0.5349675416946411,
      "learning_rate": 7.336126945127178e-05,
      "loss": 1.1834,
      "num_input_tokens_seen": 4417126400,
      "step": 67400,
      "train_runtime": 32501.8427,
      "train_tokens_per_second": 135903.876
    },
    {
      "epoch": 0.675,
      "grad_norm": 0.675538957118988,
      "learning_rate": 7.29524752942807e-05,
      "loss": 1.1852,
      "num_input_tokens_seen": 4423680000,
      "step": 67500,
      "train_runtime": 32550.3797,
      "train_tokens_per_second": 135902.562
    },
    {
      "epoch": 0.676,
      "grad_norm": 0.5116747617721558,
      "learning_rate": 7.254445700500798e-05,
      "loss": 1.1816,
      "num_input_tokens_seen": 4430233600,
      "step": 67600,
      "train_runtime": 32598.0387,
      "train_tokens_per_second": 135904.913
    },
    {
      "epoch": 0.677,
      "grad_norm": 0.5892815589904785,
      "learning_rate": 7.213721869219329e-05,
      "loss": 1.1827,
      "num_input_tokens_seen": 4436787200,
      "step": 67700,
      "train_runtime": 32650.3715,
      "train_tokens_per_second": 135887.802
    },
    {
      "epoch": 0.678,
      "grad_norm": 0.6862092614173889,
      "learning_rate": 7.173076445672198e-05,
      "loss": 1.1801,
      "num_input_tokens_seen": 4443340800,
      "step": 67800,
      "train_runtime": 32698.6817,
      "train_tokens_per_second": 135887.46
    },
    {
      "epoch": 0.679,
      "grad_norm": 0.8308249115943909,
      "learning_rate": 7.132509839158359e-05,
      "loss": 1.1887,
      "num_input_tokens_seen": 4449894400,
      "step": 67900,
      "train_runtime": 32745.9782,
      "train_tokens_per_second": 135891.326
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5063105225563049,
      "learning_rate": 7.092022458183096e-05,
      "loss": 1.1949,
      "num_input_tokens_seen": 4456448000,
      "step": 68000,
      "train_runtime": 32794.3077,
      "train_tokens_per_second": 135890.9
    },
    {
      "epoch": 0.681,
      "grad_norm": 0.6090216040611267,
      "learning_rate": 7.051614710453888e-05,
      "loss": 1.1827,
      "num_input_tokens_seen": 4463001600,
      "step": 68100,
      "train_runtime": 32841.7871,
      "train_tokens_per_second": 135893.993
    },
    {
      "epoch": 0.682,
      "grad_norm": 0.5802315473556519,
      "learning_rate": 7.011287002876296e-05,
      "loss": 1.1808,
      "num_input_tokens_seen": 4469555200,
      "step": 68200,
      "train_runtime": 32889.3297,
      "train_tokens_per_second": 135896.816
    },
    {
      "epoch": 0.683,
      "grad_norm": 0.5431249141693115,
      "learning_rate": 6.971039741549894e-05,
      "loss": 1.1872,
      "num_input_tokens_seen": 4476108800,
      "step": 68300,
      "train_runtime": 32943.0615,
      "train_tokens_per_second": 135874.099
    },
    {
      "epoch": 0.684,
      "grad_norm": 0.8621413111686707,
      "learning_rate": 6.930873331764162e-05,
      "loss": 1.1776,
      "num_input_tokens_seen": 4482662400,
      "step": 68400,
      "train_runtime": 32991.0019,
      "train_tokens_per_second": 135875.304
    },
    {
      "epoch": 0.685,
      "grad_norm": 0.6102387309074402,
      "learning_rate": 6.890788177994391e-05,
      "loss": 1.18,
      "num_input_tokens_seen": 4489216000,
      "step": 68500,
      "train_runtime": 33039.2288,
      "train_tokens_per_second": 135875.326
    },
    {
      "epoch": 0.686,
      "grad_norm": 0.5266649723052979,
      "learning_rate": 6.850784683897641e-05,
      "loss": 1.1743,
      "num_input_tokens_seen": 4495769600,
      "step": 68600,
      "train_runtime": 33086.8363,
      "train_tokens_per_second": 135877.893
    },
    {
      "epoch": 0.687,
      "grad_norm": 0.5879511833190918,
      "learning_rate": 6.810863252308653e-05,
      "loss": 1.1803,
      "num_input_tokens_seen": 4502323200,
      "step": 68700,
      "train_runtime": 33133.6328,
      "train_tokens_per_second": 135883.778
    },
    {
      "epoch": 0.688,
      "grad_norm": 0.5183672308921814,
      "learning_rate": 6.771024285235792e-05,
      "loss": 1.1834,
      "num_input_tokens_seen": 4508876800,
      "step": 68800,
      "train_runtime": 33182.6281,
      "train_tokens_per_second": 135880.642
    },
    {
      "epoch": 0.689,
      "grad_norm": 0.5091114640235901,
      "learning_rate": 6.73126818385702e-05,
      "loss": 1.1913,
      "num_input_tokens_seen": 4515430400,
      "step": 68900,
      "train_runtime": 33236.4019,
      "train_tokens_per_second": 135857.979
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.7696628570556641,
      "learning_rate": 6.691595348515837e-05,
      "loss": 1.1786,
      "num_input_tokens_seen": 4521984000,
      "step": 69000,
      "train_runtime": 33285.7582,
      "train_tokens_per_second": 135853.417
    },
    {
      "epoch": 0.691,
      "grad_norm": 0.5338857769966125,
      "learning_rate": 6.65200617871726e-05,
      "loss": 1.1832,
      "num_input_tokens_seen": 4528537600,
      "step": 69100,
      "train_runtime": 33332.8826,
      "train_tokens_per_second": 135857.965
    },
    {
      "epoch": 0.692,
      "grad_norm": 0.7705228328704834,
      "learning_rate": 6.612501073123775e-05,
      "loss": 1.1762,
      "num_input_tokens_seen": 4535091200,
      "step": 69200,
      "train_runtime": 33380.8611,
      "train_tokens_per_second": 135859.024
    },
    {
      "epoch": 0.693,
      "grad_norm": 0.5423911213874817,
      "learning_rate": 6.573080429551368e-05,
      "loss": 1.19,
      "num_input_tokens_seen": 4541644800,
      "step": 69300,
      "train_runtime": 33429.7481,
      "train_tokens_per_second": 135856.387
    },
    {
      "epoch": 0.694,
      "grad_norm": 0.5332856774330139,
      "learning_rate": 6.533744644965482e-05,
      "loss": 1.1753,
      "num_input_tokens_seen": 4548198400,
      "step": 69400,
      "train_runtime": 33476.6955,
      "train_tokens_per_second": 135861.629
    },
    {
      "epoch": 0.695,
      "grad_norm": 0.5862846970558167,
      "learning_rate": 6.494494115477023e-05,
      "loss": 1.1799,
      "num_input_tokens_seen": 4554752000,
      "step": 69500,
      "train_runtime": 33523.7618,
      "train_tokens_per_second": 135866.375
    },
    {
      "epoch": 0.696,
      "grad_norm": 0.658592164516449,
      "learning_rate": 6.455329236338394e-05,
      "loss": 1.1846,
      "num_input_tokens_seen": 4561305600,
      "step": 69600,
      "train_runtime": 33571.8888,
      "train_tokens_per_second": 135866.815
    },
    {
      "epoch": 0.697,
      "grad_norm": 0.5558256506919861,
      "learning_rate": 6.416250401939496e-05,
      "loss": 1.1873,
      "num_input_tokens_seen": 4567859200,
      "step": 69700,
      "train_runtime": 33620.7189,
      "train_tokens_per_second": 135864.412
    },
    {
      "epoch": 0.698,
      "grad_norm": 0.5283026099205017,
      "learning_rate": 6.377258005803746e-05,
      "loss": 1.1743,
      "num_input_tokens_seen": 4574412800,
      "step": 69800,
      "train_runtime": 33674.4741,
      "train_tokens_per_second": 135842.145
    },
    {
      "epoch": 0.699,
      "grad_norm": 0.802412211894989,
      "learning_rate": 6.338352440584149e-05,
      "loss": 1.1782,
      "num_input_tokens_seen": 4580966400,
      "step": 69900,
      "train_runtime": 33722.7187,
      "train_tokens_per_second": 135842.144
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5585867762565613,
      "learning_rate": 6.299534098059318e-05,
      "loss": 1.1809,
      "num_input_tokens_seen": 4587520000,
      "step": 70000,
      "train_runtime": 33770.2671,
      "train_tokens_per_second": 135844.943
    },
    {
      "epoch": 0.701,
      "grad_norm": 0.6285941004753113,
      "learning_rate": 6.260803369129522e-05,
      "loss": 1.1807,
      "num_input_tokens_seen": 4594073600,
      "step": 70100,
      "train_runtime": 33818.7011,
      "train_tokens_per_second": 135844.176
    },
    {
      "epoch": 0.702,
      "grad_norm": 0.9580085277557373,
      "learning_rate": 6.222160643812774e-05,
      "loss": 1.1802,
      "num_input_tokens_seen": 4600627200,
      "step": 70200,
      "train_runtime": 33866.618,
      "train_tokens_per_second": 135845.487
    },
    {
      "epoch": 0.703,
      "grad_norm": 0.6520081162452698,
      "learning_rate": 6.183606311240901e-05,
      "loss": 1.1879,
      "num_input_tokens_seen": 4607180800,
      "step": 70300,
      "train_runtime": 33915.2388,
      "train_tokens_per_second": 135843.973
    },
    {
      "epoch": 0.704,
      "grad_norm": 0.520710289478302,
      "learning_rate": 6.145140759655585e-05,
      "loss": 1.179,
      "num_input_tokens_seen": 4613734400,
      "step": 70400,
      "train_runtime": 33968.6026,
      "train_tokens_per_second": 135823.497
    },
    {
      "epoch": 0.705,
      "grad_norm": 0.5945906639099121,
      "learning_rate": 6.10676437640451e-05,
      "loss": 1.192,
      "num_input_tokens_seen": 4620288000,
      "step": 70500,
      "train_runtime": 34016.7254,
      "train_tokens_per_second": 135824.008
    },
    {
      "epoch": 0.706,
      "grad_norm": 0.5285692811012268,
      "learning_rate": 6.068477547937436e-05,
      "loss": 1.1855,
      "num_input_tokens_seen": 4626841600,
      "step": 70600,
      "train_runtime": 34064.6033,
      "train_tokens_per_second": 135825.495
    },
    {
      "epoch": 0.707,
      "grad_norm": 0.6492000222206116,
      "learning_rate": 6.030280659802294e-05,
      "loss": 1.192,
      "num_input_tokens_seen": 4633395200,
      "step": 70700,
      "train_runtime": 34111.1694,
      "train_tokens_per_second": 135832.2
    },
    {
      "epoch": 0.708,
      "grad_norm": 0.5521112084388733,
      "learning_rate": 5.9921740966413204e-05,
      "loss": 1.1781,
      "num_input_tokens_seen": 4639948800,
      "step": 70800,
      "train_runtime": 34162.8893,
      "train_tokens_per_second": 135818.395
    },
    {
      "epoch": 0.709,
      "grad_norm": 0.9012600183486938,
      "learning_rate": 5.954158242187197e-05,
      "loss": 1.1748,
      "num_input_tokens_seen": 4646502400,
      "step": 70900,
      "train_runtime": 34211.5739,
      "train_tokens_per_second": 135816.68
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.4976861774921417,
      "learning_rate": 5.91623347925914e-05,
      "loss": 1.1902,
      "num_input_tokens_seen": 4653056000,
      "step": 71000,
      "train_runtime": 34258.4131,
      "train_tokens_per_second": 135822.287
    },
    {
      "epoch": 0.711,
      "grad_norm": 0.5690837502479553,
      "learning_rate": 5.8784001897590996e-05,
      "loss": 1.1767,
      "num_input_tokens_seen": 4659609600,
      "step": 71100,
      "train_runtime": 34307.7023,
      "train_tokens_per_second": 135818.177
    },
    {
      "epoch": 0.712,
      "grad_norm": 0.5648302435874939,
      "learning_rate": 5.840658754667877e-05,
      "loss": 1.182,
      "num_input_tokens_seen": 4666163200,
      "step": 71200,
      "train_runtime": 34355.8058,
      "train_tokens_per_second": 135818.768
    },
    {
      "epoch": 0.713,
      "grad_norm": 0.5309351086616516,
      "learning_rate": 5.8030095540413144e-05,
      "loss": 1.1755,
      "num_input_tokens_seen": 4672716800,
      "step": 71300,
      "train_runtime": 34402.7961,
      "train_tokens_per_second": 135823.751
    },
    {
      "epoch": 0.714,
      "grad_norm": 1.0066486597061157,
      "learning_rate": 5.7654529670064326e-05,
      "loss": 1.2073,
      "num_input_tokens_seen": 4679270400,
      "step": 71400,
      "train_runtime": 34458.8447,
      "train_tokens_per_second": 135793.015
    },
    {
      "epoch": 0.715,
      "grad_norm": 0.625823974609375,
      "learning_rate": 5.7279893717576485e-05,
      "loss": 1.2012,
      "num_input_tokens_seen": 4685824000,
      "step": 71500,
      "train_runtime": 34506.5957,
      "train_tokens_per_second": 135795.024
    },
    {
      "epoch": 0.716,
      "grad_norm": 0.512055516242981,
      "learning_rate": 5.690619145552958e-05,
      "loss": 1.1702,
      "num_input_tokens_seen": 4692377600,
      "step": 71600,
      "train_runtime": 34554.5393,
      "train_tokens_per_second": 135796.271
    },
    {
      "epoch": 0.717,
      "grad_norm": 0.749454915523529,
      "learning_rate": 5.6533426647101135e-05,
      "loss": 1.1812,
      "num_input_tokens_seen": 4698931200,
      "step": 71700,
      "train_runtime": 34601.4153,
      "train_tokens_per_second": 135801.705
    },
    {
      "epoch": 0.718,
      "grad_norm": 0.5417782068252563,
      "learning_rate": 5.6161603046028674e-05,
      "loss": 1.1681,
      "num_input_tokens_seen": 4705484800,
      "step": 71800,
      "train_runtime": 34650.0822,
      "train_tokens_per_second": 135800.105
    },
    {
      "epoch": 0.719,
      "grad_norm": 0.7127480506896973,
      "learning_rate": 5.579072439657179e-05,
      "loss": 1.1946,
      "num_input_tokens_seen": 4712038400,
      "step": 71900,
      "train_runtime": 34698.539,
      "train_tokens_per_second": 135799.331
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5434790253639221,
      "learning_rate": 5.542079443347431e-05,
      "loss": 1.1761,
      "num_input_tokens_seen": 4718592000,
      "step": 72000,
      "train_runtime": 34745.7766,
      "train_tokens_per_second": 135803.325
    },
    {
      "epoch": 0.721,
      "grad_norm": 0.5872786045074463,
      "learning_rate": 5.505181688192682e-05,
      "loss": 1.1758,
      "num_input_tokens_seen": 4725145600,
      "step": 72100,
      "train_runtime": 34797.942,
      "train_tokens_per_second": 135788.076
    },
    {
      "epoch": 0.722,
      "grad_norm": 0.5440493822097778,
      "learning_rate": 5.468379545752925e-05,
      "loss": 1.2086,
      "num_input_tokens_seen": 4731699200,
      "step": 72200,
      "train_runtime": 34846.6082,
      "train_tokens_per_second": 135786.507
    },
    {
      "epoch": 0.723,
      "grad_norm": 0.5699992775917053,
      "learning_rate": 5.4316733866253166e-05,
      "loss": 1.1705,
      "num_input_tokens_seen": 4738252800,
      "step": 72300,
      "train_runtime": 34894.2941,
      "train_tokens_per_second": 135788.756
    },
    {
      "epoch": 0.724,
      "grad_norm": 0.7067492604255676,
      "learning_rate": 5.3950635804404754e-05,
      "loss": 1.1788,
      "num_input_tokens_seen": 4744806400,
      "step": 72400,
      "train_runtime": 34943.1279,
      "train_tokens_per_second": 135786.539
    },
    {
      "epoch": 0.725,
      "grad_norm": 0.4926595389842987,
      "learning_rate": 5.358550495858751e-05,
      "loss": 1.1712,
      "num_input_tokens_seen": 4751360000,
      "step": 72500,
      "train_runtime": 34988.8033,
      "train_tokens_per_second": 135796.585
    },
    {
      "epoch": 0.726,
      "grad_norm": 0.6217764616012573,
      "learning_rate": 5.322134500566487e-05,
      "loss": 1.199,
      "num_input_tokens_seen": 4757913600,
      "step": 72600,
      "train_runtime": 35043.098,
      "train_tokens_per_second": 135773.201
    },
    {
      "epoch": 0.727,
      "grad_norm": 0.5704054236412048,
      "learning_rate": 5.285815961272359e-05,
      "loss": 1.1782,
      "num_input_tokens_seen": 4764467200,
      "step": 72700,
      "train_runtime": 35090.0359,
      "train_tokens_per_second": 135778.351
    },
    {
      "epoch": 0.728,
      "grad_norm": 0.6081520915031433,
      "learning_rate": 5.249595243703658e-05,
      "loss": 1.1679,
      "num_input_tokens_seen": 4771020800,
      "step": 72800,
      "train_runtime": 35136.6254,
      "train_tokens_per_second": 135784.833
    },
    {
      "epoch": 0.729,
      "grad_norm": 0.6235555410385132,
      "learning_rate": 5.213472712602598e-05,
      "loss": 1.1707,
      "num_input_tokens_seen": 4777574400,
      "step": 72900,
      "train_runtime": 35185.4188,
      "train_tokens_per_second": 135782.792
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.5777461528778076,
      "learning_rate": 5.17744873172267e-05,
      "loss": 1.1816,
      "num_input_tokens_seen": 4784128000,
      "step": 73000,
      "train_runtime": 35238.2318,
      "train_tokens_per_second": 135765.268
    },
    {
      "epoch": 0.731,
      "grad_norm": 0.569218635559082,
      "learning_rate": 5.1415236638249694e-05,
      "loss": 1.1757,
      "num_input_tokens_seen": 4790681600,
      "step": 73100,
      "train_runtime": 35286.0257,
      "train_tokens_per_second": 135767.106
    },
    {
      "epoch": 0.732,
      "grad_norm": 1.2679173946380615,
      "learning_rate": 5.105697870674519e-05,
      "loss": 1.1686,
      "num_input_tokens_seen": 4797235200,
      "step": 73200,
      "train_runtime": 35333.5517,
      "train_tokens_per_second": 135769.969
    },
    {
      "epoch": 0.733,
      "grad_norm": 0.5663115382194519,
      "learning_rate": 5.069971713036664e-05,
      "loss": 1.1699,
      "num_input_tokens_seen": 4803788800,
      "step": 73300,
      "train_runtime": 35380.3642,
      "train_tokens_per_second": 135775.561
    },
    {
      "epoch": 0.734,
      "grad_norm": 0.5404617190361023,
      "learning_rate": 5.034345550673415e-05,
      "loss": 1.1916,
      "num_input_tokens_seen": 4810342400,
      "step": 73400,
      "train_runtime": 35434.8234,
      "train_tokens_per_second": 135751.838
    },
    {
      "epoch": 0.735,
      "grad_norm": 0.7994534373283386,
      "learning_rate": 4.998819742339835e-05,
      "loss": 1.1842,
      "num_input_tokens_seen": 4816896000,
      "step": 73500,
      "train_runtime": 35482.3263,
      "train_tokens_per_second": 135754.797
    },
    {
      "epoch": 0.736,
      "grad_norm": 0.6482565402984619,
      "learning_rate": 4.963394645780411e-05,
      "loss": 1.1789,
      "num_input_tokens_seen": 4823449600,
      "step": 73600,
      "train_runtime": 35530.782,
      "train_tokens_per_second": 135754.107
    },
    {
      "epoch": 0.737,
      "grad_norm": 0.5401994585990906,
      "learning_rate": 4.928070617725482e-05,
      "loss": 1.1832,
      "num_input_tokens_seen": 4830003200,
      "step": 73700,
      "train_runtime": 35578.1016,
      "train_tokens_per_second": 135757.755
    },
    {
      "epoch": 0.738,
      "grad_norm": 0.5170857906341553,
      "learning_rate": 4.892848013887613e-05,
      "loss": 1.1804,
      "num_input_tokens_seen": 4836556800,
      "step": 73800,
      "train_runtime": 35625.1017,
      "train_tokens_per_second": 135762.61
    },
    {
      "epoch": 0.739,
      "grad_norm": 0.5744811296463013,
      "learning_rate": 4.857727188958031e-05,
      "loss": 1.181,
      "num_input_tokens_seen": 4843110400,
      "step": 73900,
      "train_runtime": 35672.7413,
      "train_tokens_per_second": 135765.019
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6613340377807617,
      "learning_rate": 4.822708496603052e-05,
      "loss": 1.1879,
      "num_input_tokens_seen": 4849664000,
      "step": 74000,
      "train_runtime": 35721.0554,
      "train_tokens_per_second": 135764.858
    },
    {
      "epoch": 0.741,
      "grad_norm": 0.5571849346160889,
      "learning_rate": 4.7877922894605304e-05,
      "loss": 1.1781,
      "num_input_tokens_seen": 4856217600,
      "step": 74100,
      "train_runtime": 35771.1997,
      "train_tokens_per_second": 135757.75
    },
    {
      "epoch": 0.742,
      "grad_norm": 0.6960323452949524,
      "learning_rate": 4.752978919136273e-05,
      "loss": 1.1702,
      "num_input_tokens_seen": 4862771200,
      "step": 74200,
      "train_runtime": 35823.4168,
      "train_tokens_per_second": 135742.808
    },
    {
      "epoch": 0.743,
      "grad_norm": 0.5823075175285339,
      "learning_rate": 4.7182687362005337e-05,
      "loss": 1.1762,
      "num_input_tokens_seen": 4869324800,
      "step": 74300,
      "train_runtime": 35872.0393,
      "train_tokens_per_second": 135741.511
    },
    {
      "epoch": 0.744,
      "grad_norm": 0.5310567021369934,
      "learning_rate": 4.6836620901844794e-05,
      "loss": 1.1737,
      "num_input_tokens_seen": 4875878400,
      "step": 74400,
      "train_runtime": 35918.2124,
      "train_tokens_per_second": 135749.473
    },
    {
      "epoch": 0.745,
      "grad_norm": 0.560118556022644,
      "learning_rate": 4.64915932957664e-05,
      "loss": 1.1746,
      "num_input_tokens_seen": 4882432000,
      "step": 74500,
      "train_runtime": 35972.3831,
      "train_tokens_per_second": 135727.232
    },
    {
      "epoch": 0.746,
      "grad_norm": 0.5729120969772339,
      "learning_rate": 4.614760801819433e-05,
      "loss": 1.1729,
      "num_input_tokens_seen": 4888985600,
      "step": 74600,
      "train_runtime": 36018.4093,
      "train_tokens_per_second": 135735.744
    },
    {
      "epoch": 0.747,
      "grad_norm": 0.5329717397689819,
      "learning_rate": 4.58046685330566e-05,
      "loss": 1.1969,
      "num_input_tokens_seen": 4895539200,
      "step": 74700,
      "train_runtime": 36066.8487,
      "train_tokens_per_second": 135735.152
    },
    {
      "epoch": 0.748,
      "grad_norm": 0.5714908838272095,
      "learning_rate": 4.546277829374993e-05,
      "loss": 1.172,
      "num_input_tokens_seen": 4902092800,
      "step": 74800,
      "train_runtime": 36115.3648,
      "train_tokens_per_second": 135734.273
    },
    {
      "epoch": 0.749,
      "grad_norm": 0.5672817826271057,
      "learning_rate": 4.5121940743105246e-05,
      "loss": 1.1813,
      "num_input_tokens_seen": 4908646400,
      "step": 74900,
      "train_runtime": 36164.0493,
      "train_tokens_per_second": 135732.765
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5890370607376099,
      "learning_rate": 4.478215931335295e-05,
      "loss": 1.1667,
      "num_input_tokens_seen": 4915200000,
      "step": 75000,
      "train_runtime": 36215.8524,
      "train_tokens_per_second": 135719.572
    },
    {
      "epoch": 0.751,
      "grad_norm": 0.6215245127677917,
      "learning_rate": 4.4443437426088205e-05,
      "loss": 1.179,
      "num_input_tokens_seen": 4921753600,
      "step": 75100,
      "train_runtime": 36264.1849,
      "train_tokens_per_second": 135719.405
    },
    {
      "epoch": 0.752,
      "grad_norm": 1.4719446897506714,
      "learning_rate": 4.410577849223666e-05,
      "loss": 1.1847,
      "num_input_tokens_seen": 4928307200,
      "step": 75200,
      "train_runtime": 36312.9781,
      "train_tokens_per_second": 135717.516
    },
    {
      "epoch": 0.753,
      "grad_norm": 1.3475043773651123,
      "learning_rate": 4.376918591202006e-05,
      "loss": 1.1745,
      "num_input_tokens_seen": 4934860800,
      "step": 75300,
      "train_runtime": 36359.7761,
      "train_tokens_per_second": 135723.08
    },
    {
      "epoch": 0.754,
      "grad_norm": 0.9558594822883606,
      "learning_rate": 4.3433663074922046e-05,
      "loss": 1.181,
      "num_input_tokens_seen": 4941414400,
      "step": 75400,
      "train_runtime": 36406.8385,
      "train_tokens_per_second": 135727.644
    },
    {
      "epoch": 0.755,
      "grad_norm": 0.5916360020637512,
      "learning_rate": 4.309921335965367e-05,
      "loss": 1.1706,
      "num_input_tokens_seen": 4947968000,
      "step": 75500,
      "train_runtime": 36460.2599,
      "train_tokens_per_second": 135708.522
    },
    {
      "epoch": 0.756,
      "grad_norm": 0.5985275506973267,
      "learning_rate": 4.276584013411992e-05,
      "loss": 1.1758,
      "num_input_tokens_seen": 4954521600,
      "step": 75600,
      "train_runtime": 36507.6786,
      "train_tokens_per_second": 135711.768
    },
    {
      "epoch": 0.757,
      "grad_norm": 0.5550095438957214,
      "learning_rate": 4.243354675538555e-05,
      "loss": 1.1705,
      "num_input_tokens_seen": 4961075200,
      "step": 75700,
      "train_runtime": 36554.9962,
      "train_tokens_per_second": 135715.38
    },
    {
      "epoch": 0.758,
      "grad_norm": 0.5496001243591309,
      "learning_rate": 4.210233656964111e-05,
      "loss": 1.1746,
      "num_input_tokens_seen": 4967628800,
      "step": 75800,
      "train_runtime": 36602.3493,
      "train_tokens_per_second": 135718.851
    },
    {
      "epoch": 0.759,
      "grad_norm": 0.570070743560791,
      "learning_rate": 4.1772212912169516e-05,
      "loss": 1.1771,
      "num_input_tokens_seen": 4974182400,
      "step": 75900,
      "train_runtime": 36656.3482,
      "train_tokens_per_second": 135697.707
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.7570028305053711,
      "learning_rate": 4.14431791073124e-05,
      "loss": 1.1756,
      "num_input_tokens_seen": 4980736000,
      "step": 76000,
      "train_runtime": 36704.1036,
      "train_tokens_per_second": 135699.704
    },
    {
      "epoch": 0.761,
      "grad_norm": 0.6243161559104919,
      "learning_rate": 4.111523846843639e-05,
      "loss": 1.1667,
      "num_input_tokens_seen": 4987289600,
      "step": 76100,
      "train_runtime": 36753.037,
      "train_tokens_per_second": 135697.347
    },
    {
      "epoch": 0.762,
      "grad_norm": 0.5531216263771057,
      "learning_rate": 4.078839429790019e-05,
      "loss": 1.1755,
      "num_input_tokens_seen": 4993843200,
      "step": 76200,
      "train_runtime": 36800.3039,
      "train_tokens_per_second": 135701.14
    },
    {
      "epoch": 0.763,
      "grad_norm": 0.5894837379455566,
      "learning_rate": 4.046264988702097e-05,
      "loss": 1.1778,
      "num_input_tokens_seen": 5000396800,
      "step": 76300,
      "train_runtime": 36847.8696,
      "train_tokens_per_second": 135703.824
    },
    {
      "epoch": 0.764,
      "grad_norm": 0.6210083365440369,
      "learning_rate": 4.013800851604123e-05,
      "loss": 1.1729,
      "num_input_tokens_seen": 5006950400,
      "step": 76400,
      "train_runtime": 36901.2456,
      "train_tokens_per_second": 135685.133
    },
    {
      "epoch": 0.765,
      "grad_norm": 0.5929700136184692,
      "learning_rate": 3.981447345409606e-05,
      "loss": 1.171,
      "num_input_tokens_seen": 5013504000,
      "step": 76500,
      "train_runtime": 36949.2788,
      "train_tokens_per_second": 135686.113
    },
    {
      "epoch": 0.766,
      "grad_norm": 0.5809143781661987,
      "learning_rate": 3.949204795917995e-05,
      "loss": 1.1775,
      "num_input_tokens_seen": 5020057600,
      "step": 76600,
      "train_runtime": 36996.6957,
      "train_tokens_per_second": 135689.35
    },
    {
      "epoch": 0.767,
      "grad_norm": 0.5398791432380676,
      "learning_rate": 3.917073527811399e-05,
      "loss": 1.1765,
      "num_input_tokens_seen": 5026611200,
      "step": 76700,
      "train_runtime": 37044.9859,
      "train_tokens_per_second": 135689.381
    },
    {
      "epoch": 0.768,
      "grad_norm": 0.8559983372688293,
      "learning_rate": 3.885053864651334e-05,
      "loss": 1.1661,
      "num_input_tokens_seen": 5033164800,
      "step": 76800,
      "train_runtime": 37092.5707,
      "train_tokens_per_second": 135691.992
    },
    {
      "epoch": 0.769,
      "grad_norm": 1.0961577892303467,
      "learning_rate": 3.8531461288754564e-05,
      "loss": 1.1734,
      "num_input_tokens_seen": 5039718400,
      "step": 76900,
      "train_runtime": 37145.642,
      "train_tokens_per_second": 135674.554
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.5564078688621521,
      "learning_rate": 3.821350641794305e-05,
      "loss": 1.1783,
      "num_input_tokens_seen": 5046272000,
      "step": 77000,
      "train_runtime": 37194.2194,
      "train_tokens_per_second": 135673.556
    },
    {
      "epoch": 0.771,
      "grad_norm": 0.6036384701728821,
      "learning_rate": 3.789667723588087e-05,
      "loss": 1.1651,
      "num_input_tokens_seen": 5052825600,
      "step": 77100,
      "train_runtime": 37242.6728,
      "train_tokens_per_second": 135673.012
    },
    {
      "epoch": 0.772,
      "grad_norm": 1.4465519189834595,
      "learning_rate": 3.758097693303431e-05,
      "loss": 1.1783,
      "num_input_tokens_seen": 5059379200,
      "step": 77200,
      "train_runtime": 37290.7014,
      "train_tokens_per_second": 135674.015
    },
    {
      "epoch": 0.773,
      "grad_norm": 0.5566693544387817,
      "learning_rate": 3.7266408688502005e-05,
      "loss": 1.1751,
      "num_input_tokens_seen": 5065932800,
      "step": 77300,
      "train_runtime": 37338.6452,
      "train_tokens_per_second": 135675.324
    },
    {
      "epoch": 0.774,
      "grad_norm": 0.653806209564209,
      "learning_rate": 3.695297566998256e-05,
      "loss": 1.1709,
      "num_input_tokens_seen": 5072486400,
      "step": 77400,
      "train_runtime": 37386.3122,
      "train_tokens_per_second": 135677.634
    },
    {
      "epoch": 0.775,
      "grad_norm": 0.8704593777656555,
      "learning_rate": 3.664068103374307e-05,
      "loss": 1.1794,
      "num_input_tokens_seen": 5079040000,
      "step": 77500,
      "train_runtime": 37436.1356,
      "train_tokens_per_second": 135672.123
    },
    {
      "epoch": 0.776,
      "grad_norm": 0.6627979874610901,
      "learning_rate": 3.63295279245871e-05,
      "loss": 1.175,
      "num_input_tokens_seen": 5085593600,
      "step": 77600,
      "train_runtime": 37484.0969,
      "train_tokens_per_second": 135673.366
    },
    {
      "epoch": 0.777,
      "grad_norm": 0.6232652068138123,
      "learning_rate": 3.601951947582291e-05,
      "loss": 1.1665,
      "num_input_tokens_seen": 5092147200,
      "step": 77700,
      "train_runtime": 37536.8508,
      "train_tokens_per_second": 135657.283
    },
    {
      "epoch": 0.778,
      "grad_norm": 0.5873488187789917,
      "learning_rate": 3.571065880923216e-05,
      "loss": 1.1734,
      "num_input_tokens_seen": 5098700800,
      "step": 77800,
      "train_runtime": 37584.0839,
      "train_tokens_per_second": 135661.17
    },
    {
      "epoch": 0.779,
      "grad_norm": 0.56858891248703,
      "learning_rate": 3.540294903503841e-05,
      "loss": 1.1696,
      "num_input_tokens_seen": 5105254400,
      "step": 77900,
      "train_runtime": 37631.6286,
      "train_tokens_per_second": 135663.924
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.5939886569976807,
      "learning_rate": 3.5096393251875566e-05,
      "loss": 1.1784,
      "num_input_tokens_seen": 5111808000,
      "step": 78000,
      "train_runtime": 37679.4424,
      "train_tokens_per_second": 135665.702
    },
    {
      "epoch": 0.781,
      "grad_norm": 0.5839298367500305,
      "learning_rate": 3.479099454675701e-05,
      "loss": 1.1672,
      "num_input_tokens_seen": 5118361600,
      "step": 78100,
      "train_runtime": 37733.7363,
      "train_tokens_per_second": 135644.177
    },
    {
      "epoch": 0.782,
      "grad_norm": 0.6057742238044739,
      "learning_rate": 3.448675599504434e-05,
      "loss": 1.1767,
      "num_input_tokens_seen": 5124915200,
      "step": 78200,
      "train_runtime": 37781.8162,
      "train_tokens_per_second": 135645.019
    },
    {
      "epoch": 0.783,
      "grad_norm": 0.9875990748405457,
      "learning_rate": 3.418368066041633e-05,
      "loss": 1.1619,
      "num_input_tokens_seen": 5131468800,
      "step": 78300,
      "train_runtime": 37829.8727,
      "train_tokens_per_second": 135645.944
    },
    {
      "epoch": 0.784,
      "grad_norm": 0.5806832313537598,
      "learning_rate": 3.388177159483826e-05,
      "loss": 1.1747,
      "num_input_tokens_seen": 5138022400,
      "step": 78400,
      "train_runtime": 37877.7351,
      "train_tokens_per_second": 135647.561
    },
    {
      "epoch": 0.785,
      "grad_norm": 0.7016937136650085,
      "learning_rate": 3.3581031838531116e-05,
      "loss": 1.1664,
      "num_input_tokens_seen": 5144576000,
      "step": 78500,
      "train_runtime": 37924.0105,
      "train_tokens_per_second": 135654.851
    },
    {
      "epoch": 0.786,
      "grad_norm": 0.7171750664710999,
      "learning_rate": 3.328146441994084e-05,
      "loss": 1.1905,
      "num_input_tokens_seen": 5151129600,
      "step": 78600,
      "train_runtime": 37971.9481,
      "train_tokens_per_second": 135656.184
    },
    {
      "epoch": 0.787,
      "grad_norm": 0.5550017356872559,
      "learning_rate": 3.2983072355708026e-05,
      "loss": 1.1741,
      "num_input_tokens_seen": 5157683200,
      "step": 78700,
      "train_runtime": 38021.3003,
      "train_tokens_per_second": 135652.467
    },
    {
      "epoch": 0.788,
      "grad_norm": 0.5833317637443542,
      "learning_rate": 3.2685858650637486e-05,
      "loss": 1.176,
      "num_input_tokens_seen": 5164236800,
      "step": 78800,
      "train_runtime": 38074.1209,
      "train_tokens_per_second": 135636.403
    },
    {
      "epoch": 0.789,
      "grad_norm": 0.9918714165687561,
      "learning_rate": 3.238982629766793e-05,
      "loss": 1.1653,
      "num_input_tokens_seen": 5170790400,
      "step": 78900,
      "train_runtime": 38121.5575,
      "train_tokens_per_second": 135639.537
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.2304959297180176,
      "learning_rate": 3.209497827784177e-05,
      "loss": 1.177,
      "num_input_tokens_seen": 5177344000,
      "step": 79000,
      "train_runtime": 38168.8984,
      "train_tokens_per_second": 135643.003
    },
    {
      "epoch": 0.791,
      "grad_norm": 0.5920888185501099,
      "learning_rate": 3.1801317560275394e-05,
      "loss": 1.1717,
      "num_input_tokens_seen": 5183897600,
      "step": 79100,
      "train_runtime": 38223.2691,
      "train_tokens_per_second": 135621.513
    },
    {
      "epoch": 0.792,
      "grad_norm": 0.5991621017456055,
      "learning_rate": 3.150884710212895e-05,
      "loss": 1.1933,
      "num_input_tokens_seen": 5190451200,
      "step": 79200,
      "train_runtime": 38270.5225,
      "train_tokens_per_second": 135625.303
    },
    {
      "epoch": 0.793,
      "grad_norm": 0.6007819175720215,
      "learning_rate": 3.121756984857665e-05,
      "loss": 1.1721,
      "num_input_tokens_seen": 5197004800,
      "step": 79300,
      "train_runtime": 38316.5535,
      "train_tokens_per_second": 135633.41
    },
    {
      "epoch": 0.794,
      "grad_norm": 0.6040635704994202,
      "learning_rate": 3.092748873277725e-05,
      "loss": 1.1784,
      "num_input_tokens_seen": 5203558400,
      "step": 79400,
      "train_runtime": 38364.1371,
      "train_tokens_per_second": 135636.008
    },
    {
      "epoch": 0.795,
      "grad_norm": 1.8925070762634277,
      "learning_rate": 3.06386066758444e-05,
      "loss": 1.179,
      "num_input_tokens_seen": 5210112000,
      "step": 79500,
      "train_runtime": 38412.6561,
      "train_tokens_per_second": 135635.297
    },
    {
      "epoch": 0.796,
      "grad_norm": 0.6026915311813354,
      "learning_rate": 3.0350926586817127e-05,
      "loss": 1.1706,
      "num_input_tokens_seen": 5216665600,
      "step": 79600,
      "train_runtime": 38465.3514,
      "train_tokens_per_second": 135619.861
    },
    {
      "epoch": 0.797,
      "grad_norm": 0.7981861233711243,
      "learning_rate": 3.0064451362630765e-05,
      "loss": 1.1796,
      "num_input_tokens_seen": 5223219200,
      "step": 79700,
      "train_runtime": 38512.271,
      "train_tokens_per_second": 135624.804
    },
    {
      "epoch": 0.798,
      "grad_norm": 1.3739973306655884,
      "learning_rate": 2.9779183888087683e-05,
      "loss": 1.1827,
      "num_input_tokens_seen": 5229772800,
      "step": 79800,
      "train_runtime": 38560.5377,
      "train_tokens_per_second": 135624.997
    },
    {
      "epoch": 0.799,
      "grad_norm": 0.7507041692733765,
      "learning_rate": 2.9495127035828103e-05,
      "loss": 1.164,
      "num_input_tokens_seen": 5236326400,
      "step": 79900,
      "train_runtime": 38608.5419,
      "train_tokens_per_second": 135626.111
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.5848426818847656,
      "learning_rate": 2.921228366630144e-05,
      "loss": 1.1746,
      "num_input_tokens_seen": 5242880000,
      "step": 80000,
      "train_runtime": 38660.3487,
      "train_tokens_per_second": 135613.883
    },
    {
      "epoch": 0.801,
      "grad_norm": 0.5851396322250366,
      "learning_rate": 2.8930656627737276e-05,
      "loss": 1.1999,
      "num_input_tokens_seen": 5249433600,
      "step": 80100,
      "train_runtime": 38707.849,
      "train_tokens_per_second": 135616.774
    },
    {
      "epoch": 0.802,
      "grad_norm": 0.5581755638122559,
      "learning_rate": 2.8650248756116727e-05,
      "loss": 1.1657,
      "num_input_tokens_seen": 5255987200,
      "step": 80200,
      "train_runtime": 38755.0614,
      "train_tokens_per_second": 135620.665
    },
    {
      "epoch": 0.803,
      "grad_norm": 0.8737390637397766,
      "learning_rate": 2.8371062875143968e-05,
      "loss": 1.168,
      "num_input_tokens_seen": 5262540800,
      "step": 80300,
      "train_runtime": 38809.0814,
      "train_tokens_per_second": 135600.757
    },
    {
      "epoch": 0.804,
      "grad_norm": 0.6018446683883667,
      "learning_rate": 2.809310179621776e-05,
      "loss": 1.1603,
      "num_input_tokens_seen": 5269094400,
      "step": 80400,
      "train_runtime": 38856.5205,
      "train_tokens_per_second": 135603.866
    },
    {
      "epoch": 0.805,
      "grad_norm": 0.5673835873603821,
      "learning_rate": 2.781636831840303e-05,
      "loss": 1.1748,
      "num_input_tokens_seen": 5275648000,
      "step": 80500,
      "train_runtime": 38904.9212,
      "train_tokens_per_second": 135603.616
    },
    {
      "epoch": 0.806,
      "grad_norm": 0.5929433703422546,
      "learning_rate": 2.754086522840282e-05,
      "loss": 1.1663,
      "num_input_tokens_seen": 5282201600,
      "step": 80600,
      "train_runtime": 38952.3955,
      "train_tokens_per_second": 135606.592
    },
    {
      "epoch": 0.807,
      "grad_norm": 0.555366039276123,
      "learning_rate": 2.7266595300530204e-05,
      "loss": 1.1665,
      "num_input_tokens_seen": 5288755200,
      "step": 80700,
      "train_runtime": 39001.4372,
      "train_tokens_per_second": 135604.11
    },
    {
      "epoch": 0.808,
      "grad_norm": 0.5364073514938354,
      "learning_rate": 2.6993561296680342e-05,
      "loss": 1.1687,
      "num_input_tokens_seen": 5295308800,
      "step": 80800,
      "train_runtime": 39048.23,
      "train_tokens_per_second": 135609.445
    },
    {
      "epoch": 0.809,
      "grad_norm": 0.9588598608970642,
      "learning_rate": 2.672176596630258e-05,
      "loss": 1.1831,
      "num_input_tokens_seen": 5301862400,
      "step": 80900,
      "train_runtime": 39096.7929,
      "train_tokens_per_second": 135608.627
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6481744050979614,
      "learning_rate": 2.6451212046372883e-05,
      "loss": 1.1686,
      "num_input_tokens_seen": 5308416000,
      "step": 81000,
      "train_runtime": 39152.1435,
      "train_tokens_per_second": 135584.301
    },
    {
      "epoch": 0.811,
      "grad_norm": 0.5828465819358826,
      "learning_rate": 2.6181902261366256e-05,
      "loss": 1.1662,
      "num_input_tokens_seen": 5314969600,
      "step": 81100,
      "train_runtime": 39199.715,
      "train_tokens_per_second": 135586.945
    },
    {
      "epoch": 0.812,
      "grad_norm": 0.5715954899787903,
      "learning_rate": 2.5913839323229195e-05,
      "loss": 1.1623,
      "num_input_tokens_seen": 5321523200,
      "step": 81200,
      "train_runtime": 39246.528,
      "train_tokens_per_second": 135592.203
    },
    {
      "epoch": 0.813,
      "grad_norm": 0.8631576299667358,
      "learning_rate": 2.564702593135253e-05,
      "loss": 1.1896,
      "num_input_tokens_seen": 5328076800,
      "step": 81300,
      "train_runtime": 39294.7731,
      "train_tokens_per_second": 135592.507
    },
    {
      "epoch": 0.814,
      "grad_norm": 0.5882650017738342,
      "learning_rate": 2.538146477254419e-05,
      "loss": 1.1728,
      "num_input_tokens_seen": 5334630400,
      "step": 81400,
      "train_runtime": 39341.8017,
      "train_tokens_per_second": 135597.003
    },
    {
      "epoch": 0.815,
      "grad_norm": 0.5567020773887634,
      "learning_rate": 2.5117158521002033e-05,
      "loss": 1.1669,
      "num_input_tokens_seen": 5341184000,
      "step": 81500,
      "train_runtime": 39389.3033,
      "train_tokens_per_second": 135599.86
    },
    {
      "epoch": 0.816,
      "grad_norm": 0.7412062883377075,
      "learning_rate": 2.4854109838287116e-05,
      "loss": 1.1629,
      "num_input_tokens_seen": 5347737600,
      "step": 81600,
      "train_runtime": 39443.4282,
      "train_tokens_per_second": 135579.939
    },
    {
      "epoch": 0.817,
      "grad_norm": 0.6353700757026672,
      "learning_rate": 2.459232137329679e-05,
      "loss": 1.1676,
      "num_input_tokens_seen": 5354291200,
      "step": 81700,
      "train_runtime": 39490.3956,
      "train_tokens_per_second": 135584.643
    },
    {
      "epoch": 0.818,
      "grad_norm": 0.6541226506233215,
      "learning_rate": 2.4331795762237894e-05,
      "loss": 1.1669,
      "num_input_tokens_seen": 5360844800,
      "step": 81800,
      "train_runtime": 39539.3049,
      "train_tokens_per_second": 135582.677
    },
    {
      "epoch": 0.819,
      "grad_norm": 0.684333086013794,
      "learning_rate": 2.4072535628600514e-05,
      "loss": 1.1623,
      "num_input_tokens_seen": 5367398400,
      "step": 81900,
      "train_runtime": 39587.3713,
      "train_tokens_per_second": 135583.602
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.5568915605545044,
      "learning_rate": 2.3814543583131306e-05,
      "loss": 1.1662,
      "num_input_tokens_seen": 5373952000,
      "step": 82000,
      "train_runtime": 39636.1132,
      "train_tokens_per_second": 135582.214
    },
    {
      "epoch": 0.821,
      "grad_norm": 0.6357592940330505,
      "learning_rate": 2.3557822223807287e-05,
      "loss": 1.1617,
      "num_input_tokens_seen": 5380505600,
      "step": 82100,
      "train_runtime": 39683.9299,
      "train_tokens_per_second": 135583.991
    },
    {
      "epoch": 0.822,
      "grad_norm": 0.6660736203193665,
      "learning_rate": 2.3302374135809727e-05,
      "loss": 1.1788,
      "num_input_tokens_seen": 5387059200,
      "step": 82200,
      "train_runtime": 39731.7683,
      "train_tokens_per_second": 135585.69
    },
    {
      "epoch": 0.823,
      "grad_norm": 0.6093869805335999,
      "learning_rate": 2.304820189149798e-05,
      "loss": 1.1823,
      "num_input_tokens_seen": 5393612800,
      "step": 82300,
      "train_runtime": 39780.5498,
      "train_tokens_per_second": 135584.169
    },
    {
      "epoch": 0.824,
      "grad_norm": 1.0343610048294067,
      "learning_rate": 2.2795308050383787e-05,
      "loss": 1.1942,
      "num_input_tokens_seen": 5400166400,
      "step": 82400,
      "train_runtime": 39833.9775,
      "train_tokens_per_second": 135566.839
    },
    {
      "epoch": 0.825,
      "grad_norm": 0.5363211035728455,
      "learning_rate": 2.2543695159105248e-05,
      "loss": 1.1659,
      "num_input_tokens_seen": 5406720000,
      "step": 82500,
      "train_runtime": 39881.8503,
      "train_tokens_per_second": 135568.434
    },
    {
      "epoch": 0.826,
      "grad_norm": 0.9732265472412109,
      "learning_rate": 2.2293365751401443e-05,
      "loss": 1.1757,
      "num_input_tokens_seen": 5413273600,
      "step": 82600,
      "train_runtime": 39929.975,
      "train_tokens_per_second": 135569.171
    },
    {
      "epoch": 0.827,
      "grad_norm": 0.5309200286865234,
      "learning_rate": 2.2044322348086735e-05,
      "loss": 1.1651,
      "num_input_tokens_seen": 5419827200,
      "step": 82700,
      "train_runtime": 39978.229,
      "train_tokens_per_second": 135569.467
    },
    {
      "epoch": 0.828,
      "grad_norm": 0.543769121170044,
      "learning_rate": 2.1796567457025372e-05,
      "loss": 1.1685,
      "num_input_tokens_seen": 5426380800,
      "step": 82800,
      "train_runtime": 40026.0125,
      "train_tokens_per_second": 135571.356
    },
    {
      "epoch": 0.829,
      "grad_norm": 0.5210631489753723,
      "learning_rate": 2.15501035731064e-05,
      "loss": 1.1778,
      "num_input_tokens_seen": 5432934400,
      "step": 82900,
      "train_runtime": 40075.0654,
      "train_tokens_per_second": 135568.947
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.3538480997085571,
      "learning_rate": 2.1304933178218426e-05,
      "loss": 1.1655,
      "num_input_tokens_seen": 5439488000,
      "step": 83000,
      "train_runtime": 40123.2015,
      "train_tokens_per_second": 135569.64
    },
    {
      "epoch": 0.831,
      "grad_norm": 1.2901802062988281,
      "learning_rate": 2.1061058741224518e-05,
      "loss": 1.1668,
      "num_input_tokens_seen": 5446041600,
      "step": 83100,
      "train_runtime": 40170.8312,
      "train_tokens_per_second": 135572.042
    },
    {
      "epoch": 0.832,
      "grad_norm": 0.6960340142250061,
      "learning_rate": 2.0818482717937596e-05,
      "loss": 1.163,
      "num_input_tokens_seen": 5452595200,
      "step": 83200,
      "train_runtime": 40225.6882,
      "train_tokens_per_second": 135550.079
    },
    {
      "epoch": 0.833,
      "grad_norm": 0.537268340587616,
      "learning_rate": 2.0577207551095552e-05,
      "loss": 1.1689,
      "num_input_tokens_seen": 5459148800,
      "step": 83300,
      "train_runtime": 40273.4785,
      "train_tokens_per_second": 135551.956
    },
    {
      "epoch": 0.834,
      "grad_norm": 0.564239501953125,
      "learning_rate": 2.0337235670336584e-05,
      "loss": 1.1662,
      "num_input_tokens_seen": 5465702400,
      "step": 83400,
      "train_runtime": 40320.9705,
      "train_tokens_per_second": 135554.832
    },
    {
      "epoch": 0.835,
      "grad_norm": 0.520041823387146,
      "learning_rate": 2.0098569492174887e-05,
      "loss": 1.1642,
      "num_input_tokens_seen": 5472256000,
      "step": 83500,
      "train_runtime": 40369.1468,
      "train_tokens_per_second": 135555.404
    },
    {
      "epoch": 0.836,
      "grad_norm": 0.616112232208252,
      "learning_rate": 1.9861211419976258e-05,
      "loss": 1.1671,
      "num_input_tokens_seen": 5478809600,
      "step": 83600,
      "train_runtime": 40416.0661,
      "train_tokens_per_second": 135560.19
    },
    {
      "epoch": 0.837,
      "grad_norm": 1.3083754777908325,
      "learning_rate": 1.962516384393377e-05,
      "loss": 1.1778,
      "num_input_tokens_seen": 5485363200,
      "step": 83700,
      "train_runtime": 40465.3405,
      "train_tokens_per_second": 135557.075
    },
    {
      "epoch": 0.838,
      "grad_norm": 0.5721991062164307,
      "learning_rate": 1.939042914104396e-05,
      "loss": 1.179,
      "num_input_tokens_seen": 5491916800,
      "step": 83800,
      "train_runtime": 40513.1256,
      "train_tokens_per_second": 135558.951
    },
    {
      "epoch": 0.839,
      "grad_norm": 0.8014708161354065,
      "learning_rate": 1.9157009675082702e-05,
      "loss": 1.1698,
      "num_input_tokens_seen": 5498470400,
      "step": 83900,
      "train_runtime": 40567.2253,
      "train_tokens_per_second": 135539.721
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.7554424405097961,
      "learning_rate": 1.8924907796581363e-05,
      "loss": 1.1689,
      "num_input_tokens_seen": 5505024000,
      "step": 84000,
      "train_runtime": 40615.2949,
      "train_tokens_per_second": 135540.663
    },
    {
      "epoch": 0.841,
      "grad_norm": 0.6026338934898376,
      "learning_rate": 1.869412584280329e-05,
      "loss": 1.1727,
      "num_input_tokens_seen": 5511577600,
      "step": 84100,
      "train_runtime": 40664.1179,
      "train_tokens_per_second": 135539.091
    },
    {
      "epoch": 0.842,
      "grad_norm": 0.6569694876670837,
      "learning_rate": 1.8464666137720208e-05,
      "loss": 1.1717,
      "num_input_tokens_seen": 5518131200,
      "step": 84200,
      "train_runtime": 40713.1869,
      "train_tokens_per_second": 135536.705
    },
    {
      "epoch": 0.843,
      "grad_norm": 0.5886375904083252,
      "learning_rate": 1.823653099198884e-05,
      "loss": 1.1764,
      "num_input_tokens_seen": 5524684800,
      "step": 84300,
      "train_runtime": 40759.1071,
      "train_tokens_per_second": 135544.795
    },
    {
      "epoch": 0.844,
      "grad_norm": 0.6782867908477783,
      "learning_rate": 1.800972270292749e-05,
      "loss": 1.1637,
      "num_input_tokens_seen": 5531238400,
      "step": 84400,
      "train_runtime": 40811.77,
      "train_tokens_per_second": 135530.471
    },
    {
      "epoch": 0.845,
      "grad_norm": 0.6513829231262207,
      "learning_rate": 1.778424355449317e-05,
      "loss": 1.165,
      "num_input_tokens_seen": 5537792000,
      "step": 84500,
      "train_runtime": 40858.6857,
      "train_tokens_per_second": 135535.245
    },
    {
      "epoch": 0.846,
      "grad_norm": 0.6192531585693359,
      "learning_rate": 1.756009581725841e-05,
      "loss": 1.1589,
      "num_input_tokens_seen": 5544345600,
      "step": 84600,
      "train_runtime": 40906.0609,
      "train_tokens_per_second": 135538.487
    },
    {
      "epoch": 0.847,
      "grad_norm": 0.5640349388122559,
      "learning_rate": 1.7337281748388387e-05,
      "loss": 1.1653,
      "num_input_tokens_seen": 5550899200,
      "step": 84700,
      "train_runtime": 40952.689,
      "train_tokens_per_second": 135544.194
    },
    {
      "epoch": 0.848,
      "grad_norm": 0.5606239438056946,
      "learning_rate": 1.7115803591618312e-05,
      "loss": 1.1734,
      "num_input_tokens_seen": 5557452800,
      "step": 84800,
      "train_runtime": 41006.8402,
      "train_tokens_per_second": 135525.019
    },
    {
      "epoch": 0.849,
      "grad_norm": 0.5700273513793945,
      "learning_rate": 1.6895663577230816e-05,
      "loss": 1.1755,
      "num_input_tokens_seen": 5564006400,
      "step": 84900,
      "train_runtime": 41054.6511,
      "train_tokens_per_second": 135526.822
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.7111489176750183,
      "learning_rate": 1.667686392203333e-05,
      "loss": 1.1673,
      "num_input_tokens_seen": 5570560000,
      "step": 85000,
      "train_runtime": 41102.7763,
      "train_tokens_per_second": 135527.585
    },
    {
      "epoch": 0.851,
      "grad_norm": 0.5908454060554504,
      "learning_rate": 1.6459406829335996e-05,
      "loss": 1.1767,
      "num_input_tokens_seen": 5577113600,
      "step": 85100,
      "train_runtime": 41150.3215,
      "train_tokens_per_second": 135530.256
    },
    {
      "epoch": 0.852,
      "grad_norm": 0.6215232610702515,
      "learning_rate": 1.624329448892932e-05,
      "loss": 1.171,
      "num_input_tokens_seen": 5583667200,
      "step": 85200,
      "train_runtime": 41205.5284,
      "train_tokens_per_second": 135507.72
    },
    {
      "epoch": 0.853,
      "grad_norm": 0.6203814744949341,
      "learning_rate": 1.6028529077062163e-05,
      "loss": 1.1591,
      "num_input_tokens_seen": 5590220800,
      "step": 85300,
      "train_runtime": 41253.0291,
      "train_tokens_per_second": 135510.553
    },
    {
      "epoch": 0.854,
      "grad_norm": 0.5267207026481628,
      "learning_rate": 1.5815112756419805e-05,
      "loss": 1.185,
      "num_input_tokens_seen": 5596774400,
      "step": 85400,
      "train_runtime": 41301.2794,
      "train_tokens_per_second": 135510.921
    },
    {
      "epoch": 0.855,
      "grad_norm": 0.5815737843513489,
      "learning_rate": 1.5603047676102313e-05,
      "loss": 1.173,
      "num_input_tokens_seen": 5603328000,
      "step": 85500,
      "train_runtime": 41349.0127,
      "train_tokens_per_second": 135512.982
    },
    {
      "epoch": 0.856,
      "grad_norm": 0.6342357397079468,
      "learning_rate": 1.5392335971602638e-05,
      "loss": 1.1568,
      "num_input_tokens_seen": 5609881600,
      "step": 85600,
      "train_runtime": 41397.1556,
      "train_tokens_per_second": 135513.697
    },
    {
      "epoch": 0.857,
      "grad_norm": 0.6623713970184326,
      "learning_rate": 1.5182979764785258e-05,
      "loss": 1.1649,
      "num_input_tokens_seen": 5616435200,
      "step": 85700,
      "train_runtime": 41450.3243,
      "train_tokens_per_second": 135497.98
    },
    {
      "epoch": 0.858,
      "grad_norm": 0.6217081546783447,
      "learning_rate": 1.4974981163864896e-05,
      "loss": 1.1772,
      "num_input_tokens_seen": 5622988800,
      "step": 85800,
      "train_runtime": 41497.5379,
      "train_tokens_per_second": 135501.745
    },
    {
      "epoch": 0.859,
      "grad_norm": 0.6180946826934814,
      "learning_rate": 1.4768342263385192e-05,
      "loss": 1.1601,
      "num_input_tokens_seen": 5629542400,
      "step": 85900,
      "train_runtime": 41546.6611,
      "train_tokens_per_second": 135499.274
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.5609486103057861,
      "learning_rate": 1.4563065144197517e-05,
      "loss": 1.1866,
      "num_input_tokens_seen": 5636096000,
      "step": 86000,
      "train_runtime": 41594.2678,
      "train_tokens_per_second": 135501.748
    },
    {
      "epoch": 0.861,
      "grad_norm": 0.5352550148963928,
      "learning_rate": 1.4359151873440216e-05,
      "loss": 1.1732,
      "num_input_tokens_seen": 5642649600,
      "step": 86100,
      "train_runtime": 41640.8053,
      "train_tokens_per_second": 135507.696
    },
    {
      "epoch": 0.862,
      "grad_norm": 0.5788577198982239,
      "learning_rate": 1.415660450451767e-05,
      "loss": 1.1785,
      "num_input_tokens_seen": 5649203200,
      "step": 86200,
      "train_runtime": 41695.0254,
      "train_tokens_per_second": 135488.662
    },
    {
      "epoch": 0.863,
      "grad_norm": 0.5672028064727783,
      "learning_rate": 1.3955425077079595e-05,
      "loss": 1.1692,
      "num_input_tokens_seen": 5655756800,
      "step": 86300,
      "train_runtime": 41742.7936,
      "train_tokens_per_second": 135490.615
    },
    {
      "epoch": 0.864,
      "grad_norm": 0.577563464641571,
      "learning_rate": 1.375561561700061e-05,
      "loss": 1.1662,
      "num_input_tokens_seen": 5662310400,
      "step": 86400,
      "train_runtime": 41789.652,
      "train_tokens_per_second": 135495.515
    },
    {
      "epoch": 0.865,
      "grad_norm": 0.544994592666626,
      "learning_rate": 1.3557178136359798e-05,
      "loss": 1.1665,
      "num_input_tokens_seen": 5668864000,
      "step": 86500,
      "train_runtime": 41842.8709,
      "train_tokens_per_second": 135479.805
    },
    {
      "epoch": 0.866,
      "grad_norm": 0.5978608727455139,
      "learning_rate": 1.3360114633420333e-05,
      "loss": 1.1644,
      "num_input_tokens_seen": 5675417600,
      "step": 86600,
      "train_runtime": 41891.5143,
      "train_tokens_per_second": 135478.932
    },
    {
      "epoch": 0.867,
      "grad_norm": 0.6005887985229492,
      "learning_rate": 1.3164427092609503e-05,
      "loss": 1.1742,
      "num_input_tokens_seen": 5681971200,
      "step": 86700,
      "train_runtime": 41939.4895,
      "train_tokens_per_second": 135480.218
    },
    {
      "epoch": 0.868,
      "grad_norm": 0.5312247276306152,
      "learning_rate": 1.2970117484498732e-05,
      "loss": 1.1575,
      "num_input_tokens_seen": 5688524800,
      "step": 86800,
      "train_runtime": 41987.1811,
      "train_tokens_per_second": 135482.418
    },
    {
      "epoch": 0.869,
      "grad_norm": 0.9317598342895508,
      "learning_rate": 1.2777187765783558e-05,
      "loss": 1.1668,
      "num_input_tokens_seen": 5695078400,
      "step": 86900,
      "train_runtime": 42034.5611,
      "train_tokens_per_second": 135485.616
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.5501394271850586,
      "learning_rate": 1.2585639879264103e-05,
      "loss": 1.1741,
      "num_input_tokens_seen": 5701632000,
      "step": 87000,
      "train_runtime": 42082.1201,
      "train_tokens_per_second": 135488.231
    },
    {
      "epoch": 0.871,
      "grad_norm": 0.6144236326217651,
      "learning_rate": 1.2395475753825518e-05,
      "loss": 1.1665,
      "num_input_tokens_seen": 5708185600,
      "step": 87100,
      "train_runtime": 42136.7086,
      "train_tokens_per_second": 135468.236
    },
    {
      "epoch": 0.872,
      "grad_norm": 0.6324082612991333,
      "learning_rate": 1.2206697304418367e-05,
      "loss": 1.1523,
      "num_input_tokens_seen": 5714739200,
      "step": 87200,
      "train_runtime": 42184.2095,
      "train_tokens_per_second": 135471.051
    },
    {
      "epoch": 0.873,
      "grad_norm": 0.6486518979072571,
      "learning_rate": 1.2019306432039594e-05,
      "loss": 1.1872,
      "num_input_tokens_seen": 5721292800,
      "step": 87300,
      "train_runtime": 42230.9222,
      "train_tokens_per_second": 135476.388
    },
    {
      "epoch": 0.874,
      "grad_norm": 0.5755148530006409,
      "learning_rate": 1.1833305023713153e-05,
      "loss": 1.1963,
      "num_input_tokens_seen": 5727846400,
      "step": 87400,
      "train_runtime": 42278.9901,
      "train_tokens_per_second": 135477.37
    },
    {
      "epoch": 0.875,
      "grad_norm": 0.6408706307411194,
      "learning_rate": 1.1648694952471205e-05,
      "loss": 1.163,
      "num_input_tokens_seen": 5734400000,
      "step": 87500,
      "train_runtime": 42326.8376,
      "train_tokens_per_second": 135479.056
    },
    {
      "epoch": 0.876,
      "grad_norm": 0.6233325600624084,
      "learning_rate": 1.1465478077335088e-05,
      "loss": 1.1591,
      "num_input_tokens_seen": 5740953600,
      "step": 87600,
      "train_runtime": 42379.4952,
      "train_tokens_per_second": 135465.36
    },
    {
      "epoch": 0.877,
      "grad_norm": 0.8282228708267212,
      "learning_rate": 1.1283656243296695e-05,
      "loss": 1.1799,
      "num_input_tokens_seen": 5747507200,
      "step": 87700,
      "train_runtime": 42427.8149,
      "train_tokens_per_second": 135465.548
    },
    {
      "epoch": 0.878,
      "grad_norm": 0.7755045294761658,
      "learning_rate": 1.1103231281299923e-05,
      "loss": 1.1565,
      "num_input_tokens_seen": 5754060800,
      "step": 87800,
      "train_runtime": 42474.6192,
      "train_tokens_per_second": 135470.568
    },
    {
      "epoch": 0.879,
      "grad_norm": 0.6230588555335999,
      "learning_rate": 1.0924205008222086e-05,
      "loss": 1.1673,
      "num_input_tokens_seen": 5760614400,
      "step": 87900,
      "train_runtime": 42522.6205,
      "train_tokens_per_second": 135471.764
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.5966441035270691,
      "learning_rate": 1.0746579226855768e-05,
      "loss": 1.1628,
      "num_input_tokens_seen": 5767168000,
      "step": 88000,
      "train_runtime": 42576.1454,
      "train_tokens_per_second": 135455.381
    },
    {
      "epoch": 0.881,
      "grad_norm": 0.6604552865028381,
      "learning_rate": 1.0570355725890678e-05,
      "loss": 1.1769,
      "num_input_tokens_seen": 5773721600,
      "step": 88100,
      "train_runtime": 42624.8502,
      "train_tokens_per_second": 135454.355
    },
    {
      "epoch": 0.882,
      "grad_norm": 0.5727500319480896,
      "learning_rate": 1.0395536279895428e-05,
      "loss": 1.1571,
      "num_input_tokens_seen": 5780275200,
      "step": 88200,
      "train_runtime": 42673.6883,
      "train_tokens_per_second": 135452.909
    },
    {
      "epoch": 0.883,
      "grad_norm": 0.5748215317726135,
      "learning_rate": 1.0222122649299952e-05,
      "loss": 1.1666,
      "num_input_tokens_seen": 5786828800,
      "step": 88300,
      "train_runtime": 42720.0242,
      "train_tokens_per_second": 135459.399
    },
    {
      "epoch": 0.884,
      "grad_norm": 0.6671021580696106,
      "learning_rate": 1.0050116580377593e-05,
      "loss": 1.1887,
      "num_input_tokens_seen": 5793382400,
      "step": 88400,
      "train_runtime": 42766.9841,
      "train_tokens_per_second": 135463.899
    },
    {
      "epoch": 0.885,
      "grad_norm": 0.7352688908576965,
      "learning_rate": 9.879519805227515e-06,
      "loss": 1.173,
      "num_input_tokens_seen": 5799936000,
      "step": 88500,
      "train_runtime": 42820.4689,
      "train_tokens_per_second": 135447.746
    },
    {
      "epoch": 0.886,
      "grad_norm": 0.5779001712799072,
      "learning_rate": 9.710334041757351e-06,
      "loss": 1.1612,
      "num_input_tokens_seen": 5806489600,
      "step": 88600,
      "train_runtime": 42866.8877,
      "train_tokens_per_second": 135453.958
    },
    {
      "epoch": 0.887,
      "grad_norm": 0.7246189713478088,
      "learning_rate": 9.542560993665932e-06,
      "loss": 1.1926,
      "num_input_tokens_seen": 5813043200,
      "step": 88700,
      "train_runtime": 42915.9912,
      "train_tokens_per_second": 135451.682
    },
    {
      "epoch": 0.888,
      "grad_norm": 0.5459685921669006,
      "learning_rate": 9.376202350425888e-06,
      "loss": 1.1698,
      "num_input_tokens_seen": 5819596800,
      "step": 88800,
      "train_runtime": 42964.4051,
      "train_tokens_per_second": 135451.586
    },
    {
      "epoch": 0.889,
      "grad_norm": 0.5574699640274048,
      "learning_rate": 9.211259787266972e-06,
      "loss": 1.1627,
      "num_input_tokens_seen": 5826150400,
      "step": 88900,
      "train_runtime": 43011.9797,
      "train_tokens_per_second": 135454.133
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.5637386441230774,
      "learning_rate": 9.047734965158966e-06,
      "loss": 1.1659,
      "num_input_tokens_seen": 5832704000,
      "step": 89000,
      "train_runtime": 43065.5789,
      "train_tokens_per_second": 135437.724
    },
    {
      "epoch": 0.891,
      "grad_norm": 0.5420241951942444,
      "learning_rate": 8.885629530794997e-06,
      "loss": 1.1693,
      "num_input_tokens_seen": 5839257600,
      "step": 89100,
      "train_runtime": 43113.8932,
      "train_tokens_per_second": 135437.957
    },
    {
      "epoch": 0.892,
      "grad_norm": 0.5701260566711426,
      "learning_rate": 8.724945116574983e-06,
      "loss": 1.1592,
      "num_input_tokens_seen": 5845811200,
      "step": 89200,
      "train_runtime": 43161.415,
      "train_tokens_per_second": 135440.675
    },
    {
      "epoch": 0.893,
      "grad_norm": 0.5882892608642578,
      "learning_rate": 8.565683340589185e-06,
      "loss": 1.1601,
      "num_input_tokens_seen": 5852364800,
      "step": 89300,
      "train_runtime": 43209.5307,
      "train_tokens_per_second": 135441.527
    },
    {
      "epoch": 0.894,
      "grad_norm": 0.5708109736442566,
      "learning_rate": 8.40784580660196e-06,
      "loss": 1.1684,
      "num_input_tokens_seen": 5858918400,
      "step": 89400,
      "train_runtime": 43257.3597,
      "train_tokens_per_second": 135443.273
    },
    {
      "epoch": 0.895,
      "grad_norm": 0.5796698927879333,
      "learning_rate": 8.251434104035465e-06,
      "loss": 1.1753,
      "num_input_tokens_seen": 5865472000,
      "step": 89500,
      "train_runtime": 43305.3116,
      "train_tokens_per_second": 135444.632
    },
    {
      "epoch": 0.896,
      "grad_norm": 0.9602819681167603,
      "learning_rate": 8.09644980795383e-06,
      "loss": 1.1672,
      "num_input_tokens_seen": 5872025600,
      "step": 89600,
      "train_runtime": 43360.788,
      "train_tokens_per_second": 135422.484
    },
    {
      "epoch": 0.897,
      "grad_norm": 0.6962534189224243,
      "learning_rate": 7.942894479047252e-06,
      "loss": 1.1622,
      "num_input_tokens_seen": 5878579200,
      "step": 89700,
      "train_runtime": 43407.8503,
      "train_tokens_per_second": 135426.637
    },
    {
      "epoch": 0.898,
      "grad_norm": 0.6292552351951599,
      "learning_rate": 7.790769663616098e-06,
      "loss": 1.1632,
      "num_input_tokens_seen": 5885132800,
      "step": 89800,
      "train_runtime": 43455.9389,
      "train_tokens_per_second": 135427.584
    },
    {
      "epoch": 0.899,
      "grad_norm": 0.5883670449256897,
      "learning_rate": 7.64007689355563e-06,
      "loss": 1.1632,
      "num_input_tokens_seen": 5891686400,
      "step": 89900,
      "train_runtime": 43504.2315,
      "train_tokens_per_second": 135427.893
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.8059070706367493,
      "learning_rate": 7.490817686340361e-06,
      "loss": 1.1728,
      "num_input_tokens_seen": 5898240000,
      "step": 90000,
      "train_runtime": 43552.1457,
      "train_tokens_per_second": 135429.378
    },
    {
      "epoch": 0.901,
      "grad_norm": 0.5949374437332153,
      "learning_rate": 7.342993545008818e-06,
      "loss": 1.1732,
      "num_input_tokens_seen": 5904793600,
      "step": 90100,
      "train_runtime": 43599.6931,
      "train_tokens_per_second": 135431.999
    },
    {
      "epoch": 0.902,
      "grad_norm": 0.6094557642936707,
      "learning_rate": 7.196605958148505e-06,
      "loss": 1.1713,
      "num_input_tokens_seen": 5911347200,
      "step": 90200,
      "train_runtime": 43653.2541,
      "train_tokens_per_second": 135415.957
    },
    {
      "epoch": 0.903,
      "grad_norm": 0.6275845170021057,
      "learning_rate": 7.051656399880778e-06,
      "loss": 1.1743,
      "num_input_tokens_seen": 5917900800,
      "step": 90300,
      "train_runtime": 43702.1275,
      "train_tokens_per_second": 135414.478
    },
    {
      "epoch": 0.904,
      "grad_norm": 0.7113337516784668,
      "learning_rate": 6.9081463298460815e-06,
      "loss": 1.162,
      "num_input_tokens_seen": 5924454400,
      "step": 90400,
      "train_runtime": 43749.6704,
      "train_tokens_per_second": 135417.121
    },
    {
      "epoch": 0.905,
      "grad_norm": 0.6237180233001709,
      "learning_rate": 6.766077193189201e-06,
      "loss": 1.159,
      "num_input_tokens_seen": 5931008000,
      "step": 90500,
      "train_runtime": 43797.6522,
      "train_tokens_per_second": 135418.4
    },
    {
      "epoch": 0.906,
      "grad_norm": 0.9803968667984009,
      "learning_rate": 6.625450420544831e-06,
      "loss": 1.1788,
      "num_input_tokens_seen": 5937561600,
      "step": 90600,
      "train_runtime": 43846.1111,
      "train_tokens_per_second": 135418.203
    },
    {
      "epoch": 0.907,
      "grad_norm": 0.5648267269134521,
      "learning_rate": 6.486267428022967e-06,
      "loss": 1.1581,
      "num_input_tokens_seen": 5944115200,
      "step": 90700,
      "train_runtime": 43893.4216,
      "train_tokens_per_second": 135421.55
    },
    {
      "epoch": 0.908,
      "grad_norm": 0.610898494720459,
      "learning_rate": 6.34852961719477e-06,
      "loss": 1.1557,
      "num_input_tokens_seen": 5950668800,
      "step": 90800,
      "train_runtime": 43947.4481,
      "train_tokens_per_second": 135404.194
    },
    {
      "epoch": 0.909,
      "grad_norm": 0.732876718044281,
      "learning_rate": 6.212238375078521e-06,
      "loss": 1.1683,
      "num_input_tokens_seen": 5957222400,
      "step": 90900,
      "train_runtime": 43996.4271,
      "train_tokens_per_second": 135402.413
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.5793011784553528,
      "learning_rate": 6.077395074125491e-06,
      "loss": 1.1747,
      "num_input_tokens_seen": 5963776000,
      "step": 91000,
      "train_runtime": 44044.5112,
      "train_tokens_per_second": 135403.387
    },
    {
      "epoch": 0.911,
      "grad_norm": 0.6567527651786804,
      "learning_rate": 5.944001072206212e-06,
      "loss": 1.1594,
      "num_input_tokens_seen": 5970329600,
      "step": 91100,
      "train_runtime": 44091.43,
      "train_tokens_per_second": 135407.938
    },
    {
      "epoch": 0.912,
      "grad_norm": 0.6197203397750854,
      "learning_rate": 5.812057712596807e-06,
      "loss": 1.1504,
      "num_input_tokens_seen": 5976883200,
      "step": 91200,
      "train_runtime": 44140.2623,
      "train_tokens_per_second": 135406.608
    },
    {
      "epoch": 0.913,
      "grad_norm": 0.6190736889839172,
      "learning_rate": 5.681566323965486e-06,
      "loss": 1.1645,
      "num_input_tokens_seen": 5983436800,
      "step": 91300,
      "train_runtime": 44194.3429,
      "train_tokens_per_second": 135389.202
    },
    {
      "epoch": 0.914,
      "grad_norm": 0.5632036924362183,
      "learning_rate": 5.552528220359004e-06,
      "loss": 1.1691,
      "num_input_tokens_seen": 5989990400,
      "step": 91400,
      "train_runtime": 44242.165,
      "train_tokens_per_second": 135390.987
    },
    {
      "epoch": 0.915,
      "grad_norm": 0.6650084257125854,
      "learning_rate": 5.424944701189704e-06,
      "loss": 1.1587,
      "num_input_tokens_seen": 5996544000,
      "step": 91500,
      "train_runtime": 44290.3253,
      "train_tokens_per_second": 135391.735
    },
    {
      "epoch": 0.916,
      "grad_norm": 0.6665343642234802,
      "learning_rate": 5.298817051222182e-06,
      "loss": 1.16,
      "num_input_tokens_seen": 6003097600,
      "step": 91600,
      "train_runtime": 44344.1461,
      "train_tokens_per_second": 135375.199
    },
    {
      "epoch": 0.917,
      "grad_norm": 0.9934324026107788,
      "learning_rate": 5.174146540560442e-06,
      "loss": 1.186,
      "num_input_tokens_seen": 6009651200,
      "step": 91700,
      "train_runtime": 44386.6411,
      "train_tokens_per_second": 135393.241
    },
    {
      "epoch": 0.918,
      "grad_norm": 0.587840735912323,
      "learning_rate": 5.050934424635195e-06,
      "loss": 1.1685,
      "num_input_tokens_seen": 6016204800,
      "step": 91800,
      "train_runtime": 44440.2445,
      "train_tokens_per_second": 135377.401
    },
    {
      "epoch": 0.919,
      "grad_norm": 0.6308780312538147,
      "learning_rate": 4.9291819441910465e-06,
      "loss": 1.1593,
      "num_input_tokens_seen": 6022758400,
      "step": 91900,
      "train_runtime": 44487.4748,
      "train_tokens_per_second": 135380.99
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6875436305999756,
      "learning_rate": 4.808890325274129e-06,
      "loss": 1.1686,
      "num_input_tokens_seen": 6029312000,
      "step": 92000,
      "train_runtime": 44535.4396,
      "train_tokens_per_second": 135382.339
    },
    {
      "epoch": 0.921,
      "grad_norm": 0.6450539231300354,
      "learning_rate": 4.690060779219723e-06,
      "loss": 1.1669,
      "num_input_tokens_seen": 6035865600,
      "step": 92100,
      "train_runtime": 44583.0204,
      "train_tokens_per_second": 135384.852
    },
    {
      "epoch": 0.922,
      "grad_norm": 1.0118526220321655,
      "learning_rate": 4.572694502640023e-06,
      "loss": 1.1601,
      "num_input_tokens_seen": 6042419200,
      "step": 92200,
      "train_runtime": 44632.4327,
      "train_tokens_per_second": 135381.803
    },
    {
      "epoch": 0.923,
      "grad_norm": 0.5630050897598267,
      "learning_rate": 4.456792677412141e-06,
      "loss": 1.164,
      "num_input_tokens_seen": 6048972800,
      "step": 92300,
      "train_runtime": 44685.5287,
      "train_tokens_per_second": 135367.6
    },
    {
      "epoch": 0.924,
      "grad_norm": 0.5819036364555359,
      "learning_rate": 4.342356470666153e-06,
      "loss": 1.177,
      "num_input_tokens_seen": 6055526400,
      "step": 92400,
      "train_runtime": 44733.1102,
      "train_tokens_per_second": 135370.118
    },
    {
      "epoch": 0.925,
      "grad_norm": 0.5852016806602478,
      "learning_rate": 4.22938703477344e-06,
      "loss": 1.1846,
      "num_input_tokens_seen": 6062080000,
      "step": 92500,
      "train_runtime": 44781.2518,
      "train_tokens_per_second": 135370.937
    },
    {
      "epoch": 0.926,
      "grad_norm": 0.7466326355934143,
      "learning_rate": 4.117885507334884e-06,
      "loss": 1.1564,
      "num_input_tokens_seen": 6068633600,
      "step": 92600,
      "train_runtime": 44829.0669,
      "train_tokens_per_second": 135372.739
    },
    {
      "epoch": 0.927,
      "grad_norm": 0.7777779698371887,
      "learning_rate": 4.007853011169687e-06,
      "loss": 1.1654,
      "num_input_tokens_seen": 6075187200,
      "step": 92700,
      "train_runtime": 44882.4041,
      "train_tokens_per_second": 135357.883
    },
    {
      "epoch": 0.928,
      "grad_norm": 0.9159000515937805,
      "learning_rate": 3.899290654303855e-06,
      "loss": 1.1854,
      "num_input_tokens_seen": 6081740800,
      "step": 92800,
      "train_runtime": 44929.6625,
      "train_tokens_per_second": 135361.373
    },
    {
      "epoch": 0.929,
      "grad_norm": 0.5948230028152466,
      "learning_rate": 3.7921995299591168e-06,
      "loss": 1.1602,
      "num_input_tokens_seen": 6088294400,
      "step": 92900,
      "train_runtime": 44977.4717,
      "train_tokens_per_second": 135363.198
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.5999124646186829,
      "learning_rate": 3.686580716541887e-06,
      "loss": 1.1484,
      "num_input_tokens_seen": 6094848000,
      "step": 93000,
      "train_runtime": 45026.2424,
      "train_tokens_per_second": 135362.128
    },
    {
      "epoch": 0.931,
      "grad_norm": 0.6015925407409668,
      "learning_rate": 3.582435277632456e-06,
      "loss": 1.1638,
      "num_input_tokens_seen": 6101401600,
      "step": 93100,
      "train_runtime": 45073.6825,
      "train_tokens_per_second": 135365.057
    },
    {
      "epoch": 0.932,
      "grad_norm": 0.5493288040161133,
      "learning_rate": 3.479764261974266e-06,
      "loss": 1.1644,
      "num_input_tokens_seen": 6107955200,
      "step": 93200,
      "train_runtime": 45131.734,
      "train_tokens_per_second": 135336.152
    },
    {
      "epoch": 0.933,
      "grad_norm": 0.5847836136817932,
      "learning_rate": 3.3785687034632523e-06,
      "loss": 1.1528,
      "num_input_tokens_seen": 6114508800,
      "step": 93300,
      "train_runtime": 45180.4411,
      "train_tokens_per_second": 135335.305
    },
    {
      "epoch": 0.934,
      "grad_norm": 0.6086737513542175,
      "learning_rate": 3.2788496211376024e-06,
      "loss": 1.1525,
      "num_input_tokens_seen": 6121062400,
      "step": 93400,
      "train_runtime": 45228.3556,
      "train_tokens_per_second": 135336.833
    },
    {
      "epoch": 0.935,
      "grad_norm": 0.6097891330718994,
      "learning_rate": 3.180608019167363e-06,
      "loss": 1.1681,
      "num_input_tokens_seen": 6127616000,
      "step": 93500,
      "train_runtime": 45275.6501,
      "train_tokens_per_second": 135340.21
    },
    {
      "epoch": 0.936,
      "grad_norm": 0.5980057716369629,
      "learning_rate": 3.0838448868443665e-06,
      "loss": 1.1603,
      "num_input_tokens_seen": 6134169600,
      "step": 93600,
      "train_runtime": 45322.6488,
      "train_tokens_per_second": 135344.464
    },
    {
      "epoch": 0.937,
      "grad_norm": 0.7306444048881531,
      "learning_rate": 2.988561198572287e-06,
      "loss": 1.1702,
      "num_input_tokens_seen": 6140723200,
      "step": 93700,
      "train_runtime": 45376.9708,
      "train_tokens_per_second": 135326.865
    },
    {
      "epoch": 0.938,
      "grad_norm": 0.9187434911727905,
      "learning_rate": 2.8947579138567987e-06,
      "loss": 1.1654,
      "num_input_tokens_seen": 6147276800,
      "step": 93800,
      "train_runtime": 45427.1088,
      "train_tokens_per_second": 135321.771
    },
    {
      "epoch": 0.939,
      "grad_norm": 0.6403319835662842,
      "learning_rate": 2.8024359772959525e-06,
      "loss": 1.1581,
      "num_input_tokens_seen": 6153830400,
      "step": 93900,
      "train_runtime": 45475.34,
      "train_tokens_per_second": 135322.362
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.7088416218757629,
      "learning_rate": 2.711596318570597e-06,
      "loss": 1.1683,
      "num_input_tokens_seen": 6160384000,
      "step": 94000,
      "train_runtime": 45523.8789,
      "train_tokens_per_second": 135322.037
    },
    {
      "epoch": 0.941,
      "grad_norm": 0.6289553642272949,
      "learning_rate": 2.6222398524351206e-06,
      "loss": 1.1538,
      "num_input_tokens_seen": 6166937600,
      "step": 94100,
      "train_runtime": 45571.6907,
      "train_tokens_per_second": 135323.871
    },
    {
      "epoch": 0.942,
      "grad_norm": 0.8788822889328003,
      "learning_rate": 2.5343674787081435e-06,
      "loss": 1.1666,
      "num_input_tokens_seen": 6173491200,
      "step": 94200,
      "train_runtime": 45621.3271,
      "train_tokens_per_second": 135320.29
    },
    {
      "epoch": 0.943,
      "grad_norm": 0.575515866279602,
      "learning_rate": 2.4479800822634565e-06,
      "loss": 1.1685,
      "num_input_tokens_seen": 6180044800,
      "step": 94300,
      "train_runtime": 45670.6842,
      "train_tokens_per_second": 135317.543
    },
    {
      "epoch": 0.944,
      "grad_norm": 0.5740439891815186,
      "learning_rate": 2.3630785330212286e-06,
      "loss": 1.1588,
      "num_input_tokens_seen": 6186598400,
      "step": 94400,
      "train_runtime": 45717.875,
      "train_tokens_per_second": 135321.215
    },
    {
      "epoch": 0.945,
      "grad_norm": 0.6576538681983948,
      "learning_rate": 2.2796636859390815e-06,
      "loss": 1.1492,
      "num_input_tokens_seen": 6193152000,
      "step": 94500,
      "train_runtime": 45766.0209,
      "train_tokens_per_second": 135322.055
    },
    {
      "epoch": 0.946,
      "grad_norm": 0.5781713128089905,
      "learning_rate": 2.197736381003612e-06,
      "loss": 1.1725,
      "num_input_tokens_seen": 6199705600,
      "step": 94600,
      "train_runtime": 45819.6687,
      "train_tokens_per_second": 135306.644
    },
    {
      "epoch": 0.947,
      "grad_norm": 0.6812490820884705,
      "learning_rate": 2.1172974432218826e-06,
      "loss": 1.1509,
      "num_input_tokens_seen": 6206259200,
      "step": 94700,
      "train_runtime": 45866.8187,
      "train_tokens_per_second": 135310.435
    },
    {
      "epoch": 0.948,
      "grad_norm": 0.8884466886520386,
      "learning_rate": 2.0383476826130786e-06,
      "loss": 1.157,
      "num_input_tokens_seen": 6212812800,
      "step": 94800,
      "train_runtime": 45915.7744,
      "train_tokens_per_second": 135308.897
    },
    {
      "epoch": 0.949,
      "grad_norm": 0.6096293926239014,
      "learning_rate": 1.96088789420043e-06,
      "loss": 1.1609,
      "num_input_tokens_seen": 6219366400,
      "step": 94900,
      "train_runtime": 45963.3824,
      "train_tokens_per_second": 135311.33
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.5762118697166443,
      "learning_rate": 1.8849188580031539e-06,
      "loss": 1.1621,
      "num_input_tokens_seen": 6225920000,
      "step": 95000,
      "train_runtime": 46012.4538,
      "train_tokens_per_second": 135309.454
    },
    {
      "epoch": 0.951,
      "grad_norm": 0.5296618938446045,
      "learning_rate": 1.8104413390286066e-06,
      "loss": 1.157,
      "num_input_tokens_seen": 6232473600,
      "step": 95100,
      "train_runtime": 46059.2761,
      "train_tokens_per_second": 135314.189
    },
    {
      "epoch": 0.952,
      "grad_norm": 0.6025533676147461,
      "learning_rate": 1.7374560872645438e-06,
      "loss": 1.1507,
      "num_input_tokens_seen": 6239027200,
      "step": 95200,
      "train_runtime": 46113.68,
      "train_tokens_per_second": 135296.667
    },
    {
      "epoch": 0.953,
      "grad_norm": 0.616148829460144,
      "learning_rate": 1.6659638376716578e-06,
      "loss": 1.1711,
      "num_input_tokens_seen": 6245580800,
      "step": 95300,
      "train_runtime": 46162.0494,
      "train_tokens_per_second": 135296.87
    },
    {
      "epoch": 0.954,
      "grad_norm": 0.6661262512207031,
      "learning_rate": 1.5959653101761172e-06,
      "loss": 1.1604,
      "num_input_tokens_seen": 6252134400,
      "step": 95400,
      "train_runtime": 46208.848,
      "train_tokens_per_second": 135301.672
    },
    {
      "epoch": 0.955,
      "grad_norm": 0.8173303604125977,
      "learning_rate": 1.5274612096623063e-06,
      "loss": 1.1498,
      "num_input_tokens_seen": 6258688000,
      "step": 95500,
      "train_runtime": 46256.5159,
      "train_tokens_per_second": 135303.922
    },
    {
      "epoch": 0.956,
      "grad_norm": 0.6189817786216736,
      "learning_rate": 1.4604522259657635e-06,
      "loss": 1.1602,
      "num_input_tokens_seen": 6265241600,
      "step": 95600,
      "train_runtime": 46309.4141,
      "train_tokens_per_second": 135290.885
    },
    {
      "epoch": 0.957,
      "grad_norm": 0.7523248195648193,
      "learning_rate": 1.3949390338662047e-06,
      "loss": 1.1655,
      "num_input_tokens_seen": 6271795200,
      "step": 95700,
      "train_runtime": 46357.4405,
      "train_tokens_per_second": 135292.094
    },
    {
      "epoch": 0.958,
      "grad_norm": 0.5935103297233582,
      "learning_rate": 1.330922293080744e-06,
      "loss": 1.1702,
      "num_input_tokens_seen": 6278348800,
      "step": 95800,
      "train_runtime": 46406.0604,
      "train_tokens_per_second": 135291.571
    },
    {
      "epoch": 0.959,
      "grad_norm": 0.8042653203010559,
      "learning_rate": 1.2684026482572662e-06,
      "loss": 1.1623,
      "num_input_tokens_seen": 6284902400,
      "step": 95900,
      "train_runtime": 46454.8491,
      "train_tokens_per_second": 135290.557
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5935735106468201,
      "learning_rate": 1.2073807289678993e-06,
      "loss": 1.1441,
      "num_input_tokens_seen": 6291456000,
      "step": 96000,
      "train_runtime": 46502.688,
      "train_tokens_per_second": 135292.308
    },
    {
      "epoch": 0.961,
      "grad_norm": 0.5718377828598022,
      "learning_rate": 1.147857149702669e-06,
      "loss": 1.1618,
      "num_input_tokens_seen": 6298009600,
      "step": 96100,
      "train_runtime": 46555.2337,
      "train_tokens_per_second": 135280.378
    },
    {
      "epoch": 0.962,
      "grad_norm": 0.6801995635032654,
      "learning_rate": 1.0898325098633697e-06,
      "loss": 1.1479,
      "num_input_tokens_seen": 6304563200,
      "step": 96200,
      "train_runtime": 46603.2751,
      "train_tokens_per_second": 135281.548
    },
    {
      "epoch": 0.963,
      "grad_norm": 0.5564619898796082,
      "learning_rate": 1.0333073937575043e-06,
      "loss": 1.1582,
      "num_input_tokens_seen": 6311116800,
      "step": 96300,
      "train_runtime": 46652.5681,
      "train_tokens_per_second": 135279.087
    },
    {
      "epoch": 0.964,
      "grad_norm": 0.6501321792602539,
      "learning_rate": 9.782823705923204e-07,
      "loss": 1.1617,
      "num_input_tokens_seen": 6317670400,
      "step": 96400,
      "train_runtime": 46700.1727,
      "train_tokens_per_second": 135281.521
    },
    {
      "epoch": 0.965,
      "grad_norm": 0.6728459596633911,
      "learning_rate": 9.247579944692162e-07,
      "loss": 1.1592,
      "num_input_tokens_seen": 6324224000,
      "step": 96500,
      "train_runtime": 46748.7553,
      "train_tokens_per_second": 135281.12
    },
    {
      "epoch": 0.966,
      "grad_norm": 0.5893784761428833,
      "learning_rate": 8.72734804378078e-07,
      "loss": 1.1691,
      "num_input_tokens_seen": 6330777600,
      "step": 96600,
      "train_runtime": 46801.015,
      "train_tokens_per_second": 135270.092
    },
    {
      "epoch": 0.967,
      "grad_norm": 0.8625339269638062,
      "learning_rate": 8.222133241918172e-07,
      "loss": 1.1518,
      "num_input_tokens_seen": 6337331200,
      "step": 96700,
      "train_runtime": 46847.2237,
      "train_tokens_per_second": 135276.559
    },
    {
      "epoch": 0.968,
      "grad_norm": 0.6501858830451965,
      "learning_rate": 7.731940626612088e-07,
      "loss": 1.1693,
      "num_input_tokens_seen": 6343884800,
      "step": 96800,
      "train_runtime": 46895.3712,
      "train_tokens_per_second": 135277.419
    },
    {
      "epoch": 0.969,
      "grad_norm": 0.6575475335121155,
      "learning_rate": 7.256775134096615e-07,
      "loss": 1.1552,
      "num_input_tokens_seen": 6350438400,
      "step": 96900,
      "train_runtime": 46942.8491,
      "train_tokens_per_second": 135280.208
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.5287050604820251,
      "learning_rate": 6.796641549283055e-07,
      "loss": 1.1946,
      "num_input_tokens_seen": 6356992000,
      "step": 97000,
      "train_runtime": 46991.8919,
      "train_tokens_per_second": 135278.486
    },
    {
      "epoch": 0.971,
      "grad_norm": 0.568566083908081,
      "learning_rate": 6.351544505711292e-07,
      "loss": 1.1559,
      "num_input_tokens_seen": 6363545600,
      "step": 97100,
      "train_runtime": 47040.0316,
      "train_tokens_per_second": 135279.365
    },
    {
      "epoch": 0.972,
      "grad_norm": 0.9329395890235901,
      "learning_rate": 5.921488485503833e-07,
      "loss": 1.1603,
      "num_input_tokens_seen": 6370099200,
      "step": 97200,
      "train_runtime": 47092.2725,
      "train_tokens_per_second": 135268.46
    },
    {
      "epoch": 0.973,
      "grad_norm": 0.6256415843963623,
      "learning_rate": 5.506477819319843e-07,
      "loss": 1.1571,
      "num_input_tokens_seen": 6376652800,
      "step": 97300,
      "train_runtime": 47139.4068,
      "train_tokens_per_second": 135272.233
    },
    {
      "epoch": 0.974,
      "grad_norm": 0.7202081680297852,
      "learning_rate": 5.106516686312345e-07,
      "loss": 1.1638,
      "num_input_tokens_seen": 6383206400,
      "step": 97400,
      "train_runtime": 47191.9059,
      "train_tokens_per_second": 135260.619
    },
    {
      "epoch": 0.975,
      "grad_norm": 1.2700363397598267,
      "learning_rate": 4.721609114085256e-07,
      "loss": 1.1649,
      "num_input_tokens_seen": 6389760000,
      "step": 97500,
      "train_runtime": 47240.0777,
      "train_tokens_per_second": 135261.42
    },
    {
      "epoch": 0.976,
      "grad_norm": 0.5555500388145447,
      "learning_rate": 4.3517589786539186e-07,
      "loss": 1.1505,
      "num_input_tokens_seen": 6396313600,
      "step": 97600,
      "train_runtime": 47287.972,
      "train_tokens_per_second": 135263.013
    },
    {
      "epoch": 0.977,
      "grad_norm": 0.6499391198158264,
      "learning_rate": 3.996970004404798e-07,
      "loss": 1.153,
      "num_input_tokens_seen": 6402867200,
      "step": 97700,
      "train_runtime": 47335.8726,
      "train_tokens_per_second": 135264.586
    },
    {
      "epoch": 0.978,
      "grad_norm": 0.6353591084480286,
      "learning_rate": 3.657245764058847e-07,
      "loss": 1.1621,
      "num_input_tokens_seen": 6409420800,
      "step": 97800,
      "train_runtime": 47382.5196,
      "train_tokens_per_second": 135269.733
    },
    {
      "epoch": 0.979,
      "grad_norm": 0.62052321434021,
      "learning_rate": 3.3325896786355334e-07,
      "loss": 1.1539,
      "num_input_tokens_seen": 6415974400,
      "step": 97900,
      "train_runtime": 47435.6023,
      "train_tokens_per_second": 135256.518
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.5979087352752686,
      "learning_rate": 3.023005017418201e-07,
      "loss": 1.1615,
      "num_input_tokens_seen": 6422528000,
      "step": 98000,
      "train_runtime": 47484.0018,
      "train_tokens_per_second": 135256.671
    },
    {
      "epoch": 0.981,
      "grad_norm": 1.0899096727371216,
      "learning_rate": 2.7284948979205967e-07,
      "loss": 1.166,
      "num_input_tokens_seen": 6429081600,
      "step": 98100,
      "train_runtime": 47531.611,
      "train_tokens_per_second": 135259.072
    },
    {
      "epoch": 0.982,
      "grad_norm": 0.6240010857582092,
      "learning_rate": 2.449062285856729e-07,
      "loss": 1.1565,
      "num_input_tokens_seen": 6435635200,
      "step": 98200,
      "train_runtime": 47578.8884,
      "train_tokens_per_second": 135262.412
    },
    {
      "epoch": 0.983,
      "grad_norm": 0.7941544651985168,
      "learning_rate": 2.184709995109557e-07,
      "loss": 1.1572,
      "num_input_tokens_seen": 6442188800,
      "step": 98300,
      "train_runtime": 47627.3828,
      "train_tokens_per_second": 135262.289
    },
    {
      "epoch": 0.984,
      "grad_norm": 0.5704551339149475,
      "learning_rate": 1.9354406877038487e-07,
      "loss": 1.1629,
      "num_input_tokens_seen": 6448742400,
      "step": 98400,
      "train_runtime": 47679.6586,
      "train_tokens_per_second": 135251.438
    },
    {
      "epoch": 0.985,
      "grad_norm": 0.5758212208747864,
      "learning_rate": 1.7012568737788668e-07,
      "loss": 1.1892,
      "num_input_tokens_seen": 6455296000,
      "step": 98500,
      "train_runtime": 47728.7818,
      "train_tokens_per_second": 135249.545
    },
    {
      "epoch": 0.986,
      "grad_norm": 0.5768951773643494,
      "learning_rate": 1.4821609115630574e-07,
      "loss": 1.1617,
      "num_input_tokens_seen": 6461849600,
      "step": 98600,
      "train_runtime": 47775.3275,
      "train_tokens_per_second": 135254.952
    },
    {
      "epoch": 0.987,
      "grad_norm": 0.5714033842086792,
      "learning_rate": 1.278155007350068e-07,
      "loss": 1.1712,
      "num_input_tokens_seen": 6468403200,
      "step": 98700,
      "train_runtime": 47823.1467,
      "train_tokens_per_second": 135256.746
    },
    {
      "epoch": 0.988,
      "grad_norm": 1.029975414276123,
      "learning_rate": 1.089241215477099e-07,
      "loss": 1.1621,
      "num_input_tokens_seen": 6474956800,
      "step": 98800,
      "train_runtime": 47875.5087,
      "train_tokens_per_second": 135245.702
    },
    {
      "epoch": 0.989,
      "grad_norm": 0.5554516315460205,
      "learning_rate": 9.154214383042535e-08,
      "loss": 1.1489,
      "num_input_tokens_seen": 6481510400,
      "step": 98900,
      "train_runtime": 47923.8409,
      "train_tokens_per_second": 135246.055
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6340943574905396,
      "learning_rate": 7.566974261945524e-08,
      "loss": 1.1721,
      "num_input_tokens_seen": 6488064000,
      "step": 99000,
      "train_runtime": 47972.1937,
      "train_tokens_per_second": 135246.348
    },
    {
      "epoch": 0.991,
      "grad_norm": 0.582399845123291,
      "learning_rate": 6.13070777496949e-08,
      "loss": 1.1497,
      "num_input_tokens_seen": 6494617600,
      "step": 99100,
      "train_runtime": 48020.3976,
      "train_tokens_per_second": 135247.06
    },
    {
      "epoch": 0.992,
      "grad_norm": 0.6133337020874023,
      "learning_rate": 4.845429385303412e-08,
      "loss": 1.1601,
      "num_input_tokens_seen": 6501171200,
      "step": 99200,
      "train_runtime": 48068.6895,
      "train_tokens_per_second": 135247.523
    },
    {
      "epoch": 0.993,
      "grad_norm": 0.5691381096839905,
      "learning_rate": 3.711152035685838e-08,
      "loss": 1.1571,
      "num_input_tokens_seen": 6507724800,
      "step": 99300,
      "train_runtime": 48115.7967,
      "train_tokens_per_second": 135251.315
    },
    {
      "epoch": 0.994,
      "grad_norm": 0.6613404750823975,
      "learning_rate": 2.727887148278318e-08,
      "loss": 1.1569,
      "num_input_tokens_seen": 6514278400,
      "step": 99400,
      "train_runtime": 48169.6246,
      "train_tokens_per_second": 135236.229
    },
    {
      "epoch": 0.995,
      "grad_norm": 0.5285235047340393,
      "learning_rate": 1.8956446245455005e-08,
      "loss": 1.1722,
      "num_input_tokens_seen": 6520832000,
      "step": 99500,
      "train_runtime": 48217.4936,
      "train_tokens_per_second": 135237.888
    },
    {
      "epoch": 0.996,
      "grad_norm": 0.8071156144142151,
      "learning_rate": 1.2144328451618724e-08,
      "loss": 1.1571,
      "num_input_tokens_seen": 6527385600,
      "step": 99600,
      "train_runtime": 48264.7605,
      "train_tokens_per_second": 135241.231
    },
    {
      "epoch": 0.997,
      "grad_norm": 0.5775815844535828,
      "learning_rate": 6.84258669920168e-09,
      "loss": 1.1634,
      "num_input_tokens_seen": 6533939200,
      "step": 99700,
      "train_runtime": 48314.0709,
      "train_tokens_per_second": 135238.846
    },
    {
      "epoch": 0.998,
      "grad_norm": 0.5299545526504517,
      "learning_rate": 3.0512743767141524e-09,
      "loss": 1.1563,
      "num_input_tokens_seen": 6540492800,
      "step": 99800,
      "train_runtime": 48364.7142,
      "train_tokens_per_second": 135232.74
    },
    {
      "epoch": 0.999,
      "grad_norm": 0.636650800704956,
      "learning_rate": 7.70429662616534e-10,
      "loss": 1.1653,
      "num_input_tokens_seen": 6547046400,
      "step": 99900,
      "train_runtime": 48412.6126,
      "train_tokens_per_second": 135234.313
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.5705932974815369,
      "learning_rate": 7.552498626495208e-14,
      "loss": 1.1814,
      "num_input_tokens_seen": 6553600000,
      "step": 100000,
      "train_runtime": 48460.0302,
      "train_tokens_per_second": 135237.225
    },
    {
      "epoch": 1.0,
      "num_input_tokens_seen": 6553600000,
      "step": 100000,
      "total_flos": 1.23866185728e+17,
      "train_loss": 1.241861473388672,
      "train_runtime": 48460.2218,
      "train_samples_per_second": 528.268,
      "train_steps_per_second": 2.064
    }
  ],
  "logging_steps": 100,
  "max_steps": 100000,
  "num_input_tokens_seen": 6553600000,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 1000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.23866185728e+17,
  "train_batch_size": 256,
  "trial_name": null,
  "trial_params": null
}